
AI诈欺风向标(公众号:ZhidxcomAI)欧洲杯体育
智东西12月10日报谈,本日,智谱崇拜发布并开源GLM-ASR系列语音识别模子,并同步上线了基于该模子打造的桌面端智谱AI输入法“小凹”。
比较传统语音输入只可“把话酿成字”,小凹在输入框中即可完成翻译、改写、规画、规画等指示操作。
咱们在实质体验中发现,小凹不仅能在完结相对踏实的语音转写,还能顺着用户的白话进行内容整理、作风调理或径直完成小任务。
举例随口报账、算工资、安排旅行、以至解一谈数学解说题,它都能跟上。而关于碎碎念、自我修正和中英混说等复杂白话,小凹也能给出相应收尾,但合座踏实性仍有提高空间。
与此同期,智谱这次还开源了1.5B参数目的端侧模子GLM-ASR-Nano-2512,要点面向腹地低延伸与隐秘场景,在部分公开测试集上达到开源SOTA发达。
GLM-ASR-2512使用指南:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
体验中心:https://bigmodel.cn/trialcenter/modeltrial/voice
接口文档:https://docs.bigmodel.cn/api-reference/模子-api/语音转文本
GLM-ASR-Nano-2512开源地址:
Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
一、从云侧到端侧,语音识别被径直塞进输入法这次同步发布的GLM-ASR-2512是一款云霄语音识别模子,扶助及时语音转翰墨,在多语种、多口音与复杂环境下进行过踏实性测试,其字符子虚率(CER)仅为0.0717。
同期开源的GLM-ASR-Nano-2512则是一款约1.5B参数限制的端侧模子,主打腹地运行,在延伸和隐秘层面更友好。它在开源语音识别标的已达到SOTA水平,在部分测试中以至跨越了若干闭源模子。

▲GLM-ASR-Nano与多款主流语音识别模子在多个公开数据集上的识别子虚率对比
围绕这套模子本事,智谱将语音识别径直镶嵌桌面端输入法中,使语音不错径直驱动翻译、改写、扩写、情景抒发调理与规画等一系列后续操作,用户在输入框中即可完成从语音到收尾的齐全经由,不需要再切换窗口,也不需要复制粘贴,光标在哪,说完就能径直替换。
二、语音不单转翰墨,还能顺着你的话去改、去算、去规画在实质体验中,初度使用需要跳转浏览器完成手机号登录,并进行麦克风和“允许粘贴翰墨”基础权限授权。

▲使用浏览器登录以使用小凹语言管事

▲麦克风和“允许粘贴翰墨”基础权限授权
完成授权后,输入法会自动跳转到一个体验界面,主要用于语曲调试和闇练中枢功能。随后,干预输入法主页,合座界面分红“首页”“辞书”和“东谈主设”三个主要区域。
首页更像是一个“使用仪容盘”,会把近期的语音输入时长、生成翰墨数目以及按打字速率鲁莽规画的省俭期间都展示出来,底部还会自动纪请托户一天内的输入内容,肤浅回看。

▲智谱AI输入法主页
“辞书”是一个用于真贵特等名词和理论抒发的吝惜具栏。它会自动学惯用户不竭说的词,但也允许用户手动添加名堂名、东谈主名、行业术语等,幸免转写时出现子虚。

▲辞书页面
再往下是“东谈主设”页面,不错说是输入法里AI化最彰着的部分。这里不仅能看到多个预置的东谈主设,如“默许作风”“自动翻译”“号令行大神”“面临雇主”“面临伴侣”“面临共事”等,每一个都带着对应的抒发口吻。同期也扶助用户我方新建东谈主设,调整口吻、抒发方式或动作偏好。点开纵脱东谈主设,右侧会清楚可剪辑的形色区域。

▲东谈主设页面
干预崇拜体验后,我先从最基础、亦然最迫临日常使用的场景驱动试起。
看到案例里它能把说错的日历和期间自动整理成最终阐述的收尾,我也顺遂用了一种接近果然理论抒发的方式来测试。

我像平时言语雷同随口讲:“呃呃我盘算九点召开一个会议,嗯……算了,如故十极少吧。”
在多轮尝试后,最终才获取的预期收尾“我盘算在十极少召开一个会议”。可见,它对白话中自我修正和停顿词的自动照顾,现在还谈不上王人备踏实。

在更为复杂的一轮测试中,我径直白话输入了一整段中英文羼杂的职责交流内容:“这次Q3的marketing campaign involves our research team,leverage on他们新出的陈诉吧,然后用度的话charge Joanna部门,问一下他未来有莫得期间一谈过一下budget,上周五你present的deck等会不错发我一下吗?也cc一下Jennifer吧。”

在这一轮中英混说的测试中,系统固然能基本复原语句结构,但英文部分的识别准确性一般,辘集抒发时容易出现偏差。
随后我测试了东谈主设抒发功能,分裂选拔了“面临雇主”和“面临伴侣”,输入磨灭条“对不起,我临时有事,下昼去不明晰”,两种东谈主设在口吻上合座互异并不大。

▲ “面临雇主”这一东谈主设的输出收尾

▲ “面临伴侣”这一东谈主设的输出收尾
要是但愿达到展示案例中的彰着作风切换成果,或仍需要在自界说东谈主设中补充更明确的提醒语。

▲东谈主设功能的官决策例展示
而面临设立者,“号令行大神”这一东谈主设则具备一定的实用性,我语音输入“清楚面前总共python程度的程度号”后,系统功能径直给出尺度号令收尾。

▲ “号令行大神”这一东谈主设的输出收尾
随后我又辘集语音发问“小凹,智谱AI输入法的上风在那里”和“为什么语音输入比键盘输入更友好”,嗅觉更像是在输入法里径直“召唤”了一个AI助手,谜底不是弹窗样子出现,而是径直生成在光标位置,这两次发问都能昔时给出解释性申报。

▲解释性回答
此外,在选华文本后,说出“翻译成英文”、“翻译成日文”和“翻译成四川话”,收尾均可即时替换,光标所选即所改的模式在剪辑过程中比较高效。

在更偏向生涯类的小任务里,我先试了一个随口报账的场景:“嘿小凹,帮我记一下今天的账单,我早上吃饭花了六块五,中午快餐二十五,晚上看电影三十九,晚饭一百。”输入法能把这些数字正确纪录下来,自动汇回来算。

▲记账
随后,我又试了试规画工资的场景:“嘿小凹,规画一下年薪有若干?月工资三十k,署名费五万,十万期权分两年披发。”系统能把这些条款断绝并算出一个明确的收尾,用语音完成这种微型算式比料到中顺滑。

▲算工资
再往后我测试了一个规画任务,比如“嘿小凹,我想去上海玩两天,从北京开赴,帮我制定一个旅行贪图。”它也能给出一个结构化的行程淡薄。

▲行程规画
此外,我还抛了一谈数学解说题进去,系统不仅给了过程,还在听到有歧义的部分时主动提醒:“题目中的‘1+x分之x’我知道为‘1+x/x’。”这种在语音抒发容易隐晦时给出的格外诠释,对纯语音输入来说如故挺要道的。

此外,在完玉成部功能测试后,我又把“小凹”放进了简直的写稿经由中。这篇稿子里,约有90%的内容,是通过语音径直生成在输入框里的,许多段落险些是“边想边说”就成型了。我也第一次彰着嗅觉到,输入方式正在反过来影响写稿想路。
结语:输入法很可能会成为AI下一个高频进口从这次合座体验来看,小凹的变化在于它驱动袭取一部分蓝本需要东谈主手完成的小任务:一句话不错记账、算清一笔收入、改一句抒发、顺遂作念一个行程规画。
输入法这个蓝本最基础、最闇练的器具,正在被再行界说成一个“随叫随用”的AI进口。
更清苦的是,这种变化发生在桌面端,AI本事好像被径直嵌进日常最频繁使用的输入场景里,冉冉酿成职责流的一部分。
天然欧洲杯体育,从碎碎念整理、中英混说到东谈主设抒发的踏实性来看,小凹仍然处在不休打磨的过程中,但标的还是很赫然,AI还是驱动更具体地参与到用户每天的职责中。
