官方网站-首页
亚马逊推出全新 AI 语音模型 Nova Sonic,叫板 OpenAI 和谷歌
【导语】4月9日,亚马逊震撼发布新一代生成式AI模型——Nova Sonic,该模型能原生处理并生成自然流畅的语音,展现出与OpenAI和谷歌前沿语音模型相媲美的实力。作为亚马逊对新兴AI语音模型的有力回应,Nova Sonic不仅在语音交互上更加自然,还通过Bedrock开发者平台以极具成本效益的价格提供给用户。这一创新举措标志着亚马逊在人工通用智能(AGI)战略上迈出了重要一步,未来或将引领AI语音模型的新潮流。

4 月 9 日消息,亚马逊发布了名为 Nova Sonic 的新一代生成式 AI 模型,该模型能够原生处理语音并生成自然流畅的语音。据亚马逊声称,Nova Sonic 在速度、语音识别以及对话质量等关键指标的基准测试中,表现可与(yǔ) OpenAI 和(hé)谷(gǔ)歌(gē)的(de)前(qián)沿(yán)语(yǔ)音(yīn)模(mó)型相媲美。
Nova Sonic 的问世是亚马逊对新兴 AI 语音模型的有力回应,例如为 ChatGPT 语音模式提供支持的模型,相较于亚马逊早期的 Alexa 等较为刻板的模型,这些新模型在语音交互时更加自然。
Nova Sonic 通过亚马逊的 Bedrock 开发者平台提供给用户,该平台是用于构建企业级 AI 应用的工具,Nova Sonic 则通过一个全新的双向流式 API 进行接入。在一份新闻稿中,亚马逊称 Nova Sonic 是市场上“最具成本效益”的 AI 语音模型,其价格比 OpenAI 的 GPT-4o 便宜约 80%。
据亚马逊高级副总裁兼人工通用智能(AGI)部门首席科学家罗希特・普拉萨德介绍,Nova Sonic 的部分组件已经为亚马逊升级版数字语音助手 Alexa+ 提供了动力支持。
普拉萨德表示,与竞争对手的 AI 语音模型相比,Nova Sonic 在将用户请求路由到不同 API 方面表现出色。这一能力使得 Nova Sonic 能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。
在双向对话中,Nova Sonic 会等待“合适的时机”发言,会考虑到说话者的停顿和打断等情况。此外,Nova Sonic 还能够为用户的语音生成文本记录,开发者可以将这些文本用于各种应用场景。
据普拉萨德介绍,Nova Sonic 在语音识别错误方面比其他 AI 语音模型更少,这意味着(zhe)该(gāi)模(mó)型(xíng)即(jí)使(shǐ)在(zài)用户咕哝、说错话或(huò)者(zhě)处(chù)于(yú)嘈(cáo)杂环境中时,也相对擅长理解用户的(de)意(yì)图(tú)。在(zài)一(yī)项(xiàng)衡(héng)量(liàng)跨(kuà)语(yǔ)言(yán)和(hé)方(fāng)言(yán)的(de)语(yǔ)音(yīn)识(shi)别基准测试 —— 多语言 LibriSpeech 中,亚马逊表示 Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率(WER)仅为 4.2%。也就是说,在这些语言中,该模型每 100 个单词中大约有 4 个与人工转录的结果不同。
在另一项衡量多人参与的高音量互动的基准测试 —— 增强多方互动中,亚马逊称 Nova Sonic 在单词错误率方面比 OpenAI 的 GPT-4o-transcribe 模型准确率高出 46.7%。Nova Sonic 还拥有行业领先的速度,其平均感知延迟为 1.09 秒,亚马逊表示。这一速度比为 OpenAI 的实时 API 提供动力的 GPT-4o 模型更快,后者响应时间为 1.18 秒,这是根据人工分析的基准测试结果得出的。
普拉萨德称,Nova Sonic 是亚马逊构建人工通用智能(AGI)这一更广泛战略的一部分,公司定义 AGI 为“能够在计算机上完成人类所能做的一切事情的 AI 系统”。展望未来,普拉萨德表示,亚马逊计划推(tuī)出(chū)更(gèng)多(duō)能(néng)够(gòu)理(lǐ)解(jiě)不(bù)同(tóng)模(mó)态(tài)(包(bāo)括(kuò)图(tú)像(xiàng)、视(shì)频(pín)和(hé)语(yǔ)音(yīn))的(de) AI 模(mó)型(xíng),以(yǐ)及(jí)“其(qí)他(tā)在(zài)将(jiāng)事(shì)物(wù)引(yǐn)入(rù)物(wù)理(lǐ)世(shì)界(jiè)时(shí)相(xiāng)关的(de)感(gǎn)官(guān)数据”。
由普拉萨德负责的亚马逊 AGI 部门,如今似乎在公司产品战略中扮演着越来越重要的角色。就在上周,亚马逊刚刚推出了 Nova Act 的预览版,这是一个使用浏览器的 AI 模型,似乎为 Alexa+ 和亚马逊的“代我购买”功能的部分元素提供了支持。普拉萨德表示,从 Nova Sonic 开始,公司希望将更多内部的 AI 模型提供给开发者使用,以助力他们构建各种应用。
微信公众号搜索“ 新能源 ”加关注,最新环卫前沿洞察、企业动态、产品公告全面了解。推荐关注!
【微信扫描下方二维码可直接关注】



