
自从 AI 出现以后,我刷视频,老被那种" AI 配音"的科普号整出戏。发音南腔北调,但情绪语调听起来像白沸水似的,听着耳朵都起茧子。
是以我对 AI 语音这个东西,一直保持保守作风。
固然录视频时,我频繁因为语音 NG,但真的被伤过太屡次。市面上哪些堪称 " 比好意思真东说念主 " 的 AI 语音,就像喝了假酒的 Siri 一样,每次听都合计差连气儿,太没活东说念主感了。
上周,我看到 MiniMax 最新升级到了最新的 2.8 语音模子,据先容,这货还是进化到东说念主耳难辨的进度。
MiniMax 的 AI 配音
第一次掀开 MiniMax 的语音生成界面照旧挺爽快的。

同期,它还分红语音合成与音乐创作两个选项。(音乐创作不是咱们今天的主题,念念我测评这个模块的小伙伴,可以在指摘区留言告诉我)
中间是一个大文本框,只有输入文本,诊疗好我方可爱的参数,就能生成音频,合座粗陋粗浅。
可以看到,MiniMax 很贴心性给了新闻播报、评话、影视配音三个最主要的运用场景。
底下是模子的选拔,最新的等于 2.8 的模子,分为两个,一个是 hd,一个是 turbo(一个主打情绪渲染,一个主打生成速率)。
最底下还有一个音色库,内部摆放了官方调设好的音色,老狐我固然莫得细数,但是鼠标一皆滑下去,数目还是黑白常客不雅了。

岂论是御姐音、少年音、大叔音照旧萝莉音,以致是日中韩、法语、西班牙语都能选拔,基本能遮蔽频频使用了。
合座给我的第一印象,操作很粗陋,不到一分钟就能生成一段可以的语音,这效力让我流下了调遣(脑怒)的泪水。
(老狐我之前因为音色不惬意,一段视频 NG 了几十次,拍了差未几一整天 ...)

天然,这样傻瓜式的操作能不可作念出好语音?咱们来点硬核的。
AI 也有语言天禀!
既然是测试,那就要有章法。
凭证 MiniMax 我方宣传,刻下是相沿 40 多种语言,何况每种语言还配备不同的音色。
那我就要来先测试一下,米兰体育官网逻辑很粗陋,从国内到外洋,从旧例到变态。
粗陋的来看,我先测试了个平凡话,顺手选了个御姐音试试成果。
{jz:field.toptypename/}没念念到 ...
天啊!刻下连 AI 配音都能作念得这样传神,这样欲的吗??
这一来源就给了我惊喜。
那事不宜迟,接下来开动测粤语,毕竟我生存在广州嘛。
粤语这玩意儿,许多 AI 都翻车。声调复杂,用词特等,还频繁混合英文——这然而香港东说念主的频频操作。
我挑了钟嘉欣的名场合—— "cheap man"。这段台词然而经典中的经典,情绪要到位,粤语要正统,还要混合英文。

出来的为止竟然还可以。
有着精真金不怕火的港式粤语滋味,混合着英文单词的语感,十足不像 AI 生成的。
固然合座上照旧有点僵硬,但如实像哪个香港妹子在念台词,合座能达到以伪乱真的成果,它竟然差点骗过我的耳朵??
粤语这一关,过了。
粤语测完我准备上点难度,把外语测上。
这里我选了《教父》里的两个经典名场合。

教父那种嘶哑低千里、迟缓说念来却字字千钧的嗅觉,开云体育并装潢易配好,是以我挑升选了一个中老年男声息色。
固然嗓音是那种略带嘶哑的中老年声线,但吐字明晰,但等于这种 " 不完好 ",反而让通盘这个词东说念主物立体起来了,真的有点教父内味了。
在这里,我再说一个有理由的。
测完粤语和英语,我陡然发现一个好玩的功能:它果然相沿口音效法。
何况内部竟然还有印度口音!连阿三的口音也能效法吗??
我怀着疑信参半的心态,试了一下印度口音的英语。照旧刚才那段教父的台词,但此次加了印度口音标签。
音频出来的那一刻——我胜利笑了。
滋味太对了。那种浓浓的 " 印度阿三 " 滋味蹭蹭就上来了。卷舌音、私有的节律感,几乎神复原。
我以致脑补出了一个印度大叔一稔西装、戴着墨镜、用教父的口吻语言的画面。
这波,我是笃信的。
AI 配音还多情谊语调?
到这里,多语言才智算是测完毕,合座成果如实可以,但这仅仅基础。
配音演员历害的所在在何处?不是多语言的念字,而是情绪,语调。
归并句话,相同的笔墨,甘心、盛怒、缅怀说出来十足是三种说明,AI 要是作念不到这小数,就会瞬息出戏。
而此次 MiniMax 的 2.8 新 AI 语音模子,等于可以在输入的笔墨内部,插入各式标签。

举例说情绪标签,停顿标签,还有口吻词标签,这个作用在 AI 语音内部可以说是质变!
各式组合,能让生成出来的语音,有更多的情绪语调嗅觉。
来实测一下成果。
我先是把刚才钟嘉欣的 Cheap man 台词再行生成了一遍,但此次加了 " 不满 " 和 " 厌恶 " 的情绪标签。

成的确的不一样了,加上情绪之后,那种怼东说念主的名场合一下子就出来了。就连 "cheap man" 这种情绪化的词,她都说出了那种不屑、嫌弃的嗅觉。
就像你真的被东说念主气到了,然后忍不住骂了一句 "cheap man" ——那种又气又鄙视的嗅觉,真的极度到位。
我又试了一下教父的场景。
教父语言最大的特质是什么?不急不慢,每一句话都要停顿,每一个字都有重量。
我按着原场景,把话语作念了一些停顿,让他在环节的所在停驻来。

一下子,嗅觉就来了。
那种迟缓说念来、字字珠玑的嗅觉,真的让东说念主骚然起敬。要是闭上眼睛听,你真的会以为是一个老者在跟你语言。
我还我方尝试的期间,还发现了小数有理由的东西。
举例说,假如我聚拢加上好几个"哼唱"的预期标签上去,

它并不会机械地重迭一个哼唱的音符,而是智能地连成一段轻哼,然后才开动说我给的台词。
通盘这个词配音显得脚色极度可儿。
合座测试下来,行为一个科技博主,能看到,国产 AI 模子在语音生成上,关于情谊细节的把控、对多语种的完好相沿,如实走在了行业前线。
这小数让我赤忱肠感到骄贵。
但另一方面,我也开动为配音结识们捏把汗。
当一个模子能通过笔墨,假造出自便声息时,那就注定阶层比拟低,还只会念稿的使命岌岌可危。
不外所幸的是,时候永恒是器具,现阶段,可以看出来,MiniMax 的语音模子依然普及空间,举例在情绪上,依然还未能十足效法到位。
何况,即使 AI 能模拟出 99% 的完好声息,但决定声息此刻是哭是笑,依然掌抓在东说念主类手中。