探球网-足球篮球比分|体育资讯最前线

Facebook的AI 可以用比尔盖茨的声音说话 亚博体育报道人工智慧更进一步

20190614142416-082b5fe5d56d8d7c5c2780ebf335ecbe-tablet.jpg

图丨比尔·盖茨(来源:麻省理工科技评论)

机器语音系统一直有点令人失望:即使是最好的文本语音转换系统也摆脱不了机械的特性,缺乏人类说话时的基本语调变化。斯蒂芬·霍金使用的语音系统就是一个很好的例子。但近年来,机器学习取得了巨大进步,也改善了机器语音系统的一些缺点。

最近,Facebook 人工智慧研究中心的Sean Vasquez 和Mike Lewis 发现了一种可以克服从文本到语音系统转换限制,完全由机器生成而且音讯片段极其逼真的方法。这一系统被称为MelNet,它不仅可以复制人类的语调,而且可以用与真人相同的声音。于是,研究小组开始训练该系统,让它模仿出比尔·盖茨等人的说话。这项工作让人类和电脑之间更真实的互动成为可能,不仅如此,它的逼真程度,很可能引发虚假音讯内容骗术的新问题。

现实中的文本—语音转换系统进展缓慢并非是因为缺乏尝试。许多团队一直在尝试训练深度学习演算法,利用大型音讯资料库重现真实的语音模式。亚博体育官网YB60.CN观看最新资讯请下载APP关注更多资讯,我们将携手新的体育合作伙伴,一起共创美好未来。同时还将推出最新优惠活动,回馈广大VIP会员,欢迎加入我们的娱乐平台大家庭,不止能享受赛事直播的视觉盛宴还能观看最新电竞赛事。

Vasquez 和Lewis 说,这种方法的问题在于使用的资料类型。到目前为止,大多数工作都集中在音讯波形记录上。这些音讯波形显示了声音的振幅如何随时间而变化,它每秒记录的音讯包含数万个时间步长。

这些波形能在许多不同的尺度上显示出特定模式。例如,在几秒钟的讲话中,波形反映了与单词序列相关的特征模式。但是在微秒级的片段中,波形显示了与声音的音高和音色相关的特征。在其他尺度上,波形反映了说话人的语调、音素结构等。

另一种方法是将波形在一个时间步长和下一个时间步长之间的关联性考虑进来。所以,在给定的时间范围内,一个单词开头的声音与后面的声音是有关联的。

深度学习系统理应善于学习这些类型的关联性,并对它们进行复制。但问题出在不同时间尺度的关联性上,深度学习系统只能在有限的时间尺度上研究这些关联性。这是因为深度学习使用了一种叫做反向传播的学习过程,这种学习过程不断地重新连接网路,根据所看到的示例改进其性能。

重复率限制了系统学习关联性的时间尺度。因此,深度学习网路可以学习长时间或短时间内音讯波形的关联性,但不能同时兼顾两者。这就是为什么它们在复制语音方面表现如此糟糕的原因。

Vasquez 和Lewis 则有不同的方法。他们使用声谱图而不是音讯波形来训练他们的深度学习网路。声谱图记录了整个音频频谱及其随时间的变化。所以当波形捕捉到随时间变化的一个参数,例如振幅时,光谱图则捕捉到了不同频率范围内的振幅变化。

这意味着音讯资讯被更密集地打包到了这种类型的资料中。研究者认为:声谱图的时间轴比波形的时间轴紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系只跨越声谱图中的数百个时间步长。

这使得深度学习系统更容易获得关联性。他们说:这使得我们的声谱模型能够在数秒内产生一致的无条件语音和音乐样本。

20190614142435-508caec17577fafa5742a73e596cd88a-tablet.jpg

图丨声谱图VS 波形图(来源:Facebook)

最后的结果令人印象深刻。通过使用TED 演讲中的普通语音训练系统,MelNet 能够在几秒钟内复制TED 演讲者的声音,或多或少地说出一些内容。Facebook 的研究人员利用比尔·盖茨的TED 演讲来训练MelNet,然后用比尔·盖茨的声音说出一系列随机的短语,以此展示了MelNet 的灵活性。

当然,该方法也有一些限制。普通言语包含了更长时间尺度上的相关性。例如,在几十秒或几分钟的演讲进程中,人们会使用语调的变化来表示主题或情绪的变化。Facebook 的机器系统似乎还无法做到这一点。

因此,尽管MelNet 可以创造出非常逼真的短语,但团队还不能让机器完成较长的句子、段落或整个故事。这个目标似乎不是很快就能实现。

然而,这项工作可能会对人机交互产生重大影响。人机交互中许多对话只包含简短的短语。电话接线员和服务台尤其可以使用一系列相对简短的短语。因此,这项技术可以用一种比当前系统更接近人类的方式来优化这些交互。

不过,目前Vasquez 和Lewis 对潜在的应用前景守口如瓶。


上一篇:上一篇:德甲赞助商亚博体育报道快船打上了哈登的主意

下一篇:下一篇:退役军人聚一起切磋乒乓球技 厦门市首届退役军人乒乓球邀请赛落幕