用户名:

密码:

验证码:

当前位置:新媒动态 > 财经股票 > 保险 >

河北时时彩软件手机版下载:专访俞栋:多模态是迈向通用人工智能的重要方向

2019-10-12 16:07 记者观察网 点击次数 :次

河北时时彩开奖视频 www.gnshp.tw 随着语音识别、自然语言处理、计算机视觉等人工智能技术日益成熟,并逐渐落地到实际场景中,如何实现大规模应用落地或者说如何通往通用人工智能,越来越成为这些领域的研究者探索和思考的命题。

在这种探索和思考下,“多模态”成为人工智能领域诸领军式专家和学者重点谈及的研究方向,例如,自然语言处理领域专家刘群教授在此前与 AI 科技评论的对话中,就曾谈及诺亚方舟语音语义实验室目前的一大重点研究方向便是多模态;德国汉堡科学院院士张建伟认为人机交互的未来是多模态共享模式;计算机视觉领域专家贾佳亚教授则在多场演讲中提出「多模态是人工智能的未来」这一观点。

而腾讯作为业界关注这一研究方向的代表之一,自 2018 年 2 月就开始关注多模态方向的研究,并于 2018 年 11 月宣布探索下一代人机交互方式:多模态智能。

9 月 2 日,在腾讯 AI Lab 携手 Nature Research(自然科研)及旗下《自然-机器智能》、《自然-生物医学工程》两本期刊联合举办世界首届「Nature Conference - AI 与机器人大会」上,语音识别领域的领头人之一、腾讯 AI Lab 副主任、多模态虚拟人项目负责人俞栋博士更是基于其在多模态技术上的研究成果,带来了《虚拟人中的多模态合成技术》的演讲报告,以虚拟人项目为载体,向大家介绍了多模态的技术优势,并分享了腾讯 AI Lab 在这一方向上的研究和应用探索。

会后,AI 科技评论还对俞栋博士进行了专访,进一步探讨了多模态的应用探索情况,其中,俞栋博士在将多模态这一研究方向视为迈向通用人工智能的突破口的同时,也以更加冷静的态度指出,多模态会是未来人工智能的一个非常重要的方向,但并不是全部。因为人工智能是一个很广泛的概念,我们目前对它可能只是略知皮毛,通往通用人工智能的这条路到底是怎么样的,大家都还处于一个探索状态。

与此同时,AI 科技评论也借此机会跟俞栋博士聊了聊他领先将深度学习技术应用到语音识别领域的历史渊源、从微软研究院到腾讯 AI Lab 的职业转变经历以及其对于语音识别领域未来发展的看法。

我们先来看俞栋博士在本次大会上都分享了什么。

专访俞栋:多模态是迈向通用人工智能的重要方向

为什么多模态是人机交互的发展趋势?

人机交互走过了键盘交互、触摸交互等若干阶段,目前许多设备采用语音交互的方式。而交互模式经历每一次变化背后的驱动力,都是对人和机器之间交互的便利性、自然性以及准确性所提出的更高的要求。

为了更好地满足人机交互的这一需求,俞栋博士指出了一个非常重要的研究方向或者说发展趋势,那就是多模态人机交互。与此同时,俞栋博士也解释了为什么多模态是人机交互的发展趋势的原因,主要有四点:

第一,多模态交互能够让人类在不同的场景下可以选择不同的模态组合进行交互,进而从整体上提高人机交互的自然度;

第二,在多模态技术下,一个模态可以补充另一个模态的弱点,从而能够通过融合多个模态的信息,获得更精确的用户、情感、场景、和发声人位置估计;

第三,多模态交互具有「互为监督」的优势,即当机器无法获得某个模态的明显信息时,其他模态可以为其提供弱监督信息,让机器能够持续做系统自适应调整;

第四,多模态能够让人们在与机器的交互过程中拥有多维感觉,从而能够从视觉、听觉、触觉等多方面体会机器的情感和表达的语义。

而除了所具备的这些优势外,俞栋博士认为,多模态交互还能够给业界带来更多的想象空间,比如可以尝试使用人机交互技术去做虚拟解说、虚拟前台、虚拟陪伴等。

正是由于多模态交互所具备的这些优势以及所带来的这种想象空间,他也领导团队开启了虚拟人的研究项目。下面,俞栋博士也以虚拟人这项研究成果为载体,对多模态交互技术进行了详细介绍。

多模态交互技术详解及应用成果分享

俞栋博士首先介绍了多模态交互的系统框架,主要包括三个部分:多模态输入、中间的认知和决策控制环节以及最后的输出。

专访俞栋:多模态是迈向通用人工智能的重要方向

进一步,俞栋博士向大家展示了多模态技术的阶段性成果——虚拟人的合成技术流程:系统首先从文本中提取各种各样的信息,包括动作、表情、情感、重音位置、和激动程度等;之后将这些信息输入到动作表情模型生成动作和表情,同时输入给多模态合成系统 DurIAN 同步生成语音以及口型和表情参数,进而合成真人或者卡通形象。

专访俞栋:多模态是迈向通用人工智能的重要方向

其中,同步合成语音和图像的 DurIAN 模型作为多模态合成技术的核心成果,则是俞栋博士本次要介绍的重点内容。

据俞栋博士介绍,相较于传统语音合成方法以及目前最新的端到端语音合成方法,应用多模态合成技术DurIAN 模型,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

传统语音合成方法 VS 端到端语音合成方法

在正式介绍 DurIAN 模型前,俞栋博士先介绍了传统语音合成方法、端到端语音合成方法、以及这两种方法各自的优缺点。

传统语音合成方法主要基于 BLSTM+WORLD 模型,拥有稳定性和可控性较强的优点,同时也存在合成语音机械感太浓的缺点。不过由于该方法具备较强的稳定性和可控性,在工业界的实用系统中主要还是使用这种框架。

端到端的语音合成方法优点则在于自然度很高,缺点则是稳定性和可控性比较差,其中最常见的问题是漏字和重复。以从文献中摘录的结果为例,该系统出现漏字或者重复错误的可能性为 1%-5%。因而,该方法在实用系统里没有得到广泛使用。不过近来,该方法取得了很大进展,例如谷歌于 2018 年提出的结合 WaveNet 的 Tacotron 模型。

相比于传统语音合成方法,端到端语音合成模型 Tacotron 的优势主要有四个改进部分:

第一,它使用了基于神经网络的编码器模型来替换人工设计的语言学特征;

第二,它直接预测含有丰富信息的频率谱,而不是源过滤器声学特征;

第三,它引入了自回归模型,解决了合成过程中的过度平滑问题;

第四,它采用了基于注意力机制的端到端训练方法。



(此文不代表本网站观点,仅代表作者言论,由此文引发的各种争议,本网站声明免责,也不承担连带责任。)

(责任编辑:主编)
文章人气:
(请您在发表言论时自觉遵守互联网相关政策法律法规,文明上网,健康言论。)
用户名:
验证码:
  • 工业4.0企业需要买哪
    工业4.0企业需要买哪些保险?财产保险报价网细述, 工业4.0企业需要买哪些保险?财产保...
    工业4.0企业需要买哪些保险?财产保险报价网细述
  • 17支财富管理精英团队
    全新设计的《广州日报》多媒体数字报纸,该版本数字报纸具有超大版面图、下载速度快和...
    17支财富管理精英团队亮相 16家银行和5家保险公司脱颖而出
  • 驾驶证过期影响保险理
    ■案情简介 2014年,张先生购买了一辆广州本田轿车,并通过某财险公司办理了机动车强...
    驾驶证过期影响保险理赔
  • OK保险网保险业10月月
    一、10月人事变动:据OK保险网统计,10月份人事变动人数共76人。其中董事长职位6人,...
    OK保险网保险业10月月报:中再挂牌上市
首页 | 新闻资讯 | 财经股票 | 科技新闻 | 汽车资讯 | 娱乐八卦 | 体育新闻 | 房产楼市 | 旅游资讯 | 健康养生 | 明星时尚 | 主持人主 |