[field:fulltitle/]

科技之窗 > 互联网 > 正文

腾讯俞栋:定义下一代智能人机交互 从目标、挑战到实现路径
2018-11-02 16:10  [db:来源]    我要投搞

语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士,在2018年腾讯全球合作伙伴大会上展示了腾讯AI正在推进的跨领域前沿研究:下一代的多模态智能人机交互。以下是有补充的演讲全文,介绍了人机交互的历史与目标、下一代智能人机交 互的优势与挑战,及腾讯AI的解决方案。

人机交互的未来,就是多模态智能人机交互

很长时间以来,计算机都只能在人们经过特定的训练之后才能使用,比如学习各种控制命令、理解各种图标的含义、熟悉各种程序的交互逻辑、练习使用键盘和鼠标等。对某些没有能力或没有意愿学习这些交互方式的人(比如盲人或年迈的老人),计算机将很难成为他们生活的一部分。

幸运的是,随着近些年来人工智能技术的发展,机器感知世界的能力也突飞猛进,计算机与人类的交互方式也正变得越来越自然,学习成本也越来越低。现在,虽然还远不够完美,但计算机已经能在一定程度上听懂人类的话语、预测人类的意图以及理解人脸的表情了。在这些研究和工程进展的基础上,研究者和开发者正基于“以人为中心”的原则探索未来的人机交互方式——多模态智能人机交互。

多模态智能人机交互是指使用人工智能技术,通过多种模态的信号(比如语音、文本、动作、表情等)实现人与机器的交互,其最终目标是使人机交互与人人交互一样便捷和自然。

人机交互的历史和目标

在计算机的发展历史上,随着技术的进步,发生过几次大的交互模式的演进。最近的两次大家比较熟悉的转变是从以鼠标/键盘为主的交互模式转换为以触摸和语音为主的交互模式。

人类创造计算机的最早目的是帮助自己处理一些繁琐的计算任务,比如弹道计算;那时候,只有经过训练的专业人员才有能力向计算机输入信息和阅读计算机输出的结果。随着硬件和软件技术的发展,计算机的速度越来越快,功能也愈渐强大,人与计算机的交互方式也越来越多样化,并日益向对人类而言更自然更便捷的“以人为中心”的方向发展。实际上,在计算机的发展历史上已发生过几次显著的交互范式演进。

1946 年正式投入使用的世界第一台通用计算机 ENIAC 的输入和输出都在卡带上进行,这种人机交互方式需要对卡带进行加工(打孔或涂绘等),从而为计算机提供二进制程序,因此速度缓慢。60 年代中期,命令行界面出现了,计算机使用者可以通过键盘直接输入程序并在屏幕上获得反馈,各种编程语言也顺势发展。1968 年,Douglas Engelbart 设计的 NLS 系统将鼠标、指针、超文本和多窗口界面整合进了计算机系统中,奠定了我们当今的主流桌面计算机的基于图形界面的形式基础。

现在,智能手机的普及已经让人们习惯了基于触摸屏的交互方式,现在几乎所有有人的地方都有“点手机”的身影。在语音识别和自然语言处理技术的推动下,基于语音的交互方式也正在迅猛发展——智能语音助手已经成为了很多智能手机的标配,智能音箱也正在进入越来越多的家庭。此外,基于计算机视觉乃至脑波分析的交互技术也已经出现,比如通过人脸跟踪控制系统或通过检测玩家的表情来个性化地调整视频游戏的难度和剧情等。

交互模式的演进主要还是为了降低交互的困难程度,使更多人能够使用计算和智能设备,也使用户能够方便地使用更多形态和数量的设备。显而易见,每一次交互范式的转变都带来了新的用户群体、新的应用场景、新的商业模式、和新的想象空间。比如触摸方式的普及使很多老年人也会使用智能设备,语音技术的进展则使得我们可以远距离控制设备,极大地增加了可交互设备的数量。但是,新型交互方式并不会在所有场景中都完全替代已有的交互方式;在可预见的未来里,程序命令、图形界面和语音等交互方式都将有各自更为擅长的应用场景,基于智能处理技术的多模态交互将成为人机交互发展的未来

关键词: [db:TAG标签](1672)

责任编辑:[db:作者]