王斌
小米AI实验室主任、
小米NLP首席科学家
“总体而言,刚刚过去的2019年,小爱同学一方面在不断夯实基础技术,包括基础NLP、基本的语音识别及唤醒、智能问答、人机对话等,另一方面也在研制使得小爱同学更加个性化、更加智能化的相关技术,包括端到端个性化语音识别与合成、多轮连续对话、就近唤醒、分布式放音、离线机器翻译等等。借助于公司强大的智能硬件生态,包括端到端语音识别、就近唤醒、分布式放音、离线机器翻译等在内的部分技术达到了行业一流水平。未来我们将进一步深入研究多模态交互、复杂任务连续对话、深度内容理解、用户行为分析等技术,期待打造一个更加完美的小爱同学,给用户带来极致的体验。”
2019年,是小米AI技术狂飞猛进的一年。小爱同学强大功能背后到底隐藏了哪些前沿技术?接下来,我们按照小爱同学背后的技术流程(声学 → 语音 → NLP → 服务 → 自然连续对话 – 个性化助理),带你走近平时你可能毫无感觉的几百毫秒!看看背后蕴藏着多少小米AI技术,多少小米工程师的心血。↓↓↓
音箱立体声在行业内最大的问题就是音效不同步,小米工程师将这个误差做到了500微秒以内(几乎无感知),整体体验行业领先。立体声全屋播放功能通过音频压缩技术避免了高带宽占用导致播放卡顿问题,同时又极致地还原出最真实的听感。未来,会把这项技术应用到更多的小米设备上,相信在“5G+AIoT”趋势下,带来的体验会更棒。
同时,小米在业内首创实时麦克风检测算法,可及时发现麦克风异常并解决问题。目前该算法已落地小米AI音箱和小爱音箱Pro、小爱音箱3款产品,检测准确率和召回率均达到95%以上,可以更好地解决用户遇到的问题。未来,也会将这项技术应用到更多的小米设备中。
依托于小米声学测试实验室自主研发的声学硬件测试平台,部分测试算法在产线测试上应用,相较于第三方的大部分算法依赖外部计算仪器的测试系统,自主研发产线算法直接运行在待测设备上,提高了测试效率,追踪效果更好,问题修正改进速度也更快。
小米质量奖是集团内的最高质量荣誉,旨在表彰积极推动质量改善、在质量活动中具有突出示范作用、为提高产品与服务质量做出杰出贡献的团队,以此鼓励小米人全力打造质量品牌。
小米AI实验室采用先进的深度学习技术实现了分词模型,在标准数据集达到前沿水平。同时实现了基于业务语料的自动标注技术、提供分词结果灵活干预机制、支持多端分词,为小爱同学内容理解提供了支持。
2020年,AI实验室将提供更多、更先进的NLP基础技术和模块,为小爱同学提供强大基础支撑。
09/NLP
闲聊
闲聊对话是人机对话的重要形态,大家对小爱同学说的任意对话,“闲聊功能”都会尝试给出合理的回复,通过这种方式对用户进行情感陪伴,满足沟通需求与归属感。
闲聊对话技术上面临许多挑战,比如用户想要表达的意思太过广泛;闲聊对话往往是多轮对话,要做好回复,需要对上下文有较好的理解等。为了解决这些难题,小米工程师构建了规模过亿的海量对话语料库,从海量的数据中学习对话语义关系;采用了端到端的改写算法,更为具体地判断上下文语义。
同时,赋予了小爱同学AI写诗的创作能力,基于主题词的自动写诗、以及写藏头、藏尾诗等等。在这里大胆爆料,今年春节小爱同学还将支持写春联的功能哦,敬请期待。
闲聊对话是一个快速发展的领域,未来小爱同学的性格会更加多样化,在对话过程中会更有趣更人性化,可以多多来找小爱同学聊天哦!
10/NLP
翻译
相信大家都使用过小爱同学的翻译功能,机器翻译已经成为人工智能助手的重要功能。随着人们跨境出行以及移动互联网设备的普及,很多国家和场所并没有稳定的移动网络支持,因此,无需互联网连接,即可实现高质量低延迟的离线神经网络翻译必不可少。
小米通过技术探索,对现有主流的神经机器翻译模型进行了优化,在移动端设备上实现了基于低计算能力CPU的高质量低延时的离线翻译。
这一成果带来的直接体现是在不影响用户体验的基础上,硬件成本大大降低,相对于市面上几千元的翻译机,购买小爱老师这款产品只需499元。
11/服务
深度学习在小爱同学中的应用
如何让小爱同学更懂你,更聪明智能?深度学习起到至关重要的作用。
近两年以来随着ELMO和BERT的诞生,基于深度学习的语言模型技术成为了NLP学界和工业界的一个现象级研究热点。学界和工业界的研究和实践已证明以ELMO和BERT为代表的语言模型技术能够给各项NLP任务带来突破性的性能提升。由此,小米工程师希望能将这项技术落地到小爱同学自然语言理解的应用中去,让小爱同学更加聪明智能。
小爱同学有多个功能模块,小米工程师希望提供一种通用的BERT模型和服务的解决方案,使得计算资源能够最大化的得到利用。基于此,小米工程师创造性的提出一种多任务BERT模型架构,自主研发NLU架构提高BERT模型工作效率,帮助小爱同学变得越来越聪明。
12/服务
行为数据在NLP中的使用
语言总是博大精深,尤其是汉语,一个词具有很多不一样的意思,语义消歧是自然语言处理(NLP)任务中的一个核心与难点,影响了几乎所有任务和应用的性能,而在内容领域(音乐,视频,电台)由于所接触的词语更新速度快,词歧义度高,因此在消歧方面面临的困难和挑战尤其明显。
传统解决方案热度更新不及时,缺少纠错能力,在尊重用户隐私与安全的前提下,小爱同学通过对用户数据反馈的歌曲和视频15秒完听率进行分析,确保在用户修正过一次之后,小爱同学可以理解用户的真实需求。比如当抖音带火《芒种》(节气)同名歌曲后,如果有用户在后续修正说“我要听芒种”“播放芒种”时,小爱同学会及时调整推荐内容,播放用户真正想听的歌曲。
14/自然连续对话
全双工自然连续对话
△小爱同学3.0功能演示视频