西北工业大学教授谢磊：IoT时代，智能语音面临许多新的挑战|CCF-GAIR2018-亚美平台官网

发表时间：2024-10-04
来源：
人气：

本文摘要：(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，由、香港中文大学（深圳）主办，获得了深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。

(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，由、香港中文大学（深圳）主办，获得了深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。第三天的IoT专场大咖云集，小米人工智能与云平台副总裁崔宝秋同台公开发表了关于小米IoT布局和AI战略布局的报告，随后，与小米在语音辨识领域有深度合作的西北工业大学谢磊教授公开发表了主题为“庆贺IoT时代智能语音的新挑战”的精彩演说。谢磊指出，现在是智能语音交互发展的黄金期，但语音人才相当严重短缺，导致语音人才在市场上价格很高。

同时，学校的科研虽然具备前瞻性，但缺乏“大数据”和“大算力”，为此谢磊明确提出校企强化深度合作、产学研融合的倡议。随着IoT时代的来临，语音辨识领域也步入许多新的挑战。例如，声学场景从将近谈到近谈的转换，使语音交互的鲁棒性带给了前所未有的挑战；语音标示要动用大量人工，费时费力, 一个新的场景的模型训练的代价相当大；此外，口音和小语种辨识也为基于少量数据的模型适应环境带给了挑战。以下是谢磊教授在 CCF-GAIR 2018 上的大会报告内容，展开了不转变本意的编辑整理。

今天我演说的题目是“庆贺IoT时代智能语音的新挑战”，现在是智能语音黄金期，我们一定要作好校企合作和产学融合。同时由于IoT时代的来临，有很多挑战依然必须学术界来解决问题。

最后，我会讲解我们近期跟小米合作的几个成果。大家告诉智能家庭或智能家居是物联网的典型场景，在这个场景下各种各样的设备都联网了。以小米为事例，我们要跟智能硬件交互，语音是十分最重要且大自然的入口——说道一句话就可以超过目的。在万物网络、大数据的时代，小米有很多大数据。

而学校面对的是在这样大数据时代的背景下，如何做到研究的问题。学校主要面向人才培养，射击前瞻性研究，但失望的是我们缺少大数据和大算力。

我们跟工业界比起，学校的再行多的数据不能却是小数据。人家是西瓜，我们是芝麻。

公司射击靠谱技术，最后目的以落地居多，把技术应用于到产品中。只有企业才享有确实意义上的大数据和大算力。在此大背景下，高校如何做到研究，在我看来校企合作、产学融合，构建三赢（企业、学校和学生）是一种较为好的途径。

公司通过校企合作储备人才，学生通过跟公司的合作和进修，磨练真为实力，精彩寻找好工作。对于学校来说，在缺少大数据、大算力的现实情况下，利用企业界的能力，让我们的技术获得更加靠谱的检验，论文最后获得实际价值的构建。

我指出校企合作是十分有意义的一件事，我们从2010年开始至今，跟很多公司合作，还包括跟小米这样的巨头。在IoT时代，智能场景有所转换。之前我们在手机上展开交互，手机语音是十分最重要的入口。

在IoT时代，另一个语音交互的场景经常出现了。以智能家庭为事例，这种情况下给语音技术带给了新的挑战。在IoT语音交互时代，我们遇上的问题是远场语音辨识，它的稳健性是十分最重要的挑战。从将近谈到近谈，声学场景再次发生了各种各样的变化，还包括声学脉冲、目标移动、房间混响、背景噪音、阻碍声源等。

其他人同时说出的情况下不会导致阻碍，而且由于说出人的切换，干扰源不会发生变化。这些都会给语音辨识带给极大的挑战。

后面不会给大家讲解，我们如何利用深度自学技术来解决问题房间混响对语音辨识导致影响的问题。另一个是缺乏数据和计算资源的挑战，我们称作较低资源(low resource)的场景。大家常常听见行业里的人都说道：人工智能是“有多少人工，就有多少智能。

”我们必须大量的标示数据已完成各种各样的机器学习任务，还包括语音辨识在内。数据标示费时费力。

能否更进一步增加人工，能否增加模型训练用于的标示数据，防止很多人工是个关键问题。另一方面，在IoT时代，很多运算从云变到末端，比如语音苏醒任务，但是末端上的资源有可能十分受限，要把模型打造出得越小越好，计算出来越多越少，同时有可能必须符合低功耗的市场需求。后面我会讲解一个轻量级的语音苏醒方案。

口音也是一个问题，口音不是尤其轻的话，语音辨识效果还是不俗的。如果口音较为轻，语音辨识效果不会大打折扣。语种夹杂也是一个问题，如果对着机器说道“我今天买了一个Apple”，就很有可能辨识拢。

现有技术都是通过大量的数据覆盖面积来解决问题这些问题，提高模型的鲁棒性。还有一个问题是小语种，如果小米要扩展国际化市场，有很多外语种必须做到语音辨识，但是我们有可能没这么多标示数据，甚至一些语种缺少语音语言学的专家科学知识，一开始连发音字典有可能都没。在这些“较低资源”的情况下，在现有模型的基础上，基于少量数据做到模型自适应，解决问题小语种没数据、没专家科学知识的语音交互也是一个有一点探寻的问题。

后面我会讲解一个基于少量说出人数据展开模型自适应的工作，提高每个人语音辨识的体验。当然，这个方案可以扩展到小语种上。下面，我重点讲解一下我们为应付上面所明确提出的挑战，近期跟小米合作的三个研究成果：一是用深度自学解决问题语音辨识中的去混响问题；二是基于注意力机制的轻量级语音苏醒；三是打造出个性化语音辨识。

基于三个工作的论文都被语音研究的旗舰会议Interspeech2018任用。第一，去混响。语音交互从进场变为远场，房间混响沦为一个影响语音辨识性能的关键问题，我们尝试用目前十分火热的分解对付网络(GAN)解决问题去混响问题。

在语音交互过程中，我的声音除了直达声抵达对方的耳朵，还有各种各样的反射面产生的光线，联合变换传遍对方的耳朵中。声音是由是直达声、早期光线和晚期混响包含的。

声音的传输和传播，从倾听声源传出来，不会在房间待命非常宽的一段时间，从这张动图上可以看出来，每一个小点都是一个声音粒子。混响对语音辨识性能有相当严重的影响。右图是语谱图，在整洁的情况下共振峰十分明晰，右图是被混响污染的语谱，可以看见共振峰的相当严重扯尾现象，共振峰对语音辨识十分最重要，这种共振峰污染不会严重影响语音辨识准确率。在某中文测试集上可以看见，整洁情况下字错误率是7.86%，在有混响情况下字错误率提高到23.85%，即便用了多条件训练(MCT)，即训练数据里重新加入了一些带上混响的语音，错误率不会降至16.02%，但和整洁语音情况下比起，仍然有相当大的差距。

今天我们尝试用深度自学的方法解决问题去混响的问题。用深度自学去混响是一个十分直观的解决方案。深度神经网络的特点是具备多层的非线性自学能力，可以通过重返任务，自学一个从带上混响的语音输入到无混响整洁语音输入之间的一个同构。

我们可以通过整洁语音结构很多的混响语音数据，来训练这样一个同构网络。在用深度神经网络去混响过程中，我们尝试用分解对付网络来提高效果。

分解对付网络一般由两个网络构成，一是生成器，二是判断器。以假币制造者和警员之间的博弈论这张图来说明分解对付网络尤为直观了。

左边是假币假货者（即生成器），他要生产假币；右边是警员（即判断器），警员负责管理辨别真币还是假币。假币假货者生产出来的假币转交警员，警员根据自身的经验作出假币的辨别，把Loss传到给假币假货者，假币假货者进而改进。经过多次递归博弈论的过程，假币最后做到得更加真为，可以看穿警员。

通过这样的思路可以做到去混响的问题。把混响语音通过生成器去混响，转交判断器判断这是整洁语音还是混响语音，通过类似于上述的递归博弈论过程，训练的生成器最后超过十分好的去混响效果。先前也有涉及的工作，但是我们的做到的更为精细。

我们的结论是：首先，和其他网络类型比起，生成器网络用LSTM网络效果拟合，因为它本身有很强的时序建模能力，混响和时间十分涉及。如果网络层数较为浅，则重新加入残差网络可以更进一步提高效果。此外在网络训练过程中，用同一个Mini-batch的数据去改版两个网络（G和D）对取得较好的效果是至关重要的。

在实验数据集上语音辨识指出，GAN需要比全然DNN去混响取得14-19%比较字错误率的上升。最后在MCT多条件训练的场景下，更进一步将字错误率从16%降至13%，大家感兴趣可以注目我们的论文，取得更好的细节。第二，苏醒万物。

以“小爱同学”为事例，它现在早已无处不在，大家早已习惯了用“小爱同学”来苏醒小米手机和音箱。在苏醒任务上，我们要确保苏醒亲率十分低，同时要减少虚警率。

我说道了“小爱同学”，没苏醒归属于误将拒绝接受；我没说道“小爱同学“，但是设备被苏醒了，这个归属于虚警。在语音苏醒任务上，我们的目的是把这个指标打造出得越较低就越好。同时很多时候我们在端上、器件上做到苏醒，往往必须十分小的模型、很少的计算出来量，因为计算能力受限、存储能力受限。我们尝试用基于注意力机制末端到末端神经网络来解决问题苏醒的问题。

这不是我们第一次用于基于注意力机制的模型来解决问题，之前我们跟小米合作，在小米电视语音搜寻上超过十分低的准确率，也是因为用了这个模型，大家可以注目一下我们公开发表在ICASSP2018上的论文。这次我们将注意力机制用在苏醒任务中，也是十分直观的点子。比如我们听见别人叫我们的名字的时候，我们的“注意力”就切换到这个人的讲话上。

注意力机制模型在机器翻译、语音辨识、语音合成中都早已顺利应用于。我们顺利把它用在语音苏醒任务上。

它的益处有：一是去模块化，一个网络必要输入苏醒辨别；二是模型参数较少，同时需要其他苏醒方案中简单的图搜寻，计算出来量更进一步减少；三是模型训练需要做到偏移。运用基于注意力机制的语音苏醒模型，通过编码器、注意力机制和Softmax的融合，可以直接判断我说道的是不是苏醒词。

在“小爱同学”内部测试集上做到了实验检验。对于编码器，CRNN网络比GRU和LSTM获得了优于的结果。

最后在一小时一次虚警的条件下，我们的方案使得错误拒绝接受上升6次，同时计算出来量削减4倍。第三个工作是：我们尝试“较低资源”场景，只需少量数据为每个人打造出个性化的语音辨识模型，提高每个人的语音辨识体验。

右图可以看见这是某个测试集中于的10个人做到语音级别的错误率，我们可以看见虽然大家都是说道普通话，语音辨识性能十分的不平衡。错误率低于可以超过100字错3个，很差的情况可以看见错误率高达40%甚至56%。

这些低错误率情况往往是由于口音问题导致的。我国有所不同的地域有有所不同的方言和口音。现有标准化的语音辨识声学模型，往往是通过有所不同口音人群数据的覆盖面积，来减轻这一问题。

但是注定是一个“平均值模型”，不有可能在每个人身上提供到最佳的语音辨识性能。我们对比研究了几种有所不同的说出人自适应的方法。

神经网络非常灵活，可以做到很多工作，对网络展开有所不同的“手术”，通过对平均值模型方案的改建，超过兼容有所不同人的自适应能力。第一种方法是LIN，在传统语音级别大网络声学模型前提下可以特一个线性变换网络，把有所不同人的语音输入变为某种标准化特征，完整大网络参数不做到任何变化。即一人一个线性变换网络，这个小网络可以放到每个人的手机上。

第二种方法是LHUC，为每个人自学一组个性化参数，用作调节大网络声学模型参数的幅度。第三种方法是俞栋老师论文中的作法，用每个人的数据去必要改版大网络声学模型参数，即一人一个网络。为了防止过数值问题，我们使用KLD准则在模型自适应过程中来做到一个约束，使得适应环境后的模型的后验概率分布与说出人牵涉到的大网络模型上的后验产于就越相似就越好。

我们自由选择了10位带湖北口音的普通话发音人，每个人用5-300句做到模型自适应，100句做到测试。上图显著的看见，不管用于上述什么方法，语音辨识错误率都有平稳的上升。整体而言，我们找到KLD方法拟合，LHUC此之，LIN较为劣。

我们工作的另外一个特色是对口音程度展开了分类来仔细观察有所不同方法的展现出。我们根据刚才那10个测试人在标准化模型上的语音辨识错误率，对他们展开了口音程度区分，分成了轻度口音、中度口音和轻口音，来仔细观察有所不同方法在这三类人群上的语音辨识性能展现出。我们找到，在轻度口音上，LHUC的效果最差，其他两种方法展现出的不平稳，时好时坏。这是因为轻度口音和标准化模型之间的差距不是尤其显著，在训练标准化模型的时候只不过就引进了一些带上口音数据。

这种情况下，如果用其他方法来”大幅”调整网络不会导致负面的影响。LHUC这种较为“黯淡”的调整参数方法反而效果最差。

在重度口音上，KLD和LHUC效果非常，可以超过哈密顿的效果。如果存储或内内存闲置是一个必须考虑到的因素的话，大家可以自由选择更为简练的LHUC方法，它会为每个人辟一个神经网络，而是为每个人存储一小组调节大网络的参数。对于重度口音，目标发音人和标准化模型之间有十分大的差距，因此必要用于目标发音人的数据来调整标准化模型参数，获得兼容目标发音人的模型，效果是最差的。

因此，模型轻训练RSI和KLD可以超过这种目的，而KLD效果较佳，即图上黑色线平稳在下面，错误率低于。在我报告的最后，给大家展出一下我们近期的用深度自学展开语音减震的近期结果。我们告诉语音减震和语音强化是研究历史十分宽的研究课题，一般来说使用信号处理的方法解决问题。手机上也有各种减震方案和减震算法。

传统统计资料信号处理的方法优势就是指信号统计资料特性抵达解决问题，对稳定噪声有较好的诱导能力。但是对于非稳定类型的噪声——比如在喧闹的酒吧中有很多不稳定的噪声——的展现出无法超过理想效果。我们将深度自学应用于语音强化，同时融合信号处理的科学知识，牵头做到减震。这是我们在喧闹的酒吧记了一段对手机讲话的音频，用深度自学特信号处理的方法展开减震。

大家也听见了，喧闹的背景噪声基本被抹掉，这是深度自学赋能语音减震超过的新水平。（演说全文完）会后，当问及现在智能音箱在简单任务继续执行上不存在很多问题，否不存在技术不成熟期就马上推向市场的情况，谢磊的问是：智能音箱是一个最重要的入口，IoT的入口和流量的入口。

这就是为什么大家都在布局做到音箱，市场上经常出现了“百箱光明日报”的局面，只不过大家都在布局新的“流量经济”和抢走入口。就技术而言，智能音箱有可能是一家公司技术“综合实力”的反映，最合适练兵，因为上面中用的技术有很多，例如麦克风阵列技术、语音强化技术、远场语音辨识技术、语音解读与对话技术、知识库、语音合成等，还有否有输入内容的实力。每项技术都是一项最重要的研究课题，都必须抛光和优化。但是对用户来说，只是感觉到交互体验要好，必须的内容要有。

技术发展都是有一个阶段的，现阶段超过的能力，只不过早已可以做还包括智能音箱在内的各种各样的智能硬件里面去了，也就是超过了“能用”的阶段，但是距离“好用”还是必须一定的技术发展。在基于智能音箱的远场语音交互上，语音辨识的准确率仍必须进一步提高，这个就必须前端方案的因应，以及前后端的牵头优化。语音合成也必须更为大自然与个性化，每个人对声音的市场需求是不一样的。

此外，就深度解读用户而言，这必须语义解读和对话技术的更进一步突破。本来语义解读就有很多歧义。比如说想要穿多少穿多少，这句话只不过跟语境有关系，在冬天的时候，你尤其冻的情况下你是期望穿着得尤其多，但是到夏天的时候你想要穿着多少穿多少，就是说，我冷的觉得是脱得无法再行干了。

所以，这个实质上跟语境也是有关系的，所以语义解读很难。口语交互就更加无以了，比如咱们在聊天的过程中，谈的话有可能是语速迅速、吞音少字问题、语序反转、都不是按规则ATENU的。说出的时候我语序反转了你也能听懂，中间挂了很多的东西你也需要听不懂，但是机器解读的时候就有可能是一个大问题。

所以，这一块还是要通过各种各样的技术突破和各个模块的牵头优化去解决问题。不过我坚信，语音的入口起到是毋庸批评的，这也是为什么各家都在布局的原因。

原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：亚美平台官网

本文来源：亚美平台官网-www.kizmitsalon.com

上一篇：亚美平台官网-智能手机Wi-Fi体验的一次革命，由高通掀起

下一篇：雷军：小米有机会重返世界前三，微信封杀微视链接，FF回应贾跃亭将卸任CEO|雷锋早报【亚美平台官网】

推荐资讯

推荐产品

产品中心标题一
用于生产保险粉，磺胺二甲基嘧啶安乃近，己内酰胺等以及氯仿，苯丙砜和苯甲醛的净化。照相工业用作定影剂的配料。香料工业用于生产香草醛。用作酿造工业防腐剂，橡胶凝固剂和
产品中心标题二
用于生产保险粉，磺胺二甲基嘧啶安乃近，己内酰胺等以及氯仿，苯丙砜和苯甲醛的净化。照相工业用作定影剂的配料。香料工业用于生产香草醛。用作酿造工业防腐剂，橡胶凝固剂和
产品中心标题九
岗亭，英文名字为Watch House，字面理解就是岗哨工作的小房子。在车场管理中，岗亭常常也称之为收费亭，是停车场管理人员收取停车费的工作场所，除此以外还可用作小区保安门卫值
产品中心标题八
岗亭，英文名字为Watch House，字面理解就是岗哨工作的小房子。在车场管理中，岗亭常常也称之为收费亭，是停车场管理人员收取停车费的工作场所，除此以外还可用作小区保安门卫值