当前位置：首页 > 知识库 > 正文

通过技术思考_如何思考技术架构_技术校车安全的思考

2218329273
知识库
2022-11-25 07:00:56
270

掌舵，意为“掌握船舵”，现在常用来比喻掌握方向。掌舵人，则意为在所处的领域里，或者群体里面最有资格能决定方向的人、掌握方向的决策者。

在科大讯飞人工智能演示展厅的中央，一面由各个登山脚印组成的“里程碑墙”静静矗立，从语音合成开始，科大讯飞迈过语音评测、语音识别、机器翻译、机器阅读理解等一个个高峰。

每一个“人工智能发展史上由科大讯飞推动的里程碑”背后，都是讯飞人不断的努力与坚守。当然，也离不开优秀的技术掌舵人。

AI研究的掌舵人需要“咬定青山不放松”的毅力，同时也需要“夜阑卧听风吹雨”的从容。从CHiME三连冠、到OpenASR、IWSLT和刚刚发布的DCASE技术获奖，科大讯飞研究院AI技术掌舵人功不可没。

科大讯飞每年6月9号的司庆日上，都会有一个保留项目：“华夏创新奖”颁奖环节。华夏创新奖是由公司首席科学家王仁华老师和夫人夏德瑜老师个人出资设立，旨在奖励科大讯飞在技术、产品等领域做出重要创新的年轻员工，也是科大讯飞在创新领域的个人最高奖项。

今年，“华夏创新奖”颁奖环节新增“科大讯飞集团科学家职衔授予仪式”，旨在奖励集团层面在研究、工程等领域做出卓越贡献的高级科学家群体。

而本文的主人翁——潘嘉，在今年正式由“资深科学家”晋升为“杰出科学家”。

接下来，一起走近潘嘉同学，了解这位技术掌舵人。

每天早上走进办公室，潘嘉第一件事便是开启电脑、阅读AI各相关领域的最新论文，这已经成为他多年来积累而成的“肌肉记忆”。从机器学习基础理论，到语音图像等各领域的前沿算法，再到“AI + Science”等跨学科延展，都是他涉猎并关注的领域。

科大讯飞的杰出科学家，虽名为科学家，但是实际需要承担的责任却并不只是以发论文为主要目标的纯学术研究。

在平时的工作日常中潘嘉既要亲自推公式写代码做前瞻原创研究，又要带队解决实际落地应用中的AI技术难题，还要培养有潜力的科学家队伍，但即便如此，他每周至少要看数十篇论文，这一习惯雷打不动。

他还有一个长长的Excel表格，看完的论文，都会随手统计其中，写下自己的解读，并按照1到5分给论文打分。

如果哪篇论文对于讯飞布局的技术方向有借鉴意义，他会直接分享给相关技术负责人进一步探讨。日积月累，他还会对某一领域的优质论文进行汇总，形成专题，在讯飞研究院内部分享。

正是这种从深度到广度的拓展以及长年累月坚守下的积累，，让他对技术方案以及整体技术发展趋势有了更深的理解和洞察，新的前瞻性算法和技术研究方向被有序的引入，滋养和扩充着讯飞的AI科技树体系。

在讯飞研究院内部，潘嘉被大家昵称为“潘大神”，既能从全局出发进行技术簇规划，又能指导同学们钻研技术细节，还能躬身入局解决业务重大难题，同时还拥有着虚怀若谷的性格和少经风霜的“正太脸”。

上图左3和下图右2为潘嘉除了颜值没变，竟然连衣服也没变

每当大家遇到各类搞不定的技术难题，总会想到他，他也总能给出建设性意见，是大家的“定海神针”。

2009年校招加入讯飞的潘嘉，已在这里度过13个春秋，从一线算法研究员，成长到如今的杰出科学家，他就像从风雨中走出的核心技术“掌舵人”，如今领航着科大讯飞的AI技术之船。

风雨中走出的实战家

早在高中时期，潘嘉的学霸属性就显露无疑，文理分科前，文科年级第二，理科年级第三。考虑到自己性格更加喜欢技术钻研，他选择了理科，并以超过清华的分数线来到了中科大，专业便是电子工程与信息科学。

彼时的他不会想到，命运即将与人工智能交织。

研究生阶段，潘嘉研究的还不是语音，而是图像处理。当时他和对门寝室语音实验室的同学打得火热，平日里经常同他们交流科研心得。

恰好巧借“东风”，潘嘉借鉴了他们在语音研究中的常用的高斯混合模型来做医学影像的检索任务，发表了一篇高水平的论文，初步展现出了他的科研天赋。

该语音实验室正是由中科大与科大讯飞联合建立，目前“语音及语言信息处理国家工程研究中心”的前身，也算是潘嘉和讯飞的早期结缘。2009年毕业后，出于对讯飞语音实验室科研氛围的向往，加之他认为语音和图像处理有相似之处，如果来讯飞可能会有一个好的施展舞台，潘嘉便作为当年的应届生加入了讯飞研究院，刚开始被安排做的就是当时很有挑战的连续语音识别方向。

从图像切换到语音，他再度展现学霸的专注和勤奋，每天都在吸取各种新的知识：从传统语音识别框架的各种理论算法学习，到HTK（隐马尔可夫模型语音工具包）等复杂工具的应用改善，再到神经网络等当时“非主流”算法的主动拓展学习。

回过头来，我们知道在全球科技发展的历史进程中，彼时正有一场引导了当前第三次人工智能浪潮的科技革命——“深度学习”正在萌芽中摸索着前行…而也正因为深度学习带来的时代机遇，让聪明好学的新同学潘嘉在讯飞研究院的平台上精准抓住了这样一个机会，成为推动中国深度学习算法创新和大规模应用落地的关键力量之一。

2010年，适逢微软在小规模英语字母语音识别任务TIMIT数据集上，通过深度学习的方法大幅降低了识别错误率。基于自己对该技术路线的理解，结合和专家们的交流，潘嘉敏锐的感知到，基于深度学习的技术路线很可能是提升通用语音识别的关键钥匙，而通过内部讨论，讯飞研究院决定要加大这方面的投入，成为“无人区”的先行探索者。

2010年10月，科大讯飞向业界正式发布了讯飞语音云及其示范性应用——讯飞输入法，也是当时业界首个带中文语音输入功能的输入法。然而，由于当时线上系统仍然是非常复杂的传统语音识别系统、且训练数据和实际使用的场景较不匹配，原来已经在实验室环境下做到90%准确率的系统，对于线上真实数据的准确率一下掉到了60%。

当时研究院决定，跳过相对简单的数字字母识别、命令词识别等任务，直接尝试使用多层神经网络模型来挑战输入法真实场景下的大词汇量连续语音识别（LVCSR）任务，以追求尽早将新算法落地应用在讯飞输入法这个有大量潜在用户、场景丰富且可以快速迭代的商业化系统中。而潘嘉因为对神经网络技术的熟稔，也勇敢的承担起了这样一个有很大不确定性的探索性任务。

2011年全年，潘嘉带着小团队一起，争分夺秒的进行着技术攻关，以至于到2011年春节期间，潘嘉还会每天远程调整参数看实验结果。结果正巧在大年初一那边，突然获得了一个可靠的显著提升，潘嘉仔细确认后、迫不及待的跟研究院的朋友们分享这来之不易的胜利成果。春节过后的2012年初，潘嘉主导推进的BN-feature和DNN-HMM两套深度学习方案都全面上线于讯飞输入法和语音开放平台中，助推科大讯飞成为国内首个上线深度学习商业系统的机构。

经过测试，该新系统方案结合数据的涟漪效应，把实际场景的语音识别的准确率从60%提升到85%左右，基本迈入了实用门槛，显著提升了语音识别等功能的用户体验。

然而“战斗”才刚刚开始。深度学习效果拔群，随着开源工具的逐步兴起，很快国内同行快速跟进。没多久，各家产品语音识别的准确率都有了较大提升。讯飞如何在语音识别领域保持持续引领呢？

彼时算法革新很快，稍有松懈可能就会被赶超。时间紧任务重，压力传导到潘嘉和语音识别团队中。2013年底，一场名为“卫冕之战”的技术攻关在内部拉开帷幕，提出要在半年时间内，跟业内性能重新拉开差距。

潘嘉仍然是这次技术攻关的核心骨干。压力之下引发他对技术的深度思考，“算法上似乎我们都做了，数据上我们也有先发优势，为何识别效果没能保持显著的领先呢？”

答案在于细节。深度学习应用早期，算法发展日新月异，将基本算法复现本身就会带来效果的大幅提升，但当时大部分人只是将其当成一个“黑盒子”套用，很多源于传统语音识别系统的细节积累并没有充分体现。此时需要发挥工匠精神，在算法持续更新的基础上，数据处理、调参细节等做的更加深入，才把算法的性能充分发挥出来。

为了进一步提升识别准确率，潘嘉和团队决定引入一项名为SDT（sequence-discriminative training，基于序列的区分性训练）的技术。在潘嘉看来，它比当时常见的其他方法更符合语音识别的实际需求，能有效提升结果的准确率。但该技术本身十分复杂，当时一众国内外公司折戟于此，只有IBM和微软仍然在继续探索该技术。

尽管面临很大不确定性与风险，潘嘉团队还是决定尝试这项技术。直到2014年年上半年，他们调校好算法，SDT技术获得成功。经此役通过技术思考，语音识别的准确率整体再度提升相对30%以上，讯飞语音识别系统的效果在业内进一步领先。

但潘嘉创新的脚步并未停止。

在他看来，上一个阶段更多是对国际主流算法的快速跟进实现以及部分增量式创新，要想持续领先，下一阶段必须进行真正的自主创新。

2016年，经过持续的耕耘和试错，潘嘉团队受到卷积神经网络在图像处理中大放异彩的启发，提出了全新的语音识别框架——全序列卷积神经网络(DFCNN，deep fully convolutional neural network），使用大量的卷积层直接对整句变长的语音信号进行建模，识别效果相比当时业界主流的递归神经网络（RNN）相对提升20%以上。也正是在语音识别领域持续引领的创新追求和踏踏实实的落实闭环，才有了如今讯飞输入法98%的通用语音识别率和更流畅的用户体验。

踏上深度学习时代，历经“风雨”，他从一线中走出，把技术顶天写在心间，并在实战中淬炼技术的深度，他所走过的路本身就是一条“深度”学习之路。

向外拓展边界，向内走向“田间地头”

讯飞研究院有一项国平院长制定的基本要求，核心技术要保持每年相对30%的效果提升。而2016年后通用语音识别率已做到95%以上，再往上提升不仅难度大，而且对于用户体验的改善也有限。

下一步提升空间在哪里？潘嘉面对压力展开了思索，深度学习虽然在语音领域率先取得成功，但是近年来更多的研究成果来源于计算机视觉等其他方向，而这些方向与语音本质上是想通的。因此，在2017年潘嘉迈出了关键一步，向外探索，从语音识别到自然语言理解、计算机视觉，再到脑科学等，在扩展边界与融会贯通中寻找技术的突破点。

在2017年上半年通过技术思考，潘嘉先后做了机器阅读理解和基于生成对抗网络的图像生成方面的研究工作，当年夏天他还特意参加了图像领域的顶会CVPR，去进一步和业内专家深度交流、拓展视野。这次参会给潘嘉留下了深刻的印象，参会人员不下五千人，现场相当壮观。

让潘嘉颇有感触的是，做计算机视觉的研究者们对技术的研究非常深入，细节把控能力非常强，很多论文使用的算法非常接近，但针对模型结构或者训练算法局部上的改进，就能使整个模型取得很大的提升。

这种工匠的研究精神引起了潘嘉的共鸣，在会议结束没多久，他就针对DFCNN的模型结构进行了深入的解剖分析，将图像识别中的一些算法思路和模型结构加以改进，引入语音识别中，提出了全序列门控卷积神经网络（Deep fully gated CNN）模型结构，将语音转写的效果提升了相对15%。

如果说，“向外探索”拓展了潘嘉的技术边界，那么“向内探索”，则让他走到“田间地头”，从业务场景、用户体验中去思考技术的前进方向。

2018年前后，潘嘉又做了一个决定，去讯飞输入法做一年“总工”。总工是讯飞研究院的一个特色的角色，发挥着研究院和业务线之间桥梁和纽带的作用。通过深度参与产品的需求分析、功能设计等过程，可以使研究员站在业务的角度去思考产品对技术的核心痛点需求，并且提炼出需要研发的技术课题。

身为总工，他深度参与到输入法的功能研发和技术迭代中，与输入法的产品经理、研发经理以及市场经理等同事天天泡在一起，研发了即修即改、多候选识别结果、语音指令修改、个性化语音识别等多项功能，显著改善了用户的体验。

“只有带着用户视角思维、并深入到产品中去，你才知道用户到底关心什么。”潘嘉谈道，“如果没有到业务线去，可能我的思路还是局限在如何把通用语音识别率从95%提升到97%，但对业务线来说，这并非最重要的问题，最重要的是怎么进一步提高用户体验和用户活跃度。这里面需要解决的技术问题其实有很多，包括如何提高识别的响应时间，在网络信号不好时如何保证识别精度和速度，怎样让高频用户的识别准确率越来越好，如果快速提升新的领域专业词汇的准确率等等。这样一来，思路就完全打开了，你会发现我们的通用识别率虽然已经很高了，但是未来的路还很长。”

从用户体验出发，潘嘉团队探索出了一个新的评估指标——不可接受错误。如果这个错误影响到了这句话的可懂度，或者这个错误严重影响了用户读懂这句话的反应时间，那这个错误就是不可接受错误。例如，“鹿的角像麒麟的角”这句话，人很容易理解，但机器会识别成“鹿的角像麒麟的脚”。这种错误的存在，使得语音识别率在通用数据集上虽然已能做到97%，但用户体验却并不理想，容易造成人直观感受机器识别的并不准，不够智能。在语音识别中，，不可接受错误在所有的识别错误中大概占比20%。这些错误很多时候源于机器对于语义深度理解的匮乏。由于这类问题的开放性和复杂性，也意味着这会是一个持续的“啃骨头”过程，潘嘉团队也将不可接受错误率达到人类水平作为了长期攻关的目标。

这段“向内探索”的经历，也让潘嘉对科研本身有更深的思考。

他谈道，真正完整的科研应该从用户和产品出发去定义问题，然后提出解决方案解决问题，再根据实际用户的反馈来验证最初的问题定义，这才是一个闭环的流程。这也正是研究院的纲领之一“从技术中来，到产品中去”。

从一线“战火”中走出，不断拓展技术边界直至融合创新，同时又能躬身入局解决业务实际问题，潘嘉走出了一条顶天立地、开放包容的科研之路。

传承科学家精神

在介绍讯飞研究院独特的秘诀之后，潘嘉总结到：“简单真诚的人际关系，吸引了一批有共同理想追求、互相信任支持、能打硬仗打胜仗的人，以持续引领创新为目标、勇于不断‘革自己的命’，探索无人区的同时磨炼自身，沉淀方法论并带动团队共同成长，我认为这是讯飞研究院的成功之道。”“以战养兵”，通过实际的研发项目培养具有科学家精神的人才是潘嘉贯彻的理念，结合自己的经历，他认为越是硬仗大仗越能锻炼人。

2020年，一场事关语音唤醒技术的“信任危机”上演。当时，某业务线在拓展客户中，跟友商PK时在少数技术指标上落后对手，导致业务订单受到影响。时间紧，任务重，三个月之内必须在效果上全面、显著超过友商。潘嘉重整团队，在内部发起“荣耀之战”，目标就是在唤醒上重新建立显著领先优势。

当时问题主要出在多个业务上各种PK不断，需要针对不同场景对模型进行定制优化，模型就好比一件衣服，当补丁打的过多总有一天就没法穿了。此时模型由于定制的类型过多，容易出现“跷跷板”的现象（即目标场景虽然提升了，但是对其他场景可能有反面影响），此时亟需对整个技术框架的重构。

潘嘉一方面带领唤醒团队的技术负责人“庖丁解牛”一般，将整个模型训练流程的每个环节都全部打开来分析，比如数据的构成如何，数据是怎么采集的，采集的时候麦克风摆放的位置，数据加噪的声源从哪里来等等。这些细节的深入打磨，使得我们很快弥补了短板、再次完成全面领先。在这过程中，也使得唤醒团队的技术负责人对技术的理解更加的深刻，重新建立了技术引领的信心。

但潘嘉显然并不满足于此，为了彻底解决这个历史遗留问题，他同时还在进行新框架的思考，并提出一项原创方案——端到端辅助建模，“从理论上分析，我觉得它一定能成功”。

然而新框架的落地并非一帆风顺。负责研发的同学是一年级的新同学，在尝试了近一个月怎么做都没有效果之后，已产生了放弃的想法。潘嘉带她重新梳理了思路，和她一起检查了代码，帮助她改正了多个不同层面的问题，并敦促她再认真做一遍。果不其然，方案最终获取了成功。最终，他们将命令词间串扰率降到了1%以下，远超其他行业系统。这位新同学也在这个过程中收获满满，如今已经成为了唤醒团队的中坚骨干力量。

始终保持对AI前瞻技术的探索，又不断接受一线战火的洗礼，让潘嘉进一步获得新的“Buff加成”——战略能力，即真正面向未来去做核心技术的顶层规划与布局。

多模态技术的前瞻布局就是一个例证。2018年多模态技术尚未得到行业重视，学术界关注度也不像现在这么高。当潘嘉提出要做多模态技术时，业务线以及研究院的一些负责人并不太看好，有人认为，原本通过麦克风进行拾音即可，如果再加上摄像头，不仅增加了应用场景部署的难度，还增加了成本。

但潘嘉认为，从人类智能的角度出发，人做的是多模态的感知和表达，通过声音、视觉肢体语言等共同来传递信息，他坚信多模态技术会是人工智能的一个趋势。在研究院包容开放的氛围下，他很快在内部组建了一个小团队，进行多模态技术的探索。

经过了半年多的技术攻关，潘嘉团队解决了多模态数据稀缺以及如何兼容单模态数据等技术难题，多模态技术大放光芒，尤其是在复杂噪声场景下，语音识别效果能够在既有基础上提升相对30%以上。

这一技术很快在讯飞的汽车业务落地，在业界首次发布了多模态免唤醒技术。简单来说，在汽车场景，结合语音、视觉技术，车主不需要使用唤醒词，随时可以直接下达语音指令，获得更加流畅的交互体验。这一技术突破，也助攻汽车业务不断的攻城拔寨。

在“讯飞超脑2030”战略制定过程中，潘嘉用浅显易懂的语言介绍了多模态技术的优势，并一针见血的指出其在整体框架下会起到的关键作用，进一步深化了公司领导对多模态技术的理解。如今多模态技术已成为科大讯飞技术版图的重要一块和讯飞超脑2030专项的重点研发方向之一。相信在潘嘉和团队的耕耘下，讯飞的多模态技术将会持续带来新的突破。

在新的国内外形势下，科技创新已成为综合国力的关键要素之一，未来的科技竞争也会呈现多元化发展的态势。面向更长远的未来，潘嘉目前也将他的工作重心投入到更基础的人工智能理论和算法的研发上。为此，他在研究院成立了跨多个方向的前瞻探索组，一方面能够更加专注、从容的进行五到十年甚至更长时间的前瞻基础技术的探索，另外一方面，他也希望借此培养一批真正的科学家，再由他们带领讯飞的各个技术板块继续向前，让讯飞的科学家文化和讯飞研究院的科研氛围一直传承下去。

进入前瞻探索组的标准，他最为看重的便是科学家精神，“希望你对新事物、新算法有好奇心，并有非常强的兴趣去钻研；希望你严谨，不要轻易下结论，不要迷信权威，能够指出我想法中的不足，甚至把我驳倒；另外希望你有工匠精神，对你做的事情精益求精。”他总结道。

“杰出科学家”潘嘉的故事也是讯飞企业价值观和科学家文化的一个缩影。

也欢迎有志于“用人工智能创造美好未来”的同学们加入讯飞，一起做“顶天立地”的研究，成为未来的科学家，带动讯飞研究院持续攀登科学的高峰，用核心技术领先持续助力科大讯飞勇往直前！

潘嘉，中国科学技术大学博士，科大讯飞杰出科学家、讯飞研究院副院长。潘嘉博士在科大讯飞带领团队长期从事机器学习、智能语音等人工智能前瞻技术的研发，提出了全序列卷积神经网络、全序列门控卷积网络等语音识别框架，提出了多通道端到端唤醒命令词识别统一框架，内容辅助多任务说话人识别框架等技术创新。

潘嘉博士带领团队多次获得CHiME、OpenASR、DCASE、DIHARD等国际人工智能技术权威评测冠军。潘嘉博士在国内外会议期刊上发表论文10余篇，获得授权或公开的发明专利40余项，2019年荣获安徽省科技进步一等奖。

免责声明：该文章系我网转载，旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议，仅供读者参考。