网易有道吴迎晖:学习型智能硬件是一个门槛极高的市场

8月29日,网易有道副总裁吴迎晖在2019世界人工智能大会上分享了关于AI+教育的思考。伴随着AI在教育场景中的逐步落地,吴迎晖认为,在教育场景中,学习型智能硬件是个未被触及的领地,同时这是一个门槛极高的市场。因为任何学习型产品如果没有在技术上取得实质突破,没有在产品设计上完全以用户体验为核心,就难以触及教育市场的皮毛,更无法实现用技术改进学习系统的目标。

《网易有道吴迎晖:学习型智能硬件是一个门槛极高的市场》

以下是网易有道副总裁吴迎晖演讲全文:

大家好,我是网易有道的吴迎晖,今天的演讲题目是AI在教育场景中的落地。

从写作业、记笔记,到数学计算、试卷批改,围绕着孩子的学习过程,有非常多学习场景。在这些场景中,学习的方式千百年来都没有出现过跨越式的变化,直到人工智能技术出现。

技术最初作为学习的内容出现,我们去学习各类技术的原理及应用,后来技术作为工具搭建起了一些传播的平台,在缩小教育鸿沟方面发挥了巨大的作用。

现在,技术正在融入整个学习系统,推动学习方式的革新。这个阶段我们思考的是,技术真正能做什么?技术又该如何在教育中发挥作用?

我们认为,技术并不能改变教育,但技术能作为改进学习系统的重要解决方案。我们希望技术能够辅助孩子们更快更好地学,而不是在题海中做无用功。

这几年来,可以看到人工智能技术已经在教育领域逐步发挥作用,如今的技术已经能够支持学力评估、智能推题等一系列定制化学习过程。

但是AI技术目前还停留在软件层,实体化的案例并不多。而学习离不开线下场景,绝大部分学习过程都是在离线中进行的,这就意味着能够更好适应具体场景的智能硬件还有极大的发挥空间去提升学习效率。

我们认为,在教育场景中,学习型智能硬件是个未被触及的领地,同时这是一个门槛极高的市场。因为任何学习型产品如果没有在技术上取得实质突破,没有在产品设计上完全以用户体验为核心,就难以触及教育市场的皮毛,更无法实现用技术改进学习系统的目标。

最近,我们刚刚发布了一款学习型智能硬件网易有道词典笔二代,就是我们在AI技术实体化过程中的一次探索,希望用AI技术打磨一款查词工具,这款产品能实现一扫即查,一秒钟翻译30个汉字,并且支持整句整段的中英文互译。

别看是一支小小的笔,它的内核很强大,词典笔二代使用了网易有道自主研发的AI技术与能力:包括端侧的离线OCR、NMT、TTS以及在线的ASR和NLU。

我先简单介绍下有道OCR技术。

有道OCR技术可以识别语种超过26种,目前国内覆盖语种最多;此外,识别准确率最高达到99.6%,识别精准,属于行业领先水平。

而且,有道的OCR针对教育场景做了着重优化,对于模糊的文字,比如这种我们都看不清楚的,有道OCR的识别准确率也能达到95%。还有拼音、公式、手写、以及各种强干扰文字的识别,都能做到90%以上的准确率。很自豪地说,这是国内仅有的OCR教育场景能力,独一无二。

词典笔的输入方式是“扫描”,这需要一个新的光学识别能力:“自适应的全景拼接”。

有道词典笔二代的笔头实际上是一个高速相机,在你滑动词典笔的时候,其实它扫描的结果是一堆小碎图。

这种碎图,这支笔1秒钟需要拍100多张!

如何将这100多张图高质量拼接起来,提供给OCR识别,是自适应全景拼接的重点。那么我们100张图拼接得好的话,是这个效果:

《网易有道吴迎晖:学习型智能硬件是一个门槛极高的市场》

如果拼接不好就会拼成这样:

《网易有道吴迎晖:学习型智能硬件是一个门槛极高的市场》

拼接也有很多其他的难点,比如:手抖、角度、密集行、滑动速度、左右反复滑动、左撇子等等,我们针对这些难点都做了优化。这密集、抖动场景的拼图示例。优化前,优化后,我们加了文字监测跟踪的算法,最后我们得到这样一个矫正的结果。

这就是有道OCR赋予这支笔的核心能力。这背后用到的核心技术点包括:自适应全景拼接、流式识别计算。实际上并不是像刚才看到的那样拼完图再识别,如果这样的话,速度就很慢。我们是在用户拼的过程中,一边拼接,一边识别。这就是流式计算。

效果方面,通过有道OCR拼接,有道词典笔二代达到了目前业内最快扫描速度:240mm/s。这约等于一张A4纸的长边,相当于1秒可以识别40个汉字。

识别准确率方面,词典笔二代的平均水平是95.5% ,远远领先行业水平。

基于有道OCR技术,这支笔还可以实现在特殊字体、特殊材质以及带背景等不同的学习资料上扫描和识别,效果也很好。我们也做了一个和行业目前水平的对比。可以看到我们的效果优化了很多。那再看看具体的特殊字体、特殊材质和带背景的我们和竞品的对接,也可以看出识别效果有很大的差别。

再来看看我们做了十二年的另一个核心技术:有道NMT。能够实现12种语言中文互译,以及9种语言的英文互译。

目前,翻译质量用的评价指标是BLEU值,有道的翻译引擎在中英上已经做到业内第一,在新闻领域测试上超出谷歌和微软非常多。

这款产品在设计之初,考虑到K12阶段的学生更需要在无网络的环境中使用,避免受到网络的打扰,所以我们在技术上做了很多优化,把原本只能在GPU服务器上跑的NMT引擎,搬到了词典笔里面,让所有的查词与翻译功能都在离线环境当中完成。

这是一件非常难的事情,为了考虑学生的使用体验,我们的技术团队从模型压缩,到重写整个神经网络的计算,攻克了重重难关,让这只词典笔不需要联网,就可以做地道的离线翻译。

此外,我们把TTS引擎也做进了词典笔,可以整句流畅的发声。最后我们集成进来有道自研的ASR和NLU技术,可以做语音识别和语义理解,实现了词典笔语音助手的功能。

更重要的是,这款词典笔本质上区别于此前大家知道的所有产品,关键在于,这样的智能硬件,未来可以通过我们的OTA在线升级,搭载更多、更强大的AI技术和优质内容,我们可以赋予它更多的功能,而不仅仅是大家眼前看到的这些。

这款智能硬件产品是我们在技术实体化过程中的一次尝试,得到业内和市场的认可让我们更有信心去深入学习场景,围绕用户体验,做出一些优质学习型智能硬件。

今年以来,网易有道加快了AI技术实体化的速度。我们现在已经有了八款学习型智能硬件,未来还会陆续推出更多,用AI技术的落地产品去改进学习的效率。

2018年,网易有道全面转型在线教育,目前包括付费直播课程、学习APPs、学习型硬件几大部分,是一家以产品技术驱动的教育科技公司。我们的愿景就是用先进的技术手段让语言、学习和工作变得更加轻松有效。谢谢大家!