救命,大模型开始给我上口语课了 - 恐惧症

TUhjnbcbe - 2024/7/30 17:17:00

在手机上打开名为HiEcho的App，点击通话，接通后一个名叫Echo的虚拟形象弹了出来，这是一位24小时全程待命的私人口语教练。

当我想练口语的时候，我可以问它任何问题，Echo这位虚拟人，像真人老师一样循循善诱又流畅自如的使用纯正美音回答，这几乎是我能想象到的最自然的口语交互方式了。

这一幕发生在26号有道“子曰”教育大模型应用成果发布会上，这位名叫Echo的口语教练实际上是由网易有道子曰大模型所驱动的最新产品，它就像是我记忆中那位无限温柔耐心，永远不会发脾气的英语老师一样，在这里我不用担心自己的英语口音，也不用害怕想不出话题直接社死，只管大胆去说就行了，剩下的都由老师来帮忙。

品玩第一时间上手试用了这款新产品。

接通后，我可以和Echo随意谈论任何感兴趣的话题，从北京的名胜古迹到它的职业理想都可以，Echo的回答速度飞快，表达自如。

由于大模型能力支持，Echo能同时听懂中文和英文（甚至是磕磕绊绊的中式英文），还能智能判断说话的开始和结束，甚至还能接受对话被直接打断，因此实际上我唯一需要做的就是和它说话。

当然，单纯“完成”一段对话还不够，Echo更让人深刻的能力是引导对话，“主动”的它可以说具有一定“情商”。比如在我表达了心情不好的时候，它提议给我讲个笑话。

又或者，在我介绍了我的职业和工作内容后，Echo一方面发表了自己的看法（科技发展非常迅速），另一方面还能基于对话发问（你对技术的未来怎么看），引导对话持续。

就连那个所有中国人都再熟悉不过的问题：Howareyou？Echo也能往下接。

Echo像人类的地方还不止于此。

再比如，Echo介绍自己最喜欢的电影（《音乐之声》和《狮子王》）之前有一种“选择恐惧症”发作的感觉，也很像人类在对话时的反应。

Echo所具备的这种真实、自然的多轮对话的能力，实际上精准还原了人们日常使用语言的场景，它就像一个流利口语又十分健谈的好朋友，我可以和它随心所欲的谈论任何问题而不用担心出戏。

当然，同样可以把Echo当做专业的口语教练，针对某个具体的话题进行练习。毕竟，人家Echo还拥有教育学硕士学位呢！

比如旅游相关话题，我可以作为游客，询问面前这位无所不能的导游，连路线都给安排好了。

如果在对话中出现了卡住和不知道要怎么表达的情况，除了用中文外，还可以点击界面上的小灯泡按钮，系统会自动匹配、推荐适合当下对话的句子，可以直接选择跟读。

作为专业的口语教练，在整个对话完成后，还会收到一份口语分析报告。

首先是对整段对话的等级评分，包括了词汇、发音和语法这几个部分。

接着能看到和Echo完整对话，系统还特别针对口语部分进行了AI润色，从而辅助我让句子变得更加准确、生动。

用的多了就能发现，Echo在点评中式英语方面可以说十分有经验了……

由于录制了所有语音，因此还可以对照着系统给出的发音问题回放自己的语音来进行检查和纠错。

由于这些功能都是系统级的，所以可以在我的每一次对话中都看到这些点评，而由于大模型能力的加持，Echo实际上涉及的话题范围近乎是无限的，App基于场景简单分成了8类，涵盖个人发展、生活日常、社会议题等共60多个小的话题门类。

在点击进入某个具体门类后，Echo就会化身成为这个领域的专家，可以围绕着相关主题进行深入探讨。

作为艺术爱好者探讨当代艺术馆和一般性艺术馆之间的区别。

可以看到，Echo的用词流畅而口语化，在同一段中尽量使用了不同的表述形式，同时做到了信息的精准传递。

下面有关个人身体锻炼的例子也很典型。

Echo不仅非常简练介绍了有氧运动和力量训练各自的优点，还明确了循序渐进的锻炼思路以及格外强调了锻炼对心理健康的好处。

因此，这种对话实际上不仅进行了口语技巧的训练，还辅助用户拓展了对具体话题的讨论广度，有过口语考试经验的人都知道，这种提炼重点、拓展话题的能力恰恰是口语能力考察的重点之一。

再举个例子，比如雅思考试中经常出现的介绍家乡/城市类话题，Echo就能很好地用来辅助复习。

系统还贴心的在场景设置时就已经帮忙划出一些谈话要点。

另一个考试中出现比较多的场景是租房子，在这里Echo化身成为一名房东。具体的对话过程大家可以自己体验，比较好玩的是，不管向它确认多少遍，Echo都坚称房租是1元！

如果不是bug的话那可真是业界良心了！

而除了偏日常的讨论外，Echo在理解复杂问题和讨论抽象概念方面也还挺擅长的，比如城市社群多元化，这是一个在英语世界比较主流的议题。

当然，我们不会忘记问Echo有关人工智能的看法的，而Echo的回答也可以说是比较公允了，关于人工智能的利弊都有点到。

从互动性、话题深度、语言精准度以及对用户的语言评价和优化上，Echo都达到了相当水准，当然，这不是说它不会出现失误，比如下面这个例子。

不过，随着对话继续进行，Echo很快自己就进行了纠正。尽管类似的失误尚不能完全避免，但瑕不掩瑜，在没有大模型之前，像Echo这种级别的基于互动的综合语言功能App是不可能出现的，甚至可以说，这是第一次，在语言学习最困难的口语部分，技术某种程度上发挥了主导作用。

大模型热从去年底延烧到现在，大致经历了“百模大战”和“垂直模型”两个阶段，前者强调参数量、通用性，后者则逐渐将目光转向细分行业领域。

出现这种转向，是因为每个大模型玩家都有一道必答题需要回答：大模型的商业化路径是什么？

有两个赛道看上去是十分确定，那就是搜索和语言类产品，相比于前者，和语言有关的功能，比如翻译、生成式写作、文档问答等，它们的教育属性几乎和大模型有着天然的契合，毕竟大模型的全称就是大语言模型。

但实际上，我们目前能看到的跑出来的教育类大模型落地产品可以说寥寥无几，相比之下，有道在5月时就剧透了Echo这款产品，26号的发布会上，除了Echo代表的虚拟人口语教练外，网易有道展示了“子曰”大模型在多个场景中的应用成果，包括作文批改、习题答疑、语法精讲等六大教育的细分领域，充分展现了“子曰”大模型在自然语言处理领域的技术实力和教育领域的广泛应用前景。

用有道CEO周枫的话来说，大模型在教育领域中最大的机会就是助力因材施教，“我们的目标很明确，就是以实际的教育场景驱动，用技术创新助力教育创新。”周枫在发布会现场说到。

显然，大模型带来的技术创新是革命性的，Echo就是最典型的例子，“会看会写不会说”是许多人学英语的通病，而造成“哑巴英语”的一大原因就是缺乏语言环境，而营造一个通过语言来多轮互动的场景恰恰是大模型最擅长的。

由此，一个长久无法得到解决的基于场景的痛点被大模型化解。

当然，除了大模型赋能以外，想要打造成熟的商业化产品还离不开在教育行业深耕多年积累的丰富场景经验。以Echo为例，想要成为合格的口语教练，内容生成和对话能力固然重要，但语音内容识别能力、全维度评测纠错能力，甚至虚拟人准确而赋予情感的表现力都同样重要，而这些“内功”在短期内是不可能速成的。

一切都基于场景和产品。这不由让人期待下半年国内大模型生态的演化，随着更多垂直模型的问世，场景赛道的明确，产品如何在与大模型能力结合的基础上落地将是所有人