在这几年,AI语音助手的功能越来越强了,比如小爱同学、北京的智能助手还有衡阳市科技馆的这个项目,都让咱们的生活方便了不少。何志文、尹倩琴和曾战虹等老师们给我们科普了一下,这些助手是怎么听懂咱们说话的。贺慕蓉编辑的文章里详细讲了这个过程。你在上海或者北京早晨起来跟手机说句话,“小爱同学,今天天气怎么样?”下一秒就能收到准确回答。 这其实是个挺复杂的过程。当你对着麦克风说话的时候,声音首先被转成了电信号。不过这些信号对电脑来说跟波浪线一样乱。所以系统得先把这些连续的音频给拆解成一小段一小段的,每段大概20到30毫秒。这个拆解出来的片段叫作“帧”,因为这么短的时间里,声音可以看成是相对稳定的状态。 接着就得用傅里叶这样的数学工具把每一帧从时间轴变到频率轴上,得到一张频谱图,这就像是声音的“指纹”。然后再用梅尔频率倒谱系数(MFCC)这种技术,模拟人耳对声音的感知方式,把频谱图给压缩一下。最后提取出一些数字特征出来,让手机能听清咱们每一个音。 有了这些数字特征后,就需要把音变成字或者音节。这时候就轮到声学模型上场了,它像个翻译官一样帮忙翻译。接着还得用语言模型来判断这些字有没有意义。 因为前面会出现多个候选结果,比如你说“打开空调”,系统可能会考虑“打开空调”和“大开空跳”之类的选项。谁来决定选哪个呢?这就靠解码器了。它像个裁判一样综合考量发音可信度和语义合理性,算出得分最高的那个句子。 Beam Search(波束搜索)是一种常用的方法,它保留几个最有希望的候选路径一步步扩展下去,在速度和准确性之间找到平衡。整个过程通常比眨眼还快。 现在的AI语音助手已经不止是语音转文字了。它们能理解咱们的意图,比如你说“帮我订明天早上的闹钟”,它们就知道要设置时间。还能进行多轮对话关联上下文,比如你先问“北京天气?”再问“那上海呢?”,它们能接着聊下去。 最厉害的是它们还能通过个性化学习熟悉咱们的口音和常用词,用得越多就越准。这一切背后离不开大模型、大数据和自监督学习等技术的支持。