ai 语音助手是怎么听懂咱们说话的

在这几年，AI语音助手的功能越来越强了，比如小爱同学、北京的智能助手还有衡阳市科技馆的这个项目，都让咱们的生活方便了不少。何志文、尹倩琴和曾战虹等老师们给我们科普了一下，这些助手是怎么听懂咱们说话的。贺慕蓉编辑的文章里详细讲了这个过程。你在上海或者北京早晨起来跟手机说句话，“小爱同学，今天天气怎么样？”下一秒就能收到准确回答。这其实是个挺复杂的过程。当你对着麦克风说话的时候，声音首先被转成了电信号。不过这些信号对电脑来说跟波浪线一样乱。所以系统得先把这些连续的音频给拆解成一小段一小段的，每段大概20到30毫秒。这个拆解出来的片段叫作“帧”，因为这么短的时间里，声音可以看成是相对稳定的状态。接着就得用傅里叶这样的数学工具把每一帧从时间轴变到频率轴上，得到一张频谱图，这就像是声音的“指纹”。然后再用梅尔频率倒谱系数（MFCC）这种技术，模拟人耳对声音的感知方式，把频谱图给压缩一下。最后提取出一些数字特征出来，让手机能听清咱们每一个音。有了这些数字特征后，就需要把音变成字或者音节。这时候就轮到声学模型上场了，它像个翻译官一样帮忙翻译。接着还得用语言模型来判断这些字有没有意义。因为前面会出现多个候选结果，比如你说“打开空调”，系统可能会考虑“打开空调”和“大开空跳”之类的选项。谁来决定选哪个呢？这就靠解码器了。它像个裁判一样综合考量发音可信度和语义合理性，算出得分最高的那个句子。 Beam Search（波束搜索）是一种常用的方法，它保留几个最有希望的候选路径一步步扩展下去，在速度和准确性之间找到平衡。整个过程通常比眨眼还快。现在的AI语音助手已经不止是语音转文字了。它们能理解咱们的意图，比如你说“帮我订明天早上的闹钟”，它们就知道要设置时间。还能进行多轮对话关联上下文，比如你先问“北京天气？”再问“那上海呢？”，它们能接着聊下去。最厉害的是它们还能通过个性化学习熟悉咱们的口音和常用词，用得越多就越准。这一切背后离不开大模型、大数据和自监督学习等技术的支持。