友情提示:本文共有 695 个字,阅读大概需要 2 分钟。
教材中,主人公小明对小爱智能音箱爱不释手,他惊奇的发现:小爱智能音箱不仅能听懂他说话,还可以和他进行简单友好的交流。真是太神奇了!
这里涉及到了语音处理技术。分语音识别和语音合成技术。
所谓语音识别(ASR,Automatic Speech Recognition),就是将人的语音转换为机器可以识别并理解的文本或命令的过程;
所谓语音合成(TTS,Text To Speech),就是将文字转换为声音输出的过程。
两者互为相反的过程,一个是让机器学会倾“听”,一个是让机器学会“说”话。教材中这样定义:
将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码或者字符序列。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。该技术主要包括:特征提取技术、模式匹配技术、模型训练技术等3个方面。
语音合成是通过机械的、电子的方法产生人造声音的技术。它将计算机自己产生的或外部输入的文字信息转变为人类听得懂的、流利的口语进行输出的技术。
根据百度AI开发平台(百度大脑),语音识别(ASR)应用在但不限于如下场景:
1、手机应用语音输入:将语音实时识别为文字,适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景。
2、机器人对话:通过语音识别实现人机对话。将语音对话实时识别为文字,实现自然流畅的人机对话。
3、语音内容分析:将音频内容识别为文字进行返回,从中提取关键信息,对内容进行追踪、处理及打标签等操作。
4、实时语音转写:可将会议记录、笔记、总结、音视频直播内容等音频实时转写为文字,进行内容记录、实时展示。
语音合成(TTS)应用在但不限于如下场景:
本文如果对你有帮助,请点赞收藏《第二篇:语音识别&语音合成技术的概念 应用场景及原理解析》,同时在此感谢原作者。