时间: 2024-07-05 02:34:10 作者: 半岛官方网站下载
VOS(智能座舱语音操作系统)旨在为用户更好的提供车内环境下的语音交互服务。VOS系统采用了唤醒、语音识别、语义理解等技术实现语音控制。座舱的车设车控、地图导航、音乐及多媒体应用、系统设置、空调等均可通过语音来操作。除了针对车身、车载的控制外,语音还支持天气查询、日程管理以及闲聊对话。用户只要说唤醒词,就可以使用。语音指令可以一步直达功能,既能解放手指,又无需视线偏移注视车机中控区域,从而保障行车安全。
在总体的架构上,语音系统可分为四个模块。即车端系统、云端系统、语音运营管理平台和训练和分析统计模块。整体的语音系统和要求,包括车端到云端链接、数据到功能的构建、Online的运营平台、线下线上的数据采集和标注。
车机端主要是对话系统(DS),也是用户感受最直观的,产品的重点侧向交互设计。
以上每个模块均包含一个或多个应用,这些应用内置在车机:音频处理包括AEC (Acoustic Echo Cancelling)、VAD (Voice Activity Detection)、音频压缩、唤醒词、本地的ASR识别等。该模块可以对来自麦克风的原始音频信号进行各种预处理,向语音助手提供获取唤醒信号、预处理后的音频、本地ASR识别结果等接口。
前端信号处理包括:AEC、ANR、AGC、声源定位(SSL)、Beamforming,全部通过软件方案实现。
车机端负责语音对话的中枢控制模块,负责协调车机端对话系统的总体流程。车机端的其他模块或者被语音助手调用(音频服务、本地对话系统、TTS模块、应用程序),或者属于语音助手的组成部分(对线本地对话系统(本地DS)
本地对话系统是云端对话系统在车机上的一个镜像。它负责执行那些需要在车机上执行的对话处理,如:离线无网络状态下的对话功能、基于本地SDK的导航或音乐搜索相关的对话处理、 或者其他一些本地优于云端的场景下的对话功能。本地对话系统提供了一系列接口供对话控制器进行调用。
本地NLU在无网络状态下,提供基础语义理解服务,考虑到车机端的运算能力,在NLU模型上需做大量的模型裁剪和压缩,并结合车机芯片进行指令集层面的优化,确保将本地NLU的效果最大限度地逼近云端NLU的效果;本地NLU的资源大约是在线, 最大限度地保证了本地的效果。
TTS模块被语音助手调用,负责将文本转换为语音播报。TTS合成引擎由供应商提供,对话话术的TTS文本通过话术运营系统来制定和编辑,其结果存储在数据库中、供对线 VOS云端系统
对话系统的云端部分(或者说在线对话系统)由多个部署在云服务上的服务和存储组成。
云端向车机提供两种接口:一种是基于TCP的socket流式数据传输接口,用于传输语音数据并给出云端ASR识别结果和对话结果;一种是基于HTTP的用于发送非语音类消息的接口。云端服务可以部署在各种云服务(如aws、华为云等)的计算节点上;一套部署在具备64G内存的计算节点上的云端节点可以同时支持2-3万台设备的访问。对话系统的云端部分主要提供以下几项功能:
对于通用领域,模型优化能带来整体的提升。例如整体升级声学模型和语言模型,在用户数据积累到某些特定的程度的时候,如1万小时交互音频数据,能带来20%-30%错误率下降;对于专有领域,模型优化可以在一定程度上完成从极低到极高,甚至从无到有的提升,例如一些产品强相关的词汇、使用常见的一些专有名词、人名地名等,都可以做特定的优化,达到通用的效果。
云端TTS有别于本地端TTS,基于强大的计算能力,云端使用更大的数据库,技术上使用基于拼接的方案,相比于本地端基于参数合成的TTS,音质更自然;TTS的声音能够直接进行定制,需要经过文本设计、发音人确认、录音场地和录音、数据筛选、标注、训练等过程。
运营平台通过云端和线上对话系统联通,负责以可视化的形式干预对话系统线上的数据和功能。其中主要包含两大类功能:数据运营、功能运营。
1. 针对系统接入的CP/SP的可运营的内容,比如喜马拉雅的推荐数据、黄页数据等等,可以在系统中以手动的方式调整数据的内容、排序等;2. 针对企业自有的数据,比如主机厂独有的充电桩数据、服务门店数据,可以有机的结合到对线功能运营
针对音频、文本、图像的采集+标注系统,企业通过定期常规的对线上数据的回收、标注和不定期的对特别的条件数据的采集、标注,生产出各个AI模型需要的数据,提供模型训练支持;每次模型训练完毕会有迭代上线,以此来实现训练数据系统和线上模型的一个闭环迭代,不断的提升整体的语音产品的能力。
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
上一篇:智能座舱系统主要有哪些系统
下一篇:智能座舱包含哪些内容