时间: 2023-09-24 06:13:33 作者: 半岛官方网站下载
自汽车问世以来,汽车经历了两个时代:机械时代和电气时代。这两个时代的汽车都是以驾驶为主要任务的交通工具,汽车内部空间区域主要分为固定的驾驶员位和固定的乘客位。由于近几年无人驾驶、人工智能、5G等尖端科技的兴起,汽车行业也逐渐在汽车上集成了辅助无人驾驶和智能助手等功能,让驾驶变得更轻松快捷,但人们汽车的价值理解也从出行工具向“第三空间”转变,而座舱则是实现空间塑造的核心载体。据IHS Market预测,到2030年全世界汽车智能座舱的市场规模将达到681亿美元,届时国内的座舱市场规模也将超过1600亿元,中国在全球市场的份额将从当23%上升到37%左右,成为全世界最主要的智能座舱市场。
IHS Market认为,“智能座舱是指集成了智能化和网联化技术、软件和硬件,并可以通过不断学习和迭代实现对座舱空间进行智慧感知和智能决策的硅基生命综合体;与机械化座舱、电子化座舱的不同在于,智能座舱能更高效、更加智能的感知座舱环境,并被赋予更多的人格特性与具象存在——智能技术和软件塑造灵魂基础,硬件装备则构建了智慧功能感官体系”。
民生证券一项市场分析认为,“智能座舱通过硬件、人机交互系统及软件集成整合发展,以驾驶信息显示系统和信息娱乐系统为核心载体,在底层软件架构的支撑下,完成人机交互相关功能,最终实现座舱智能化”。
罗兰贝格的智能座舱白皮书认为,“主要涵盖座舱内饰和电子领域的创新与联动,是拥抱汽车行业发展新兴技术趋势,从消费者应用场景角度出而构建的人机交互(HMI)体系”
《软件与集成电路》期刊认为,“智能座舱应该能够同时涵盖车载信息娱乐和驾驶信息两个领域,能够为用户更好的提供直观、高效的人机交互,并且支持海量数据的传输和处理,以实现完整的自动化操控体验”。
可见,智能座舱是由驾驶系统、娱乐信息系统、安全保护系统、座椅系统、音响系统、空调系统、车内监视系统等多个相互关联的功能系统所构成综合体,一般包含座舱域控制器、(AR)HUD、中控触摸屏、中央仪表盘、流媒体后视镜、多种类传感器、语音控制器等主要智能化部件。其中,)人机交互(HMI,Human Machine Interaction)是智能座舱最本质的特征,可以毫不夸张地说,智能座舱的核心需求,就是更人性化的人机交互,是始终贯穿座舱各种子系统设计的一个核心目标。每一次人机交互技术的革新都成为汽车智能化水平提升的关键,直接影响(驱动)到智能座舱,甚至整个智能汽车行业的发展方向。
下文将详细分析面向智能座舱的人机交互系统发展的新趋势,并对其中多项关键技术进行系统分析,最后详细论述智家中心在该领域的基础及切入建议。
纵观汽车座舱交互技术的发展,可以从三个不同的角度进行阶段划分及趋势预测:1)按交互媒介划分;2)按交互发起方向划分;3)按交互呈现方式划分。
按交互媒介划分,智能座舱的交互系统模块设计,经历了传统的触控交互时代,进入当前以语音为主的智能交互阶段,未来将走向多模交互的终极形态。
在触控交互时代,人和座舱主要是通过机械按键进行交互,驾驶员通过按钮触发座舱某项功能,例如收音机播放、车窗升降、空调控制等,此阶段,座舱中各类设备/系统,例如车载信息娱乐系统、液晶仪表、座椅等,都是基于独立ECU单独决策控制,彼此无任何关联影响,各个系统像“孤岛”一般,之间无法联动,另外由于空间存在限制,按钮的数量无法增加,舱内各系统/装置功能相对简单直接。后期,机械仪表盘(数显屏)逐渐演化为彩色液晶屏,机械按钮演进为触摸按钮,极大的提升了座舱的交互体验,出现了导航、车机蓝牙互联、多风格仪表盘、中央控制大屏等多项创新应用。
进入语音交互时代后,驾驶员(人)双手得到了进一步释放,座舱更多地通过对话来获取控制意图或者提出控制提醒,更多人工智能被注入到座舱的整体设计中。语音交互系统通过分解为唤醒、聆听、理解、播报四个环节进行细分技术演进,并配合唇语识别、眼球视线跟踪、音源定位等多项辅助手段逐步提升识别率,具备拟人化、情感化特征,用语言和服务向用户传递汽车品牌理念。语音交互系统的引入及加快速度进行发展,使得智能座舱从人适应机器逐渐转变为机器不断地适应人,在某些场景下还可以通过图灵测试。
多模交互是下一代人机交互方式的理想模型,什么是多模交互?简单说,是利用手势、眼球跟踪、语音等方式来进行交互。这里的模态类似于人的“感官”,多模态即是将多种感官进行融合,对应人视觉、听觉、触觉、嗅觉、味觉五种感官。随着传感器技术和人工智能技术逐步发展,单一的感知手段无法完全理解驾驶员(人)真正意图,识别率逐步提升出现瓶颈,智能座舱必须融合多种感知手段,从以语音为主的交互模式转向以视觉感知为核心,以语音及其它多种感知方式为辅助的多模交互模式,形成独立的立体式感知层。当前,多种感知技术同时应用到智能座舱中慢慢的变成了一种行业趋势,单一座舱平均传感器安装数目预计在2025年达到11个以上,其中超过50%将是视觉传感器(摄像头),如奔驰、宝马、长安和广汽等诸多车企近期推出的新产品均在不同程度上实现了多模态的人机交互方式。
在早期的汽车座舱里,所有的交互都是被动的(从座舱角度)。由驾驶员(人)通过某种模态发出指令,座舱被动接收执行。座舱从来不会,也不能自主去执行某项功能,或者发起与驾驶员(人)的某种沟通。这个时代,驾驶员需要对汽车全面掌控,持续关注各类环境信息,并快速做出决策。座舱交互系统的设计目标体现为更短的控制路径、更快的响应时间,更简约的控制方式,实现从“操作”到“控制”的体验升级。
随着无人驾驶水平的提高,驾驶员将有更多的时间和选择来做除驾驶之外的各种任务,这为交互开辟了新的途径,主动式交互也就引入了智能座舱概念中。慢慢的变多的传感器被整合到座舱中,以了解驾驶员和/或乘客的行为、情绪和选择趋势,从而提供精确的功能和服务,座舱从被动接收,开始转入主动感知、察觉缺陷、沟通方案。此阶段中,座舱已经具备了比较完善的感知能力,且具有一定的分析理解能力,它能够准确的通过当前车外/车身、车内的状态、环境,乘员的精神情况,在必要时发出提醒形成互动,并提出相关的解决方案,供驾驶员(人)进行决策。驾驶员不再需要时时刻刻关注车辆内外环境情况,可以释放更多的时间精力从事其它有趣的活动,实现从“控制”到“享受”的体验飞跃。
显示交互是HMI设计中最基础的交互方式,基于语言的交互、基于显示屏的交互、基于触觉的交互、多模混合界面交互都属于显式交互模式,它实际上也是一种由驾驶员(人)主动发起的交互方式。其基本特征由驾驶员触发,并具有可感知的启动时机,例如语音交互是通过唤醒词启动,按钮/触摸交互是通过驾驶员按键启动,即使是较为复杂的视觉交互,大部分也是通过眼球注视或特定手势进行触发的。
而隐式交互,是在驾驶员(人)完全无感的状态下进行的。人机交互系统通过持续检测车舱内乘员的声音、姿态、面部表情、生理特征,正确识别出其驾驶状态及潜在意图,则可以在每个时刻将汽车各系统调节到最佳状态。例如如果汽车知道乘客的全身姿势(坐姿、躺姿等),其安全功能(例如安全气囊、转向、制动和防撞模式)可以及时调节部署。在检测到驾驶员分心或疲劳时,智能车辆助手可以再一次进行选择提供视觉或振动警报,或者与驾驶员进行对话以保持他们的警觉。如果检测到非最佳的身体姿势,座椅系统能将驾驶员推向正确的身体姿势,以获得最佳的驾驶注意力。同样,假如发现驾驶员的情绪是愤怒或悲伤,智能车辆助手可以推荐舒缓的音乐,控制车内温度,营造轻松的环境。简而言之,音视交互就是让机器懂你的方式。智能汽车能准确识别驾驶员和乘客的行为和活动,对车载交互系统和安全功能具有深远的影响。
综上所述,当座舱交互技术实现多模交互、主动交互、隐式交互后,驾驶员将不再感觉到自己是和机器进行交流,而是感受到座舱成为了自己的“体己人”,到了那个时代,我们将真正的完成“车人合一,人机共驾”的终极目标。
当前座舱人机交互系统中广泛使用或发展迅猛的关键技术,包括但不限于以下几项:
HUD是目前比较火的一块市场,将行驶信息投射到挡风玻璃上,保持驾驶员抬头状态。HUD 通常是对传统仪表板显示的补充,并提供与驾驶相关的补充信息。例如,他们投射的信息可以是从哪个广播电台播放到您的限速的任何信息,或者它们能帮助驾驶员在容易发生事故和能见度低的情况下有效导航。HUD 技术正在迅速完善,因为它被视为汽车内饰技术的下一个重大技术进步。例如,将AR全息技术用于HU,最近引起了汽车行业的兴趣。AR-HUD 技术并不新鲜,它在 1990 年代已用于波音 727 飞机上。AR-HUD 使用光学投影在驾驶员视线中呈现虚拟信息增强,而无需驾驶员在现实世界和仪表板/导航数据之间进行频繁调整。
DMS是英文Driver Monitor System的缩写,即驾驶员监控系统。目前主流是利用2D或3D的摄像头方案(一般带红外功能)实现对司机的身份识别、驾驶员疲劳驾驶以及危险行为的检测功能,是目前流行的ADAS(高级驾驶辅助系统)系统中重要组成部分。DMS还可以升级为OMS-即车内人员监控系统。摄像头不但可以对司机的状态进行跟踪,包括驾驶员产生驾驶疲劳的一些提醒,甚至还可以对后排乘客也进行跟踪,以满足相关的乘车需求。
DMS/OMS系统为各类视觉智能感知算法提供原始视频数据,是一切视觉智能感知算法的物理基础。
通过车内视觉摄像头(DMS/OMS),对司机的手部动作进行精准识别,并形成一套预定义的手势标准,对座舱中各项功能来控制。不同的手势能够表达丰富的语义,并使驾驶员摆脱中控触摸屏的位置束缚,更自由便捷地发起交互。手势识别是各类基于视觉智能识别算法中的一种,而在智能座舱行业里被重点推广应用。
生理状态感知系统可通过基于视觉、红外、触觉多项感知手段融合,实现乘员生理状态监测。该系统功能包括心率检测、体温监测、呼吸检测、分神/疲劳检测、危险驾驶提醒、情绪识别安抚、姿态识别功能。应具备全天候感知能力,随时随地提供舱内人员的生理状态监测和提醒。
用户对人机交互系统延迟的要求越来高。在线交互带来最严重的问题是:系统延迟,依赖于网络离线本地交互在足够的端侧算力情况下,延迟一般比云端快一倍。
云端具有更强大算力,是端侧算力的重要补充,融合后可以越来越好为用户更好的提供精细化,逐渐修正式服务;基于联邦学习算法,可以在端侧训练一个小的模型将模型发送到云端进行联合训练,有一定的概率会一步提升算法模型的准确度,针对不同用户使习惯能做到千人面。个性化模型在云端全面训练完成后再空中下载到端侧使用,并支持离线计算,实现更好的算力分配。
数据隐私方面。人们更愿意将座舱内的隐私数据(包括人体生理特征、乘员交谈语音)留在端侧处理而不是直接上传到云端,从而避免敏感信息意外泄露。
多音区隔离目的是让舱内的人在都去掉耳机束缚的条件下,能享受到属于自己的音频。个人音频隔离可以将汽车座舱内划分为几个独立的收听区域,每个区域能听到独立的音频。通过这样的技术驾驶员就可以再一次进行选择是否想听到其他音区的声音,让驾驶员即使在嘈杂的环境中也能专心驾驶。希望在未来的座舱内,音频分区技术会识别乘员的位置,并根据位置动态生成独立音频区域。
使用声源定位的目的主要有两个,第一个目的是知道是谁在说话并提供个性化服务,例如副驾说“打开窗户”,这时只有副驾的窗户会被打开;第二个目的是实现定向拾音,由于车内外环境的噪音较大,同时乘客之间的讨论和回声会影响语音交互的拾音质量,因此声源定位能让麦克风阵列锁住某个方向的声音。声源定位已从双音区发展到四音区,双音区的意思是将座舱分为左侧和右侧,没办法识别是驾驶员还是后排左侧的乘客说话,因此局限性较大。四音区可以将座舱区分为驾驶员、副驾、后排左侧和后排右侧四个区域,能较好地解决双音区的问题。
首先,智能座舱的本质是人机交互,而人机交互最重要的维度是视觉感知。智能汽车其实就是家庭空间的对外延伸,是一种服务于家庭出行的特种载人机器人,而智能座舱则是人车交流的第一界面,是人对汽车智能化程度的最直观感受。有心理学相关研究表明,根据赤瑞特拉(Treicher)的实验说明,人类接触的信息之中,来自于视觉的占比为83%,视觉仍然是人们获取信息效率最高的方式。因此,人机交互技术尤其是视觉感知方面是智能座舱至关重要的研究内容。
视频物联网是视觉感知系统的重要基础技术。视觉感知系统以视频数据作为处理对象,其核心离不开各类视频处理技术。当前超大规模视频数据在智能感知、语义编码、窄带传输、异构存储、分析理解方面存在多项挑战,严重阻碍了以视频为中心的各类应用发展。新一代视频物联网,融合了多媒体、物联网、大数据、人工智能等多学科关键技术,面向“万物视联”场景提供稳定可靠的基础能力及服务设施。
以视觉感知为核心交互形态的智能座舱将是视频物联网未来重要的产品应用,是各大视频技术服务企业争相抢夺的新业务市场。
依托移动看家、和家智话、数字乡村等主建业务近年来全面铺开、快速地发展,智家中心在视频物联方面已经沉淀出多项关键技术成果,包括但不限于:
面对日渐增长的视频物联产业需求,智家中心依托AIoTel首席专家工作室和技术积累,历经8年打磨,围绕星云架构、语义编码、媒体闪传、录像直存、幻视加密、睛虹通信、南北云桥、视算调度八大视频技术体系持续攻关,成功研发出一套可承载超大规模联终端接入的视频物联网能力系统,相关性能指标已达到了业界领先水平,为支撑各项上层视频+业务加快速度进行发展,保障核心领域技术安全,打造相关行业技术标杆,奠定了坚实的底座基础。
2)成功建设分布全国范围数十个中心计算节点,已接入千万级视频终端的视联网及基础设施平台。
智家中心与移动云深度协同,完成全国数十个专属视联IDC机房建设,实现31省的视联用户与终端就近接入,当前全网设备激活量超超过五千万台,云服务器使用量超过5万台,云存储规模超过800PB,已建成超大规模的视频存储集群。
通过设备SDK赋能模式,与国内外一线视联网终端厂家达成深度合作伙伴关系,已合作厂家/品牌超过200家,对接智能音箱、摄像头、猫眼门铃、智能锁、智能台灯、智能后视镜等12个终类超过680款终端型号,Top50生态品牌全赋能。与多家视频SOC芯片厂家建立战略合作伙伴关系,对接其主力芯片18款,上市商用11款。已建成视联终端生态联盟,在行业生态圈中起到引领作用。
推动视联网相关关键技术攻关,加快视联网平台规模建设,打造视频技术领域的国家队、主力军;
加强与智能座舱tie 1级供应商合作,推动公司核心视频技术在智能座舱应用场景中尽快落地。
原文标题有所修改,原标题为:“车人合一,人机共驾”——汽车智能座舱感知交互技术前瞻研究