新闻中心 News 分类>>
后Siri时代人工智能语音谁主沉浮?
后Siri时代人工智能语音谁主沉浮?最近,一条关于使用GPT4指导用户学习多国语言的视频可谓“炸开了锅”,GPT4不仅可以听懂你说的外语,而且还会用中文指出你的语病,并给出对应的正确说法,在整个过程中它就仿佛一个活生生的外语老师,交流过程可以说是“丝滑无比”。
虽然也有学习法语、意大利语的网友指出了一些问题,比如发音不准甚至“带口音”,但毫无疑问的是,自然语言对话大模型作为今年才刚刚让飞轮转起来的新领域,在如此短暂的时间内就从磕磕绊绊的文字浅聊,深入到了顺畅流利的语音沟通,我很好奇,假以时日,它究竟能进化到什么地步?
大预言模型,是基于大规模语料库进行算法训练而来,也就是说作为背后的技术推手,必须要有足够充裕的语料库,同时手握算法技术,还需要有大量资金投入算力硬件,以及最重要的庞大用户群体,才能让大语言模型真正的“跑起来”。
这也就意味着,只有掌握互联网话语权的龙头企业才有资格来主导这个全新的领域,从全球范围来看,目前的领导者就是微软、亚马逊和谷歌。
就在国庆节之前,微软在美国纽约召开秋季发布会,宣布自9月26日起将逐步给Windows11用户推送系列更新,其中一个重要更新是人工智能助手Copilot,它将出现在Windows11的侧边栏,可以语音对话,允许用户通过其控制PC上的设置、启动应用程序或是回答问题等。
驱动Copilot的是OpenAI目前最先进的大语言模型GPT-4。而OpenAI也宣布将中旬向付费用户推送多模态新功能,能基于图片进行对话,也就是说你拍一张冰箱里的各种蔬菜,就可以问语音问ChatGPT建议做什么菜,不知道怎么调自行车坐垫高低,拍一张照片,它就能告诉你怎么调,甚至还能通过型号给出具体该使用那些工具……
无独有偶,亚马逊也在近日举行的秋季硬件发布会上宣布,老牌语音助理Alexa终于要融入大语言模型,新Alexa延迟更低,能理解上下文、记忆此前的对话、无需来回唤醒,而且还会越用越个性化。
谷歌在10月4日的“Made by Google”大会上也官宣了整合生成式AI能力的“Google Assistant with Bard”,也就是谷歌自家的语音智能助手,对标的正是OpenAI ChatGPT和微软Copilot,可以通过自然语言文字、语音或图片传达指令,此外也能和Gmail、Google Docs、Google Calendar等功能整合,协助你搜寻邮件、整理出差行程、订机票,或是草拟邮件、制作PPT等。
智能语音可能大家以前更多是接触苹果的Siri,或者各类智能音箱,相信每一个使用智能家居的玩家,都曾经尝试怎样才能让“小D”和“精灵”们只需简单一句话就听懂指令。
如果说彼时的智能语音像个玩具,那新世代的智能语音就像是渴望化身为人的匹诺曹,都在拼命减少“机器感”,更多增强拟人性,当你想听一首歌的时候,不再需要专门说出那首歌的名字,而是给出一个模糊的概念,比如“我要开始健身了,给我打打鸡血!”人工智能语音助理就会在各类音乐App里找到对应的歌单进行播放了。
从技术实现的角度来看,微软、谷歌和亚马逊的途径是截然不同的,这也很正常,因为它们三家的“根”本就不同。微软的路线依然是以Windows为载体,因为依附于Windows生态的用户群体就是它最大的优势,无论商用还是消费端都有着覆盖全球的影响力,而且微软人工智能基于OpenAI,目前来看是毫无疑问的第一把交椅。
更重要的是,微软将和OpenAI联手推出自家的人工智能芯片,专为数据中心服务器设计,可用于训练和运行诸如ChatGPT这类的大语言模型,根据业内人士爆料,这款芯片其实早在2019年就启动研发了,正是微软第一次投资OpenAI的时间节点,所以微软想在硬件软件端都抢占先手的心思已经基本摆在了台面上。
事实上,作为竞争对手,亚马逊和谷歌早就做好了“硬件先行”的规划,比如亚马逊的Trainium和Inferentia芯片,谷歌也表示Midjourney和Character AI等客户使用了谷歌自研的TPU。但从技术和市场来看,亚马逊和谷歌的智能语音发展前景就大相径庭了。
亚马逊虽然也是OpenAI的主要投资人,但它的智能语音主要应用场景只有Alexa,从数据来看,仅2022年,亚马逊负责相关项目的部门亏损就达到了100亿美元,主要的原因就是人工智能语音系统只是一种交互手段,问今天的天气、日期、打开某个应用并不能让巨头们赚到钱,最终它必须要形成应用闭环。亚马逊本来是期望Alexa带动自家的电商业务,但频繁询问用户要不要买东西显然只会落验糟糕的话柄。虽然自家AWS云服务在全球角度风生水起,但却不像微软那样坐拥Windows这样庞大的用户入口,主要的发力方向还是智能家居的人工智能管理,但这个市场存在比较严重的细分壁垒,蛋糕切得很细,所以亚马逊在新时代人工智能语音行业的表现,我个人其实并不太看好。
至于谷歌,在“Made by Google”大会上已经拿出了自己人工智能时代的新方向,那就是基于安卓系统,向移动设备端发力。这次推出的自家旗舰机Pixel 8系列就内置了机器学习芯片Tensor Core G3,可以直接在手机端运行谷歌的基础大模型,提供更自然的智能语音交互和图片编辑等功能。
当然,谷歌对人工智能的执念并不仅仅局限于这颗芯片,而是从拍照、视频、视频到最新的安卓14系统都统统围绕人工智能来进行升级,比如可以消除视频中不需要的声音的音频魔术橡皮擦;亦或是可以将多张集体照片组合在一起,从不同的图片中选择不同人物的表情来创建完美合影的Best Take功能;以及有效调整视频的颜色、光线、噪点等,提升视频质量的Video Boost功能……所以,安卓就是谷歌在人工智能新时代的护城河。
简单来说,人工智能的三巨头都以自家所长为基石,延伸出了不同的技术路线和发展方向,但殊途同归,笑得最好的一定是最赚钱的那一个。微软在这方面算是先行一步,因为自家Copilot有免费版,同时也有基于微软365办公套件的付费版,考虑到微软365本来就是付费生产力工具,商用端对人工智能语音的接受程度与付费意愿明显更高。
而谷歌的优势就是移动端平推升级,几乎可以确定下一代安卓机型一定会以人工智能语音系统为关键卖点,所以它也站在了属于自己的风口上。亚马逊则因为离我们比较远,而且主战场在市场更分散的智能家居,再结合国内的实际情况,基本可以断言它的影响力版图会直接丢掉中国市场,所以注定是人工智能语音领域的跟投者而非领导者。
既然提到了中国市场,目前来看国内的互联网巨头依然保持“后发”的态度,目前并没有明确提出通用型语音大模型,还是以文字对话为主,而且国内大模型因为缺乏应用环境,对很多用户来说还停留在“看热闹”的阶段。不过现阶段如百度、阿里巴巴、字节跳动、腾讯等都开始对自家生态软件,比如钉钉、飞书等OA软件都进行人工智能置入,语音助理的出现应该也是迟早的事情。所以,相较于国际企业来说,国内AI企业底座规模可能偏小一点,但优点是跟进速度会比较快三亿体育官方App下载。
就在上个月,工信部印发关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知,面向元宇宙、人形机器人、脑机接口、通用人工智能4个重点方向提出工作要求。其中,面向通用人工智能提出智能芯片、智能算力集群、高质量数据集、人工智能风险管控软件4个核心基础,聚焦语言、语音、视觉、多模态大模型产品,加速面向工业制造、民生服务、科学研究信息安全领域的典型应用。至于大家可能更关心的能不能破圈开辟出新方向,这就是一个有待商榷的话题了,但至少在未来一两年内,跟着国际一线大厂踩出来的路,按照相关部委的指导方针,过过“大哥吃肉,小弟喝汤”的日子还是没问题的。
这是人工智能最疯狂的半年,也是大模型最矛盾、的半年。2022年底,ChatGPT横空出世,几经浮沉的人工智能再次攀上高峰,人们感叹AI能力飙升的同时,也疑惑其应用如何落地。在当下的AI产业下游,语音助手、聊天机器人、虚拟数字人.搭载语言模型的人工智能产品终端雨后春笋般出现,而在上游,大模型技术驱动的拟人型对话AI底座,决定着人与机器之间能否产生深入的互动与共情。
一口标准的“湖北话”、家常对答如流……前不久,上海一位24岁的00后视觉设计师,他用AI工具生成了奶奶的虚拟数字人,并和她用视频对话。视频里,“奶奶”讲着湖北的方言,头发花白、没有牙齿,最难得的是会像她生前一样“唠叨”。当博主聊到升职加薪等情况时,奶奶听了还会发出爽朗地笑声,真的非常身临其境,让逝者归来的AI再次成为人们议论的焦点。
从早期的洛天依、叶修到亚运会上踏着钱塘潮涌而来的“数字人”火炬手,在AIGC技术的加持下,虚拟人成为市场的宠儿。它们可以直播带货,当歌手、模特,参加节目、做讲解员等,作为AI时代的“肉身”,越来越多的虚拟人如雨后春笋般出现在大众视野中,但能真正掀起热议或具备长期生命力的,还非常稀少,而多轮语音对话能力,无疑是数字人诞生灵魂的最有效方式。
“让你听见你想要听见的,让你看见你想要看见的。Joi能满足你的一切幻想。”——《银翼杀手2049》中,主角K与Joi都不算真正意义上的人类,K是复制人,拥有和人类一样的血肉之躯,还植入了人类的记忆;而Joi,只是一个活在投影中的虚拟影像,永远无法触碰到自己的爱人,甚至电影之外,观众还在为Joi是否拥有自主意识而争论不休。
随着对话大模型的技术的进步,能够完成连续、自然原因对话的虚拟人早已在直播带货、虚拟客服、数字员工等多个应用场景中落地,陪伴式对话已经不再是难事儿。小冰公司在X Eva App上的克隆人就很好地实现了数字人陪聊服务,从角色扮演到视频通话,各种角色的数字人能很好地同用户进行连续交互,未来,用户甚至可以打造属于自己的独一无二的数字人分身。
相对于情感交互,商业落地才是当前虚拟数字人拥有对轮对话能力后应用落地的关键。事实上,出道至今,柳夜熙已经接下了vivo 、小鹏汽车等多个广告合作;数字人阿喜已经接下了包括京东×OPPO、奇瑞、钟薛高在内的多个品牌代言;国风少女翎_LING也斩获了特斯拉、宝格丽、雅诗兰黛等多个大牌代言,让人们认识到“虚拟偶像的尽头是带货”所言非虚。
而在相对专业的医疗领域,针对互动问答、线上问诊,患者可以和与医生“一模一样”的虚拟数字人先行沟通,让患者更有信任感。同时,虚拟数字人还可以辅助医生进行手术模拟、协助进行病理学诊断和分析等。当然,数字人可以提供导诊服务,到后期开方还是需要医生来确认,整个过程不是要取代真人,而是作为助手辅助真人,提升医疗效率的同时,也让人们看到虚拟数字人落地更多的可能。
点评:相比于传统的2D表现方式,数字人在展现形象上具备的更高自由度,不仅体现在表情细微度更高、运动流畅度更优,也可以更好地满足现实场景中的交互需求,进一步强化了虚拟场景与真实场景之间的互通性,从某种意义上讲,能够连续、多轮对话的虚拟数字人成为元宇宙内容生态创建的关键一环,而未来,随着共情、情感甚至情绪能力的赋予,虚拟数字人完全有机会进入一个新的发展阶段。
当用户在对话中表现出疲惫、愤怒等明显的语义变化时,它可以控制智能设备播放轻松的音乐或将灯光调整到更柔和的水平,进而平缓用户的心情……在全屋智能快速推进的大环境下,真正的智能化体验甚至可能会超越部署成本,成为消费者更加关心的核心优势。而在全屋智能化、无感化的服务背后,自然少不了互联互通体系的支撑。
多模态感知能力的大语言模型可以帮助设备通过多种方式获取信息,包括语音、图像、视频等,从而提供更准确的答案甚至主动调节,如用户询问“哪里有空气质量好的公园?”问题是,智能家居设备可通过语音识别技术将用户的语音转化为文本,理解用户的需求,设备再结合用户所在的位置信息和天气状况,利用互联网及公共数据库中的环保数据、空气质量数 据等信息,筛选出空气质量好的公园,并提供相应的地图和位置指示,方便用户前往。此外,设备甚至可以通过图像识别技术,分析该公园是否绿化率高、无污染等,通过视 频展示公园的实际情况,让用户更直观了解该公园的环境和氛围。
智能家居企业麦乐克就推出了一系列家居传感产品(例如一键开关、水浸传感器、门窗开关传感器、燃气泄漏传感器、智能网关、红外振动传感器、温湿度传感器、烟雾传感器八大传感产品),其中最具代表性的 是“多功能”的移动传感器,它采用毫米波雷达探测方式,颠覆了传统存在传感器只能探测动态人物的痛点,不仅能感知用户的行为轨迹,而且监测睡眠呼吸和 老人跌倒等,成为打造智能家居的重要器件之一。麦乐克融合了物联网技术,形成 了智能家居传感的整体解决方案,能够应用于各种家居场景。
点评:基于Transformer的大语言模型可以通过大规模的无监督训练从海量未标注、无结构化的数据中学习,获取语言的深层次结构和规律,从而在各种自然语言处理任务中取得优异的效果,对于本身就以分布式形态存在的智能家居产品而言,其本身在日常使用中也会持续完成AI大模型的训练,持续让智能家居设备“变聪明”。
智能化的浪潮已经席卷了全球,在汽车领域,也在进行着从大屏时代向智能座舱时代的迭代。通过车内AI数字人,免唤醒AI语音技术,当儿童进入车内后,语音对话会自动切换成儿童模式。而当用户在驾驶途中,切换成邮件模式后,AI会自动提炼邮件关键信息读给用户听,并帮助回复邮件。此外,还可以在车上创作文档,生成旅游攻略、工作纪要等。
相对于聊天,高级的智能座舱甚至会融入类似于Face ID的技术应用,让汽车能够通过机器视觉实现“察言观色”。如商汤日日新SenseNova大模型唇语唇动识别,利用多模融合算法,用户通过唇语即可发出超过40个命令词和唤醒词进行多种车内交互,避免了在人声干扰、播放音乐、高速风噪、高速胎噪等场景下语音交互的误触发。
同时,基于AI大模型的能力,用户不需要再对语音助手发出指令,而是将主动感知你的需求做出智能推荐。如主动提醒更改驾驶模式、预报极端天气,通勤异常智能提醒、旅途行程规划、沿途景点美食推荐,如AITO问界M5智驾版手机遗落自主提醒、百度Apollo新一代智能语音助手能够实现行程景点推荐等。
国内汽车厂商吉利更是推出了自研的AI对话模型,该AI对话大模型基于超大规模神经网络研发,目前已完成对话大模型训练,即将开启预售的吉利银河L6就搭载了这个配置。在驾驶途中,AI车机不仅可以做到秒懂秒回应,甚至会主动自我介绍,帮助车主了解车型功能、孩子哭闹时还能讲趣味故事、模拟小动物声线帮你哄娃,自带社牛属性,如此智能化的AI车机,岂不是在车上安了个贾维斯?
点评:智能汽车领域一直是科技竞争的焦点,通过拥有语言大模型、自动驾驶感知算法、学习与图像识别、数字人等多种能力,AI大模型将为汽车带来交互智能与服务智能的深刻变革,让驾驶变得更加轻松快捷。
教育原本就是AI大模型落地的重要领域,生成式 AI 在教育领域的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面,而目前应用最多的是语言学习和学习工具,主要在于具有多语言理解、多轮对话能力的大模型天然适配语言学习和学习工具场景。
语言学习是目前与生成式 AI 最契合的教育场景,技术和商业模式都相对成熟。DuolingoMax、Elsa AI、AI Tutor 等AI对话产品通过生成式 AI 的多语言理解和多轮对话的能力,学习者不仅可以以多轮对话的形式进行多语言交流、听力、写作等语言训练,还可以生成评估报告并对学习者进行纠错。《电脑报》前不久也给大家推荐过主打口语练习科大讯飞星火语伴,用户打开对话框,即可和语伴“Catherine”对话。
对话过程中,一旦卡壳,点击一个小灯泡图标,系统会自动推荐可用于回复的语言;也不用担心听不懂或看不懂对话内容,因为界面自带翻译;如果想要“直视”自己蹩脚的口语,应用会自动给用户的发音打分,进行语法检查,并纠正语法错误。它可以引导用户聊起来、练起来、学起来。
更强大的是除了语音聊天,Catherine还能和用户视频。点开视频,就是熟悉的微信语音接听的铃声,出现Catherine的半身像后即可开始对话。Catherine的反应速度很快,口型和表情与语音贴合,整个过程很像是在与真人线上视频。除讯飞之外,有道推出教育领域垂直大模型“子曰”的同时,发布基于“子曰”大模型研发的6款应用——“LLM翻译”“虚拟人口语教练”“AI作文指导”“语法精讲”“AIBox”以及“文档问答”,其中“虚拟人口语教练”Echo取意于“回声”,它以1对1口语对话模式为用户提供贴近真实场景的口语练习,有道称其为“随时随地的口语教练”。
点评:随着AI多轮对话能力的提升,AI完全可以扮演好“学伴”的角色,通过手机、听力宝等终端设备,随时随地陪伴用户练习听力和口语,应用场景结合相当密切。
壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者