首页 > 热点 > 内容页

大模型下探音视频 AI 市场，战争才刚刚开始_全球即时看

2023-06-07 18:45:28 来源：钛媒体

图片来源：视觉中国

大模型面向产业落地的难点是什么？

1. 当下，基于生成式的人工智能技术（AIGC），仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法，初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。

(相关资料图)

2. 对于给出算法更加精准、训练成本更低、对于用户调取更方便的模型，这一方面的提升空间较为明晰。在媒体、游戏、营销等行业已经看到比较多典型的内容生成场景，但 AIGC 技术并不能适用于所有场景，且在商业层面的实际回报率尚未明朗。

3. 从市场需求的共性来看，企业对 AI 技术更关心，关心怎么跟业务融合，但同时也会有些担忧或紧张，新技术会不会对业务带来冲击。与此同时，各国对人工智能和数据获取监管的法律条文，以及对 " 类 ChatGPT" 的支持力度，也在反映这种观望态度。

过去半年，整个科技圈有关 AIGC 创新的新闻铺天盖地，但一顿操作猛如虎之后，还有更多仍在 " 来的路上 "。

6 月 1 日，阿里云宣布通义大模型进展，聚焦音视频 AI 的 " 通义听悟 " 正式亮相，成为国内首个开放公测的大模型应用产品。

通义听悟其前身是早在 2021 年研发投入市场的 " 听悟 " 产品，此次除了集成阿里通义千问大模型的理解与摘要能力外，还融合了阿里最先进的语音语义、多模态算法等技术。公测期间，听悟用户可通过每日登陆等多种任务领取免费转写时长，阿里云官方多个平台也会放大量 20 小时的转写口令码。除此之外，听悟企业版还在与钉钉 " 钉闪记 "、夸克 APP、阿里云盘等进行能力进行集成。

此举对于国内的 AI 语音技术服务商以及 " 类 ChatGPT" 应用企业，并不是个好消息。

从听悟到通义听悟

结合当前的官方定义来看，通义听悟具备 " 听 " 与 " 悟 " 能力，即 " 听力好 "，能高准确度生成会议记录、区分不同发言人，" 悟性高 "，可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

这其实也明确了外界对 AI 音视频技术产品的一个重要期待：要让 AI 理解人类，并且以人类可理解的方式表达出来。AI 理解人类，意味着不只要听到表面语义，甚至还要理解人的情绪和意图；AI 表达，则意味着在文本生成、内容摘要、风格及情绪表达上要有所突破。同时结合多模态技术，不只是文字、音频，还有图像、视频等方式传递给 AI 理解。

这个过程，在没有大模型技术应用前，就已经存在诸多细节性挑战。但在阿里云 CTO 周靖人看来，有了通义大模型的加持，阿里将多年积累的语音技术，以及多模态的能力有机结合起来，最终形成今天的通义听悟。

" ‘知其然不知所以然’是产品没有大模型的局限性，过去的听悟只能做到将语音文字转录出来，但背后的整理、理解、信息收取，是依靠人来完成的。之前也曾用过小模型，但结果并不好。" 周靖人在会后的交流活动中指出。

以语音识别 TTS 为例，听悟内置了语音识别模型 Paraformer，它首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。配合 GPU 推理，不同版本的 Paraformer 可将推理效率提升 5～10 倍，同时，Paraformer 使用了 6 倍下采样的低帧率建模方案，可将计算量降低近 6 倍，支持大模型的高效推理。

说话人识别模型 CAM++，相较于如 ECAPA-TDNN 和 ResNet 模型，在准确识别和高效计算的同时，还实现了整体优解。在行业主流的中英文测试集 VoxCeleb 和 CN-Celeb 上均刷新了最优准确率，并且在计算效率和推理速度上有着明显优势。

而此次听悟上线测试的通义千问大模型的信息摘要能力，为保证抽取出的摘要信息的事实准确，大幅度减少幻觉，团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面，2022 年团队提出了基于大语言模型的知识探测与推理利用的框架 Proton。

对手会是讯飞吗？

业内普遍一个声音是，" 很多产品因为大模型的到来会重新再做一遍 "，接入大模型能力，或将改变的是产品的业务逻辑、交互模式，甚至是收费模式。

从通义听悟当前的产品界面上看，针对的仍然是比较高频的场景，往往跟对话或交流相关，如上述提及的总结、翻译、内容摘取，其本质上是对内容语义的理解输出。据官方描述，其定位为一款工作学习 AI 助手，瞄准具有高知识附加值的音视频内容场景，如开会、上课、访谈、培训、面试、直播、看视频、听播客等，能通过大模型等最新 AI 技术快速提炼和沉淀知识。

通义听悟的技术负责人鄢志杰一直都在从事智能语音交互相关工作，他解释道，" 目前展示的视频转文字，仍然是将视频里的音频进行文字转换，尚未展示出视频直接转文字的理解过程。未来会进行多模态的理解，不仅要有音频转文字，还要辅助以视频和视觉的模态对内容进行更好的理解。"

下一步，通义听悟会被各种各样的业务系统集成，集成到智能化服务中，开发者可根据实际场景，最终打造基于业务场景的 MaaS 服务，" 通义听悟一定会推出企业版，为企业场景所定制，每个企业也都会有不同的需求，也有数据安全、数据隐私等方面的要求。" 周靖人补充道。

那么，通义听悟的对手会是讯飞吗？

事实上，音视频是人机交互的重要入口，市面上成熟的 AI 音视频产品并不在少数，除了讯飞、搜狗、网易有道等具备软硬件能力的服务商外，飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具，也同样具备相似的能力。可能的区别在于，背后的 AI 技术逻辑，是否会因大模型的到来而彻底改变。

科大讯飞于上月发布星火大模型，其中软件产品讯飞听见会写已经搭载大模型开放使用，在收费模式上已经给市场参考标准——根据单次 AI 能力的使用（单次字数不超过 8000 字）按月 / 季 / 年会员收费。

互联网公司在这方面的积累也从未缺席，在不断丰富 AI 技术体系的同时，也在迅速推进大模型 + 的创新。例如从早期的 iDST 实验室到达摩院，阿里 2019 年开始投入大模型，2021 年训练实现 10 万亿参数的多模态大模型 M6，2022 年发布通义大模型，到如今的通义千问、通义听悟已经在逐步产业化融合。

《中国人工智能大模型地图研究报告》指出，据不完全统计，中国 10 亿级参数规模以上大模型已发布了 79 个，特别是在自然语言理解、机器视觉、多模态等方面，出现了多个在行业有影响力的大模型。上述提及的网易有道则基于教育场景推出了 " 子曰 " 大模型，出门问问的 " 序列猴子 " 则面向多模态生成能力的大语言模型……

可见，能容纳后来者的赛道，依然存在尚未挖掘的价值空间，更何况大模型将带来新的变量。

（本文首发钛媒体 APP，作者 | 杨丽）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

标签：

宣城郎溪打造“三公里”就业圈智慧就业平台为居民提供就业岗位

今年以来，宣城市郎溪县积极打造三公里就业圈智慧就业平台，促进社...

财经

海南陈吉镇等31人涉黑案开庭审理组织经济收入达3亿元

科技

北京一网吧私自营业致疫情传播扩散老板被刑事立案调查

　　中新网5月24日电北京市公安局通州分局24日在其官方微信发布针...

x 广告

大模型下探音视频 AI 市场，战争才刚刚开始_全球即时看

大模型下探音视频 AI 市场，战争才刚刚开始_全球即时看

图片来源：视觉中国大模型面向产业落地的难点是什么？1 当下，基于生成

中方呼吁推动发展议题重回国际议程中心位置

中国常驻联合国副代表戴兵6日在联合国开发计划署、联合国人口基金、联

热头条丨农业农村部、体育总局：举办全国和美乡村篮球大赛（村BA）

农业农村部办公厅体育总局办公厅关于举办全国和美乡村篮球大赛（村BA）

每日看点!经典互联网是否仍然重要？

日前，互联网协会进行了一项小型研究，探索互联网边缘的发展和创新，重

BBA车主的下一台车为什么不能是蔚来？比如ES6？ | 吴佩频道

从老ES6到新ES6，蔚来始终在用电车去颠覆油车的体验，用补能体系去解决

有限元分析——ANSYS理论与应用 第三版（关于有限元分析——ANSYS理论与应用 第三版介绍）

来为大家解答以上的问题。有限元分析——ANSYS理论与应用第三版，限...

暗黑4表情管理功能有什么特点

《暗黑破坏神4》中的表情管理功能是游戏里非常特殊的一个功能，属于是

【全球播资讯】走肾不走心什么意思_走肾

1、走心是指，发自内心的真心的去爱一个人，不只是简单的发生肉体关系

焦点速递！产能过剩风雨欲来，四大千亿光伏龙头却集体执意扩产，有何动机？

6月6日晚，占据光伏产业链不同环节霸主地位的通威股份（SH：600438）和

快报：dreamweavercc序列号_dreamweaver序列号

1、 "你也木有说清楚版本号。2、我给你找了多个。3、不知道是不是有你

上市前 万达要先回答这些问题

上市前万达要先回答这些问题

3到5年，山西省基本完成五项农村不动产登记工作-今日关注

近日，山西省农村不动产登记现场推进会在运城召开。会议传达了全国自然

唯一药物即将退出中国 罕见病患者遇到罕见时刻

唯一药物即将退出中国罕见病患者遇到罕见时刻,

【聚焦深圳文博会】深圳文博会今日启幕 云南展区精彩呈现“有一种叫云南的生活”

6月7日，第十九届中国（深圳）国际文化产业博览交易会（以下简称“...

世界热资讯！长城汽车进军欧洲进入下一阶段的全球扩张

长城汽车(GWM)正在继续其全球扩张，据报道将欧洲视为其下一个生产地点

即时：老舍兔这篇文章_老舍兔原文赏析

1、向后代展示了“为你所爱而死”意味着什么 2、本文开头用“兔子...

婉转悠扬唱廉政，新编大型廉政越剧《恩仇正义》精彩上演-微头条

6月2日下午，南通市文化馆“百姓戏台周周演”第十八季精彩继续，来...

热推荐：1609.68亿！TO3规模刷新！2023年1-5月广州房企排行榜公布

代表克而瑞业务板块广佛团队观点，仅供参考5月广州的高温天气一直居高

lol死亡凝视什么梗（lol死亡凝视出处）

音频解说1、详细答案：2、最初的死亡凝视由厂长发明，那时候的厂长还在

日产Ariya预览量产的电动跨界车

日产AriyaConcept是一款量产的电动跨界车，具有双电动机，强大的加速功

速看：不愧是我什么意思 附不愧是我表情包

想必现在有很多小伙伴对于不愧是我什么意思（附：不愧是我表情包）方面

今日聚焦!久久香蕉精品-区二区_香蕉配大枣是什么意思香蕉加冬枣是什么梗

想必现在有很多小伙伴对于香蕉配大枣是什么意思，香蕉加冬枣是什么梗方

漯河社保多少钱一个月 2022漯河社保缴费基数及比例一览表

漯河社保多少钱一个月？2022漯河社保缴费基数及比例一览表。下面跟随小

96333属于哪个部门_96333 每日观点

1、监控电梯故障的保修代码，电梯是一种以电动机为动力的垂直升降机，

全球消息！华夏共赏中秋月打一旅游用语?_华夏共赏中秋月打一旅游用语

1、中秋：明天日全食(打一字)2、中秋菊盛开(打一成语)3、长安一片月(打

thug life什么意思_thug life

1、thuglife；暴徒生涯（歌名）。2、ThugLife英[θʌɡlaɪf]美[θʌɡlaɪf]暴徒生活

邮轮游产品受热捧 国际邮轮公司布局中国市场

证券时报e公司讯，我国被公认为是世界上最具潜力的国际邮轮出发地和目

雅化集团：公司是其4680电池的主要供应商，如其需求增长，将拉动公司供货量_全球热门

雅化集团(002497)06月06日在投资者关系平台上答复了投资者关心的问题。

2021小年夜是什么时候_2021过小年夜是哪一天

解答：1、2021年北方农历新年的日期：2021年2月4日(星期四)，鼠年腊月

前沿科技信息篇：暴风影音如何翻转视频 暴风影音如何连拍截图_世界今日讯

今天小编来给大家针对这个暴风影音如何翻转视频暴风影音如何连拍截图的

宣城郎溪打造“三公里”就业圈智慧就业平台 为居民提供就业岗位

今年以来，宣城市郎溪县积极打造三公里就业圈智慧就业平台，促进社...

北京一网吧私自营业致疫情传播扩散 老板被刑事立案调查

中新网5月24日电 北京市公安局通州分局24日在其官方微信发布针...

有限元分析——ANSYS理论与应用第三版（关于有限元分析——ANSYS理论与应用第三版介绍）

上市前万达要先回答这些问题

唯一药物即将退出中国罕见病患者遇到罕见时刻

【聚焦深圳文博会】深圳文博会今日启幕云南展区精彩呈现“有一种叫云南的生活”

速看：不愧是我什么意思附不愧是我表情包

漯河社保多少钱一个月　2022漯河社保缴费基数及比例一览表

邮轮游产品受热捧国际邮轮公司布局中国市场

前沿科技信息篇：暴风影音如何翻转视频暴风影音如何连拍截图_世界今日讯

宣城郎溪打造“三公里”就业圈智慧就业平台为居民提供就业岗位

北京一网吧私自营业致疫情传播扩散老板被刑事立案调查

　　中新网5月24日电北京市公安局通州分局24日在其官方微信发布针...