L4 模型层

多模态视频语音3D

当前核心信号:视频、语音和3D生成是多模态商业化前沿,版权诉讼、内容合规、模型迭代速度和分发场景决定赛道稳定性

一句话判断

多模态视频语音3D 是 L4 模型层中连接上游供给、产业约束和下游 AI 需求的关键环节,当前主要观察 视频、语音和3D生成是多模态商业化前沿,版权诉讼、内容合规、模型迭代速度和分发场景决定赛道稳定性。

关键瓶颈 视频、语音和3D生成是多模态商业化前沿,版权诉讼、内容合规、模型迭代速度和分发场景决定赛道稳定性
代表公司 3 家
内容状态 部分填充

核心约束

先看卡点
视频、语音和3D生成是多模态商业化前沿,版权诉讼、内容合规、模型迭代速度和分发场景决定赛道稳定性

后续会补充关键瓶颈、资本开支信号和催化事件。

代表公司

3 家

近期催化

待补充

相关催化待补充

研究笔记

来自 Obsidian

多模态视频语音3D

关键信息摘要

Key Highlights

  • 快手可灵(1024.HK)市值约3200亿港元,可灵3.0在2026年初视频生成评测中名列前茅,与Sora 2 Pro、Seedance形成三足鼎立
  • ElevenLabs估值110亿美元(2026年2月,Sequoia领投5亿美元),ARR达3.3亿美元,增速175%,估值一年翻10倍;Suno估值24.5亿美元,AI音乐生成头号玩家
  • 全球AI视频生成市场2025年7.2亿-51亿美元,CAGR 19%-34%;生成式AI音乐市场2025E达29.2亿美元,2034年达184.7亿美元
维度 核心数据
全球AI视频生成市场(2025) 7.2亿-51亿美元(口径不同),CAGR 19%-34%
全球生成式AI音乐市场(2025E) 29.2亿美元,2034年达184.7亿美元
核心上市标的 快手(1024.HK,市值约3200亿港元)、出门问问(2438.HK)、昆仑万维(300418.SZ
核心未上市公司 ElevenLabs(估值110亿美元)、Suno(估值24.5亿美元)、Runway(估值40亿美元)

行业定义与边界

多模态视频语音3D覆盖AI模型工厂中三大多模态细分(对应原报告§2.5、§2.6、§2.7):

  • 多模态/视频生成:融合文本、图像、视频的统一生成模型,从扩散模型(Diffusion)向流匹配(Flow Matching)演进。代表:可灵、Sora 2 Pro、Seedance 1.5 Pro、Runway Gen-3。
  • AI语音/音乐:TTS(文本转语音)、语音克隆、AI音乐生成三大方向。3秒语音克隆、studio级音乐生成已成标配。代表:ElevenLabs、Suno、Udio、科大讯飞、出门问问。
  • AI 3D/空间计算:高斯溅射(Gaussian Splatting)、NeRF场景重建、文本/图像到3D网格生成。10秒级高质量3D生成已初步实现。代表:Tripo/VAST、Meshy、Luma AI、腾讯混元3D。

行业边界:聚焦于多模态生成模型本身,不包括纯文本LLM(L4-05)、AI代码模型(L4-08)和具身智能(L4-09)。

市场规模与增长

全球市场

  • AI视频生成市场(2025):7.2亿-51亿美元(口径不同),CAGR 19%-34%
  • 生成式AI音乐市场(2025E):29.2亿美元,2034年达184.7亿美元
  • AI 3D生成市场:快速增长阶段,与游戏/元宇宙工业场景需求深度绑定

ElevenLabs ARR从2024年约1.2亿美元增长至2025年3.3亿美元(增速175%),估值从2024年1月的11亿美元飙升至2026年2月的110亿美元,一年翻10倍,是该赛道景气度的典型佐证。

中国市场

快手可灵凭借短视频生态的训练数据和落地场景优势,在全球视频生成市场争夺领先地位。字节跳动即梦(Seedance 1.5 Pro)与可灵形成国内双雄格局。

技术演进路线

技术路线
阶段 01
上游环节
阶段 02
中游环节
阶段 03
下游环节
原始图谱
flowchart LR
  上游环节 --> 中游环节 --> 下游环节

产业价值链结构

价值链
上游 原材料
中游 制造
终端 客户
原始图谱
flowchart LR
  原材料 --> 制造 --> 客户

重点公司

本土龙头

  • 快手 可灵(1024.HK:可灵AI视频生成模型,已迭代至3.0版本。市值约3,200亿港元(2026年2月)。可灵3.0在2026年初多项视频生成评测中名列前茅,凭借短视频生态具有独特训练数据和落地场景优势。
  • 出门问问(2438.HK:AI语音技术、3秒语音克隆,港股市值约50亿港元(2026年2月)。号称"AIGC第一股",C端+B端双轮驱动。
  • 昆仑万维(300418.SZ:天工大模型、SkyMusic天工音乐。A股AI全生态布局公司,市值约400亿元(2026年2月),覆盖大模型+搜索+音乐+游戏。
  • 腾讯 混元3D(0700.HK:依托腾讯游戏生态,实现10秒内生成高质量纹理网格,主要服务内部游戏/元宇宙业务。

海外对标

  • ElevenLabs(未上市):全球AI语音生成领域绝对龙头。估值110亿美元(2026年2月,Sequoia领投5亿美元),ARR达3.3亿美元,增速175%。TTS、语音克隆、AI配音,2025年8月推出Eleven Music。正在考虑潜在IPO。
  • Suno(未上市):AI音乐生成头号玩家,估值24.5亿美元(2025年11月,Menlo Ventures领投2.5亿美元),年收入2亿美元。但面临索尼、环球、华纳三大唱片公司版权诉讼。
  • Runway(未上市):AI视频生成先行者,估值约40亿美元。Gen-3 Alpha模型在专业影视制作领域口碑领先。
  • Luma AI(未上市):高斯溅射(Gaussian Splatting)场景重建先驱,3D捕捉和重建领域技术领先。

未升格公司清单

留作行业全景参考,未单独建 note。出现重大催化时考虑升格。

  • 字节 即梦/Seedance(未上市):Seedance 1.5 Pro视频生成模型2026年初表现抢眼,与可灵、Sora形成竞争
  • Pika(未上市):估值约8亿美元,面向消费者的轻量级AI视频编辑工具
  • Udio(未上市):AI音乐生成领域Suno的主要竞争对手
  • Tripo/VAST(未上市):AI 3D生成,300万+用户
  • Meshy(未上市):文本/图片生成3D模型,面向游戏和数字内容创作者

景气度判断

当前景气度(描述性) 信号源:

多模态融合加速,"全能型"模型成为标配。2026年,领先的基础模型已不再是纯文本LLM,而是集文本、图像、视频、音频于一体的多模态系统。视频生成从"秒级片段"升级为"分钟级高质量影片",AI音乐生成达到"studio级"品质。

ElevenLabs估值一年翻10倍(11亿→110亿美元),Suno完成2.5亿美元C轮,显示该赛道资本热度极高。但版权诉讼(Suno被三大唱片公司起诉)是AI音乐商业化的重要风险信号。

风险提示

关键风险

  • 版权诉讼风险:Suno被三大唱片公司(索尼、环球、华纳)起诉,AI生成内容的版权归属仍存在重大法律不确定性,可能影响整个赛道的商业模式
  • 技术快速迭代导致先发优势短暂,Runway作为早期先行者已被后发的快手可灵和字节Seedance赶超,赛道龙头地位不稳定