多模态视频语音3D
关键信息摘要
Key Highlights
- 快手可灵(1024.HK)市值约3200亿港元,可灵3.0在2026年初视频生成评测中名列前茅,与Sora 2 Pro、Seedance形成三足鼎立
- ElevenLabs估值110亿美元(2026年2月,Sequoia领投5亿美元),ARR达3.3亿美元,增速175%,估值一年翻10倍;Suno估值24.5亿美元,AI音乐生成头号玩家
- 全球AI视频生成市场2025年7.2亿-51亿美元,CAGR 19%-34%;生成式AI音乐市场2025E达29.2亿美元,2034年达184.7亿美元
| 维度 | 核心数据 |
|---|---|
| 全球AI视频生成市场(2025) | 7.2亿-51亿美元(口径不同),CAGR 19%-34% |
| 全球生成式AI音乐市场(2025E) | 29.2亿美元,2034年达184.7亿美元 |
| 核心上市标的 | 快手(1024.HK,市值约3200亿港元)、出门问问(2438.HK)、昆仑万维(300418.SZ) |
| 核心未上市公司 | ElevenLabs(估值110亿美元)、Suno(估值24.5亿美元)、Runway(估值40亿美元) |
行业定义与边界
多模态视频语音3D覆盖AI模型工厂中三大多模态细分(对应原报告§2.5、§2.6、§2.7):
- 多模态/视频生成:融合文本、图像、视频的统一生成模型,从扩散模型(Diffusion)向流匹配(Flow Matching)演进。代表:可灵、Sora 2 Pro、Seedance 1.5 Pro、Runway Gen-3。
- AI语音/音乐:TTS(文本转语音)、语音克隆、AI音乐生成三大方向。3秒语音克隆、studio级音乐生成已成标配。代表:ElevenLabs、Suno、Udio、科大讯飞、出门问问。
- AI 3D/空间计算:高斯溅射(Gaussian Splatting)、NeRF场景重建、文本/图像到3D网格生成。10秒级高质量3D生成已初步实现。代表:Tripo/VAST、Meshy、Luma AI、腾讯混元3D。
行业边界:聚焦于多模态生成模型本身,不包括纯文本LLM(L4-05)、AI代码模型(L4-08)和具身智能(L4-09)。
市场规模与增长
全球市场
- AI视频生成市场(2025):7.2亿-51亿美元(口径不同),CAGR 19%-34%
- 生成式AI音乐市场(2025E):29.2亿美元,2034年达184.7亿美元
- AI 3D生成市场:快速增长阶段,与游戏/元宇宙工业场景需求深度绑定
ElevenLabs ARR从2024年约1.2亿美元增长至2025年3.3亿美元(增速175%),估值从2024年1月的11亿美元飙升至2026年2月的110亿美元,一年翻10倍,是该赛道景气度的典型佐证。
中国市场
快手可灵凭借短视频生态的训练数据和落地场景优势,在全球视频生成市场争夺领先地位。字节跳动即梦(Seedance 1.5 Pro)与可灵形成国内双雄格局。
技术演进路线
原始图谱
flowchart LR
上游环节 --> 中游环节 --> 下游环节产业价值链结构
原始图谱
flowchart LR
原材料 --> 制造 --> 客户重点公司
本土龙头
- 快手 可灵(1024.HK):可灵AI视频生成模型,已迭代至3.0版本。市值约3,200亿港元(2026年2月)。可灵3.0在2026年初多项视频生成评测中名列前茅,凭借短视频生态具有独特训练数据和落地场景优势。
- 出门问问(2438.HK):AI语音技术、3秒语音克隆,港股市值约50亿港元(2026年2月)。号称"AIGC第一股",C端+B端双轮驱动。
- 昆仑万维(300418.SZ):天工大模型、SkyMusic天工音乐。A股AI全生态布局公司,市值约400亿元(2026年2月),覆盖大模型+搜索+音乐+游戏。
- 腾讯 混元3D(0700.HK):依托腾讯游戏生态,实现10秒内生成高质量纹理网格,主要服务内部游戏/元宇宙业务。
海外对标
- ElevenLabs(未上市):全球AI语音生成领域绝对龙头。估值110亿美元(2026年2月,Sequoia领投5亿美元),ARR达3.3亿美元,增速175%。TTS、语音克隆、AI配音,2025年8月推出Eleven Music。正在考虑潜在IPO。
- Suno(未上市):AI音乐生成头号玩家,估值24.5亿美元(2025年11月,Menlo Ventures领投2.5亿美元),年收入2亿美元。但面临索尼、环球、华纳三大唱片公司版权诉讼。
- Runway(未上市):AI视频生成先行者,估值约40亿美元。Gen-3 Alpha模型在专业影视制作领域口碑领先。
- Luma AI(未上市):高斯溅射(Gaussian Splatting)场景重建先驱,3D捕捉和重建领域技术领先。
未升格公司清单
留作行业全景参考,未单独建 note。出现重大催化时考虑升格。
- 字节 即梦/Seedance(未上市):Seedance 1.5 Pro视频生成模型2026年初表现抢眼,与可灵、Sora形成竞争
- Pika(未上市):估值约8亿美元,面向消费者的轻量级AI视频编辑工具
- Udio(未上市):AI音乐生成领域Suno的主要竞争对手
- Tripo/VAST(未上市):AI 3D生成,300万+用户
- Meshy(未上市):文本/图片生成3D模型,面向游戏和数字内容创作者
景气度判断
当前景气度(描述性) 信号源:
多模态融合加速,"全能型"模型成为标配。2026年,领先的基础模型已不再是纯文本LLM,而是集文本、图像、视频、音频于一体的多模态系统。视频生成从"秒级片段"升级为"分钟级高质量影片",AI音乐生成达到"studio级"品质。
ElevenLabs估值一年翻10倍(11亿→110亿美元),Suno完成2.5亿美元C轮,显示该赛道资本热度极高。但版权诉讼(Suno被三大唱片公司起诉)是AI音乐商业化的重要风险信号。
风险提示
关键风险
- 版权诉讼风险:Suno被三大唱片公司(索尼、环球、华纳)起诉,AI生成内容的版权归属仍存在重大法律不确定性,可能影响整个赛道的商业模式
- 技术快速迭代导致先发优势短暂,Runway作为早期先行者已被后发的快手可灵和字节Seedance赶超,赛道龙头地位不稳定