Key Highlights

快手可灵（1024.HK）市值约3200亿港元，可灵3.0在2026年初视频生成评测中名列前茅，与Sora 2 Pro、Seedance形成三足鼎立

ElevenLabs估值110亿美元（2026年2月，Sequoia领投5亿美元），ARR达3.3亿美元，增速175%，估值一年翻10倍；Suno估值24.5亿美元，AI音乐生成头号玩家

全球AI视频生成市场2025年7.2亿-51亿美元，CAGR 19%-34%；生成式AI音乐市场2025E达29.2亿美元，2034年达184.7亿美元

维度	核心数据
全球AI视频生成市场（2025）	7.2亿-51亿美元（口径不同），CAGR 19%-34%
全球生成式AI音乐市场（2025E）	29.2亿美元，2034年达184.7亿美元
核心上市标的	快手（1024.HK，市值约3200亿港元）、出门问问（2438.HK）、昆仑万维（300418.SZ）
核心未上市公司	ElevenLabs（估值110亿美元）、Suno（估值24.5亿美元）、Runway（估值40亿美元）

行业定义与边界

多模态视频语音3D覆盖AI模型工厂中三大多模态细分（对应原报告§2.5、§2.6、§2.7）：

多模态/视频生成：融合文本、图像、视频的统一生成模型，从扩散模型（Diffusion）向流匹配（Flow Matching）演进。代表：可灵、Sora 2 Pro、Seedance 1.5 Pro、Runway Gen-3。
AI语音/音乐：TTS（文本转语音）、语音克隆、AI音乐生成三大方向。3秒语音克隆、studio级音乐生成已成标配。代表：ElevenLabs、Suno、Udio、科大讯飞、出门问问。
AI 3D/空间计算：高斯溅射（Gaussian Splatting）、NeRF场景重建、文本/图像到3D网格生成。10秒级高质量3D生成已初步实现。代表：Tripo/VAST、Meshy、Luma AI、腾讯混元3D。

行业边界：聚焦于多模态生成模型本身，不包括纯文本LLM（L4-05）、AI代码模型（L4-08）和具身智能（L4-09）。

市场规模与增长

全球市场

AI视频生成市场（2025）：7.2亿-51亿美元（口径不同），CAGR 19%-34%
生成式AI音乐市场（2025E）：29.2亿美元，2034年达184.7亿美元
AI 3D生成市场：快速增长阶段，与游戏/元宇宙工业场景需求深度绑定

ElevenLabs ARR从2024年约1.2亿美元增长至2025年3.3亿美元（增速175%），估值从2024年1月的11亿美元飙升至2026年2月的110亿美元，一年翻10倍，是该赛道景气度的典型佐证。

中国市场

快手可灵凭借短视频生态的训练数据和落地场景优势，在全球视频生成市场争夺领先地位。字节跳动即梦（Seedance 1.5 Pro）与可灵形成国内双雄格局。

技术演进路线

多模态视频语音3D的技术栈从早期单一模态扩散模型逐步演进为流匹配驱动的视频、音频、3D统一生成范式。2023年扩散模型（Diffusion）在图像生成领域大放异彩，但推理速度慢、多帧连贯性差；2024年起流匹配（Flow Matching）将采样效率提升30-50%，成为Sora 2 Pro、可灵3.0、Seedance 1.5 Pro的核心架构，支持分钟级高质量视频生成。音频侧，ElevenLabs于2025年实现3秒语音克隆与多语种情感TTS，ARR飙升至3.3亿美元（增速175%）；音乐生成从和弦拼凑升级为Suno/Udio的studio级编曲，2025年市场达29.2亿美元。3D生成依托高斯溅射（Gaussian Splatting）和NeRF重建，Tripo/腾讯混元3D已做到10秒内生成带纹理的3D网格，服务游戏与工业数字孪生。2026年，昆仑万维天工4.0、腾讯混元等正将文本/图像/视频/音频/3D五模态统一到一个基石模型中，形成“全能型”多模态系统，推理效率与可控性成为下一个技术竞速点。

技术路线

阶段 01

扩散模型 Diffusion/UNet 2023年图像生成主流 SDXL/DALL-E 3

阶段 02

流匹配 Flow Matching 采样加速30-50% 2024年起可灵3.0/Seedance 1.5 Pr…

阶段 03

视频生成可灵3.0/Seedance 1.5 Pro 2026年分钟级影片帧率24fps+ 日均调用5亿次(预测)

语音克隆 ElevenLabs 3秒零样本 ARR 3.3亿$ 增速175%

音乐生成 Suno/Udio studio级编曲 2025年市场29.2亿美元

3D生成 3D Gaussian Splatting Tripo/腾讯混元3D 10秒纹理网格

阶段 04

多模态统一基座天工4.0/腾讯混元 2026H1参数400B+

阶段 05

工业化生产 Studio级AI短片/音乐 Suno D轮融资估值54亿美元商业变现CAGR 34%(预测)

原始图谱

flowchart LR
  A[扩散模型 Diffusion/UNet 2023年图像生成主流 SDXL/DALL-E 3] --> B[流匹配 Flow Matching 采样加速30-50% 2024年起 可灵3.0/Seedance 1.5 Pro核心架构]
  B --> C[视频生成 可灵3.0/Seedance 1.5 Pro 2026年分钟级影片 帧率24fps+ 日均调用5亿次(预测)]
  B --> D1[语音克隆 ElevenLabs 3秒零样本 ARR 3.3亿$ 增速175%]
  B --> D2[音乐生成 Suno/Udio studio级编曲 2025年市场29.2亿美元]
  B --> E[3D生成 3D Gaussian Splatting Tripo/腾讯混元3D 10秒纹理网格]
  C --> F[多模态统一基座 天工4.0/腾讯混元 2026H1参数400B+]
  D1 --> F
  D2 --> F
  E --> F
  F --> G[工业化生产 Studio级AI短片/音乐 Suno D轮融资估值54亿美元 商业变现CAGR 34%(预测)]

技术关键节点：①扩散模型向流匹配的迁移（2024-2025年）；②语音合成从TTS向端到端情感克隆的跨越（ElevenLabs, 2025年2月发布Eleven Music）；③神经网络渲染从NeRF到3D Gaussian Splatting的实时能力（Luma AI, 2023年末发布手机扫描重建）。最新催化2026年6月3日Suno完成4亿美元D轮融资（估值54亿美元），证明AI音乐赛道商业化提速，技术变现进入加速期。

产业价值链结构

产业价值链自底向上分为算力与数据层、基础模型研发层、多模态生成平台层、应用与分发层。算力层仍由英伟达H100/B200主导（全球AI芯片份额超90%），2025年AI服务器市场约1200亿美元，训推成本年降30%。数据层受益于短视频/音乐/3D资产的海量授权与合成数据。基础模型研发高度集中于头部互联网与AI新贵，快手可灵（1024.HK）依托短视频生态、腾讯混元（0700.HK）依托游戏资产、昆仑万维（300418.SZ）凭借天工大模型全栈布局，均在2026年进入400B+参数多模态竞争，单次训练成本逾5000万美元。中游平台层中，视频生成形成可灵、Seedance与Runway三足鼎立（可灵3.0日均调用5亿次），音频由ElevenLabs（估值110亿美元）和Suno（估值24.5亿美元）把持，3D则由Tripo与Luma AI领跑。下游分发方面，剪映AI、快手创作者生态推动AI内容占比升至15%，腾讯混元3D直接服务天美/光子工作室，出门问问（2438.HK）以“AIGC第一股”身份在C端智能硬件与B端配音方案中变现。整体链条由模型能力驱动，算力成本下降与多模态融合速度决定产业链利润分配。

价值链

上游 算力与数据层

英伟达H100/B200(NVDA) · AI服务器市场1200亿$(2025)

中游 基础模型研发

DiT/流匹配架构 · 快手1024.HK/腾讯0700.HK/昆仑万维300418.SZ

下游 视频生成API

可灵3.0(快手)/Seedance/Runway · 日均调用5亿次

下游 语音合成TTS

ElevenLabs(估值110亿$) · Suno(估值24.5亿$)

下游 3D资产生成

Tripo/Luma AI · 10秒级3D网格

下游 内容创作与分发平台

剪映AI/快手创作者 · AI内容占比15%

下游 专业配音

出门问问2438.HK · 智能硬件+B端方案

终端 游戏/数字孪生

腾讯混元3D 0700.HK · 服务天美/光子工作室

原始图谱

flowchart LR
  A["算力与数据层
英伟达H100/B200(NVDA)
AI服务器市场1200亿$(2025)
训推成本年降30%
数据:短视频/音乐/3D授权+合成数据"]
  B["基础模型研发
DiT/流匹配架构
快手1024.HK/腾讯0700.HK/昆仑万维300418.SZ
2026年400B+参数
单次训练>5000万flowchart LR
  A["算力与数据层
英伟达H100/B200(NVDA)
AI服务器市场1200亿$(2025)
训推成本年降30%
数据:短视频/音乐/3D授权+合成数据"]
  B["基础模型研发
DiT/流匹配架构
快手1024.HK/腾讯0700.HK/昆仑万维300418.SZ
2026年400B+参数
单次训练>5000万$"]
  C1["视频生成API
可灵3.0(快手)/Seedance/Runway
日均调用5亿次"]
  C2["语音合成TTS
ElevenLabs(估值110亿$)
Suno(估值24.5亿$)"]
  C3["3D资产生成
Tripo/Luma AI
10秒级3D网格"]
  D["内容创作与分发平台
剪映AI/快手创作者
AI内容占比15%"]
  F["专业配音
出门问问2438.HK
智能硬件+B端方案"]
  G["游戏/数字孪生
腾讯混元3D 0700.HK
服务天美/光子工作室"]

  A --> B
  B --> C1
  B --> C2
  B --> C3
  C1 --> D
  C2 --> D
  C2 --> F
  C3 --> D
  C3 --> G
quot;]
  C1["视频生成API
可灵3.0(快手)/Seedance/Runway
日均调用5亿次"]
  C2["语音合成TTS
ElevenLabs(估值110亿$)
Suno(估值24.5亿$)"]
  C3["3D资产生成
Tripo/Luma AI
10秒级3D网格"]
  D["内容创作与分发平台
剪映AI/快手创作者
AI内容占比15%"]
  F["专业配音
出门问问2438.HK
智能硬件+B端方案"]
  G["游戏/数字孪生
腾讯混元3D 0700.HK
服务天美/光子工作室"]

  A --> B
  B --> C1
  B --> C2
  B --> C3
  C1 --> D
  C2 --> D
  C2 --> F
  C3 --> D
  C3 --> G

价值链核心玩家包括快手（1024.HK）、腾讯（0700.HK）、昆仑万维（300418.SZ）、出门问问（2438.HK）四家上市公司，以及ElevenLabs、Suno、Runway等未上市龙头。2026年6月Suno 4亿美元D轮融资推高音乐生成端估值，催化产业链加速“模型即服务”变现，API调用量成为平台价值核心锚点。

重点公司

本土龙头

快手可灵（1024.HK）：可灵AI视频生成模型，已迭代至3.0版本。市值约3,200亿港元（2026年2月）。可灵3.0在2026年初多项视频生成评测中名列前茅，凭借短视频生态具有独特训练数据和落地场景优势。
出门问问（2438.HK）：AI语音技术、3秒语音克隆，港股市值约50亿港元（2026年2月）。号称"AIGC第一股"，C端+B端双轮驱动。
昆仑万维（300418.SZ）：天工大模型、SkyMusic天工音乐。A股AI全生态布局公司，市值约400亿元（2026年2月），覆盖大模型+搜索+音乐+游戏。
腾讯混元3D（0700.HK）：依托腾讯游戏生态，实现10秒内生成高质量纹理网格，主要服务内部游戏/元宇宙业务。

海外对标

ElevenLabs（未上市）：全球AI语音生成领域绝对龙头。估值110亿美元（2026年2月，Sequoia领投5亿美元），ARR达3.3亿美元，增速175%。TTS、语音克隆、AI配音，2025年8月推出Eleven Music。正在考虑潜在IPO。
Suno（未上市）：AI音乐生成头号玩家，估值24.5亿美元（2025年11月，Menlo Ventures领投2.5亿美元），年收入2亿美元。但面临索尼、环球、华纳三大唱片公司版权诉讼。
Runway（未上市）：AI视频生成先行者，估值约40亿美元。Gen-3 Alpha模型在专业影视制作领域口碑领先。
Luma AI（未上市）：高斯溅射（Gaussian Splatting）场景重建先驱，3D捕捉和重建领域技术领先。

未升格公司清单

留作行业全景参考，未单独建 note。出现重大催化时考虑升格。

字节即梦/Seedance（未上市）：Seedance 1.5 Pro视频生成模型2026年初表现抢眼，与可灵、Sora形成竞争
Pika（未上市）：估值约8亿美元，面向消费者的轻量级AI视频编辑工具
Udio（未上市）：AI音乐生成领域Suno的主要竞争对手
Tripo/VAST（未上市）：AI 3D生成，300万+用户
Meshy（未上市）：文本/图片生成3D模型，面向游戏和数字内容创作者

景气度判断

当前景气度（描述性） 信号源：

多模态融合加速，"全能型"模型成为标配。2026年，领先的基础模型已不再是纯文本LLM，而是集文本、图像、视频、音频于一体的多模态系统。视频生成从"秒级片段"升级为"分钟级高质量影片"，AI音乐生成达到"studio级"品质。

ElevenLabs估值一年翻10倍（11亿→110亿美元），Suno完成2.5亿美元C轮，显示该赛道资本热度极高。但版权诉讼（Suno被三大唱片公司起诉）是AI音乐商业化的重要风险信号。

风险提示

关键风险

版权诉讼风险：Suno被三大唱片公司（索尼、环球、华纳）起诉，AI生成内容的版权归属仍存在重大法律不确定性，可能影响整个赛道的商业模式

技术快速迭代导致先发优势短暂，Runway作为早期先行者已被后发的快手可灵和字节Seedance赶超，赛道龙头地位不稳定