L4 模型层

合成数据

当前核心信号:真实高质量数据耗尽推动合成数据成为训练补充,数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间

一句话判断

合成数据 是 L4 模型层中连接上游供给、产业约束和下游 AI 需求的关键环节,当前主要观察 真实高质量数据耗尽推动合成数据成为训练补充,数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间。

关键瓶颈 真实高质量数据耗尽推动合成数据成为训练补充,数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间
代表公司 2 家
内容状态 部分填充

核心约束

先看卡点
真实高质量数据耗尽推动合成数据成为训练补充,数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间

后续会补充关键瓶颈、资本开支信号和催化事件。

代表公司

2 家

近期催化

待补充

相关催化待补充

研究笔记

来自 Obsidian

合成数据

关键信息摘要

Key Highlights

  • NVIDIA以超3.2亿美元收购Gretel AI(2025年3月),SAS收购Hazy(2024年11月),标志着合成数据从"补充手段"升级为AI训练的"核心供给"
  • Gartner预测2024年AI训练中合成数据占比已达60%,到2030年绝大部分训练数据将是合成数据;全球合成数据市场CAGR约35%
  • Epoch AI研究:到2026年高质量真实文本数据将基本被消耗殆尽,合成数据是突破数据瓶颈的关键技术方向
维度 核心数据
全球合成数据市场(2024) 约25-35亿美元,CAGR 35%+
2035年市场预测 124.5亿美元(Nester预测)
关键收购 NVIDIA以超3.2亿美元收购Gretel AI(2025年3月)
关键收购 SAS收购Hazy(2024年11月)
核心趋势 合成数据替代真实数据、技术壁垒高、增速为数据引擎四大细分中最快

行业定义与边界

合成数据是AI数据引擎产业(上游数据供给层)增速最快的细分板块。利用生成式AI、统计模型或规则引擎创造的人工训练数据,在真实高质量数据逐渐枯竭的背景下,已成为突破数据瓶颈的关键技术方向。

主要技术路径:

  • 基于LLM的文本合成:利用大语言模型生成高质量文本训练数据
  • 基于扩散模型的图像/视频合成:合规AI图像数据生成
  • 基于GAN/VAE的表格数据合成:金融、医疗等场景的隐私保护合成数据
  • 基于物理引擎的3D场景合成:自动驾驶等边缘案例场景

内置差分隐私保障是合规合成数据的核心技术特征。

行业边界:聚焦于AI训练合成数据的生成技术和平台服务,不包括真实数据采集标注(L4-02)、数据版权授权(L4-01)和数据存储治理(L4-03)。

市场规模与增长

全球市场

全球合成数据市场正处于爆发前夜。据Gartner预测,2024年AI训练中使用的合成数据占比已达60%,且这一比例将持续攀升。Nester预测全球合成数据市场CAGR约35%,到2035年将达124.5亿美元。GlobeNewsWire数据显示,仅AI生成的合成表格数据集市场到2029年即可达67.3亿美元。

NVIDIA以超3.2亿美元收购Gretel AI(2025年3月)是合成数据产业升级的标志性事件,被收购后其技术将整合入NVIDIA的生成式AI开发者服务套件。SAS收购Hazy(2024年11月)反映传统数据分析厂商也在通过并购进入AI数据领域。

中国市场

中国合成数据起步较晚,多为大厂内部能力,独立的合成数据创业公司数量少,主要以阿里云、百度飞桨等大厂生态内的工具形式存在。

增长驱动力

  • Epoch AI研究:到2026年高质量文本数据将基本被消耗殆尽,合成数据从可选变为必选
  • 隐私法规约束真实数据使用,合成数据成为合规解决方案(差分隐私保障)
  • 自动驾驶、医疗、金融等场景对多样化边缘案例数据的需求无法由真实数据满足

技术演进路线

技术路线
阶段 01
上游环节
阶段 02
中游环节
阶段 03
下游环节
原始图谱
flowchart LR
  上游环节 --> 中游环节 --> 下游环节

产业价值链结构

价值链
上游 原材料
中游 制造
终端 客户
原始图谱
flowchart LR
  原材料 --> 制造 --> 客户

重点公司

本土龙头

  • 数说故事 DataStory(未上市):国内大数据和AI公司,开始布局合成数据生成能力,服务于消费品和营销领域。国内独立合成数据公司极少,该赛道主要由大厂内部能力主导。

海外对标

  • MOSTLY AI(未上市):专注于金融服务和医疗健康领域的合成数据平台。基于TabularARGN的Synthetic Data SDK,支持高质量合成表格数据生成,内置差分隐私保障。客户包括美国国土安全部、多家欧洲银行和保险公司。累计融资约3000万美元。
  • Syntho(未上市):荷兰合成数据创业公司,专注于企业级合成数据生成,2024年完成新一轮融资。

未升格公司清单

留作行业全景参考,未单独建 note。出现重大催化时考虑升格。

  • Gretel AI(已被NVIDIA以超3.2亿美元收购,2025年3月):合成数据领域先驱,技术整合入NVIDIA生成式AI开发者服务套件
  • Hazy(已被SAS收购,2024年11月):合成数据技术被整合入SAS生成式AI产品组合
  • YData(未上市):专注数据质量+合成数据一体化方案

景气度判断

当前景气度(描述性) 信号源:

合成数据从"补充手段"升级为"核心供给"。NVIDIA以超3.2亿美元收购Gretel AI是这一趋势的标志性事件,SAS收购Hazy进一步验证传统数据分析厂商通过并购进入AI数据领域的逻辑。未来2-3年,合成数据领域将涌现更多独角兽公司。

中国合成数据独立公司极为稀缺,该赛道的战略价值主要由大厂内部化实现,独立标的投资机会有限但稀缺性溢价明显。

风险提示

关键风险

  • 合成数据质量不稳定("模型崩溃"风险:用合成数据训练的模型再生成合成数据会导致质量退化),技术壁垒较高
  • 大模型厂商(OpenAI、Anthropic、Meta)将合成数据生成能力内化,可能压缩独立第三方平台的市场空间