合成数据
关键信息摘要
Key Highlights
- NVIDIA以超3.2亿美元收购Gretel AI(2025年3月),SAS收购Hazy(2024年11月),标志着合成数据从"补充手段"升级为AI训练的"核心供给"
- Gartner预测2024年AI训练中合成数据占比已达60%,到2030年绝大部分训练数据将是合成数据;全球合成数据市场CAGR约35%
- Epoch AI研究:到2026年高质量真实文本数据将基本被消耗殆尽,合成数据是突破数据瓶颈的关键技术方向
| 维度 | 核心数据 |
|---|---|
| 全球合成数据市场(2024) | 约25-35亿美元,CAGR 35%+ |
| 2035年市场预测 | 124.5亿美元(Nester预测) |
| 关键收购 | NVIDIA以超3.2亿美元收购Gretel AI(2025年3月) |
| 关键收购 | SAS收购Hazy(2024年11月) |
| 核心趋势 | 合成数据替代真实数据、技术壁垒高、增速为数据引擎四大细分中最快 |
行业定义与边界
合成数据是AI数据引擎产业(上游数据供给层)增速最快的细分板块。利用生成式AI、统计模型或规则引擎创造的人工训练数据,在真实高质量数据逐渐枯竭的背景下,已成为突破数据瓶颈的关键技术方向。
主要技术路径:
- 基于LLM的文本合成:利用大语言模型生成高质量文本训练数据
- 基于扩散模型的图像/视频合成:合规AI图像数据生成
- 基于GAN/VAE的表格数据合成:金融、医疗等场景的隐私保护合成数据
- 基于物理引擎的3D场景合成:自动驾驶等边缘案例场景
内置差分隐私保障是合规合成数据的核心技术特征。
行业边界:聚焦于AI训练合成数据的生成技术和平台服务,不包括真实数据采集标注(L4-02)、数据版权授权(L4-01)和数据存储治理(L4-03)。
市场规模与增长
全球市场
全球合成数据市场正处于爆发前夜。据Gartner预测,2024年AI训练中使用的合成数据占比已达60%,且这一比例将持续攀升。Nester预测全球合成数据市场CAGR约35%,到2035年将达124.5亿美元。GlobeNewsWire数据显示,仅AI生成的合成表格数据集市场到2029年即可达67.3亿美元。
NVIDIA以超3.2亿美元收购Gretel AI(2025年3月)是合成数据产业升级的标志性事件,被收购后其技术将整合入NVIDIA的生成式AI开发者服务套件。SAS收购Hazy(2024年11月)反映传统数据分析厂商也在通过并购进入AI数据领域。
中国市场
中国合成数据起步较晚,多为大厂内部能力,独立的合成数据创业公司数量少,主要以阿里云、百度飞桨等大厂生态内的工具形式存在。
增长驱动力
- Epoch AI研究:到2026年高质量文本数据将基本被消耗殆尽,合成数据从可选变为必选
- 隐私法规约束真实数据使用,合成数据成为合规解决方案(差分隐私保障)
- 自动驾驶、医疗、金融等场景对多样化边缘案例数据的需求无法由真实数据满足
技术演进路线
原始图谱
flowchart LR
上游环节 --> 中游环节 --> 下游环节产业价值链结构
原始图谱
flowchart LR
原材料 --> 制造 --> 客户重点公司
本土龙头
- 数说故事 DataStory(未上市):国内大数据和AI公司,开始布局合成数据生成能力,服务于消费品和营销领域。国内独立合成数据公司极少,该赛道主要由大厂内部能力主导。
海外对标
- MOSTLY AI(未上市):专注于金融服务和医疗健康领域的合成数据平台。基于TabularARGN的Synthetic Data SDK,支持高质量合成表格数据生成,内置差分隐私保障。客户包括美国国土安全部、多家欧洲银行和保险公司。累计融资约3000万美元。
- Syntho(未上市):荷兰合成数据创业公司,专注于企业级合成数据生成,2024年完成新一轮融资。
未升格公司清单
留作行业全景参考,未单独建 note。出现重大催化时考虑升格。
- Gretel AI(已被NVIDIA以超3.2亿美元收购,2025年3月):合成数据领域先驱,技术整合入NVIDIA生成式AI开发者服务套件
- Hazy(已被SAS收购,2024年11月):合成数据技术被整合入SAS生成式AI产品组合
- YData(未上市):专注数据质量+合成数据一体化方案
景气度判断
当前景气度(描述性) 信号源:
合成数据从"补充手段"升级为"核心供给"。NVIDIA以超3.2亿美元收购Gretel AI是这一趋势的标志性事件,SAS收购Hazy进一步验证传统数据分析厂商通过并购进入AI数据领域的逻辑。未来2-3年,合成数据领域将涌现更多独角兽公司。
中国合成数据独立公司极为稀缺,该赛道的战略价值主要由大厂内部化实现,独立标的投资机会有限但稀缺性溢价明显。
风险提示
关键风险
- 合成数据质量不稳定("模型崩溃"风险:用合成数据训练的模型再生成合成数据会导致质量退化),技术壁垒较高
- 大模型厂商(OpenAI、Anthropic、Meta)将合成数据生成能力内化,可能压缩独立第三方平台的市场空间