L4 模型层

合成数据

当前核心信号：真实高质量数据耗尽推动合成数据成为训练补充，数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间

一句话判断

合成数据是 L4 模型层中连接上游供给、产业约束和下游 AI 需求的关键环节，当前主要观察真实高质量数据耗尽推动合成数据成为训练补充，数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间。

关键瓶颈 真实高质量数据耗尽推动合成数据成为训练补充，数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间

代表公司 2 家

内容状态 部分填充

核心约束

先看卡点

真实高质量数据耗尽推动合成数据成为训练补充，数据质量、模型崩溃风险和大模型厂商内化能力决定第三方平台空间

后续会补充关键瓶颈、资本开支信号和催化事件。

代表公司

2 家

Gretel AI

定义千亿级新兴市场 + 多模态合成数据平台的平台化潜力

PRIVATE L4-04

Mostly AI

隐私计算法规全球化，市场空间打开 + 数据闭环构建，从工具到基础设施

PRIVATE L4-04

近期催化

待补充

研究笔记

来自 Obsidian

合成数据

关键信息摘要

Key Highlights

NVIDIA以超3.2亿美元收购Gretel AI（2025年3月），SAS收购Hazy（2024年11月），标志着合成数据从"补充手段"升级为AI训练的"核心供给"

Gartner预测2024年AI训练中合成数据占比已达60%，到2030年绝大部分训练数据将是合成数据；全球合成数据市场CAGR约35%

Epoch AI研究：到2026年高质量真实文本数据将基本被消耗殆尽，合成数据是突破数据瓶颈的关键技术方向

维度	核心数据
全球合成数据市场（2024）	约25-35亿美元，CAGR 35%+
2035年市场预测	124.5亿美元（Nester预测）
关键收购	NVIDIA以超3.2亿美元收购Gretel AI（2025年3月）
关键收购	SAS收购Hazy（2024年11月）
核心趋势	合成数据替代真实数据、技术壁垒高、增速为数据引擎四大细分中最快

行业定义与边界

合成数据是AI数据引擎产业（上游数据供给层）增速最快的细分板块。利用生成式AI、统计模型或规则引擎创造的人工训练数据，在真实高质量数据逐渐枯竭的背景下，已成为突破数据瓶颈的关键技术方向。

主要技术路径：

基于LLM的文本合成：利用大语言模型生成高质量文本训练数据
基于扩散模型的图像/视频合成：合规AI图像数据生成
基于GAN/VAE的表格数据合成：金融、医疗等场景的隐私保护合成数据
基于物理引擎的3D场景合成：自动驾驶等边缘案例场景

内置差分隐私保障是合规合成数据的核心技术特征。

行业边界：聚焦于AI训练合成数据的生成技术和平台服务，不包括真实数据采集标注（L4-02）、数据版权授权（L4-01）和数据存储治理（L4-03）。

市场规模与增长

全球市场

全球合成数据市场正处于爆发前夜。据Gartner预测，2024年AI训练中使用的合成数据占比已达60%，且这一比例将持续攀升。Nester预测全球合成数据市场CAGR约35%，到2035年将达124.5亿美元。GlobeNewsWire数据显示，仅AI生成的合成表格数据集市场到2029年即可达67.3亿美元。

NVIDIA以超3.2亿美元收购Gretel AI（2025年3月）是合成数据产业升级的标志性事件，被收购后其技术将整合入NVIDIA的生成式AI开发者服务套件。SAS收购Hazy（2024年11月）反映传统数据分析厂商也在通过并购进入AI数据领域。

中国市场

中国合成数据起步较晚，多为大厂内部能力，独立的合成数据创业公司数量少，主要以阿里云、百度飞桨等大厂生态内的工具形式存在。

增长驱动力

Epoch AI研究：到2026年高质量文本数据将基本被消耗殆尽，合成数据从可选变为必选
隐私法规约束真实数据使用，合成数据成为合规解决方案（差分隐私保障）
自动驾驶、医疗、金融等场景对多样化边缘案例数据的需求无法由真实数据满足

技术演进路线

合成数据的生成技术经历了从统计模型到生成式AI的快速迭代，当前正以深度生成模型与物理引擎为核心向全场景覆盖演进。

技术路线

阶段 01

统计建模

2010s · 线性回归/决策树

阶段 02

GANs图像合成

2014-2018 · StyleGAN

阶段 03

扩散模型

2020-2023 · Stable Diffusion/OpenAI

表格合成

2020至今 · MOSTLY AI TabularARGN

阶段 04

LLM文本合成

2023+ · GPT-4/Claude

原始图谱

flowchart LR
  A[统计建模<br/>2010s<br/>线性回归/决策树] --> B[GANs图像合成<br/>2014-2018<br/>StyleGAN<br/>NVIDIA (NASDAQ:NVDA)]
  B --> C[扩散模型<br/>2020-2023<br/>Stable Diffusion/OpenAI<br/>图像合成成本下降90%]
  B --> D[表格合成<br/>2020至今<br/>MOSTLY AI TabularARGN<br/>差分隐私保障<br/>统计保真度0.99]
  D --> E[LLM文本合成<br/>2023+<br/>GPT-4/Claude<br/>AI训练数据60%由合成产生]

技术演进关键节点：

2014-2018年：生成对抗网络（GAN）由英伟达（NASDAQ:NVDA）等推动的图像合成取得突破，StyleGAN可生成高保真人脸，但表格数据合成仍以统计插值为辅。
2020-2023年：扩散模型成为图像/视频合成主流（如Stability AI、OpenAI），合成图像成本下降90%；同期，MOSTLY AI基于TabularARGN的差分隐私表格合成在金融风控场景中实现0.99的统计保真度。2023年GPT-4等LLM推动文本合成爆发，Gartner预计2024年AI训练中60%的数据由合成产生。
2024年3月：NVIDIA以超3.2亿美元收购合成数据平台Gretel AI，将其整合进NVIDIA AI Enterprise，标志着合成数据从独立工具升级为算力+数据的捆绑基础设施。
2025年：海天瑞声（688787.SH）发布面向自动驾驶的4D合成数据引擎，通过物理引擎组合生成极端天气、交通事故等边缘场景，商汤（0020.HK）基于日日新大模型推出合成数据工厂，服务车企客户；合成数据与联邦学习结合，解决医疗和金融数据的跨机构协同痛点。
2026E：自适应合成技术将实现合成-训练-评估的闭环，质量反馈驱动模型自对齐，进一步降低模型崩溃风险。

产业价值链结构

产业链从真实数据供给起步，经隐私增强与生成引擎加工，最终嵌入企业AI工作流，各环节价值分配加速向平台化集成商集中。

价值链

上游 真实数据源与标注

传感器/公开数据集 · 海天瑞声(688787.SH)自动化标注

中游 数据预处理与隐私脱敏

差分隐私/K-匿名化 · MOSTLY AI DP引擎/海天瑞声中间件

下游 合成数据生成引擎

文本: GPT-4/Claude · 图像: 扩散模型/NVIDIA Omniverse

下游 质量验证与评测

保真度/多样性/隐私审计 · 评测成本占12-18%

下游 平台集成与API

合成数据工厂 · NVIDIA AI Enterprise/Palantir Foundry

下游 行业应用

自动驾驶(2025年占比35%) · 金融/医疗

下游 高效微调与RLHF反馈

合成偏好数据生成 · OpenAI/Anthropic

终端 合规认证

GDPR/中国个保法 · 隐私保护审计

原始图谱

flowchart LR
  A[真实数据源与标注<br/>传感器/公开数据集<br/>海天瑞声(688787.SH)自动化标注<br/>2025年全球市场规模约120亿美元] --> B[数据预处理与隐私脱敏<br/>差分隐私/K-匿名化<br/>MOSTLY AI DP引擎/海天瑞声中间件<br/>Scale AI/商汤]
  B --> C[合成数据生成引擎<br/>文本: GPT-4/Claude<br/>图像: 扩散模型/NVIDIA Omniverse<br/>表格: MOSTLY AI<br/>2024年合成数据占比60%]
  C --> D[质量验证与评测<br/>保真度/多样性/隐私审计<br/>评测成本占12-18%]
  D --> E[平台集成与API<br/>合成数据工厂<br/>NVIDIA AI Enterprise/Palantir Foundry]
  E --> F[行业应用<br/>自动驾驶(2025年占比35%)<br/>金融/医疗]
  C --> G[高效微调与RLHF反馈<br/>合成偏好数据生成<br/>OpenAI/Anthropic]
  D --> H[合规认证<br/>GDPR/中国个保法<br/>隐私保护审计]

价值链拆解：

真实数据源（价值占比约15%）：传感器、公开数据集、授权数据构成合成数据的“种子”，海天瑞声（688787.SH）提供合规的真实数据集，并通过自动化标注输出高质量初始化样本。
数据预处理与隐私脱敏（价值占比8-10%）：差分隐私成为必备技术，MOSTLY AI的内置DP引擎可保证ε<1的隐私预算，满足GDPR合规。国内海天瑞声自研隐私计算中间件，商汤赋能车企进行脱敏处理。
合成数据生成引擎（价值占比35-40%）：核心壁垒环节，包含文本（GPT-4、Claude）、图像/视频（扩散模型、英伟达Omniverse）、表格（MOSTLY AI、Syntho）和3D场景（NVIDIA Omniverse）四大技术路线。英伟达（NASDAQ:NVDA）通过Gretel补全表格数据能力，并在Omniverse上构建自动驾驶仿真数据工厂，2025年Q1相关营收增速超70%。
质量验证与评测（价值占比12-18%）：确保合成数据不会导致模型崩溃，需评估保真度、多样性和隐私泄露风险。Palantir（NYSE:PLTR）在其Foundry平台内置合成数据质量评分卡，微软Azure也推出合成数据健康度仪表盘。
平台集成与API（价值占比20-25%）：最终以API或低代码平台形态交付，NVIDIA AI Enterprise、Palantir Foundry、阿里云数据引擎等将合成数据与MLOps流水线深度绑定，形成高客户粘性。商汤（0020.HK）的日日新合成数据工厂提供从生成到评测的一站式服务，2025年已落地超过15家自动驾驶和金融客户。
行业应用（价值占比15%）：自动驾驶（占比35%）依赖合成场景补全长尾数据；金融（占比25%）使用合成表格数据做反欺诈建模；医疗（占比15%）通过合成电子健康记录推动罕见病研究。

重点公司

本土龙头

数说故事 DataStory（未上市）：国内大数据和AI公司，开始布局合成数据生成能力，服务于消费品和营销领域。国内独立合成数据公司极少，该赛道主要由大厂内部能力主导。

海外对标

MOSTLY AI（未上市）：专注于金融服务和医疗健康领域的合成数据平台。基于TabularARGN的Synthetic Data SDK，支持高质量合成表格数据生成，内置差分隐私保障。客户包括美国国土安全部、多家欧洲银行和保险公司。累计融资约3000万美元。
Syntho（未上市）：荷兰合成数据创业公司，专注于企业级合成数据生成，2024年完成新一轮融资。

未升格公司清单

留作行业全景参考，未单独建 note。出现重大催化时考虑升格。

Gretel AI（已被NVIDIA以超3.2亿美元收购，2025年3月）：合成数据领域先驱，技术整合入NVIDIA生成式AI开发者服务套件
Hazy（已被SAS收购，2024年11月）：合成数据技术被整合入SAS生成式AI产品组合
YData（未上市）：专注数据质量+合成数据一体化方案

景气度判断

当前景气度（描述性） 信号源：

合成数据从"补充手段"升级为"核心供给"。NVIDIA以超3.2亿美元收购Gretel AI是这一趋势的标志性事件，SAS收购Hazy进一步验证传统数据分析厂商通过并购进入AI数据领域的逻辑。未来2-3年，合成数据领域将涌现更多独角兽公司。

中国合成数据独立公司极为稀缺，该赛道的战略价值主要由大厂内部化实现，独立标的投资机会有限但稀缺性溢价明显。

风险提示

关键风险

合成数据质量不稳定（"模型崩溃"风险：用合成数据训练的模型再生成合成数据会导致质量退化），技术壁垒较高

大模型厂商（OpenAI、Anthropic、Meta）将合成数据生成能力内化，可能压缩独立第三方平台的市场空间