数据标注与RLHF
关键信息摘要
Key Highlights
- 中国数据标注市场2024年约77亿元,预计2026年突破130亿元;四部委2025年1月政策催化,7城国家级数据标注基地已形成17,282TB标注规模
- Scale AI估值290亿美元,2024年营收约8.7亿美元,2025年预计超20亿美元,客户覆盖OpenAI、Google、Meta及美国国防部
- 行业核心趋势:从人工标注向"AI预标注+人工审核"混合模式演进,集中度持续提升
| 维度 | 核心数据 |
|---|---|
| 中国数据标注市场(2024) | 约77亿元(保守口径),同比增长约27% |
| 中国数据标注市场(2026E) | 突破130亿元,政策目标CAGR>20% |
| 全球AI训练数据服务市场(2024) | 约140-160亿美元,CAGR 25-30% |
| 行业龙头(全球) | Scale AI(估值290亿美元) |
| 行业龙头(中国) | 海天瑞声(A股数据标注龙头,688787.SH,市值约65亿元) |
| 关键驱动力 | 大模型RLHF对高质量人类偏好数据刚性需求、多模态标注需求指数级增长 |
| 政策催化 | 四部委《促进数据标注产业高质量发展实施意见》(2025年1月) |
行业定义与边界
数据标注与RLHF是AI数据引擎产业(上游数据供给层)的核心细分板块。通过人工或半自动化方式对原始数据进行分类、标记、质量评估和偏好排序,使数据满足模型训练的格式和质量要求。RLHF(基于人类反馈的强化学习)是当前大模型对齐的核心技术路径,从人工偏好收集到DPO(Direct Preference Optimization)、RLAIF(AI反馈强化学习)持续演进。
行业边界:聚焦于直接服务AI模型训练的数据标注与人类偏好数据收集环节,不包括版权数据授权(L4-01)、合成数据生成(L4-04)和数据治理基础设施(L4-03)。
市场规模与增长
全球市场
根据Grand View Research数据,2023年全球数据标注与服务市场规模约140.7亿美元,美国约42亿美元(占比30%)。预计2024-2030年CAGR约为25-30%,到2030年全球市场规模将突破400亿美元。
中国市场
中商情报网数据显示,2023年中国数据标注市场规模达60.8亿元,2024年增至约77.3亿元,预计2026年将突破132亿元,2027年超150亿元。
政策层面强力催化:2025年1月,工信部等四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出到2027年产业规模CAGR超过20%。2024年5月,国家数据局确定成都、沈阳、合肥、长沙、海口、保定、大同7城为国家级数据标注基地,已形成335个高质量数据集,标注规模达17,282TB,带动相关产值超83亿元。
艾瑞咨询数据显示,2024年中国AI基础数据服务市场规模约58亿元,预计2028年将达170亿元(CAGR 30.84%)。
增长驱动力
- RLHF、DPO等对齐技术对高质量人类偏好数据的刚性需求持续
- 多模态模型(视觉、语音、视频)对标注数据需求指数级增长
- 国家级数据标注基地政策驱动产业集聚
技术演进路线
原始图谱
flowchart LR
上游环节 --> 中游环节 --> 下游环节产业价值链结构
原始图谱
flowchart LR
原材料 --> 制造 --> 客户重点公司
本土龙头
- 海天瑞声(688787.SH):A股数据标注首家上市公司,覆盖智能语音、计算机视觉和NLP三大领域,产品覆盖全球200+语种。市值约65亿元。2024年营收2.37亿元(+39.5%),2025Q1营收6980.95万元(+71.75%)。东吴证券预计2025-2027年营收3.45/4.83/6.44亿元。
- 拓尔思(300229.SZ):大数据和AI软件公司,深化"DATA+AI"战略,2024年AI软件产品及服务收入2.58亿元,与DeepSeek在数据层面有合作。市值约110亿元,2024年营收7.77亿元。
海外对标
- Scale AI(未上市):全球最大AI数据标注平台,估值约290亿美元(2025年)。2024年营收约8.7亿美元,客户包括OpenAI、Google、Meta、美国国防部(国防合同超3亿美元)。2024年5月Series F融资10亿美元(Amazon、Meta参投)。
- Appen(APX.AX):澳洲上市,服务于Google、Microsoft、Amazon等,高峰期年收入超5亿澳元,近年受Scale AI竞争影响业绩大幅下滑。在中国设有运营中心(澳鹏中国)。
未升格公司清单
留作行业全景参考,未单独建 note。出现重大催化时考虑升格。
- Labelbox(未上市):美国AI数据标注平台,2024年估值约10亿美元,端到端标注工作流管理
- 整数智能(未上市):国内多模态AI训练数据新锐,2024年获A轮融资
- 倍赛科技 BasicFinder(未上市):自研标注工具+全球标注团队,已完成B轮融资
- 曼孚科技 MindFlow(未上市):聚焦自动驾驶3D点云标注,2024年获新一轮融资
- 龙猫数据(未上市):众包模式数据采集与标注平台
景气度判断
当前景气度(描述性) 信号源:
行业从劳动密集型向AI辅助自动化演进。Scale AI等头部平台已大量使用大模型进行初步标注,人工标注员从"标注执行"转变为"质量审核和边缘案例处理"。这一转型推动行业集中度提升,拥有自动化工具的平台获得更大成本优势。
中国市场受四部委政策催化,7个国家级数据标注基地正在形成区域产业集群,海天瑞声已率先布局保定、长沙等基地,并在新加坡设立海外交付基地。
风险提示
关键风险
- AI自动化标注技术提升将压缩纯人力标注工场的利润空间,中小标注服务商面临出清风险
- 客户集中度风险:Scale AI等头部平台对头部AI实验室依赖度高,客户开始多元化供应商(Scale AI 2025年7月已进行裁员重组)