L4 模型层

数据标注与RLHF

当前核心信号:2026-04-30

一句话判断

数据标注与RLHF 是 L4 模型层中连接上游供给、产业约束和下游 AI 需求的关键环节,当前主要观察 模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间。

关键瓶颈 模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间
代表公司 4 家
内容状态 部分填充

核心约束

先看卡点
模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间

2026-04-30

代表公司

4 家

近期催化

2 条

研究笔记

来自 Obsidian

数据标注与RLHF

关键信息摘要

Key Highlights

  • 中国数据标注市场2024年约77亿元,预计2026年突破130亿元;四部委2025年1月政策催化,7城国家级数据标注基地已形成17,282TB标注规模
  • Scale AI估值290亿美元,2024年营收约8.7亿美元,2025年预计超20亿美元,客户覆盖OpenAI、Google、Meta及美国国防部
  • 行业核心趋势:从人工标注向"AI预标注+人工审核"混合模式演进,集中度持续提升
维度 核心数据
中国数据标注市场(2024) 约77亿元(保守口径),同比增长约27%
中国数据标注市场(2026E) 突破130亿元,政策目标CAGR>20%
全球AI训练数据服务市场(2024) 约140-160亿美元,CAGR 25-30%
行业龙头(全球) Scale AI(估值290亿美元)
行业龙头(中国) 海天瑞声(A股数据标注龙头,688787.SH,市值约65亿元)
关键驱动力 大模型RLHF对高质量人类偏好数据刚性需求、多模态标注需求指数级增长
政策催化 四部委《促进数据标注产业高质量发展实施意见》(2025年1月)

行业定义与边界

数据标注与RLHF是AI数据引擎产业(上游数据供给层)的核心细分板块。通过人工或半自动化方式对原始数据进行分类、标记、质量评估和偏好排序,使数据满足模型训练的格式和质量要求。RLHF(基于人类反馈的强化学习)是当前大模型对齐的核心技术路径,从人工偏好收集到DPO(Direct Preference Optimization)、RLAIF(AI反馈强化学习)持续演进。

行业边界:聚焦于直接服务AI模型训练的数据标注与人类偏好数据收集环节,不包括版权数据授权(L4-01)、合成数据生成(L4-04)和数据治理基础设施(L4-03)。

市场规模与增长

全球市场

根据Grand View Research数据,2023年全球数据标注与服务市场规模约140.7亿美元,美国约42亿美元(占比30%)。预计2024-2030年CAGR约为25-30%,到2030年全球市场规模将突破400亿美元。

中国市场

中商情报网数据显示,2023年中国数据标注市场规模达60.8亿元,2024年增至约77.3亿元,预计2026年将突破132亿元,2027年超150亿元。

政策层面强力催化:2025年1月,工信部等四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出到2027年产业规模CAGR超过20%。2024年5月,国家数据局确定成都、沈阳、合肥、长沙、海口、保定、大同7城为国家级数据标注基地,已形成335个高质量数据集,标注规模达17,282TB,带动相关产值超83亿元。

艾瑞咨询数据显示,2024年中国AI基础数据服务市场规模约58亿元,预计2028年将达170亿元(CAGR 30.84%)。

增长驱动力

  • RLHF、DPO等对齐技术对高质量人类偏好数据的刚性需求持续
  • 多模态模型(视觉、语音、视频)对标注数据需求指数级增长
  • 国家级数据标注基地政策驱动产业集聚

技术演进路线

技术路线
阶段 01
上游环节
阶段 02
中游环节
阶段 03
下游环节
原始图谱
flowchart LR
  上游环节 --> 中游环节 --> 下游环节

产业价值链结构

价值链
上游 原材料
中游 制造
终端 客户
原始图谱
flowchart LR
  原材料 --> 制造 --> 客户

重点公司

本土龙头

  • 海天瑞声(688787.SH:A股数据标注首家上市公司,覆盖智能语音、计算机视觉和NLP三大领域,产品覆盖全球200+语种。市值约65亿元。2024年营收2.37亿元(+39.5%),2025Q1营收6980.95万元(+71.75%)。东吴证券预计2025-2027年营收3.45/4.83/6.44亿元。
  • 拓尔思(300229.SZ:大数据和AI软件公司,深化"DATA+AI"战略,2024年AI软件产品及服务收入2.58亿元,与DeepSeek在数据层面有合作。市值约110亿元,2024年营收7.77亿元。

海外对标

  • Scale AI(未上市):全球最大AI数据标注平台,估值约290亿美元(2025年)。2024年营收约8.7亿美元,客户包括OpenAI、Google、Meta、美国国防部(国防合同超3亿美元)。2024年5月Series F融资10亿美元(Amazon、Meta参投)。
  • Appen(APX.AX:澳洲上市,服务于Google、Microsoft、Amazon等,高峰期年收入超5亿澳元,近年受Scale AI竞争影响业绩大幅下滑。在中国设有运营中心(澳鹏中国)。

未升格公司清单

留作行业全景参考,未单独建 note。出现重大催化时考虑升格。

  • Labelbox(未上市):美国AI数据标注平台,2024年估值约10亿美元,端到端标注工作流管理
  • 整数智能(未上市):国内多模态AI训练数据新锐,2024年获A轮融资
  • 倍赛科技 BasicFinder(未上市):自研标注工具+全球标注团队,已完成B轮融资
  • 曼孚科技 MindFlow(未上市):聚焦自动驾驶3D点云标注,2024年获新一轮融资
  • 龙猫数据(未上市):众包模式数据采集与标注平台

景气度判断

当前景气度(描述性) 信号源:

行业从劳动密集型向AI辅助自动化演进。Scale AI等头部平台已大量使用大模型进行初步标注,人工标注员从"标注执行"转变为"质量审核和边缘案例处理"。这一转型推动行业集中度提升,拥有自动化工具的平台获得更大成本优势。

中国市场受四部委政策催化,7个国家级数据标注基地正在形成区域产业集群,海天瑞声已率先布局保定、长沙等基地,并在新加坡设立海外交付基地。

风险提示

关键风险

  • AI自动化标注技术提升将压缩纯人力标注工场的利润空间,中小标注服务商面临出清风险
  • 客户集中度风险:Scale AI等头部平台对头部AI实验室依赖度高,客户开始多元化供应商(Scale AI 2025年7月已进行裁员重组)