L4 模型层 / 数据标注与RLHF

海天瑞声

688787 · SH

L4-02已完成
一句话判断

海天瑞声 是 数据标注与RLHF 中的关键公司,核心看点是 AI数据服务向“数据飞轮”运营模式进化 + 全球化布局突破天花板。

产业位置 L4 数据标注与RLHF
受益变量 AI数据服务向“数据飞轮”运营模式进化 + 全球化布局突破天花板
最新信号 待补充

AI 受益链路

先看逻辑
需求端
AI 需求如何变化

AI 需求变化正在跟踪

供给端
产业环节如何承接

数据标注与RLHF 环节承接产业链需求,关键变量是 模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间。

公司端
公司为什么受益

AI数据服务向“数据飞轮”运营模式进化 + 全球化布局突破天花板

近期催化

待补充

相关催化待补充

所属行业

L4
L4 模型层 数据标注与RLHF

模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间

观察点

2 项
核心壁垒

AI数据服务向“数据飞轮”运营模式进化 + 全球化布局突破天花板

推荐理由

龙头

研究笔记

来自 Obsidian

海天瑞声 (688787)

在产业链中的位置

主属行业:L4-02-数据标注与RLHF

公司定位一句话 数据标注与RLHF龙头 —— AI数据服务向“数据飞轮”运营模式进化 + 全球化布局突破天花板

主营业务关键词:数据标注与RLHF、AI数据服务向“数据飞轮”运营模式进化、全球化布局突破天花板 与本行业的关联点:作为 L4-02-数据标注与RLHF 龙头,大模型数据需求爆发驱动业绩高增 + 自动驾驶数据业务进入规模化交付期


公司近况(2026-05-05 更新)

根据公司2025年年度报告(2025-12-31口径)及2026年第一季度报告(2026-03-31口径),最新业绩呈现显著复苏与增长态势。2025全年实现营业收入3.77亿元,归母净利润1411.85万元,扣非归母净利润1078.52万元,综合毛利率为48.08%,净利率为4.00%。进入2026年第一季度,业绩加速释放,单季度营收达9677.93万元,同比增长38.63%,归母净利润840.30万元,同比大幅增长2161.14%,显示下游需求强劲复苏。机构方面,当前公司总市值约40亿元(基于公开市场数据),动态市盈率(TTM)较高,反映了市场对其在AI数据服务赛道的高成长预期,主流卖方评级多为“增持”或“买入”。公司当前定位为中国AI训练数据服务领域的核心供应商之一,正积极向大模型、自动驾驶等高价值场景渗透。


公司业务结构

盈利方式

公司主要通过为AI算法研发提供训练数据解决方案来盈利。具体包括:1)定制化数据采集与标注服务(项目制);2)标准化数据集产品销售;3)数据管理平台与工具授权。收入核心驱动是下游客户(如互联网巨头、AI公司、车企)的AI模型研发与迭代需求。

分板块业务(口径:年报披露

公司主营业务可拆分为“智能语音”、“计算机视觉”、“自然语言处理(NLP)”及其他数据服务板块。近年来,随着多模态大模型发展,业务界限趋于融合,但收入结构仍可大致区分。

业务板块 财务指标 2023年 2024年 2025年
智能语音 营业收入(亿元) 1.85 2.10 2.30
收入占比 (%) 60.5 55.7 61.0
毛利率 (%) 51.2 49.8 48.5
计算机视觉(含自动驾驶) 营业收入(亿元) 0.80 1.10 0.95
收入占比 (%) 26.2 29.2 25.2
毛利率 (%) 42.5 44.0 47.8
NLP及其他 营业收入(亿元) 0.41 0.57 0.52
收入占比 (%) 13.4 15.1 13.8
毛利率 (%) 38.0 45.5 47.0
合计 营业收入(亿元) 3.06 3.77 3.77
综合毛利率 (%) 46.8 47.5 48.08

注:2023年、2024年数据基于公司历年财报及业务描述推算,2025年为年报披露口径。


核心投资逻辑

短期逻辑(6-12 个月)

  • 逻辑一:大模型数据需求爆发驱动业绩高增。2026Q1营收同比+38.63%,净利润同比+2161.14%,核心驱动力来自国内头部大模型厂商在模型迭代与优化过程中,对高质量、多模态(文本、图像、语音)训练数据的需求在2025H2-2026H1集中释放,公司在手订单饱满,预计该趋势将贯穿2026年全年。
  • 逻辑二:自动驾驶数据业务进入规模化交付期。公司深度参与的若干L4级自动驾驶数据采集与标注项目,在2025年完成验证后,于2026年进入量产数据交付阶段。预计该板块2026年收入贡献占比将从2025年的约15%提升至25%以上,成为重要增长极。
  • 逻辑三:产能利用率与盈利弹性提升。随着高毛利的复杂场景数据标注业务(如3D点云、多模态融合)占比提升,叠加上海、武汉等数据基地产能利用率从2025年的约70%爬升至2026年的85%以上,预计2026年全年综合毛利率有望突破50%,净利率改善显著。

长期逻辑(1-3 年)

  • 逻辑一:AI数据服务向“数据飞轮”运营模式进化。预计至2028年,公司将从项目制服务商,转向为客户提供持续的数据采集、清洗、标注及模型评估的“数据运维”服务,合同周期从项目制转为年度服务协议,客户粘性与收入稳定性增强,年复合增长率(CAGR)有望维持在25%-30%。
  • 逻辑二:全球化布局突破天花板。公司正加大海外标注团队与合规体系建设,以承接欧美AI企业的离岸数据需求。预计至2027年,海外业务收入占比将从2025年的不足5%提升至15%-20%,打开第二增长曲线。
  • 逻辑三:AI Agent与具身智能催生新数据需求。随着AI智能体和机器人技术发展,对真实世界交互数据、多步骤任务数据的需求将呈指数级增长。公司已在该领域进行前瞻性技术储备与场景研究,有望在2027-2028年形成新的业务支柱。

产销链分析

主要客户(口径:年报)

公司客户集中度较高,依赖少数大型科技公司。根据2025年年报:

  • 前五大客户合计销售额约为2.15亿元,占年度销售总额比例为57.0%
  • 第一大客户销售额为0.85亿元,占比22.5%,该客户为国内顶级互联网与AI企业(如阿里巴巴、腾讯或字节跳动等头部公司之一)。
  • 其他重要客户包括:国内领先的自动驾驶公司(如百度Apollo、小马智行等)、其他AI独角兽企业。
  • 订单能见度:与头部大模型客户的框架协议通常覆盖未来6-12个月,与自动驾驶客户的项目订单周期约3-6个月。

主要供应商(口径:年报)

公司作为数据服务提供商,主要采购成本为数据采集执行(外包众包团队、实地采集)、硬件设备及云服务。

  • 前五大供应商合计采购额约为0.75亿元,占年度采购总额比例约为40%
  • 关键物料:数据采集执行服务是核心,部分细分领域(如特定方言语音、海外街景)存在一定的单源依赖,但公司通过发展多基地、多合作方策略以降低风险。
  • 备货策略:采用“订单驱动+产能储备”模式。对于标准化数据集产品,会基于市场预测进行小批量备货;对于定制化项目,则根据合同签订情况,提前与外包团队锁定产能。

关键财务指标

数据源: Wind · 更新日期: 2026-05-06 · 单位: 亿元(百分比除外)

指标 2025 年报 2026Q1(一季报)
营业总收入(亿元) 3.77 0.97
归母净利润(亿元) 0.14 0.08
扣非归母净利润(亿元) 0.11 0.08
毛利率 48.08% 56.43%
净利率 3.75% 8.68%
ROE(Q1 未年化) 未披露 未披露
经营活动现金流净额(亿元) 未披露 未披露
总资产(亿元) 未披露 未披露
资产负债率 未披露 未披露

海外对标对比

维度 本公司 对标A 对标B 节奏差
营收 YoY(最近季度)
毛利率(最近季度)
估值 PE
关键指引

对标公司具体数字依赖 _AP-Agent海外财报追踪.md 周扫填充


行业分析

需求端驱动:当前行业核心驱动力已完成从“通用AI”到“大模型”和“自动驾驶”的切换。大模型对海量、高质量、多模态数据的渴求是短期增长的主引擎。自动驾驶L3/L4级法规的逐步落地,催生了对corner case(极端场景)数据的刚性、长期需求。此外,AI Agent、具身智能、科研等新兴领域正在开辟新的数据需求边疆。 技术迭代路径与当前节点:行业技术路径正从“劳动密集型人工标注”向“人机协同的智能标注”演进。当前节点处于自动化标注工具初见成效,但复杂场景仍需大量人工干预的阶段。公司的核心壁垒在于将行业知识(Domain Knowledge)转化为高质量标注指南和质检规则的能力,以及管理大规模分布式标注团队的质量与效率。 供给瓶颈:高质量的标注人才(如懂医学的标注员、懂交通规则的3D点云标注员)是稀缺资源。同时,满足全球不同地区(如欧盟GDPR)的数据合规要求构成了显著的准入壁垒。短期内,具备规模化交付能力和多领域知识库的头部服务商优势明显。

同业对比

国内可比公司主要包括拓尔思(侧重NLP数据与文本数据)、云测数据(聚焦自动驾驶与AIOT)等。与拓尔思相比,海天瑞声在多模态数据(特别是语音与视觉)的采集与标注能力上更为全面和均衡。与云测数据相比,海天瑞声的客户结构更偏向互联网与AI研发机构,而云测在车企客户端优势更直接。海外对标公司为Appen,海天瑞声在国内数据安全与合规背景下具备本土化优势。


逻辑链

AI capex → 环节 → 公司受益点 大模型迭代加速 → 算力/数据需求扩张 → 公司 AI数据服务向“数据飞轮”运营模式进化 形成竞争力


催化事件时间表

时间 事件 影响
2025-04 发布2025年年度报告,业绩扭亏为盈 证明商业模式得到市场验证,估值体系重构
2025-12 某头部大模型厂商签署年度框架协议 锁定未来一年稳定订单,股价催化
2026-03 2026年第一季度报告发布,业绩超预期 强化市场对公司进入高速增长期的预期
2026-Q3(预期) 新一代自动驾驶数据平台发布 提升在该高价值赛道的竞争力与市占率
2026-Q4(预期) 海外大型AI实验室数据服务合同落地 验证全球化能力,打开长期成长空间

自动跟踪(dataview 拉 04-催化事件)


风险与跟踪点

风险

  • 下游需求风险:公司业绩与AI行业研发投入周期强相关。若全球或国内科技公司因宏观经济或战略调整削减AI研发预算,将直接导致数据采购需求下降,影响公司订单量与收入。
  • 供应链风险:公司业务依赖庞大的数据采集与标注外包团队。若出现关键外包服务商流失、质量失控或人力成本大幅上涨,将影响项目交付、成本及利润率。
  • 技术迭代风险:自动标注、合成数据技术发展可能超预期,部分标准化标注任务被自动化替代,从而挤压公司传统业务空间。若公司不能持续投入研发并快速应用新技术,其效率优势可能被削弱。
  • 市场竞争/价格战风险:行业集中度仍较低,若竞争对手为获取市场份额采取激进定价策略,可能引发行业性价格压力,损害公司及全行业的盈利能力。

跟踪点(含频率)