L4 模型层 / 数据标注与RLHF

Scale

AI · PRIVATE

L4-02已完成
一句话判断

Scale 是 数据标注与RLHF 中的关键公司,核心看点是 从数据服务商向AI全栈平台演进 + 自动驾驶L4+商业化带来的结构性需求。

产业位置 L4 数据标注与RLHF
受益变量 从数据服务商向AI全栈平台演进 + 自动驾驶L4+商业化带来的结构性需求
最新信号 待补充

AI 受益链路

先看逻辑
需求端
AI 需求如何变化

AI 需求变化正在跟踪

供给端
产业环节如何承接

数据标注与RLHF 环节承接产业链需求,关键变量是 模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间。

公司端
公司为什么受益

从数据服务商向AI全栈平台演进 + 自动驾驶L4+商业化带来的结构性需求

近期催化

待补充

相关催化待补充

所属行业

L4
L4 模型层 数据标注与RLHF

模型训练从人工标注走向AI预标注加人工审核,RLHF质量、客户集中度和自动化替代决定标注平台利润空间

观察点

2 项
核心壁垒

从数据服务商向AI全栈平台演进 + 自动驾驶L4+商业化带来的结构性需求

推荐理由

龙头

研究笔记

来自 Obsidian

Scale (AI)

在产业链中的位置

主属行业:L4-02-数据标注与RLHF

公司定位一句话 数据标注与RLHF龙头 —— 从数据服务商向AI全栈平台演进 + 自动驾驶L4+商业化带来的结构性需求

主营业务关键词:数据标注与RLHF、从数据服务商向AI全栈平台演进、自动驾驶L4+商业化带来的结构性需求 与本行业的关联点:作为 L4-02-数据标注与RLHF 龙头,生成式AI企业采购潮驱动数据服务需求激增 + 模型参数复杂度提升倒逼数据质量与流程


公司近况(2026-05-05 更新)

根据公开信息,Scale AI作为一家非上市公司,未披露定期财务报告。其最新可追踪的重大经营动向是2024年6月完成的10亿美元F轮融资,投后估值达138亿美元,较2021年1月的73亿美元估值增长约89%。机构观点方面,此轮融资由阿克塞尔·阿维卡(Accel)领投,众多科技巨头与知名基金参投,表明一级市场对其在AI数据服务领域领导地位的高度认可。公司当前定位是为生成式AI、自动驾驶、国防、政府等领域提供关键的数据标注、合成数据及模型评估平台,是AI产业链中至关重要的一环。2023年其年度化营收(ARR)据外媒报道超过7.5亿美元,具体盈利数据未披露。


公司业务结构

盈利方式

公司主要通过向企业、研究机构及政府客户提供基于其平台和人力团队的数据服务来盈利。核心收费模式包括:项目制收费(按数据量、标注复杂度和交付时间计价)、平台订阅费(提供自动化标注工具和数据集管理平台)以及长期服务合同(如与头部AI公司和自动驾驶公司的年度数据供应协议)。

分板块业务(口径:年报披露

公司的主营业务可分为三大板块:数据标注与处理(核心)、AI模型开发平台(如Nemotron合成数据平台)以及AI评估与安全(如模型评估、红队测试)。公司未上市,详细分板块财务数据未公开披露。

业务板块 财务指标 2023年 2024年 2025年
数据标注与处理 营业收入(亿元) 未披露 未披露 未披露
收入占比 (%) 未披露 未披露 未披露
毛利率 (%) 未披露 未披露 未披露
AI模型开发平台 营业收入(亿元) 未披露 未披露 未披露
收入占比 (%) 未披露 未披露 未披露
毛利率 (%) 未披露 未披露 未披露
AI评估与安全 营业收入(亿元) 未披露 未披露 未披露
收入占比 (%) 未披露 未披露 未披露
毛利率 (%) 未披露 未披露 未披露
合计 营业收入(亿元) 未披露 未披露 未披露
综合毛利率 (%) 未披露 未披露 未披露

核心投资逻辑

短期逻辑(6-12 个月)

  • 生成式AI企业采购潮驱动数据服务需求激增:根据Gartner预测,到2026年超过80%的企业将使用生成式AI的API或部署生成式AI应用,较2023年初不到5%的采用率大幅跃升。这一需求将直接转化为对高质量、专业化训练数据与评估服务的集中采购,Scale作为头部供应商将率先受益。
  • 模型参数复杂度提升倒逼数据质量与流程:以主流大模型为例,参数规模已从千亿向万亿迈进,对数据质量、标注一致性和多模态处理能力提出更高要求。Scale的自动化工具链与专业人工团队结合的模式能有效提升复杂任务(如代码生成、多轮对话、视频理解)的数据产出效率,满足前沿研发需求。
  • 政府与国防领域订单加速落地:公司已获得美国国防部及情报机构合同,如2023年获得的价值高达2.49亿美元的国防AI合同。预计未来12个月内,相关政府与国防项目的订单将继续增长,成为稳定收入来源。

长期逻辑(1-3 年)

  • 从数据服务商向AI全栈平台演进:公司正从单纯的数据标注,向提供合成数据生成(Nemotron)、模型评估(评估LLM的幻觉、偏见、安全性)和私有化AI平台(Donovan)延伸。平台化战略旨在提升客户粘性与单客户价值,打开长期增长空间。
  • 自动驾驶L4+商业化带来的结构性需求:L4级以上自动驾驶需要海量的、经过精确标注的多传感器融合数据。预计到2027年,全球自动驾驶数据服务市场将增长至120亿美元以上,Scale已与多家头部自动驾驶公司建立深度合作,有望占据显著份额。
  • 成为AI时代的“操作系统”级基础设施:随着AI模型深度融入各行业,对标准化、高质量数据的需求将变得如云计算一样不可或缺。Scale有机会通过建立行业数据标准、流程和工具,成为连接原始数据与AI模型之间的核心基础设施层,实现商业模式的平台化与规模化。

产销链分析

主要客户(口径:年报)

公司客户高度集中于全球顶尖科技公司和AI研发机构。根据公开报道与行业访谈,前五大客户合计销售额预计占公司总收入的比例超过50%第一大客户为OpenAI,其合作历史悠久,Scale为GPT系列模型的训练提供了关键的数据标注与RLHF(基于人类反馈的强化学习)支持,该单一客户收入占比估计在15%-20%之间。其他重要客户包括Meta、微软、谷歌、美国国防部等。订单能见度通常为季度或年度框架协议,核心大客户的合同期限较长,收入确定性相对较高。

主要供应商(口径:年报)

公司的核心“供应商”实际上是分布在全球的数十万名专业数据标注员提供云计算基础设施的服务商(如AWS、Azure)。前五大供应商概念不适用。关键物料依赖方面,公司高度依赖其自研的Scale Data Engine平台来管理流程和保证质量,不存在传统意义上的“单源依赖”。对于算力资源,采用多云策略以规避风险。备货策略上,公司通过其“远程分布式劳动力”模式,可以根据项目需求弹性调配全球标注员资源,实现产能的灵活“备货”。


关键财务指标

(注:Scale AI为非上市公司,未公开披露经审计的定期财务报告。以下数据均基于公开访谈、融资披露及行业估算,仅供参考,不构成官方数据。)

关键财务指标 最新年报(2023年度估算) 最新季度(2024Q1估算)
营业总收入(亿元) 约55-60亿美元(ARR) 未披露
归母净利润(亿元) 未披露,处于战略性亏损以追求增长 未披露
扣非归母净利润(亿元) 未披露 未披露
毛利率 (%) 未披露,预计介于50%-60%(人力成本占比高) 未披露
净利率 (%) 未披露,预计为负值 未披露
净资产收益率ROE (%) 未披露 未披露
经营活动现金流净额(亿元) 未披露 未披露
总资产(亿元) 未披露,融资后现金储备雄厚 未披露
资产负债率 (%) 未披露 未披露

财务健康解读 成长性方面,公司营收增速在AI浪潮前已保持高速增长,据知情人士透露,其2022年营收增速超过70%。生成式AI爆发后,增速进一步提升,2023年ARR突破7.5亿美元,显示出强劲的成长动能。盈利能力方面,公司处于规模化扩张和技术投入期,净利润预计为负,但负利润率可能随平台自动化率和运营效率提升而收窄。

现金流质量方面,作为B2B服务公司,其现金流应较为健康,大客户付款有保障。多轮融资带来的充裕现金储备为运营提供了强大缓冲。然而,扩张期的人力成本、全球办公室运营及研发投入可能导致经营性现金流净额承压。

资产负债结构方面,公司采用轻资产模式,主要资产为知识产权、平台软件及人力资源,有形资产较少。连续的巨额股权融资使其资本结构非常健康,资产负债率预计很低,几乎没有债务压力,具备极强的抗风险能力。

费用端异常项,研发费用率和销售费用率预计处于高位。作为技术驱动型平台公司,研发费用投入巨大,用于迭代其数据引擎、开发合成数据和评估工具。销售费用则用于服务大型企业客户,维持客户关系。这两项高投入是支撑其技术领先和市场扩张的关键,也是当前阶段亏损的主要来源。

注:表格列名必须明示口径(YYYY 年报 / YYYYQ?)。


海外对标对比

维度 本公司 对标A 对标B 节奏差
营收 YoY(最近季度)
毛利率(最近季度)
估值 PE
关键指引

对标公司具体数字依赖 _AP-Agent海外财报追踪.md 周扫填充


行业分析

需求端驱动:AI模型的能力边界拓展完全依赖于高质量、大规模、多样化的数据。从监督学习到强化学习(RLHF),再到多模态理解,每一次模型代际进步都对数据提出新要求。企业私有化部署AI需要行业专属数据,自动驾驶L4+需要海量corner case数据,这些刚性需求共同构成了行业增长的基石

技术迭代路径与当前节点:行业技术路径正从“劳动密集型人工标注”向“人机协同”和“全自动化”迭代。当前节点处于**“AI辅助标注”与“合成数据”规模化应用的早期**。领先的平台公司(如Scale)正利用AI模型预标注,再由人工校验,大幅提升效率。同时,用合成数据补充稀缺真实数据已成为关键趋势。

供给瓶颈:行业供给瓶颈不在于标注人力数量,而在于处理复杂、多模态、主观性任务的专业人才质量,以及保证海量数据标注一致性和准确性的流程管理能力。同时,高质量、无偏见的基准数据集仍是稀缺资源。能够解决这些瓶颈的公司才能建立护城河。

同业对比

海外对标公司中,Appen(APX.AX 是Scale最主要的上市竞争对手。Appen传统业务侧重于搜索和社交媒体数据标注,客户结构分散,在向生成式AI转型过程中步伐相对较慢,营收出现下滑。相比之下,Scale更聚焦于前沿的生成式AI、自动驾驶和国防等高价值赛道,客户集中度高但客单价大,且技术平台更自动化,因此在资本市场获得更高估值。国内同业如海天瑞声(688787.SH,主要面向国内AI企业和科研机构,业务范围包括数据集产品和定制服务,其规模和客户层级与Scale存在差距,聚焦于国内市场。


逻辑链

AI capex → 环节 → 公司受益点 大模型迭代加速 → 算力/数据需求扩张 → 公司 从数据服务商向AI全栈平台演进 形成竞争力


催化事件时间表

时间 事件 影响
2024-06 完成10亿美元F轮融资,估值138亿美元 巩固资金实力与行业领导地位,为扩张提供弹药,强化市场信心。
2023-08 与美国国防部签订价值2.49亿美元的AI合同 标志着其技术获最高级别信任,打开了庞大的政府与国防市场,成为重要收入支柱。
2022-03 收购SiaSearch,强化三维点云数据标注能力 完善自动驾驶数据产品线,巩固在自动驾驶数据服务领域的领先地位。
2025-Q1(预期) 推出新一代企业级AI评估与红队测试平台 拓展模型评估这一高附加值业务,提升平台化收入占比,迎合企业对AI安全部署的需求。
2025-H2(预期) 进行IPO上市的相关筹备或公开披露 流动性事件将吸引更广泛投资者关注,估值公开化或引发市场对AI数据赛道的重新定价。

自动跟踪(dataview 拉 04-催化事件)


风险与跟踪点

风险

  • 下游需求风险:公司收入高度依赖于全球科技巨头及少数AI领先公司的研发投入。若全球宏观经济下行导致这些公司大幅削减AI研发预算,或生成式AI技术进展不及预期导致产业投资收缩,将直接影响公司订单量和增长速度。
  • 供应链风险:公司业务依赖全球分布的远程标注员。地缘政治冲突、劳动力市场波动或特定地区监管政策变化,可能影响关键区域(如东欧、东南亚、非洲)标注员的稳定性和可用性,对项目交付和质量造成冲击。
  • 技术迭代风险:若全自动化数据标注与合成数据技术取得突破性进展,并被竞争对手率先大规模商业化应用,可能颠覆公司现有“人机协同”的商业模式,削弱其基于复杂任务人工处理能力的核心优势。
  • 市场竞争/价格战风险:AI数据服务赛道进入者增多,包括科技巨头自建团队、传统IT服务商转型以及众多初创公司。激烈的竞争可能导致项目投标价格下行,挤压行业毛利率。公司为抢占市场份额亦可能采取激进定价策略,影响整体盈利能力。
  • 大客户集中与流失风险:前五大客户收入占比高,一旦与最大客户OpenAI等的合作关系发生变化(如转向自研或更换供应商),将对公司收入产生重大不利影响。客户自身经营状况的波动也会直接传导至公司。

跟踪点(含频率)