L4 模型层

模型部署与推理优化

当前核心信号:2025-12-26

一句话判断

模型部署与推理优化 是 L4 模型层中连接上游供给、产业约束和下游 AI 需求的关键环节,当前主要观察 推理负载成为AI算力主战场,模型压缩、服务编排、成本下降和云厂商低价策略决定独立推理服务商利润。

关键瓶颈 推理负载成为AI算力主战场,模型压缩、服务编排、成本下降和云厂商低价策略决定独立推理服务商利润
代表公司 6 家
内容状态 部分填充

核心约束

先看卡点
推理负载成为AI算力主战场,模型压缩、服务编排、成本下降和云厂商低价策略决定独立推理服务商利润

2025-12-26

代表公司

6 家

近期催化

1 条

研究笔记

来自 Obsidian

模型部署与推理优化

模型部署与推理优化视觉图

关键信息摘要

Key Highlights

  • 全球AI推理市场(2024)约910-970亿美元,预计2026年达1,250亿美元(CAGR 14-19%);2026年推理工作负载将占全部AI算力约三分之二
  • 火山引擎方舟占中国大模型公有云市场49.2%份额(2025H1 IDC数据);硅基流动(未上市)估值2亿美元+,900万+注册用户
  • MLOps市场CAGR 29-42%;中国AI算力市场(含推理)2024年190亿美元→2028年552亿美元
项目 内容
全球AI推理市场(2024) ~910-970亿美元;2026E ~1,250亿美元
全球MLOps市场(2024) ~20-34亿美元;CAGR 29-42%
中国AI算力市场(2024) ~190亿美元(含推理);2025E ~259亿美元
中国端侧大模型市场(2024) ~21亿元人民币
推理优化芯片(全球,2026E) ~500亿美元(CAGR ~50%)
主要上市标的 商汤科技(0020.HK)、中科创达(300496.SZ)、浪潮信息(000977.SZ)、第四范式(6682.HK)、地平线机器人(9660.HK)、瑞芯微(603893.SH)
主要未上市公司 硅基流动SiliconFlow、Weights & Biases、九章云极、算能科技

行业定义与边界

模型部署与优化是AI产业链中连接"模型训练"与"应用落地"的关键环节,核心使命是将实验室中训练完成的AI模型高效、稳定、低成本地推向生产环境。覆盖从模型交付到持续运维的完整生命周期,包含四大核心板块:

  • 模型压缩/量化:通过剪枝(Pruning)、量化(Quantization,INT8/INT4/1-bit)、知识蒸馏等技术手段,在保持模型精度的前提下大幅缩减模型体积和计算需求。
  • 推理引擎/服务平台:提供高性能推理计算框架和模型服务化基础设施,核心能力包括请求调度、批处理优化、KV-Cache管理、显存优化和自动扩缩容。
  • 边缘/端侧部署:将AI模型部署至边缘服务器、IoT设备、智能手机等终端硬件,满足低延迟、数据隐私和离线运行等需求。
  • MLOps/模型监控:覆盖模型版本管理、实验追踪、持续训练与部署(CT/CD)、模型性能监控、数据漂移检测等运维工具链。

行业边界:本子行业聚焦于"推理态"而非"训练态",强调生产环境的成本效率、稳定性和可扩展性,与上游的模型训练框架和中游的AI芯片/加速卡均有交叉但不重叠。

市场规模与增长

全球市场

细分市场 2024年 2025年(E) 2026年(E) CAGR
全球AI推理 ~950亿美元 ~1,060亿美元 ~1,250亿美元 14-19%
全球MLOps ~22亿美元 ~28亿美元 ~38亿美元 29-42%
中国AI算力(含推理) 190亿美元 259亿美元 ~340亿美元(E) 36%+
推理优化芯片(全球) ~150亿美元 ~200亿美元 ~500亿美元 50%

据德勤(Deloitte)预测,2026年推理工作负载将占全部AI算力的约三分之二(2023年仅为三分之一),标志着AI产业正式进入"推理时代"。

中国市场

根据IDC数据,2024年中国AI算力市场规模达190亿美元,2025年增至259亿美元(同比+36.2%),预计2028年达552亿美元。中国大模型公有云推理服务市场高度集中:火山引擎方舟2025上半年占据49.2%份额(IDC报告)。截至2026年初,中国已有超过700个生成式AI服务完成国家算法备案登记。

技术演进路线

技术路线
阶段 01
上游环节
阶段 02
中游环节
阶段 03
下游环节
原始图谱
flowchart LR
  上游环节 --> 中游环节 --> 下游环节

产业价值链结构

价值链
上游 原材料
中游 制造
终端 客户
原始图谱
flowchart LR
  原材料 --> 制造 --> 客户

重点公司

本土龙头

  • 商汤科技(0020.HK:商汤大装置(SenseCore)提供大规模模型训练与推理服务,涵盖模型压缩部署、推理加速和算力调度。市值约500亿港元(2026年2月),2024年总营收约38亿元,生成式AI业务营收同比增长超100%。
  • 火山引擎/字节跳动(未上市,字节跳动体系):方舟平台占中国大模型公有云市场49.2%份额(2025H1),采用激进定价策略(豆包模型"厘时代")以极低推理成本抢占市场。字节跳动整体估值约3000亿美元。
  • 中科创达(300496.SZ:智能操作系统和嵌入式AI边缘部署,与高通、ARM深度合作。市值约240亿元(2026年2月),2024年营收约54亿元。智能座舱、IoT边缘设备场景市场优势。
  • 浪潮信息(000977.SZ:AI服务器和边缘计算硬件,AI服务器市场份额领先。市值约600亿元(2026年2月),2024年营收约750亿元。
  • 第四范式(6682.HK:企业级AI平台"先知"(Sage),覆盖AutoML、特征工程、模型训练、部署监控全链路MLOps。市值约250亿港元(2026年2月),2024年总营收约45亿元(同比+25%)。银行业AI应用领域市占率居前。

海外对标

  • NVIDIA TensorRT / TensorRT-LLM(NVDA.US:GPU推理优化事实标准,TensorRT-LLM已成为主流云服务商部署大模型的首选推理框架。NVIDIA市值约3.3万亿美元。
  • vLLM(开源,UC Berkeley):首创PagedAttention技术,GitHub 45,000+ Stars,已成为开源LLM推理引擎的事实标准。
  • Weights & Biases(未上市):ML实验追踪和模型管理MLOps平台标杆,估值约13亿美元(2023年C轮),被OpenAI、NVIDIA、Meta等顶级AI团队广泛使用。累计融资约2.5亿美元。
  • MLflow/Databricks(未上市):MLflow是全球下载量最大的开源MLOps框架,月活跃用户超2,000万。Databricks估值约620亿美元(2024年12月E轮),被广泛预期将于2025-2026年IPO。

未升格公司清单

留作行业全景参考,未单独建 note。出现重大催化时考虑升格。

  • 硅基流动 SiliconFlow(未上市):自研推理引擎+国产算力适配,估值约2亿美元+,注册用户超900万,率先推出基于国产算力的DeepSeek-R1/V3服务。美团为战略股东。
  • 地平线机器人(9660.HK):智能驾驶AI芯片"征程系列",市值约1,200亿港元,征程系列出货量超500万片
  • 瑞芯微(603893.SH):国产AIoT芯片龙头,RK系列芯片集成NPU,市值约350亿元
  • 九章云极 DataCanvas(未上市):国内MLOps头部创业公司,曾筹备科创板上市
  • 星环科技(688031.SH):大数据+Sophon MLOps平台,市值约70亿元
  • 算能科技(未上市):边缘AI芯片和模组(BM1684系列),智慧城市/交通场景
  • llama.cpp(开源):CPU/消费级GPU上运行量化LLM的开源工具,端侧LLM部署事实标准

景气度判断

当前景气度(描述性) 信号源:

推理成本指数级下降,"推理普惠"成为产业主旋律。从2024年到2025年,主流大模型推理成本下降约90%。DeepSeek R1推理成本仅为OpenAI o1的1/10,火山引擎将豆包模型推理定价打入"厘时代"。推理成本暴降将极大降低AI应用的经济门槛,推动AI从"尝鲜"走向"规模化渗透"。

国产算力适配成为中国AI部署的刚性需求:硅基流动率先推出基于国产算力的DeepSeek-R1/V3服务,证实了国产算力部署大模型的商业可行性。在美国AI芯片出口管制持续升级背景下,国产芯片推理软件栈具有特殊战略价值。

风险提示

关键风险

  • 推理成本持续暴降可能压缩独立推理服务商的利润空间,火山引擎等大厂以极低定价策略可能将独立服务商逼出市场
  • MLOps市场面临来自大型云平台(阿里云PAI、Azure ML Studio等)内置功能的竞争,独立MLOps工具的差异化空间收窄