Key Highlights

全球AI推理市场（2024）约910-970亿美元，预计2026年达1,250亿美元（CAGR 14-19%）；2026年推理工作负载将占全部AI算力约三分之二

火山引擎方舟占中国大模型公有云市场49.2%份额（2025H1 IDC数据）；硅基流动（未上市）估值2亿美元+，900万+注册用户

MLOps市场CAGR 29-42%；中国AI算力市场（含推理）2024年190亿美元→2028年552亿美元

项目	内容
全球AI推理市场（2024）	~910-970亿美元；2026E ~1,250亿美元
全球MLOps市场（2024）	~20-34亿美元；CAGR 29-42%
中国AI算力市场（2024）	~190亿美元（含推理）；2025E ~259亿美元
中国端侧大模型市场（2024）	~21亿元人民币
推理优化芯片（全球，2026E）	~500亿美元（CAGR ~50%）
主要上市标的	商汤科技(0020.HK)、中科创达(300496.SZ)、浪潮信息(000977.SZ)、第四范式(6682.HK)、地平线机器人(9660.HK)、瑞芯微(603893.SH)
主要未上市公司	硅基流动SiliconFlow、Weights & Biases、九章云极、算能科技

行业定义与边界

模型部署与优化是AI产业链中连接"模型训练"与"应用落地"的关键环节，核心使命是将实验室中训练完成的AI模型高效、稳定、低成本地推向生产环境。覆盖从模型交付到持续运维的完整生命周期，包含四大核心板块：

模型压缩/量化：通过剪枝（Pruning）、量化（Quantization，INT8/INT4/1-bit）、知识蒸馏等技术手段，在保持模型精度的前提下大幅缩减模型体积和计算需求。
推理引擎/服务平台：提供高性能推理计算框架和模型服务化基础设施，核心能力包括请求调度、批处理优化、KV-Cache管理、显存优化和自动扩缩容。
边缘/端侧部署：将AI模型部署至边缘服务器、IoT设备、智能手机等终端硬件，满足低延迟、数据隐私和离线运行等需求。
MLOps/模型监控：覆盖模型版本管理、实验追踪、持续训练与部署（CT/CD）、模型性能监控、数据漂移检测等运维工具链。

行业边界：本子行业聚焦于"推理态"而非"训练态"，强调生产环境的成本效率、稳定性和可扩展性，与上游的模型训练框架和中游的AI芯片/加速卡均有交叉但不重叠。

市场规模与增长

全球市场

细分市场	2024年	2025年(E)	2026年(E)	CAGR
全球AI推理	~950亿美元	~1,060亿美元	~1,250亿美元	14-19%
全球MLOps	~22亿美元	~28亿美元	~38亿美元	29-42%
中国AI算力（含推理）	190亿美元	259亿美元	~340亿美元(E)	36%+
推理优化芯片（全球）	~150亿美元	~200亿美元	~500亿美元	50%

据德勤（Deloitte）预测，2026年推理工作负载将占全部AI算力的约三分之二（2023年仅为三分之一），标志着AI产业正式进入"推理时代"。

中国市场

根据IDC数据，2024年中国AI算力市场规模达190亿美元，2025年增至259亿美元（同比+36.2%），预计2028年达552亿美元。中国大模型公有云推理服务市场高度集中：火山引擎方舟2025上半年占据49.2%份额（IDC报告）。截至2026年初，中国已有超过700个生成式AI服务完成国家算法备案登记。

技术演进路线

模型部署与推理优化技术路径正从“压缩-加速”向“全栈协同+场景专用化”演进。核心驱动力是大模型推理成本指数级下降（主流模型2024→2025年推理成本降约90%）与国产算力适配需求。

技术路线

阶段 01

知识蒸馏/剪枝

视觉模型 2022-2023

阶段 02

INT4/INT8量化

NVIDIA TensorRT-LLM (NVDA) · 吞吐↑4-6x 2023

阶段 03

PagedAttention/vLLM

开源推理框架 2023.06

阶段 04

端侧轻量化引擎

llama.cpp / MLC-LLM 2024

阶段 05

云服务商集成

vLLM / TensorRT-LLM 2024

原始图谱

flowchart LR
  A[知识蒸馏/剪枝
视觉模型 2022-2023] --> B[INT4/INT8量化
NVIDIA TensorRT-LLM (NVDA)
吞吐↑4-6x 2023]
  B --> C[PagedAttention/vLLM
开源推理框架 2023.06]
  C --> D[端侧轻量化引擎
llama.cpp / MLC-LLM 2024]
  D --> E[云服务商集成
vLLM / TensorRT-LLM 2024]

模型压缩与量化：2022年起知识蒸馏、剪枝广泛用于视觉模型；2023年INT4/INT8量化成为LLM推理标配，NVIDIA TensorRT-LLM（NVDA.US）实现混合精度推理，支持Llama 3等大模型吞吐量提升4-6倍。
大模型推理引擎：UC Berkeley开源的vLLM凭借PagedAttention（2023年6月发布）成为开源LLM推理事实标准，GitHub星数超4.5万；2024年主流云服务商全面集成vLLM与TensorRT-LLM。
端侧部署：llama.cpp、MLC-LLM等工具使消费级GPU甚至手机运行量化LLM成为可能。高通（Qualcomm-QCOM）2026年5月确认FY2027数据中心AI推理业务将贡献数十亿美元收入；中科创达（300496.SZ）TurboX平台已部署至智能座舱与工业边缘设备。
云推理平台竞争：火山引擎方舟2025上半年占中国大模型公有云市场49.2%份额（IDC），将豆包模型推理价格降至“厘时代”；商汤科技（0020.HK）大装置面向开发者提供一站式部署与优化服务。
MLOps一体化：第四范式（6682.HK）先知平台覆盖AutoML到模型监控全流程，银行市占率领先；Weights & Biases（未上市）估值约13亿美元，被OpenAI、NVIDIA等采用。
国产算力适配：硅基流动（未上市）率先基于国产芯片提供DeepSeek R1/V3推理服务，验证国产算力商业可行性。

产业价值链结构

产业链围绕“模型→推理平台→应用”展开，利润集中于推理服务规模效应与端侧方案壁垒。2024年中国AI算力市场约190亿美元，推理工作负载占比有望在2026年达2/3。

价值链

上游 模型与框架

Meta Llama/DeepSeek

中游 压缩与优化

NVIDIA TensorRT-LLM/vLLM

下游 国产芯片部署

硅基流动/昇腾

下游 云推理服务平台

火山方舟49.2%/商汤大装置

下游 端侧推理方案

中科创达/瑞芯微-603893

下游 行业应用

智能座舱/工业质检/金融风控

终端 持续监控与MLOps

第四范式-6682/星环科技

原始图谱

flowchart LR
  A[模型与框架
Meta Llama/DeepSeek] --> B[压缩与优化
NVIDIA TensorRT-LLM/vLLM]
  B --> D[国产芯片部署
硅基流动/昇腾]
  D --> C[云推理服务平台
火山方舟49.2%/商汤大装置]
  D --> E[端侧推理方案
中科创达/瑞芯微-603893]
  C --> F[行业应用
智能座舱/工业质检/金融风控]
  E --> F
  F --> G[持续监控与MLOps
第四范式-6682/星环科技]

上游·模型与框架：开源模型（Llama、DeepSeek、Qwen等）成为推理底座，2025年中国超700个生成式AI服务完成算法备案；ONNX Runtime、PyTorch Serve提供基础推理框架。
中游·推理平台与服务：云推理市场高度集中，火山引擎方舟依靠字节跳动生态，2025H1份额49.2%，采用极低定价锁定开发者；商汤科技（0020.HK）大装置提供从压缩到部署的全套工具；硅基流动以“国产算力+开源模型”差异化切入，注册用户超900万。
中游·端侧部署方案商：中科创达（300496.SZ）深度绑定高通/ARM，智能座舱与IoT边缘设备市占率领先；瑞芯微（603893.SH）RK3588芯片内置6 TOPS NPU，为端侧大模型提供算力底座；地平线机器人（9660.HK）征程系列芯片专注自动驾驶与机器人端侧推理。
下游·行业应用与MLOps：第四范式（6682.HK）先知平台实现银行、零售行业AI部署全生命周期管理；星环科技（688031.SH）Sophon MLOps定位大数据与AI融合；全球方面，Databricks/MLflow月活用户超2000万，Weights & Biases成为ML实验追踪标准。

关键趋势：推理成本2024-2025年下降约90%，拉动AI应用普及；国产芯片适配从“可选项”变为“必选项”，具备国产软件栈能力的服务商将获得结构性溢价。当前节点，2026年5月，高通确认FY2027推理业务贡献数十亿美元收入，强化端侧推理赛道景气度。

重点公司

本土龙头

商汤科技（0020.HK）：商汤大装置（SenseCore）提供大规模模型训练与推理服务，涵盖模型压缩部署、推理加速和算力调度。市值约500亿港元（2026年2月），2024年总营收约38亿元，生成式AI业务营收同比增长超100%。
火山引擎/字节跳动（未上市，字节跳动体系）：方舟平台占中国大模型公有云市场49.2%份额（2025H1），采用激进定价策略（豆包模型"厘时代"）以极低推理成本抢占市场。字节跳动整体估值约3000亿美元。
中科创达（300496.SZ）：智能操作系统和嵌入式AI边缘部署，与高通、ARM深度合作。市值约240亿元（2026年2月），2024年营收约54亿元。智能座舱、IoT边缘设备场景市场优势。
浪潮信息（000977.SZ）：AI服务器和边缘计算硬件，AI服务器市场份额领先。市值约600亿元（2026年2月），2024年营收约750亿元。
第四范式（6682.HK）：企业级AI平台"先知"（Sage），覆盖AutoML、特征工程、模型训练、部署监控全链路MLOps。市值约250亿港元（2026年2月），2024年总营收约45亿元（同比+25%）。银行业AI应用领域市占率居前。

海外对标

NVIDIA TensorRT / TensorRT-LLM（NVDA.US）：GPU推理优化事实标准，TensorRT-LLM已成为主流云服务商部署大模型的首选推理框架。NVIDIA市值约3.3万亿美元。
vLLM（开源，UC Berkeley）：首创PagedAttention技术，GitHub 45,000+ Stars，已成为开源LLM推理引擎的事实标准。
Weights & Biases（未上市）：ML实验追踪和模型管理MLOps平台标杆，估值约13亿美元（2023年C轮），被OpenAI、NVIDIA、Meta等顶级AI团队广泛使用。累计融资约2.5亿美元。
MLflow/Databricks（未上市）：MLflow是全球下载量最大的开源MLOps框架，月活跃用户超2,000万。Databricks估值约620亿美元（2024年12月E轮），被广泛预期将于2025-2026年IPO。

未升格公司清单

留作行业全景参考，未单独建 note。出现重大催化时考虑升格。

硅基流动 SiliconFlow（未上市）：自研推理引擎+国产算力适配，估值约2亿美元+，注册用户超900万，率先推出基于国产算力的DeepSeek-R1/V3服务。美团为战略股东。
九章云极 DataCanvas（未上市）：国内MLOps头部创业公司，曾筹备科创板上市
星环科技（688031.SH）：大数据+Sophon MLOps平台，市值约70亿元
算能科技（未上市）：边缘AI芯片和模组（BM1684系列），智慧城市/交通场景
llama.cpp（开源）：CPU/消费级GPU上运行量化LLM的开源工具，端侧LLM部署事实标准

景气度判断

当前景气度（描述性） 信号源：

推理成本指数级下降，"推理普惠"成为产业主旋律。从2024年到2025年，主流大模型推理成本下降约90%。DeepSeek R1推理成本仅为OpenAI o1的1/10，火山引擎将豆包模型推理定价打入"厘时代"。推理成本暴降将极大降低AI应用的经济门槛，推动AI从"尝鲜"走向"规模化渗透"。

国产算力适配成为中国AI部署的刚性需求：硅基流动率先推出基于国产算力的DeepSeek-R1/V3服务，证实了国产算力部署大模型的商业可行性。在美国AI芯片出口管制持续升级背景下，国产芯片推理软件栈具有特殊战略价值。

风险提示

关键风险

推理成本持续暴降可能压缩独立推理服务商的利润空间，火山引擎等大厂以极低定价策略可能将独立服务商逼出市场

MLOps市场面临来自大型云平台（阿里云PAI、Azure ML Studio等）内置功能的竞争，独立MLOps工具的差异化空间收窄