构建制造企业的大模型(LLM)平台,不能照搬互联网或金融行业的模式。制造企业有着极强的物理世界属性(如设备、工艺参数、供应链、安全红线),且数据往往碎片化、存在于不同的工业软件(ERP, MES, PLM)和设备传感器中。
因此,制造企业的大模型平台构建,本质上是“通用大模型大脑 + 工业知识库 + 工业软件/设备接口”的深度集成。
以下是构建制造企业大模型平台的完整架构与实施指南:
一、 制造企业大模型平台的总体架构
一个具备工业落地能力的平台,通常分为以下四个层级:
1. 数据基础设施层(工业数据底座)
这是平台的“燃料”。制造企业的数据分为三类:
结构化数据:ERP(物料、财务)、MES(生产排程、工时)、PLM(工艺路线、BOM)。
非结构化数据(最核心):设备维修手册、工艺标准文档、国家/行业安全标准、历史故障案例、质检图片。
时序数据:SCADA/IoT 平台采集的设备振动、温度、压力等实时数据。
2. 模型与算力层(MaaS - 模型即服务)
基座模型:考虑到数据隐私(如核心工艺配方),制造企业通常选择私有化部署开源大模型(如 Llama 3、Qwen 2.5 等)。
微调与强化:使用工业领域的术语、行业标准、特有缩写对基座模型进行LoRA 轻量化微调,使其听得懂“工业行话”。
3. 能力中间件层(Agent & Harness 工程)
这一层是连接大模型与工厂实际业务的桥梁:
RAG(检索增强生成)引擎:将数万页的设备手册、工艺文件转化为向量存储(如 Milvus),让大模型能够“查字典”回答问题,杜绝幻觉。
工业 API 调度器(Tooling):让大模型能够调用 MES、ERP 的接口。例如,用户说“帮我查一下 A01 设备的备件库存”,大模型自动将其转化为 API 请求并查询 ERP。
安全与合规网关:确保模型的输出不会违反安全生产条例,敏感数据(如军工或核心配方)不会越权泄露。
4. 场景应用层(落地场景)
生产辅助:工艺配方优化建议、排程方案智能调整。
设备运维:故障诊断专家、设备维护常备知识库。
企业运营:供应链风险分析、智能报表生成、Chat-BI。
二、 核心构建步骤:从 0 到 1 落地
步骤 1:明确“高价值、低风险”的切入场景
不要试图一开始就让大模型去直接控制流水线(风险极高)。建议遵循“先文后武、先人后物”的原则:
第一阶段(知识型):建立“设备维修专家系统”或“工艺文档查询助手”。解决老师傅经验带不走、新员工查阅手册慢的痛点。
第二阶段(分析型):接入时序数据和 ERP 数据,做供应链瓶颈分析、生产看板智能问答。
第三阶段(控制型 - 远期):结合工业 Agent,实现复杂工艺参数的推荐与联动调整。
步骤 2:搭建企业工业知识库(RAG 落地)
制造企业最容易见效、门槛最低的方法是 RAG。
数据清洗:把 PDF 格式的设备手册、Word 格式的工艺标准进行清洗,去除表格错位、乱码。
文本切块(Chunking):针对工业文档特点,按章节、步骤或“故障现象-原因-对策”的结构进行智能切块。
向量化与存储:存入向量数据库。
评测优化:确保工人输入“高温报警怎么处理”时,系统能精准定位到对应设备的具体章节。
步骤 3:工具集成与 Agent 架构设计(Harness 驾驭)
为了让平台具备“行动力”,必须实施 Harness Engineering:
统一接口:使用诸如 MCP(Model Context Protocol)或企业内部 API 网关,将 MES/ERP/WMS 的查询和写入功能封装为大模型可识别的 Tools。
人类确认(Human-in-the-Loop):严格红线!大模型生成的任何排产指令、采购单审批或设备参数修改建议,平台必须强制挂起,由人工点击“确认”后方可下发给工业系统执行。
步骤 4:私有化算力与模型部署
算力评估:如果只是做知识库和简单的 Agent 调度,私有化部署 2-3 台配有消费级或企业级显卡(如 H20, 4090 或国产算力芯片)的服务器,运行 14B 到 72B 参数的模型即可满足中大型工厂的日常并发需求。
安全隔离:平台必须部署在企业内网(OT网/厂区局域网隔离区),严禁生产数据流向公网。
三、 制造企业大模型平台的避坑指南
不要盲目追求“全自研微调”:微调(Fine-tuning)成本高且容易导致模型遗忘通用能力。制造企业80% 的场景应该优先用 RAG(外挂知识库)和 Agent(工具调用)来解决,只有在极度依赖特定行业术语的自然语言理解时才考虑微调。
数据质量是生死线:工业大模型平台好不好用,取决于你的工艺文档、故障记录写得全不全、准不准。如果历史维修记录全写着“设备坏了,已修好”,大模型神仙难救。
严格区分 IT 与 OT:大模型属于 IT(信息技术)范畴,允许有一定的容错率(如换种表达);但工厂生产是 OT(操作技术)范畴,讲究 0 容错和实时性。绝不能让大模型直接参与毫米级、毫秒级的闭环控制。