前不久，南大俞扬教授创办的公司编写了一本白皮书，总结了数据驱动强化学习在工业控制领域的应用经验，这项先进的人工智能技术已在化工、火电、水务等多个工业场景落地，这就证明强化学习智能决策可以实现“0试错”应用，实乃一大突破。

为什么说在工业领域的应用十分重要呢，首先是工业生产本身面临资源紧缺、能耗高、污染重、产品附加值低等问题，二则国家大力倡导各行各业数字化、智能化转型，三则工业领域的数字化、智能化转型是数字产业化的发展土壤。因此，人工智能技术在工业领域的落地必然受到关注。

下载地址：http://polixir.ai/white-papers/rl-control

数据驱动强化学习在实际业务场景中取得应用成效

《强化学习控制白皮书》中的数据驱动强化学习决策技术，与市场主流的监督学习和强化学习方式不同，能真正从数据中回答“怎么做”的问题。数据驱动强化学习突破了强化学习在应用过程中试错成本高、训练周期长等难题，迅速在实际业务中落地，解决传统工业控制中普遍面临的痛点，如：

（1）多个环节由人工把控，依赖经验知识，不精准、不稳定且响应速度慢；

（2）过程控制基于经典控制算法，难以满足大范围动态条件复杂系统的优化控制需求；

（3）系统运维缺乏数据支撑，故障难预警、风险不可控。

以上流程控制中的不足，常造成企业品质或产量不稳、生产线持续性不足、生产损耗过大、生产成本难以控制等方面的问题。

此处列举一个运用数据驱动强化学习决策技术提升水系统增压泵房控制精度的案例，更多关于高稳定策略、大滞后策略、全局策略的解决方案，见文末完整版白皮书：

增压泵房是给水系统中的重要组成部分，为城市供水管网提供所需的水量和压力，是整个供水系统中能耗组成的最大单元。传统人工控制靠操作人员经验，存在精度不足和非最优策略等问题，导致水量和能耗出现过高或过低等情况，影响供水系统的整体效率。人工控制的难点主要体现在：

（1）控制精度要求高：当水务集团下发出水流量指令时，操作人员依据调控经验，始终无法突破 1000 吨水的调度精度，使出水总量波动大。

（2）多个设备存在差异：由于不同水泵的品牌和传感器老化程度不同，导致各水泵配水电耗和供给流量能力不同，人工难以精准感知，难以给出最优泵频组合。

实施过程：

第一步-根据增压泵房业务逻辑，在 Polixir REVIVE 中为每个水泵构建决策流图。

第二步-基于过去一年的泵频控制历史数据和决策流图，对每个水泵进行虚拟水泵控制环境构建。

第三步-根据目标流量、调节池水位和管网状态，在虚拟水泵控制环境中学习优化泵频控制策略。

第四步-控制策略线下验证。

POLIXIR REVIVE

此数据驱动强化学习工具打破了经典强化学习技术无法突破封闭环境的屏障，为技术人员提供一个训练环境模型（模拟器）和决策模型（模拟器）的工具，不用通过实时与现实环境交互的过程中试错，而是使用历史数据找到“决策最优解”后再用于现实。

市场上还有一中叫MPC（Model Predictive Control）的控制技术，它由两部分组成：系统模型用于预测未来状态，优化器用于基于未来状态求解最优控制。与 MPC 相似，REVIVE 强化学习控制首先学习虚拟环境模型（即系统模型），并基于虚拟环境求解最优控制策略。两者在结构上相似，但技术路线的不同带来诸多关键差异。

云边系统架构

基于REVIVE 得到的控制模型可载入到「ReinOptima 睿优」工业边缘控制器进行部署实施，另外 ReinOptima 还可同时加载 REVIVE 产生的虚拟环境模型，从而具备预测性维护的功能。

REVIVE 工业软件和 ReinOptima 工业边缘控制器通过云边协同架构可实现联动，当 ReinOptima 的预测性维护模块识别出系统发生偏移时，自动将 ReinOptima中的历史数据传到 REVIVE 系统，从而更新虚拟环境模型和控制策略，实现对环境变化的自动适应和持续的自我进化。

可进入下载链接：http://polixir.ai/white-papers/rl-control ，获得《强化学习控制白皮书》原文件。

关于人工智能强化学习在实际工业控制中的应用落地，有了白皮书

智能决策 2022-08-12 16:13

数据驱动强化学习在实际业务场景中取得应用成效