文献：Liu R , Piplani R , Toro C . Deep reinforcement learning for dynamic scheduling of a flexible job shop[J].（2022）

https://doi.org/10.1080/00207543.2022.2058432https://doi.org/10.1080/00207543.2022.2058432

杂志：International Journal of Production Research

1.Introduction

制造系统的动态事件；实时数据采集与分析；个性化生产

贡献：分布式和分层级的DRL方法求解最小化拖期的DFJSP（作业持续到达）

2.Literature review

Traditional approaches

（1）优先规则：no single priority rule provides strictly stronger performance along all objectives in all scenarios；composite priority rules’ performance is usually better than their building blocks

（2）元启发式：objectives such as flow time, makespan and tardiness, robustness；hybrid approaches to reduce the decisional latency of meta-heuristics

Recent data-driven approaches

（1）传统方法面临效率和质量矛盾的困境；优先规则效率高质量差；元启发式质量好效率低

（2）使用Genetic Programming (GP)创建复合调度规则，充分考虑决策点的实时信息；对于FJSP问题，GP分别给出机器选择和作业顺序的规则

（3）监督学习与元启发式算法的结合，如ML学习参数

Reinforcement learning-based scheduling

（1）表格型RL

（2）DRL

3.Problem formulation

3.1Notations

本文不考虑机器组装时间

SA作业顺序

RA选择机器

作业（Jobs）： $J=\left \{ J_i:i=1....n \right \}$ n个作业
机器（Machines）： $W=\left \{ W_l:l=1....w \right \}$ w个工作中心，每个工作中心有多台机器 $W_l=\left \{ M_a...M_z \right \}$
序列和操作（Sequence and operations）：作业 $J_i$ 有 $n_i$

加工时间（Processing time）： $t_{i,k}$ 是作业 $J_i$ 在机器 $M_k$ 上的加工时间， $t_{i}^{j}$ 是操作 $O_{i}^{j}$ 的平均加工时间。 $PT_{J_i}=\left \{ t_{i}^{j} :j=1....n_i\right \}$ 是作业 $J_i$ 所有操作的平均加工时间集

机器队列和可用时间（Queue and available time of machine）

TTD，剩余加工时间和松弛时间（Time-till-due (TTD), remaining processing time and slack time）

性能指标（Measurement of performance）

3.2Validation scenario and objective

有三个因素影响生产性能：（1）作业到达率：较高的到达率导致更高的机器利用率和更高
系统拥塞（2）作业和机器的不同步：作业因在不同的机器上的处理时间和本身的交货紧急程度而不同，此外，一旦开始生成，作业的剩余操作、空闲时间和TTD都会随时间变化。机器的负载率和可用性也会变化（3）交货紧急度：宽松作业的TTD会导致较低的总延迟和平均延迟，因为作业有更多的空闲时间(平均)来缓解拥堵的负面影响。此外，如果系统中的作业紧急性变化，调度中心也能利用松弛时间调整顺序来保护更关键的作业。

本文设置三个训练和验证的场景：

预期到达率和利用率（Expected arrival rate/ utilisation rate）：调整作业到达率使其匹配系统的预期利用率。 $E(t)$ 是所有机器上的所有操作的预期加工时间。 $E(interval)$ 作业预期到达的时间间隔。假设m台机器均匀分布在w个工作中心上，系统的预期使用率为：

假设随机变量X为作业到达时间间隔，服从泊松分布 $X\sim Exp(\beta ),\beta =E(interval)$

加工时间异质性（Heterogeneity of processing time）：作业在机器上的加工时间服从均匀分布，U[low,high]，本文考虑两种情况（1）高异质性：U[5,25]（2）低异质性：U[10,20]
交货期紧急程度（Due date tightness）：比值 $a_i$ 表示作业的交货紧急程度，本文考虑两种场景（1）高Due date tightness： $a_i\sim U[1,2]$ （2）低Due date tightness： $a_i\sim U[1,3]$

4. Proposed approach

4.1 DRL Preliminaries

DDQN作为系统中两类智能体的学习器（1）与每个工作中心关联的RA在作业到达时会进行机器选择（2）与每台机器关联的SA会在机器怠速并且队列中有作业时选择一个作业进行加工。

4.2 State representation

RA的状态空间包括三个：（1）工作中心内的机器信息（2）将被分配的作业信息（3）将要到达的作业信息。RA的状态空间大小为 $\left | W_l \right |\times 3+3$

SA的状态空间：25个特征值根据类型和大小分成6个通道

4.3 Action representation

选择四个序列规则作为动作空间的构件实现间接的作业选择：

最短加工时间（Shortest Processing Time (SPT)）：选择即将进行的操作加工时间最短的作业
队列工作（Work in Queue (WINQ)）：选择在后续生产阶段中排队作业的总加工时间和最小的作业。WINQ倾向于平衡系统作业分布
关键比值（Critical Ratio (CR)）：CR是TTD和剩余加工时间的比值，选择最小CR的作业，CR优势在于其不一致性。当可选作业还未延期时，CR规则会选择小TTD和更长的剩余加工时间的作业；当可选作业已经延期，CR规则会选择最小TTD和最短剩余加工时间的作业
最小松弛时间（Minimum Slack (MS)）：选择最小松弛的作业