JobSchedule

Implementation of paper "Research on Adaptive Job Shop Scheduling Problems Based on Dueling Double DQN" (论文复现)

运行

依赖安装

pip3 install -r requirements.txt

训练

python3 run_ddqn.py --output=../output_jobshop --dueling

测试

python3 run_ddqn.py --output=../output_jobshop --dueling --test

测试并生成图片

python3 run_ddqn.py --output=../output_jobshop --dueling --test --render --mode=img

论文中一些解释含糊地方的个人解释

Observation

该observation由3个channel组成, 包含: Processing time, Scheduling finish, 和 Machine Utilization. 三者的行表示 job，列表示 operation (有的文章也叫 task). 结合图5和图11来看:

Processing time: 初始化为每个operation所需的执行时长, 运行过程中, 取哪个operation出来, 就将位置的值置为0
Scheduling finish: 该任务执行完成时的时刻, 赋值时需要判断该operation前一个完成时间和该operation对应机器完成时间哪个比较长，取长的那个
Machine Utilization: 记录每个机器的利用率，注意这里为每个cell赋值时，值为该operation对应的机器的当前时间，而不是该operation之前的完成时刻

Reward

reward = 当前已完成所有operation的操作时间和/(机器数量*当前makespan)

一些疑问

第10页中指的已知最佳策略 $\pi^{best}$ 是什么?
第12页中 100*20 和 84*84 分别是什么意思?
训练时是不是只用一个instance (比如ft06,la16等) 一直训?
个人觉得，作者这里根据输入的大小会调整网络结构，不然比如ft06这个数据是无法使用图8所示的最佳网络结构的。虽然作者也从没给出任何一个详细完整的网络结构。

案例 la16 的训练过程展示

测试时最低makespan可得到1040左右 (似乎比论文中展示的效果还要好些)

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
data		data
env		env
model		model
only_for_show		only_for_show
pf_helper		pf_helper
pfrl		pfrl
util		util
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
run_ddqn.py		run_ddqn.py
run_ddqn_category.py		run_ddqn_category.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JobSchedule

运行

论文中一些解释含糊地方的个人解释

Observation

Reward

一些疑问

案例 la16 的训练过程展示

About

Releases

Packages

Languages

License

weixians/JobSchedule

Folders and files

Latest commit

History

Repository files navigation

JobSchedule

运行

论文中一些解释含糊地方的个人解释

Observation

Reward

一些疑问

案例 la16 的训练过程展示

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages