深度强化学习实践(原书第2版) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线

深度强化学习实践(原书第2版)精美图片
》深度强化学习实践(原书第2版)电子书籍版权问题 请点击这里查看《

深度强化学习实践(原书第2版)书籍详细信息

  • ISBN:9787111687382
  • 作者:暂无作者
  • 出版社:暂无出版社
  • 出版时间:2021-08
  • 页数:634
  • 价格:146.00
  • 纸张:胶版纸
  • 装帧:平装-胶订
  • 开本:16开
  • 语言:未知
  • 丛书:暂无丛书
  • TAG:暂无
  • 豆瓣评分:暂无豆瓣评分
  • 豆瓣短评:点击查看
  • 豆瓣讨论:点击查看
  • 豆瓣目录:点击查看
  • 读书笔记:点击查看
  • 原文摘录:点击查看

寄语:

一本帮助你快速上手强化学习并开始实践的入门书,从理论与实践维度对强化学习进行全面解释和演示


内容简介:

本书理论与实践相结合,系统阐述强化学习的基础知识,以及如何动手编写智能体以执行一系列实际任务。通过阅读本书,读者将获得深层Q网络、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等主题领域的可行洞见,还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人,并通过一步步代码优化在短短30分钟的训练后解决Pong环境。此外,本书还专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、Microsoft的TextWorld环境、高级探索技术等。


书籍目录:

译者序

前言

作者简介

审校者简介

第1章 什么是强化学习1

1.1 机器学习分类2

1.1.1 监督学习2

1.1.2 非监督学习2

1.1.3 强化学习2

1.2 强化学习的复杂性4

1.3 强化学习的形式4

1.3.1 奖励5

1.3.2 智能体6

1.3.3 环境6

1.3.4 动作7

1.3.5 观察7

1.4 强化学习的理论基础9

1.4.1 马尔可夫决策过程9

1.4.2 策略17

1.5 总结18

第2章 OpenAI Gym19

2.1 剖析智能体19

2.2 硬件和软件要求21

2.3 OpenAI Gym API23

2.3.1 动作空间23

2.3.2 观察空间23

2.3.3 环境25

2.3.4 创建环境26

2.3.5 车摆系统28

2.4 随机CartPole智能体30

2.5 Gym的额外功能:包装器和监控器30

2.5.1 包装器31

2.5.2 监控器33

2.6 总结35

第3章 使用PyTorch进行深度学习36

3.1 张量36

3.1.1 创建张量37

3.1.2 零维张量39

3.1.3 张量操作39

3.1.4 GPU张量40

3.2 梯度41

3.3 NN构建块44

3.4 自定义层45

3.5 终黏合剂:损失函数和优化器47

3.5.1 损失函数48

3.5.2 优化器48

3.6 使用TensorBoard进行监控50

3.6.1 TensorBoard 10150

3.6.2 绘图52

3.7 示例:将GAN应用于Atari图像53

3.8 PyTorch Ignite57

3.9 总结61

第4章 交叉熵方法62

4.1 RL方法的分类62

4.2 交叉熵方法的实践63

4.3 交叉熵方法在CartPole中的应用65

4.4 交叉熵方法在FrozenLake中的应用72

4.5 交叉熵方法的理论背景78

4.6 总结79

第5章 表格学习和Bellman方程80

5.1 价值、状态和性80

5.2 Bellman方程82

5.3 动作的价值84

5.4 价值迭代法86

5.5 价值迭代实践87

5.6 Q-learning在FrozenLake中的应用92

5.7 总结94

第6章 深度Q-network95

6.1 现实的价值迭代95

6.2 表格Q-learning96

6.3 深度Q-learning100

6.3.1 与环境交互102

6.3.2 SGD优化102

6.3.3 步骤之间的相关性103

6.3.4 马尔可夫性质103

6.3.5 DQN训练的终形式103

6.4 DQN应用于Pong游戏104

6.4.1 包装器105

6.4.2 DQN模型109

6.4.3 训练110

6.4.4 运行和性能118

6.4.5 模型实战120

6.5 可以尝试的事情122

6.6 总结123

第7章 高级强化学习库124

7.1 为什么使用强化学习库124

7.2 PTAN库125

7.2.1 动作选择器126

7.2.2 智能体127

7.2.3 经验源131

7.2.4 经验回放缓冲区136

7.2.5 TargetNet类137

7.2.6 Ignite帮助类139

7.3 PTAN版本的CartPole解决方案139

7.4 其他强化学习库141

7.5 总结141

第8章 DQN扩展142

8.1 基础DQN143

8.1.1 通用库143

8.1.2 实现147

8.1.3 结果148

8.2 N步DQN150

8.2.1 实现152

8.2.2 结果152

8.3 Double DQN153

8.3.1 实现154

8.3.2 结果155

8.4 噪声网络156

8.4.1 实现157

8.4.2 结果159

8.5 带优先级的回放缓冲区160

8.5.1 实现161

8.5.2 结果164

8.6 Dueling DQN165

8.6.1 实现166

8.6.2 结果167

8.7 Categorical DQN168

8.7.1 实现171

8.7.2 结果175

8.8 组合所有方法178

8.9 总结180

8.10 参考文献180

第9章 加速强化学习训练的方法182

9.1 为什么速度很重要182

9.2 基线184

9.3 PyTorch中的计算图186

9.4 多个环境188

9.5 在不同进程中分别交互和训练190

9.6 调整包装器194

9.7 基准测试总结198

9.8 硬核CuLE199

9.9 总结199

9.10 参考文献199

第10章 使用强化学习进行股票交易200

10.1 交易200

10.2 数据201

10.3 问题陈述和关键决策202

10.4 交易环境203

10.5 模型210

10.6 训练代码211

10.7 结果211

10.7.1 前馈模型212

10.7.2 卷积模型217

10.8 可以尝试的事情218

10.9 总结219

第11章 策略梯度:一种替代方法220

11.1 价值与策略220

11.1.1 为什么需要策略221

11.1.2 策略表示221

11.1.3 策略梯度222

11.2 REINFORCE方法222

11.2.1 CartPole示例223

11.2.2 结果227

11.2.3 基于策略的方法与基于价值的方法228

11.3 REINFORCE的问题229

11.3.1 需要完整片段229

11.3.2 高梯度方差229

11.3.3 探索230

11.3.4 样本相关性230

11.4 用于CartPole的策略梯度方法230

11.4.1 实现231

11.4.2 结果233

11.5 用于Pong的策略梯度方法237

11.5.1 实现238

11.5.2 结果239

11.6 总结240

第12章 actor-critic方法241

12.1 减小方差241

12.2 CartPole的方差243

12.3 actor-critic246

12.4 在Pong中使用A2C247

12.5 在Pong中使用A2C的结果252

12.6 超参调优255

12.6.1 学习率255

12.6.2 熵的beta值256

12.6.3 环境数256

12.6.4 批大小257

12.7 总结257

第13章 A3C258

13.1 相关性和采样效率258

13.2 向A2C添加另一个A259

13.3 Python中的多重处理功能261

13.4 数据并行化的A3C262

13.4.1 实现262

13.4.2 结果267

13.5 梯度并行化的A3C269

13.5.1 实现269

13.5.2 结果273

13.6 总结274

第14章 使用强化学习训练聊天机器人275

14.1 聊天机器人概述275

14.2 训练聊天机器人276

14.3 深度NLP基础277

14.3.1 RNN277

14.3.2 词嵌入278

14.3.3 编码器–解码器架构279

14.4 seq2seq训练280

14.4.1 对数似然训练280

14.4.2 双语替换评测分数282

14.4.3 seq2seq中的强化学习282

14.4.4 自评序列训练283

14.5 聊天机器人示例284

14.5.1 示例的结构285

14.5.2 模块:cornell.py和data.py285

14.5.3 BLEU分数和utils.py286

14.5.4 模型287

14.6 数据集探索292

14.7 训练:交叉熵294

14.7.1 实现294

14.7.2 结果298

14.8 训练:SCST300

14.8.1 实现300

14.8.2 结果306

14.9 经过数据测试的模型309

14.10 Telegram机器人311

14.11 总结314

第15章 TextWorld环境315

15.1 文字冒险游戏315

15.2 环境318

15.2.1 安装318

15.2.2 游戏生成318

15.2.3 观察和动作空间320

15.2.4 额外的游戏信息322

15.3 基线DQN325

15.3.1 观察预处理326

15.3.2 embedding和编码器331

15.3.3 DQN模型和智能体333

15.3.4 训练代码335

15.3.5 训练结果335

15.4 命令生成模型340

15.4.1 实现341

15.4.2 预训练结果345

15.4.3 DQN训练代码346

15.4.4 DQN训练结果347

15.5 总结349

第16章 Web导航350

16.1 Web导航简介350

16.1.1 浏览器自动化和RL351

16.1.2 MiniWoB基准352

16.2 OpenAI Universe353

16.2.1 安装354

16.2.2 动作与观察354

16.2.3 创建环境355

16.2.4 MiniWoB的稳定性357

16.3 简单的单击方法357

16.3.1 网格动作358

16.3.2 示例概览359

16.3.3 模型359

16.3.4 训练代码360

16.3.5 启动容器364

16.3.6 训练过程366

16.3.7 检查学到的策略368

16.3.8 简单单击的问题369

16.4 人类演示371

16.4.1 录制人类演示371

16.4.2 录制的格式373

16.4.3 使用演示进行训练375

16.4.4 结果376

16.4.5 井字游戏问题380

16.5 添加文字描述383

16.5.1 实现383

16.5.2 结果387

16.6 可以尝试的事情390

16.7 总结391

第17章 连续动作空间392

17.1 为什么会有连续的空间392

17.1.1 动作空间393

17.1.2 环境393

17.2 A2C方法395

17.2.1 实现396

17.2.2 结果399

17.2.3 使用模型并录制视频401

17.3 确定性策略梯度401

17.3.1 探索402

17.3.2 实现403

17.3.3 结果407

17.3.4 视频录制409

17.4 分布的策略梯度409

17.4.1 架构410

17.4.2 实现410

17.4.3 结果414

17.4.4 视频录制415

17.5 可以尝试的事情415

17.6 总结416

第18章 机器人技术中的强化学习417

18.1 机器人与机器人学417

18.1.1 机器人的复杂性419

18.1.2 硬件概述420

18.1.3 平台421

18.1.4 传感器422

18.1.5 执行器423

18.1.6 框架424

18.2 个训练目标427

18.3 模拟器和模型428

18.3.1 模型定义文件429

18.3.2 机器人类432

18.4 DDPG训练和结果437

18.5 控制硬件440

18.5.1 MicroPython440

18.5.2 处理传感器443

18.5.3 驱动伺服器454

18.5.4 将模型转移至硬件上458

18.5.5 组合一切464

18.6 策略实验466

18.7 总结467

第19章 置信域:PPO、TRPO、ACKTR及SAC468

19.1 Roboschool469

19.2 A2C基线469

19.2.1 实现469

19.2.2 结果471

19.2.3 视频录制475

19.3 PPO475

19.3.1 实现476

19.3.2 结果479

19.4 TRPO480

19.4.1 实现481

19.4.2 结果482

19.5 ACKTR484

19.5.1 实现484

19.5.2 结果484

19.6 SAC485

19.6.1 实现486

19.6.2 结果488

19.7 总结490

第20章 强化学习中的黑盒优化491

20.1 黑盒方法491

20.2 进化策略492

20.2.1 将ES用在CartPole上493

20.2.2 将ES用在HalfCheetah上498

20.3 遗传算法503

20.3.1 将GA用在CartPole上504

20.3.2 GA优化506

20.3.3 将GA用在HalfCheetah上507

20.4 总结510

20.5 参考文献511

第21章 高级探索512

21.1 为什么探索很重要512

21.2 ε-greedy怎么了513

21.3 其他探索方式516

21.3.1 噪声网络516

21.3.2 基于计数的方法516

21.3.3 基于预测的方法517

21.4 MountainCar实验517

21.4.1 使用ε-greedy的DQN方法519

21.4.2 使用噪声网络的DQN方法520

21.4.3 使用状态计数的DQN方法522

21.4.4 近端策略优化方法525

21.4.5 使用噪声网络的PPO方法527

21.4.6 使用基于计数的探索的PPO方法529

21.4.7 使用网络蒸馏的PPO方法531

21.5 Atari实验533

21.5.1 使用ε -greedy的DQN方法534

21.5.2 经典的PPO方法535

21.5.3 使用网络蒸馏的PPO方法536

21.5.4 使用噪声网络的PPO方法537

21.6 总结538

21.7 参考文献539

第22章 超越无模型方法:想象力540

22.1 基于模型的方法540

22.1.1 基于模型与无模型540

22.1.2 基于模型的缺陷541

22.2 想象力增强型智能体542

22.2.1 EM543

22.2.2 展开策略544

22.2.3 展开编码器544

22.2.4 论文的结果544

22.3 将I2A用在Atari Breakout上545

22.3.1 基线A2C智能体545

22.3.2 EM训练546

22.3.3 想象力智能体548

22.4 实验结果553

22.4.1 基线智能体553

22.4.2 训练EM的权重555

22.4.3 训练I2A模型557

22.5 总结559

22.6 参考文献559

第23章 AlphaGo Zero560

23.1 棋盘游戏560

23.2 AlphaGo Zero方法561

23.2.1 总览561

23.2.2 MCTS562

23.2.3 自我对抗564

23.2.4 训练与评估564

23.3 四子连横棋机器人564

23.3.1 游戏模型565

23.3.2 实现MCTS567

23.3.3 模型571

23.3.4 训练573

23.3.5 测试与比较573

23.4 四子连横棋的结果574

23.5 总结576

23.6 参考文献576

第24章 离散优化中的强化学习577

24.1 强化学习的名声577

24.2 魔方和组合优化578

24.3 性与上帝的数字579

24.4 魔方求解的方法579

24.4.1 数据表示580

24.4.2 动作580

24.4.3 状态581

24.5 训练过程584

24.5.1 NN架构584

24.5.2 训练585

24.6 模型应用586

24.7 论文结果588

24.8 代码概览588

24.8.1 魔方环境589

24.8.2 训练593

24.8.3 搜索过程594

24.9 实验结果594

24.9.1 2×2魔方596

24.9.2 3×3魔方598

24.10 进一步改进和实验599

24.11 总结600

第25章 多智能体强化学习601

25.1 多智能体RL的说明601

25.1.1 通信形式602

25.1.2 强化学习方法602

25.2 MAgent环境602

25.2.1 安装602

25.2.2 概述603

25.2.3 随机环境603

25.3 老虎的深度Q-network608

25.4 老虎的合作612

25.5 同时训练老虎和鹿615

25.6 相同actor之间的战斗617

25.7 总结617


作者介绍:

马克西姆·拉潘(Maxim Lapan)

一位深度学习爱好者和独立研究者。他拥有15年软件开发和系统架构经验,涵盖从低级Linux内核驱动程序开发到性能优化以及在数千台服务器上工作的分布式应用程序设计的方方面面。他在大数据、机器学习以及大型并行分布式HPC和非HPC系统方面拥有丰富的工作经验,他能够使用简单的词汇和生动的示例来解释复杂的事物。他当前感兴趣的领域包括深度学习的实际应用,例如,深度自然语言处理和深度强化学习。

  

  林然

在2016年加入Thoughtworks之后,主要担任全栈软件开发工程师、TechLead、算法工程师等。在技术领域,他特别擅长全栈软件开发、端到端交付、面向对象设计、测试驱动开发、持续交付、领域驱动设计(DDD),熟悉整洁架构、微服务、DevOps、Scrum、Kanban、深度强化学习、Hadoop生态等技术和方法论。当前他在精进以重构、测试驱动开发和持续交付为核心的软件工程能力的基础上,正深耕于以领域驱动设计为代表的数字化架构能力、数据中台的架构能力以及以深度强化学习为代表的机器学习解决方案。同时,他曾参与翻译《Python机器学习手册》。

  

  王薇

北京邮电大学硕士,现任Thoughtworks数据分析师。有金融、通信、医疗、娱乐等不同行业的数据类项目经验,精通多种数据挖掘算法,擅长将算法与业务相结合进行数据挖掘和分析。


出版社信息:

暂无出版社相关信息,正在全力查找中!


书籍摘录:

译者序

我早于2018年接触强化学习这一令人兴奋的技术,在深入了解后,感觉打开了一扇新世界的大门。使用强化学习,我不仅可以享受编程的乐趣,也可以享受玩游戏的乐趣。同时,强化学习也在一定程度上给了我一些生活上的启示,从前的我是容易陷入“局部性”的人:我之前只要在食堂遇到一种喜欢吃的食物,就会天天吃,直到吃腻为止;回家的路,只会走那条熟悉的(即使可能有近路,但是害怕走错还是不会选择那条可能的近路)。强化学习对于探索的需求是很强烈的,对于未见过的观察,智能体必须要有强烈的探索欲望,经历过各种场景,终得到的策略才会更优。在探索强化学习的同时,我自身也更接纳“探索”了:多尝试以前没有吃过的菜,多探索几条新的回家的路。这种不需要后续步骤、可以立即得到确定性状态价值的探索非常高效,必须要好好利用。

在接触本书后,我发现,如果在啃Sutton的《强化学习(第2版)》前,能先好好学习一下本书,那该多么幸福!本书从理论和实践两个角度对强化学习进行了解释和演示,如果想快速上手强化学习并开始实践,那么本书就是目前的不二之选了。

由于译者水平有限,书中出现错误与不妥之处在所难免,恳请读者批评指正。如果有强化学习相关的问题想和译者进行探讨,可发邮件至boydfd@gmail.com。

后,感谢本书的策划编辑王春华的耐心和悉心指导。当然,还要感谢我的女朋友王薇,在她的支持和协助下,这本书才得以翻译完成,并呈现在大家面前。感谢每一位读者,你的潜心研习与融会贯通将会令本书更有价值。

林然   

2021年1月



原文赏析:

暂无原文赏析,正在全力查找中!


其它内容:

编辑推荐

面向实践——不仅涵盖经典的中小规模案例,还介绍了一些大型项目的实现。

易读易学——以先讨论方法的动机、理论基础及背后思想,再给出完整代码示例的方式,通过现实相关问题来描述RL方法,GitHub上会实时更新书中的所有代码示例。

初学者友好——基础理论讲解深入浅出,应用实例简洁易懂,源代码清晰、完整,便于读者上手实践。

侧重实际应用——每种方法都针对非常简单到非常复杂的情况进行了实现。

与时俱进——新增6章,专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、微软的TextWorld环境、高级探索技术等。


媒体评论

强化学习是一个令人兴奋的领域,它为新的可能性开辟了道路。Maxim Lapan写了一本关于强化学习的优秀指南,它不仅解释了这些概念,而且向我们展示了如何使用RL来开发我们自己的程序。

—— Marco Wiering博士,Groningen大学人工智能助理教授

 

 

我刚刚读完Maxim Lapan写的这本书。这本书写得非常好,内容丰富,发人深省,见解深刻。

—— Tristan Behrens博士,AI公会创始成员和独立深度学习实践顾问

 


前言

本书的主题是强化学习(Reinforcement Learning,RL),它是机器学习(Machine Learning,ML)的一个分支,强调如何解决在复杂环境中选择动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。

由于它的灵活性和通用性,RL领域在快速发展的同时,吸引了很多人的关注。其中,既包括试图改进现有方法或创造新方法的研究人员,也包括专注于用有效的方式解决问题的从业人员。

写本书的目的

写本书的目的是填补RL理论系统和实际应用之间的巨大空白。目前全世界有很多研究活动,基本上每天都有新的相关论文发表,并且有很多深度学习的会议,例如神经信息处理系统(Neural Information Processing Systems,NeurIPS)大会和国际学习表征会议(International Conference on Learning Representations,ICLR)。同时,有好几个大型研究组织致力于将RL应用于机器人、医学、多智能体系统等领域。

的相关研究资料虽然很容易获得,却都过于专业和抽象,难以理解。RL的实践落地则显得更为困难,因为将论文中由数学公式堆砌的大量抽象理论转换成解决实际问题的实现方式并不总是显而易见的。

这使得一些对该领域感兴趣的人很难理解隐含在论文或学术会议背后的方法与思想。虽然针对RL的各个方面有很多非常棒的博客用生动的例子来解释,但博客的形式限制让作者们只能阐述一两种方法,而不是构建一个完整的全景图来将不同的方法联系起来。本书就是为了解决这个问题而写的。

教学方法

本书的另一个关注点是实际应用。每个方法针对非常简单到非常复杂的情况都进行了实现。我试图让例子简洁易懂,PyTorch的易读与强大使之成为可能。另外,例子的复杂度是针对RL业余爱好者而设计的,不需要大量的计算资源,比如图形处理器(GPU)集群或很强大的工作站。我相信,这将使充满乐趣和令人兴奋的RL领域不仅限于研究小组或大型人工智能公司,还可以让更广泛的受众涉足。但毕竟本书有关内容还是“深度”RL,因此强烈建议大家使用GPU。

除了Atari游戏或连续控制问题等RL中一些经典的中等规模例子外,本书还有好几章(第10、14、15、16和18章)介绍大型项目,说明RL方法能应用到更复杂的环境和任务中。这些例子不是现实场景中的完整项目,但也足以说明,除了精心设计的基准测试外,RL能在更大的范围内应用。

本书从结构上看分为四个部分,其中第1~4章为部分,第5~10章为第二部分,第11~16为第三部分,第17~25章为第四部分。关于本书前三个部分的例子,值得注意的另一件事是我试图使它们成为独立的,会完整地显示所有代码。有时这会导致代码片段的重复(例如,大多数方法中的训练迭代都很相似),但是我认为,让大家学到想学的函数比刻意避免一些重复更重要,你可以自行跳转到需要的代码。本书中的所有例子都能在GitHub上找到,网址为https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition。欢迎你来获取、实验并贡献代码。

读者对象

本书面向已经有机器学习基础而想对RL领域进行实践的读者。阅读本书前,读者应该熟悉Python并且有一定的深度学习和机器学习基础。具有统计学和概率论知识会大有帮助,但对于理解本书的大部分内容都不是必要的。

本书内容

第1章介绍了RL的思想和模型。

第2章使用开源库Gym介绍了RL实践。

第3章概述了PyTorch库。

第4章用简单的RL方法对RL的方法和问题进行了初步介绍。

第5章介绍了基于价值的RL方法。

第6章描述了深度Q-network(DQN),是对基础的基于价值的方法的扩展,能解决复杂环境下的问题。

第7章描述了PTAN库,它可以简化RL方法的实现。

第8章详细介绍了DQN的扩展方法,以提升在复杂环境下的稳定性和收敛性。

第9章概述了使RL代码加速执行的办法。

第10章给出了个练习项目,重点是将DQN方法应用于股票交易。

第11章介绍了另一类RL方法,即基于策略学习的方法。

第12章描述了RL中使用非常广泛的方法之一。

第13章用并行环境交互的方式扩展了actor-critic方法,从而提高了稳定性和收敛性。

第14章给出了第二个项目,展示了如何将RL方法应用于自然语言处理问题。

第15章介绍了RL方法在文字冒险游戏中的应用。

第16章给出了另一个大项目,使用MiniWoB任务集将RL应用于Web导航。

第17章介绍了连续动作空间的环境特性以及各种方法。

第18章介绍了RL方法在机器人问题中的应用,描述了如何用RL方法来构建和训练小型机器人。

第19章仍是有关连续动作空间的章节,描述了一组置信域方法在其中的应用。

第20章展示了另一组不显式使用梯度的方法。

第21章介绍了能更好地进行环境探索的方法。

第22章介绍了RL的基于模型的方法,并使用了将想象力应用于RL的研究结果。

第23章描述了AlphaGo Zero方法并将其应用于四子连横棋游戏中。

第24章使用魔方作为环境,描述了RL方法在离散优化领域的应用。

第25章介绍了一个相对较新的RL方法应用方向,即在多智能体情境下的应用。

阅读指导

本书的所有章节都采用同样的结构来描述RL方法:首先讨论方法的动机、理论基础以及背后的思想;然后,给出几个不同环境下的带完整源代码的例子。

你可以通过不同的方式来阅读本书:

1. 若要快速熟悉某些方法,可以只阅读相关章节的简介部分。

2. 若要深入理解某个方法是如何实现的,可以阅读代码和相关注释。

3. 若要深度熟悉某个方法(我认为是好的学习方式),可以尝试借助提供的代码重新实现该方法并使之有效。

无论如何,我希望这本书对你有帮助!

下载示例代码及彩色图片

本书的示例代码及所有截图和样图,可以从http://www.packtpub.com通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。

本书的代码也托管在GitHub上(https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition)。如果代码有更新,GitHub上的代码会同步更新。本书所有彩色版屏幕截图/图表的PDF文件也可以从https://static.packt-cdn.com/downloads/ 9781838826994_ColorImages.pdf下载。

排版约定

文中的代码体:表示出现在文中的代码、数据库表名、目录名、文件名、文件扩展名、路径、用户输入、Twitter句柄。

代码块示例:

命令行输入或输出示例:

黑体:表示新的术语、重要的词或会在屏幕中显示的词(例如,菜单或对话框中的内容)。

表示警告或重要的提示。

表示提示和技巧。


书籍介绍

本书的主题是强化学习(Reinforcement Learning,RL),它是机器学习(Machine Learning,ML)的一个分支,强调如何解决在复杂环境中选择最优动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。


书籍真实打分

  • 故事情节:4分

  • 人物塑造:9分

  • 主题深度:7分

  • 文字风格:8分

  • 语言运用:6分

  • 文笔流畅:5分

  • 思想传递:6分

  • 知识深度:6分

  • 知识广度:9分

  • 实用性:5分

  • 章节划分:9分

  • 结构布局:6分

  • 新颖与独特:8分

  • 情感共鸣:4分

  • 引人入胜:7分

  • 现实相关:7分

  • 沉浸感:5分

  • 事实准确性:4分

  • 文化贡献:6分


网站评分

  • 书籍多样性:9分

  • 书籍信息完全性:7分

  • 网站更新速度:5分

  • 使用便利性:9分

  • 书籍清晰度:4分

  • 书籍格式兼容性:4分

  • 是否包含广告:7分

  • 加载速度:3分

  • 安全性:6分

  • 稳定性:6分

  • 搜索功能:3分

  • 下载便捷性:5分


下载点评

  • 小说多(461+)
  • pdf(506+)
  • 五星好评(61+)
  • 下载速度快(512+)
  • 无缺页(435+)
  • 无水印(554+)
  • 中评多(417+)
  • 藏书馆(382+)

下载评价

  • 网友 焦***山:

    不错。。。。。

  • 网友 潘***丽:

    这里能在线转化,直接选择一款就可以了,用他这个转很方便的

  • 网友 戈***玉:

    特别棒

  • 网友 习***蓉:

    品相完美

  • 网友 石***致:

    挺实用的,给个赞!希望越来越好,一直支持。

  • 网友 孙***美:

    加油!支持一下!不错,好用。大家可以去试一下哦

  • 网友 国***舒:

    中评,付点钱这里能找到就找到了,找不到别的地方也不一定能找到

  • 网友 印***文:

    我很喜欢这种风格样式。

  • 网友 汪***豪:

    太棒了,我想要azw3的都有呀!!!

  • 网友 居***南:

    请问,能在线转换格式吗?

  • 网友 龚***湄:

    差评,居然要收费!!!


随机推荐