很多人都知道python代码下的强化学习能够已经能打王者荣耀了，并且能完虐人类玩家，不了解的先来俩视频了解一下。

梦泪被AI击杀6次，KPL首次呈现“AI（人工智能）”VS“人类明星战队”比赛精华~

《王者荣耀》强化学习下的后裔AI演示~

如果有人在我身上投资几千万，我也想像腾讯一样。

王者荣耀AI打游戏

所以不仅仅在游戏领域，放眼全球应用强化学习的商业领域，感受强化学习的魅力。

Wayve 自动驾驶

自动驾驶汽车的方法历来涉及定义逻辑规则。这可能很难扩展到自动驾驶汽车在公共道路上可能遇到的无数情况。这就是深度强化学习可能有希望的地方。

Wayve是一家总部位于英国的公司，自 2018 年以来一直在公共道路上测试自动驾驶汽车。在他们的论文“一天中学习驾驶”中，他们描述了他们如何使用深度强化学习来训练使用单目图像作为输入的模型. 奖励是车辆在没有安全驾驶员控制的情况下行驶的距离。该模型在驾驶模拟中进行了训练，然后在现实世界中部署在 250 米长的路段上。

虽然他们的自动驾驶汽车技术不断发展，但他们声称强化学习继续在运动规划中发挥作用（确保目标点和目的地点之间存在可行的路径）。

个性化的 Netflix 推荐

Netflix 在 190 多个国家/地区拥有 2 亿用户。对于这些用户中的每一个，Netflix 旨在呈现最具娱乐性和相关性的视频。在Justin Basilico（Netflix 机器学习和推荐系统总监）的演讲“ Netflix 解释推荐和个性化”中，他描述了他们如何通过结合四种关键方法来实现这一目标：深度学习、因果关系、强盗和强化学习以及目标。
挑战在于训练一个模型来优化长期用户满意度，而不是即时满足。强化学习可以通过引入探索来提供帮助，让模型随着时间的推移了解新的兴趣。
Justin 指出，由于高维和大问题空间，强化学习在这种环境中应用具有挑战性。为了解决这个问题，该团队开发了Accordion——一个用于长期培训的模拟器。

优化沃尔玛的库存

沃尔玛是世界上最大的零售商和杂货商，拥有超过 4,650 家商店。沃尔玛必须不断转移未售出的库存，为新的和更畅销的商品腾出空间。转移不需要的库存的通常策略是实施降价。这是一项耗时且费力的工作，需要逐个商店多次重新标记打折商品。

为了降低运营成本，沃尔玛创建了一种算法来优化降价。该算法提取的数据包括销售数据、运营成本、物品的数量和类型，以及必须出售物品的动态时间范围。

该方法应用数据分析、强化学习和动态优化来为每个单独的产品做出自动化决策，并为每个商店量身定制。结果是降低了运营成本并增加了销售额，一些商店的待转移库存销售额提高了 15%。

使用 search.io 改进搜索引擎结果

Search.io是一个用于现场搜索查询的 AI 搜索引擎。他们使用“学习排名”和强化学习技术来改进他们的搜索排名算法。

Learn-to-rank 涉及使用在查询-结果对数据集上训练的机器学习模型，该数据集根据查询-结果对的相关性进行评分。这种技术的一个缺点是输入（查询-结果对分数）保持静态。
强化学习使用点击、销售、注册等形式的反馈来帮助改进搜索算法。在这种情况下应用强化学习的挑战在于，搜索结果的质量通常一开始就很低，而且它需要时间和数据才能开始满足客户的期望。

使用 OpenAI 的 WebGPT 改进语言模型

GPT-3 是一种用于生成类人文本的语言模型。这些语言模型的一个缺点是在执行需要模糊现实世界知识的任务时倾向于“产生幻觉”信息。为了改善这一点，OpenAI 教 GPT-3 使用基于文本的网络浏览器。该模型能够从网页中搜索和收集信息，并使用这些信息来组成开放式问题的答案。

该模型最初是使用人类演示进行训练的。从那里开始，通过训练奖励模型来预测人类偏好，提高了模型的有用性和准确性。然后使用强化学习或拒绝采样针对该奖励模型优化系统。结果是该系统被发现比 GPT-3 更“真实”。

使用 IBM 的 DSX 平台进行金融市场交易

由于货币风险高，金融业一直不愿应用机器学习。在本文中，IBM 描述了一个经过强化学习训练的交易系统。

在这种情况下，强化学习的优势在于能够学习做出预测，以解释算法行为对市场条件的任何影响。这个反馈循环允许算法随着时间的推移自动调整，不断使其更强大和更具适应性。奖金功能基于每笔交易的利润或损失。

该模型根据买入并持有策略和 ARIMA-GARCH（预测模型）进行了评估。他们发现该模型能够捕捉头肩图案，这是一项不平凡的壮举。

加州大学伯克利分校的机器人

为机器人开发控制器是一项具有挑战性的任务。

加州大学伯克利分校的一个团队试图通过使用强化学习训练一个真正的双足机器人来解决这个问题。该团队能够开发一个模型，从而对名为 Cassie 的机器人进行更加多样化和稳健的步行控制。

部署的模型能够在现实世界中执行各种行为，例如改变步行高度、快走、侧行和转弯。它对机器人本身的变化（例如部分损坏的电机）和环境的变化（例如地面摩擦力的变化和不同方向的推动）也具有鲁棒性。

总结

虽然强化学习的实际应用仍处于早期阶段，但我希望这份清单能突出该技术的潜力以及迄今为止所取得的令人兴奋的进展。谁知道随着数据收集、模拟、处理能力和研究的不断发展，我们在未来几年还会看到什么？

原文链接：https://blog.csdn.net/qq_20288327/article/details/123042396

强化学习应用《王者荣耀》完虐人类玩家外的7个现实世界的应用