摘要:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F28b76de07826451e84e9063d28a8cdd5\" img_width=\"692\" img_height=\"669\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E首先,你需要去了解强化学习,这里简明扼要地介绍了RL代理获取情景状态,选择一个行动影响环境,观察新的情景,重复步骤。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fb8c940fd46f041bf8f5ebec4f79bef32\" img_width=\"692\" img_height=\"301\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E图片来源: Jeff Dean在谷歌 I\u002FO 2019的演讲\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这是一个巨大的进步,因为它允许我们使用re: MARS上引人瞩目的强化学习来解决新的各种问题。

"\u003Cdiv\u003E\u003Cblockquote\u003E全文共\u003Cstrong\u003E2359\u003C\u002Fstrong\u003E字,预计学习时长\u003Cstrong\u003E5\u003C\u002Fstrong\u003E分钟\u003C\u002Fblockquote\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Ff020e0aff42440909d1c7637882190e7\" img_width=\"1080\" img_height=\"719\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E图片来源:pexels.com\u002F@pixabay\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E最近,拉斯维加斯举行了AWSre: MARS大会,会议的主题是机器学习、自动化和机器人技术(包括太空中的)将如何改变未来。很多人的关注点都放到了小罗伯特·唐尼身上,但其实,几乎每一个主题演讲会议上都出现的模拟和强化学习才是最瞩目的:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E第一天:通过强化学习,Boston Dynamics公司的机器人已经掌握了后空翻、跳上窗台和托举的数据。而\u003Cspan\u003E迪斯尼\u003C\u002Fspan\u003E幻想工程已经把这一点带到了一个新的层面——让人形机器人来执行玩命的特技。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E第二天:亚马逊通过模拟在Go商店中的困难场景来训练模型机。亚马逊配送中心的机器人在接受过强化学习的培训后还可以对包裹进行分类。Alexa使用模拟交互自动学习对话流。亚马逊无人机快递使用模拟数据来训练如何检测无人机下方的人。而像Insitro这样的公司已经开始通过生成生物交互数据来解决生物医学问题。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Ff50959f186f14ae9aafc1ff8fb02ced4\" img_width=\"389\" img_height=\"476\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E第三天:吴恩达呼吁元学习。成百上千的不同的模拟器被用来建立更通用的强化学习代理,这可以说是AI的“下一件大事”。自动驾驶汽车公司Zoox和Aurora就在利用RL和元学习以解决城市环境中驾驶的复杂性的问题。而Dexnet试图通过模拟建造一个庞大的3D模型数据库,以更好的掌握问题所在。Jeff Bezos对Daphne Koller关于RL生物工程将在10年内发展壮大的观点表示赞同。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E总而言之:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E如若一个领域的相关事务可以被准确地模拟,强化学习将能够在未来的几年急剧地抬升此领域的技术水平。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E那么又关物理什么事呢?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E一个4岁的孩子,进入了人生中的“为什么”阶段,这个时候她的大脑开始从简单的认知事物转移成了想要理解这个世界的所有东西。这就是大人和孩子之间典型的交流:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fb4944df379ce4dc48449571514526885\" img_width=\"692\" img_height=\"555\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E绘制使用http:\u002F\u002Fcmx.io\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E那这些又和数据科学有什么关系呢?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003EJeff Dean在今年谷歌I\u002FO会议上发表关于深度学习的演讲时提到,神经网络已经被训练得近似物理模拟器所能生成的结果,并且速度是物理模拟器的30万倍,也就是说,研究人员甚至可能一顿午餐的时间就测试了100M的分子。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fb8c940fd46f041bf8f5ebec4f79bef32\" img_width=\"692\" img_height=\"301\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E图片来源: Jeff Dean在谷歌 I\u002FO 2019的演讲\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这是一个巨大的进步,因为它允许我们使用re: MARS上引人瞩目的强化学习来解决新的各种问题。在这些进步之前,为每个潜在的结果完整运行一个物理模拟器所需的循环时间太长,以至于RL很难达成一个有回报的结果。但现在,RL可以学习分子的物理特性,从而优化化学工程师的预期收获。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fa6dada745f384d05a0b1f869b50d7e19\" img_width=\"692\" img_height=\"304\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E图片来源:https:\u002F\u002Fxkcd.com\u002F435\u002F\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E鉴于一切都可以被简化为物理学,我们甚至可以想象一个能以最基础的原理建立更多方案的世界。在这个会议之前,很多人都以为模拟生物学相关的研究是遥不可及的,但事实上,Insitro这样的公司已经着手应对这些问题。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E那时RL将可用于“更高级别的”科学,如心理学:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E \u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E1. 原始计算能力:谷歌发布了T3 TPU Pods的私有数据,拥有超过100的每秒浮点运算次数的处理能力,为运行神经网络训练构架而造。拥有这样的计算能力后,像材质分析这类的任务就变得十分易学。另外,谷歌开始使用RL设计他们自己的芯片,随着时间的推移也预期能够带来更多的进展。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E2. 更优良的可重用性:DeepMind被用于多层网络构架中,而RL负责根据任务需要选择合适的下游网络。这类的RL代理通过训练就可以把高难的任务通过分解的方式简单化,并运用迁移学习解决多任务。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E3. 更好的归纳:上述的元学习技术正被用于提高RL代理应对未遇到过的情景的能力。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E4. 更好的优化:麻省理工学院的彩票假设论文展示了神经网络可以通过寻找“优胜票”的路径来进行进一步压缩,随后仅使用这些路径来进行训练。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E5. 更好的训练数据生成:类似AutoCad的生成设计的界面可以帮助设计师\u002F工程师找到所需的规格,以使RL代理正确运行。每次新的人接管时,自动驾驶汽车公司都会生成新的训练情景。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E你又该做些什么呢?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F28b76de07826451e84e9063d28a8cdd5\" img_width=\"692\" img_height=\"669\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E首先,你需要去了解强化学习,这里简明扼要地介绍了RL代理获取情景状态,选择一个行动影响环境,观察新的情景,重复步骤。如果行动得到了积极的结果,代理得到奖励,它就倾向于在将来类似的情景中给出相同的一系列动作。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这些步骤被大量重复,最终,它变得十分擅长获得奖励(我们也为此训练它)。丰富经验的最好办法就是使用AWS Deep Racer,这是一个可以提供模拟环境的缩小版的赛车、一个RL训练装置,以及一块与模拟相对应的物理硬件。你只需要调控奖励机制来训练你的赛车代理。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F9db0e671a2164f138cbbbf284d59afd3\" img_width=\"692\" img_height=\"253\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E其次,你需要积极寻找可以更好模拟业务系统的方法。任何现有的模拟器都是很好的起点,但更新的模拟器更可能带来显著的影响。AWS在这类领域中提供名为“RoboMaker”的服务,但还有许多其他的备选方案,而其中大多数都基于开放式API Gym。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E最后,应当密切关注那些驾驭这股技术潮流的新公司。很可能最终会发展出一系列互相构建的开放资源模拟器,附带压缩每层可学习的信息的神经网络。在此之前,有众多领域可能会有许多专有的解决方案超越当前最先进的水平。随着时间推移,这项技术终将给以科学为基础的领域带来可观的收益,例如药物、材料科学、医学、石油与天然气,及各种各样的其他领域。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd540f5f52b0e45edaa8fda2a0be51db6\" img_width=\"720\" img_height=\"80\" alt=\"AI强化学习正渗入“更高级学科”,比如心理学\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E留言 点赞 关注\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E我们一起分享AI学习与发展的干货\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E欢迎关注全平台AI垂类自媒体 “读芯术”\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"tt-community-card\" data-content='{\"media_name\": \"\\\\u8bfb\\\\u82af\\\\u672f\", \"member_count\": \"81\", \"title\": \"\\\\u4eba\\\\u5de5\\\\u667a\\\\u80fd\\\\u5708\", \"price\": \"0\", \"community_id\": \"6688269352686322184\", \"square_cover\": \"fe4300004fe7fc857042\", \"share_price\": \"0\", \"media_id\": \"1591450975624205\", \"renew_price\": \"0\"}'\u003E\u003C\u002Fdiv\u003E\u003C\u002Fdiv\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6715598749411836428
相关文章