首页 > 人工智能 >    正文

我的人工智能学习笔记

删除星 2019-08-06 15:49:09阅:82

作者:微信公众号(删除星),删除星人

回来了半个月,也拖了半个月,终于开始动笔写倒数第二篇文章了。对,这不是最后一篇,我临时决定讲完基本概念以后来讨论一下人工智能威胁论。之前看到了一个很具有代表性的知乎的文章,完全没有从技术实现角度来讨论,只是从人工智能分级和技术进步速度,我觉得这样是没有说服力的。但是今天废话不多说了,第三篇人工智能学习笔记,增强学习Reinforcement Learning。

试想如下情形,一个捡瓶子机器人放置在一个空旷的区域中,他的任务是拾取可回收的瓶子,机器人的电量用两种状态“高”和“低”来表示,同一时间机器人可以进行,找寻瓶子,等待,充电这三种行为,机器人的目标是在不用完电的情况下高效的拾取瓶子。这种情况下,我们如何通过之前讲到的神经网络和监督学习来完成这个任务呢?

事实上,通过神经网络和监督学习是基本完成不了这个任务的。当我们使用神经网络或者监督学习的时候,人工智能对环境全知,并且把过去所有的数据都输入到模型中,得到输出。可是在上述任务中,机器人对环境未知,并且机器人是在和环境接触的过程中不断决策,同时我们也不知道正确的结果是什么,我们只是要高效的捡瓶子。

所以这就轮到增强学习登场了,增强学习主要用于这种类似的任务。人工智能根据环境给出的反馈,学习应该进行什么行为。增强学习和环境的接触如下图所示

在我们的人工智能在时间t做出行为A后,造成了环境的改变和自身状态的改变。新的状态表示为St+1,对环境的改变使用奖励reward来描述,表示为Rt+1,然后这两个作为时间t+1的输入值输入给人工智能,人工智能再根据状态和奖励来决定下一步做什么。例如在捡瓶子机器人的例子中,电量状态是“低”的时候,执行其他操作的奖励可以设置为负数。这些对人工智能的奖励,人工智能的状态,人工智能可进行的行为,加上dynamics都是由人来设定的。Dynamics是什么呢,打个比方,我们在扔硬币的时候,朝上的概率是50%,朝下的概率也是50%,那么相同的行为A——扔硬币,产生了两个St+1和对应的奖励Rt+1,dynamics就是用来描述当前状态下采取某一行为得到一个St+1和Rt+1的概率。在扔硬币的例子中,dynamics就有两个等式,分别表示下一状态朝上概率是50%,和朝下概率是50%。正规的表达式如下图所示

这里等号上加一点代表define定义,前面的小写p代表dynamics,竖线后代表观察到的状态s和行为a,竖线前面代表下一状态s'和奖励r,那么它的dynamics被定义为观察到t-1的时候状态为s,采取行为a,在t时间状态为s'奖励为r的概率(Pr代表概率)。

而这四个设定,构成了增强学习的架构——Markov Decision Process马可夫决策过程。而在马可夫决策过程中,人工智能的任务可以很简单的定义为最大化你的奖励。改变人工智能的目标就是改变奖励机制。接下来要讲到的就是程序是如何做决策的。

在程序中有一组数不需要人为设定到特殊值的,他就是policy策略。人工智能根据策略值来进行决策。策略的表达如下图

通常这个值初始设置为1。有了一个基本的决策方法之后,我们就可以根据value function价值公式来决定采取什么行为了。价值公式有两种,state-value function和action-value function。分别是计算某一状态的价值是多少和某一行为的价值是多少。公式分别为

其中γ是人为设定值,为0到1之间的值,表示一种权重。在前面的sigma表达式中越往后迭代,reward的权重越小。这样就可以避免一个问题,就是我当前行为的奖励很少,但是我采取当前行为之后下一行为可以获得特别多的奖励,但是程序不会采取当前行为。当然因为有时间参与,未来的奖励到当前价值损耗,通过γ来模拟。(学ENG M 310的同学熟不熟悉)

另外现实情况不会计算到正无穷,我们通常会规定一个误差,如果多计算一次产生的修改小于这个误差值了,我们就停止再更新这一状态的价值。之前大火的AlphaGo就是会先选点,然后计算每个点的价值,然后决定下哪一步。

接下来聊聊学习的事,前面讲完了增强学习的设定,接下来该讲学习了。增强学习的学习过程就是一个更新我们policy策略的过程。通过修改policy的值来让奖励越来越多。那怎么才算是一个比当前策略更好的一个策略呢。比如说我们现在有策略π和策略π',如果根据π计算出来的每个状态的价值都不小于根据π’计算出来的状态价值,我们就说π是一个更好的策略。

知道了怎么确定一个策略是不是更好的,就到了提升策略的环节了。有一个简单粗暴的办法,叫greedy policy improvement。

π'是我们要找的那个最好的策略,这里他描述的当我们状态为s时采取各个行为的概率。但是这里面,在状态s下,采取的行为被简单粗暴的规定为——按照当前策略π能让action value最大的那个行为,也就是采取那个行为a的概率是1,其他都是0。这样我们就完成了一次policy improvement。实际操作中需要执行很多次这样的操作,先计算action value或state value,用上述方法更新策略,使用新策略重新计算action value或state value,再更新策略,直到更新的值小于认为规定的误差。

关于增强学习我就想讲这些,正常上的课后面还有蒙特卡洛预测,蒙特卡洛控制,Temporaldifference learning(也是增强学习的一种)等。但是作为科普文,讲出基本原理大概就够了,而且后面的内容更加难以理解和讲清楚。还有兴趣的可以参阅Richard Sutton的书《Reinforcement Learning: An Introduction》。我的公众号之前也有过一篇讲AlphaGo算法的文章,可以和这篇对照着阅读,但是AlphaGo的算法比简单的增强学习更复杂。

下一篇不知道什么时候更新了,毕竟写公众号这东西,不动笔就完全不想写,一开始写就停不下来了。关注一下公众号等更新吧~顺便求个转发,点个“在看”。

本文来自互联网,不代表OVZN立场。如若侵权请联系管理员。

文章评论

    共有条评论来说两句吧...

    用户名:



/

零售行业的新尝试>

最新快讯

AI机器人是智能还是“智障”,关键看3D传感这一点

2019-09-23

机器人,过去只存在于童年记忆的动画片里,如今正在从方方面面改变我们的生活方式。从商场酒店的迎宾机器人、智能家居的扫地机器人,再到现代化的工业机器人,以及军事、安防、运输

详情>>

Costa Coffee部署支持物联网的自动售货机,改变全球咖啡零售业的未来

2019-09-20

为了彻底改变世界咖啡的使用方式,提供优质饮料的Costa Coffee与总部位于英国的工业物联网连接专家Eseye宣布建立新的合作伙伴关系,这使得Costa Express能够在全球部署支持物联网的自动售货机。

详情>>

锡商银行获批筹建 欲打造"物联网银行"

2019-09-20

继5月江西裕民银行获批后,不到半年,民营银行队伍再添新成员。据红豆股份(600400.SH)9月17日公告,无锡锡商银行股份有限公司(以下简称"锡商银行")已获得《中国银保监会关于筹建

详情>>

物联网数据管理:好处、挑战和策略

2019-09-19

企业需要有效的物联网数据管理策略来优化和存储收集到的数据,并最大限度地发挥物联网的潜力。

详情>>

OPPO的65W闪充为何能碾压华为、vivo?

2019-09-19

作者:DoNews专栏 / maomaobear日前,OPPO在深圳召开了一场技术沟通会,在技术沟通会上,OPPO公布了自己的最新Vooc闪充技术。OPPO将对自家的Vooc闪充进行全面升级,10月10日发布的OPP

详情>>

推荐主题更多主题

24小时推荐