首页 > 人工智能 >    正文

我的人工智能学习笔记

删除星 2019-08-06 15:49:09阅:132

作者:微信公众号(删除星),删除星人

回来了半个月,也拖了半个月,终于开始动笔写倒数第二篇文章了。对,这不是最后一篇,我临时决定讲完基本概念以后来讨论一下人工智能威胁论。之前看到了一个很具有代表性的知乎的文章,完全没有从技术实现角度来讨论,只是从人工智能分级和技术进步速度,我觉得这样是没有说服力的。但是今天废话不多说了,第三篇人工智能学习笔记,增强学习Reinforcement Learning。

试想如下情形,一个捡瓶子机器人放置在一个空旷的区域中,他的任务是拾取可回收的瓶子,机器人的电量用两种状态“高”和“低”来表示,同一时间机器人可以进行,找寻瓶子,等待,充电这三种行为,机器人的目标是在不用完电的情况下高效的拾取瓶子。这种情况下,我们如何通过之前讲到的神经网络和监督学习来完成这个任务呢?

事实上,通过神经网络和监督学习是基本完成不了这个任务的。当我们使用神经网络或者监督学习的时候,人工智能对环境全知,并且把过去所有的数据都输入到模型中,得到输出。可是在上述任务中,机器人对环境未知,并且机器人是在和环境接触的过程中不断决策,同时我们也不知道正确的结果是什么,我们只是要高效的捡瓶子。

所以这就轮到增强学习登场了,增强学习主要用于这种类似的任务。人工智能根据环境给出的反馈,学习应该进行什么行为。增强学习和环境的接触如下图所示

在我们的人工智能在时间t做出行为A后,造成了环境的改变和自身状态的改变。新的状态表示为St+1,对环境的改变使用奖励reward来描述,表示为Rt+1,然后这两个作为时间t+1的输入值输入给人工智能,人工智能再根据状态和奖励来决定下一步做什么。例如在捡瓶子机器人的例子中,电量状态是“低”的时候,执行其他操作的奖励可以设置为负数。这些对人工智能的奖励,人工智能的状态,人工智能可进行的行为,加上dynamics都是由人来设定的。Dynamics是什么呢,打个比方,我们在扔硬币的时候,朝上的概率是50%,朝下的概率也是50%,那么相同的行为A——扔硬币,产生了两个St+1和对应的奖励Rt+1,dynamics就是用来描述当前状态下采取某一行为得到一个St+1和Rt+1的概率。在扔硬币的例子中,dynamics就有两个等式,分别表示下一状态朝上概率是50%,和朝下概率是50%。正规的表达式如下图所示

这里等号上加一点代表define定义,前面的小写p代表dynamics,竖线后代表观察到的状态s和行为a,竖线前面代表下一状态s'和奖励r,那么它的dynamics被定义为观察到t-1的时候状态为s,采取行为a,在t时间状态为s'奖励为r的概率(Pr代表概率)。

而这四个设定,构成了增强学习的架构——Markov Decision Process马可夫决策过程。而在马可夫决策过程中,人工智能的任务可以很简单的定义为最大化你的奖励。改变人工智能的目标就是改变奖励机制。接下来要讲到的就是程序是如何做决策的。

在程序中有一组数不需要人为设定到特殊值的,他就是policy策略。人工智能根据策略值来进行决策。策略的表达如下图

通常这个值初始设置为1。有了一个基本的决策方法之后,我们就可以根据value function价值公式来决定采取什么行为了。价值公式有两种,state-value function和action-value function。分别是计算某一状态的价值是多少和某一行为的价值是多少。公式分别为

其中γ是人为设定值,为0到1之间的值,表示一种权重。在前面的sigma表达式中越往后迭代,reward的权重越小。这样就可以避免一个问题,就是我当前行为的奖励很少,但是我采取当前行为之后下一行为可以获得特别多的奖励,但是程序不会采取当前行为。当然因为有时间参与,未来的奖励到当前价值损耗,通过γ来模拟。(学ENG M 310的同学熟不熟悉)

另外现实情况不会计算到正无穷,我们通常会规定一个误差,如果多计算一次产生的修改小于这个误差值了,我们就停止再更新这一状态的价值。之前大火的AlphaGo就是会先选点,然后计算每个点的价值,然后决定下哪一步。

接下来聊聊学习的事,前面讲完了增强学习的设定,接下来该讲学习了。增强学习的学习过程就是一个更新我们policy策略的过程。通过修改policy的值来让奖励越来越多。那怎么才算是一个比当前策略更好的一个策略呢。比如说我们现在有策略π和策略π',如果根据π计算出来的每个状态的价值都不小于根据π’计算出来的状态价值,我们就说π是一个更好的策略。

知道了怎么确定一个策略是不是更好的,就到了提升策略的环节了。有一个简单粗暴的办法,叫greedy policy improvement。

π'是我们要找的那个最好的策略,这里他描述的当我们状态为s时采取各个行为的概率。但是这里面,在状态s下,采取的行为被简单粗暴的规定为——按照当前策略π能让action value最大的那个行为,也就是采取那个行为a的概率是1,其他都是0。这样我们就完成了一次policy improvement。实际操作中需要执行很多次这样的操作,先计算action value或state value,用上述方法更新策略,使用新策略重新计算action value或state value,再更新策略,直到更新的值小于认为规定的误差。

关于增强学习我就想讲这些,正常上的课后面还有蒙特卡洛预测,蒙特卡洛控制,Temporaldifference learning(也是增强学习的一种)等。但是作为科普文,讲出基本原理大概就够了,而且后面的内容更加难以理解和讲清楚。还有兴趣的可以参阅Richard Sutton的书《Reinforcement Learning: An Introduction》。我的公众号之前也有过一篇讲AlphaGo算法的文章,可以和这篇对照着阅读,但是AlphaGo的算法比简单的增强学习更复杂。

下一篇不知道什么时候更新了,毕竟写公众号这东西,不动笔就完全不想写,一开始写就停不下来了。关注一下公众号等更新吧~顺便求个转发,点个“在看”。

本文来自互联网,不代表OVZN立场。如若侵权请联系管理员。

文章评论

    共有条评论来说两句吧...

    用户名:



/

零售行业的新尝试>

最新快讯

今年的乌镇大会,大佬们都在关心这些话题

2019-10-22

10月21日,主题为“智能互联 开放合作 —— 携手共建网络空间命运共同体”的第六届世界互联网大会还在如火如荼进行当中。

详情>>

“智能经济”背后的百度AI引擎

2019-10-22

“今天已经进入了以人工智能为核心驱动力的智能经济新阶段。智能经济将给全球经济带来新的活力,是拉动全球经济重新向上的核心引擎。”百度创始人、董事长兼CEO李彦宏近日在第六届世界互联网大会上如是说。

详情>>

物联网运输可以为您带来什么好处?

2019-10-22

物联网(IoT)为各个经济领域都带来了多重好处和改进。如今,大多数公司都已经转向物联网,并愿意对其进行投资。根据Gartner的一份报告显示,全球超过43%的公司已经采用物联网。

详情>>

物联网数据:不要问怎么做,要问为什么

2019-10-15

来源:物联之家网企业中有大量数据可用,但是,仅仅因为可以收集和存储这些数据是没有意义的。只有选择性地收集并进行有效的分析,数据才可以成为有价值的资产。知识依赖于信息,而数

详情>>

如何在智能工厂中理解机器数据

2019-10-15

尽管大多数公司都了解物联网,但很少有人了解他们现在可以从机器数据中提取的价值。关键在于车间与业务环境之间的沟通能力。

详情>>

推荐主题更多主题

24小时推荐