关于我们 | 联系我们

米6体育官网app下载手机端 - 米6体育app下载手机端

当前位置:主页 > 新闻资讯 > 公司新闻 >

从0到1-强化学习篇

本文摘要:原创: Yale 合天智汇 0x01强化学习在从0到1中已经先容了基本的思想——从0到1:学宁静的你不应懂点AI?,现在再详细先容下。强化学习的焦点逻辑,那就是智能体(Agent)可以在情况(Environment)中凭据奖励(Reward)的差别来判断自己在什么状态(State)下接纳什么行动(Action),从而最大限度地提高累积奖励(Reward)为了建设一个最优计谋,Agent需要不停探索新的状态,同时最大化其所获奖励累积额度,这也被称作试探和权衡。

米6体育官网app下载手机端

原创: Yale 合天智汇 0x01强化学习在从0到1中已经先容了基本的思想——从0到1:学宁静的你不应懂点AI?,现在再详细先容下。强化学习的焦点逻辑,那就是智能体(Agent)可以在情况(Environment)中凭据奖励(Reward)的差别来判断自己在什么状态(State)下接纳什么行动(Action),从而最大限度地提高累积奖励(Reward)为了建设一个最优计谋,Agent需要不停探索新的状态,同时最大化其所获奖励累积额度,这也被称作试探和权衡。强化学习把学习看作试探评价历程,Agent选择一个行动用于情况,情况接受该行动后状态发生变化,同时发生一个强化信号(奖或惩)反馈给Agent,Agent凭据强化信号和情况当前状态再选择下一个行动,选择的原则是使受到正强化(奖)的概率增大。选择的行动不仅影响立刻强化值,而且影响情况下一时刻的状态及最终的强化值。

0x02险些所有强化学习的问题都可以转换为MDP(马尔科夫决议历程),所以有须要详细先容下MDP。马尔科夫决议历程是基于马尔科夫论的随灵活态系统的最优决议历程。

它是马尔科夫历程与确定性的动态计划相联合的产物,故又称马尔科夫型随灵活态计划,属于运筹学中数学计划的一个分支。马尔科夫决议历程具有马尔可夫性,可是MDP还思量了行动,即系统下个状态不仅和当前的状态有关,也和当前接纳的行动有关。那么问题来了?那么问题来了?什么是马尔科夫性?当我们处于状态St时,下一时刻的状态St+1,可以由当前状态决议,而不需要思量历史状态。

未来独立于已往,仅仅于现在有关。(有没有回到本科概率论的感受,顺便插个小知识点,关于接下来提到的马尔科夫历程的理论研究,1931年Α.Η.柯尔莫哥洛夫揭晓了《概率论的剖析方法》,首先将微分方程平分析方法用于这类历程,奠基了它的理论基础。

2.什么是马尔科夫历程?具有马尔科夫性的历程就是马尔科夫历程啦。课本里一个典型的例子就是荷花池中一只青蛙的跳跃。这是马尔可夫历程的一个形象化的例子。

青蛙依照它瞬间或起的念头从一片荷叶上跳到另一片荷叶上,因为青蛙是没有影象的,当所处的位置已知时,它下一步跳往那边和它以往走过的路径无关。如果将荷叶编号并用X0,X1,X2,…划分表现青蛙最初处的荷叶号码及第一次、第二次、……跳跃后所处的荷叶号码,那么{Xn,n≥0}就是马尔可夫历程。

液体中微粒所作的布朗运动,感染病受熏染的人数,原子核中一自由电子在电子层中的跳跃,人口增长历程等等都可视为马尔可夫历程。那么马尔科夫决议历程是如何“决议”的呢?总该是类似小狗的例子中的奖励或者处罚吧?所以在先容马尔科夫决议历程之前先来看一下马尔科夫奖励历程(MRP)马尔科夫奖励历程MarkovReward Process是在马尔科夫历程的基础上增加了奖励R和衰减系数γ,其界说如下:只要到达某个状态会获得相应奖励R,奖励形貌为“当进入某个状态会获得相应的奖励”γ是折扣因子以下图为例上图中的R就是奖励,是自己界说的。

例如当学生处在第一节课(Class1)时,他到场第2节课(Class2)后获得的Reward是-1;同时进入到浏览facebook这个状态中获得的Reward也是-1,一般我们是说:他从class1状态脱离,进入到class2状态所获得的脱离立刻奖励是-2,如果大家统一说法,其实就很是好明白了。由于作者认为最终目的是通过考试,所以在pass状态下脱离获得的立刻奖励是很是大的10。作为Agent自然希望能够评估自己行为的恒久价值,所以自然提出了价值函数界说为:一个马尔科夫奖励历程中某一状态的价值函数为从该状态开始的马尔可夫链收获的期望前方高能预警(在系列的文章中,我一直试图制止泛起数学公式,在这儿必须得泛起了,没有这几条公式,整个体系是不完整的)前面说的值函数表达式为:值函数的表达式可以剖析成两部门:瞬时奖励Rt+1,后继状态St+1的值函数乘上一个衰减系数如果已知转移矩阵P,则有那么可以得出结论,贝尔曼等式方程就是通过方程可以看出v(s)由两部门组成,一是该状态的立刻奖励期望,立刻奖励期望即是立刻奖励;另一个是下一时刻状态的价值期望,可以凭据下一时刻状态的概率漫衍乘以价值期望获得。

这位大佬就是贝尔曼了,一张妖怪的面貌~现在总结下我们已经知道的:对于某个马尔科夫历程,如果已知模型,那么就是马尔科夫链;如果引入了回报,那么就转化为马尔科夫奖励历程;如果再引入Action,就转化为了马尔科夫决议历程。界说:一个马尔科夫决议历程由一个五元组组成<S,A,P,R,γ>S表现状态的荟萃A表现行动的荟萃P形貌状态转移矩阵,Pass′=P[St+1=s′|St=s,At=a]R表现奖励函数,R(s,a)形貌在状态s做行动a的奖励,R(s,a)=E[Rt+1|St=s,At=a]γ表现衰减因子,γ∈[0,1]马尔科夫决议历程中,多了一个决议,这个决议也就是我们前面所说的行动,在接纳什么行动后,到达下一时刻的状态,而且给这个决议一个回报值来权衡该决议的优劣。

讲了这么多,还是举个例子吧小明显天是打游戏还是学习?如果打游戏会挨打,学习会奖励小红花。挨了打会难受,得了小红花会兴奋。

在这个历程中,小明相当于一个agent,有两个action,每个action的实时回报(reword)划分是挨打和小红花,选择打游戏之后状态改变为难受,选择学习后状态改变为兴奋。那么恒久的奖励就是选择学习则能考上大学,打游戏就考不上大学(这其实是一个连续的历程),小明要做的就是让自己获得的奖励最大化(为了考上大学,所以就得少打游戏多学习~)。MDP的动态历程如下:智能体(agent)初始状态S0,然后从A中挑选一个行动a0执行,agent根据概率Pa随机转移到下一个状态S1,然后再执行行动a1,就转移到了S2,以此类推,可以用下图表现状态转移历程:0x03强化学习有三条线:划分是基于价值的强化学习,基于计谋的强化学习和基于模型的强化学习。

这三种差别类型的强化学习用深度神经网络替代了强化学习的差别部件基于价值:Q-learning、Sarsa、DeepQ Network基于计谋:PolicyGradients基于模型:ModelBased RL每一种解释起来都很篇幅都很长,这里主要先容现在已经联合网络宁静有公然揭晓研究结果的Q-leraning,DQN和PolicyGradientsQ.LearningQ一学习是强化学习的主要算法之一,是一种无模型的学习方法,它提供智能系统在马尔可夫情况中使用履历的行动序列选择最优行动的一种学习能力。Q-学习基于的一个关键假设是智能体和情况的交互可看作为一个Markov决议历程(MDP),即智能体当前所处的状态和所选择的行动,决议一个牢固的状态转移概率漫衍、下一个状态、并获得一个即时回报。Q-学习的目的是寻找一个计谋可以最大化未来获得的酬劳好比小时候爸妈常说”不写完作业就禁绝看电视”.所以我们在写作业的这种状态下,好的行为就是继续写作业,直到写完它,我们还可以获得奖励,欠好的行为就是没写完就跑去看电视了,被爸妈发现,结果很严重.假设我们的行为准则已经学习好了,现在我们处于状态s1,我在写作业,我有两个行为a1, a2, 划分是看电视和写作业,凭据我的履历,在这种s1 状态下,a2 写作业带来的潜在奖励要比 a1看电视高,这里的潜在奖励我们可以用一个有关于s 和a 的Q 表格取代,在我的影象Q表格中,Q(s1, a1)=-2 要小于Q(s1, a2)=1, 所以我们判断要选择a2 作为下一个行为.现在我们的状态更新成s2 , 我们还是有两个同样的选择,重复上面的历程,在行为准则Q表中寻找Q(s2, a1) Q(s2, a2) 的值,并比力他们的巨细,选取较大的一个.接着凭据a2 我们到达s3 并在此重复上面的决议历程.Q learning 的方法也就是这样决议的.在宁静领域,针对网络状态转移概率难以确定,导致无法确定求解平衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防反抗中通过学习获得的相关参数求解贝叶斯纳什平衡。

在此基础上,可以设计能够在线学习的防御决议算法。DQN在Q-Learning中提到了Q表,它存储每一个状态state, 和在这个state 每个行为action 所拥有的Q 值. 如果全用表格来存储它们,恐怕我们的盘算机有再大的内存都不够,而且每次在这么大的表格中搜索对应的状态也是一件很耗时的事.不外,神经网络对这种事情很在行.我们可以将状态和行动当成神经网络的输入,然后经由神经网络分析后获得行动的Q 值,这样我们就没须要在Q表记载Q 值,而是直接使用神经网络生成Q 值.想象一下,神经网络接受外部的信息,相当于眼睛鼻子耳朵收集信息,然后通过大脑加工输出每种行动的值,最后通过强化学习的方式选择行动。简答地说,就是,DQN不用Q表记载Q值,而是用神经网络来预测Q值,并通过不停更新神经网络从而学习到最优的行动路径。

DQN算法的主要做法是ExperienceReplay,其将系统探索情况获得的数据储存起来,然后随机采样样本更新深度神经网络的参数。在无线宁静领域,厦门大学的学者指出,通过应用强化学习技术,移动设备可以实现最优的通信计谋,而无需在动态游戏框架中知道滋扰和滋扰模型以及无线电信道模型。更详细地,提出了一种基于热启动DQN的二维移动通信方案,该方案使用类似场景中的履历来淘汰游戏开始时的探索时间,并应用深度卷积神经网络和宏观行动技术来加速动态情境下的学习速度。

效果讲明,与基准方案相比,该方案可以改善信号的信号与滋扰加噪声比以及移动设备对协同滋扰的效用。在IoT物联网宁静领域,以医疗为例,医疗保健起着重要作用,因为医疗信息的宁静性,隐私性和可靠性是很是重要的。

只管物联网提供了维护信息的有效协议,可是一些中间攻击和入侵者试图会见康健信息,这反过来又降低了互联网情况中整个医疗保健系统的隐私性,宁静性和可靠性。因此,为相识决这些问题,马来西亚理工大学的学者在研究中引入了基于学习的Deep-Q-Networks,用于在治理康健信息的同时淘汰恶意软件攻击。

该方法凭据Q学习观点检查差别层中的医学信息,这有助于以更简朴的方法降低中间人攻击的风险。PolicyGradient我们已经知道DQN是一个基于价值value的方法。

米6体育官网app下载手机端

换句话说就是通过盘算每一个状态行动的价值,然后选择价值最大的行动执行。这是一种间接的做法。那么,更直接的做法是什么?能不能直接更新计谋网络PolicyNetwork呢?先说一下什么是计谋网络PolicyNetwork。

它就是一个神经网络,输入是状态,输出直接就是行动(不是Q值),且一般输出有两种方式:一种是概率的方式,即输出某一个行动的概率;另一种是确定性的方式,即输出详细的某一个行动。如果要更新Policy Network计谋网络,需要有一个目的函数,对于所有强化学习的任务来说,其实目的都是使所有带衰减reward的累加期望最大。如果一个行动获得的reward多,那么我们就使其泛起的概率增加,如果一个行动获得的reward少,我们就使其泛起的概率减小。PolicyGradient的焦点思想是更新参数时有两个思量:如果这个回合选择某一行动,下一回合选择该行动的概率大一些,然后再看赏罚值,如果赏罚是正的,那么会放大这个行动的概率,如果赏罚是负的,就会减小该行动的概率。

PolicyGradient最简朴的代码就是下图了在密码学领域,所谓的物理不行克隆功效是一种新兴的新加密和宁静原语。它们可以替代易受攻击的硬件系统中的二进制密钥并具有其他宁静优势。慕尼黑大学的学者提出,通过使用强化学习方法来处置惩罚这种新原语的密码分析。

研究了基于电路的PUF的宁静性在多大水平上可以通过参数平衡的PolicyGradient的强化学习技术的挑战。研究效果讲明,与其他机械学习领域和其他政策梯度方法相比,该技术在物理不行克隆功效的密码分析中具有重要优势。

0x04强化学习到此就竣事了。本系列文章也即将竣事,在最后分享一下张钹院士17年在清华大学举行的“人工智能与信息宁静”清华前沿论坛上的陈诉中关于AI+宁静的一些看法和思考。1、主题:人工智能改变信息宁静的未来;信息宁静促进人工智能的未来生长。

2.“入侵检测”可以动员大多数信息宁静问题,入侵检测、身份认证等本质上是模式识别问题。入侵检测,要判断是入侵、非入侵;身份认证要判断是本人、非本人,可以说如果是“本人”代表不是入侵,“非本人”则代表入侵。而现在人工智能最重要的希望是在模式识别方面。3.现在IBM最主要的是把两项技术引进Watson系统,一个是人工智能,一个是区块链技术。

大家认为这是解决宁静问题的两大杀手锏,第一个是区块链技术,从底层来保证数据的宁静,不被窜改、不被偷窃。区块链和人工智能两个技术联合起来,有可能获得一个真正的宁静系统。4.知识驱动方法要建设很大的特征库(或知识库),但只有特征的知识是很不够的,所以基于专家系统的入侵检测的生长偏向是,建设完善的知识库和推理机制,把我们对于入侵的相识酿成一个知识,然后凭据知识举行推理,这样就有可能去发现新的、没见过的入侵方式5.通过强化学习自己发生数据、自己学习。

人工智能的方法可以资助我们发生数据,可以发生真实数据(正样本)、也可以发生虚假数据(负样本),这就给入侵和反入侵同时提供时机。入侵者使用这一条,发生许多假数据欺骗盘算机,防守方使用同样原理发生数据(真的和假的)来训练自己,提高判别能力。6.信息宁静需要走人机联合这条路,不能把人完全清除在外,攻击发生在瞬息之间,几个毫秒的差错就能够引起很大的危害,特别是机械自己(包罗深度学习)并不完美,很容易受到攻击,很容易受到欺骗,很容易受到滋扰。

在这种情况下,人怎么介入?这涉及到人工智能另外一个大家很是体贴的问题,就是”人机互助“。7.以后人工智能的生长偏向,是走向可解释的人工智能。系统必须见告人类:为什么它是一个入侵,把这个原理说出来。

不仅能说what,还能说why。这是我们以后的偏向。机械有了自我解释的能力,才气实现人机的联合。

0x05参考及推荐资料:1.ReinforcementLearning: AnIntroduction(http://incompleteideas.net/book/the-book-2nd.html)2.Algorithmsfor ReinforcementLearning(http://www.ualberta.ca/%7Eszepesva/papers/RLAlgsInMDPs.pdf)3.RichSutton(本文部门图片引用自祖师爷的课本)强化学习课程(http://incompleteideas.net/rlai.cs.ualberta.ca/RLAI/RLAIcourse/RLAIcourse2006.html)4.Stanford强化学习课程(http://web.stanford.edu/class/cs234/schedule.html)5.很接地气的国人制作的教程(部门图片引用源)https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/文中提及的宁静领域的相关研究的论文:1.《Thedefense decision method based on incomplete information stochasticgame and Q-learning》2《PolicyGradients for Cryptanalysis》3.《Two-dimensionalAnti-jamming Mobile Communication Based on Reinforcement Learning》4.《MaintainingSecurity and Privacy in Health Care System Using Learning BasedDeep-Q-Networks》本文为合天原创,未经允许,严禁转载。


本文关键词:米6体育官网app下载手机端,从,到,强化,学习,篇,原创,Yale,合,天智,汇,0x01

本文来源:米6体育官网app下载手机端-www.luhejiaoyu.com

Copyright © 2006-2022 www.luhejiaoyu.com. 米6体育官网app下载手机端科技 版权所有 备案号:ICP备38271590号-7