您现在的位置是:主页 > news > 男女做暧暧观看免费网站/阿里云建站费用
男女做暧暧观看免费网站/阿里云建站费用
admin2025/4/24 1:03:56【news】
简介男女做暧暧观看免费网站,阿里云建站费用,贵州住房和城乡建设部网站首页,在线播放网站建设值分布强化学习 1.对比 传统强化学习 目标是为了优化累积回报,但是这个累积回报其实是一个随机变量 值分布强化学习 由于状态转移的随机性、状态表示的混叠效应,以及函数逼近的引入,智能体与环境之间存在着随机性,这就导致了…
值分布强化学习
1.对比
传统强化学习
目标是为了优化累积回报,但是这个累积回报其实是一个随机变量
值分布强化学习
由于状态转移的随机性、状态表示的混叠效应,以及函数逼近的引入,智能体与环境之间存在着随机性,这就导致了折扣累计回报 [公式] 是一个随机变量,给定策略 [公式] 后,随机变量 [公式] 服从一个分布,这个分布我们称之为值分布。经典强化学习算法是优化值分布的均值,而忽略了整个分布所提供的信息。
用一个图来表示是这样的:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xbLprwIt-1616903007748)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210327105811881.png)]
如图1所示,经典强化学习算法只用到了值分布的均值,而还有更多宝贵的信息没有利用上,假如说将值分布当成是一个宝矿,那么经典强化学习算法只在一点进行挖掘,而值分布强化学习的动机是挖整个宝矿,即利用整个值分布来进行学习。
2.数学基础
(1)关于贝尔曼操作符的理解:
贝尔曼操作符的几何解释
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZVjpG6Ge-1616903007749)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210327154110094.png)]
如图2为贝尔曼操作符的几何解释。对于一个有限的状态空间 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qVM2JwBA-1616903007751)(https://www.zhihu.com/equation?tex=%5Cmathcal%7BX%7D)] ,动作空间 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yHwawVJS-1616903007753)(https://www.zhihu.com/equation?tex=%5Cmathcal%7BA%7D)]
,行为值函数可表述为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QgXbqT5B-1616903007754)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29+)] ,此处的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pt0UD4LX-1616903007755)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29+)] 是一个 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9qAs5CmJ-1616903007756)(https://www.zhihu.com/equation?tex=%5Cleft%7C+%5Cmathcal%7BX%7D+%5Cright%7C%5Ctimes+%5Cleft%7C+%5Cmathcal%7BA%7D+%5Cright%7C)] 的向量,该向量可以表示为超曲面上的一个点。
如果用几何的观点来解释贝尔曼操作符,那么贝尔曼操作符就是将值函数超曲面上的点 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n8SgPETT-1616903007757)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29)] 映射到超曲面上与它相邻的点 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xQL3ykzV-1616903007758)(https://www.zhihu.com/equation?tex=TQ%5Cleft%28+X%2CA+%5Cright%29+)]
(2)Wasserstein距离
KL散度无法度量支集没有交叠的两个概率分布,而Wasserstein却可以很好地描述任意概率分布之间的距离。
Wasserstein距离俗称“推土机”距离,是指将概率分布为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Te5WlVb5-1616903007760)(https://www.zhihu.com/equation?tex=%5Cmu)] 的土挪成概率分布为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fLsMDP1J-1616903007760)(https://www.zhihu.com/equation?tex=%5Cnu+)] 的土所需要的“消耗”。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHrtCZDa-1616903007761)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328112535515.png)]
这里直接借鉴的是这篇文章,把Wassertein距离讲述的十分浅显易懂
白话Wassertein距离 - 知乎 (zhihu.com)
最优传输距离:从搬方块说起
考虑下面的搬方块问题,如何把下面左图中的(实线)方块搬到右图中的(虚线)方块,并且使得移动距离最短?这里移动距离(或者传输距离)定义为:位置之间的距离差。比如左边的方块1在位置#1,如果搬到右边的位置#7,那么距离就是6。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gEoweiNo-1616903007763)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328113954642.png)]
对于上图的问题,首先,我们可以把位置#1的三个方块,其中1个放到位置#7,剩下两个放到位置#10,那么运输距离(即位置之间的距离差)为6+2x9;然后把位置#2的方块放到位置#8,运输距离为6;最后把位置#3的方块放到位置#9,运输距离为6。这个运输方案我们记为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-guK61qjZ-1616903007763)(https://www.zhihu.com/equation?tex=%5Cgamma_1)] 。显然,运输方案有很多种,下面就展示了两种运输方案。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OH9IPdCJ-1616903007765)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328114003207.png)]
上面两种运输方案的运输距离是一样的,有时候,运输方案不一样,距离也会不一样。比如下面这个:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bns8GN27-1616903007766)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328114019842.png)]
对于上述搬箱子的方案,如果遍历所有搬运方法,肯定有一个最优运输距离。这里如果我们把左边的箱子和右边的箱子分别看成GAN中的真实数据分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AqQ9Bbna-1616903007766)(https://www.zhihu.com/equation?tex=p_%7Bdata%7D)] 和生成的数据分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tIyktALH-1616903007767)(https://www.zhihu.com/equation?tex=p_g)] ,那么,我们就也可以遍历所有传输方案,得到把概率分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FAZk90rX-1616903007768)(https://www.zhihu.com/equation?tex=p_%7Bdata%7D)] 搬到 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2KU1fl89-1616903007770)(https://www.zhihu.com/equation?tex=p_g)] 的最优传输距离。
总结一下,给出最优传输距离的定义:
最优传输距离,指的是把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eQruQGnf-1616903007771)(https://www.zhihu.com/equation?tex=q+)] 转换为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VsSrqCsm-1616903007772)(https://www.zhihu.com/equation?tex=p+)]的最小传输质量(概率密度在离散情况下,叫做概率质量)。 最优传输距离也叫做地球移动距离,wassertein距离,推土机距离。
这个定义结合上述例子,我们可以总结一下:
- wassertein距离就是衡量把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-504hi8a5-1616903007773)(https://www.zhihu.com/equation?tex=q+)] “*搬到*” [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K7hDuHxf-1616903007774)(https://www.zhihu.com/equation?tex=p)] 的最小代价。
- 从上面的例子可以看出,wassertein距离的计算是平滑的,没有像JS散度或KL散度那样突变的特性。这使得非常适合用于作为GAN的loss函数。因为JS散度是突变的,在两个分布没有重叠的时候,即便两个分布在优化过程中是靠近的,但是这点在loss上体现不出来,而wassertein距离可以做到。
总结一下,给出最优传输距离的定义:
最优传输距离,指的是把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AgiUZqfT-1616903007776)(https://www.zhihu.com/equation?tex=q+)] 转换为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SluB5ett-1616903007777)(https://www.zhihu.com/equation?tex=p+)]的最小传输质量(概率密度在离散情况下,叫做概率质量)。 最优传输距离也叫做地球移动距离,wassertein距离,推土机距离。
这个定义结合上述例子,我们可以总结一下:
- wassertein距离就是衡量把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YHIP3iQZ-1616903007779)(https://www.zhihu.com/equation?tex=q+)] “*搬到*” [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8SEjNYf6-1616903007781)(https://www.zhihu.com/equation?tex=p)] 的最小代价。
- 从上面的例子可以看出,wassertein距离的计算是平滑的,没有像JS散度或KL散度那样突变的特性。这使得非常适合用于作为GAN的loss函数。因为JS散度是突变的,在两个分布没有重叠的时候,即便两个分布在优化过程中是靠近的,但是这点在loss上体现不出来,而wassertein距离可以做到。
(3)sup,inf
sup是单词supremum的简写,意思是最小上界。inf是单词infimum的简写,意思是最大下界。
数学中,经常出现的表示方式是 lim sup 或者 lim inf,即找上界或者下界的极限。
(4)随机变量角度解读贝尔曼操作符
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jfKrQdx0-1616903007782)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328110826554.png)]
3.C51算法
特点
(1)参数化分布
通过最大最小值对范围进行均匀划分
(2)投影贝尔曼更新
更新的时候不再是对于值进行单独更新,而是对于投影进行更新。
(3)使用采样方法来逼近概率分布贝尔曼操作符
(4)梯度更新,KL散度
c51算法的流程。
C51算法与DQN相同的地方
(1)C51算法的框架依然是DQN算法
(2)采样过程依然使用 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WtGNb3vm-1616903007783)(https://www.zhihu.com/equation?tex=%5Cepsilon±greedy)] 策略,这里贪婪是取期望贪婪
(3)采用单独的目标网络
C51算法与DQN不同的地方
(2)C51算法的卷积神经网络的输出不再是行为值函数,而是支点处的概率。
(3)C51算法的损失函数不再是均方差和而是如上所述的KL散度
最后一个问题,该算法为什么叫C51呢?
这是因为在论文中,作者将随机变量的取值分成了51个支点类。
效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HiW4C8XB-1616903007785)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328101026017.png)]
强于DQN
方差和而是如上所述的KL散度
最后一个问题,该算法为什么叫C51呢?
这是因为在论文中,作者将随机变量的取值分成了51个支点类。
效果
[外链图片转存中…(img-HiW4C8XB-1616903007785)]
强于DQN