您现在的位置是：主页 > news > 男女做暧暧观看免费网站/阿里云建站费用

男女做暧暧观看免费网站/阿里云建站费用

admin2025/4/24 1:03:56【news】

简介男女做暧暧观看免费网站,阿里云建站费用,贵州住房和城乡建设部网站首页,在线播放网站建设值分布强化学习 1.对比传统强化学习目标是为了优化累积回报，但是这个累积回报其实是一个随机变量值分布强化学习由于状态转移的随机性、状态表示的混叠效应，以及函数逼近的引入，智能体与环境之间存在着随机性，这就导致了…

男女做暧暧观看免费网站,阿里云建站费用,贵州住房和城乡建设部网站首页,在线播放网站建设值分布强化学习 1.对比传统强化学习目标是为了优化累积回报，但是这个累积回报其实是一个随机变量值分布强化学习由于状态转移的随机性、状态表示的混叠效应，以及函数逼近的引入，智能体与环境之间存在着随机性，这就导致了…

值分布强化学习

1.对比

传统强化学习

目标是为了优化累积回报，但是这个累积回报其实是一个随机变量

值分布强化学习

由于状态转移的随机性、状态表示的混叠效应，以及函数逼近的引入，智能体与环境之间存在着随机性，这就导致了折扣累计回报 [公式] 是一个随机变量，给定策略 [公式] 后，随机变量 [公式] 服从一个分布，这个分布我们称之为值分布。经典强化学习算法是优化值分布的均值，而忽略了整个分布所提供的信息。

用一个图来表示是这样的：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xbLprwIt-1616903007748)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210327105811881.png)]
如图1所示，经典强化学习算法只用到了值分布的均值，而还有更多宝贵的信息没有利用上，假如说将值分布当成是一个宝矿，那么经典强化学习算法只在一点进行挖掘，而值分布强化学习的动机是挖整个宝矿，即利用整个值分布来进行学习。

2.数学基础

（1）关于贝尔曼操作符的理解：

贝尔曼操作符的几何解释

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZVjpG6Ge-1616903007749)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210327154110094.png)]

如图2为贝尔曼操作符的几何解释。对于一个有限的状态空间 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qVM2JwBA-1616903007751)(https://www.zhihu.com/equation?tex=%5Cmathcal%7BX%7D)] ，动作空间 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yHwawVJS-1616903007753)(https://www.zhihu.com/equation?tex=%5Cmathcal%7BA%7D)]

，行为值函数可表述为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QgXbqT5B-1616903007754)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29+)] ，此处的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pt0UD4LX-1616903007755)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29+)] 是一个 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9qAs5CmJ-1616903007756)(https://www.zhihu.com/equation?tex=%5Cleft%7C+%5Cmathcal%7BX%7D+%5Cright%7C%5Ctimes+%5Cleft%7C+%5Cmathcal%7BA%7D+%5Cright%7C)] 的向量，该向量可以表示为超曲面上的一个点。

如果用几何的观点来解释贝尔曼操作符，那么贝尔曼操作符就是将值函数超曲面上的点 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n8SgPETT-1616903007757)(https://www.zhihu.com/equation?tex=Q%5Cleft%28+X%2CA+%5Cright%29)] 映射到超曲面上与它相邻的点 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xQL3ykzV-1616903007758)(https://www.zhihu.com/equation?tex=TQ%5Cleft%28+X%2CA+%5Cright%29+)]

（2）Wasserstein距离

KL散度无法度量支集没有交叠的两个概率分布，而Wasserstein却可以很好地描述任意概率分布之间的距离。

Wasserstein距离俗称“推土机”距离，是指将概率分布为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Te5WlVb5-1616903007760)(https://www.zhihu.com/equation?tex=%5Cmu)] 的土挪成概率分布为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fLsMDP1J-1616903007760)(https://www.zhihu.com/equation?tex=%5Cnu+)] 的土所需要的“消耗”。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHrtCZDa-1616903007761)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328112535515.png)]

这里直接借鉴的是这篇文章，把Wassertein距离讲述的十分浅显易懂

白话Wassertein距离 - 知乎 (zhihu.com)

最优传输距离：从搬方块说起

考虑下面的搬方块问题，如何把下面左图中的（实线）方块搬到右图中的（虚线）方块，并且使得移动距离最短？这里移动距离（或者传输距离）定义为：位置之间的距离差。比如左边的方块1在位置#1，如果搬到右边的位置#7，那么距离就是6。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gEoweiNo-1616903007763)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328113954642.png)]

对于上图的问题，首先，我们可以把位置#1的三个方块，其中1个放到位置#7，剩下两个放到位置#10，那么运输距离（即位置之间的距离差）为6+2x9；然后把位置#2的方块放到位置#8，运输距离为6；最后把位置#3的方块放到位置#9，运输距离为6。这个运输方案我们记为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-guK61qjZ-1616903007763)(https://www.zhihu.com/equation?tex=%5Cgamma_1)] 。显然，运输方案有很多种，下面就展示了两种运输方案。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OH9IPdCJ-1616903007765)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328114003207.png)]

上面两种运输方案的运输距离是一样的，有时候，运输方案不一样，距离也会不一样。比如下面这个：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bns8GN27-1616903007766)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328114019842.png)]

对于上述搬箱子的方案，如果遍历所有搬运方法，肯定有一个最优运输距离。这里如果我们把左边的箱子和右边的箱子分别看成GAN中的真实数据分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AqQ9Bbna-1616903007766)(https://www.zhihu.com/equation?tex=p_%7Bdata%7D)] 和生成的数据分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tIyktALH-1616903007767)(https://www.zhihu.com/equation?tex=p_g)] ，那么，我们就也可以遍历所有传输方案，得到把概率分布 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FAZk90rX-1616903007768)(https://www.zhihu.com/equation?tex=p_%7Bdata%7D)] 搬到 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2KU1fl89-1616903007770)(https://www.zhihu.com/equation?tex=p_g)] 的最优传输距离。

总结一下，给出最优传输距离的定义：

最优传输距离，指的是把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eQruQGnf-1616903007771)(https://www.zhihu.com/equation?tex=q+)] 转换为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VsSrqCsm-1616903007772)(https://www.zhihu.com/equation?tex=p+)]的最小传输质量（概率密度在离散情况下，叫做概率质量）。最优传输距离也叫做地球移动距离，wassertein距离，推土机距离。

这个定义结合上述例子，我们可以总结一下：

wassertein距离就是衡量把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-504hi8a5-1616903007773)(https://www.zhihu.com/equation?tex=q+)] “*搬到*” [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K7hDuHxf-1616903007774)(https://www.zhihu.com/equation?tex=p)] 的最小代价。
从上面的例子可以看出，wassertein距离的计算是平滑的，没有像JS散度或KL散度那样突变的特性。这使得非常适合用于作为GAN的loss函数。因为JS散度是突变的，在两个分布没有重叠的时候，即便两个分布在优化过程中是靠近的，但是这点在loss上体现不出来，而wassertein距离可以做到。

总结一下，给出最优传输距离的定义：

最优传输距离，指的是把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AgiUZqfT-1616903007776)(https://www.zhihu.com/equation?tex=q+)] 转换为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SluB5ett-1616903007777)(https://www.zhihu.com/equation?tex=p+)]的最小传输质量（概率密度在离散情况下，叫做概率质量）。最优传输距离也叫做地球移动距离，wassertein距离，推土机距离。

这个定义结合上述例子，我们可以总结一下：

wassertein距离就是衡量把概率分布[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YHIP3iQZ-1616903007779)(https://www.zhihu.com/equation?tex=q+)] “*搬到*” [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8SEjNYf6-1616903007781)(https://www.zhihu.com/equation?tex=p)] 的最小代价。
从上面的例子可以看出，wassertein距离的计算是平滑的，没有像JS散度或KL散度那样突变的特性。这使得非常适合用于作为GAN的loss函数。因为JS散度是突变的，在两个分布没有重叠的时候，即便两个分布在优化过程中是靠近的，但是这点在loss上体现不出来，而wassertein距离可以做到。

（3）sup，inf

sup是单词supremum的简写，意思是最小上界。inf是单词infimum的简写，意思是最大下界。
数学中，经常出现的表示方式是 lim sup 或者 lim inf，即找上界或者下界的极限。

（4）随机变量角度解读贝尔曼操作符

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jfKrQdx0-1616903007782)(C:\Users\liuyi\AppData\Roaming\Typora\typora-user-images\image-20210328110826554.png)]

3.C51算法

特点

（1）参数化分布

通过最大最小值对范围进行均匀划分

（2）投影贝尔曼更新

更新的时候不再是对于值进行单独更新，而是对于投影进行更新。

（3）使用采样方法来逼近概率分布贝尔曼操作符

（4）梯度更新，KL散度