Skip to content
logo

凤凰至尊平台 | 凤凰至尊注册 | FH至尊娱乐 | FH至尊平台

凤凰至尊平台-邀请您体验K8娱乐
凤凰至尊平台注册凤凰至尊平台登录
  • Home
  • FH至尊娱乐
  • 88老虎机:强化学习——多臂老虎机问题
FH至尊娱乐
2023年7月21日

88老虎机:强化学习——多臂老虎机问题

强化学习——多臂老虎机问题

作者:oneraynyday

编译:Bot

编者按:无论有没有去过赌场,相信大多数人都不会对老虎机感到陌生。作为赌场里最常见的娱乐设备,老虎机不仅在现实中广受人们欢迎,它也频繁出现在电视电影乃至动画片中,连一些常见的APP里都有它的身影。

往机器里投入硬币后,玩家需要拉下拉把转动玻璃框中的图案,如果三个图案一致,玩家能获得所有累积奖金;如果不一致,投入的硬币就会被吞入累积奖金池。这个问题看似简单,但很多人也许都忽视了,其实它和围棋、游戏一样,也是个强化学习问题。

首先,我们要明确一点——老虎机问题是表格型解决方案工具的一种。之所以这么说,是因为我们可以把所有可能的状态放进一个表格中,然后让表格告诉我们需要了解的问题状态,继而为解决问题找出切实的解决方案。

单臂老虎机:只有一根侧面拉杆

假设我们有一台K臂老虎机,每根拉杆都能提供固定的一定数额的金钱,一次只能拉下一根拉杆,但我们不知道它们的具体回报是多少。在这个情景中,k根拉杆可以被视为k种不同的动作(action),拉下拉杆的总次数T是我们的总timestep。整个任务的目标是实现收益的最大化。

设在第 t 次拉下拉杆时,我们采取的动作是 A_t ,当时获得的回报是 R_t 。那么对于任意动作 a ,它的动作值(value) q_∗(a) 是:

这个等式表示的是无论何时,如果我们选择动作 a ,我们获得的实际回报就应该等于动作 a 的预期回报。

把上面这个句子再读三四遍,你觉得它行得通吗?如果我们事先已经知道拉下这个拉杆的最大收益是多少,那出于贪婪的目的,我们肯定每次都会选最好的动作,然后使最终回报最大化。但在强化学习问题中,贪婪算法并不一定等同于最优策略,这一步的贪婪可能会对下一步产生负面影响。

虽然很困难,但我们真的很想实现 q_∗(a) ,所以对于timestep t ,设 Q_t(a) 是 q_∗(a) 的近似值:

那么我们又该怎么获得 Q_t(a) ?

注:上文中的回报(reward)和动作值(value)不是同一个概念。回报指的是执行动作后的当场回报,动作值是一个长期的回报。如果你吸毒了,一小时内你很high,回报很高,但长期来看,你获得的动作值就很可怕了。需要注意的是,因为老虎机只需要一个动作,所以这里的 q_∗(a) 不是未来回报之和,只是期望回报,它和其他地方的 q_∗(a) 也不一样(虽然有滥用符号之嫌,但还是请多包涵啦)。

函数 Q_π(x, a) 表示从状态 x 出发,执行动作 a 后再使用策略 π 带来的累计奖赏,称为“状态-动作值函数”(state-action value function)。——周志华《机器学习》

首先,我们需要估计动作值,再据此决定要采取的行动。

估算动作值

求解 q_∗(a) 近似值的一种简单方法是使用样本平均值:

上述等式看起来好像有什么说法,但它其实很简单——选择动作 a 时,我们获得的平均回报是多少。这个均值可以被视为 q_∗(a) 的近似值,因为换几个符号,我们就能发现这就是强大数定律(SLLN)的表达式。

换句话说,它意味着 Q_t(a) 必须收敛于 q_∗(a) :

比起概率收敛,这种收敛更强大,但它其实也没法保证 Q_t(a) 一定能收敛。

动作选择规则:贪婪

“贪婪者总是一贫如洗。”当面对巨大诱惑时,一些人会因为贪婪越过自己的底线,去吸毒,去犯罪,但他们在获得短暂快感的同时也失去了更多东西。强化学习中同样存在类似的问题,如果它是贪婪的,它会找出迄今为止最大的动作值:

并依据这个动作值去选择每一步动作。这样做的后果是智能体从头到尾只会选择同一套动作,而从不去尝试其他动作,在很多情况下,这样的策略并不是最优策略。

动作选择规则:ϵ-Greedy

那么我们该怎么纠正它的贪婪?之前我们在《强化学习——蒙特卡洛方法介绍》一文中已经介绍过 ε-greedy :对于任何时刻 t 的执行exploration小概率 ε<1 ,我们会有 ε 的概率会进行exploration,有 1-ε 的概率进行exploitation。这可以简单理解成抛硬币,除了正面和反面,它还有一个极小的立起来的概率。

虽然当智能体“头脑发热”时,它还是会义无反顾地贪婪,但相比贪婪策略, ϵ-greedy 随机选择策略(不贪婪)的概率是 \frac{ε}{|A(s)|} 。

导致这种现象的主要原因是动作值会随时间推移发生变化,即之前我们研究的是静态的拉杆,而不是随机的、动态的拉杆。以动作值为例,比起我们之前假设的 q_∗(a) ,它更应该被表示成 q_∗(a, t) 。

依据之前的动作值估计,我们有:

它也可以被写成:

看起来SGD可以在这里发挥一些作用。如果它是平稳的,那 q_∗(a) 收敛的概率就是100%;如果它不平稳,我们一般不希望 R_n=R_{n-1} ,因为当前回报会影响当前的动作值。

这里我们把权重 \frac{1}{n} 替换成 α(α∈(0,1]) :

这是一个指数平均值,它在几何上衰减之前回报的权重。设函数 α_n(a) 是第 n 个timestep,也就是第 n 次拉下拉杆时某个特定回报的权重。因为老虎机问题只需考虑动作 a ,所以这个函数也可以简化成 α(a) 。

为了保证上式能收敛,我们还需要一些其他条件。

条件一

上式表示对于任何初始值 Q_1∈ℜ ,它都满足 q_∗(a)∈ℜ 。这个条件要求保证timestep足够大,以最终克服任何初始条件或随机波动FH至尊娱乐

条件二

这个式子表示这些timestep将“足够小以确保能收敛到一个小值”。简而言之,第二个条件保证最终timestep会变小,以保证收敛。

既然如此,我们之前为什么要设 α_n(a)=α∈(0,1] 呢?它不是一个常数吗?这样的阈值会不会影响收敛?

这些猜想都是正确的,但 (0,1] 这个阈值也有它存在的价值。我们在之前的 Q_{n+1}=Q_n+α_n(R_n+Q_n) 上继续计算,最后可以获得一项 α(1-α)_{n-i}R_i ,因为 α 小于1,所以给予 R 的权重随着介入奖励次数的增加而减少。

最佳动作值时非平稳的,我们不想收敛到一个特定的价值。

到目前为止,我们必须随机设定 Q_1(a) 的初始值,它本质上是一组用于初始化的超参数。这里有个小诀窍,我们可以设初始值 Q_1(a)=C∀a ,其中 C>q_∗(a)∀a 。

这样之后,因为 Q_n(a) 偏高,这时智能体会积极探索其他动作,当它越来越接近 q_∗(a) 时,智能体就开始贪婪了。换句话说,假设我们设当前拉杆的乐观回报是3,但它实际上最高能获得的回报只有2.5,智能体尝试一次后,发现回报只有1,低于乐观值,于是它会把其他拉杆全部尝试一遍。虽然前期效率很低,但到后期,智能体已经掌握哪些拉杆会产生高值,效果就接近“贪婪”了。

这种方法是可行的,在某种程度上,如果时间充裕,这个过程也可以被看作是模拟退火。但从整体来看,乐观初始值前期的大量“exploration”是不必要的,它对于非平稳问题来说不是最好的答案。

在机器学习系统中,Bias与Variance往往不可兼得:如果要降低模型的Bias,就一定程度上会提高模型的Variance;如果要降低Variance,Bias就会不可避免地提高。针对两者间的trade-off,下面的式子是一个很好的总结:

其中,

  • R(f) 是假设 f 的(理论上)的风险;
  • R(f*) 是在假设集 H 中,假设 f 的最小风险;
  • M 是假设集 |H| 的大小;
  • N 是其中的样本数;
  • δ 是一个常数(如果非要知道这个常数是什么,只能说它是我们选择一个差的假设的概率)。

这里有两个重点:

  1. 样本数量非常少,我们的边界非常松散。我们不知道目前的假设是否是最好的假设。
  2. 我们的假设越大,PAC(近似正确)学习的约束就越松散。

置信上限(UCB)是一个非常强大的算法,它可以用类似Bias-Variance权衡的方法来解决不同的问题。在老虎机问题中,我们可以把timestep t 当成假设集大小 M ,因为随着t逐渐增加, a_n 也会逐渐增加,相应的 A_t 就很难选择。

每选一次 a ,不确定项就会减少,分母 N_t(a) 增加;另一方面,每一次选择了 a 以外的动作, t 会增加但 N_t(a) 不会改变,不确定评估值会增加。

截至目前,我们一直在努力估计 q_∗(a) ,但如果说这个问题还有除了行动值以外的解决方法呢?比如我们该如何学习一个动作的偏好?

设动作偏好为 H_t(a) ,它和回报无关,只是一个动作相对于另一个动作的重要性。那么 A_t 应该符合gibbs分布(也就是机器学习的softmax分布):

对于这个式子,我们该怎么基于梯度计算最大似然估计?首先,我们对 H_t(a) 做梯度上升,因为它是我们的变量。我们想最大化 E(R_t) :

H_t(a) 的更新规则如下所示:

gibbs分布分解:

这只是整个梯度的一个偏导数。那么 b≠a 的动作呢?下面是省略计算过程的结果:

由此可得:

因为:

88老虎机:强化学习——多臂老虎机问题

相应的,这个等式也是成立的:

由上述等式可得:

因为 q_∗(a,t) 被包含在动作a的预期值内,它也可以被写成 R_t 。现在就只剩一个问题了:等式里的 X_t 是什么?坦率地说,你想它是什么它就是什么,严谨起见,我们可以把 X_t 当成 R_t 的平均值。

计算梯度后获得新的更新规则:

88老虎机:强化学习——多臂老虎机问题

其中 a 是 t 时采取的动作。由于找到 a 的期望值 E_a 很困难,我们可以用随机值来更新:

选择动作的简单方法是计算 argmax_aπ_t(a) ,问题就解决了。

下面是上述算法的一个比较图:

88老虎机

88老虎机

尽管简单的方法表现不太好,但对很多强化学习问题来说,它们也称得上是最先进的算法了。

FH至尊娱乐

文章导航

Previous Post
Next Post
註冊美女01
新会员注册就送$5美金

最新文章

  • 澳门是否真的没有网投平台?深入探讨这一话题
  • 探索澳门天空彩天彩票网下载app的官方网址及使用指南
  • 探索澳门体育投注入口网站的优势与特色
  • 探索PT平台:哪些游戏出分最高,收益最可观?
  • 探索奥博集团网址:获取最新资讯与服务

分类

  • FH至尊娱乐
  • FH至尊平台
  • NEWS
  • 凤凰至尊平台
  • 凤凰至尊注册
2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 6 月    

FH至尊娱乐 FH至尊平台 凤凰至尊平台 凤凰至尊注册

凤凰至尊平台 | 凤凰至尊注册 | FH至尊娱乐 | FH至尊平台

欢迎来到:凤凰至尊平台

凤凰至尊平台是一家知名的在线娱乐平台,提供各种类型的线上游戏,如老虎机游戏、真人视讯等。其官方网站为https://fhzz.org,同时还提供凤凰至尊平台官网注册供玩家畅玩游戏。游戏平台注重用户体验和数据安全,提供专业的服务和优惠活动,备受玩家信赖和喜爱。

凤凰至尊平台应用近期版本更新


2022年7月11日 版本5.3.3

1.凤凰至尊平台移动项目组根据近期赛事类型,综合考虑玩家对不同赛事的参与热情,决定提升电子竞技类型赛事在界面中的显示顺序。

2022年6月28日 版本5.3.2

1.凤凰至尊平台近期将针对新兴赛事投放部分定向奖励,以鼓励用户在传统赛事的夏季休赛期期间尝试参与一些更具有活力的体育项目。

2022年5月17日 版本5.3.1

1.凤凰至尊平台体育应用内投放有关欧冠赛事的红利红包。
2.凤凰至尊平台移动业务技术团队计划降低手机应用大版本更新频率,通过热更新的方式完成日常更新,提升用户体验。

2022年4月17日 版本5.3.0

1.完整修复凤凰至尊平台手机应用内欧冠赛事板块的部分显示错误,并调整显示顺序。

2022年4月13日 版本5.2.9.2

1.修复凤凰至尊平台手机应用内欧冠赛事板块的部分显示错误。
2.凤凰至尊平台体育应用内进行"欧冠欧足联红包雨"活动,于4月12日至4月15日期间合计发放14波红包雨。

2022年3月15日 版本5.2.9

1.凤凰至尊平台体育应用调整部分欧洲体育赛事板块顺序。
2.修复凤凰至尊平台手机应用内部分屏幕显示适配错误。

2022年1月30日 版本5.2.7

1.金虎迎新春,凤凰至尊平台上下全体员工祝各位用户2022壬寅年新春快乐。
2.凤凰至尊平台体育推出多项春节活动。

2022年1月9日 版本5.2.6

1.凤凰至尊平台体育应用内上线英雄联盟2022赛季LPL春季赛相关活动。
2.修复凤凰至尊平台手机应用在夜间模式下的部分显示错误。

2021年12月24日 版本5.2.4

1.凤凰至尊平台手机应用上线圣诞系列赛事活动。
2.更新部分线路,提升用户连接稳定性。

2021年12月1日 版本5.2.2

1.凤凰至尊平台体育手机应用内根据五大足球联赛的相应热度进行页面排版布局的优化。

2021年10月28日 版本5.2.1

1.凤凰至尊平台体育电竞板块迎接S11英雄联盟全球总决赛,上线部分红包活动。
2.在凤凰至尊平台体育预测英雄联盟赛事胜负,获取额外奖励。

2021年9月28日 版本5.1.2

1.月迎中秋,喜迎国庆,凤凰至尊平台手机应用内上线部分红包活动。
2.上调欧冠赛事在左侧选项卡中的显示顺序。

2021年9月10日 版本5.1.1

1.凤凰至尊平台体育更新部分线路,提升用户连接稳定性。

2021年8月10日 版本4.7.3

1.东京奥运会圆满结束,庆祝中国体育健儿获得第二名的好成绩,凤凰至尊平台投放最后一波奥运主题红包。

2021年7月28日 版本4.7.2

1.凤凰至尊平台手机应用内根据东京奥运会的项目热门程度,对整体显示顺序进行调整。

2021年7月16日 版本4.7.1

1.凤凰至尊平台体育上线"传递奥运圣火,助力东京奥运"活动。
2.更新部分线路,提升用户连接稳定性。

2021年7月11日 版本4.6.7

1.凤凰至尊平台体育上线"冠军之路,闯关拿奖"活动,预祝欧洲杯圆满结束。
2.更新部分线路,提升用户连接稳定性。

2021年7月7日 版本4.6.6

1.凤凰至尊平台体育提前上线"助威欧洲杯决赛,分享红包雨"活动,决赛对阵队伍出炉后开始推送。
2.更新部分线路,提升用户连接稳定性。

2021年7月4日 版本4.6.5

1.凤凰至尊平台各线路运营趋向稳定,删除了部分备用线路,保留响应较快的线路以提升用户连接速度。
2.修复部分软件Bug。

2021年6月30日 版本4.6.4

1.由于近期银行整体风控水平加剧,为避免等待时间过长,凤凰至尊平台普通提款通道提款金额范围由原来100-49000调整为5001-49000,5001以下金额提款可使用方便又快捷的【凤凰至尊平台极速提款】通道进行提款。
2.增加部分线路,提升凤凰至尊平台用户连接速度与稳定性。

2021年6月24日 版本4.6.3

1.更新并增添凤凰至尊平台手机应用内部分用于解析的域名,提升用户使用稳定性。
2.在凤凰至尊平台应用内增加转账异常自动处理入口,更好更快解决部分订单转账后入账慢的问题。
3.提升凤凰至尊平台全渠道加密货币USDT存款充值奖励。泰达币(USDT)是基于美元(USD)的加密货币,用户可以随时使用USDT与USD进行1:1兑换,加密货币的低手续费、快转账速度特性比传统货币联网交易的模式有极大优势。

2021年6月18日 版本4.6.2

1.增加欧洲杯相关活动的红包和奖励通知。
2.凤凰至尊平台全站及体育应用增加大量内嵌线路,力求为用户在欧洲杯期间提供稳定服务。
3.修复部分软件Bug。

2021年6月8日 版本4.6.1

1.迎接欧洲杯活动,凤凰至尊平台体育增加大量内嵌线路。
2.伴随防火墙技术升级,近期凤凰至尊平台将频繁出现域名更换现象,请及时关注最新更新信息。

2021年5月28日 版本4.5.9

1.伴随英雄联盟Msi季中赛结束,凤凰至尊平台更改部分显示顺序和入口优先级,对部分Msi赛事玩家投放红包。
2.增加部分线路应对大规模DNS污染活动。

2021年5月6日 版本4.5.8

1.迎接英雄联盟Msi季中赛,凤凰至尊平台更改部分显示顺序和入口优先级。

2021年4月30日 版本4.5.7

1.迎接五一,凤凰至尊平台增加部分优惠信息。

2021年4月7日 版本4.5.6

1.增加部分线路,提升凤凰至尊平台用户连接速度与稳定性。

2021年3月25日 版本4.5.5

1.庆祝凤凰至尊平台与AC米兰达成赞助合作,为相关合作活动内容预留展示窗口。
2.修复部分软件Bug。

2021年3月7日 版本4.5.4

1.更新部分财务界面,提升用户存提款效率。
2.优化项目内容排版。

2021年2月20日 版本4.5.3

1.更新部分线路,提升用户连接稳定性。
2.优化界面前端排版。

2021年2月8日 版本4.5.2

1.庆祝农历新年,全站和体育应用内增加部分优惠及彩蛋内容。
2.修复部分软件Bug。

2021年1月7日 版本4.5.1

1.更新部分线路,提升用户连接稳定性。
Back to top
Proudly powered by K8 Gaming Group | Copyright © 2023 | 凤凰至尊平台. 版权所有
凤凰至尊平台 | 凤凰至尊注册 | FH至尊娱乐 | FH至尊平台
Add your widget here
转到手机版