机器学习-强化学习-汤普森采样强化学习:汤普森采样:我们需要在有效的勘探与开发之间找到适当的平衡。
与UCB算法不同,汤普森采样算法是一种概率算法。
该算法具有代表我们对世界的感知以及我们认为这些机器中的每台机器的实际预期收益可能位于的分布。
与UCB相比,Thomas采样的优点之一是它可以适应延迟的反馈。
我将使用与UCB算法相同的数据集。
与UCB算法相比,汤普森采样算法产生了更好的结果(能够在尽可能少的回合中确定最佳广告)。
该算法的工作原理如下:在第n轮中,我们为每个广告i考虑两个数字:N1(n):-直到第n轮我获得奖励1的广告的次数,N0(n):-广告获得奖励0到第n轮的次数。
对于每个广告i,我们从以下分布中随机抽取:0i(n)=B(N1(n)+1,N0(n)+1)我们选择最高0i(n)的广告
1