中扑网cpf德州扑克论坛

标题: 关于纳什均衡的一些问题 [打印本页]

作者: kdurrr    时间: 2014-8-3 10:15
标题: 关于纳什均衡的一些问题
最近论坛关于GTO讨论得很激烈,然后去百度了下纳什均衡。下面是百度出来的一个例子。大家先来看一下吧。
" m" ~& M0 t+ K* ]; [! O7 R你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?这基本是废话,当然该。问题是,这个游戏公平吗?" Z" B9 o$ `3 F; ~
每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。1 I1 V) i! k7 j. r) Y( j2 X
你\美女
  T! v. B/ Z+ `4 @
美女出正面
( _4 O( K. H. ?% d3 p0 z1 b
美女出反面4 N+ S7 I1 H* x( P
你出正面( ]: A( p- t, D/ \3 {, D
+3,-3
3 u7 J! m4 p4 a3 \& d4 O; B
-2,+2
: w  x) x) t0 ?. D; D
你出反面0 _- e; P2 \6 R2 T; J( I
-2,+2( q2 A8 f) K9 @. a, J' B/ n
+1,-1+ Q4 D4 c# b, u: N- I1 v* s0 R
假设我们出正面的概率是x,反面的概率是1-x,美女出正面的概率是y,反面的概率是1-y。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,由此列出方程就是. q3 s( \5 `' P, @
3x + (-2)*(1-x)=(-2) * x + 1*( 1-x )0 X1 C1 W; F! e: w! K4 h
解方程得x=3/8。
: H' Y9 V6 J, |6 V5 k9 a同样,美女的收益,列方程7 T- @( F: G! [  `$ X' u" |+ P
-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)
% x9 {8 K9 G3 `9 p1 A解得y也等于3/8,而美女每次的期望收益则是 2(1-y)- 3y = 1/8元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。
0 o+ m  w; m% `7 N4 X. c" ]其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。如果全部出正面,每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元;如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合,所以期望还是-1/8元。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你肯定就会被美女采用的策略针对,从而赔掉更多。
% J% f9 W6 ]# s, I
9 I3 w) }  q5 K: A  X8 p) f
. X4 [- I! a: x. p6 }& b) g, u( d# z我的问题是当美女采取了(3/8,5/8)这个方案,我们是不是真的不能获胜了呢。如果扑克对手抓住了,3,5这么一个类似的平衡点,我们是不是只能避开他?想法很多,写得很乱。欢迎大家来一起讨论。
/ ?. q5 y8 l7 G
% v. b) O0 N. M& Y& G# C3 H: A
作者: xuefengxx    时间: 2014-8-3 11:07
纳什均衡应该就是这个意思,每一方都采取无论对方什么选择,对自己来说都是最优的选择策略,这样双方就会都在多次博弈里找到那个均衡点。
作者: FL-Hunter    时间: 2014-8-3 11:23
楼主是学霸 鉴定完毕
作者: kdurrr    时间: 2014-8-3 12:50
xuefengxx 发表于 2014-8-3 11:07
' I7 f( L9 R0 z4 a( c2 {7 V纳什均衡应该就是这个意思,每一方都采取无论对方什么选择,对自己来说都是最优的选择策略,这样双方就会都 ...
0 G. }- m% v: K+ M
问题在于我们打扑克是需要赢啊,GTO,不输不赢,输反水肯定不是我们想要的结果吧、当你发现对手有偏移漏洞的时候,你势必要采取压榨打法,才能产生利润吧。那时候对于其他的reg来说,你的策略也出现了偏移。就像石头剪刀布,或者硬币一样,最后演变得还不是人跟人,除非就是HU?不太懂。。
作者: kdurrr    时间: 2014-8-3 12:52
我的意思,简单来说,当美女用3.5这个策略的时候,他的对手马上意识到了,然后刚好用相反的,不是每把都赢?到那时候,美女又应该怎么办?
作者: xuefengxx    时间: 2014-8-3 13:01
kdurrr 发表于 2014-8-3 12:50
; G; g. b* v- r2 i# }. R问题在于我们打扑克是需要赢啊,GTO,不输不赢,输反水肯定不是我们想要的结果吧、当你发现对手有偏移漏 ...
4 x( l9 g: \* w3 A6 C
我也不太懂,只是理解些基本概念,也看过极简化的扑克模型经过数**算得到的均衡策略而已,顶多只是个思路,具体到德州怎么找到这个均衡不得而知。
3 O% t4 o. e! n! ?! h2 z( \- s3 j' m  ~1 e
但我的理解是,随着扑克水平的普遍提高,有一天所有的对手都博弈到基本不犯错误,每个人都找到首先立于不败之地的策略时,那时候真的均衡了。2 I  e. o) v( _6 U! k4 }

, u$ l1 \0 Q" y+ a  |我认为这种境况不可能发生,但掌握这个策略率,遇强不输,遇偏离就去挤压。
+ H* [: _- E. m3 T5 P7 |2 ]5 j
2 b( s" q2 D$ \5 J扑克确实可以演化到极度策略均衡吧。; j- H* Z# N/ o

/ @" M& Q, i2 N, i  g. f$ A我现在还是输输赢赢呢,这只是自己理解的GTO
  {8 l/ y% {  L# \: p. Z  I: m3 i3 ]8 ^: L, b3 s2 c
+ ?( N0 p. p* Z
& F2 ^# b4 i( G: ^8 p' t, v

作者: xuefengxx    时间: 2014-8-3 13:10
本帖最后由 xuefengxx 于 2014-8-3 13:20 编辑
" c' c) \7 J  |) Q0 G* n
kdurrr 发表于 2014-8-3 12:52
6 v' f- ^# Y/ k. I* ?3 t% B0 c- k我的意思,简单来说,当美女用3.5这个策略的时候,他的对手马上意识到了,然后刚好用相反的,不是每把都赢 ...
4 Y8 L! }7 W3 \9 J% u) O
把纳什具体应用到德州不得而知,但纳什均衡是一个确定占有策略,是不管对手如何变化,预期收益都绝对稳定的选择,在不断反复博弈中,对手也必然会选择相应的测率。  感觉上到这境界已经是程序化的出牌了。
7 w; q# V. |* X) H  U# B9 J8 {你的例子里美女要是采用了这个策略,那结果就像1+1永远等于2那样结果确定了。
, d2 n( K; q+ Q8 C1 s& g. J; E' G0 r$ ~1 D, v- G
当然美女是人,有血有肉有欲望活,会有失误,会有TILI.当对手不按相应的策略应对,她可以有很多调整吧。  
+ s1 G" B' k' i3 J' Q
/ P. m, p* M* u% {' U% i纳什均衡不是一定会赢,定义是绝对稳定的博弈结果——0 i# R, J8 {% i4 ^  X3 e  Y

) ?) U: {* ?8 p这不是也等着,高手们再往下细说呢。! S$ a, H, p& ~5 A3 l

9 L2 H# t, Q0 O$ Q2 R
作者: kdurrr    时间: 2014-8-3 13:22
xuefengxx 发表于 2014-8-3 13:10; v; M8 X* P# f3 w% E3 Y
把纳什具体应用到德州不得而知,但纳什均衡是一个确定占有策略,是不管对手如何变化,预期收益都绝对稳定 ...

$ D. ~: N# A: H& f! M" m6 }简单来说,。如果GTO是面对其他所有策略不输不赢,我们现在假设扑克上所有对手的策略(reg fish都包括),你都做到不输不赢,然后,你就输了反水。。。。?。你面对其他的选手,做出偏离,就不再是GTo啦。
作者: 南山一只狐    时间: 2014-8-3 13:25
本帖最后由 南山一只狐 于 2014-8-3 13:27 编辑 " Q0 x* M* y) R3 |; P
% r* ?( U* D8 Q$ s8 P& n6 v+ P, G
是啊,你不能获胜,因为你这个游戏的模型,就是一方有优势的。但是,在这个例子中,当你把的损失降低到最小的时候,也是一种变相的赢了。你至少战胜了自己。
作者: xuefengxx    时间: 2014-8-3 13:28
本帖最后由 xuefengxx 于 2014-8-3 13:36 编辑
) B- M; Y2 ?1 M9 Y: ]
kdurrr 发表于 2014-8-3 13:22, L" N2 C& q: p, ]+ y5 d+ n
简单来说,。如果GTO是面对其他所有策略不输不赢,我们现在假设扑克上所有对手的策略(reg fish都包括) ...

$ q3 q7 ]: M* ^我认为要是把GTO定义的狭窄的话,应该是的
* P! t/ e, \. G: ZGTO对GTO结果应该永远已经确定
$ ?6 {2 y- b; `% S; U% d% Q& w: q, Z6 Z8 S+ c8 o9 W& L! _) p% V
相互偏离,博弈无绝胜,谁赢谁输就不确定了
+ U0 Z' T) m7 H/ D3 e! l9 {-----------
) j) M: \  l) l6 O6 x" Y5 Y; l* _我不能理解的是,德州牌型组合那么多,即使有GTO策略。毕竟是人脑怎么做到,大量的记忆,坚决的执行,不可以想象。。。( r' w6 K& G: J. N# P5 L! j3 c

9 s( |% l! o% [. Q1 ]" T$ H智商捉急,静等下文
2 c" N7 H4 S: l2 Z3 j$ h/ E) J
作者: valtano    时间: 2014-8-3 20:59
恩,看了以上讨论又对扑克恢复乐观了




欢迎光临 中扑网cpf德州扑克论坛 (https://forum.dzpknews.com/) Powered by Discuz! X3.4