- 竞技币
- 291
- 威望
- 1
- 经验值
- 261
- 竞技币
- 291
- 威望
- 1
- 经验值
- 261
- 注册时间
- 2014-8-1
- 最后登录
- 2015-12-7
|
本帖最后由 南山一只狐 于 2014-8-1 17:14 编辑
( _ s6 N/ ?5 j% z2 C4 H& b, t# Q3 Z2 Z" z
我找了一下,我看到的那几本书,请问在哪一章,哪一节里面是这个例子。: F$ k& J3 ?8 @/ M& k1 ~6 F
& `; `4 i: M2 g+ ?3 O8 {; M
我个人的理解,按照博弈论理论上来说,你的这个例子。 P- U# m( V; q, H9 R; @! N
实际上存在着若干个nash 均衡:6 u; C7 D- w" T& J
我们可以列出来 玩家1,与玩家1 不同策略的 收益。- v8 g, \) ]9 _% k4 d
我想尽可能简化所需要用到的数字,更能帮助我们理解。
- Q+ t9 A3 L$ V8 b) {假设底池中有1块钱,我们都剩余10块钱,抽水很重有10%。- b/ r# @6 U5 T$ g
我们依然用行动结束后的筹码量作为参考,这个是 will tipton 那本书中介绍的一个参考方法,比较容易让人理解。你既然推荐那本书,你应该也是支持的。
2 t3 Y6 W% D$ f# A* N. }: I- f我主要打husng,我忘记抽水到底怎么计算了,我假设 当某位玩家赢下这个底池的时候, 这个底池就被抽掉10%
' w2 e* H/ b( {7 `. E
( d) v% ?9 r. d# r. z. |# K那么玩家1 push ,玩家2 fold 。 各自的筹码会变成:
1 o& x& i: @ s8 C玩家1 = 10+1*0.9 = 10.9
- E8 ~. f0 U+ l# E2 ~- L玩家2 = 10
# |" H4 O0 [$ C. K4 m+ ~9 |, d* F% ^5 @) i3 J3 S
如果玩家1 push ,玩家2 call 。各自的额筹码量会变成:
. x" u9 {7 z# ^8 W玩家1 = (10 + 10 + 1) *0.5*0.9 = 9.45" i/ Y! v4 |+ q7 w c6 y4 t9 D
玩家2 = 玩家1 = 9.45' H3 w, S& T- B9 S
; s+ d7 y; }* y! M4 @: x# q; W- K
如果玩家1 check , 玩家2 push,玩家1 跟注。 各自的筹码会变成:
3 Z0 I& j. Y: d" A) L' b. X n玩家1 = (10 + 10 + 1)* 0.5*0.9 = 9.45* ~2 H7 s3 i, Y* V. x- I! I7 {( E
玩家2 = 玩家1 = (10 + 10 + 1)* 0.5*0.5 = 9.45
3 e G; x4 V6 @* x0 z
1 _ e* y9 `0 d4 z3 p5 p5 j' W/ j }* p
如果玩家1 check ,玩家2 push ,玩家1 fold。各自的筹码会变成:7 H' K* ?. f: m/ t7 ~/ Z- _
玩家1 = 104 c, r( S, Q6 a8 {/ |
玩家2 = 10 + 1*0.9 = 10.9* H) Y0 C; W3 J2 S; m+ q* q" V
' w) K2 s; E( N/ y
如果玩家1 check ,玩家2 check 。 各自的筹码会变成:
8 W, o) { R( n3 F$ d0 n玩家1 = 10 + 1*0.5*0.9 = 10.45
1 _: m+ h/ ^0 ]5 \) N- W玩家2 = 玩家1 = 10.45
. T8 W+ I& q4 [0 j
: p% E8 n7 i: ^3 E5 @我们可以把这些收益输入到一些博弈论的相关软件中去找到结果。2 q! l: d8 |4 v# U
Gambit . 这个东西那位作者也提到过,我们就使用他。
6 g: c9 X1 e+ S' m软件模拟后,给出我们8种 nash 均衡:: u$ G6 ]& s2 Y5 \: ?2 r. v
9 S5 r- }) V$ y# @nash 1:# q8 X# [& u! [/ I: \! C, G
2 o/ e: s6 P8 q% c+ C
0 e/ @6 K4 F2 }6 E1 g3 O3 O5 V8 u
2 P5 e! f2 G9 U7 xnash 2:
% F; z. T+ l- V
+ `, O( B; q$ |+ p- f/ M/ K
& _1 [- Z8 v: c- X: y4 _8 W) y) `; }2 o) K2 D' d
nash 3:
7 G* l$ ]. q! P- i& d f, Z2 r1 s1 Z8 C- Z* f8 `7 M! M8 a* z* ?
) Z+ y5 R0 k; _nash 4:% [ E# o# S- a, t* j
5 T6 U4 ]& D7 x( W0 X" a3 X7 ~& l2 e
& X: l, }, z9 G% c R9 ]nash 5:& ?; Y# J+ e; M# Q! j0 m6 t3 }
( g1 w7 s3 G T- s0 p, C: \$ e
9 n8 b" }* a4 x5 ^
% p6 M& y3 A3 M4 F4 W7 T: z" I- K" i- s! _0 x5 q4 d
nash 6:0 ~! w: t& h0 q: x
0 [! b. M" k- W% H
4 Q! t3 i9 s$ n$ o, ?( Z
% \6 v6 o& t8 f% f/ m
我的论坛权限只能上传这些图片了,7和8 就不传了。
' ]4 |) E& h8 |7 O- u8 P4 h, L8 W# e; z5 D2 l( O1 ]
由于nash 1 与 nash 2 中,玩家1 是不存在check 的,因为他的频率是0% 。 所以他无法计算出,玩家1 check 之后,玩家2 push 的频率。
6 Q3 ?/ f0 H. T. c所以在那个红色的玩家1的面对玩家2push 选择中 call 与 fold 用星号来表示。2 i: t8 I( r9 S; p
这个是我自己理解的,我自己去google 查了一下,实在找不到答案。如果你对软件方面研究比较透彻麻烦告诉我一下。
6 E8 [+ B' O9 n& S9 B$ y6 L# ?' v- j W* O2 O& i# g. R
出现多个 nash 均衡我并不觉得奇怪,因为 一些 博弈论专业的课程中的很多例子,都是存在多个均衡的。
$ G( q0 b7 F2 P5 [5 h* y. P我想你也是知道的。
* I6 k) r% \( l2 s# O& k9 Z _. ^. k0 k
而且你例子中的这个玩具游戏本身,就是这样。长期 run 下去,是会有人开始调整的。不可能永远处于一种均衡。 c% `/ q8 _, _% Z' B; @
, Y! M$ i' u l! B, l
我想请问你,如何看待这种多均衡。
/ j- ^) w% g2 i$ i# _/ i/ _# v& d' T你是否依然坚持,书中作者所说的观点。
- l9 P& p! i( ?# ]他所指的那里是GTO了。 就一定是GTO了。9 H! x% n' H. N* t7 V6 T) a
) g, U9 ^! W- ]- r. w; H& r+ R( m! g因为,我想到了一点,既然我们在现实游戏中的对手,在面对我们抢先 push 以后, 绝大部分的时候,都会 call 的。5 H/ Y! J$ z7 u9 M; P! T
那为何,玩家1,还会依然毫不犹豫的 push ,去坚信这就是GTO策略,就一定要这样做。
# d9 s" s7 ]3 H' W" s- J4 ^' G* V; X! n& g
我想,你既然写了那么多东西,思考的如此深入,你有没有想过你自己举例的问题中的这些反例,并用相关的软件去模拟。
) S3 p' [' m( D1 g+ u! f- W# O4 P或者自己做一些手工的数**算。
6 D8 d+ z6 t4 O4 U, k; O4 H/ x9 f
& {7 o+ M$ A2 h) ~$ b6 ~另外人工智能在扑克中的应用究竟是什么 能否科普一下。
5 [+ j* E1 b: r }7 y5 x |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|