- 竞技币
- 1012
- 威望
- 49
- 经验值
- 720
- 竞技币
- 1012
- 威望
- 49
- 经验值
- 720
- 注册时间
- 2014-7-30
- 最后登录
- 2017-1-4
|
本帖最后由 技术哥 于 2014-7-30 14:47 编辑 6 {- }5 [. c2 |" |4 Q. |
# f# T9 X& P k技术哥专注智能扑克多年。给大家分享一些自己的心得,包括该领域一些最前沿的动态的进展如果看完能学到哪怕一点有用的知识。点个赞。+ E$ x. V2 f" B0 n V' t/ N
/ z% @% [( B- @- E: F! ]2 w6 \3 L+ k
文字基本是平民语言,尽量让大家懂。有问题尽量回答。
. a! f, `6 p. T2 U1 j# J# V4 b8 b3 h, \* m4 e- D. U# ]( y% H0 h- K
GTO的领域内容很多。分4个主题来写帖子,基础篇,SNG, CASH, 人工智能' s6 j1 j# e$ Z( q) O
7 m' R$ W4 g3 n) Y=================2014年7月30号====================
6 s7 ?8 Y) Z1 w' n5 ^. V! o
/ `' ?9 Z: N* D5 IGTO(Game TheoretiCALLy Optimal) : 传说中最优游戏策略。 但不是最好的。。。为什么叫最优呢?相对于你老是输钱来说。它确实最优。。因为它能让你不输钱。 那什么是最好的策略:EO(Exploitatively Optimal) 压榨性策略。
; ^$ x# \7 a6 K: H
# C4 Z7 Y( V6 k1 D, z Q凡是有动态博弈的地方就会存在Nash(纳什均衡),德州扑克是个典型。 GTO就是指的动态博弈中的纳什均衡策略。这是个防守策略,永远可以让你不输,也不赢^^.2 T; C7 j& ~# Y' I
5 d* }# c0 T: ?) ~6 P, L9 w
GTO最典型的例子就是 石头,剪刀,布的游戏,当你做到真正随机的出1/3,石头,1/3,布,1/3,剪刀的时候,玩足够多的盘数,你不会输也不会赢。 $ ^, ]' J( q7 N$ G7 T' w9 ]% }% l
但是....... 还有种叫 序列石头剪刀布的游戏。就是每次游戏,总有一个人先出,一个人后出。后出的有明显的优势。可以依据第1个人的行动而行动。 所以就算第1个人采用随机1/3的nash策略。他也死定了。。。这个更像德州扑克的cash, 现金桌的就是序列的。。总有个人先出牌。 后出牌的人有位置优势。+ q# _5 O! p, B1 M& d8 f; q: ?3 S
& e( o, @1 F) x# \) \
再看个游戏:2个开车的在一条路上 相向而行。 都往前冲(push),最后两人撞死。谁先停( fold ),谁就丢脸。。 我们规定下2个开车的,让有个人先行动。一个人后行动。 这个就很像SNG了。这个和石头剪刀布(cash)的游戏不一样。 cash是个零和游戏。而这个SNG,赢的不能获的输者的全部。 所以单纯的SNG是有没 nash均衡策略的。 sng的nash均衡是建立在icm的基础上。所以大家玩sng说的nash范围,是指icm-nash的正ev范围。4 k9 J$ a# t% e6 a7 C: m
+ [2 t' n# h+ E7 K8 Z+ a# m
那么有人要问:在sng中,比如最简单的hyper-sng中,我完全按照 ICM-NASH 的正EV范围来打。稳定盈利么? 很多人都相信,82也相信。 不幸的是....我以前也相信。虽然一直有怀疑。。/ c& W+ q' w3 X$ m/ N: x
答案是:hyper-sng的 纯nash打法。只能保证你不输。但是也不能赢。会输给抽水。 如果你采用nash的正ev范围打法,就算你有个对手每次只用AA和你all-in,或者盘盘都是用100%的牌all-in你。。。长期下来你们都不输不赢。但是盘盘被抽水。不过。利润还是有。来自哪里?? 来自其他玩家的ICM-泄漏。 如果其他的对手比较菜,不明白ICM-的泄漏。。极端的情况。另外8个猪一样的对手一开始就同时all-in了。ICM的泄漏自动增加了你的EV. 这就是纯nash打法唯一的利润点。。并且这个利润要大于抽水才行。中高级的sng.多少懂点icm, 只有低级别的玩家才可能犯错泄漏给你。。。 所以这个利润非常少。。而且我曾经自己试验过超过5000局。( k5 U5 S8 m: o: u+ N2 }
% j* a7 q5 {1 K' U2 A
' L- Y7 F6 S& o7 C; @7 |: w
还有人要问:在cash中,只要是+EV的动作,长期下去,是不是一定稳定盈利。很多人都迷信。
& {7 D" B; j+ _) a* S c5 ]" i, e1 E0 h0 ?& ~
答案是: 不能。原因如下:EV分2种,绝对ev和相对ev,我们平常说的+EV,都是说的相对EV.必须有个对照物,比如这个Bet的动作,相对于check是+EV的。 比如你在 0.5/1 的局 你在大盲位置,用 5-4s 来保护盲注。你call的ev:-0.35.相对于你fold的ev:-1 而言。 你的动作是+EV 的。+的EV是0.65 。 虽然你还是会输钱。 再比如你有一对AA,是Nuts在river上了。你check相对于于bet 是-EV的。虽然是-EV.但是是赢钱的。所以。EV的计算也许可以让你少输多赢。但是不能确保你稳定盈利的。$ p7 p" t$ R. q0 G5 a9 w3 a
9 b) [6 _4 R, g) r
8 W6 Y+ O( D( }
那么GTO-也就是nash均衡策略在扑克中到底有什么用呢。。
9 Y- D- |" W# r: r
4 {, z+ _* D$ M0 s" u& {8 O9 X4 \一句话:GTO策略告诉你每个玩家的均衡点。 在实际打牌中你找到他们和均衡点的偏移。然后采用EO(压榨性打法)去压榨他们的偏移。+ c9 e' h$ W5 P/ w- h
4 x$ `/ X- W1 ^. N高手之战特别是单挑,2个人都不停的在压榨对手,同时暴露偏移给对手压榨。最后比的就是谁发现的早,调整的快。
: U0 r6 g1 C9 V! B% n5 T9 a% F! N
举2个简单的例子。+ F7 ?; R; D' O* F- ]6 j9 y
& s: b4 c+ q. G4 c8 V
sng中: 6人桌,每人1500的筹码,盲注已经到了100/200 ,我们是大盲位置,玩家都弃牌到小盲,小盲1500的筹码push你。call什么范围。ICM-NASH结果告诉我们均衡点是 SB push 64.6%的范围,BB call 39.7%的范围。。 这是均衡点。
: b, Y% _3 D) i+ L2 b1 q* D 但实际我们知道小盲偷的凶。不到10个BB了,肯定会100% push 我们。那我们call多少呢。。用sng-wizard得到 call 59.3% (J6+). 如果你没有可以马上计算的sngwizard, 那么最简单的方法就是,比对手的偏移量少就行了。 比如SB偏移了100-64.6 = 35.4%,我们肯定也要call松些。我们也偏移10-20%,偏移不精确没关系,因为范围边缘的牌ev值比较小,这部分牌是扔硬币的。 所以如果自己估算,call到54%左右比较合适。(wizard是call到59.3%)4 h2 B8 r" D' x% ]2 Z
$ [" A, u# g# O: G7 Q
4 a/ d+ O! k0 C& n. n% s9 f9 F! s
cash中: 盲注: 0.10/0.25 底池 是1,手里有筹码 24.50 公共牌型是 A(黑桃) K(红桃) Q(方块) J(樱花) T(黑桃) ,到river这里就剩2玩家。。 第1个玩家Push or Check ? 请先自己思考。。。。。!!! 提示:抽水是5%* S5 O9 x) a. S: c, Y
9 ?8 _, J T0 Y' z; E# U, ~4 l1 a
) x& L2 u, T7 a+ u: \& G
. | V `' n. i: O1 [ 答案:这种情况很常见,公共牌就是NUTS. 如果第1个玩家push了,第2个玩家不能call, 因为call 的话要花费24.50,但是抽水就是2.5 .所以call的玩家只能拿回23.75. 损失0.75 。 所以这种情况的GTO策略是 第1个做动作的玩家push,得到0.95,第2个做动作的玩家应该fold.. 不然就都损失0.75....想下你平时这种情况,你先动作的时候是不是check了?后动作的时候速度call了?% G. l; l& R8 [8 T2 o4 y0 L5 |' G! T2 l
2 s& g6 d) \8 t" S5 A( `* i9 q/ X8 Y3 f上面2个例子是比较简单的GTO.下次我会从cash的2人单挑开始讲pre-FLOP,flop,turn,river等各个阶段的GTO策略和原理。
5 v/ }7 A8 y1 Y" f- Z( S! a
% K) `2 p- R4 I Q================================================================
# ?+ `: f% l, P6 X* g9 s/ ]& Q0 t6 R# s1 p; i: j3 z6 g
技术哥答疑板块: . f" }1 n; B( M, ^- M3 q! p* ]
5 x8 q0 V8 ?/ V% G7 r; ?% g+ D
有人经常在问。如何算碾压了了一个级别,多少手的样本能够说明我站稳了?" h5 s% D1 _3 P3 y6 J+ P/ q
- `& o6 `; _4 }3 c1 I
我来回答大家最关心的一个问题:cash和sng中 多少样本量能说明是否站稳这个级别。足够多的量是多少量呢?
- E s3 T( X+ _% r q4 q- q1 J, E' M
公式: Long Run = 4*(SD/W)^2*period (w是 赢率 w/period,一般是5bb/100 ,period = 100,w = 5) 5 Q: A) n- A) H% ?
(SD是standard deviation, 和期望有关,无限9人满员桌,标准的SD大约 85bb/100,6人桌标准的SD大约95bb/100): x. n, i- Z% `$ X
' w' `# Z# C7 h3 ^/ N( X/ a 例如:在cash中,你当前的赢率是 8bb/100,SD是90bb/100 , 那么 Long Run = (4)[(90/8)^2]*100 hands = 50625 hands
1 S- D Q* V" f( E7 I6 j$ |, C2 a9 y% L' T# |5 ^' i
就是说 50625手牌就是足够的样本量。证明你的确有8bb/100+ q+ B% v0 Q! v. @
+ A4 P' d W! _1 w
在 sng中,SD 和 奖励结构有关,还有ROI和买入大小也影响。这里直接说结论。
: j( Z* v0 c5 \8 ^& w4 F6 C+ `: K
! W' D! E# T: q. i% `4 M/ k 假设你是平均每场买入1.55的SNG
& P8 o5 W( y* g4 M/ H4 w' { w7 ~ ROI Long Run6 Q6 U' v* S) }8 H# |2 P8 S% E
15% 427 场0 W3 y4 R- e. M
10% 961
) O) v0 S3 r0 n 7% 1961( i A2 o( b( ]1 ]7 g/ N7 q6 \
5% 3844
5 C R$ K- w5 N 3% 106788 k9 m1 F- h4 r: C
1% 96100
' J. q- ] a# A0 Z" F5 V -2% 24025% S+ g. G2 n0 a1 u' \
-35% 78
% K7 _1 k- Y# ^; I1 @5 T q, M( Q" z+ s
可以看到,Roi 越接近 0,需要的样本量越多,该结果不包括反水,比如你5%的roi,加2%的反水,就可以看7%了。 最苦的是1% roi的玩家。。。可能需要10万场才能知道自己是否能站稳当前级别。。。。
& t& \9 a! c( x5 {( T! ?9 D# f: r7 [3 C1 ?( p- J# G& t5 a
================================================================
( I' u( C6 Y" T1 G2 T7 ?- a# V
! `9 `$ O5 E0 h0 G4 Y! @
2 s4 N0 K' n5 V1 v; S9 o) Z |
评分
-
查看全部评分
|