繰り返しゲーム・トリガー戦略

経済（ミクロ）・用語

ひとことで言うと

一度きりの囚人のジレンマでは裏切りが均衡だが、同じゲームを無限回繰り返すと「今協力しなければ未来永劫報復される（トリガー戦略）」という脅しが信頼できるものとなり、協力均衡が成立する。ただし将来を重視するほど（割引因子δが大きいほど）協力が維持しやすい。

無限繰り返しゲームでの協力（毎期3）と裏切り後（1期目5、以降1）の比較。協力の現在価値3/(1−δ)が裏切りの現在価値5+δ/(1−δ)以上なら協力均衡が成立（δ≥1/2が条件）。

協力維持条件（囚人のジレンマ）: $\delta \geq \frac{背信の短期超過利得}{協力の長期損失}$

同一ゲームを複数回繰り返す状況。有限回繰り返し：後向き帰納で最終期から非協力が溯及する。無限回繰り返し：割引因子δが十分大きければトリガー戦略（グリム・トリガー）で協力均衡が成立。

繰り返しゲームの種類： ① 有限回繰り返しゲーム：　最終期にさかのぼって後向き帰納法を適用　→ 囚人のジレンマでは最終期に非協力→前期も非協力→…→全期間非協力に逆行　（端点問題・後向き帰納の崩壊） ② 無限回繰り返しゲーム（割引因子δ）：　将来の利得を現在価値に割引。割引因子

0 < \delta < 1

。　協力均衡の条件（トリガー戦略のもと）：　

\frac{協力利得}{1-\delta} \geq 裏切り利得 + \frac{\delta \times 非協力均衡利得}{1-\delta}

囚人のジレンマへの適用（協力=3、裏切り1期=5、非協力=1）：

\frac{3}{1-\delta} \geq 5 + \frac{\delta}{1-\delta} \Rightarrow 3 \geq 5(1-\delta) + \delta \Rightarrow \delta \geq \frac{1}{2}

→ δ≥1/2 なら協力均衡が成立（フォーク定理）トリガー戦略（グリム・トリガー）：「相手が協力する限り自分も協力。相手が1度でも裏切ったら永久に非協力」

フォーク定理

「δが十分大きい無限繰り返しゲームでは、個人合理的な利得の組み合わせならほぼ何でもナッシュ均衡として実現可能」という定理。繰り返しゲームでは協力から談合まで多様な均衡が存在しうることを示す（均衡が多すぎるという問題も）。

有限繰り返しでの例外

有限回でも繰り返しゲームに複数のNEが存在する場合（第1段階のゲームに複数のNE）、それらを報酬として使うことで協力を引き出せる場合がある。「有限回でも常に非協力」は単一NEのゲームに限る話。

δと現実の対応

割引因子δ＝1/(1+r)（rは割引率）。δが大きい＝将来を重視（忍耐強い）。企業間の繰り返し取引では長期的関係・評判が協力を支える。δが小さい（短期指向・高離脱率）ほど協力が崩れやすい。

囚人のジレンマを無限回繰り返す（協力利得=3、裏切り超過利得=5-3=2、非協力利得=1）協力維持条件：δ ≥ 超過利得/(超過利得+将来損失) = 2/(2+2) = 1/2 （将来損失：毎期3→毎期1に変化=毎期2の損失） → δ≥0.5（年率50%以下の割引率）なら協力均衡が成立

「有限回繰り返しでは後向き帰納により協力が成立しない（単一NE案件）」。最終期に非協力→その前も非協力…と逆行する。無限回繰り返しや複数NEがある場合は協力均衡が成立し得る点を混同しない。
「割引因子δが大きいほど協力しやすい」。δは将来利得の重みを表し、δが大きいほど将来の罰則（永久非協力）が重くなり、今の裏切りの誘惑より将来の損失が大きくなる。δ=1で割引なし（将来も現在と同等に重視）。

有限回繰り返し囚人のジレンマ（単一ナッシュ均衡）について正しいものはどれか。

無限回繰り返し囚人のジレンマで協力均衡を支えるトリガー戦略の内容として正しいものはどれか。

無限繰り返し囚人のジレンマで協力利得=3、裏切り時利得=5、非協力利得=1のとき、トリガー戦略で協力均衡が成立する割引因子δの条件はどれか。