acpass

純粋戦略ナッシュ均衡

知識マップ

経済(ミクロ)用語

ひとことで言うと

ゲーム理論の「ナッシュ均衡」は、全員が相手の戦略を読んだ上でベストな行動をとっており、誰も戦略を変えたくない状態。囚人のジレンマはその典型例で、個人の合理的な選択が集団全体にとって悪い結果をもたらすことを示す。

囚人のジレンマの利得行列。両者が協力すれば(黙秘/黙秘)でお互い利得3だが、一方が裏切ると裏切り者は5を得て相手は0。両者裏切りのナッシュ均衡(1,1)が支配戦略均衡となり、協力均衡(3,3)より劣る。囚人のジレンマ(利得行列)プレイヤーB黙秘(協力)自白(裏切り)プレイヤーA黙秘(協力)自白(裏切り)3, 3協力均衡(最適)0, 5Bが得する5, 0Aが得する1, 1NE(支配戦略均衡)支配戦略:どんな相手の行動にも「自白」が最善→ 両者が自白(裏切り):利得(1,1)がナッシュ均衡ジレンマ:個人合理性(NE)が集団合理性(3,3)を下回る

囚人のジレンマの利得行列(A, Bの利得)。両者が「自白(裏切り)」を選ぶ(1, 1)がナッシュ均衡(支配戦略均衡)。協力均衡(3, 3)はより良いが、個人合理性から逸脱してしまう。

数式で表すと

各プレイヤーが他のプレイヤーの戦略を所与として自分の利得を最大化している状態。誰も単独で戦略を変更するインセンティブがない。囚人のジレンマでは支配戦略均衡(非協力)がNE。

ゲーム理論の基本概念: ・プレイヤー:意思決定者 ・戦略:選択肢の集合 ・利得:各戦略の組み合わせに対する結果(利益・効用) ・利得行列(標準形):各プレイヤーの戦略と利得を行列で表現 ナッシュ均衡(Nash Equilibrium:NE): 他のプレイヤーの戦略を所与とした場合、いずれのプレイヤーも戦略を変更するインセンティブを持たない状態。 \text{(戦略の組み合わせ }s^*\text{がNEである)} \Leftrightarrow \forall i: u_i(s_i^*, s_{-i}^*) \geq u_i(s_i, s_{-i}^*) 支配戦略: 相手の戦略が何であれ、自分にとって常に最善の戦略。支配戦略がある場合、合理的プレイヤーは必ずそれを選ぶ(支配戦略均衡)。 囚人のジレンマ: ・両者が協力(黙秘)すれば(3, 3) ・一方が裏切れば裏切り者は5、相手は0 ・両者裏切りが支配戦略均衡(NE)→(1, 1) ・社会的最適(3, 3) > NE(1, 1):個人合理性と集団合理性の乖離

試験に出る性質

支配戦略とナッシュ均衡の違い

支配戦略:相手の行動によらず「常に」最善。NE:相手の行動を所与とした条件での最善(相手が変わると変わるかも)。支配戦略均衡はNEだが、NEは必ずしも支配戦略均衡ではない。

囚人のジレンマの現実例

価格競争(値下げが支配戦略→利益悪化)、軍拡競争(増強が支配戦略→安全保障ジレンマ)、カルテルの不安定性(裏切りが支配戦略→カルテル崩壊)。いずれも個人合理性が集団合理性を下回る構造。

複数ナッシュ均衡(協調ゲーム)

性別の戦い(Battle of the Sexes):夫婦が別々の余暇を望む場合、両者が同じ行動を選ぶ均衡が複数存在する(どちらを選ぶかが問題)。焦点(フォーカル・ポイント):文化的慣習などで自然と収束する均衡。

例で見る

囚人のジレンマの解析: Aが自白を選んだ場合:Bが黙秘なら5>3→自白が最善、Bが自白なら1>0→自白が最善 →「自白」がAの支配戦略。対称性からBも「自白」が支配戦略。 NE = (自白, 自白)→利得(1, 1)。協力均衡(3, 3)は達成されない。

つまずきポイント

  • 「ナッシュ均衡は相互の最善反応の交点」。相手の行動を固定したときの自分のベスト選択を「最善反応(ベストリプライ)」と呼び、その交点がNE。一方的に変更しても得にならないことが条件。
  • 「ナッシュ均衡が複数存在する場合がある」。どの均衡になるかを理論だけで決定することは難しく、慣習・コミュニケーション・フォーカル・ポイントなどが均衡選択に影響する。

定着クイズ

ナッシュ均衡の定義として正しいものはどれか。

囚人のジレンマについて正しいものはどれか。

支配戦略とナッシュ均衡の関係として正しいものはどれか。

関連:#K024#K025

この用語を扱う問題(0