Soluzioni in Equilibrio Nash

Transcript

Soluzioni in Equilibrio Nash
Strumenti della Teoria dei Giochi per l’Informatica
A.A. 2009/10
Lecture 3: 11 Marzo, 2010
Equilibri di Nash misti
Docente Prof. Vincenzo Auletta
Note redatte da: Vincenzo De Maio
Abstract
In questa lezione viene introdotto il concetto di equilibrio di Nash misto e viene enunciato
il teorema di Nash. Queste note sono basate sul paragrafo 3.1 di [?] e sui paragrafi 1.3 e 1.4
di [?].
1
Equilibri di Nash misti
Una strategia mista per un giocatore è una distribuzione di probabilità sull’insieme delle sue
azioni. Possiamo vedere un gioco strategico con strategie miste come un gioco in cui ogni
giocatore ha come azioni possibili ∆(Ai ) = {insieme delle distribuzioni di probabilità su Ai }
(un insieme infinito, convesso e compatto) dove le possibili soluzioni sono i profili di strategie
miste scelti dagli agenti e l’utilità per ogni soluzione è l’utilità attesa dal giocatore rispetto
alla distribuzione di probabilità su A1 × A2 × . . . × An definita dal profilo di strategie. Sia
s = (s1 . . . sn ) il profilo di strategie miste dei giocatori. L’utilità attesa dalla strategia S per il
giocatore i sarà dunque
X
Ui (S) =
ps (a) · ui (a).
a∈A
Le scelte casuali degli agenti sono indipendenti e quindi
ps (u) = s1 (a1 ) · s2 (a2 ) · . . . · sn (an ).
Quindi se il gioco é finito possiamo dire che
X Y
Ui (S) =
·( sj (aj )) · ui (a).
a∈A
j
Notiamo che ogni equilibrio Nash puro é anche un equilibrio Nash misto dove ogni giocatore
gioca la strategia degenere ei (ai ) che assegna probabilità pari a 1 all’azione ai e 0 a tutte le altre.
Riconsideriamo ora il gioco Battle of Sexes visto nella lezione precedente e diamo un’intuizione
di come fare a trovare gli equilibri di Nash misti.
Esempio 1: Battle of sexes
Richiamiamo per comodità la matrice dei payoff del gioco:
B
S
B
5, 6
2, 2
S
1, 1
6, 5
Si dice supporto di una strategia si l’insieme degli ak ∈ Ai tali che si (ak ) > 0. Sia S = (s1 . . . s2 )
un equilibrio Nash. Possiamo vedere che ogni azione ak che si trova nel supporto della strategia si
1
2
Lecture 3: Equilibri di Nash misti
deve essere una best-response a S−i , altrimenti il giocatore potrebbe modificare la sua strategia
mista diminuendo la probabilità di giocare ak e ottenendo ottenendo in questo modo un’utilità
attesa più alta. Ma, se tutte le strategie nel supporto sono best-response allora devono fornire
tutte la stessa utilità attesa. Possiamo usare questa proprietà per trovare gli equilibri di Nash
misti del gioco.
Sia S = (p, q) un Equilibrio Nash misto e supponiamo che le azioni possibili per i due giocatori
siano A1 = (a1 , a2 ) e A2 = (b1 , b2 ). Se il supporto della strategia p è (a1 , a2 ) allora u1 (e(a1 ), q) =
u1 (e(a2 ), q), dove e(ai ) è la distribuzione degenere che assegna probabilità 1 all’azione ai e 0 a
tutte le altre azioni, e quindi
q(b1 ) · u1 (a1 , b1 ) + q(b2 )u1 (a1 , b2 ) = q(b1 )u1 (u2 , b1 ) + q(b2 ) · u1 (a2 , b2 ).
Applichiamolo la precedente osservazione a Battle of Sexes utilizzando la matrice dei payoff data
in precedenza. Sia S = (p, q) un equilibrio di Nash misto senza strategie degeneri. Allora la
condizione sull’uguaglianza delle utilità ottenute dalle azioni nel supporto implica che
q(B) · u1 (BB) + q(S) · u1 (BS) = q(B) · u1 (SB) + q(S)u1 (SS)
da cui abbiamo che
5q(B) + q(S) = 2q(B) + 6q(S)
. Inoltre, poiché q(·) è una distribuzione di probabilità abbiamo che q(S)+q(B) = 1. Risolvendo
il sistema lineare otteniamo che q(B) = 85 e q(5) 38 .
Analogamente, per il giocatore 2 abbiamo che
p(B)u2 (BB) + q(S)u2 (SB) = p(B)u2 (BS) + p(S)u2 (SS)
da cui otteniamo
5p(B) + 2p(S) = p(B) + 5p(S).
Imponendo che p(·) sia una distribuzione di probabilità otteniamo che p(B) =
Quindi (( 37 , 74 ), ( 58 , 38 )) é l’unico equilibrio di Nash misto per questo gioco.
3
7
e p(S) = 47 .
Gli equilibri di Nash misti non esistono sempre, ma Nash, nel 1951, ha provato il seguente
teorema:
Teorema 1.1 (Teorema di Nash) Ogni gioco con un numero finito di giocatori che hanno
un insieme finito di azioni possibili ha un equilibrio Nash misto.
La dimostrazione originale é esistenziale e basata sul teorema del punto fisso di Kakutani.
Consideriamo la funzione Bi : A 7→ 2A tale che ad ogni outcome a = (a1 . . . an ) associa l’insieme
delle strategie che sono best response per i al profilo di strategie a−i . Allora un profilo di
strategie (a1 . . . an ) ∈ A é un equilibrio Nash se ∀i, ai ∈ Bi (a). Se riscriviamo queste limitazioni
in forma vettoriale possiamo dire che a ∈ B(a) che equivale a dire che è un punto fisso per la
trasformazione B. La dimostrazione di Nash è basata sul teorema de punto fisso di Kakutani
che stabilisce l’esistenza di un punto fisso per Bi se
• A ⊂ <n é convesso e compatto
• ∀a ∈ A, B(a) é non vuoto e convesso.
Lecture 3: Equilibri di Nash misti
3
• ∀ {an } e {bn } tali che bn = B(an ) an → a e bn → b B(a) = b
Nash ha provato che il dominio A dei profili di strategie é convesso e compatto e dimostrato che
la best response function B soddisfa le altre proprietà. Molte altre prove del Teorema di Nash
sono state fornite, alcune anche costruttive, basate su diverse versioni del teorema del punto fisso
come, ad esempio, quella di Brouwer. In particolare, la prova costruttiva fornita dimostra che
esistono giochi per cui é necessario tempo esponenziale per trovare il punto fisso della funzione.
Entrambe le condizioni di finitezza sono essenziali per provare il teorema di Nash. Il prossimo
esempio mostra un semplice gioco in cui ci sono due giocatori che però hanno insieme di azioni
ammissibili infinito e mostra che non esiste nessun equilibrio Nash.
Esempio 2: Pricing game Abbiamo due venditori: Ogni venditore Si può vendere i suoi
prodotti solo ai clienti collegati a lui collegati. Ogni acquirente vuole acquistare solo 1 unità e
può spendere al più 1. Ogni venditore i fissa il prezzo pi per tutti i suoi clienti e i clienti scelgono
di rifornirsi dal venditore che fa il prezzo più basso (assumiamo che in caso di parità scelgono
S1 ). Per semplicità dimostriamo solo che questo gioco non ammette equilibri Nash puri (la
dimostrazione della non esistenza di equilibri Nash misti è tecnicamente molto più complessa).
Sia (p1 , p2 ) una soluzione e supponiamo che 21 < p1 ≤ 1.
Osserviamo che se 21 < p2 < p1 < 1 allora u1 (p1 , p2 ) = p1 < 1 mentre fissando un prezzo p01 tale
che 12 < p01 < p2 il giocatore 1 otterrebbe u1 (p01 , p2 ) = 2p01 > 1. Quindi, p1 > 12 non può essere
in equilibrio.
Se, invece, 0 < p1 ≤ 21 e p2 = 1 abbiamo che u1 (p1 , p2 ) = 2p1 ≤ 1. Ma il giocatore 1 scegliendo
1 > p01 > 21 otterrebbe u1 (p01 , p2 ) = 2p01 > 1 e quindi anche p1 ≤ 12 non è una strategia in
equilibrio. Quindi non esiste nessun equilibrio Nash puro.
2
Calcolo di equilibri Nash in giochi a somma zero
Vediamo ora come sia possibile fornire un algoritmo per il calcolo di equilibri di Nash misti per
giochi a somma zero. In questi giochi non esiste una soluzione che sia positiva per entrambi
i giocatori, ma tipicamente la vittoria di un giocatore coincide con la sconfitta dell’altro, Più
formalmente, per ogni profilo di strategie s vale che u1 (s) = −u2 (s) (esempio: Matching Pennies,
lezione precedente).
Indichiamo con A la matrice dei payoff del gioco. Dal teorema di Nash sappiamo che se il
gioco é finito esiste un equilibrio di Nash misto. Sia (p∗ , q ∗ ) un tale equilibrio di Nash e sia
v ∗ = u1 (p∗ , q ∗ ) il valore del gioco. Il giocatore riga può ragionare in questa maniera: se io gioco
la strategia p, allora il mio avversario risponderà con la sua best response che minimizzerà il mio
guadagno. Quindi devo giocare la strategia che massimizza questo minimo guadagno garantito,
definito come
max · min u1 (p, q)
p∈∆(A1 ) q∈∆(A2 )
Il problema del giocatore 1 può essere formulato come un problema di programmazione lineare
nel modo seguente:
4
Lecture 3: Equilibri di Nash misti
vr = max v


∀j
j ≥v
(pA)
P
pi = 1


pi ≥ 0 ∀i
dove (pA)j rappresenta quanto guadagnerebbe il giocatore 1 giocando la strategia p se il suo
avversario giocasse la strategia j. Osserviamo che v r ≤ v r perché altrimenti il giocatore sarebbe
portato a cambiare la strategia p∗ per ottenere un guadagno garantito superiore; inoltre, v r ≥ v ∗
perché se esistesse una strategia che ottiene un valore v ∗ > v r e tale che al giocatore 2 non
conviene cambiare strategia allora questa sarebbe stata restituita come soluzione del problema
di programmazione lineare. Quindi, possiamo concludere che v r = v ∗ e risolvendo il nostro
problema PL scopriamo p∗ .
Analogamente, l’avversario cercherà di minimizzare il guadagno ottenuto dal giocatore 1 in modo
da minimizzare la sua perdita, quindi
min · max u2 (p, q) = −u1 (p, q)
q∈∆(A2 ) p∈∆(A1 )
Come prima, il problema può essere formulato come un problema di programmazione lineare
vc = min v


i ≤v
(Aq)
P
qi = 1


qj ≥ 0 ∀j
∀i
Come prima, possiamo provare che v c = v ∗ = v r . Questo risultato è noto come Teorema del
minmax (Von Neumann - Borgenstern) e può essere usato come prova costruttiva dell’esistenza
di un equilibrio Nash misto per questa classe di giochi. L’algoritmo risolve il problema del
giocatore 1 per trovare la strategia in equilibrio del giocatore 2 e viceversa.