δ - "PARTHENOPE"

Transcript

δ - "PARTHENOPE"
ASPE SOLUZIONI Esame di Gennaio 2012 Prof. Chairini
1) Si consideri il seguente gioco:
R
N
R 10, 10
0, 25
N
5, 5
25, 0
Pensate ad una situazione dove il giocatore I gioca R nei turni dispari e N nei turni pari, mentre il
giocatore II, gioca R nei turni pari e N in quelli dispari. Nel caso devino da queste strategie
entrambi giocano N nei periodi successivi. Che payoff ottengono questi giocatori? E’ sostenibile la
strategia che alterna giocare R e N (rispetto ad una che permette di deviare e poi predice una grim)?
Si dimostri che le payoff sono
25
(1   2 )
25
e che e’ sostenibile con un tasso di sconto pari a
(1   2 )
  6  2.
QUESTO GIOCO E’ STATO DEFINITO ESATTAMENTE
NELL’ULTIMA LEZIONE!!!!
UGUALE ALLA DOMANDA 1
Notate che questo modo di giocare non è altro che l’applicazione di una TfT per entrambi i
giocatori: uno punisce l’altro in base a quello che è accaduto nel turno precedente, ipotizzando che i
due individui abbiano stabilito un accordo nel giocare sempre R.
Possiamo quindi definire le seguenti payoff dei due giocatori per i vari periodi (pari e dispari):
Periodi
1
2
3
4
5
…….
Payoff di I
0
25δ
0δ2
25δ3
0δ4
……..
Payoff di II
25
0δ
25δ2
0δ3
25δ4
…….
Per il giocatore I abbiamo:
0  25(   3   5   7  .....) 
25 (1   2   4   6  ......) 
25

(1   2 )
Per il giocatore II abbiamo:
25  25( 2   4   6   8  .....) 
25  25 2 (1   2   4   6  ......) 
25 
Quindi le payoff sono
25 2
25(1   2 )  25 2
25


2
2
(1   )
(1   )
(1   2 )
25
25
e
. Se i giocatori deviano da questa strategia giocheranno
2
(1   )
(1   2 )
entrambi N. Quindi la strategia delle alternanze nel giocare R e N nei diversi periodi deve esser confrontata
con la payoff che si ottiene nel giocare sempre N dopo aver concordato di giocare R (per ottenere la
situazione sociale più efficiente) e successivamente deviato da tale accordo. In questo caso se un giocatore
devia ottiene:
10  5(   2   3   4  .....) 
10  5 (1     2   3  ......) 
5
 10 
(1   )
Il confronto avviene quindi, tra le payoff del giocatore che devia che si ottengono nell’alternare le
mosse (punire con strategie TfT per entrambi i giocatori) con quelle che si ottengono nel punire con
una strategia grim.
La strategia TfT è sostenibile se
25
5
 10 
2
(1   )
1
Cioè se   6  2 .
Prova.
10 
5
25

 0  10(1   2 )  5 (1   )  25  0  10  5 2  20  0
2
(1   ) 1  

  2  4  2  0 questa equazione (disequazio ne) di 2 grado . Si applica la formula risolutiva :
 b  b 2  4ac
 4  16  8
 4  24
  
 
2a
2
2
  6  2 prendendo solo il valore positivo.
x1, 2 
 
42 6
2
2) Se un gioco ha un unico EN, allora per questo gioco, ripetuto in maniera finita, esiste un unico
equilibrio di Nash perfetto nei sottogiochi. Vero? Spiegare perché.
Soluzione si vero per un gioco ripetuto in maniera FINITA, con BI, si trova l’unico ENPS. Qui potete
fare tutti gli esempi che vi vengono in mente!! Attenzione quasi nessuno ha risposto in maniera
soddisfacente a questa domanda, il 90% ha risposto facendo riferimento a un gioco ripetuto in
maniera INFINITA! L’altro 10% ha risposto dando una definizione di ENPS.
3) Nel raffrontare le serie di payoff che si ottengono ripetendo il gioco in maniera infinita, le payoff si
devono pesare per una frazione (delta) moltiplicata per se stessa t-1 volte. Vero? Spiegare.
Soluzione. Certo:  t 1
con 0    1 :  1   2   2 3   3 4   4 5 .....
4) Sapreste disegnare in forma estesa il seguente DP ripetuto 2 volte (senza applicare il tasso di sconto
nella seconda ripetizione).
K
M
K
2, 2
6, 0
M
0, 6
4, 4
Soluzione:
I
H
L
II
H
L
H
I
I
L
H
H
4
4
L
8
2
I
H
II
L
L
2
8
6
6
I
L
H
II
H
L
H
L
II
H
L
H
L
H
8
2
12
0
6
6
10
4
2
8
L
6
6
II
H
L
H
L
H
0
10
4
10
6
6
10
4
4
10
L
8
8
Nessuno ha risposto a questa domanda ad eccezione di uno studente. Se alla fine del primo
round ho quattro possibili soluzioni, nel secondo round, per ognuna di queste quattro avrò
altre quattro possibili soluzioni. Come vedete dal grafo, si tratta di sommare le playoff per
tutte le soluzioni (senza tasso di sconto come richiedeva la domanda).
5) Supponete che adottando una grim strategy trovate che cooperare conviene se almeno
δ>0.67 (altrimenti deviate) mentre con una punizione che prevede 3 periodi di gioco Nash e
poi di nuovo la cooperazione avete un ENPS solo se δ>0.81. Cosa ne pensate?
Soluzione: Prima noto che con solo 3 periodi di punizione per deterrenza il tasso di
sconto è maggiore che con una punizione permanente. Quindi indebolendo la
punizione (3 periodi invece di sempre) i giocatori devono valutare di più le future
payoff al fine di reprimere la tentazione di cheat oggi. Se cosi non fosse
rinnegherebbero subito l’accordo. Quindi solo con una miopia o impazienza molto
bassa si può raggiungere un equilibrio di Nash perfetto nei sottogiochi. Più la
punizione è grave più devo valutare in maniera inferiore i futuri guadagni (rispetto ai
guadagni presenti).
In altre parole, se non valuti abbastanza il futuro (se non sei abbastanza paziente)
quando la punizione è debole, rinneghi.
6) Ipotizzate un accordo in uno stage game (gioco originale che verrà ripetuto un numero
infinito di volte) e ipotizzate una punizioni di 2 periodi se l’accordo non viene rispettato,
dopo di che i giocatori tornano a cooperare. Se, dopo essere tornati a cooperare, uno dei due
giocatori devia allora, di nuovo, ci sarà una punizione di 2 periodi e cosi via. I profitti con
l’accordo sono pari a 5, quelli ottenuti con il cheating sono pari a 7, il Nash genera profitti
pari a 4. Potete pensare, in maniera del tutto equivalente, al primo periodo come quello in
cui inizia l’accordo di cooperazione o come il periodo fino a quando si è sempre cooperato o
un periodo dove è appena terminata la fase di punizione e si inizia a cooperare di nuovo.
Cosa richiede l’equilibrio di questo gioco ripetuto?
Soluzione: il confronto è tra le due serie di payoff scontate:
5  5  5 2  5 3  5 4  ..... e
7  4  4 2  5 3  5 4  ......
L’equilibrio richiede che la prima serie di profitti sia almeno grande quanto la
seconda. Le due serie di profitti dal periodo 3 in avanti sono identiche e quindi possono
essere eliminate. La condizione di equilibrio è quindi quella usuale:
5  5  5 2  7  4  4
   2  2
Questa è un’equazione (disequazione) quadratica le cui radici sono:
 1  1  4(2)  1  3 1


2
2
 2
prendendo la radice con significato economico
(strategico),   1 . Cioè non può esserci miopia alcuna (i giocatori devono valutare il
futuro quanto il presente) altrimenti i giocatori non potranno convergere su un
accordo con una punizione cosi lieve (con una deterrenza blanda). Di fatto ciò dipende
dalle payoff e dalla punizione prefissata. Se ad esempio i profitti ottenuti con la
deviazione fossero stati pari a 6, allora ….. e qui potevate procedre con vari esempi
…estendendo la risposta.
Ad esempio, Se l punizione fosse stata grim, avremmo:
5
4
7
   0.67
1
1
Ecc. Ecc.
7) Si consideri il seguente grafo: commentare tutto equilibri, induzione a ritroso, induzione in avanti,
trembles ecc.
I
A
C
3
3
B
II
II
L
R
1
-1
2
1
L
4
2
R
2
1
L
R
A
3, 3
3, 3
B
4, 2
2, 1
C
1, -1
2, 1
(A,R) e (B,L) ENPS. L’equilibrio (B,L) è un EBP. Possiamo considerare anche (A,R) un
Equilibrio Bayesiano Perfetto? A questo scopo deve esserci una probabilità positiva per cui II possa
giocare R:
L :  p  2(1  p)  3 p  2
R : p  (1  p)  1
Quindi con p>1/3, il giocatore II può giocare R, e (A,R) è un EBP con questa restrizione.
Notate che (B,L) è un THPE (C è una strategia dominata e, di conseguenza anche R).
Tuttavia anche (A,R) può essere considerato un THPE, sia perché se I gioca (per qualsiasi
motivo) con probabilità piena A, la risposta di II con L è ottima. Sia perché se il giocatore I
randomizza tutte le sue strategie, giocare L è comunque una migliore risposta per il
giocatore II:
5
 2 2 1
L : 31      3 
k
 k k k
4
 2 1 1
R : 31      3 
k
 k k k
Possiamo procedere in questo caso anche con l’Induzione in avanti per supportare l’equilibrio
(B,L), notando che le utilità attese del giocatore I sono:
B : 1q  4(1  q)  4  3q
C : 2q  2(1  q)  2
L’utilità attesa di giocare la strategia A è pari a 3. Con la distribuzione di probabilità sopra attribuita
alle strategie del giocatore II, le utilità attese mostrano che per q<1/3 è conveniente giocare B (43q=3), mentre C è dominata da A: 3>2. Per q=1/3 il giocatore I è indifferente tra A e B.
.
8) Disegnare la funzione di corrispondenza del seguente gioco:
d
s
D
0, 0
3, -1
S
5, -1
0, 5
SOLUZIONE Tale forma non ammette nessun EN in strategie pure. Le probabilità di giocare
le strategie pure che costituiscono un EN in strategie miste sono:
q
03
3
  0.38
0305 8
p
5  (1)
6
  0.86
5  (1)  0  1 7
(12.1)
Con cui si ricavano le seguenti funzioni di corrispondenza:
1

p (q )  0,1
0

 q  0.38
 q  0.38 ;
 q  0.38
1

q ( p )  0,1
0


p  0.86

p  0.86

p  0.86
q
1
0.38
0
EN (p=0.86, q=0.38)
0.86
1
p
(12.2)
9) Perché il gioco della catena dei negozi (di cui si riporta un gioco singolo per una sola città) è
un paradosso? Commentare usando il gioco in questione.
E
NE
A
10, 10
20, 0
C
-10, -10
20, 0
SOLUZIONE: libro COLOMBO p. 195-196.
10) Quali sono i punti critici dell’induzione a ritroso applicata all’ultimatum game?
SOLUZIONE libro COLOMBO p. 196-197
ATTENZIONE TRANNE POCHE ECCEZZIONI, NESSUNO HA RISPOSTO A
QUESTO ESERCIZIO. ALCUNI HANNO INTERPRETATO L’ULTIMATUM GAME
COME “L’ULTIMO ESERCIZIO” DELLA SCHEDA (L’ESERCIZIO
PRECEDENTE ALLA DOMANDA)!?!
11) Gioco di segnalazione.
Praticamente nessuno è stato in grado di disegnare questo grafo!!! Ciò significa che si è
affrontato questi giochi in maniera ad hoc (c’è incentivo a deviare non c’è incentivo a deviare
ecc. ecc.). Ho quindi corretto praticamente un numero elevatissimo di esercizi diversi ma
anche in questo caso pochissimi hanno commentato gli equilibri, non notando che le domande
erano indirizzate proprio a questo proposito.
(x+5, 5)
A
A
Cambia
(0, 0)
t1
Non Cambia
0.25
NA
(x+5, 5)
NA
(0,0)
N
(x-5, -5)
A
Cambia
(0, 0)
NA
A
0.75
(x-5, -5)
Non Cambia
t2
NA
(0,0)
Si noti esiste un equilibrio di pooling C,C. L’automobilista non accetta il suggerimento in
quanto la sua payoff è zero mentre altrimenti sarebbe negativa:
A : 0.25  5  0.75  (5)  2.5
NA : 0
Il messaggio del meccanico non è informativo, è quindi cheap talk. Infatti egli fa lo stesso
suggerimento senza tener conto del suo tipo, quindi il suo messaggio non fornisce alcuna
informazione. Quindi le strategie dell’EBP sono:
a) Il meccanico comunica in ogni caso di cambiare il pezzo dell’auto
b) L’automobilista non prende in considerazione questo suggerimento
c) Le credenze dell’automobilista sono: sia che il meccanico raccomandi di cambiare il
pezzo, sia che non lo raccomandi, è utile cambiare il pezzo con probabilità ¼.
Cioè le credenze dell’automobilista sono analoghe alle prior belief definite da Natura che
informano che con probabilità ¼ il cambio del pezzo è importante mentre con probabilità
3/4 non ha senso. Quindi non può che non accettare il suggerimento.
Notate che con NA, i due tipi ottengono sempre zero. Fuori dal sentiero di equilibrio, con il
suggerimento di Non Cambiare il pezzo, il meccanico avrebbe x+5 e x-5 se l’automobilista
risponde con A, e otterrebbe di nuovo sempre zero se risponde con NA. In ogni caso non c’è
incentivo a deviare (solo nel caso x  5 allora tornerebbe conveniente deviare).
Nel caso il meccanico non riscuotesse la componente aggiuntiva x (cioè x=0), cosa cambierebbe?
Innanzitutto gli interessi del meccanico e del’automobilista coinciderebbero perfettamente. Entrambi
ottengono le stesse payoff sia se il suggerimento viene accettato, sia che non venga accettato, mentre al
crescere di questa componente gli interessi divergono. In questo caso il pooling (C,C) è sicuramente un
EBP e non ci sarebbe un forte motivo per il meccanico cercare di ingannare l’automobilista
(esattamente il contrario di quando gli interessi sono opposti).
Ci può essere una comunicazione veritiera (o sincera)? Certamente quando la strategia è:
a) Raccomandare, da parte del meccanico, il cambio quando è utile
b) L’automobilista accetta questo consiglio
c) Le credenze dell’automobilista equivalgono a pensare che se il meccanico suggerisce di
cambiare il pezzo, allora il cambio è utile con probabilità uguale a 1; viceversa, se non
suggerisce di cambiare, allora il cambio è inutile con probabilità uguale a 1.
Quindi l’equilibrio separeting (C, NC) supportato da una comunicazione sincera (no
cheap talk). E’ facile constatare che quando il suggerimento è cambiare con un payoff di
x+5 per il tipo 1, consigliare l’opposto, cioè di Non Cambiare, produce per lo stesso tipo
una payoff di 0. Mentre quando cambiare è inutile fornisce una payoff di 0 al secondo tipo
che invece otterrebbe una payoff di x-5 nel caso suggerisca di cambiare il pezzo. Anche
qui, se x  5 allora questo equilibrio separeting viene meno e la comunicazione sarebbe non
sincera. Le considerazioni fatte sopra per x=0 (interessi coincidenti) valgono esattamente anche in
questo caso.