δ - "PARTHENOPE"
Transcript
δ - "PARTHENOPE"
ASPE SOLUZIONI Esame di Gennaio 2012 Prof. Chairini 1) Si consideri il seguente gioco: R N R 10, 10 0, 25 N 5, 5 25, 0 Pensate ad una situazione dove il giocatore I gioca R nei turni dispari e N nei turni pari, mentre il giocatore II, gioca R nei turni pari e N in quelli dispari. Nel caso devino da queste strategie entrambi giocano N nei periodi successivi. Che payoff ottengono questi giocatori? E’ sostenibile la strategia che alterna giocare R e N (rispetto ad una che permette di deviare e poi predice una grim)? Si dimostri che le payoff sono 25 (1 2 ) 25 e che e’ sostenibile con un tasso di sconto pari a (1 2 ) 6 2. QUESTO GIOCO E’ STATO DEFINITO ESATTAMENTE NELL’ULTIMA LEZIONE!!!! UGUALE ALLA DOMANDA 1 Notate che questo modo di giocare non è altro che l’applicazione di una TfT per entrambi i giocatori: uno punisce l’altro in base a quello che è accaduto nel turno precedente, ipotizzando che i due individui abbiano stabilito un accordo nel giocare sempre R. Possiamo quindi definire le seguenti payoff dei due giocatori per i vari periodi (pari e dispari): Periodi 1 2 3 4 5 ……. Payoff di I 0 25δ 0δ2 25δ3 0δ4 …….. Payoff di II 25 0δ 25δ2 0δ3 25δ4 ……. Per il giocatore I abbiamo: 0 25( 3 5 7 .....) 25 (1 2 4 6 ......) 25 (1 2 ) Per il giocatore II abbiamo: 25 25( 2 4 6 8 .....) 25 25 2 (1 2 4 6 ......) 25 Quindi le payoff sono 25 2 25(1 2 ) 25 2 25 2 2 (1 ) (1 ) (1 2 ) 25 25 e . Se i giocatori deviano da questa strategia giocheranno 2 (1 ) (1 2 ) entrambi N. Quindi la strategia delle alternanze nel giocare R e N nei diversi periodi deve esser confrontata con la payoff che si ottiene nel giocare sempre N dopo aver concordato di giocare R (per ottenere la situazione sociale più efficiente) e successivamente deviato da tale accordo. In questo caso se un giocatore devia ottiene: 10 5( 2 3 4 .....) 10 5 (1 2 3 ......) 5 10 (1 ) Il confronto avviene quindi, tra le payoff del giocatore che devia che si ottengono nell’alternare le mosse (punire con strategie TfT per entrambi i giocatori) con quelle che si ottengono nel punire con una strategia grim. La strategia TfT è sostenibile se 25 5 10 2 (1 ) 1 Cioè se 6 2 . Prova. 10 5 25 0 10(1 2 ) 5 (1 ) 25 0 10 5 2 20 0 2 (1 ) 1 2 4 2 0 questa equazione (disequazio ne) di 2 grado . Si applica la formula risolutiva : b b 2 4ac 4 16 8 4 24 2a 2 2 6 2 prendendo solo il valore positivo. x1, 2 42 6 2 2) Se un gioco ha un unico EN, allora per questo gioco, ripetuto in maniera finita, esiste un unico equilibrio di Nash perfetto nei sottogiochi. Vero? Spiegare perché. Soluzione si vero per un gioco ripetuto in maniera FINITA, con BI, si trova l’unico ENPS. Qui potete fare tutti gli esempi che vi vengono in mente!! Attenzione quasi nessuno ha risposto in maniera soddisfacente a questa domanda, il 90% ha risposto facendo riferimento a un gioco ripetuto in maniera INFINITA! L’altro 10% ha risposto dando una definizione di ENPS. 3) Nel raffrontare le serie di payoff che si ottengono ripetendo il gioco in maniera infinita, le payoff si devono pesare per una frazione (delta) moltiplicata per se stessa t-1 volte. Vero? Spiegare. Soluzione. Certo: t 1 con 0 1 : 1 2 2 3 3 4 4 5 ..... 4) Sapreste disegnare in forma estesa il seguente DP ripetuto 2 volte (senza applicare il tasso di sconto nella seconda ripetizione). K M K 2, 2 6, 0 M 0, 6 4, 4 Soluzione: I H L II H L H I I L H H 4 4 L 8 2 I H II L L 2 8 6 6 I L H II H L H L II H L H L H 8 2 12 0 6 6 10 4 2 8 L 6 6 II H L H L H 0 10 4 10 6 6 10 4 4 10 L 8 8 Nessuno ha risposto a questa domanda ad eccezione di uno studente. Se alla fine del primo round ho quattro possibili soluzioni, nel secondo round, per ognuna di queste quattro avrò altre quattro possibili soluzioni. Come vedete dal grafo, si tratta di sommare le playoff per tutte le soluzioni (senza tasso di sconto come richiedeva la domanda). 5) Supponete che adottando una grim strategy trovate che cooperare conviene se almeno δ>0.67 (altrimenti deviate) mentre con una punizione che prevede 3 periodi di gioco Nash e poi di nuovo la cooperazione avete un ENPS solo se δ>0.81. Cosa ne pensate? Soluzione: Prima noto che con solo 3 periodi di punizione per deterrenza il tasso di sconto è maggiore che con una punizione permanente. Quindi indebolendo la punizione (3 periodi invece di sempre) i giocatori devono valutare di più le future payoff al fine di reprimere la tentazione di cheat oggi. Se cosi non fosse rinnegherebbero subito l’accordo. Quindi solo con una miopia o impazienza molto bassa si può raggiungere un equilibrio di Nash perfetto nei sottogiochi. Più la punizione è grave più devo valutare in maniera inferiore i futuri guadagni (rispetto ai guadagni presenti). In altre parole, se non valuti abbastanza il futuro (se non sei abbastanza paziente) quando la punizione è debole, rinneghi. 6) Ipotizzate un accordo in uno stage game (gioco originale che verrà ripetuto un numero infinito di volte) e ipotizzate una punizioni di 2 periodi se l’accordo non viene rispettato, dopo di che i giocatori tornano a cooperare. Se, dopo essere tornati a cooperare, uno dei due giocatori devia allora, di nuovo, ci sarà una punizione di 2 periodi e cosi via. I profitti con l’accordo sono pari a 5, quelli ottenuti con il cheating sono pari a 7, il Nash genera profitti pari a 4. Potete pensare, in maniera del tutto equivalente, al primo periodo come quello in cui inizia l’accordo di cooperazione o come il periodo fino a quando si è sempre cooperato o un periodo dove è appena terminata la fase di punizione e si inizia a cooperare di nuovo. Cosa richiede l’equilibrio di questo gioco ripetuto? Soluzione: il confronto è tra le due serie di payoff scontate: 5 5 5 2 5 3 5 4 ..... e 7 4 4 2 5 3 5 4 ...... L’equilibrio richiede che la prima serie di profitti sia almeno grande quanto la seconda. Le due serie di profitti dal periodo 3 in avanti sono identiche e quindi possono essere eliminate. La condizione di equilibrio è quindi quella usuale: 5 5 5 2 7 4 4 2 2 Questa è un’equazione (disequazione) quadratica le cui radici sono: 1 1 4(2) 1 3 1 2 2 2 prendendo la radice con significato economico (strategico), 1 . Cioè non può esserci miopia alcuna (i giocatori devono valutare il futuro quanto il presente) altrimenti i giocatori non potranno convergere su un accordo con una punizione cosi lieve (con una deterrenza blanda). Di fatto ciò dipende dalle payoff e dalla punizione prefissata. Se ad esempio i profitti ottenuti con la deviazione fossero stati pari a 6, allora ….. e qui potevate procedre con vari esempi …estendendo la risposta. Ad esempio, Se l punizione fosse stata grim, avremmo: 5 4 7 0.67 1 1 Ecc. Ecc. 7) Si consideri il seguente grafo: commentare tutto equilibri, induzione a ritroso, induzione in avanti, trembles ecc. I A C 3 3 B II II L R 1 -1 2 1 L 4 2 R 2 1 L R A 3, 3 3, 3 B 4, 2 2, 1 C 1, -1 2, 1 (A,R) e (B,L) ENPS. L’equilibrio (B,L) è un EBP. Possiamo considerare anche (A,R) un Equilibrio Bayesiano Perfetto? A questo scopo deve esserci una probabilità positiva per cui II possa giocare R: L : p 2(1 p) 3 p 2 R : p (1 p) 1 Quindi con p>1/3, il giocatore II può giocare R, e (A,R) è un EBP con questa restrizione. Notate che (B,L) è un THPE (C è una strategia dominata e, di conseguenza anche R). Tuttavia anche (A,R) può essere considerato un THPE, sia perché se I gioca (per qualsiasi motivo) con probabilità piena A, la risposta di II con L è ottima. Sia perché se il giocatore I randomizza tutte le sue strategie, giocare L è comunque una migliore risposta per il giocatore II: 5 2 2 1 L : 31 3 k k k k 4 2 1 1 R : 31 3 k k k k Possiamo procedere in questo caso anche con l’Induzione in avanti per supportare l’equilibrio (B,L), notando che le utilità attese del giocatore I sono: B : 1q 4(1 q) 4 3q C : 2q 2(1 q) 2 L’utilità attesa di giocare la strategia A è pari a 3. Con la distribuzione di probabilità sopra attribuita alle strategie del giocatore II, le utilità attese mostrano che per q<1/3 è conveniente giocare B (43q=3), mentre C è dominata da A: 3>2. Per q=1/3 il giocatore I è indifferente tra A e B. . 8) Disegnare la funzione di corrispondenza del seguente gioco: d s D 0, 0 3, -1 S 5, -1 0, 5 SOLUZIONE Tale forma non ammette nessun EN in strategie pure. Le probabilità di giocare le strategie pure che costituiscono un EN in strategie miste sono: q 03 3 0.38 0305 8 p 5 (1) 6 0.86 5 (1) 0 1 7 (12.1) Con cui si ricavano le seguenti funzioni di corrispondenza: 1 p (q ) 0,1 0 q 0.38 q 0.38 ; q 0.38 1 q ( p ) 0,1 0 p 0.86 p 0.86 p 0.86 q 1 0.38 0 EN (p=0.86, q=0.38) 0.86 1 p (12.2) 9) Perché il gioco della catena dei negozi (di cui si riporta un gioco singolo per una sola città) è un paradosso? Commentare usando il gioco in questione. E NE A 10, 10 20, 0 C -10, -10 20, 0 SOLUZIONE: libro COLOMBO p. 195-196. 10) Quali sono i punti critici dell’induzione a ritroso applicata all’ultimatum game? SOLUZIONE libro COLOMBO p. 196-197 ATTENZIONE TRANNE POCHE ECCEZZIONI, NESSUNO HA RISPOSTO A QUESTO ESERCIZIO. ALCUNI HANNO INTERPRETATO L’ULTIMATUM GAME COME “L’ULTIMO ESERCIZIO” DELLA SCHEDA (L’ESERCIZIO PRECEDENTE ALLA DOMANDA)!?! 11) Gioco di segnalazione. Praticamente nessuno è stato in grado di disegnare questo grafo!!! Ciò significa che si è affrontato questi giochi in maniera ad hoc (c’è incentivo a deviare non c’è incentivo a deviare ecc. ecc.). Ho quindi corretto praticamente un numero elevatissimo di esercizi diversi ma anche in questo caso pochissimi hanno commentato gli equilibri, non notando che le domande erano indirizzate proprio a questo proposito. (x+5, 5) A A Cambia (0, 0) t1 Non Cambia 0.25 NA (x+5, 5) NA (0,0) N (x-5, -5) A Cambia (0, 0) NA A 0.75 (x-5, -5) Non Cambia t2 NA (0,0) Si noti esiste un equilibrio di pooling C,C. L’automobilista non accetta il suggerimento in quanto la sua payoff è zero mentre altrimenti sarebbe negativa: A : 0.25 5 0.75 (5) 2.5 NA : 0 Il messaggio del meccanico non è informativo, è quindi cheap talk. Infatti egli fa lo stesso suggerimento senza tener conto del suo tipo, quindi il suo messaggio non fornisce alcuna informazione. Quindi le strategie dell’EBP sono: a) Il meccanico comunica in ogni caso di cambiare il pezzo dell’auto b) L’automobilista non prende in considerazione questo suggerimento c) Le credenze dell’automobilista sono: sia che il meccanico raccomandi di cambiare il pezzo, sia che non lo raccomandi, è utile cambiare il pezzo con probabilità ¼. Cioè le credenze dell’automobilista sono analoghe alle prior belief definite da Natura che informano che con probabilità ¼ il cambio del pezzo è importante mentre con probabilità 3/4 non ha senso. Quindi non può che non accettare il suggerimento. Notate che con NA, i due tipi ottengono sempre zero. Fuori dal sentiero di equilibrio, con il suggerimento di Non Cambiare il pezzo, il meccanico avrebbe x+5 e x-5 se l’automobilista risponde con A, e otterrebbe di nuovo sempre zero se risponde con NA. In ogni caso non c’è incentivo a deviare (solo nel caso x 5 allora tornerebbe conveniente deviare). Nel caso il meccanico non riscuotesse la componente aggiuntiva x (cioè x=0), cosa cambierebbe? Innanzitutto gli interessi del meccanico e del’automobilista coinciderebbero perfettamente. Entrambi ottengono le stesse payoff sia se il suggerimento viene accettato, sia che non venga accettato, mentre al crescere di questa componente gli interessi divergono. In questo caso il pooling (C,C) è sicuramente un EBP e non ci sarebbe un forte motivo per il meccanico cercare di ingannare l’automobilista (esattamente il contrario di quando gli interessi sono opposti). Ci può essere una comunicazione veritiera (o sincera)? Certamente quando la strategia è: a) Raccomandare, da parte del meccanico, il cambio quando è utile b) L’automobilista accetta questo consiglio c) Le credenze dell’automobilista equivalgono a pensare che se il meccanico suggerisce di cambiare il pezzo, allora il cambio è utile con probabilità uguale a 1; viceversa, se non suggerisce di cambiare, allora il cambio è inutile con probabilità uguale a 1. Quindi l’equilibrio separeting (C, NC) supportato da una comunicazione sincera (no cheap talk). E’ facile constatare che quando il suggerimento è cambiare con un payoff di x+5 per il tipo 1, consigliare l’opposto, cioè di Non Cambiare, produce per lo stesso tipo una payoff di 0. Mentre quando cambiare è inutile fornisce una payoff di 0 al secondo tipo che invece otterrebbe una payoff di x-5 nel caso suggerisca di cambiare il pezzo. Anche qui, se x 5 allora questo equilibrio separeting viene meno e la comunicazione sarebbe non sincera. Le considerazioni fatte sopra per x=0 (interessi coincidenti) valgono esattamente anche in questo caso.