Teoría de xogos (XIV): Dilema do prisioneiro

[Esta é unha tradución autorizada de Ciención de Breogán, adaptada do artigo orixinal de 29 de novembro de 2010 Teoría de juegos XIV – Dilema del prisionero, de Javier “J” Sedano, que pode lerse en El Cedazo. Toda a serie Teoría de juegos está publicada en forma de libro, dispoñible aquí.]

[O artigo previo da serie é Teoría de xogos (XIII): Xogo do ditador.]

Bóla

Ao longo da serie xa vimos xogos finitos e xogos infinitos.

Xa vimos que un xeito de atopar unha estratexia óptima para os xogos finitos era facer o camiño inverso desde as follas, subindo pola árbore de decisión, ata a decisión inicial (ou empregando a indución, se era posible). Aquí empregamos «unha» e non «a» intencionalmente, porque xa vimos que, cando dicimos «óptima», hai que dicir con relación a que. Tamén vimos, durante a discusión do xogo do cempés, que a estratexia que propuñamos non acababa de encaixar cos resultados empíricos. E ademais os empíricos eran mellores!

No futuro, dedicaremos máis artigos a enumerar e formalizar eses procedementos para atopar os óptimos, pero antes queremos dedicar un par de artigos (ou seica algún máis) a introducir algunha cousa máis e, de camiño, atopar estratexias para os xogos infinitos.

Para isto partiremos dun xogo que, por pouco que escoitases falar de teoría de xogos, seguro que oíches algunha vez: o dilema do prisioneiro.

O xogo di algo así:

A policía capturou dous perigosos criminais,1 Anny e mais Albert (non confundir con Ana e Alberte), e lévaos a salas de interrogatorio illadas. Despois de moito falar con eles, a policía descobre que, de feito, soamente teñen probas para inculpalos a ambos dun delito menor, polo que cumprirían apenas un ano de cadea.

A policía non consegue que confese ningún deles, así que lle ofrece un trato a cada un deles por separado: se é quen a facer que toda a culpa recaia sobre o seu cómplice («eu non fixen nada, foi el quen disparou, ameazoume con matar a miña irmanciña discapacitada se o contaba»), sairá libre e ao outro caeranlle dez anos.

A graza é que a policía lles ofrece o mesmo trato a ambos por separado, de xeito que, se ambos os dous confesan, descóbrese todo e cada un cumpriría seis anos de condena.

Vexamos cal é a matriz de recompensas do xogo (as casas recollen primeiro o pagamento para Anny e logo o de Albert):

Albert
Delata Cala
Anny Delata −6, −6 0, −10
Cala −10, 0 −1, −1

Observa que os pagamentos son negativos, porque acabar na cadea non é unha ganancia, senón unha perda. Logo o que buscan os xogadores é que o seu pagamento sexa o menos negativo posible (o maior posible): que os condenen aos mínimos anos posibles.

Nalgúns textos atoparedes o xogo cos números positivos, pero entón non representan pagamentos senón castigos, e o obxectivo será conseguir o mínimo castigo posible. Nós imos seguir coa convención de pagamentos-maximizar para nos manter coherentes co resto da serie (se ben a convención castigos-minimizar sería mellor para algunhas cousas ás que imos xogar no futuro, pero en fin).

Nótese tamén que existe un truco aquí, e é que a policía mente: se ambos os dous Delatan, mirando cada un dos tratos separadamente, debería liberalos. Pero a policía incumpre a súa palabra e, se ambos os dous Delatan, xa atopa probas para metelos aos dous no caldeiro e non respecta os tratos.

Estratexia dominante

Decisión dominante ou estratexia dominante: é tal decisión que, para todas e cada unha das decisións dos opoñentes, tomar a dita decisión é mellor ca tomar calquera outra.

 

Vámolo ver no noso dilema do prisioneiro.

Fixémonos en Anny e separemos segundo as posibles escollas de Albert. Albert ten dúas posibles decisións: Delatar ou Calar. Se Albert Delata, a matriz de pagamentos de Anny será a seguinte:

Delata −6
Cala −10

Porén, se Albert Cala, a matriz de pagamentos de Anny é:

Delata 0
Cala −1

Estudemos esas dúas matrices un momentiño. Se Albert Delata, Anny obtén un mellor resultado Delatando (6 anos de cadea) ca Calando (10 anos de cadea). Se Albert Cala, Anny obtén un mellor resultado Delatando (0 anos de cadea) ca Calando (1 ano de cadea).

Para calquera decisión de Albert, Anny obtén sempre mellor resultado Delatando ca Calando. Así que Anny debe Delatar. Iso é o que se chama unha decisión dominante ou, máis comunmente, estratexia dominante.

Falando claro, Anny pensa: «se Albert escolle Delatarme, Delátoo e acabamos con seis anos cada un, mellor ca Calar e acabar con dez anos eu soa; se, pola contra, Albert decide Calar, mellor Delátoo e saio libre no canto de Calar e cumprir un ano».

Por suposto, Albert debe facer a mesma análise e obsérvase que el tamén ten unha estratexia dominante: Delatar. Así pois, cada un escolle a súa estratexia dominante (ambos Delatan) e a policía méteos no cárcere aos dous durante seis anos. Fin do filme, ganan os bos.2

Non todos os xogos teñen unha estratexia dominante. Por exemplo, vimos o xogo de «pedra, papel ou tesoiras». Observa que non chega con que unha decisión sexa mellor nun caso determinado: ten que ser a mellor para todas as posibles decisións dos opoñentes. Así, aínda que Bart Simpson di que «a pedra é a mellor, nada pode vencela», Pedra non é unha estratexia dominante porque, por exemplo, se o opoñente escollese Papel, a nosa mellor opción sería Tesoiras. Se lembrades aquel artigo recordaredes que dedicamos a fin do artigo a describir diferentes xogos (incluíndo Pokémon) nos que non existía un tipo claramente vencedor… Pois velaquí o xeito pedante de dicilo: non teñen unha estratexia dominante.

Consecuentemente, non todos os xogadores en todos os xogos teñen unha decisión dominante, pero se a teñen, semella obvio que esa é a que debe seguir o xogador. Iso é o que debe facer un xogador racional.

Ou non tal?

Exemplos reais

No vindeiro artigo profundaremos na cuestión de se esa é realmente a mellor decisión que pode tomar un xogador ou non, pero antes dedicarémoslle uns parágrafos a atopar situacións reais (ademais da evidente de dous criminais aos que o fiscal lles ofrece un trato) que poidamos comparar con este dilema do prisioneiro. Vou empregar os mesmos da Wikipedia e, así, os nosos lectores poden usar os comentarios para pór outros exemplos:

  • Estratexia militar. Dous países nunha guerra fría poden incrementar o seu armamento (e facelo custa cartos) ou non. Se un non o incrementa e o outro si, o que se armou invade o pacifista. Se ambos o incrementan, ambos gastaron unha morea de cartos en armamento pero ningún gana. Se non o fai ningún, aforran os cartos e ademais ningún pode invadir o outro porque non é máis poderoso. A estratexia dominante é incrementar o armamento.
  • Deportistas. Se ninguén se dopa, todos están ao mesmo nivel e soamente contan as habilidades persoais. Se todos se dopan, todos están ao mesmo nivel e soamente contan as habilidades persoais. Pero, se uns se dopan e outros non… os que non se dopan están en desvantaxe. Doparse é unha estratexia dominante.
  • Mercadotecnia. Se varias empresas gastan moito en publicidade, os consumidores escollerán o mellor produto. Se todas gastan moi pouco, os consumidores escollerán o mellor produto. Pero, se unhas gastan moito e outras moi pouco, os consumidores coñecerán moito máis as que gastaron moito e, probablemente, mercarán máis o seu produto aínda que non sexa o mellor. Gastar en mercadotecnia e publicidade é unha estratexia dominante.

Ocórreseche algún máis?

[O seguinte artigo da serie é Teoría de xogos (XV): Dilema do prisioneiro iterativo (I).]


Este artigo e mais a súa tradución están publicados baixo licenza CC BY-NC-ND 2.5 ES.


1. Perdón: presuntos criminais.

2. Por certo, isto mesmo dito con outras palabras é a razón de que, nalgúns países, os tratos xudiciais estean prohibidos: a mellor estratexia de Albert é Delatar a Anny e a de Anny é Delatar a Albert, mesmo se ningún dos dous é culpable. Á fin acaban os dous no cárcere aínda que ningún deles fixese nada malo.

Advertisements

Deixar unha resposta

introduce os teu datos ou preme nunha das iconas:

Logotipo de WordPress.com

Estás a comentar desde a túa conta de WordPress.com. Sair /  Cambiar )

Google+ photo

Estás a comentar desde a túa conta de Google+. Sair /  Cambiar )

Twitter picture

Estás a comentar desde a túa conta de Twitter. Sair /  Cambiar )

Facebook photo

Estás a comentar desde a túa conta de Facebook. Sair /  Cambiar )

Conectando a %s