Teoría de xogos (XXI): O xogo do cempés con estratexias mixtas

[Esta é unha tradución autorizada de Ciención de Breogán, adaptada do artigo orixinal de 21 de febreiro de 2011 Teoría de juegos XXI – Juego del ciempiés en estrategias mixtas, de Javier “J” Sedano, que pode lerse en El Cedazo. Toda a serie Teoría de juegos está publicada en forma de libro, dispoñible aquí.]

[O artigo previo da serie é Teoría de xogos (XX): Os tenistas (II).]

Cempés

O xogo do cempés é un dos que nos deu máis xogo ao longo da serie, así que imos dedicarlle un artigo completo a estudalo desde a nova perspectiva das estratexias mixtas.

Este artigo será relativamente curtiño e estivo a piques de ser incluído no anterior verbo dos tenistas. Nel non incluiremos conceptos novos, soamente darémoslle voltas ao que xa sabemos. Pero será preciso manexar probabilidades e darlle ao razoamento unha volta de porca que seica non é doada, por iso preferimos que teña o seu propio artigo.

Seguiremos deducindo sobre as regras que xa vimos na descrición do xogo, así que, se non o tes fresco, dedica uns minutos a repasalo aínda que sexa por riba.

Naquel artigo procurabamos unha solución teórica ao xogo, buscando o que debía facer Ana, e saíanos que debía Interromper na primeira quenda (de feito, poderiamos extrapolalo a decidir que calquera xogador, cando lle chegue a quenda, debe Interromper).

Pero semellaba que os experimentos non acompañaban esa dedución teórica e intentamos dicir «claro, é que os xogadores empíricos son irracionais»… pero aquilo non encaixaba. Non encaixaba porque nos decatamos de que os xogadores irracionais realmente ganaban máis ca os nosos xogadores teoricamente óptimos.

Así que o tentamos baixo a hipótese do home social. Se ben a algúns sérvelles esta aproximación, outros quedabamos co sabor agridoce de que aquilo tampouco terminaba de explicalo de todo; é coma se inventásemos un concepto novo para poder explicalo.

Pero xa aprendemos moitísimo desde entón. Agora sabemos que aquela «solución teórica» estaba a aplicar unha estratexia Maximin, que era conservadora.

Así que imos estudalo desde o punto de vista das estratexias mixtas. Á fin acabaremos vendo como incluso quen non amosa un comportamento social pode querer colaborar para maximizar o seu beneficio (o que chamabamos home superracional), esfumando a fronteira entre o home social e o home egoísta.

Lembremos por un momento a forma extensiva do xogo:

Propor unha fórmula xeral é difícil, así que nos imos pór nun caso particular e confiaremos en que, cando o estudemos, a túa mente fará a indución ela soa e verás obvio o caso xeral. Poida que, á fin, alguén diga «xaora que si, iso xa o dicía eu hai catro meses; para isto tanto artigo?». Pero polo camiño reflexionamos, e quizais outro día poidamos aplicarlle o mesmo razoamento a un caso máis real no que a solución non estea tan clara coma no cempés.

Estamos na quenda 3 e Ana ten de decidir o que facer. Para isto imos ir dous pasos cara ao futuro, buscando cales serían as decisións nos pasos 4 e 5, e despois recuar (cando cheguemos á fin da explicación entenderás por que avanzamos dous pasos).

Chamaremos pn á probabilidade de Interromper no paso n. Consecuentemente, 1 − pn é a probabilidade de Continuar no paso n. Se alguén non o ten claro aínda, nos n pares quen decide é Alberte e nos n impares decide Ana.

A mellor escolla de p3 para Ana (é dicir, con canta probabilidade debe Interromper) depende do valor de p4. Se Alberte fose Interromper con seguridade na quenda 4 (isto é, p4 = 1), logo a Ana conviríalle Interromper xa. Iso é o que xa vimos nos artigos anteriores.

Pero, e se p4 non é 1? Se p4 non é 1 entón Interromper xa non é necesariamente a mellor opción de Ana na quenda 3. E… por que podería p4 non ser 1? Dito doutro xeito: por que podería Alberte non querer Interromper indefectiblemente? Pois Alberte non querería facelo se p5 non fose 1. Así que agora recuamos e imos calculando esperanzas (medias) no camiño cara atrás.

Se Alberte decide Interromper na quenda 4, o seu pagamento é 5. E se decide Continuar? Depende de p5. No peor dos casos será 4 (se Ana decide Interromper na quenda 5)… pero podería ser máis. Canto máis pequena sexa p5, meirande será o seu pagamento. Entendido ata aquí?

Así que Alberte na quenda 4 pode escoller entre:

  • Interromper e cobrar 5.
  • Continuar e cobrar algo, que será maior canto menor sexa p5.

Dicimos que Alberte está a empregar unha estratexia mixta, así que non procuramos unha decisión concreta, senón un valor para p4. E, pois que o pagamento esperado no caso de Continuar na quenda 4 depende de p5, é evidente que a p4 óptima depende do valor de p5. E ademais faino cunha relación directa: canto menor sexa p5, menor será a p4 óptima.

Releo se o precisas.

Ben, pois agora damos outro paso cara atrás e facemos de novo o mesmo razoamento. Na quenda 3 Ana pode elixir entre:

  • Interromper e cobrar 4.
  • Continuar e cobrar algo, que será maior canto menor sexa p4.

Novamente a p3 óptima depende de p4. Canto menor sexa p4, menor é a p3 óptima. Lembra que pn é a probabilidade de Interromper no paso n.

Ollo ao que dixemos: a p3 óptima depende directamente de p4, cuxo óptimo depende directamente á súa vez de p5. Lembremos que nas quendas impares decide Ana e nas pares decide Alberte. Así que traduzamos isto ao galego: a decisión óptima de Ana na quenda 3 depende da decisión que vai tomar ela mesma na quenda 5. Mellor dito: en realidade depende do que Alberte cre que vai decidir Ana na quenda 5. Aínda mellor dito: en realidade depende da probabilidade que Alberte cre que empregará Ana na quenda 5 para tomar a súa decisión.

Xaora, o problema agora é achar os valores de pn para n entre 1 e 100.

Vale, o de n = 100 xa o temos claro, porque na quenda 100 imos Interromper si ou si. E iso quere dicir que no 99 tamén, porque sería estúpido deixar chegar ao 100 e ganar menos. Pero claro, iso implica que a quenda 98 tamén está clara… sigo? Isto foi o que fixemos no primeiro artigo do cempés e acabamos dicindo que sempre había que Interromper.

Pois ben, xa vimos que pn non é 1 para todos os valores de n. Non sabemos por que, pero sabemos que non o é. Tampouco sabemos onde deixa de ser 1 para ser algo menor, nin canto menor é.

Fixádevos en que o importante aquí non é que cada xogador coñeza as súas probabilidades, senón as dos demais. E como o sabe? Se é unha decisión política, pode basearse en enquisas de intención de voto. Se é unha decisión comercial, en análises de mercado. Se é a súa vida cotiá, basearase na súa experiencia. Se é unha cuestión xenética, estará implícita no mecanismo mesmo da evolución. Etcétera.

Semella que os que xogamos ao cempés, mesmo sabendo que na quenda 100 a probabilidade é 1, tamén sabemos grazas á nosa experiencia que en quendas anteriores a probabilidade non é 1… e por iso xogamos varias quendas. Se están a competir xogadores moi confiados ambos, é probable que cheguen por exemplo ata a quenda 80, pero se están a competir xogadores máis desconfiados probablemente non pasarán da 10…

Trátase dunha sorte de profecía autocumprida: se todos cremos que o mellor é Interromper o antes posible, daquela é certo que o mellor é Interromper o antes posible. Pola contra, se todos cremos que é mellor Continuar o máximo posible, entón o mellor é Continuar o máximo posible.

E este é o motivo de que uns actores e outros fagan tanto fincapé na confianza. Imaxinade que, no canto dun xogo, fosen o comercio, as pensións ou a bolsa: a mellor decisión dun xogador depende da probabilidade de Interromper do outro xogador (ou xogadores). Por iso é polo que o goberno ou as empresas adoitan teimar en transmitir fiúza no sistema. No caso de que esa fiúza se vexa debilitada porque os cidadáns, consumidores ou accionistas receen unha Interrupción no futuro, logo serán eles os que Interrompan agora, autocumprindo a profecía.

Xa vimos un caso real, o das pensións, no que aplicabamos en realidade esta mesma aproximación. Se non o lembras, releo cando rematares este.

O mesmo aplícaselle ao xogo de confianza, que tamén vimos (e que diciamos que podía compararse facilmente co comercio): se o xogo non acaba nunca, xa non é certo que haxa unha quenda na que a probabilidade de Interromper sexa indefectiblemente 1. Aínda máis: o mellor será que tal probabilidade sexa indefectiblemente cero. Releo tamén se non o tes fresco, porque agora entenderalo con outra cabeza.

No seu momento xa vimos os conceptos de «home social» e de «home superracional» e vimos que a distinción entre ambos é difusa… Pois poida que este artigo nos permita ver como, aínda que o resultado de ambas as hipóteses (a social e a superracional) é o mesmo, acaso cada unha poña a énfase nunha cousa distinta. De feito, para moitos autores a distinción non é que sexa difusa: é que non existe. Xa vimos como o comportamento que semellaba social era en realidade un comportamento egoísta nun nivel superior (aquí chamariámolo superracional). Por exemplo, a Wikipedia inglesa, no seu artigo verbo da superracionalidade, fai referencia á colaboración no dilema do prisioneiro, cando nós vimos que o egoísmo nel leva evolutivamente á cooperación; polo tanto, seica a superracionalidade non é necesaria… ou quizais o que non é necesario é o concepto de home social… ou ningún deles… en fin… tentamos dar toda a explicación e que cada lector tire a súa conclusión.

[O seguinte artigo da serie é Teoría de xogos (XXII): «Stock options».]


Este artigo e mais a súa tradución están publicados baixo licenza CC BY-NC-ND 2.5 ES.

Deixar unha resposta

introduce os teu datos ou preme nunha das iconas:

Logotipo de WordPress.com

Estás a comentar desde a túa conta de WordPress.com. Sair /  Cambiar )

Google photo

Estás a comentar desde a túa conta de Google. Sair /  Cambiar )

Twitter picture

Estás a comentar desde a túa conta de Twitter. Sair /  Cambiar )

Facebook photo

Estás a comentar desde a túa conta de Facebook. Sair /  Cambiar )

Conectando a %s