Teoría de xogos (XX): Os tenistas (II)

[Esta é unha tradución autorizada de Ciención de Breogán, adaptada do artigo orixinal de 7 de febreiro de 2011 Teoría de juegos XX – Los tenistas (y II), de Javier “J” Sedano, que pode lerse en El Cedazo. Toda a serie Teoría de juegos está publicada en forma de libro, dispoñible aquí.]

[O artigo previo da serie é Teoría de xogos (XIX): Os tenistas (I).]

Cuncos
Vamos buscar o fondo…

No artigo anterior puxemos a Ana e a Alberte a xogar ao tenis e acabamos descubrindo que non tiñan unha estratexia pura que fose dominante, así que propuxemos unha estratexia mixta. Deste xeito, no canto de decidir sistematicamente unha das opcións, facíano cunha probabilidade p.

Contamos que John Nash demostrara que todos os xogos teñen, ao menos, un equilibrio de Nash en estratexias mixtas, pero que empregou unha demostración non construtiva, de maneira que non proporcionaba un método para achar ese equilibrio. Neste artigo veremos unha aproximación para atopar unha estratexia empregando o método do gradiente e veremos como interpretar ese método desde o punto de vista da teoría de xogos.

Método do gradiente

Se ben probablemente algúns dos nosos lectores coñecerán o método do gradiente, imos dedicarlle unhas alíneas polo ben daqueles que non o coñezan.

O método do gradiente pode utilizarse para atopar o máximo dunha función cando non se coñece a dita función ou cando, aínda coñecéndoa, o método analítico é complicado.

Basta con que o lector chegase ao bacharelato para lembrar que existe un método analítico para achar o máximo ou os máximos dunha función coñecida: calculamos a derivada da función, igualámola a cero e resolvemos a ecuación. Iso lévanos a un punto que pode ser un máximo ou un mínimo. Para sabermos se era un máximo ou un mínimo, podemos calcular a derivada da derivada nese punto e, dependendo do seu signo, descubrimos se era unha cousa ou a outra.

O problema vén cando non coñecemos a función: non podemos calcular a súa derivada, de xeito que malamente imos resolver a ecuación resultante de igualala a cero. Ou, mesmo se si a coñecemos, poida que non sexa simplemente unha parábola, senón unha función moi complexa, e calcular a súa derivada e atopar os ceros pode non ser doado.

O que tenta o método do gradiente é aproveitar o coñecemento que nos dá a derivada, incluso sen coñecer a función. Supoño que ao lector que rematase a secundaria explicaríanlle que a derivada dunha función indica o ritmo de crecemento (se é positiva) ou de decrecemento (se é negativa) dunha función. Pois ben, vamos aproveitar esa idea.

Podemos fixarnos, por exemplo, na primeira gráfica do debuxo de abaixo. No punto X = 12, a función está decrecendo a un ritmo de 6 e, polo tanto, dicimos que a derivada da función en X = 12 vale −6.

Pero, antes de continuarmos, un par de aclaracións:

  • Dixemos que o método do gradiente se emprega para achar o máximo dunha función. O lector astuto decataríase rapidamente de que, polo mesmo prezo, permitiranos atopar o mínimo simplemente multiplicando por −1 nalgún sitio… Ben, pois nesta explicación imos procurar un mínimo, porque iso simplifica algunha das analoxías. Polo camiño indicaremos o método para achar tanto o mínimo como o máximo.
  • O método chámase «do gradiente» porque os matemáticos chaman gradiente a unha derivada de máis dunha dimensión. Na explicación usaremos unha función unidimensional, pero nada impide empregar este método cando a función é bidimensional, tridimensional ou n-dimensional.

O método do gradiente é un método iterativo. Comezo nalgún sitio ao chou e vou repetindo pasos ata que me vou achegando cada vez máis ao máximo ou mínimo que que vou buscando. O procedemento de cada paso é este:

1. Achar a derivada da función no punto no que estamos.

No noso exemplo, supuxemos que o punto no que estamos é X = 12 e que a súa derivada é −6. E como sabemos iso? Boa pregunta. Porque, se coñecemos a fórmula da función, non precisamos andar facendo zarangalladas co método do gradiente: xa aprendemos na escola a achar o máximo ou o mínimo. Pero, se non coñecemos a fórmula da función, dificilmente coñeceremos a súa derivada.

Así que adoitan usarse aproximacións. Por exemplo, se chamo X (maiúscula) ao punto actual e x (minúscula) ao punto do paso anterior, podo dicir que a derivada é:

\displaystyle D=\frac{f(X)-f(x)}{X-x}

Se estudaches algo de derivadas, saberás que iso non é unha mala aproximación; se non as estudaches, pois fíaste de min e listo.

No noso exemplo, para X = 12 estimamos dalgún xeito que D = −6.

2. Calcular a corrección que debo facer no seguinte sitio.

A fórmula para facer a corrección é distinta se estamos buscando un máximo ou un mínimo (este é o signo que diciamos máis arriba que había que cambiar para empregar o método nun caso ou no outro):

\displaystyle X^\prime=X+K\cdot D (para procurar un máximo);

\displaystyle X^\prime=X-K\cdot D (para procurar un mínimo).

No noso exemplo, empregamos a fórmula (véxase a segunda gráfica) e sáenos que X′ = 15.

Por que escollemos K = 0,5? Boa pregunta. Non o sabemos. Cómpre ir empregando o algoritmo con diferentes valores de K e ir probando ata que atopamos un K que fai que o algoritmo funcione. Si, é así de artesanal. Como primeira aproximación, se algún día tes de empregar un algoritmo coma este, pódese usar un K que sexa unha orde de magnitude menor ca a relación entre os valores de x e de f(x). Como ves, todo moi artesanal.

3. Repetir desde o paso 1 tantas veces como sexa preciso.

Por que funciona este método? Funciona porque nalgún momento nos pasaremos do mínimo que estabamos a procurar. No noso exemplo iso ocorre nas figuras segunda e terceira. Na terceira figura, en X = 15, a derivada é 3, de xeito que no seguinte paso (figura 4) retrogradamos!

A idea é que, se escollemos un valor de K axeitado, iremos dando saltiños cara adiante e cara atrás, e eses saltiños serán cada vez máis pequenos e estarán arredor do mínimo da función.

Conseguido!

Pódese facer unha comparación cunha bóla e un cunco (mira as imaxes que hai seguidamente). Cando comezamos, a bóla está en X = 12, pero cando a ceibamos, caerá roulando pola pendente (iso é o que representa a derivada). Aínda que vai perdendo enerxía por rozamento (e iso é o que representa multiplicar por K), subirá un pouco pola pendente da outra banda. Nalgún momento pararase no outro lado, volverá baixar e acabará quedando no fondo do cunco (ou, mellor dito, buligando con vaivéns cada vez máis infinitamente pequenos arredor do fondo do cunco).

Precisamente este é o xeito de saber se xa rematamos e chegamos ao mínimo (ou preto dabondo, ao menos): imos controlando decontino a variación que se está a producir entre paso e paso e, cando esa variación é moi pequena, é que xa estamos no fondo.

Este método funciona sempre? Pois non, non sempre. Podemos imaxinar un cunco de arxila deformado que teña un oco nun lado, coma o que se ve na seguinte figura:

Neste caso podería ocorrer que a bóla ficase no oco no canto de seguir roulando ata o fondo de verdade. Iso é o que os matemáticos chaman un mínimo local por contraposición ao mínimo «de verdade»1 que representa o fondo do cunco.

O que adoita facerse nestes casos é engadirlle un pouco de «ruído» ao procedemento. Se mantemos a analoxía do cunco e a bóla, é coma se, amais de deixar que a bóla fose roulando ata acadar o fondo, sacudísemos un pouco o cunco de cando en vez.

Daquela as fórmulas do paso 2 serían:

\displaystyle X^\prime=X+K\cdot D+\text{rand} (para procurar un máximo);

\displaystyle X^\prime=X-K\cdot D+\text{rand} (para procurar un mínimo).

Ese valor aleatorio debe poder ser positivo ou negativo, e realmente non importa moito se segue unha distribución de Gauss, uniforme, triangular… O que si é importante é que o seu valor non sexa nin moi pequeno (en cuxo caso non valería para nada) nin moi grande (ou a bóla non ficaría quieta nin sequera preto do fondo do cunco). Unha vez máis: artesanal.

Hai unha vantaxe colateral do uso deste ruído: sabemos que no mínimo a derivada é cero… pero tamén sabemos que non estamos a empregar a derivada, senón unha aproximación. Polo tanto, podería suceder que a aproximación nos dese cero (aínda que o valor real non fose cero) e o procedemento se paralizase. Pois ben, este ruído garántenos que, aínda que nos equivoquemos na aproximación, antes ou despois seguiremos movéndonos un chisquiño e non quedaremos atrancados.

Debemos facer fincapé, unha vez máis, en que para empregar este método nin sequera é preciso coñecer a función, de xeito que ás veces tamén se denomina «de proba e erro»: probo, enganeime, corrixo, volvo probar, enganeime pero menos, vale, sigo corrixindo, uf, agora paseime, desfago a corrección e probo cun pouco menos de corrección…

Emporiso, este método non é máxico. Poida que a función non teña un mínimo absoluto (imaxina un coseno, por exemplo) ou que non teña un mínimo (imaxina unha recta) ou que comecemos tan lonxe del que non sexamos quen a chegar ata alí, ou que escollamos valores malos de K ou do número aleatorio.

Equilibrio dos tenistas

Apliquémoslles este método ás decisións que deben tomar Ana e mais Alberte. Lembremos que, pois que estabamos a empregar estratexias mixtas, cada un deles escollerá unha opción ou a outra cunha determinada probabilidade.

Agora temos dúas variables: pAna e pAlberte. A variable pAna é a probabilidade coa que Ana escolle colocarse para recibir un drive (léase «pe Ana», non todo xunto, «pana»), mentres pAlberte é a probabilidade coa que Alberte escolle sacar cara ao drive (léase «pe Alberte»). E a magnitude medida é a esperanza de pagamento para eses pAna e pAlberte.2

Fixemos unha folla de cálculo para representar visualmente esta función bidimensional. Deixámola aquí por se acaso alguén quere xogar con ela, pero o interesante é que podemos ver a forma que ten a función na seguinte imaxe:

Método do gradiente

Vemos que os casos extremos, nos que pAna = 0, pAna = 1, pAlberte = 0 e pAlberte = 1, coinciden coas estratexias puras da matriz de pagamentos. Por exemplo, se pAna = 0 (é dicir, se Ana nunca escolle ir ao drive) e pAlberte = 1 (é dicir, Alberte sempre escolle sacar ao drive), o pagamento esperado é 30, que é xusto o que dicía a matriz para a combinación de estratexias puras drive-revés. Isto non é sorprendente: se non fose así significaría que cometéramos un erro.

Debemos decatarnos de que Alberte tenta maximizar o pagamento (busca o pAlberte que lle dea a máxima esperanza de pagamento), así que el usará a versión da fórmula de corrección que ten o signo positivo. Porén, Ana tenta minimizar o pagamento (busca o valor de pAna que dea a mínima esperanza de pagamento), así que usará a versión da fórmula co signo negativo.

Insistimos, unha vez máis, en que para que Ana e Alberte empreguen esta aproximación non cómpre que coñezan a función, nin a gráfica, nin nada: poden utilizar a función como unha «caixa negra».

Así que escollemos K = 0,0005, un nivel de ruído de 0,0001 e uns valores iniciais aleatorios e realizamos 1000 pasos do algoritmo. Fixemos un programiña de 70 liñas en Java (se ben ten extensión .txt, porque se non non podemos subilo a WordPress) para facer todo o proceso, e o resultado témolo neste arquivo de texto. Non precisas o programa, deixámolo aquí soamente por se alguén quere fedellar nel. Con relación ao arquivo de texto… tampouco fai falla, en realidade: imos comentar aquí os aspectos máis interesantes.

Na primeira liña vemos os valores iniciais, que son aleatorios:

Estado inicial: Alberte P drive: 0,4000 (+0,1000); Ana P drive: 0,4000 (+0,1000);
  0: 27,500000; Alberte P drive: 0,5000 (-0,0025); Ana P drive: 0,5000 (+0,0025);

En cada paso imos aplicando o algoritmo explicado arriba, buscando Ana o mínimo e Alberte o máximo:

1: 27,549858; Alberte P drive: 0,4975 (-0,0101); Ana P drive: 0,5025 (-0,0099);
2: 27,647302; Alberte P drive: 0,4874 (-0,0049); Ana P drive: 0,4926 (+0,0050);
3: 27,748474; Alberte P drive: 0,4825 (-0,0101); Ana P drive: 0,4976 (-0,0100);

En cada paso imprimimos o número do paso, a probabilidade pAlberte de que Alberte escolla sacar ao drive e a probabilidade pAna de que Ana se prepare para un drive. Entre parénteses amosamos a corrección que imos facer para o paso seguinte (é dicir, como modificaremos respectivamente pAlberte e pAna). E á esquerda imos escribindo a esperanza de pagamento desa combinación de pAna e pAlberte:

i: esperanza; Alberte P drive: pAlberte (Delta); Ana P drive: pAna (Delta);

Conforme imos calculando pasos, imos vendo como Alberte segue reducindo a súa pAlberte, porque semella que mellora cando o fai, mentres Ana vai facendo bailar a súa pAna arredor dun certo equilibrio, porque non parece que ela gane ou perda ao modificar iso.

 4: 27,834586; Alberte P drive: 0,4724 (-0,0043); Ana P drive: 0,4876 (+0,0042);
 5: 27,924570; Alberte P drive: 0,4681 (-0,0105); Ana P drive: 0,4918 (-0,0107);
 6: 28,000946; Alberte P drive: 0,4576 (-0,0036); Ana P drive: 0,4811 (+0,0035);
 7: 28,077405; Alberte P drive: 0,4540 (-0,0106); Ana P drive: 0,4847 (-0,0107);
 8: 28,144423; Alberte P drive: 0,4434 (-0,0033); Ana P drive: 0,4739 (+0,0030);
 9: 28,213113; Alberte P drive: 0,4402 (-0,0107); Ana P drive: 0,4770 (-0,0113);
10: 28,264860; Alberte P drive: 0,4295 (-0,0024); Ana P drive: 0,4657 (+0,0023);

Ao cabo dunhas 80 iteracións vemos que a situación comeza a estabilizarse arredor de pAlberte = 0,60 e pAna = 0,20, o que nos dá unha esperanza de pagamento de 26 aproximadamente.

70: 25,908907; Alberte P drive: 0,5456 (+0,0157); Ana P drive: 0,1665 (-0,0015);
71: 25,932192; Alberte P drive: 0,5613 (+0,0007); Ana P drive: 0,1650 (+0,0078);
72: 25,948265; Alberte P drive: 0,5620 (+0,0107); Ana P drive: 0,1728 (-0,0011);
73: 25,961400; Alberte P drive: 0,5727 (+0,0006); Ana P drive: 0,1717 (+0,0062);
74: 25,970496; Alberte P drive: 0,5733 (+0,0074); Ana P drive: 0,1779 (-0,0008);
75: 25,977898; Alberte P drive: 0,5807 (+0,0005); Ana P drive: 0,1771 (+0,0048);
76: 25,982911; Alberte P drive: 0,5812 (+0,0056); Ana P drive: 0,1819 (-0,0006);
77: 25,987540; Alberte P drive: 0,5867 (+0,0002); Ana P drive: 0,1812 (+0,0037);
78: 25,990161; Alberte P drive: 0,5869 (+0,0055); Ana P drive: 0,1849 (-0,0006);
79: 25,994119; Alberte P drive: 0,5925 (+0,0003); Ana P drive: 0,1844 (+0,0036);
80: 25,995621; Alberte P drive: 0,5927 (+0,0028); Ana P drive: 0,1879 (-0,0001);
81: 25,997265; Alberte P drive: 0,5955 (+0,0004); Ana P drive: 0,1878 (+0,0070);
82: 25,998927; Alberte P drive: 0,5959 (+0,0024); Ana P drive: 0,1948 (-0,0002);
83: 25,999542; Alberte P drive: 0,5983 (-0,0000); Ana P drive: 0,1946 (+0,0020);
84: 25,999705; Alberte P drive: 0,5983 (-0,0022); Ana P drive: 0,1966 (-0,0000);
85: 25,999330; Alberte P drive: 0,5960 (-0,0000); Ana P drive: 0,1966 (-0,0188);

No paso 88-89 vemos un salto moi súbito, probablemente debido a que o ruído que introducimos fixo «saltar» á bóla un montón. Mesmo vemos que iso nos levou, no paso 90, a probabilidades cero. Fíxate en que 0,66 − 2,10 = −1,44, pero como isto é unha probabilidade está constrinxido a ficar entre cero e un. Así pois, o noso algoritmo devólveo ao cero se se torna negativo, ou ben ao 1 se crece por riba dese valor.3

87: 26,066505; Alberto P drive: 0,6597 (+0,0005); Ana P drive: 0,1777 (+0,6558);
88: 24,093026; Alberte P drive: 0,6602 (-2,1011); Ana P drive: 0,8335 (+0,0014);
89: 45,047486; Alberte P drive: 0,0000 (-0,0157); Ana P drive: 0,8349 (-7,3437);
90: 20,000000; Alberte P drive: 0,0000 (-0,0000); Ana P drive: 0,0000 (-0,0149);
91: 20,000000; Alberte P drive: 0,0000 (-0,0000); Ana P drive: 0,0000 (+0,0002);
92: 20,005450; Alberte P drive: 0,0000 (-0,0001); Ana P drive: 0,0002 (-0,0152);
93: 20,000000; Alberte P drive: 0,0000 (-0,0002); Ana P drive: 0,0000 (-0,0151);

O algoritmo vai volvendo engorde ao seu punto de equilibrio, ata que arredor do paso 130 vemos que as correccións xa son moi pequeniñas arredor de cero. Isto significa que estamos bailando arredor do punto de equilibrio: pAlberte = 0,60 e pAna = 0,20, cunha esperanza de pagamento de 26.

125: 26,000060; Alberte P drive: 0,6012 (-0,0002); Ana P drive: 0,1990 (-0,0001);
126: 26,000056; Alberte P drive: 0,6010 (-0,0001); Ana P drive: 0,1989 (+0,0001);
127: 26,000049; Alberte P drive: 0,6010 (+0,0002); Ana P drive: 0,1990 (+0,0001);
128: 26,000054; Alberte P drive: 0,6012 (+0,0000); Ana P drive: 0,1991 (-0,0001);
129: 26,000062; Alberte P drive: 0,6012 (+0,0003); Ana P drive: 0,1990 (+0,0001);
130: 26,000070; Alberte P drive: 0,6015 (+0,0002); Ana P drive: 0,1991 (+0,0001);
131: 26,000070; Alberte P drive: 0,6017 (-0,0001); Ana P drive: 0,1992 (+0,0000);
132: 26,000065; Alberte P drive: 0,6016 (-0,0000); Ana P drive: 0,1992 (+0,0003);
133: 26,000040; Alberte P drive: 0,6016 (+0,0001); Ana P drive: 0,1995 (-0,0000);

Deixamos funcionar o procedemento outros 900 pasos por se acaso estabamos nun mínimo local e o ruído nos saca del, levándonos ao mínimo global. Por exemplo, podemos ver que na veciñanza do paso 480 o ruído lle dá outro bo empurrón á bóla:

466: 26,000009; Alberte P drive: 0,6005 (+0,0001); Ana P drive: 0,1996 (+0,0001);
467: 26,000009; Alberte P drive: 0,6006 (-0,0001); Ana P drive: 0,1997 (-0,0000);
468: 26,000009; Alberte P drive: 0,6005 (-0,0000); Ana P drive: 0,1997 (-0,0001);
469: 26,000012; Alberte P drive: 0,6005 (-0,0122); Ana P drive: 0,1995 (+0,0000);
470: 25,999734; Alberte P drive: 0,5883 (-0,0001); Ana P drive: 0,1995 (+0,0146);
471: 26,008411; Alberte P drive: 0,5881 (-0,0368); Ana P drive: 0,2142 (-0,0002);
472: 26,033978; Alberte P drive: 0,5513 (-0,0006); Ana P drive: 0,2140 (+0,0589);
473: 26,179673; Alberte P drive: 0,5507 (-0,1144); Ana P drive: 0,2729 (-0,0013);
474: 26,585896; Alberte P drive: 0,4363 (-0,0018); Ana P drive: 0,2716 (+0,1570);
475: 27,891466; Alberte P drive: 0,4345 (-0,3642); Ana P drive: 0,4286 (-0,0041);
476: 31,945654; Alberte P drive: 0,0704 (-0,0055); Ana P drive: 0,4245 (+0,4924);
477: 45,184340; Alberte P drive: 0,0648 (-1,1955); Ana P drive: 0,9169 (-0,0134);
478: 47,106177; Alberte P drive: 0,0000 (-0,0148); Ana P drive: 0,9035 (+0,0718);
479: 49,259674; Alberte P drive: 0,0000 (+0,0002); Ana P drive: 0,9753 (-0,0150);
480: 48,802286; Alberte P drive: 0,0002 (-1,1508); Ana P drive: 0,9603 (-0,0152);
481: 48,355219; Alberte P drive: 0,0000 (+1,1247); Ana P drive: 0,9452 (-0,0148);

Pero volvemos ao punto de equilibrio decontado, de xeito que nos arredores do paso 500 xa estamos outra vez no mesmo sitio de antes:

497: 26,000031; Alberte P drive: 0,6005 (+0,0000); Ana P drive: 0,1988 (-0,0001);
498: 26,000033; Alberte P drive: 0,6005 (+0,0002); Ana P drive: 0,1988 (-0,0001);
499: 26,000047; Alberte P drive: 0,6007 (-0,0000); Ana P drive: 0,1987 (+0,0001);
500: 26,000040; Alberte P drive: 0,6007 (+0,0002); Ana P drive: 0,1988 (-0,0001);
501: 26,000057; Alberte P drive: 0,6009 (+0,0000); Ana P drive: 0,1988 (+0,0000);
502: 26,000058; Alberte P drive: 0,6010 (-0,0002); Ana P drive: 0,1988 (+0,0001);
503: 26,000040; Alberte P drive: 0,6007 (+0,0001); Ana P drive: 0,1989 (+0,0000);
504: 26,000044; Alberte P drive: 0,6008 (-0,0000); Ana P drive: 0,1989 (-0,0002);
505: 26,000047; Alberte P drive: 0,6008 (+0,0000); Ana P drive: 0,1988 (-0,0001);

Sabemos que xa chegamos ao final do algoritmo? Pois non, non sabemos tal. Temos de intuílo. Se cadra estamos nun mínimo local e precisamos deixalo outros 1000 pasos para chegar ao mínimo global. Ou poida que 1000 pasos sexa moi pouco e precisemos un millón de pasos. Ou quizais escollésemos un K ou un nivel de ruído tales que isto non funciona. Ou se callar a función en realidade non ten un máximo nin un mínimo e estamos a facer o parvo. Como ves, é algo moi artesanal, moi baseado na experiencia.

Pero algo haberá que facer… Supoñamos que o damos por bo. Achamos que, se Alberte sacar ao drive cunha probabilidade 0,60 (é dicir, o 60 % das veces) e Ana se preparar para recibir un drive cunha probabilidade 0,20 (é dicir, o 20 % das veces), Alberte obterá un pagamento de 26 (que, lembremos, significaba que podería conseguir o ace cunha probabilidade do 26 %). Calquera intento dun deles para mellorar o pagamento esperado (subilo, no caso de Alberte, e baixalo, no caso de Ana) será contrarrestado polo outro, así que esa é a mellor situación na que poden estar.

Aprendizaxe e experiencia

A miña intención era dedicarlle a fin desta segunda parte a reestudar o xogo do cempés desde esta nova perspectiva. Pero, como xa levamos 3000 palabras, ímolo deixar para o vindeiro artigo e así dedicarémoslle o tempo que merece.

Así que podemos dedicar unhas alíneas a relacionar o método do gradiente coa aprendizaxe.

Xa vimos que algúns textos chaman a este método «de proba e erro», que é basicamente o que fan os animais (incluídos os humanos, evidentemente) cando están a aprender: proban, engánanse, corrixen, volven probar… unha vez e outra… e, se a corrección é astuta, acaban facéndoo ben.

Imaxinemos un bebé que está aprendendo a se ter de pé. Se se inclina de máis cara adiante, cae de fociños. Segue probando e caendo ata que, un día, bótase un pouco menos cara adiante e decátase (o cerebro é unha máquina marabillosa) de que cae máis lentamente ou mesmo que non cae. Así que a seguinte vez bótase máis cara atrás… e claro, cae de cu. Vaia, corrixiu de máis. A vez seguinte bótase cara atrás tamén, pero non tanto. Ben! Así, aos poucos, vai axustando e ao cabo dun par de semanas é quen a manterse ergueito.

A graza é que, para aproveitar este método, non cómpre coñecer a función da cal queremos atopar o máximo ou o mínimo: simplemente imos probando. No caso do bebé, non precisa coñecer a lei da gravitación universal, nin calcular o seu centro de masas, nin ningún outro dos conceptos que empregaría un físico para explicar o fenómeno.

Este método está relacionado con outros mecanismos de aprendizaxe das intelixencias artificiais, como por exemplo as redes neurais. É coma se puxésemos moitas neuronas artificiais, todas elas aprendendo con algo semellante a este método do gradiente, e despois resolvendo o problema entre todas. Deste xeito son quen a atacar problemas moito máis complexos ca os que poderiamos tratar con este método illado.

Por certo, aínda que non estea relacionado coa teoría de xogos, este é o motivo polo que non debemos sobreprotexer os bebés: deben poder enganarse, que lles doia a caída e que a seguinte vez corrixan. Home, convén procurar non facer a aprendizaxe a carón dunha cacharela ou dunha carricova, pero vaia, se caen ao chan e choran, así aprenden que non deben inclinarse tanto cara adiante. Así aprendémolo todos e é mellor que che ocorra cando tes un ano ca cando tes dous. E cando xa somos meirandes, as decisións serán máis importantes (económicas, laborais, sociais…) e as consecuencias máis graves; pero unha vez máis, hai que deixar que a xente (todos: bebés, nenos, mozos e adultos) cometa os seus erros e aprenda deles.

Unha vez máis: todo dentro dunha orde. Atopar ese punto que separa o «mellor que se engane e aprenda» do «enganouse tanto que morreu ou se arruinou a vida» é o que pais, profesores, xefes, gobernantes, etc. teñen de facer. E é moi difícil!


Este artigo e mais a súa tradución están publicados baixo licenza CC BY-NC-ND 2.5 ES.


1. Tamén chamado mínimo global cando quere explicitarse este feito.

2. Lémbroche que empregamos «esperanza» no senso matemático: media.

3. Tecnicamente dise que se «satura en 0» e que se «satura en 1» ou que debe estar no intervalo [0, 1].

Advertisements

Deixar unha resposta

introduce os teu datos ou preme nunha das iconas:

Logotipo de WordPress.com

Estás a comentar desde a túa conta de WordPress.com. Sair /  Cambiar )

Google+ photo

Estás a comentar desde a túa conta de Google+. Sair /  Cambiar )

Twitter picture

Estás a comentar desde a túa conta de Twitter. Sair /  Cambiar )

Facebook photo

Estás a comentar desde a túa conta de Facebook. Sair /  Cambiar )

Conectando a %s