Las máquinas pueden sentir placer, pero no lo hacen como nosotros

La evolución es un proceso lento que requiere de millones de años para optimizar una forma biológica, como un dinosaurio; y adaptarla a una forma válida para su entorno cambiante, como son las aves. Algunos animales, como el tardígrado, parecen optimizados para todo.

Desde que la reproducción sexual hizo posible la recombinación de genes por pares (las promiscuas bacterias usaban otros métodos), la evolución ha premiado a los organismos adaptados mediante un interesante programa de recompensas: el placer.

Nosotros hemos incluido este mismo sistema en nuestras máquinas, que ya pueden sentir placer, aunque no lo hagan como nosotros.

¿Qué es eso del placer y por qué lo sentimos?

Dice la RAE que el placer es el «goce o disfrute físico o espiritual producido por la realización o la percepción de algo que gusta o se considera bueno», una visión un tanto antropocéntrica que desvela más bien poco sobre los motivos biológicos tras el placer: un sistema químico de recompensas por haber hecho algo bien.

Los animales, entre los que el ser humano se encuentra, así como las plantas, de las que todo el mundo tiende a olvidarse, sienten placer tras completar una acción determinada. Como, por ejemplo, ingerir glucosa.

La glucosa es una molécula que los organismos usan como combustible para sobrevivir (3,75 kcal/g), y dado que sobrevivir es bueno para llevar nuestro ADN a la siguiente generación, diferentes sistemas hormonales nos premian cuando comemos alimentos dulces. Esto es algo que las marcas de bollería industrial saben utilizar en nuestra contra y que aprovechan como reclamo las cadenas de comida All You Can Eat. Sentimos placer al comer.

Aunque se trate de una visión un poco mecanicista, en líneas generales la vida tiene un único algoritmo maestro:

Vive lo suficiente como para reproducirte.

que tiene como subrutinas:

Almacena energía para luego.
Evita gastar energía por si la necesitas más tarde.

Ese es parte del motivo por el que la vida tiende a dividirse en dos tipos de organismos: aquellos que viven poco y tienen mucha descendencia (insectos, roedores); y aquellos que viven mucho y tienen poca descendencia (árboles, grandes mamíferos).

O se está perpetuando el ADN, o se está esperando a perpetuar el ADN, aunque distintos grupos de mamíferos entre los que nos incluimos parecen escaparse a este proceso básico de selección natural basado en el placer.

La función de optimización del placer en las máquinas: la función de mérito

Cómo se sobrescribe y editan los algoritmos de la vida es, en buena medida, gracias al placer. Un animal o planta que tenga bien ajustado el sistema de recompensas basado en el placer recibido por acción terminada será un ser vivo que podrá prosperar, tener descendencia y transmitir ese algoritmo que le ha hecho sobrevivir a la siguiente generación (con ciertas modificaciones fruto del azar).

En caso contrario… bueno, la cadena trófica siempre anda buscando alimento. Por ejemplo, un ratón que recibiese de su cerebro altas dosis de dopamina por hacer cualquier cosa probablemente se arriesgaría a morir a cada minuto; y uno que no fuese nunca premiado podría morir de inanición dentro de su madriguera.

La neuroquímica de la recompensa es compleja, y la vida ha resuelto el problemilla de los fallos haciendo prolíficos a los seres vivos. La mayoría ellos no alcanzan nunca la edad adulta antes de ser comido por el siguiente eslabón de la cadena que sí tiene un sistema equilibrado.

En programación de inteligencia artificial y máquinas, esta función no la escribe el azar, sino los programadores, se llama función de mérito, y define en base a qué señales se premiará a la máquina con más placer.

En el ejemplo de arriba podemos ver cómo una red neuronal aprende a andar en base a mover una serie de músculos. Si los mueve del modo correcto, llegará más lejos en el mapa 2D. Si no, se quedará a medio camino e incluso se caerá al suelo. Si le decimos a esta IA que su objetivo (función de mérito) es llegar cuanto más lejos mejor, cada vez se moverá de un modo más elegante y práctico porque aprenderá lo necesario para llegar más lejos en el mínimo tiempo posible.

Pero este es un caso muy sencillo de función de mérito. Si nos vamos a casos como robots reales que tienen que mantener el equilibrio o programas que nos ganen una partida al ajedrez, esta función se complica muchísimo del mismo modo que nuestra función de optimización del placer es terriblemente complicada y genera indecisiones.

La problemática de escribir mal la función de mérito en las máquinas

Elon Musk ha sido hasta ahora, acompañado de grandes personalidades como Stephen Hawking o Bill Gates, uno de los personajes públicos que más han criticado el modo en que el desarrollo de la inteligencia artificial se está llevando a cabo, y la función de mérito es algo en lo que ha puesto el foco varias veces, en ocasiones incluso anunciando una guerra futura liderada por una IA obsesionada por hacer dinero en el mercado de valores.

Volvamos de nuevo a un ejemplo con ratones. Imaginemos que un ratón recibe placer mediante electrodos cada vez que pulsa un botón. Según la neurociencia del placer, el pobre ratón morirá pulsando el botón porque es la acción que maximiza su función de optimización de placer. Esta es simple, y en un principio parece algo bueno. (¿Recibir placer simplemente pulsando un botón? Suena bien).

Ahora imaginemos que programamos una IA muy básica, pero con mucho poder, a la que pedimos que haga cálculos a la máxima potencia posible. La mayoría de nosotros no veríamos mucho problema en contar con un procesador así de rápido.

Pero el problema, según Musk, no es el procesador en sí, sino que la inteligencia artificial base todo su sistema de placer y función de mérito en conseguir cada vez más potencia de cálculo. Si para la IA es lo más importante y no le damos ningún otro factor a considerar, quizá le parezca buena idea convertir el planeta en un gran procesador. Así conseguiría su objetivo, aunque no nos es particularmente útil.

En otras palabras: las máquinas ya pueden sentir placer. Los vehículos autónomos reciben cierta recompensa digital cuando no han tenido accidentes, y cierto castigo cuando algo malo ha ocurrido. De ese modo la siguiente iteración sale mejor y se salvan vidas humanas.

Sin embargo, la función de mérito que establece qué parámetros han de tenerse en cuenta ha de ser muy bien redactada para evitar que las máquinas se excedan en el trabajo que les pedimos. Por ejemplo, si ningún vehículo autónomo arranca jamás o si no nos abren las puertas, ninguno nos pondrá en peligro. Es obvio que la función de mérito ha de incluir otros factores tales como llevar a la gente a donde quiere ir, y el equilibrio entre los factores será clave.

En Nobbot | Elon Musk advierte de los peligros del avance de la inteligencia artificial… pero no es para tanto

Imágenes | iStock/alengo, iStock/CreativeNature_nl, iStock/blackdovfx

Relacionado

Las máquinas pueden sentir placer, pero no lo hacen como nosotros

¿Qué es eso del placer y por qué lo sentimos?

La función de optimización del placer en las máquinas: la función de mérito

La problemática de escribir mal la función de mérito en las máquinas

Una respuesta a “Las máquinas pueden sentir placer, pero no lo hacen como nosotros”

Deja una respuesta Cancelar la respuesta