¿Cómo aprenden y aprenderán los robots?

Hoy día resulta imposible que alguien aprenda todo lo que tenga que ver con una rama del conocimiento. Lo que también se aplica a otras disciplinas no académicas, como conducir o saber comportarse en sociedad. Saberlo todo es imposible. Sin embargo, esa es la vía que seguimos hace décadas con el aprendizaje de los robots.

Durante un tiempo, la programación trató de hacer que los robots supiesen de antemano todos los datos necesarios para resolver determinados problemas (con los problemas de memoria que eso supone). Ahora, la investigación aborda el tema del mismo modo que lo hacen los alumnos: los robots aprenderán a aprender.

Cuando nos dimos cuenta de que era imposible cargar a los robots con todas las reglas básicas que los humanos damos por sentadas, decidimos observar nuestro propio aprendizaje y crear métodos que permitieran a las máquinas aprender del mismo modo en que lo hacemos los humanos.

Aprendizaje por refuerzo

Todos los seres vivos tienen algo que puede englobarse en eso a lo que llamamos comportamiento. Ya sea para reaccionar huyendo del fuego, adhiriéndose a un huésped para sobrevivir o creciendo hacia la luz. Este comportamiento es una acción derivada de un estímulo y cierta programación previa fruto de otras acciones tomadas con anterioridad.

El aprendizaje por refuerzo marca algún tipo de meta, hito o recompensa (como puede ser seguir vivo y reproducirse) como premio de una cadena de comportamientos. Es el principio tras el concepto moderno de evolución, y uno de los mecanismos que los humanos usamos para aprender.

Representación de la Cadena de Márkov biestable (estados A y E). Fuente: Joxemai4.

En este tipo de aprendizaje se usa con frecuencia el Proceso de Andréi Márkov, matemático ruso famoso por su aportación a la teoría de números. Por ejemplo, en cómo los vehículos autónomos toman decisiones en función de lo cerca que estén los límites de la vía.

Cuando reciba el estímulo “te acercas demasiado a la derecha”, aprenderá que debe girar el volante a la izquierda hasta que detecte “te acercas demasiado a la derecha”, momento en que volverá a girar el volante. Poco a poco aprenderá a asignar probabilidades para pasar del estado “girar a la derecha” a “girar a la izquierda” sin giros bruscos. Por ejemplo, bajo los objetivos de seguir en la carretera y no dar volantazos.

La misma dinámica puede aplicarse en la resolución de laberintos, donde cada movimiento posible [a] resta un punto y el alcanzar la meta (cuadrado azul) supone la ganancia de 100 puntos:

Aprendizaje por refuerzo para Inteligencia Artificial. Fuente: Hermoso y Vasirani, URJC.

El objetivo en estos sistemas es el de salir con el número máximo de puntos. Tras varias iteraciones, el robot aprende a asignar valores [b] y probabilidades de movimiento [c] de éxito a cada celda con el objetivo de crear un patrón de movimiento óptimo [d] y así conseguir salir.

Este tipo de aprendizaje será muy útil en el rescate de personas bajo los escombros, donde analizar las distintas rutas de escape será necesario. Los puntos en este caso pueden ser temporales (que tarde poco en salir) o de distancia (elegir la ruta más corta).

Aprendizaje por imitación

Los que hayan visto cómo un niño pequeño trata de imitar sonidos o movimientos serán capaces de comprender mejor este método. El aprendizaje por imitación (también llamado aprendizaje social) ha sido muy estudiado por psicólogos y sociólogos.

El aprendizaje por imitación tiene su origen en que «la inteligencia requiere comprensión», como dijo Penrose en Las sombras de la mente. Es un proceso mucho más complejo que el anterior, y parte de unas necesidades muy estrictas:

Que quien aprende reconozca no solo las acciones de lo que imita (modelo o mentor)
Sino que reconozca también que el modelo obtiene su recompensa gracias a esas acciones
Y que tenga una capacidad básica de imitación de dichas acciones.

Un ejemplo sencillo es que los niños aprenden a llevarse la comida a la boca porque observan a sus padres llevarse la comida a la boca. Pero, ¿podría aprender un robot sin sistema motor a andar solo observando a un humano andar?

Parece poco probable, porque el aprendizaje por imitación parte de la observación para poner en práctica otros métodos, como el aprendizaje por refuerzo que hemos visto antes. Gracias a la observación y comprensión, el robot parte de una situación aventajada en lugar de tener que aprender de cero.

**Fotos del estudio A Bayesian Developmental Approach to Robotic Goal-Based Imitation Learning. Fuente: Plos ONE**.

A finales de 2015 la universidad de Washington emitía un comunicado titulado «Científicos en robótica de la UW enseñan a los robots como si fuesen bebés». Se trataba de un resumen de este artículo de investigación, en el que experimentaban cómo enseñar a los robots a mover objetos en el espacio del mismo modo que se le enseñaría a un bebé.

Aprendizaje profundo o deep learning

Este es el tipo de aprendizaje automatizado del que más se habla, a pesar del hecho de que como es el más complejo se suelen usar muchas analogías. Por ejemplo, se suele decir que el aprendizaje profundo intenta imitar la actividad de las distintas capas de neuronas de la corteza cerebral humana.

La alternativa a esa definición es usar la definición que dio Yoshua Bengio sobre que el deep learning es «un conjunto de algoritmos en aprendizaje automático que trata de modelar abstracciones de alto nivel en datos usando arquitecturas compuestas de transformaciones no-lineales múltiples».

Lo del cerebro se entiende mucho mejor. Aunque esto traslada el problema al hecho de que todavía no tenemos claro cómo funciona el cerebro. Como dice Ramón López de Mántaras (CSIC) sobre la creatividad computacional:

«Lo cierto es que no somos conscientes de cómo desempeñamos […] actividades como comprensión del lenguaje, reconocimiento de patrones, etcétera, y sin embargo tenemos técnicas cada vez mejores de inteligencia artificial para replicarlas».

De manera que intentamos que las máquinas aprendan por su cuenta mediante un método que no llegamos a entender del todo, pero del que sabemos que necesita neuronas (o algo parecido a las neuronas) para funcionar.

Pese a las grandes incógnitas, ya se han hecho grandes avances en la materia, hasta el punto incluso de que los programas llegan a sustituir a algunos trabajadores cualificados.

Grandes compañías, como Google o Microsoft llevan muchos años tras el aprendizaje automático mediante deep learning. Hace tiempo alcanzaron hitos como el reconocimiento de patrones visuales, que hoy día aplican a causas que van desde la optimización en buscadores a prevenir la ceguera.

Del mismo modo que un profesional no tiene el primer día de trabajo toda la información y conocimientos necesarios para su puesto, los robots entrarán en nuestras vidas con un enorme margen de mejora.

Vendrán para ello de fábrica no con conocimientos y aprendizaje, sino con las herramientas para aprender y adaptarse a nuestras necesidades.
Imágenes | Mars Rover, Amy Quinn, Gordon Jhonson

En Nobbot | Global Robot Expo: así es como evoluciona la especie

Relacionado