Aprendizaje federado para tratar de entender un mundo cada vez más complejo

Imagen del planeta surcado por datos. Aprendizaje federado“El universo está compuesto de energía, materia e información, pero es esta última la que lo hace interesante”. La frase del físico Cesar Hidalgo es una constatación de que la información está en todas partes, en todos los objetos que nos encontramos en nuestro día a día.

Y es eso lo que realmente nos sorprende y maravilla. Si, por ejemplo, comparamos un Ferrari y un Seat, realmente no se diferencian mucho en los átomos que los componen, pero la forma en la que están organizados, en la cantidad de información que ha sido necesaria para crearlos, es donde se marca el valor de cada uno de ellos.

Y no sólo en los objetos, ya que la vida es, fundamentalmente, información. Información dentro de su interior, en el ADN, que origina la forma y organiza a cada ser vivo. Información entre cada ser vivo, su entorno y otros seres vivos, que permite crear comunidades en las que los miembros cooperan y trabajan conjuntamente para conseguir objetivos más allá del individuo.

Juan Antonio Torrero Orange
Juan Antonio Torrero, Innovation Procurement Leader en Orange

Y la máxima expresión de ese fluir y compartición continua de la información se encuentra en la sociedad humana. Cada vez que hemos encontrado una forma de crear, procesar y compartir información, con la escritura, la imprenta, el telégrafo, la radio, la televisión el ordenador, internet, los seres humanos hemos podido dar grandes pasos en nuestra evolución. Gracias a esa capacidad de compartir información hemos pasado de ser seres sólo biológicos a ser seres culturales e históricos

Ahora, más que nunca en la historia de la humanidad, generamos, almacenamos y procesamos gran cantidad de información. Sin embargo, la compartición y el uso distribuido de esta información es todavía mínimo. Y ante los retos a los que nos enfrentamos y a los que nos enfrentaremos, es fundamental poder compartir esa información para aprender e intentar resolverlos. Ejemplos de esta necesidad de compartir información para aprender como humanidad no han faltado en estos últimos dos años, y en los próximos años el escenario es incluso más apremiante.

Podría pensarse en que deberíamos, entonces, permitir la compartición de estos datos, relajar las medidas legales que limitan este uso compartido. Pero no podemos, porque uno de los derechos fundamentales de cualquier persona es su privacidad: al fin y al cabo, como hemos dicho somos fundamentalmente información, y esta información tiene que ser protegida. Este derecho no sólo está basado en una dimensión ética y social, sino incluso en la esencia misma de la realidad física.

Así que, ¿cómo podemos aprender de toda esta información sin compartir los datos de forma directa? Cuando se nos presenta un reto, la imaginación, otra herramienta de la que disponemos, se pone a trabajar y encuentra un camino. En este caso, es el aprendizaje federado.

información y aprendizaje federado

Las bases del aprendizaje federado no son muy distintas a las que ya hemos utilizado anteriormente para aprender juntos de forma colaborativa. Consiste en trabajar primero de forma local, individual, para luego compartir lo que hemos aprendido y así mejorar todos.

En este caso, en un modelo federado, el primer paso consiste en que cada modelo local trabaje sobre los datos locales, sin compartir ni enviar esos datos. Ese modelo local trabaja en un entorno protegido, inaccesible desde el exterior.

Con estos datos, el modelo ajusta sus parámetros internos, para después compartirlos con el modelo federado, que recoge todos esos parámetros de todos los modelos locales y los agrega de alguna forma, por ejemplo, haciendo la media, para después devolver esos parámetros agregados a los modelos locales, que de esa forma aprenden de los demás modelos. Y así de forma repetitiva hasta que se consigue una convergencia en los parámetros obtenidos.  La idea general de trabajo es que, en vez de enviar los datos a un modelo central, lo que hacemos es enviar el modelo hasta los datos.

Esta forma de trabajar nos permite resolver varios problemas y retos de muchas formas, aunque podemos resumir en dos familias: el aprendizaje federado horizontal y el aprendizaje federado vertical.

El aprendizaje horizontal intenta resolver el problema de tener más registros para entrenar a los modelos. En este caso, una organización aporta unos registros con unas determinadas variables y otra organización aporta más registros con las mismas variables. De esta forma es como si se tuviera un conjunto de datos con más registros, lo que redunda en la precisión del modelo. Por ejemplo, se puede pensar en que los coches inteligentes pudieran compartir información de su conducción para que todos pudieran aprender sin tener que realizar más y más kilómetros de conducción real. Sería genial, ¿no?

En el aprendizaje vertical, se intenta ampliar el número de variables disponibles. En este caso, una organización aporta unos registros con unas determinadas variables, y otra organización aporta los mismos registros, pero con diferentes variables. De esta forma, se puede crear un conjunto de datos que tenga más variables, lo que implica una mayor información contextual que mejora el modelo. Aquí la complejidad, sobre todo, es conseguir saber qué registros son comunes, y hacerlo de forma privada. Pero ¿no hubiera sido adecuado que se pudiera compartir información sanitaria y de movilidad individual para generar modelos epidemiológicos más precisos y actualizados a tiempo real?

modelos centralizados de información

Pero ¿son iguales de eficaces que los modelos centralizados? Para responderlo, en una prueba de aprendizaje federado vertical que realizamos, en la que me gustaría resaltar el trabajo de Javier Blanco Codero, generamos datos sintéticos de tipo Telco y de otro sector. Con estos datos, sin dividirlos en dos conjuntos de datos con distintas variables, entrenamos un modelo centralizado. Y al mismo tiempo, separamos el conjunto de datos en distintas variables, y entrenamos un modelo federado vertical. Cuando comparamos los resultados, se comprobó que la precisión del modelo federado era lo suficientemente buena como para poder ser usado en vez del modelo centralizado, y además compartiendo datos entre diversas organizaciones.

Pero para poder utilizar el aprendizaje federado, no sólo se necesita generar el modelo federado. El entrenamiento federado exige que exista una plataforma de computación distribuida, para que cada modelo pueda ejecutarse allá donde estén los datos. Y además es necesario un sistema de gobernanza, control y monitorización descentralizado, donde la tecnología más prometedora es blockchain.

Todo esto abre nuevos horizontes. Se puede trabajar con cualquier dato con total privacidad, y que se encuentre en cualquier lugar, ya sea en instalaciones propias, Cloud, Edge computing e incluso en el dispositivo del usuario. De esta forma los datos se quedarían en el dispositivo del usuario, pudiendo incluso personalizar el modelo a sus preferencias.

Quizás en un futuro, cada uno de nosotros dispondremos de una zona privada donde gestionaremos nuestros datos a través de una identidad digital fuerte. Cada dato personal generado será custodiado en esa zona y controlaremos también cómo se procesan, dentro de ese entorno mediante modelos federados, a los que daremos permisos y controlaremos su ejecución.

aspectos legales y sociales

Estos escenarios introducidos por el aprendizaje federado nos hacen repensar en la privacidad, tal y como lo entendemos ahora. ¿Qué se entiende como cesión de datos? Realmente no se accede a los datos, sino que se procesan en una zona segura. ¿Es el aprendizaje federado un procesado de datos? Realmente los datos no se procesan, sino que se utilizan para generar modelos que en sí no tienen datos personales. ¿Cómo podemos hacer que la gestión de esos datos sea más sencilla para el usuario? No sólo es cuestión tecnológica, sino que implica aspectos legales y sociales.

Incluso, las posibilidades que abre el aprendizaje federado permitirían enfrentarse a varios retos como sociedad y humanidad. La complejidad de esos retos sólo puede ser afrontada con el uso de toda la información disponible con modelos muy avanzados. Crisis económicas, alimentarias, sanitarias, climáticas, necesitan del esfuerzo y aprendizaje común a partir de la información disponible a nivel mundial y custodiada por diversas organizaciones, e incluso información generada y propiedad de cada uno de nosotros.

Así que os invito a aprender juntos. A desarrollar estas nuevas formas de compartir datos, de usarlos para superar nuestros retos comunes, y asegurando la privacidad como derecho fundamental de cada uno de nosotros.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.