EsCOVID19data: la iniciativa que pone orden a los datos de la pandemia

Un grupo de voluntarios lleva desde antes del estado de alarma trabajando para recopilar, organizar y publicar de forma clara y transparente los datos oficiales de la pandemia. Cada día, se sumergen en el batiburrillo de formatos y listas publicados por cada comunidad autónoma, para unificar los datos y colgarlos en plataformas de código abierto.

Durante estos seis meses, su trabajo ha sido utilizado por medios generalistas y especializados, investigadores y ciudadanos interesados en entender la evolución de la crisis. Ha servido para dar solución a un problema: la falta de coherencia y uniformidad de los datos oficiales.

Ordenando un cajón de sastre

Manejar y publicar los datos que rodean a la COVID-19 se ha presentado desde el primer momento como uno de los grandes retos de esta crisis sanitaria. Las cifras son variadas y complejas: engloban el número de contagiados, de hospitalizados, de ingresados en UCI, de recuperados, de fallecidos y un largo etcétera.

A la variedad de datos, se suma la diversidad de fuentes. Cada comunidad autónoma publica los suyos, a menudo con diferentes plazos, en distintos formatos y siguiendo criterios heterogéneos. El resultado es un maremágnum de cifras difíciles de englobar, y un caos al que las instituciones no han querido o no han podido dar solución.

Escovid19data surgió, precisamente, como respuesta a este caos ya al inicio de la pandemia. “Poco antes de declararse el estado de alarma nos dimos cuenta de que no existía información detallada sobre la COVID-19”, explica Pablo Rey, quien forma parte del grupo de voluntarios y está detrás también de Montera34, otra iniciativa que trabaja en proyectos de análisis y visualización de datos.

Junto a Javier Cantón, hizo un llamamiento en Twitter para recopilar datos por provincias. “Poco a poco nos fuimos conociendo y encontrando”, explica Rey. Desde entonces, el equipo (que ha ido variando a medida que nuevos voluntarios se incorporaban o reemplazaban a los anteriores) ha estado en contacto constante por Telegram.

Cada uno de los voluntarios está a cargo de una comunidad autónoma (que tiene, como dicen internamente, amadrinada). Diariamente, Pablo Rey revisa qué comunidades han actualizado sus datos y contacta con la madrina correspondiente en caso de que alguna presente algún problema.

Una sucesión de obstáculos

Para automatizar al máximo el proceso de recopilación, siguen una estrategia a la que se suma un proceso de verificación de datos. “El proceso de revisión y ajuste del script que une todos los datos cada día puede suponer desde media hora hasta tres o cuatro horas, dependiendo de los cambios que haya en las fuentes. Siempre hay sorpresas”, explica Rey. Y es que las dificultades surgen por todos lados.

En primer lugar, está el tema de la localización de los datos. “Las fuentes son más o menos estables, pero a veces varían: ha sucedido sobre todo con Cataluña, pero también con Canarias, Aragón o País Vasco, por ejemplo. A veces cambian su dirección web (URL), ya sea por error o por otras razones, como ha sucedido con Andalucía”.

A esto se suma que hay comunidades que ofrecen varias fuentes de datos diferentes, por lo que deben encontrar la más adecuada y actualizada. “En la Comunidad Valenciana o en Asturias, los datos más ‘abiertos’ no están actualizados, por lo que es mucho más útil, pero más lento, acudir a sus fuentes diarias e ir recopilando los datos uno a uno”, continúa.

Otro problema deriva del tipo de datos que ofrecen, que no es siempre el mismo. “Hay casos en que los dan desagregados por día, pero no siempre”, lamenta el voluntario. “En otros, solo ofrecen los agregados totales, por lo que a veces no es posible saber, por ejemplo, cuántos hospitalizados hay en un día concreto en una comunidad específica, como ocurre con La Rioja”.

De imágenes a PDF

También está el tema del formato. Tal y como señala Pablo Rey, si los datos están en un formato abierto pueden descargarse fácilmente, pero lo más habitual es que esto no sea así. “Cada comunidad los ofrece en un formato distinto: informes en PDF, páginas web que muestran solo los datos del día (y, si hay recopilaciones, tienen bastante retraso) o incluso imágenes, como ocurre con Ceuta”. Esto dificulta la tarea de copiar los datos para pegarlos manualmente en una hoja compartida, como hacen los voluntarios.

La lista no acaba aquí. En comunidades como Galicia o Cataluña, por ejemplo, la información no se sirve por provincias, sino de forma aún más fragmentada: por áreas sanitarias (que no coinciden necesariamente en su totalidad con una misma provincia).

Datos en código abierto

La base de datos de EsCOVID19data, resultado de bucear entre todos estos formatos y fuentes, es coherente y descargable. Se basa en un repositorio (de Git) con datos por provincias. Estos pueden consultarse teniendo en cuenta variables como casos detectados, casos activos, pacientes en UCI, número de detectados por PRC acumulado, etcétera.

Los repositorios de Git permiten asimismo consultar cuáles son los cambios que hacen cada día y los estados anteriores del proyecto. El grupo da importancia también a documentar todo el proceso y los problemas encontrados con cada fuente (que pueden verse en la wiki del repositorio).

En los últimos meses, los datos facilitados por este grupo de voluntarios han servido de base para trabajos periodísticos de medios como ‘El País’, ‘El diario.es’ o ‘ABC’. También han valido para la elaboración de varios artículos científicos.

Para la prensa, es fundamental contar con datos objetivos de la evolución de la pandemia. Se trata de una herramienta indispensable para transmitir a la sociedad la situación a nivel sanitario. Para la comunidad científica y los dirigentes políticos, es clave a la hora de enfocar su trabajo y tomar decisiones.

Entre los voluntarios que forman EsCovid19Data hay periodistas, científicos de datos, matemáticos y desarrolladores, entre otros profesionales. Han elaborado un manifiesto, ‘Todavía es posible’, que suma ya más de un centenar de firmas. En él proponen y solicitan unos datos públicos accesibles para la construcción de un conocimiento compartido en tiempos de pandemia.

“Pensamos que era importante publicar lo que pensamos que tenía que hacerse. Era y es una mano tendida a aportar para tener un mejor conocimiento compartido”, indica Pablo Rey.

En Nobbot | La patronal tecnológica pide la creación de un big data sanitario para controlar la pandemia

Imágenes | Unsplash/Engin Akyurt, Unsplash/?????? ????, Unsplash/Adhi Savala, Unsplash/Simon Abrams

Relacionado

Así son y así trabajan los voluntarios que ordenan los números de la pandemia

Ordenando un cajón de sastre

Una sucesión de obstáculos

De imágenes a PDF

Datos en código abierto

Deja una respuesta Cancelar la respuesta