'Dirty data': qué es y cómo luchar contra el enemigo del 'big data'

‘Dirty data’, el gran enemigo del ‘big data’

Dirty data y cómo detectarlo

En 2025 se moverán 163 zettabytes de datos. Cantidades astronómicas que dan idea de cómo, sin apenas darnos cuenta, muchos de nuestros hábitos, gustos e intereses están monitorizados. Lo sepamos, o no. Esos datos se han convertido en una herramienta esencial para las empresas que quieren sacar el máximo rendimiento a sus recursos. 

Pero cantidad no siempre es sinónimo de calidad. No toda la información que tienen es acertada. Esos datos fallidos son los dirty data, y se han convertido en el gran enemigo del big data. Si esta tecnología que se encarga de analizarlos se basa en información errónea, entonces sus conclusiones no tienen validez.

CUÁL ES EL ORIGEN DEL DIRTY DATA

Los dirty data son datos incorrectos, incompletos, desactualizados o duplicados. Y entran en conflicto directo con las ‘cuatro V’ que definen al big data: veracidad, volumen, variedad y velocidad. Esto ocurre porque no siempre decimos la verdad cuando damos nuestros datos al rellenar una encuesta o completar un formulario.

“Más de la mitad de los usuarios aporta al menos un dato falso en la información que facilita a las empresas”, corrobora Antonio Camacho, fundador de Hocelot. Esta empresa española, dedicada a la verificación de información de personas físicas en tiempo real, ha realizado un estudio en el que recoge que, aproximadamente, el 25% de la información que poseen las empresas podría ser falsa.

“La tecnología de los dispositivos que utilizamos diariamente dejan una huella muy clara de nuestro ADN digital”, apunta Camacho. Quien también nos explica que “por este motivo, muchas personas tratan de borrarlo o evitar ser rastreadas”.

Algunos de los métodos que utilizan son usar un navegador de incógnito, desconectar la localización del móvil, o borrar el historial y las cookies de las webs visitadas. “El hecho de que los usuarios borren esta huella digital o faciliten datos erróneos puede ser bien por simples errores tipográficos, bien porque falsean de forma intencionada la información”.

Falsa identidad

POR QUÉ MENTIMOS

Si al comprobar los datos de un formulario falta el correo electrónico o se detectan perfiles duplicados es obvio que ese registro no es de fiar. Lo mismo que si se ha introducido un código postal o un teléfono que no existe.

Desde Umbel, dedicados a analizar los datos de aficionados a diferentes deportes, afirman que hay algunas señales inequívocas para detectar el dirty data. Si alguien afirma que ha nacido un 33 de diciembre o que su correo electrónico es “m horowitz#gnail.com, es mejor ignorarlo.

Las razones que llevan a mentir a veces son tan inocentes como considerar que esa información que proporcionamos es irrelevante. O por divertirnos creando una personalidad diferente a la nuestra. Incluso porque por un instante nos gusta sentirnos un ‘Superman’ o un ‘Cristiano Ronaldo’. Dos de las identidades que, según el director de Hocelot, son de las más recurrentes cuando aportamos datos falsos.

Los más espabilados mienten para obtener lo que no conseguirían diciendo la verdad. Como una oferta al adquirir un producto o servicio. También están aquellos que no se fían del uso que la empresa vaya a hacer de su información personal. O simplemente los que no terminan de completar un formulario porque se les hace demasiado tedioso.

TODOS PERDEMOS

Este tipo de fraude de identidad deja de ser un juego cuando nos enteramos de que supone una importante pérdida de tiempo y dinero. Se calcula en 1.600 millones al año solo en España. El reto es saber detectarlo, y separar el grano de la paja. “El almacenamiento de datos falsos genera pérdidas para las empresas. Tanto en la percepción de la realidad de su propio mercado como pérdidas económicas. Han invertido en acciones de marketing dirigidas a personas inexistentes, o que no se ajustan a la realidad”.

Para ir a lo concreto, Camacho nos explica las consecuencias que esto puede tener. Por ejemplo, a la hora de conceder un crédito las entidades financieras necesitan datos personales y fiscales. Tienen en cuenta si se ha pedido un crédito anterior, si tiene trabajo fijo, tipo de contrato, solvencia, etcétera. “Si alguno de estos datos facilitados por los usuarios es erróneo o falso, podría conllevar perdidas astronómicas para las empresas”.

Algo similar ocurre con las aseguradoras de automóviles, que tienen una ficha de sus clientes y su historial al volante. A la que añaden posibles casos de impago e, incluso, datos sobre el recorrido que realiza diariamente. “Con esta información es relativamente fácil hacer un seguro a medida. Sin embargo, –nos asegura Camacho– si algún dato está falsificado o es erróneo, la viabilidad del seguro variará”. Por lo que, según parece, con el dirty data no solo pierden las empresas, también nosotros.

En Nobbot | Álvaro Barbero Jiménez, experto en big data: “Más allá de Big, Small o Smart Data, lo importante es el valor de los datos”

Imágenes | iStock