ESPECIAL

El envenenamiento de datos, un peligro para toda la inteligencia artificial

El riesgo puede mitigarse, pero es un tema importante para la ciberseguridad y, en forma de cascada, para todos los avances que permite la AI.

Publicado el 23 feb 2024

Redacción DIGITAL360

El envenenamiento de datos no es un tema nuevo, pero definitivamente es actual. Ya se hablaba de este a principios de la década de 2000, pero la proliferación del big data y la evolución de la inteligencia artificial (AI, por sus siglas en inglés) han vuelto a situarlo en el centro del debate con todas las preocupaciones que ello conlleva.

Aunque se trata de un mismo fenómeno, tiene diferentes tendencias y, sobre todo, tiene dos efectos principales que contribuyen a convertirlo en una amenaza temible.

Reducir el riesgo es posible, pero excluirlo por completo resulta casi prohibitivo, precisamente porque los datos necesarios para cualquier organización suelen originarse fuera del perímetro de la red corporativa.

Índice de temas

Intoxicación de datos

La AI y el aprendizaje automático (ML, por sus siglas en inglés) están expuestos al riesgo de envenenamiento de los datos; es decir, a un ataque perpetrado mediante la modificación de datos o la inyección de información manipulada en los conjuntos de datos, que luego se utilizará para entrenar modelos de aprendizaje automático.

Un ataque que tiene dos consecuencias catastróficas: la primera es la reducción drástica de la fiabilidad de los modelos y la segunda —que no debe descartarse a priori— es permitir a los atacantes añadir una puerta trasera que les permita inducir a los modelos a hacer lo que quieran.

Como se ha mencionado, el envenenamiento de datos tiene varias posibles declinaciones. Si se parte del supuesto de que los modelos de ML pueden encontrar correlaciones entre enormes conjuntos de datos, surge el aspecto predominante de que, al modificar la información, se puede poner en peligro la labor de la inteligencia artificial entendida como un constructo.

Después de todo, el aprendizaje automático viene a encontrar paralelismos que el hombre observaría durante mucho más tiempo pero, a diferencia del ser humano, están completamente desprovistos de rigores lógicos.

Si abandonamos los entornos empresariales y asumimos que las aplicaciones utilizadas en el mundo de la sanidad están envenenando los datos, el poder de la explosión del envenenamiento de datos es aún más comprensible. Correlaciones entre datos poco fiables, diagnósticos erróneos, costes sociales y la crisis del sistema sanitario.

Para no creer que este escenario es excesivo, basta con remitirse a un estudio de 2018, gracias al cual se ha demostrado que un error en el entrenamiento de los modelos de aprendizaje automático ha llevado a un sistema a diagnosticar melanomas donde no había rastro.

O bien, al envenenar los datos, los ciclos de formación de los vehículos autónomos pueden verse comprometidos, haciéndoles creer que una señal de tráfico tiene un significado diferente al real. El problema surge cuando se malinterpreta un límite de velocidad o se transforma la obligación de ceder el paso en luz verde.

Al reducir el alcance del envenenamiento de datos y subrayar lo fácil que es engañar a una inteligencia artificial, basta con pensar en esas prendas que hacen imposible que el usuario reconozca el reconocimiento facial de la persona que las lleva puestas. El principio es el mismo que el del envenenamiento de datos: información imperceptible a simple vista que, sin embargo, reduce la eficacia de la inteligencia artificial.Mitigación de riesgos

Como siempre ocurre en términos de ciberseguridad, es imposible excluir los peligros, pero mitigarlos es necesario y, de alguna manera, es la esencia misma de la seguridad la que, como es lógico, también apunta hacia las técnicas predictivas cuyo objetivo principal es sondear sistemas y arquitecturas en busca de vulnerabilidades.

Del mismo modo, uno de los fundamentos de la ciberseguridad es tener una alta conciencia de las amenazas y esto también se aplica al envenenamiento de datos: antes de poder crear estrategias efectivas para proteger los sistemas de aprendizaje automático, es necesario entender en qué consiste el envenenamiento de datos y cuáles son sus consecuencias.

Objetivo de sensibilización

En el mismo análisis de las similitudes, es necesario considerar las relaciones entre el presente y el pasado. Por esta razón, es aconsejable examinar los conjuntos de datos utilizando modelos de aprendizaje automático utilizados anteriormente en comparación con los que se encuentran actualmente en producción.

Si estos arrojaran resultados diferentes a los que proporcionaron, cuando eran a su vez los modelos de producción, existe el riesgo de que, entretanto, los datos se hayan modificado.

En sentido inverso, se necesitan políticas para limitar la cantidad de datos que puede proporcionar un solo usuario.

Por regla general, los atacantes inyectan grandes cantidades de datos en los conjuntos de datos y, si esto resulta imposible precisamente porque las políticas internas lo impiden, el margen de acción se reduce considerablemente y se puede reducir aplicando controles de acceso y reforzando las políticas de identificación a los clientes y servidores (incluidos los servicios en la nube) dedicados a la recopilación y el análisis de datos.

En 2021, Hyrum Anderson, de Microsoft, ilustró cómo es posible obtener información de un modelo de aprendizaje automático sin ser detectado por los sistemas de defensa y, en el mismo video, mostró cómo lanzar un ataque.

Una actuación que debería ir a la escuela porque ofrece, en unos veinte minutos, una visión amplia de los riesgos a los que están potencialmente expuestas las empresas y porque sugiere en qué dirección avanzar para evitar el peligro.

Técnicas de defensa del envenenamiento de datos

Todo esto debe ir acompañado de todas las técnicas y tecnologías que reduzcan la superficie de ataque, incluidos los firewalls, la aplicación constante e inmediata de parches de seguridad, la monitorización del tráfico de la red y un plan de respuesta a incidentes.

Por último, pero no por ello menos importante, también se debe tener en cuenta la seguridad física, ya que la intoxicación de datos también puede producirse dentro de los muros de la empresa.

Todo esto es ciertamente un desafío y, además de representar un costo, ralentiza significativamente la extracción de valor de los datos. Limpiar los datos contaminados es más complejo, requiere más esfuerzo y, potencialmente, hace que las actividades de formación en inteligencia artificial sean completamente inútiles.

Fuente: Cybersecurity360.it, Network Digital360

Prohibida su reproducción total o parcial.