Google recompensará hasta con $30,000 dólares la detección de errores en su AI | IT Masters Mag

CIBERSEGURIDAD

Google recompensará hasta con $30,000 dólares la detección de errores en su AI



Dirección copiada

La empresa ha pagado $430,000 dólares en recompensas relacionadas con sus productos de AI desde hace dos años.

Publicado el 7 oct 2025



A,Computer,Programmer,,Software,Engineer,Or,Software,Development,Working,On
A computer programmer, software engineer or software development working on laptop

Google lanzó el lunes un nuevo Programa de Recompensas por Vulnerabilidades (VRP, por sus siglas en inglés) de Inteligencia Artificial (AI) para animar a los investigadores a encontrar y reportar fallas en sus sistemas, con recompensas de hasta $30,000 dólares por un solo informe que cumpla con los requisitos.

El programa independiente por errores de AI llega dos años después de que la empresa ampliara su VRP ante Abusos para incluir los productos de inteligencia artificial, cuyos errores detectados ya han generado más de $430,000 dólares en recompensas.

“Nuestra integración de problemas de AI en el Programa de Recompensa por Vulnerabilidad de Abuso ha sido un gran éxito para la colaboración de Google con los investigadores de inteligencia artificial”, calificaron en una publicación de blog los gerentes de Ingeniería de seguridad de Google, Jason Parsons y Zak Bennett.

Además de una recompensa base de hasta $20,000 dólares por la falla de mayor nivel, Google adoptó los mismos multiplicadores de informes, condicionados a la calidad (baja 0.8x, buena 1.0x y excepcional 1.2x) de los informes de vulnerabilidades que utiliza para su VRP de seguridad tradicional. Esto podría aumentar la recompensa por un informe individual en $10,000 dólares adicionales.

Los investigadores pueden obtener las mayores recompensas por encontrar fallos en productos estrella. Por ejemplo, una acción fraudulenta en uno de estos puede reportar a un investigador de errores $20,000. Pueden obtener $15,000 por un producto estándar y $10,000 por algo de la categoría “otros“.

A modo de comparación: la categoría más baja (denegación de servicio entre usuarios) puede generarle a un investigador $500 (producto estrella), $100 (estándar) o crédito de Google (otros).

Google pagó casi $12 millones a más de 600 investigadores el año pasado a través de su VRP, en comparación con los $10 millones de 2023.

Nuevas reglas para los errores de AI

Con el lanzamiento del nuevo VRP enfocado en AI, la compañía también actualizó sus reglas y aclaró qué tipos de ataques se consideran “dentro del alcance” del concurso, así como los que no. En concreto: la inyección directa de prompts, los jailbreaks y los problemas de alineación no cuentan.

Sí, engañar a los modelos para que hagan algo que normalmente no permiten sus medidas de seguridad es un problema importante, y Google anima a los investigadores a “reportar estos problemas relacionados con el contenido dentro del producto”. Pero no va a pagar una recompensa por errores.

“En resumen, no creemos que un Programa de Recompensas por Vulnerabilidades sea el formato adecuado para abordar problemas relacionados con el contenido”, declararon Parsons y Bennett.

Resolver este tipo de problemas requiere esfuerzos a largo plazo y analizar tendencias en grandes volúmenes de informes, lo que no contribuye al “objetivo de Google de ofrecer recompensas oportunas a investigadores individuales“, añadieron.

Además, como opinaron sus compañeros Googlers en diciembre: “De hecho, puede haber un número infinito de posibles jailbreaks para cualquier modelo en particular, y mitigarlos por completo podría ser completamente inviable”.

Fallas de seguridad

Estas son las fallas de seguridad consideradas dentro del alcance del programa de recompensas por errores de AI, ordenadas desde la más grave —y por lo tanto, las que obtienen la mayor recompensa por reportarlas— hasta la menos grave:

  • Acciones maliciosas, que Google describe como “ataques que modifican el estado de la cuenta o los datos de la víctima con un claro impacto en la seguridad“. Un ejemplo sería un ataque de inyección indirecta de mensajes: ocurre cuando un usuario inserta instrucciones maliciosas en un mensaje que el modelo puede seguir, lo que provoca que Google Home haga algo, por ejemplo, desbloquear una cerradura inteligente.
  • Exfiltración de datos confidenciales que filtra la información personal identificable (PII) u otros detalles confidenciales de las víctimas sin la aprobación del usuario. Esto también podría implicar un ataque de inyección indirecta de mensajes, en el que un sistema de AI resume el contenido del correo electrónico de alguien y luego lo envía a una cuenta controlada por el atacante.
  • Habilitación de phishing: “Inyección persistente de HTML entre usuarios en un sitio web de Google que: (a) no incluye una advertencia de ‘contenido generado por el usuario’ y (b) a discreción del panel, presenta un vector de ataque de phishing convincente“, según Google. En otras palabras: usar un producto de AI para compartir un sitio web generado por un atacante que suplanta un sitio web legítimo de Google sin una advertencia de contenido generado por el usuario, y luego distribuir esa página para ataques de phishing.
  • Robo de modelo, que permite a los atacantes extraer parámetros de modelo completos y confidenciales. Ataques de manipulación de contexto (entre cuentas) que permiten la manipulación repetible, persistente y oculta del contexto del entorno de AI de la víctima, y ​​que no requieren mucha interacción de la víctima, o ninguna. Un ejemplo de escenario de ataque, según Google, sería: «Un atacante puede enviar una invitación de calendario a una víctima, lo que provoca que se almacene un recuerdo en un producto de AI; el producto realiza acciones futuras no confirmadas, pero no sensibles a la seguridad, basadas en ese recuerdo almacenado».
  • Evitar el control de acceso (impacto limitado en la seguridad), que permite a un atacante eludir los controles de acceso y robar datos que de otro modo serían inaccesibles, pero no sensibles a la seguridad, como los menús de almuerzo de Google en el campus.
  • Uso no autorizado de productos o la habilitación de funciones del servidor de Google en la cuenta del usuario sin que este haya pagado por ellas ni esté autorizado a usarlas.
  • Denegación de servicio entre usuarios (con salvedades), que implica causar una denegación de servicio persistente para un producto de AI o una función específica en la cuenta de la víctima. Salvedades: Los ataques DoS volumétricos están prohibidos y los investigadores no pueden causar un DoS en su cuenta actual.

¿Qué productos participan?

Además de detallar los tipos de ataques que están dentro del alcance, Google también definió los niveles de producto para el alcance de VRP de AI. Estos se dividen en tres categorías: principal, estándar y otros.

Los productos principales incluyen la Búsqueda de Google, las aplicaciones de Gemini (Web, Android e iOS) y las aplicaciones principales de Google Workspace (Gmail, Drive, Meet, Calendario, Documentos, Hojas de cálculo, Presentaciones y Formularios).

El estándar cubre las funciones de AI en productos de alta sensibilidad como AI Studio, Jules y las aplicaciones no principales de Google Workspace (NotebookLM, Appsheet, etcétera).

Otras son todas las demás integraciones de AI en los productos de Google con algunas excepciones, así que asegúrese de leer las reglas completas del programa.

Artículos relacionados

Artículo 1 de 5