El despliegue corporativo de agentes de inteligencia artificial (AI) transita rápidamente de la fase de prueba a convertirse en una de las partidas más complejas y demandantes del presupuesto tecnológico.
Casos recientes en empresas como Uber, que gastó todo su presupuesto de AI para 2026 en cuatro meses, o Microsoft, que comenzó a cancelar la mayoría de sus licencias directas de Claude Code, demuestran que la adopción a gran escala de estas herramientas autónomas choca con la realidad financiera del consumo masivo de tokens.
Sin optimización, el gasto en procesamiento e infraestructura escala a niveles que pueden neutralizar por completo las ganancias reales en la productividad operativa.
Para cualquier líder IT, el desafío es tomar el control ahora, mientras las organizaciones se encuentran en las primeras etapas de adopción y aún ejercen gobernanza sobre su implementación.
“La preocupación [sobre los costos de la AI] es real. La tengo yo también”, explicó recientemente el director de Inteligencia artificial y Analítica de Coca-Cola Femsa, Edgar Núñez, a pregunta expresa durante un IT Masters Sessions.
El ejecutivo indicó que “es bastante más fácil identificar en el ROI el denominador; es decir, la acumulación de costos, que hay que tenerla muy en control”.
Índice de temas
¿Qué impulsa los costos de los agentes de inteligencia artificial?
El gasto en iniciativas de inteligencia artificial agéntica (Agentic AI) se divide en cuatro categorías: el costo del software (licenciamiento comercial, tarifas de suscripción recurrentes o modelos de precios basados en el uso), infraestructura de cómputo (recursos de CPU, GPU y memoria requeridos), gestión y operaciones de IT (monitoreo, seguridad, parches y el personal) y costos de tokens.
Cada interacción del agente con un modelo grande de lenguaje (LLM) de terceros genera un costo por token, entendido como los fragmentos de texto que los modelos de AI leen y procesan. Una oración, un correo electrónico, un contrato, una línea de código: todo se descompone en tokens.
Cuanto más compleja sea la tarea, más tokens se consumirán. Cuanto más complejas sean las solicitudes y más iteraciones realice el agente para validar sus tareas, mayor será el gasto.
En entrevista con motivo del VeeamOn 2026, el director de Atención al cliente de Veeam, Tony Colon, señaló que “la gente está implementando agentes, pero luego les preocupa a quién se los asignan. Se lo dan a equipos enteros y el consumo y el uso de tokens por parte de los empleados se dispara. Y ahora la pregunta es: ¿cómo establezco límites?”.
Colon recordó que algo similar ya ocurrió con la nube: “Cuando aparecieron AWS, GCP y Azure, las empresas las activaron porque la premisa era que sería más barata que sus cargas de trabajo y máquinas virtuales locales. Eso no fue así… después de un año, la factura era más alta que la infraestructura local”.
El impacto del no determinismo en el presupuesto de AI
A diferencia del software tradicional, donde el costo de una consulta o proceso es predecible, los sistemas de inteligencia artificial modernos son no deterministas por diseño.
Para los agentes de AI, esto significa que es imposible anticipar con exactitud cuántos pasos, interacciones o tokens requerirá para cumplir una solicitud, incluso si realiza la misma tarea de forma recurrente. Por extensión, el consumo de infraestructura y los requisitos de mantenimiento siempre serán variables.
“Es un problema real que una ejecución mal planteada de inteligencia artificial, especialmente agéntica, que consume tokens, puede reemplazar un costo fijo operativo de la nómina […] y aunque sea más eficiente hecho con AI, puede terminar costando más”, apuntó Núñez.
Establecer parámetros para limitar el campo de acción de los agentes, como topar las líneas de código permitidas o restringir las fuentes de consulta, ayuda a mitigar costos, pero destruye el valor de la autonomía.
Cuanto más tiempo pase el usuario configurando el “cómo” de una tarea, menor será la eficiencia ganada. La meta de IT debe ser habilitar el potencial agéntico sin comprometer el presupuesto.
7 estrategias de FinOps para optimizar el gasto agéntico
1. Priorizar plataformas flexibles
Al adquirir o construir software agéntico, se recomienda elegir arquitecturas que permitan cambiar fácilmente de proveedor de LLM, modelo de despliegue y entornos de hospedaje según convenga económicamente.
2. Asignar LLM por nivel de criticidad
No todos los agentes necesitan el modelo más avanzado del mercado. El área IT puede optimizar costos configurando agentes para que interactúen con modelos de lenguaje más pequeños y económicos cuando las tareas requieran menor complejidad.
El director de Banca minorista de BBVA México, Hugo Nájera, señaló en su conferencia durante el IT Masters Forum que “muy pronto nos vamos a dar cuenta que la mayor parte del reto de agentificación no está en los LLM, sino en los SLM [modelos de lenguaje pequeños]; es decir, en esas piezas cortitas donde dices: ‘Este agente no tiene que ir a preguntarle a internet, nada más tiene que hacer esto y luego esto’”.
3. Automatizar la predicción de costos con AI
Es posible solicitar a los agentes que describan su plan de ejecución antes de procesarlo. Desplegar un LLM secundario de bajo costo para auditar estos planes y estimar el consumo de tokens antes de la ejecución real puede prevenir procesos ineficientes.
4. Implementar un ciclo de FinOps agéntico
Se necesita supervisar el costo real por tarea, detectar redundancias (agentes evaluando datos no esenciales) y documentar los flujos de trabajo más rentables. Al igual que una biblioteca de prompts, se debe crear una biblioteca de procesos agénticos aprobados para que los agentes los repliquen.
Sobre las nuevas capacidades de Veeam presentadas en su conferencia anual, el director de Estrategia empresarial de la compañía, Brad Linch, detalló: “Bajo la premisa de ‘si entra basura, sale basura’, podemos escanear las fuentes de datos, identificar la información obsoleta o duplicada y simplemente eliminarla”.
Explicó que no solo se hace para remover ese costo de almacenamiento, sino también para dejar de alimentar a los modelos de AI, “lo que en última instancia consume tokens adicionales cada vez que ejecutas un prompt”.
5. Hacer caché de datos y contenidos
Si los agentes solicitan repetidamente información similar o generan salidas recurrentes, se pueden almacenar esos resultados en caché. Esto reduce drásticamente las consultas directas al LLM y el gasto innecesario en tokens.
Asimismo, para los agentes que requieren memoria a largo plazo y acceso a datos corporativos mediante arquitecturas de generación aumentada por recuperación (RAG), IT debe vigilar los costos de almacenamiento y cómputo de las bases de datos vectoriales.
Ejecutar búsquedas de similitud constantes sobre millones de embeddings indexados en memoria persistente genera un gasto invisible; optimizar el tamaño de los vectores, aplicar cuantización (quantization) y limpiar los índices obsoletos es mandatorio para evitar facturas de infraestructura desbocadas.
6. Establecer cuotas y límites máximos (Hard Quotas)
Para evitar que un agente con errores (bugs) o atrapado en un bucle infinito genere una factura masiva, se pueden configurar límites estrictos de tokens o consultas permitidas por hora o por solicitud.
7. Evitar la proliferación desordenada (Agent Sprawl)
Más agentes no se traducen en mayor eficiencia. Las áreas IT deben aplicar políticas de gobernanza similares a las de SaaS para auditar periódicamente qué agentes están activos y si su caso de uso sigue justificando el costo de mantenimiento.
El futuro financiero de la inteligencia artificial agéntica
Las mismas características que hacen que los agentes de AI sean tan potentes (capacidad para actuar de forma autónoma y flexible) vuelven impredecibles sus costos.
Sin embargo, Núñez agregó una vertiente adicional: “Es normal que haya una sobreacumulación de costos al inicio de los casos que no necesariamente existan hacia el futuro. El ROI no necesariamente va a ser invariante en el tiempo. En la transición, al inicio, esperen un número mucho más humilde… y en el futuro van a ver un valor incremental”.
Nájera fue aún más optimista: “Los costos unitarios van a bajar sí o sí, porque el consumo está subiendo tanto… Hoy a todo mi equipo de Finanzas les pido no hagan business case hoy, porque si lo hacen con los costos que hay, nadie se va a mover. Les digo: ‘Hagámoslo, y si nos tropezamos porque nos sale caro, nos detenemos. Pero ahorita no se detengan pensando en el caso de negocio’”.






