Aseguramiento de LLMs: Mitre ATLAS y OWASP Top 10 LLM

Sabemos que hoy en día, muchas organizaciones ya están comenzando a incorporar el uso de inteligencia artificial para poder optimizar sus procesos. En muchos casos, se utilizan chatbots que van a permitir a determinados grupos de usuarios o clientes, utilizar la IA para solucionar algún problema o ser atendidos.

Existen dos principales guías que son de mucha ayuda a la hora de evaluar la seguridad de un sistema basado en IA o un LLM. Estas son:

OWASP Top 10 LLM: es una lista de los riesgos de seguridad más críticos asociados con el uso de LLMs en aplicaciones. Este proyecto de OWASP busca concienciar a desarrolladores, arquitectos y organizaciones sobre las vulnerabilidades específicas de los modelos de lenguaje y cómo mitigarlas.

La versión actual es la 2025, y los principales riesgos son los siguientes.

LLM01:2025 – Inyección de prompt
LLM02:2025 – Exposición de información sensible
LLM03:2025 – Ataque a la cadena de suministro
LLM04:2025 – Envenenamiento del modelo y la data
LLM05:2025 – Manejo inadecuado de la salida
LLM06:2025 – Excesiva autonomía
LLM07:2025 – Exposición del prompt de sistema
LLM08:2025 – Debilidades en vectores e incrustaciones
LLM09:2025 – Desinformación
LLM10:2025 – Consumo ilimitado

Si quieres ver la descripción de cada escenario, incluyendo algunos ejemplos prácticos, puedes ver el siguiente artículo: https://labitacoradelhacker.com/vulnerabilidades-en-aplicaciones-llm-parte-2-owasp-top-10-llm/

También puedes consulta directamente la página de OWASP: https://owasp.org/www-project-top-10-for-large-language-model-applications/

MITRE ATLAS: es un framework diseñado para analizar y categorizar las tácticas y técnicas utilizadas por actores maliciosos para atacar sistemas de inteligencia artificial (IA). Se basa en el enfoque de MITRE ATT&CK, pero está específicamente orientado a la seguridad de modelos de IA, incluyendo machine learning y grandes modelos de lenguaje (LLM)

¿Para qué sirve MITRE ATLAS?

Identificación de amenazas: Clasifica las técnicas utilizadas para comprometer modelos de IA.
Evaluación de vulnerabilidades: Ayuda a investigadores y empresas a detectar puntos débiles en sus sistemas de IA.
Mitigación de ataques: Proporciona estrategias para proteger modelos de IA contra manipulación, envenenamiento de datos y otros riesgos.

Ejemplos de ataques que MITRE ATLAS analiza

Inyección de prompts: Manipulación de entradas para alterar el comportamiento de un modelo de lenguaje.
Envenenamiento de datos: Modificación maliciosa de los datos de entrenamiento para sesgar el modelo.
Evasión de detección: Técnicas para hacer que un modelo ignore ciertos patrones maliciosos.

Puedes consultar MITRE ATLAS en el siguiente link: https://atlas.mitre.org/

Existen otras guías que también pueden servirte de ayuda, como por ejemplo, el marco de gestión de riesgos IA de NIST, la cual puedes encontrar acá: https://www.nist.gov/itl/ai-risk-management-framework. Sin embargo, este artículo no incluirá dicho framework

Ahora bien, ¿cuáles son los elementos comunes entre MITRE ATLAS y OWASP Top 10 LLM?

Aunque no existe una paridad al 100%, teniendo en cuenta que MITRE es un framework, y OWASP es una base de conocimiento sobre los principales escenarios de vulnerabilidad o riesgos para LLM, sí podemos hacer un mapeo de aquellos elementos comunes que ambas guías contienen. Estos puntos comunes tienen como coincidencia vulnerabilidades, técnicas de ataque, o incluso formas de como mitigar un escenario de riesgo.

Nota: OWASP también referencia a MITRE Atlas en algunos riesgos de su top 10. Esto ha sido tomado como base para la elaboración de este artículo, sin embargo, se han añadido otras coincidencias teniendo en cuenta criterios propios. Este mapeo no es oficial, sino que ha sido creado por la Bitácora del Hacker para que te sirva como referencia.

Veamos las principales coincidencias:

OWASP Top 10 LLM	MITRE ATLAS
LLM01:2025 – Inyección de prompt Manipulación de entradas para alterar el comportamiento del modelo.	AML.T0051 Inyección de Prompt LLM: Manipulación de entradas para alterar el comportamiento de un modelo de lenguaje grande (LLM). Existen 2 tipos de inyección, directa e indirecta. AML.T0054 LLM Jailbreak: Un atacante diseña prompt específicos para engañar al modelo y hacer que genere respuestas prohibidas o ignore sus restricciones.
LLM02:2025 – Exposición de información sensible Exposición involuntaria de información privada o confidencial.	AML.T0024 Exfiltración a través de la API de inferencia de ML: Técnicas para obtener información sobre el modelo de machine learning, incluyendo sus datos de entrenamiento. Existen tres variantes: Inferencia del dato de entrenamiento, Inversión del modelo (reconstrucción de los datos del modelo a partir de las respuestas) y extracción del modelo (replicar el comportamiento del modelo sin tener acceso directo). Coincide con el LLM02, porque el impacto de estás técnicas, puede comprometer la privacidad de los datos y facilitar ataques adversariales.
LLM03:2025 – Ataque a la cadena de suministro Riesgos asociados con bibliotecas, modelos preentrenados y datos de entrenamiento.	AML.T0010 Compromiso de la cadena de suministro: Se refiere a ataques dirigidos a la infraestructura y componentes utilizados en el desarrollo de modelos de machine learning.
LLM04:2025 – Envenenamiento del modelo y la data Modificación maliciosa de los datos usados para entrenar el modelo o del modelo en sí mismo	AML.T0018 Puerta trasera (backdoor) en modelo de ML: Se trata de la introducción de mecanismos ocultos en modelos de machine learning que permiten a los atacantes manipular su comportamiento. Esta técnica incluye la modificación de pesos y parámetros del modelo, así como el envenenamiento de los datos para condicionar al modelo para que actúe de forma inesperada.
LLM05:2025 – Manejo inadecuado de la salida Uso de respuestas del modelo sin validación, lo que puede permitir ejecución de código o filtración de datos.	AML.T0067 Manipulación de respuestas del LLM Los adversarios pueden usar prompts para manipular diversos componentes de la respuesta del LLM para que parezca confiable al usuario AML.T0024 Exfiltración a través de la API de inferencia de ML Técnicas para obtener información sobre el modelo de machine learning, incluyendo sus datos de entrenamiento. Existen tres variantes: Inferencia del dato de entrenamiento, Inversión del modelo (reconstrucción de los datos del modelo a partir de las respuestas) y extracción del modelo (replicar el comportamiento del modelo sin tener acceso directo).
LLM06:2025 – Excesiva autonomía Otorgar demasiada autonomía al modelo, permitiendo acciones no deseadas.	AML.T0061 Auto-replicación del prompt LLM Esta técnica consiste en manipular o inyectar un prompt para que este se replique como parte de la salida del LLM. Esto permite que el mensaje se propague a otros LLM y persista en el sistema. Existe coincidencia en LLM06:2025, ya que algunos ejemplos comunes de este riesgo, son la funcionalidad excesiva o permisos excesivos, lo que puede llegar a afectar otros sistemas. AML.T0054 LLM Jailbreak Un atacante diseña prompt especificos para engañar al modelo y hacer que genere respuestas prohibidas o ignore sus restricciones.
LLM07:2025 – Exposición del prompt de sistema Exposición de instrucciones internas del modelo que pueden ser explotadas.	AML.T0051 Inyección de prompt LLM Manipulación de entradas para alterar el comportamiento de un modelo de lenguaje grande (LLM). Existen 2 tipos de inyección, directa e indirecta. AML.T0056 Extracción del prompt de Sistema del LLM Esta técnica consiste en inducir al modelo a revelar su propio prompt de sistema, o también obtenerlo de un archivo de configuración AML.T0069.002 Prompt de sistema Los adversarios pueden descubrir las instrucciones del sistema de un modelo de lenguaje grande proporcionadas por el creador del sistema de IA para conocer las capacidades del sistema y eludir sus limitaciones.
LLM08:2025 – Debilidades en vectores e incrustaciones Riesgos en métodos de recuperación de información y generación aumentada.	AML.T0070 Envenenamiento RAG Esta técnica consiste en inyectar contenido malicioso en los datos indexados por un sistema RAG, para que las respuestas de un LLM basado en RAG se vean afectadas. AML.T0024.002 Extraer el modelo de ML Los adversarios pueden extraer una copia funcional de un modelo privado. El atacante puede recopilar las inferencias del modelo objetivo en un conjunto de datos y replicar el comportamiento del modelo.
LLM09:2025 – Desinformación Producción de información incorrecta con apariencia de credibilidad.	AML.T0048.002 Daño social Se refiere a la generación de contenido que puede causar daño social, como desinformación, sesgos o manipulación de narrativas.
LLM10:2025 – Consumo ilimitado Uso excesivo de cómputo y almacenamiento, generando costos inesperados o sobrecarga de los recursos computacionales que soportan al LLM.	AML.T0029 Denegación de servicio Consiste en atacar un sistema IA con un gran número de solicitudes para degradar o interrumpir el servicio. AML.T0025 Exfiltración por medios cibernéticos Un atacante puede filtrar artefactos de IA u otra información relevante para sus objetivos a través de medios cibernéticos tradicionales. Se relaciona con LLM10:2025, ya que un ejemplo común de este riesgo, es la extracción del modelo vía API. AML.T0034 Incrementar costos Esta técnica consiste en enviar consultas inútiles o datos computacionalmente costosos para que se incrementen los costos del servicio de LLM de la organización.

A través de este mapa gráfico, también puedes ver las coincidencias. Cada casilla te llevará al enlace de referencia, para que puedas ver el detalle de cada técnica o táctica.

Guía MITRE ATLAS + OWASP TOP 10 LLM Descarga

Si estás entrando al mundo de la seguridad en inteligencia artificial, ya sea para validar la seguridad atacando o para implementar buenas prácticas de seguridad, te recomendamos que utilices ambas guías alternándolas, ya que permitirán que asegures de manera adecuada la implementación de la aplicación LLM en tu organización.

Eso ha sido todo por este post, esperamos que te haya sido de utilidad.

Deja una respuesta Cancelar la respuesta

Anonymous en Vulnerabilidades en aplicaciones LLM (Parte 1) Fundamentos30/05/2025
Thanks for sharing. I read many of your blog posts, cool, your blog is very good.
Phool cueva en ¿Nos quedaremos sin trabajo? IA en seguridad ofensiva: PentestGPT24/05/2025
Muy interesante saber lo que podemos hacer con la IA en temas de ciberseguridad, saber los limitantes entre la acción…
Lex en Metasploitable 3 (Parte 6: Steganografía + Cards )22/12/2020
Thanks for your feedback! I appreciate it
勃起 en Metasploitable 3 (Parte 6: Steganografía + Cards )17/12/2020
Aw, this was a really nice post. Spending some time and actual effort to generate a great article… but what…
Lex en Metasploitable 3 (Parte 6: Steganografía + Cards )10/12/2020
Thanks!

L	M	X	J	V	S	D
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30