LLM01
Prompt Injection
Manipulación del prompt para alterar el comportamiento o extraer instrucciones del sistema.
Prompt manipulation to alter behavior or extract system instructions.
Garak · custom payloads · jailbreak suitejailbreak suite
LLM02
Disclosure de info sensible
Sensitive Info Disclosure
Filtración de PII, credenciales o datos del entrenamiento en respuestas del modelo.
Leakage of PII, credentials or training data through model responses.
PII probes · regex + scoringscoring
LLM03
Supply Chain
Modelos pre-entrenados, embeddings o dependencias comprometidas en la cadena.
Compromised pre-trained models, embeddings or dependencies in the chain.
SBOM · CycloneDX · model card audit
LLM04
Envenenamiento de datos/modelo
Data & Model Poisoning
Inserción de datos malintencionados durante fine-tuning o RAG ingestion.
Insertion of malicious data during fine-tuning or RAG ingestion.
RAG corpus audit · diff testing
LLM05
Manejo impropio de output
Improper Output Handling
XSS, SSRF, command injection vía respuestas del LLM no sanitizadas downstream.
XSS, SSRF, command injection via unsanitized LLM responses downstream.
Output sanitization probe · OWASP ZAP
LLM06
Excessive Agency
Agentes con permisos, plugins o herramientas más allá del necesario para la tarea.
Agents with permissions, plugins or tools beyond what the task requires.
Tool-use audit · scope diff
LLM07
System Prompt Leakage
Extracción del prompt de sistema, jailbreak via debugging o role inversion.
Extraction of system prompt via debugging probes or role inversion.
System probe suite · adversarial prompts
LLM08
Vector & Embedding
Vector & Embedding
Inversion attacks sobre embeddings, leak de contenido vía similarity search.
Embedding inversion attacks, content leak via similarity search.
Embedding probe · MATHCORE PCA
LLM09
Misinformation
Hallucinations, datos falsos presentados con confianza, fabricación de fuentes.
Hallucinations, false data presented confidently, fabricated sources.
Multi-judge cross-check · ground-truth
LLM10
Unbounded Consumption
DoS por costo, prompt floods, token exhaustion, latencia disparada bajo ataque.
Cost DoS, prompt floods, token exhaustion, latency spikes under attack.
K6 + token meter · cost guardrails