A QASL · AI/LLM · Forensic Testing
Conversemos → Let's talk → ← Portafolio ← Portfolio
QASL · AI/LLM Forensic Testing QASL · AI/LLM Forensic Testing

QA Tech Lead
especializado en sistemas con IA.
QA Tech Lead
specialized in AI systems.

13+ años en QA. Creador de INGRID (AFQI v1.0) y MATHCORE — caracterización forense de sistemas con LLM, alineada a OWASP LLM Top 10 (2025), NIST AI RMF e ISO/IEC 42001. 13+ years in QA. Creator of INGRID (AFQI v1.0) and MATHCORE — forensic characterization of LLM systems, aligned to OWASP LLM Top 10 (2025), NIST AI RMF and ISO/IEC 42001.

Chatbots Copilots RAG AI Agents Voice AI Multi-LLM
13+
Años en QA
Years in QA
10/10
Categorías OWASP LLM Top 10 cubiertas
OWASP LLM Top 10 categories covered
4
Métricas matemáticas MATHCORE · reproducibles
MATHCORE math metrics · reproducible
13
Secciones · manual operativo INGRID
Sections · INGRID operational manual
4pp
Reporte AFQI · pericial PDF
AFQI report · audit-grade PDF
— Tesis técnica — — Technical thesis —

Un LLM es una caja negra
estadística
, no un sistema
determinista. Por eso
no se valida igual.
An LLM is a statistical
black box
, not a
deterministic system. So
it can't be tested the same way.

QASL AI · Matemática reproducible, no opinión de modelo QASL AI · Reproducible math, not model opinion
I · Núcleo matemático I · Math core

QASL MATHCORE

Structural fingerprinting toolkit. Cuatro métricas con base académica formal que caracterizan un LLM como caja negra — sin depender de otro LLM para juzgar. Structural fingerprinting toolkit. Four academically grounded metrics that characterize an LLM as a black box — with no other LLM acting as judge.

numpy · scipy · sklearn
22+1 tests+1 tests · 96% coverage
CLI · API · Dashboard CLI · API · Dashboard
Cuatro preguntas que el testing semántico no responde Four questions semantic testing can't answer
"¿Es un LLM real o un árbol de decisión disfrazado?" "Is it a real LLM, or a decision tree in disguise?"

MATHCORE convierte un sistema conversacional en una huella matemática. Mide lo que el ojo no ve: consistencia entre paráfrasis, dimensionalidad efectiva del espacio de respuestas, drift entre versiones, separabilidad por dominio. Las cuatro métricas son reproducibles, defendibles ante auditoría y citables académicamente — no hay "opinión de Claude" en el medio. Cuando el PM pregunta "¿el bot mejoró o empeoró respecto al release anterior?", MATHCORE responde con un número, no con un párrafo. MATHCORE turns a conversational system into a mathematical fingerprint. It measures what the eye can't see: consistency across paraphrases, effective dimensionality of the response space, drift between versions, separability per domain. The four metrics are reproducible, defensible under audit, and academically citable — no "Claude's opinion" in the loop. When the PM asks "did the bot get better or worse vs. last release?", MATHCORE answers with a number, not a paragraph.

M1
Consistencia
Consistency
Estabilidad ante paráfrasis
Stability across paraphrases
cos-sim · IC 95%

Mide si el sistema responde igual a la misma intención dicha de cinco maneras distintas. Measures whether the system answers the same intent expressed five different ways.

M2
Rango efectivo
Effective rank
¿Es un LLM o un árbol?
LLM or decision tree?
SVD effective rank

Detecta sistemas con respuestas pre-cocinadas disfrazadas de IA generativa. Detects pre-canned response systems disguised as generative AI.

M3
Drift
Drift
Cambio entre releases
Release-to-release change
Jensen-Shannon · div

Cuantifica numéricamente cuánto cambió la distribución de respuestas entre versiones. Numerically quantifies how much the response distribution changed between versions.

M4
Separabilidad
Separability
Distingue dominios
Domain separation
silhouette · PCA 2D

Verifica si el bot diferencia intenciones de dominios distintos o las mezcla. Verifies the bot distinguishes intents from different domains rather than mixing them.

MATHCORE — KPIs Consistency · Effective Rank · Drift · Separability + PCA 2D embedding map
LIVE DASHBOARD · 4 KPIs · PCA 2D EMBEDDING MAP · 6 INTENTS CLUSTERS LIVE DASHBOARD · 4 KPIs · PCA 2D EMBEDDING MAP · 6 INTENT CLUSTERS
M1 · cos-sim
Reimers & Gurevych · SBERT · 2019
M2 · SVD
Golub & Van Loan · Matrix Computations
M3 · JS-div
Lin · IEEE Inf. Theory · 1991
M4 · silhouette
Rousseeuw · J. Comp. App. Math · 1987
II · Capa de seguridad LLM II · LLM Security Layer

INGRID

Intelligent Network for Generative Response Inspection & Defense. Algoritmo AFQI v1.0 — el "CFQI para sistemas con IA": convierte una bolsa de hallazgos adversariales en un dictamen con score 0–100 y grado A→F. Intelligent Network for Generative Response Inspection & Defense. AFQI v1.0 algorithm — "CFQI for AI systems": turns a bag of adversarial findings into a verdict with 0–100 score and A→F grade.

AFQI v1.0 · AI Forensic Quality Index
OWASP LLM Top 10 · 2025
Privado · Manual operativo + Demo Private · Operational manual + Demo
AI / LLM Security · Forensic

De un ataque adversarial a un dictamen. From an adversarial attack to a verdict.

Intelligent Network for Generative Response Inspection & Defense

Framework profesional para AI/LLM Security Testing alineado a OWASP LLM Top 10 (2025), ISO/IEC 27001 y NIST AI RMF. Automatiza ataques con Playwright, evalúa cada respuesta con metodología LLM-as-Judge multi-modelo sobre Claude API, mide performance contra el sistema bajo prueba y emite un reporte pericial-grade en PDF de 4 páginas — todo orquestado por una API REST y un pipeline de CI/CD. Professional framework for AI/LLM Security Testing aligned with OWASP LLM Top 10 (2025), ISO/IEC 27001 and NIST AI RMF. Automates attacks with Playwright, evaluates every response using a multi-model LLM-as-Judge on the Claude API, measures performance against the system under test and emits a 4-page audit-grade PDF report — all orchestrated by a REST API and a CI/CD pipeline.

Flujo: ataques adversariales → INGRID → AFQI Flow: adversarial attacks → INGRID → AFQI
Prompt Injection Jailbreak Garak Data Leak Excessive Agency Misinformation DoS
AFQI
Output
AI Forensic Quality Index
Score 0–100 · Grado A/B/C/D/F Score 0–100 · Grade A/B/C/D/F
10/10
OWASP LLM Top 10
OWASP LLM Top 10
Cobertura completa de las 10 categorías 2025 — desde Prompt Injection hasta Unbounded Consumption. Full coverage of all 10 categories 2025 — from Prompt Injection to Unbounded Consumption.
5
Métricas LLM-as-Judge
LLM-as-Judge metrics
Relevancia · Precisión · Coherencia · Completitud · Seguridad. Claude API evalúa cada respuesta del sistema bajo prueba. Relevance · Accuracy · Coherence · Completeness · Safety. Claude API evaluates each response from the system under test.
4pp
PDF pericial
Audit-grade PDF
Reporte forense con expediente, hallazgos por categoría OWASP, conclusión y standards alignment. Forensic report with file number, findings per OWASP category, conclusion and standards alignment.
8
Endpoints REST · CI/CD
REST endpoints · CI/CD
API REST en Express + CI/CD GitHub Actions. Dashboards Grafana en tiempo real, métricas Prometheus. Express REST API + GitHub Actions CI/CD. Real-time Grafana dashboards, Prometheus metrics.
Stack
Playwright TypeScript Claude API Express Grafana Prometheus Allure PDFKit GitHub Actions Docker
Estándares aplicados
Applied standards
OWASP LLM Top 10 · 2025 NIST AI RMF 1.0 ISO/IEC 27001:2022 ISO/IEC 42001 (AI MS) LLM-as-Judge
Red-Teaming · Adversarial Engine Red-Teaming · Adversarial Engine

Garak · NVIDIA NeMo

El estándar de la industria para red-teaming sobre LLMs. Integrado a INGRID como motor de ataques adversariales: jailbreak, prompt injection, data leakage y misinformation — auditados a escala. The industry standard for LLM red-teaming. Integrated into INGRID as the adversarial attack engine: jailbreak, prompt injection, data leakage and misinformation — audited at scale.

Garak · NVIDIA NeMo
Probes oficiales + custom payloads Official probes + custom payloads
Output → AFQI Dictamen Output → AFQI Verdict
Cuatro vectores de ataque cubiertos Four attack vectors covered
"Si tu LLM no fue red-teameado con Garak, no fue testeado en serio." "If your LLM wasn't red-teamed with Garak, it wasn't seriously tested."

Garak es el framework open-source de NVIDIA NeMo para red-teaming sistemático sobre Large Language Models. INGRID lo integra como motor de ataques adversariales: ejecuta cientos de probes oficiales (DAN, encoding, malware-gen, package-hallucination, ...) más payloads custom escritos sobre el sistema bajo prueba, y entrega los resultados al pipeline AFQI para producir un veredicto numérico por categoría OWASP LLM Top 10. No es un script ad-hoc — es el mismo framework que NVIDIA, Anthropic y la comunidad de AI Safety usan para auditar modelos antes de release. Garak is NVIDIA NeMo's open-source framework for systematic red-teaming on Large Language Models. INGRID integrates it as the adversarial attack engine: runs hundreds of official probes (DAN, encoding, malware-gen, package-hallucination, ...) plus custom payloads written for the system under test, and feeds results into the AFQI pipeline to produce a numeric verdict per OWASP LLM Top 10 category. It's not an ad-hoc script — it's the same framework NVIDIA, Anthropic and the AI Safety community use to audit models before release.

R1
Jailbreak
Bypass de guardrails
Guardrail bypass
DAN · grandma · DUDE · roleplay

Probes oficiales de Garak para forzar al modelo a salirse de su prompt de sistema y violar políticas de seguridad. Official Garak probes that force the model to break out of its system prompt and violate safety policies.

R2
Prompt Injection
Inyección directa e indirecta
Direct & indirect injection
PromptInject · encoding · obfuscation

Manipulación del prompt vía codificaciones (base64, ROT13), payload obfuscation y vectores indirectos vía RAG. Prompt manipulation via encodings (base64, ROT13), payload obfuscation and indirect vectors through RAG.

R3
Data Leakage
Data Leakage
Filtración de PII y training data
PII & training data leak
leakreplay · xss · ansiescape

Detección de fugas de credenciales, PII, datos del entrenamiento y system prompt vía probes especializados. Detection of credential, PII, training data and system prompt leaks via specialized probes.

R4
Misinformation
Hallucination & toxicity
Hallucination & toxicity
snowball · packagehallucination · realtoxicity

Detección de hallucinations, paquetes inexistentes (supply-chain), respuestas tóxicas y fabricación de hechos. Detects hallucinations, non-existent packages (supply chain), toxic responses and fact fabrication.

Integración
Integration
Garak ejecuta · INGRID orquesta · AFQI dictamina
Garak runs · INGRID orchestrates · AFQI verdicts
CI/CD
GitHub Actions · auto-trigger en cada release
GitHub Actions · auto-trigger on each release
Cobertura
Coverage
Mapeada 1:1 a OWASP LLM Top 10 (2025)
Mapped 1:1 to OWASP LLM Top 10 (2025)
Modelos auditados
Audited models
Claude · GPT-4 · Gemini · Llama · custom RAG
Claude · GPT-4 · Gemini · Llama · custom RAG
III · Cobertura III · Coverage

OWASP LLM Top 10 · 2025

Cobertura 10/10. Cada categoría con vector de ataque automatizado, métrica de detección y entrada en el dictamen AFQI. Sin huecos. Sin "lo cubrimos parcialmente". 10/10 coverage. Every category with an automated attack vector, a detection metric and an entry in the AFQI verdict. No gaps. No "partially covered".

10/10 categorías
OWASP LLM Top 10 · 2025
Vector + métrica + dictamen Vector + metric + verdict
LLM01
Prompt Injection

Manipulación del prompt para alterar el comportamiento o extraer instrucciones del sistema. Prompt manipulation to alter behavior or extract system instructions.

Garak · custom payloads · jailbreak suitejailbreak suite
LLM02
Disclosure de info sensible
Sensitive Info Disclosure

Filtración de PII, credenciales o datos del entrenamiento en respuestas del modelo. Leakage of PII, credentials or training data through model responses.

PII probes · regex + scoringscoring
LLM03
Supply Chain

Modelos pre-entrenados, embeddings o dependencias comprometidas en la cadena. Compromised pre-trained models, embeddings or dependencies in the chain.

SBOM · CycloneDX · model card audit
LLM04
Envenenamiento de datos/modelo
Data & Model Poisoning

Inserción de datos malintencionados durante fine-tuning o RAG ingestion. Insertion of malicious data during fine-tuning or RAG ingestion.

RAG corpus audit · diff testing
LLM05
Manejo impropio de output
Improper Output Handling

XSS, SSRF, command injection vía respuestas del LLM no sanitizadas downstream. XSS, SSRF, command injection via unsanitized LLM responses downstream.

Output sanitization probe · OWASP ZAP
LLM06
Excessive Agency

Agentes con permisos, plugins o herramientas más allá del necesario para la tarea. Agents with permissions, plugins or tools beyond what the task requires.

Tool-use audit · scope diff
LLM07
System Prompt Leakage

Extracción del prompt de sistema, jailbreak via debugging o role inversion. Extraction of system prompt via debugging probes or role inversion.

System probe suite · adversarial prompts
LLM08
Vector & Embedding
Vector & Embedding

Inversion attacks sobre embeddings, leak de contenido vía similarity search. Embedding inversion attacks, content leak via similarity search.

Embedding probe · MATHCORE PCA
LLM09
Misinformation

Hallucinations, datos falsos presentados con confianza, fabricación de fuentes. Hallucinations, false data presented confidently, fabricated sources.

Multi-judge cross-check · ground-truth
LLM10
Unbounded Consumption

DoS por costo, prompt floods, token exhaustion, latencia disparada bajo ataque. Cost DoS, prompt floods, token exhaustion, latency spikes under attack.

K6 + token meter · cost guardrails
IV · Entregable IV · Deliverable

Esto es lo que recibe tu equipo. This is what your team actually gets.

Un PDF pericial de 4 páginas con expediente, autor, score AFQI por categoría OWASP, conclusión técnica y standards alignment. Defendible ante auditoría — no opinión, algoritmo aplicado sobre métricas reproducibles. A 4-page audit-grade PDF with file number, author, AFQI score per OWASP category, technical conclusion and standards alignment. Defensible under audit — not opinion, algorithm applied over reproducible metrics.

AFQI v1.0
Auditable · Firmable · Defendible Auditable · Defensible · Signable
Dictamen AFQI · Página 4 — Conclusions & Standards Alignment
Algoritmo AFQI · 10 categorías OWASP AFQI algorithm · 10 OWASP categories

Score numérico. Conclusión defendible. Numeric score. Defensible conclusion.

Cada auditoría termina en un PDF de 4 páginas firmable: expediente numerado, autor identificado, score 0–100 con grado A/B/C/D/F por categoría OWASP, conclusión técnica y matriz de standards alignment. No es opinión técnica — es algoritmo aplicado sobre métricas reproducibles de MATHCORE + LLM-as-Judge multi-modelo. Every audit ends in a 4-page signed PDF: numbered file, named author, 0–100 score with A/B/C/D/F grade per OWASP category, technical conclusion and a standards alignment matrix. Not technical opinion — algorithm applied over MATHCORE reproducible metrics + multi-model LLM-as-Judge.

  • P1 · Executive summary — score AFQI · grado · top findings.P1 · Executive summary — AFQI score · grade · top findings.
  • P2 · OWASP matrix — 10 categorías · pass/fail · severidad.P2 · OWASP matrix — 10 categories · pass/fail · severity.
  • P3 · MATHCORE fingerprint — 4 métricas + PCA 2D.P3 · MATHCORE fingerprint — 4 metrics + PCA 2D.
  • P4 · Standards alignment — OWASP LLM · NIST AI RMF · ISO 42001.P4 · Standards alignment — OWASP LLM · NIST AI RMF · ISO 42001.
V · Para reclutadores V · For recruiters

Tipos de vacantes que encajan Roles that fit

13+ años en QA, especialización 2024-2026 en AI/LLM Testing. Disponible para roles full-time, contract o freelance — Buenos Aires presencial o remoto LATAM/Global. 13+ years in QA, 2024-2026 specialization in AI/LLM Testing. Available for full-time, contract or freelance roles — Buenos Aires on-site or remote LATAM/Global.

Disponibilidad inmediataAvailable now
Buenos Aires · Remoto LATAM/Global Buenos Aires · Remote LATAM/Global
AI Quality Engineer

QA Tech Lead AI/LLM AI/LLM QA Tech Lead

Equipos que están sumando IA a producto y necesitan testing serio sobre chatbots, RAG, copilots o AI agents. Teams adding AI to product who need serious testing on chatbots, RAG, copilots or AI agents.

  • Estrategia de testing AI/LLM end-to-endEnd-to-end AI/LLM testing strategy
  • Cobertura OWASP LLM Top 10 (2025) · 10/10OWASP LLM Top 10 (2025) coverage · 10/10
  • LLM-as-Judge multi-modelo (Claude · GPT · Gemini)Multi-model LLM-as-Judge (Claude · GPT · Gemini)
  • Pipelines CI/CD con gates de calidad AICI/CD pipelines with AI quality gates
  • Reportes pericial-grade alineados a NIST AI RMFAudit-grade reports aligned to NIST AI RMF
Conversar en LinkedIn → Connect on LinkedIn →
LLM Security Engineer

AI Security & Red-team AI Security & Red-team

Equipos de AppSec o AI Safety que necesitan red-teaming sobre LLMs en producción. AppSec or AI Safety teams that need red-teaming over production LLMs.

  • Red-teaming con Garak (NVIDIA NeMo)Red-teaming with Garak (NVIDIA NeMo)
  • Prompt injection · jailbreak · data leak probesPrompt injection · jailbreak · data leak probes
  • Structural fingerprinting matemático (MATHCORE)Mathematical structural fingerprinting (MATHCORE)
  • Drift detection entre releases · regression alertsDrift detection between releases · regression alerts
  • Compliance ISO/IEC 42001 · NIST AI RMF · EU AI ActCompliance ISO/IEC 42001 · NIST AI RMF · EU AI Act
Conversar en LinkedIn → Connect on LinkedIn →
MLOps QA · Voice AI

MLOps QA & Voice AI MLOps QA & Voice AI

Equipos con sistemas LLM o voice-AI bajo carga (call centers, asistentes, agentes de voz). Teams with LLM or voice-AI systems under load (call centers, assistants, voice agents).

  • Stress testing LLM · K6 + token meterLLM stress testing · K6 + token meter
  • Voice AI: ElevenLabs · OpenAI Realtime · WhisperVoice AI: ElevenLabs · OpenAI Realtime · Whisper
  • Latencia · calidad conversacional · cost guardrailsLatency · conversational quality · cost guardrails
  • Observabilidad: Grafana · Prometheus · LokiObservability: Grafana · Prometheus · Loki
  • Performance metrics p50/p90/p99 · race conditionsPerformance metrics p50/p90/p99 · race conditions
Conversar en LinkedIn → Connect on LinkedIn →
VI · Sectores con IA VI · AI Sectors

Donde la IA no puede alucinar. Where AI cannot hallucinate.

Sectores donde un chatbot o copilot que falla cuesta dinero, demanda o vidas. Cada vertical recibe un marco de testing AI ajustado a su regulación. Sectors where a failing chatbot or copilot costs money, lawsuits or lives. Each vertical gets an AI testing framework tailored to its regulation.

B

Banca AI & Fintech Banking AI & Fintech

Chatbots de atención, copilots para asesores, fraud-detection con IA. Donde una respuesta errónea es un default regulatorio. Customer chatbots, advisor copilots, AI fraud detection. Where a wrong answer is a regulatory default.

PCI-DSS · BCBS 239 · NIST AI RMF · OWASP LLM
S

Salud & Clinical AI Healthcare & Clinical AI

Asistentes clínicos, triaje LLM, telemedicina con IA generativa. Donde alucinar puede ser un error médico. Clinical assistants, LLM triage, AI-driven telemedicine. Where hallucination can be malpractice.

HIPAA · ISO 13485 · ISO 42001 · FDA AI/ML guidance
G

GovTech & Pública GovTech & Public Sector

LLM en sistemas públicos, asistentes ciudadanos, automatización con IA en RFP. Auditable y trazable por ley. LLMs in public systems, citizen assistants, AI automation in RFPs. Auditable and traceable by law.

EU AI Act · NIST AI RMF · ISO 29119 · NDA
E

Enterprise · Copilots & RAG Enterprise · Copilots & RAG

Plataformas Multi-LLM internas, copilots de soporte, RAG corporativo. Producción a escala con SLA. Internal Multi-LLM platforms, support copilots, enterprise RAG. Production at scale with SLA.

OWASP LLM · ISO 42001 · ISO 27001 · 614+ test cases
VII · Marco normativo AI VII · AI Compliance Framework

Respaldado por estándares de IA vigentes Backed by current AI standards

Ningún criterio inventado. Cada métrica AFQI y cada ataque INGRID se apoya en estándares públicos vigentes que cualquier auditor o regulador puede cross-validar. No invented criteria. Every AFQI metric and every INGRID attack rests on current public standards any auditor or regulator can cross-validate.

8 estándares AIAI standards
OWASP + NIST + ISO + IEEE + EU AI Act OWASP + NIST + ISO + IEEE + EU AI Act

El framework no inventa categorías propias para validar IA. Cada control y cada métrica se apoya en estándares públicos AI vigentes reconocidos por gobierno, banca, salud y enterprise — facilitando auditorías regulatorias, RFPs y compliance internacional. The framework doesn't reinvent AI validation categories. Every control and every metric is grounded in current public AI standards recognized by government, banking, healthcare and enterprise — easing regulatory audits, RFPs and international compliance.

OWASP LLM Top 10 · 2025
10 riesgos críticos en LLM
Top 10 critical LLM risks
NIST AI RMF 1.0
Risk Management Framework AI
AI Risk Management Framework
ISO/IEC 42001:2023
AI Management System
AI Management System
ISO/IEC 23894:2023
AI Risk Management
AI Risk Management
ISO/IEC 5338:2023
AI System Lifecycle
AI System Lifecycle Processes
EU AI Act · 2024
Reglamento UE de IA (alto riesgo)
EU AI Regulation (high-risk)
ISTQB · CT-AI
Certified Tester · AI Testing
Certified Tester · AI Testing
ISO/IEC 27001:2022
Seguridad de la información (base)
Information security (baseline)
Compliance
Compliance & certificación AIAI compliance & certification
Procesos auditables alineados a ISO/IEC 42001 + NIST AI RMF + EU AI Act. Listo para auditoría interna o regulatoria.Auditable processes aligned to ISO/IEC 42001 + NIST AI RMF + EU AI Act. Ready for internal or regulatory audit.
Trazabilidad
Traceability
Reproducibilidad & auditoríaReproducibility & audit
Cada métrica MATHCORE es reproducible bit-a-bit. Cada ataque INGRID queda en el expediente. Cero opinión, todo número.Every MATHCORE metric is bit-reproducible. Every INGRID attack stays in the audit trail. Zero opinion, all numbers.
Diferenciación
Differentiation
Ventaja en RFP & due diligenceRFP & due-diligence edge
Credibilidad respaldada por estándares · transparencia metodológica · dictamen pericial defendible.Standards-backed credibility · methodological transparency · defensible audit-grade verdict.
Eficiencia
Efficiency
Detección temprana de driftEarly drift detection
MATHCORE detecta degradación entre releases antes de que llegue a producción. Reducción de incidentes post-deploy.MATHCORE detects degradation between releases before it hits prod. Fewer post-deploy incidents.
VIII · Contacto VIII · Contact

¿Vacante en AI/LLM Testing? Conversemos. Hiring for AI/LLM Testing? Let's talk.

Si tu equipo está sumando IA al producto y necesita un QA Tech Lead que sepa testearla en serio, escribime. Respondo en menos de 24 horas. Buenos Aires presencial · Remoto LATAM/Global. If your team is adding AI to the product and needs a QA Tech Lead who can test it seriously, drop me a line. I reply within 24 hours. Buenos Aires on-site · Remote LATAM/Global.