ai-agent-evaluation
Evaluación de agentes de IA en 2026: Construye un harness de evaluación que puntúe completitud de tareas, uso de herramientas, costo y seguridad
Construye en 2026 un harness de evaluación de agentes de IA code-first que puntúa completitud de tareas, selección de herramientas, costo, latencia, seguridad y determinismo, con puertas de CI y un corpus de seguridad de 30 payloads.