Cómo construir un harness de evaluación de agentes de IA: Puntúa completitud de tareas, uso de herramientas, costo y seguridad
Tutorial paso a paso en TypeScript para construir un harness de evaluación de agentes de IA con puerta de CI. Puntúa completitud de tareas, selección de herramientas, costo, latencia, seguridad y determinismo de extremo a extremo.