Comment construire un harness d'évaluation pour agent IA : scorer la complétion de tâches, l'usage des outils, le coût et la sécurité
Tutoriel TypeScript pas à pas pour construire un harness d'évaluation d'agent IA avec gating CI. Scorez complétion de tâches, sélection d'outils, coût, latence, sécurité et déterminisme de bout en bout.