CAI Technology
Menu ☰
iris · · 12 min citire

Observability of AI agents: ce trebuie să monitorizezi în producție

Dashboard pentru agenți AI: tokens consumed, latency p50/p95/p99, hallucination rate, tool-use success, audit-log completeness. Template practic.

CAI Technology · Ultima revizuire: 30.04.2026
Observability of AI agents: ce trebuie să monitorizezi în producție

Observability of AI agents: dashboard-ul minim pentru a opera un agent în producție

Un agent AI care funcționează în pilot și un agent AI care operează zilnic în producție arată similar pentru utilizator. Pentru echipa care îl întreține, sunt fundamental diferiți. Diferența nu este în cod; este în observability. Fără un set de metrici riguroase, un agent în producție devine o cutie neagră care „uneori funcționează” și asupra căreia nu poți lua decizii informate.

Articolul descrie metrici-le pe care le tracăm pentru fiecare agent AI pe care îl operăm intern și pentru clienți, cu detalii despre cum se calculează, ce praguri sunt rezonabile, și cum interpretăm valorile.

TL;DR

Cele cinci familii de metrici

1. Cost — tokens consumed

Pentru un agent operațional, costul este metric primary. Componente:

Pragul tipic: dacă vedeți o creștere bruscă peste 30% față de baseline săptămâna anterioară fără o explicație de business (volum mai mare de cereri), investigați. Cauze frecvente: model schimbat la default mai scump, prompt mărit (system prompt accidental dublat), context loop care nu se închide.

2. Latency — p50, p95, p99

Media latenței este înșelătoare. Distribuția este asimetrică: 90% din cereri rapide, 5-10% lente, 1-2% foarte lente. Folosiți percentile:

Defalcare pe componente: timp în LLM (network plus inferență), timp în tool execution, timp în I/O (file system, DB). Identificarea componenței dominante directionează optimizarea.

3. Calitate — hallucination și tool-use

Hallucination rate. Frecvența cu care agentul produce afirmații false sau invenții care nu sunt în context. Nu se măsoară automat (un model nu poate verifica fiabil dacă alt model halucinează). Procedura noastră:

Pragul: rate sub 1% pentru sarcini factuale (lookup, status). Pragul sub 3% pentru sarcini de raționament (analiză, recomandare). Peste, agentul nu este production-ready.

Tool-use success rate. Frecvența cu care agentul apelează tool-ul corect cu parametri valizi care produc rezultat util. Calcul automat:

Pragul tipic: peste 92% success. Sub 90%, ceva e stricat.

4. Audit completeness

Pentru agenți care fac acțiuni cu impact (în special cu propose-then-act), auditul este obligator. Metrici:

Sub 100% înseamnă risc de litigiu sau de non-conformitate. Singura toleranță acceptabilă este pentru acțiuni cu zero impact (status, info).

5. Business impact

Metrici care arată dacă agentul livrează valoare:

Aceste metrici sunt mai greu de standardizat dar sunt cele care justifică agentul față de management.

Layout dashboard tipic

Dashboard-ul nostru pentru un agent are 8 widget-uri în această ordine de citire:

[ Cost zilnic 7 zile ]  [ Cost lunar curs ]
[ Latency p50/p95/p99 ]  [ Tool-use success % ]
[ Acțiuni cu impact: plan / approve / execute ]
[ Top 5 erori în ultimele 24h ]
[ Sesiuni active acum ]   [ Cereri nereușite ultimă oră ]

Citire în 30 secunde: cost trend OK, latency în limite, tool-use peste prag, acțiuni cu impact toate auditate, fără erori top, sesiuni active normale, fără spike de eșecuri.

Alerting

Alerting-ul automat trebuie să fie conservator. Un agent în producție are zgomot natural; alarmele false la fiecare oră sunt mai dăunătoare decât niciuna.

Pragurile noastre tipice:

Toate alertele direcționate la canal de ops cu context. Niciuna nu se rezolvă singură; toate cer triage uman.

Sampling pentru hallucination

Un detaliu critic: hallucination rate fără sampling manual nu este măsurabil. Procedura noastră:

  1. Selecție random 50-100 sesiuni pe săptămână
  2. Reviewer uman citește răspunsul agentului plus contextul (input utilizator, tool outputs intermediari)
  3. Marchează verdict: corect / parțial / halucinat
  4. Notează patternul (dacă e halucinat: ce tip — fapte inventate, atribuiri greșite, agregare incorectă)
  5. Tracking pe trend săptămânal

Investiția: 2-4 ore reviewer pe săptămână. Pentru un agent care servește operațiuni reale, este mult mai puțin decât costul unui singur incident provocat de halucinație nedetectată.

Greșeli comune

Greșeală 1: monitor doar cost. Multe echipe fac dashboard de tokens / EUR și consideră observability done. Cost este ușor de măsurat, calitatea este greu — și exact asta o face importantă.

Greșeală 2: medii în loc de percentile. Latency medie poate fi 2 secunde cu p95 la 30 secunde. Utilizatorii din p95 sunt cei care abandonează produsul.

Greșeală 3: alerts pe orice. Alarme false dezactivează atenția. Pragurile trebuie reglate empiric, nu setate la valori „rotunde”.

Greșeală 4: lipsa de logs structurate. Loguri text liber nu se queryesc. Folosiți JSON structurat cu fields fixe: timestamp, agent_id, session_id, action_type, model_used, tokens_in, tokens_out, latency_ms, status.

Greșeală 5: lipsa de retention strategy. Logs cresc rapid. Definiți: păstrare 30 zile fine-grained, agregări 12 luni, summary anual. Storage devine cost real altfel.

Tooling

Stack-ul nostru intern este modular:

Stack-ul exact contează mai puțin decât metrici-le tracate. Începeți cu un dashboard simplu, iterați.

Concluzie

Un agent AI fără observability este un agent care va eșua ceva pe care nu îl veți observa decât după ce un utilizator se plânge. Cele cinci familii de metrici (cost, latency, calitate, audit, business) acoperă aproape toate eșecurile pe care le-am văzut în practică. Investiția este de zile la prima setare și ore pe săptămână la operare. Beneficiul este că agentul devine ceva pe care îl puteți încredința echipei voastre — nu o cutie neagră care „de obicei funcționează”.

Articole conexe

Surse externe

Următorul pas

Dacă echipa dvs. operează un agent AI și vrea să stabilim împreună metricile potrivite pentru workflow-ul vostru, vă oferim o consultație tehnică de 30 minute fără cost.

Începem cu o conversație de 30 de minute.

Audit AI-readiness gratuit pentru companii peste 50 angajați. Răspundem în 24 de ore.