Siguranța AI agentic trăiește în topologie, nu în greutățile modelului
Un model frontier trece red-team, apoi cade în producție când conectezi trei instanțe într-o buclă de deliberare. Nu e un bug de antrenare — e un bug de topologie.
Siguranța AI agentic trăiește în topologie, nu în greutățile modelului
Un model frontier trece toate evaluările red-team, apoi cade în producție în momentul în care conectezi trei instanțe ale lui într-o deliberation loop. Acel decalaj nu este un bug de antrenare. Este un bug de topologie.
De ce topologia interacțiunii bate alignment-ul
Documentul de poziție din mai 2026 al Yang et al. (arXiv:2605.01147) susține că siguranța și echitatea în AI agentic sunt proprietăți ale grafului de interacțiune — deliberare secvențială, voting paralel cu judges, debate cu arbitru — nu ale greutăților modelului de bază. Scalarea modelului nu rezolvă acest aspect; în formularea lor, adesea îl agravează. Nucleul empiric urmărește aceeași dinamică în debate, voting în stil MoA și bucle reflexive de critique pe backbone-uri din clasa GPT-4 și Claude-3.5; patologiile supraviețuiesc oricărui swap de model.
Cele trei moduri de eșec numite sunt concrete:
- Ordering instability. Aceiași agenți, aceleași prompturi, ordine diferită a turelor — verdict diferit.
- Information cascades. Agentul N+1 se ancorează pe încrederea agentului N și lanțul fixează erorile timpurii.
- Functional collapse. Agenți diverși converg către o singură voce — acordul judge-ului ajunge la 0,94 până în runda a treia — ucigând redundanța pe care topologia ar fi trebuit să o ofere.
Ce schimbă acest lucru pentru evaluare
Benchmark-urile centrate pe model — MMLU, HELM, suite de red-team single-turn — sunt oarbe la toate trei. NIST AI Risk Management Framework Generative AI Profile (NIST AI 600-1) tratează contextul de sistem ca fiind în scope, dar majoritatea laboratoarelor încă raportează cifre la nivel de model. EU AI Act, Articolul 55 plasează obligații de risc sistemic pe modelele general-purpose, însă topologia de deployment — câți agenți, în ce ordine, cu ce judge — rămâne în afara model card-ului.
flowchart LR
A[Single-model eval<br/>MMLU + red-team] --> B{Pass?}
B -->|yes| C[Deploy]
C --> D[Wrap in 5-agent<br/>debate topology]
D --> E[Ordering instability<br/>Cascade lock-in<br/>Functional collapse]
E --> F[Production failure<br/>invisible to model card]
classDef good fill:#dcfce7,stroke:#10b981
classDef bad fill:#fee2e2,stroke:#ef4444
class A,B,C good
class E,F bad
Un harness conștient de topologie înregistrează acest lucru altfel:
2026-05-03T09:14:02Z agent_orch: trial=017 topology=debate-3+judge order_seed=42 verdict=approve
2026-05-03T09:14:11Z agent_orch: trial=018 topology=debate-3+judge order_seed=43 verdict=reject
2026-05-03T09:14:11Z agent_orch: drift_alert order_sensitivity=0.31 cascade_index=0.67
Două trial-uri, agenți și prompturi identice, verdicte opuse. Acesta este semnalul pe care evaluările de model îl ratează.
Ce facem noi la CAI în privința asta
Tratăm fiecare deployment multi-agent ca un audit de sistem dinamic, nu ca un audit de model. ENISA Threat Landscape 2024 semnalează orchestrarea multi-agent ca o suprafață emergentă în supply chain; activitatea pilonului nostru de guvernanță pe conformitate cu AI Act integrează parametri de topologie — agent count, disciplina turelor, independența judge-ului — direct în dosarul de conformitate. Reglementatorii vor întreba la un moment dat. Echipele care au înregistrat order-seed și cascade-index încă din prima zi vor răspunde în câteva minute; restul vor reconstrui harness-uri de evaluare sub deadline.
Vrei checklist-ul pentru auditul de topologie pe care îl rulăm înainte ca orice sistem agentic să ajungă în producție? Vezi playbook-ul de deployment al pilonului iris.