iris · 5 mai 2026 · 3 min citire

Siguranța AI agentic trăiește în topologie, nu în greutățile modelului

Un model frontier trece red-team, apoi cade în producție când conectezi trei instanțe într-o buclă de deliberare. Nu e un bug de antrenare — e un bug de topologie.

CAI Technology · Ultima revizuire: 05.05.2026

Abstract neural network topology with cyan and magenta nodes connected by flowing pathways visualizes 'safety in topology' concept. No faces, hands, logos, or text present, an

Siguranța AI agentic trăiește în topologie, nu în greutățile modelului

Un model frontier trece toate evaluările red-team, apoi cade în producție în momentul în care conectezi trei instanțe ale lui într-o deliberation loop. Acel decalaj nu este un bug de antrenare. Este un bug de topologie.

De ce topologia interacțiunii bate alignment-ul

Documentul de poziție din mai 2026 al Yang et al. (arXiv:2605.01147) susține că siguranța și echitatea în AI agentic sunt proprietăți ale grafului de interacțiune — deliberare secvențială, voting paralel cu judges, debate cu arbitru — nu ale greutăților modelului de bază. Scalarea modelului nu rezolvă acest aspect; în formularea lor, adesea îl agravează. Nucleul empiric urmărește aceeași dinamică în debate, voting în stil MoA și bucle reflexive de critique pe backbone-uri din clasa GPT-4 și Claude-3.5; patologiile supraviețuiesc oricărui swap de model.

Cele trei moduri de eșec numite sunt concrete:

Ordering instability. Aceiași agenți, aceleași prompturi, ordine diferită a turelor — verdict diferit.
Information cascades. Agentul N+1 se ancorează pe încrederea agentului N și lanțul fixează erorile timpurii.
Functional collapse. Agenți diverși converg către o singură voce — acordul judge-ului ajunge la 0,94 până în runda a treia — ucigând redundanța pe care topologia ar fi trebuit să o ofere.

Ce schimbă acest lucru pentru evaluare

Benchmark-urile centrate pe model — MMLU, HELM, suite de red-team single-turn — sunt oarbe la toate trei. NIST AI Risk Management Framework Generative AI Profile (NIST AI 600-1) tratează contextul de sistem ca fiind în scope, dar majoritatea laboratoarelor încă raportează cifre la nivel de model. EU AI Act, Articolul 55 plasează obligații de risc sistemic pe modelele general-purpose, însă topologia de deployment — câți agenți, în ce ordine, cu ce judge — rămâne în afara model card-ului.

flowchart LR A[Single-model eval MMLU + red-team] --> B{Pass?} B -->|yes| C[Deploy] C --> D[Wrap in 5-agent debate topology] D --> E[Ordering instability Cascade lock-in Functional collapse] E --> F[Production failure invisible to model card] classDef good fill:#dcfce7,stroke:#10b981 classDef bad fill:#fee2e2,stroke:#ef4444 class A,B,C good class E,F bad

Un harness conștient de topologie înregistrează acest lucru altfel:

2026-05-03T09:14:02Z agent_orch: trial=017 topology=debate-3+judge order_seed=42 verdict=approve
2026-05-03T09:14:11Z agent_orch: trial=018 topology=debate-3+judge order_seed=43 verdict=reject
2026-05-03T09:14:11Z agent_orch: drift_alert order_sensitivity=0.31 cascade_index=0.67

Două trial-uri, agenți și prompturi identice, verdicte opuse. Acesta este semnalul pe care evaluările de model îl ratează.

Ce facem noi la CAI în privința asta

Tratăm fiecare deployment multi-agent ca un audit de sistem dinamic, nu ca un audit de model. ENISA Threat Landscape 2024 semnalează orchestrarea multi-agent ca o suprafață emergentă în supply chain; activitatea pilonului nostru de guvernanță pe conformitate cu AI Act integrează parametri de topologie — agent count, disciplina turelor, independența judge-ului — direct în dosarul de conformitate. Reglementatorii vor întreba la un moment dat. Echipele care au înregistrat order-seed și cascade-index încă din prima zi vor răspunde în câteva minute; restul vor reconstrui harness-uri de evaluare sub deadline.

Vrei checklist-ul pentru auditul de topologie pe care îl rulăm înainte ca orice sistem agentic să ajungă în producție? Vezi playbook-ul de deployment al pilonului iris.

Siguranța AI agentic trăiește în topologie, nu în greutățile modelului

Siguranța AI agentic trăiește în topologie, nu în greutățile modelului

De ce topologia interacțiunii bate alignment-ul

Ce schimbă acest lucru pentru evaluare

Ce facem noi la CAI în privința asta

Lectură suplimentară

Începem cu o conversație de 30 de minute.