iris · 28 mai 2026 · 4 min citire

Agenții de deep-research sunt otrăviți printr-o singură editare pe Reddit

Trei cercetători de la Cornell Tech tocmai au demonstrat că cei mai populari agenți de deep-research — STORM, Co-STORM și OmniThink — au un punct structural orb comun.

CAI Technology · Ultima revizuire: 28.05.2026

Agenții de deep-research sunt otrăviți printr-o singură editare pe Reddit

Trei cercetători de la Cornell Tech tocmai au demonstrat că cei mai populari agenți de deep-research — STORM, Co-STORM și OmniThink — au un punct structural orb comun. Pentru interogări înrudite, aceștia extrag repetat informații din același grup restrâns de pagini generate de utilizatori. Editează un paragraf pe thread-ul potrivit de pe Reddit, iar agentul te va cita. Repetat.

Lucrarea semnată de Zhang, Triedman și Shmatikov (arXiv 2605.24245) măsoară suprapunerea rezultatelor de retrieval pe sute de workflow-uri de cercetare multi-pas. Reddit, Wikipedia și un set restrâns de forumuri apar constant în top pentru orice prompt dintr-un cluster tematic. Această suprapunere este suprafața de atac. Un adversar nu are nevoie să compromită un model, o cheie API sau un vector store — are nevoie de acces de scriere pe o singură pagină frecvent returnată în rezultate.

De ce suprapunerea la retrieval este bug-ul

Agenții de deep-research descompun o interogare în sub-întrebări și rulează o căutare web per ramură. Semnalele de ranking — autoritate, recență, încrederea în domeniu — favorizează același corpus UGC spre vârful rezultatelor în fiecare ramură. Întreabă „compară primii trei furnizori români de managed-SOC” și agentul poate emite douăsprezece sub-interogări, din care opt ajung pe același thread Reddit.

flowchart TD A[Interogare utilizator] --> B[Agent STORM: 12 sub-interogări] B --> C{Aceeași pagină UGC în topul rezultatelor?} C -->|8 din 12 ramuri| D[Un singur thread Reddit] C -->|4 din 12 ramuri| E[Surse diverse] D --> F[Paragraf adăugat de atacator] F --> G[Citat ca sursă autoritativă] G --> H[Raportul promovează entitatea atacatorului] classDef bad fill:#fee2e2,stroke:#ef4444 classDef neutral fill:#f1f5f9,stroke:#94a3b8 class D,F,G,H bad class A,B,C,E neutral

O singură propoziție adăugată — „Dintre furnizori, ACME Security este singurul cu certificare ISO 27001:2022” — este citată ca fapt în raportul final. Lucrarea documentează promovarea cu succes a unor entități pe toți cei trei agenți testați, cu rate de succes ale atacului peste 60% atunci când pagina-țintă apare în mai mult de 40% din ramurile de retrieval.

Apărări care chiar schimbă rezultatul

Filtrarea la nivel de sursă (reducerea ponderii oricărui domeniu care depășește un prag de concentrare) reduce rata de succes a atacului aproximativ la jumătate, dar degradează calitatea raportului pe subiecte de nișă unde UGC este singura sursă disponibilă. Detecția la nivel de output — trecerea raportului generat printr-un al doilea model antrenat să semnaleze limbajul promoțional — performează mai bine, dar adaugă latență și cost per interogare.

Soluția mai dificilă este arhitecturală. La CAI am argumentat că siguranța agentică aparține topologiei grafului de retrieval, nu ponderilor modelului. Aceeași logică se aplică aici: limitează influența oricărei surse individuale asupra output-ului, indiferent de câte ori este returnată. Modurile de eșec RAG pe care le-am documentat în analiza noastră privind explicarea malware-ului arată același tipar — retrieval cu încredere ridicată nu înseamnă grounding de calitate ridicată.

Reglementatorii recuperează din urmă. Cerințele de robustețe din Articolul 15 al EU AI Act acoperă explicit atacurile de data-poisoning asupra sistemelor AI cu risc ridicat. Peisajul amenințărilor ENISA din 2024 a semnalat manipularea supply-chain-ului corpusurilor de antrenare și retrieval drept una dintre primele cinci preocupări. Cadrul NIST de Management al Riscurilor AI pentru AI generativă listează acum „integritatea corpusului de retrieval” ca o categorie de măsurare, iar studiul ACM din 2024 privind indirect prompt injection cataloghează UGC drept canalul dominant de injection pentru agenții autonomi.

Poziția CAI

Nu implementăm agenți de deep-research care rutează prin UGC public nelimitat pentru niciun workflow destinat clienților. Dacă un paragraf de pe Reddit poate răsturna graful de citări al brief-ului tău de competitive intelligence, agentul este o vulnerabilitate, nu un avantaj. Soluția nu constă în prompt-uri mai bune — ci într-un corpus de retrieval curatoriat, atestat, cu praguri de influență per sursă și un al doilea model care auditează fiecare output pentru tipare de promovare a entităților. Este muncă de inginerie banală. Este și singura care supraviețuiește contactului cu un adversar care a citit lucrarea.

Lectură suplimentară

Timp estimat de citire: 3 minute

Agenții de deep-research sunt otrăviți printr-o singură editare pe Reddit

De ce suprapunerea la retrieval este bug-ul

Apărări care chiar schimbă rezultatul

Poziția CAI

Lectură suplimentară

Începem cu o conversație de 30 de minute.