EU AI Act: obligații pentru companii care fine-tune LLM-uri
Ce cere EU AI Act pentru companii care fine-tune LLM-uri pe date proprii: documentation, risk classification, obligații pentru sisteme high-risk.
EU AI Act și fine-tuning-ul LLM-urilor pe date proprii: ce trebuie să documentați
EU AI Act (Regulamentul 2024/1689) a intrat în vigoare în august 2024, cu aplicare etajată până în 2027. Pentru companii care fine-tune LLM-uri pe date proprii — un caz de utilizare comun la clienți români din juridic, fiscal, medical și financiar — Act-ul introduce obligații concrete de documentare, clasificare de risc și transparență.
Acest articol clarifică ce cere Regulamentul în practică pentru o companie care personalizează un model open-weight sau un model frontier prin fine-tuning. Nu este aviz juridic; este o sinteză operațională pentru CTO și DPO.
TL;DR
- Fine-tuning-ul propriu nu transformă automat compania într-un „provider” de model conform AI Act, dar poate să o facă dacă modificările sunt substantive.
- Sistemele AI clasificate „high-risk” (Anexa III: HR, justiție, infrastructură critică, educație, etc.) au obligații extinse: risk management system, data governance, transparență, supraveghere umană, robustness, post-market monitoring.
- General Purpose AI Models (GPAI) au obligații separate: technical documentation, copyright policy, summary of training data. Aceste obligații se aplică providerului upstream, dar utilizatorul downstream trebuie să primească documentația.
- Fine-tuning pe date sensibile (juridice, medicale, financiare) cere data governance documentat: provenience, biases, licensing, retention.
- Sancțiunile maxime: 35M EUR sau 7% din cifra de afaceri globală pentru încălcări prohibitions; 15M EUR sau 3% pentru încălcări high-risk.
Cui se aplică Regulamentul
EU AI Act se aplică:
- Providers — entitatea care dezvoltă un sistem AI sau un model GPAI și îl introduce pe piața UE sau îl pune în serviciu sub propriul nume.
- Deployers — entitatea care utilizează un sistem AI sub propria autoritate (fostul „user”).
- Importatori și distribuitori — pentru sisteme AI introduse pe piața UE.
Întrebarea critică pentru fine-tuning este: când un deployer devine provider? Răspunsul AI Act-ului: dacă fine-tuning-ul este „substanțial” și schimbă scopul intenționat al modelului, deployer-ul devine provider pentru sistemul derivat.
În practică:
- Fine-tuning ușor (instruction-tuning pe câteva sute de exemple, fără schimbare de capabilitate) → rămâneți deployer.
- Fine-tuning major (continued pretraining pe corpus mare, schimbare de capabilități, scopuri noi) → potențial provider pentru sistemul derivat.
- LoRA / adapter pe model frontier pentru caz de utilizare specific → tipic deployer.
Clasificarea de risc
AI Act clasifică sistemele AI în 4 categorii:
- Prohibited (Articolul 5): scoring social, exploatarea vulnerabilităților, biometric categorization pe rasă/religie, etc. Interzicere totală.
- High-risk (Anexa III): HR, justiție, asylum, educație, infrastructură critică, dispozitive medicale.
- Limited risk: chatbots, deepfakes — obligații de transparență minime.
- Minimal/no risk: tot restul.
Pentru un asistent juridic românesc fine-tuned pe legislație, clasificarea depinde de utilizare:
- Asistent intern pentru avocați (tool de cercetare): NU este high-risk per se.
- Sistem care evaluează automat dacă o cauză merită susținere în instanță: high-risk (acces la justiție).
- Sistem care decide automat soluții juridice fără supraveghere umană: high-risk + potențial prohibited.
Obligații pentru sisteme high-risk
Dacă sistemul vostru fine-tuned cade în categoria high-risk, Articolele 9–17 cer:
Risk management system (Art. 9): proces continuu de identificare, evaluare și mitigare a riscurilor. Documentat. Update-at la fiecare schimbare semnificativă.
Data governance (Art. 10): pentru date de training/validare/test trebuie să asigurați relevanță, reprezentativitate, lipsă de erori, completitudine, plus procese de examinare pentru biases și gestionare lacune.
Technical documentation (Art. 11 + Anexa IV): document detaliat care include descrierea generală a sistemului, elementele de design și dezvoltare, datele utilizate, capabilities și limitations, monitoring și control, detalii human oversight.
Record-keeping (Art. 12): logging automat al evenimentelor relevante pe toată durata de viață.
Transparency (Art. 13): informare clară către deployer despre capabilities, limitations, performance metrics, instrucțiuni de utilizare.
Human oversight (Art. 14): măsuri tehnice și organizatorice care permit supraveghere umană efectivă.
Accuracy, robustness, cybersecurity (Art. 15): nivel adecvat de acuratețe + robustness față de input-uri adversariale + securitate cibernetică.
Post-market monitoring (Art. 72): monitorizare după deployment, cu raportare incidente serioase la autorități.
Obligații pentru GPAI providers
Articolele 53–55 introduc o categorie nouă: General Purpose AI Models. Acestea au:
Obligații standard (Art. 53):
- technical documentation (Anexa XI)
- documentație pentru downstream providers (Anexa XII)
- politică de copyright (respectarea drepturilor din Directiva 2019/790)
- rezumat public al datelor de training
Obligații suplimentare pentru GPAI cu risc sistemic (Art. 55):
- evaluare de model + adversarial testing
- evaluare și mitigare a riscurilor sistemice
- raportare incidente serioase
- cybersecurity
Pragul pentru „risc sistemic” este definit ca >10^25 FLOPs cumulativi de training.
Dacă voi sunteți deployer care folosește un model GPAI extern pentru fine-tuning, aveți dreptul (și obligația contractuală) să primiți documentația tehnică pentru downstream conform Anexei XII.
Caz practic: asistent juridic românesc
Considerăm un caz tipic: o firmă de avocatură fine-tune-uiește un model open-weight 14B pe corpus juridic românesc cu 30B tokens, pentru utilizare internă de către avocați.
Clasificare: probabil NU high-risk (utilizare internă de cercetare), dar atenție la borderline cases.
Obligații minime:
- Transparență către utilizatori: clarificare că este AI generativ, citation grounding obligatoriu.
- Politică de copyright: documentație că corpusul respectă licențe și drepturi de autor.
- Risk assessment intern: chiar dacă nu este obligatoriu, este best practice.
- Data governance: documentare provenance corpus, anonimizare jurisprudență, retention.
Obligații suplimentare dacă deveniți provider:
- Technical documentation completă (Anexa IV-style)
- Conformity assessment înainte de market introduction
- CE marking
- Registration în baza de date UE
Caz practic: model GPAI fine-tuned cu LoRA
O fintech fine-tune-uiește un model frontier cu LoRA pe 50K tranzacții pentru un asistent de fraud detection.
Clasificare: high-risk dacă deciziile influențează direct accesul la servicii financiare (Anexa III, punct 5(b) credit scoring).
Obligații complete high-risk: vezi mai sus, plus integrare cu obligațiile sectoriale (PSD2, EBA, etc.).
Calendar de aplicare
- 2 februarie 2025: Prohibitions (Art. 5) și AI literacy (Art. 4) intră în aplicare.
- 2 august 2025: GPAI rules (Art. 51–56) și governance.
- 2 august 2026: majoritatea obligațiilor (high-risk, transparency).
- 2 august 2027: high-risk din Anexa I (e.g. dispozitive medicale).
Documentation checklist minimă
Pentru orice fine-tuning project în 2026, recomandăm să aveți documentat:
- Model card: model base, modificări aplicate, hyperparameters, hardware, evaluare.
- Data card: surse corpus, licensing, anonimizare, dedup, biases identificate, retention policy.
- Risk assessment: cazuri de utilizare, risc identificate, măsuri de mitigare.
- Use policy: cine poate folosi, în ce scopuri, ce este interzis, mecanism de raportare incidente.
- Audit log: logging deployments, evaluări, incidente.
Capcane comune
„Suntem doar deployer”. Verificați gradul de schimbare. Continued pretraining pe 30B tokens probabil vă face provider pentru sistemul derivat.
„Modelul base este GPAI, deci ne acoperă”. Documentația GPAI provider acoperă modelul, nu sistemul vostru fine-tuned.
„Datele sunt anonime”. Anonimizarea trebuie să respecte standardele UE. Pseudonimizarea nu este suficientă în multe cazuri.
„Folosim doar pentru clienți non-UE”. Dacă vânzătorul, deployer-ul sau output-ul ajunge pe piața UE, AI Act se aplică.
Diagramă decizie
Fine-tuning planificat?
├── Schimbare substanțială (CPT mare, capabilities noi)?
│ ├── Da → Sunteți provider; obligații complete
│ └── Nu → Probabil deployer; obligații deployer
│
├── Sistem cade în Anexa III (high-risk)?
│ ├── Da → Obligații Art. 9–17 + post-market monitoring
│ └── Nu → Obligații transparență + best practices
│
└── Folosiți GPAI extern?
└── Cereți documentația Anexa XII de la provider
Concluzie operațională
EU AI Act nu este un blocker pentru fine-tuning. Este un set de cerințe de documentare și governance care, dacă sunt aplicate de la start, devin parte naturală din pipeline-ul ML. Companiile care încep cu documentation discipline scapă de remediation costisitoare în 2026–2027.
Pentru clienți CAI Technology pe verticale reglementate (juridic, medical, financiar), oferim consultanță combinată tehnică + compliance pentru pregătirea unui dosar AI Act-ready înainte de deployment.
Articole conexe
- Pillar Leta — asistent juridic românesc
- Anti-halucinare juridic: chatbot pe 2,8 milioane documente
- Fine-tuning LLM pe corpus românesc
Surse externe
- Regulamentul UE 2024/1689 (EU AI Act) — text consolidat
- European Commission, „AI Act Q&A”
- ENISA, „Multilayer Framework for Good Cybersecurity Practices for AI”
- NIST, AI Risk Management Framework 1.0
Următorul pas
Pentru o analiză a obligațiilor AI Act aplicabile proiectului vostru de fine-tuning, oferim o sesiune de 30 de minute cu DPO și inginer ML.