CAI Technology
Menu ☰
rag Serviciu

Custom RAG Development

Sisteme RAG production-grade peste corpus-uri enterprise — auditabile, fine-tunable, EU-deployed.

Problema

Echipele care au încercat retrieval-augmented generation cu un weekend hackathon au descoperit că între un PoC și producție există 7 layere de arhitectură pe care nu le-au gândit. Halucinațiile, latența, audit-ul, întreținerea — toate apar la luna 3.

Cum funcționează

  1. 1

    Săptămâna 1-2: corpus discovery — ce documente, în ce format, cu ce metadata, ce întrebări tipice. Output: spec arhitectură + decision matrix vendor.

  2. 2

    Săptămâna 3-6: implementare hybrid retrieval (BM25 + dense), citation grounding, query rewriting, reranker. Iterații cu echipa pe queries reale.

  3. 3

    Săptămâna 7-10: eval pipeline — automatizat (precision@k, MRR, faithfulness) + manual review pe 100 queries. Iterații până la threshold-ul agreat.

  4. 4

    Săptămâna 11-12: production hardening — audit log complet, monitoring, runbooks, training echipă. Hand-off cu 12 luni suport inclus.

Capabilități

Hybrid retrieval (BM25 + dense + reranker)

Recall ridicat pe queries vagi (BM25), precision pe queries semantice (dense), final ranking cu cross-encoder reranker. Pattern aplicat la fiecare client.

Citation grounding pe fiecare răspuns

Răspunsul include link la fragmentul exact din document. Pentru sectoarele unde sursa contează (juridic, financiar, healthcare), e non-negociabil.

Query rewriting + decomposition

Întrebările multi-step se descompun în sub-întrebări (HyDE, CRAG). Calitatea pe queries complexe crește cu 25-40% vs retrieval naiv.

Eval pipeline automatizat

Precision@k, MRR, faithfulness, citation accuracy — măsurate pe fiecare release. Regression detection automat — un model nou nu intră în producție fără să bată baseline-ul.

Audit log complet

Pentru fiecare query: timestamp, user, prompt, retrieval results, ranking, prompt-ul final către LLM, răspunsul, citation-urile, durata. Pentru forensics după N luni.

EU-resident infrastructure

Deployment on-premise sau în EU private cloud (Romania, Frankfurt, Amsterdam). Niciodată US/Asia — pentru conformitate Schrems II.

Ce livrăm

  • Architecture spec + decision matrix
  • Codebase production-grade (Python + FastAPI + Postgres/Qdrant)
  • Eval pipeline automatizat (CI integrat)
  • Runbooks operaționale + training echipă
  • 12 luni support post-launch

Durată tipică

6-12 săptămâni end-to-end, în funcție de mărimea corpus-ului și complexitatea întrebărilor.

Întrebări frecvente

Cum se compară cu un Pinecone/Weaviate SaaS? +
SaaS-urile vector store sunt unul dintre cele 7 layere. Lucrăm la toate 7 — corpus ingestion, hybrid retrieval, reranking, query rewriting, citation, eval, audit. SaaS-ul rezolvă layer-ul 4; ce facem noi acoperă end-to-end.
Putem porni cu un PoC mic? +
Da. Oferim Discovery Sprint de 2 săptămâni cu cost fix — produce architecture spec + un PoC funcțional pe 1000 documente reprezentative. Decideți după dacă continuați la full implementation.
Ce LLM folosiți? +
Model-agnostic. Pentru lucru românesc: fine-tuned RO-corpus models (Qwen3 family, Gemma). Pentru lucru englez complex: frontier models (Claude, GPT-4). Decizia cade cu echipa clientului bazat pe trade-off latency/cost/calitate.

Începem cu o conversație de 30 de minute.

Audit AI-readiness gratuit pentru companii peste 50 angajați. Răspundem în 24 de ore.