Custom RAG Development
Sisteme RAG production-grade peste corpus-uri enterprise — auditabile, fine-tunable, EU-deployed.
Echipele care au încercat retrieval-augmented generation cu un weekend hackathon au descoperit că între un PoC și producție există 7 layere de arhitectură pe care nu le-au gândit. Halucinațiile, latența, audit-ul, întreținerea — toate apar la luna 3.
Cum funcționează
- 1
Săptămâna 1-2: corpus discovery — ce documente, în ce format, cu ce metadata, ce întrebări tipice. Output: spec arhitectură + decision matrix vendor.
- 2
Săptămâna 3-6: implementare hybrid retrieval (BM25 + dense), citation grounding, query rewriting, reranker. Iterații cu echipa pe queries reale.
- 3
Săptămâna 7-10: eval pipeline — automatizat (precision@k, MRR, faithfulness) + manual review pe 100 queries. Iterații până la threshold-ul agreat.
- 4
Săptămâna 11-12: production hardening — audit log complet, monitoring, runbooks, training echipă. Hand-off cu 12 luni suport inclus.
Capabilități
Hybrid retrieval (BM25 + dense + reranker)
Recall ridicat pe queries vagi (BM25), precision pe queries semantice (dense), final ranking cu cross-encoder reranker. Pattern aplicat la fiecare client.
Citation grounding pe fiecare răspuns
Răspunsul include link la fragmentul exact din document. Pentru sectoarele unde sursa contează (juridic, financiar, healthcare), e non-negociabil.
Query rewriting + decomposition
Întrebările multi-step se descompun în sub-întrebări (HyDE, CRAG). Calitatea pe queries complexe crește cu 25-40% vs retrieval naiv.
Eval pipeline automatizat
Precision@k, MRR, faithfulness, citation accuracy — măsurate pe fiecare release. Regression detection automat — un model nou nu intră în producție fără să bată baseline-ul.
Audit log complet
Pentru fiecare query: timestamp, user, prompt, retrieval results, ranking, prompt-ul final către LLM, răspunsul, citation-urile, durata. Pentru forensics după N luni.
EU-resident infrastructure
Deployment on-premise sau în EU private cloud (Romania, Frankfurt, Amsterdam). Niciodată US/Asia — pentru conformitate Schrems II.
Ce livrăm
- ✓ Architecture spec + decision matrix
- ✓ Codebase production-grade (Python + FastAPI + Postgres/Qdrant)
- ✓ Eval pipeline automatizat (CI integrat)
- ✓ Runbooks operaționale + training echipă
- ✓ 12 luni support post-launch
Durată tipică
6-12 săptămâni end-to-end, în funcție de mărimea corpus-ului și complexitatea întrebărilor.
Întrebări frecvente
Cum se compară cu un Pinecone/Weaviate SaaS? +
Putem porni cu un PoC mic? +
Ce LLM folosiți? +
Începem cu o conversație de 30 de minute.
Audit AI-readiness gratuit pentru companii peste 50 angajați. Răspundem în 24 de ore.