CAI Technology
Menu ☰
rag · · 12 min citire

Hybrid search: RRF vs Cohere Rerank vs cross-encoder

Comparație practică între Reciprocal Rank Fusion, Cohere Rerank și BGE cross-encoder pentru hybrid search. Latency, calitate, cost — când fiecare câștigă.

CAI Technology · Ultima revizuire: 30.04.2026
Hybrid search: RRF vs Cohere Rerank vs cross-encoder

Hybrid search: RRF vs Cohere Rerank vs cross-encoder BGE

Într-un pipeline RAG modern, retrieval-ul nu se face cu un singur algoritm. Combinați dense embeddings cu BM25 sparse, și apoi treceți rezultatele printr-o etapă de reranking care reordonează top-K înainte de a-l trimite la LLM. Întrebarea operațională este: ce metodă de reranking alegeți?

Acest articol compară trei abordări populare în 2026: Reciprocal Rank Fusion (RRF) ca metodă fără model, Cohere Rerank ca API extern specializat, și cross-encoder open-source din familia BGE-reranker-v2.

TL;DR

Trei metode, trei profile

Reciprocal Rank Fusion (RRF)

RRF este o formulă simplă: dacă ai mai multe ranking-uri (de la diferiți retrievers), combini scoruri ca:

RRF_score(d) = sum_i (1 / (k + rank_i(d)))

Unde k este o constantă (tipic 60), rank_i(d) este poziția documentului în ranking-ul retriever-ului i.

Avantaje:

Limitări:

Cohere Rerank

Cohere oferă un API extern dedicat reranking-ului. Modelul este cross-encoder (input: query + document, output: scor de relevanță).

Avantaje:

Limitări:

Cross-encoder self-hosted (BGE-reranker-v2-m3)

BGE-reranker-v2-m3 este modelul open-weight de la BAAI, antrenat pe corpus multilingv.

Avantaje:

Limitări:

Benchmark pe corpus juridic românesc

Setup: 50K fragmente juridice, 800 queries reale, ground truth adnotat manual.

MetricDoar dense (BGE-M3)+ RRF+ Cohere v3+ BGE-reranker-v2-m3
MRR@100.790.830.910.90
Recall@100.850.880.930.92
NDCG@100.810.850.920.91
Latency p5038 ms41 ms180 ms95 ms
Cost/1K queries0.05 EUR0.05 EUR1.10 EUR0.20 EUR

Observații:

Configurația standard recomandată

Query
  ├── Retriever 1: dense BGE-M3 (top-100)
  ├── Retriever 2: BM25 sparse (top-100)


RRF fusion → top-50 candidates


Cross-encoder rerank (BGE-reranker-v2-m3) → top-10 final


LLM cu citation grounding

Fluxul are două etape distincte: fusion ieftină pe top-100 cu RRF, apoi deep rerank scump pe top-50 cu cross-encoder. Astfel costul de cross-encoder se aplică doar pe 50 documente, iar calitatea pe top-10 final este aproape de optimum.

Când alegeți Cohere

Când alegeți BGE-reranker self-hosted

Când RRF singur este suficient

În producție serioasă, RRF singur lasă 5–8 puncte NDCG pe masă față de un reranker.

Capcane operaționale

Batching pe GPU. Cross-encoder este lent dacă rulați un query pe rând. Configurați batch size 16–64 pentru utilizare GPU eficientă.

Length truncation. Modelele cross-encoder au context limit (tipic 512 sau 1024 tokens). Documente lungi trebuie truncate sau split în windows.

Cache reranking scores. Pentru query-uri repetitive, scorurile (query, doc_id) pot fi cached. Hit rate de 20–40% pe sisteme de search interne corporate.

Calibration între retrievers. RRF presupune că rank-urile au scale similare. Limitați top-K pe fiecare retriever înainte de RRF.

Diagramă decizie

Cerință de calitate?
  ├── NDCG > 0.90 obligatoriu → cross-encoder (Cohere sau BGE)
  ├── NDCG 0.83-0.90 acceptabil → RRF + cross-encoder selectiv
  └── NDCG > 0.80 suficient → RRF singur

Sector reglementat?
  ├── Da → BGE self-hosted (data residency)
  └── Nu → Cohere OK pentru POC

Volum lunar?
  ├── < 50K → Cohere mai ieftin operational
  ├── 50K-200K → break-even
  └── > 200K → BGE self-hosted câștigă net

Concluzie operațională

În 2026, hybrid search nu este un lux. Este standardul industrial pentru orice corpus peste 50K documente cu queries variate. Alegerea reranker-ului depinde de constrangerile reale (cost, suveranitate, operations), nu de „what’s hot”.

Pentru clienți CAI Technology, configurația implicită este RRF + BGE-reranker-v2-m3 self-hosted, cu deviation la Cohere Rerank pentru POC-uri rapide.

Articole conexe

Surse externe

Următorul pas

Pentru un benchmark de reranker pe corpusul vostru, putem rula cele trei abordări (RRF / Cohere / BGE) în paralel pe 500 queries reale și livra raport în 2 săptămâni.

Începem cu o conversație de 30 de minute.

Audit AI-readiness gratuit pentru companii peste 50 angajați. Răspundem în 24 de ore.