5 個 TurboQuant 向量搜尋重點
5 個重點帶你看懂 TurboQuant 如何在向量搜尋中省記憶體、保品質,並判斷 4-bit、2-bit、標量與二值量化怎麼選。

這篇整理 TurboQuant 的 5 個重點,幫你判斷何時能省記憶體、何時會掉召回率,以及該先試哪種量化。
如果你在做向量搜尋,讀完這 5 項後,就能更快決定:要先用標量量化、直接上 TurboQuant 4-bit,還是只在極端省空間需求下才考慮更激進的設定。
| 項目 | 壓縮倍率 | 典型取捨 |
|---|---|---|
| 標量量化 | 4x | 召回率小幅下降,導入簡單 |
| 二值量化 | 32x | 記憶體最省,但穩定性較差 |
| TurboQuant 4-bit | 8x | 比一般低位元壓縮更能保留幾何結構 |
| TurboQuant 2-bit | 16x | 儲存更省,但準確率風險更高 |
1. 量化真正省到的是什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
量化不只是把向量壓小而已,它直接影響你能把多少資料放進記憶體。對向量搜尋來說,這件事會很快變成成本與規模問題,因為 embedding 一旦變大,原始浮點數格式就會吃掉大量空間。

以 1536 維向量為例,float32 大約要 6 KB;如果有 100 萬筆向量,光是向量本體就可能接近 6 GB,還沒算索引額外開銷。量化的核心就是用更少位元儲存每個值,換取可接受的誤差與較低的記憶體壓力。
- float32:保真度最高,記憶體用量也最高
- 標量量化:常見預設,壓縮與品質較平衡
- 二值量化:壓縮極強,但形狀保留最弱
2. TurboQuant 為什麼先旋轉向量
TurboQuant 的關鍵不是直接把原始向量硬壓縮,而是先做旋轉,再進入量化流程。這樣做的目的,是把訊號平均分散到各個維度,避免某些座標特別重要、其他座標幾乎沒用的情況,讓壓縮時比較不容易傷到整體幾何。
旋轉本身不會改變距離關係,但它會改變資訊分布的位置。對壓縮來說,這等於先把向量整理成更好編碼的樣子。Qdrant 的實作還搭配了預先計算的 codebook 與分數修正,進一步降低量化後的偏差。
- 旋轉可讓能量分布更平均
- 量化前先整理向量,有助於保留結構
- 長度正規化可修正部分分數偏移
3. TurboQuant 為何常比低位元直壓更穩
TurboQuant 的優勢,不是它一定比所有方法都更省,而是它通常能更聰明地使用有限位元。經過旋轉後的向量較不偏斜,壓縮碼比較有機會保留真正有用的結構,而不是把重要資訊平均磨掉。

這讓它特別適合想要在記憶體與召回率之間找中間值的團隊。相較於二值量化,TurboQuant 往往更穩;相較於產品量化,它又少了不少調校負擔。對於已經在 Qdrant 1.18 之類版本上運作的團隊,導入測試門檻也更低。
- 適合想降記憶體,但不想明顯掉召回率的團隊
- 適合重視向量幾何結構的搜尋工作負載
- 不適合已經能接受非常激進品質損失的情境
4. 不同位元數代表什麼
TurboQuant 不是單一設定,而是有不同位元深度可選。位元越低,壓縮越強,但向量與原始資料之間的偏移風險也越高,這正是實驗中最核心的取捨。
若是第一次嘗試,4-bit 通常是最穩妥的起點。它能先帶來明顯的空間節省,同時比更激進的設定更接近原始幾何。等到你確認召回率與排序品質都還在可接受範圍內,再考慮往下調。
- 4-bit:最適合先做驗證
- 2-bit:記憶體壓力更大時再考慮
- 1.5-bit 與 1-bit:只適合極端儲存受限場景
client.create_collection(
collection_name="my_collection",
vectors_config=models.VectorParams(size=1536, distance=models.Distance.COSINE),
quantization_config=models.TurboQuantization(
turbo=models.TurboQuantQuantizationConfig(
bits=models.TurboQuantBitSize.BITS4,
always_ram=True,
)
),
)5. 你該怎麼看待 benchmark
真正該問的,不是「哪一種壓縮最多」,而是「哪一種在我的資料與查詢模式下,還能維持足夠穩定的召回率」。這也是為什麼文章會把 TurboQuant 和標量、二值量化一起比較,而不是只看單一數字。
如果你的向量量不大,或品質門檻很高,保守的量化方式可能仍是更好的預設;如果索引成長很快、記憶體一直逼近上限,TurboQuant 值得先試,再決定要不要往更激進的壓縮走。重點不是選最先進的,而是選最能維持搜尋行為可預測的。
- 在自己的資料規模上測召回率,不要只看示範資料
- 確認分數偏差是否影響排序
- 同時比較記憶體、延遲與品質
怎麼挑
如果你要的是簡單、熟悉、導入成本低的預設,先選標量量化。若記憶體壓力已經非常大,而且能接受較明顯的品質損失,再考慮二值量化。若你想找一條中間路線,TurboQuant 會是更值得先測的選項。
最實際的做法,是先在一個 collection 上試 TurboQuant 4-bit,拿真實查詢去量召回率與排序結果,再決定要不要降到 2-bit。這樣最容易判斷它是否適合你的向量搜尋系統。