huggingface · zucchini-nlp · May 29, 2024 · May 25, 2024 · May 27, 2024 · May 27, 2024
diff --git a/src/transformers/cache_utils.py b/src/transformers/cache_utils.py
@@ -11,7 +11,7 @@
 
 
 if is_quanto_available():
-    from quanto import QBitsTensor, qint2, qint4
+    from quanto import AffineQuantizer, MaxOptimizer, qint2, qint4
 
 if is_hqq_available():
     from hqq.core.quantize import Quantizer as HQQQuantizer
@@ -500,9 +500,11 @@ def __init__(self, cache_config: CacheConfig) -> None:
             )
 
         self.qtype = qint4 if self.nbits == 4 else qint2
+        self.optimizer = MaxOptimizer()  # hardcode as it's the only one for per-channel quantization
 
     def _quantize(self, tensor, axis):
-        qtensor = QBitsTensor.quantize(tensor, axis=axis, qtype=self.qtype, group_size=self.q_group_size)
+        scale, zeropoint = self.optimizer(tensor, self.qtype.bits, axis, self.q_group_size)
+        qtensor = AffineQuantizer.apply(tensor, self.qtype, axis, self.q_group_size, scale, zeropoint)
         return qtensor
 
     def _dequantize(self, qtensor):