microsoft · QuanluZhang · May 18, 2021 · Mar 31, 2021 · Mar 31, 2021 · Apr 1, 2021
diff --git a/examples/model_compress/quantization/LSQ_torch_quantizer.py b/examples/model_compress/quantization/LSQ_torch_quantizer.py
@@ -2,6 +2,7 @@
 import torch.nn.functional as F
 from torchvision import datasets, transforms
 from nni.algorithms.compression.pytorch.quantization import LsqQuantizer
+from nni.compression.pytorch.quantization_speedup import ModelSpeedupTensorRT
 
 
 class Mnist(torch.nn.Module):
@@ -14,12 +15,14 @@ def __init__(self):
         self.relu1 = torch.nn.ReLU6()
         self.relu2 = torch.nn.ReLU6()
         self.relu3 = torch.nn.ReLU6()
+        self.max_pool1 = torch.nn.MaxPool2d(2, 2)
+        self.max_pool2 = torch.nn.MaxPool2d(2, 2)
 
     def forward(self, x):
         x = self.relu1(self.conv1(x))
-        x = F.max_pool2d(x, 2, 2)
+        x = self.max_pool1(x)
         x = self.relu2(self.conv2(x))
-        x = F.max_pool2d(x, 2, 2)
+        x = self.max_pool2(x)
         x = x.view(-1, 4 * 4 * 50)
         x = self.relu3(self.fc1(x))
         x = self.fc2(x)
@@ -38,6 +41,7 @@ def train(model, quantizer, device, train_loader, optimizer):
         if batch_idx % 100 == 0:
             print('{:2.0f}%  Loss {}'.format(100 * batch_idx / len(train_loader), loss.item()))
 
+
 def test(model, device, test_loader):
     model.eval()
     test_loss = 0
@@ -54,6 +58,24 @@ def test(model, device, test_loader):
     print('Loss: {}  Accuracy: {}%)\n'.format(
         test_loss, 100 * correct / len(test_loader.dataset)))
 
+
+def test_trt(engine, test_loader):
+    test_loss = 0
+    correct = 0
+    time_elasped = 0
+    for data, target in test_loader:
+        output, time = engine.inference(data)
+        test_loss += F.nll_loss(output, target, reduction='sum').item()
+        pred = output.argmax(dim=1, keepdim=True)
+        correct += pred.eq(target.view_as(pred)).sum().item()
+        time_elasped += time
+    test_loss /= len(test_loader.dataset)
+
+    print('Loss: {}  Accuracy: {}%'.format(
+        test_loss, 100 * correct / len(test_loader.dataset)))
+    print("Inference elapsed_time (whole dataset): {}s".format(time_elasped))
+
+
 def main():
     torch.manual_seed(0)
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -71,17 +93,27 @@ def main():
     DoReFaQuantizer(configure_list).compress(model)
     '''
     configure_list = [{
-        'quant_types': ['weight'],
-        'quant_bits': {
-            'weight': 8,
-        }, # you can just use `int` here because all `quan_types` share same bits length, see config for `ReLu6` below.
-        'op_types':['Conv2d', 'Linear']
-    }, {
-        'quant_types': ['output'],
-        'quant_bits': 8,
-        'quant_start_step': 1000,
-        'op_types':['ReLU6']
-    }]
+            'quant_types': ['weight', 'input'],
+            'quant_bits': {'weight': 8, 'input': 8},
+            'op_names': ['conv1']
+        }, {
+            'quant_types': ['output'],
+            'quant_bits': {'output': 8, },
+            'op_names': ['relu1']
+        }, {
+            'quant_types': ['weight', 'input'],
+            'quant_bits': {'weight': 8, 'input': 8},
+            'op_names': ['conv2']
+        }, {
+            'quant_types': ['output'],
+            'quant_bits': {'output': 8},
+            'op_names': ['relu2']
+        }, {
+            'quant_types': ['output'],
+            'quant_bits': {'output': 8},
+            'op_names': ['max_pool2']
+        }
+    ]
     optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
     quantizer = LsqQuantizer(model, configure_list, optimizer)
     quantizer.compress()
@@ -92,6 +124,22 @@ def main():
         train(model, quantizer, device, train_loader, optimizer)
         test(model, device, test_loader)
 
+    model_path = "mnist_model.pth"
+    calibration_path = "mnist_calibration.pth"
+    calibration_config = quantizer.export_model(model_path, calibration_path)
+
+    test(model, device, test_loader)
+
+    print("calibration_config: ", calibration_config)
+
+    batch_size = 32
+    input_shape = (batch_size, 1, 28, 28)
+
+    engine = ModelSpeedupTensorRT(model, input_shape, config=calibration_config, batchsize=batch_size)
+    engine.compress()
+
+    test_trt(engine, test_loader)
+
 
 if __name__ == '__main__':
     main()
diff --git a/nni/algorithms/compression/pytorch/quantization/quantizers.py b/nni/algorithms/compression/pytorch/quantization/quantizers.py
@@ -593,28 +593,43 @@ def __init__(self, model, config_list, optimizer=None):
         modules_to_compress = self.get_modules_to_compress()
         self.bound_model.register_buffer("steps", torch.Tensor([1]))
         for layer, config in modules_to_compress:
-            layer.module.register_parameter("scale", torch.nn.Parameter(torch.Tensor([1.0])))
             if "weight" in config.get("quant_types", []):
-                # todo: support per-channel quantization for weight since TensorRT it for conv weight
+                layer.module.register_parameter("weight_scale", torch.nn.Parameter(torch.Tensor([1.0])))
+                # todo: support per-channel quantization for weight since TensorRT use it for conv weight
                 q_bit = get_bits_length(config, "weight")
                 layer.module.register_buffer('weight_bit', torch.Tensor([q_bit]))
                 qmax = 2 ** (q_bit - 1) - 1
                 qmin = -2 ** (q_bit - 1)
                 init_weight_scale = layer.module.weight.data.detach().abs().mean() * 2 / (qmax ** 0.5)
-                layer.module.scale = torch.nn.Parameter(init_weight_scale)
+                layer.module.weight_scale = torch.nn.Parameter(init_weight_scale)
                 layer.module.weight_qmax = qmax
                 layer.module.weight_qmin = qmin
 
+                self.optimizer.add_param_group({"params": layer.module.weight_scale})
+
             if "output" in config.get("quant_types", []):
                 # scale of activation will be initialized using the first batch data
+                layer.module.register_parameter("output_scale", torch.nn.Parameter(torch.Tensor([1.0])))
                 q_bit = get_bits_length(config, "output")
-                layer.module.register_buffer('activation_bit', torch.Tensor([q_bit]))
+                layer.module.register_buffer('output_bit', torch.Tensor([q_bit]))
+                qmax = 2 ** (q_bit - 1) - 1
+                qmin = -2 ** (q_bit - 1)
+                layer.module.output_qmax = qmax
+                layer.module.output_qmin = qmin
+
+                self.optimizer.add_param_group({"params": layer.module.output_scale})
+
+            if "input" in config.get("quant_types", []):
+                # scale of activation will be initialized using the first batch data
+                layer.module.register_parameter("input_scale", torch.nn.Parameter(torch.Tensor([1.0])))
+                q_bit = get_bits_length(config, "input")
+                layer.module.register_buffer('input_bit', torch.Tensor([q_bit]))
                 qmax = 2 ** (q_bit - 1) - 1
                 qmin = -2 ** (q_bit - 1)
-                layer.module.activation_qmax = qmax
-                layer.module.activation_qmin = qmin
-            # add scale to optimizer since they are updated through the gradient
-            self.optimizer.add_param_group({"params": layer.module.scale})
+                layer.module.input_qmax = qmax
+                layer.module.input_qmin = qmin
+
+                self.optimizer.add_param_group({"params": layer.module.input_scale})
 
     @staticmethod
     def grad_scale(x, scale):
@@ -649,7 +664,7 @@ def quantize_weight(self, wrapper, **kwargs):
         # todo: add support for quantize bias. If we use TensorRT as backend, there is no need to quantize
         # bias
         old_weight = module.old_weight
-        weight = self.quantize(old_weight, module.scale, module.weight_qmin, module.weight_qmax)
+        weight = self.quantize(old_weight, module.weight_scale, module.weight_qmin, module.weight_qmax)
         module.weight = weight
         return weight
 
@@ -658,13 +673,28 @@ def quantize_output(self, output, wrapper, **kwargs):
 
         # initialize the scale
         if self.bound_model.steps == 1:
-            qmax = module.activation_qmax
+            qmax = module.output_qmax
             init_oup_scale = output.data.detach().abs().mean() * 2 / (qmax ** 0.5)
-            module.scale.data = init_oup_scale
+            module.output_scale.data = init_oup_scale
 
-        output = self.quantize(output, module.scale, module.activation_qmin, module.activation_qmax)
+        output = self.quantize(output, module.output_scale, module.output_qmin, module.output_qmax)
         return output
 
+    def quantize_input(self, *inputs, wrapper, **kwargs):
+        # This is hacky since it is not recommended to modify a tuple
+        # NB: support layers with multi inputs
+        module = wrapper.module
+        # initialize the scale
+        if self.bound_model.steps == 1:
+            qmax = module.input_qmax
+            init_oup_scale = inputs[0].data.detach().abs().mean() * 2 / (qmax ** 0.5)
+            module.input_scale.data = init_oup_scale
+
+        new_input = self.quantize(inputs[0], module.input_scale, module.input_qmin, module.input_qmax)
+        list_inp = list(inputs)
+        list_inp[0] = new_input
+        return tuple(list_inp)
+
     def export_model(self, model_path, calibration_path=None, onnx_path=None, input_shape=None, device=None):
         """
         Export quantized model weights and calibration parameters(optional)
@@ -692,18 +722,18 @@ def export_model(self, model_path, calibration_path=None, onnx_path=None, input_
         calibration_config = {}
 
         for name, module in self.bound_model.named_modules():
-            if hasattr(module, 'weight_bit') or hasattr(module, 'activation_bit'):
+            if hasattr(module, 'input_bit') or hasattr(module, 'output_bit'):
                 calibration_config[name] = {}
-            if hasattr(module, 'weight_bit'):
-                calibration_config[name]['weight_bit'] = int(module.weight_bit)
-                abs_max_weight = float(module.scale * module.weight_qmax)
-                calibration_config[name]['tracked_min_input'] = -abs_max_weight
-                calibration_config[name]['tracked_max_input'] = abs_max_weight
-            if hasattr(module, 'activation_bit'):
-                calibration_config[name]['activation_bit'] = int(module.activation_bit)
-                abs_max_activation = float(module.scale * module.activation_qmax)
-                calibration_config[name]['tracked_min_activation'] = -abs_max_activation
-                calibration_config[name]['tracked_max_activation'] = abs_max_activation
+            if hasattr(module, 'input_bit'):
+                calibration_config[name]['weight_bit'] = int(module.input_bit)
+                abs_max_input = float(module.input_scale * module.input_qmax)
+                calibration_config[name]['tracked_min_input'] = -abs_max_input
+                calibration_config[name]['tracked_max_input'] = abs_max_input
+            if hasattr(module, 'output_bit'):
+                calibration_config[name]['activation_bit'] = int(module.output_bit)
+                abs_max_output = float(module.output_scale * module.output_qmax)
+                calibration_config[name]['tracked_min_activation'] = -abs_max_output
+                calibration_config[name]['tracked_max_activation'] = abs_max_output
             self._del_simulated_attr(module)
 
         self.export_model_save(self.bound_model, model_path, calibration_config, calibration_path, onnx_path,
@@ -715,8 +745,8 @@ def _del_simulated_attr(self, module):
         """
         delete redundant parameters in quantize module
         """
-        del_attr_list = ['old_weight', 'ema_decay', 'tracked_min_activation', 'tracked_max_activation', 'tracked_min_input', \
-        'tracked_max_input', 'scale', 'zero_point', 'weight_bit', 'activation_bit']
+        del_attr_list = ['old_weight', 'tracked_min_input', 'tracked_max_input', 'tracked_min_activation', \
+        'tracked_max_activation', 'output_scale', 'input_scale', 'weight_scale','weight_bit', 'output_bit', 'input_bit']
         for attr in del_attr_list:
             if hasattr(module, attr):
                 delattr(module, attr)

diff --git a/nni/compression/pytorch/compressor.py b/nni/compression/pytorch/compressor.py
@@ -746,7 +746,7 @@ def _check_weight(module):
 
 def quantize_helper(tensor, quant_type, wrapper, input_tensor=None, **kwargs):
     if quant_type == QuantType.QUANT_INPUT:
-        output = wrapper.quantizer.quantize_input(tensor, wrapper, **kwargs)
+        output = wrapper.quantizer.quantize_input(*tensor, wrapper=wrapper, **kwargs)
     elif quant_type == QuantType.QUANT_WEIGHT:
         output = wrapper.quantizer.quantize_weight(wrapper, input_tensor=input_tensor, **kwargs)
     elif quant_type == QuantType.QUANT_OUTPUT: