Support resampling when torchaudio is missing using scipy

lhotse-speech · Jan 4, 2024 · d167bdd · d167bdd
1 parent 2303883
commit d167bdd
Show file tree

Hide file tree

Showing 2 changed files with 39 additions and 9 deletions.
diff --git a/lhotse/augmentation/torchaudio.py b/lhotse/augmentation/torchaudio.py
@@ -1,7 +1,7 @@
 import warnings
 from dataclasses import dataclass
 from decimal import ROUND_HALF_UP
-from typing import Callable, Dict, List, Optional, Tuple, Union
+from typing import Dict, List, Optional, Tuple, Union
 
 import numpy as np
 import torch
@@ -11,6 +11,7 @@
     Seconds,
     compute_num_samples,
     during_docs_build,
+    is_module_available,
     is_torchaudio_available,
     perturb_num_samples,
 )
@@ -181,19 +182,35 @@ class Resample(AudioTransform):
     def __post_init__(self):
         self.source_sampling_rate = int(self.source_sampling_rate)
         self.target_sampling_rate = int(self.target_sampling_rate)
-        self.resampler = get_or_create_resampler(
-            self.source_sampling_rate, self.target_sampling_rate
-        )
+        if not is_torchaudio_available():
+            assert is_module_available(
+                "scipy"
+            ), "In order to use resampling, either torchaudio or scipy needs to be installed."
+        else:
+            self.resampler = get_or_create_resampler(
+                self.source_sampling_rate, self.target_sampling_rate
+            )
 
     def __call__(self, samples: np.ndarray, *args, **kwargs) -> np.ndarray:
-        check_for_torchaudio()
         if self.source_sampling_rate == self.target_sampling_rate:
             return samples
 
-        if isinstance(samples, np.ndarray):
-            samples = torch.from_numpy(samples)
-        augmented = self.resampler(samples)
-        return augmented.numpy()
+        if is_torchaudio_available():
+            if isinstance(samples, np.ndarray):
+                samples = torch.from_numpy(samples)
+            augmented = self.resampler(samples)
+            return augmented.numpy()
+        else:
+            import scipy
+
+            gcd = np.gcd(self.source_sampling_rate, self.target_sampling_rate)
+            augmented = scipy.signal.resample_poly(
+                samples,
+                up=self.target_sampling_rate // gcd,
+                down=self.source_sampling_rate // gcd,
+                axis=-1,
+            )
+            return augmented
 
     def reverse_timestamps(
         self, offset: Seconds, duration: Optional[Seconds], sampling_rate: int

diff --git a/test/test_missing_torchaudio.py b/test/test_missing_torchaudio.py
@@ -39,6 +39,19 @@ def test_lhotse_load_audio():
     assert isinstance(audio, np.ndarray)
 
 
+@notorchaudio
+@pytest.mark.parametrize("sr", [8000, 16000, 22500, 24000, 44100])
+def test_lhotse_resample(sr):
+    import lhotse
+
+    cuts = lhotse.CutSet.from_file("test/fixtures/libri/cuts.json")
+    cut = cuts[0]
+    cut = cut.resample(sr)
+    audio = cut.load_audio()
+    assert isinstance(audio, np.ndarray)
+    assert audio.shape == (1, cut.num_samples)
+
+
 @notorchaudio
 def test_lhotse_audio_in_memory():
     import lhotse