Replace torchaudio.load with soundfile to fix FFmpeg/torchcodec issue

devnen · devnen · commit 14c8db426b4d · 2026-03-28T17:29:41.000+01:00
torchaudio 2.11+ hardcodes torchcodec which requires FFmpeg DLLs
that are often missing on Windows. Replaced all torchaudio.load()
calls with soundfile.read() + librosa.resample() in both
dia/model.py (load_audio) and engine.py (_prepare_cloning_inputs).
Removed torchcodec from requirements.txt.
diff --git a/dia/model.py b/dia/model.py
@@ -411,9 +411,23 @@ def _generate_output(self, generated_codes: torch.Tensor) -> np.ndarray:
         return result
 
     def load_audio(self, audio_path: str) -> torch.Tensor:
-        audio, sr = torchaudio.load(audio_path, channels_first=True)  # C, T
+        # Use soundfile instead of torchaudio.load to avoid FFmpeg/torchcodec dependency
+        import soundfile as sf
+        import numpy as np
+        audio_np, sr = sf.read(audio_path, dtype='float32')
+        if audio_np.ndim == 1:
+            audio_np = audio_np[np.newaxis, :]  # [1, T] mono
+        else:
+            audio_np = audio_np.T  # [C, T] channels first
+        audio = torch.from_numpy(audio_np)
         if sr != DEFAULT_SAMPLE_RATE:
-            audio = torchaudio.functional.resample(audio, sr, DEFAULT_SAMPLE_RATE)
+            import librosa
+            resampled = []
+            for ch in range(audio.shape[0]):
+                resampled.append(torch.from_numpy(
+                    librosa.resample(audio[ch].numpy(), orig_sr=sr, target_sr=DEFAULT_SAMPLE_RATE)
+                ))
+            audio = torch.stack(resampled)
         audio = audio.to(self.device).unsqueeze(0)  # 1, C, T
         audio_data = self.dac_model.preprocess(audio, DEFAULT_SAMPLE_RATE)
         _, encoded_frame, _, _, _ = self.dac_model.encode(audio_data)  # 1, C, T
diff --git a/requirements.txt b/requirements.txt
@@ -12,7 +12,6 @@ soundfile # Requires libsndfile system library (e.g., sudo apt-get install libsn
 huggingface_hub
 descript-audio-codec
 safetensors
-torchcodec
 openai-whisper
 
 # Configuration & Utilities