Spaces:

nambn0321
/

T5_First_US_Accent

Sleeping

nambn0321 commited on Sep 17

Commit

c6a2465

verified ·

1 Parent(s): f2dea3d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,8 +4,6 @@ import torchaudio
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 from transformers.models.speecht5 import SpeechT5HifiGan
-print(torch.cuda.is_available())
 # Load model and processor
 processor = SpeechT5Processor.from_pretrained("nambn0321/TTS_british_2nd_attempt")
 model = SpeechT5ForTextToSpeech.from_pretrained("nambn0321/TTS_british_2nd_attempt", use_safetensors=True, trust_remote_code=True)
@@ -30,15 +28,17 @@ def tts_generate(text):
         # Generate waveform directly (with vocoder)
         print("🎤 Generating speech waveform...")
         with torch.no_grad():
-            mel_output, _ = model(input_ids=inputs["input_ids"])
-            waveform = vocoder.decode(mel_output)  # Using vocoder to decode
         print("✅ Waveform generated.")
         # Save waveform
         output_path = "output.wav"
         if waveform.dim() == 1:
-            waveform = waveform.unsqueeze(0)  # Ensure it's in batch format
         torchaudio.save(output_path, waveform.cpu(), sample_rate=16000)
         print(f"💾 Audio saved to {output_path}")

 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 from transformers.models.speecht5 import SpeechT5HifiGan
 # Load model and processor
 processor = SpeechT5Processor.from_pretrained("nambn0321/TTS_british_2nd_attempt")
 model = SpeechT5ForTextToSpeech.from_pretrained("nambn0321/TTS_british_2nd_attempt", use_safetensors=True, trust_remote_code=True)
         # Generate waveform directly (with vocoder)
         print("🎤 Generating speech waveform...")
         with torch.no_grad():
+            waveform = model.generate_speech(
+                inputs["input_ids"],
+                speaker_embedding,
+                vocoder=vocoder
+            )
         print("✅ Waveform generated.")
         # Save waveform
         output_path = "output.wav"
         if waveform.dim() == 1:
+            waveform = waveform.unsqueeze(0)
         torchaudio.save(output_path, waveform.cpu(), sample_rate=16000)
         print(f"💾 Audio saved to {output_path}")