Merge pull request #550 from idiap/release/0.27.5

eginhard · web-flow · commit 29b391cbd7eb · 2026-01-26T17:20:15.000+01:00
v0.27.5
diff --git a/TTS/tts/layers/xtts/gpt.py b/TTS/tts/layers/xtts/gpt.py
@@ -531,6 +531,5 @@ def get_generator(self, fake_inputs, **hf_generate_kwargs):
             eos_token_id=self.stop_audio_token,
             max_length=self.max_gen_mel_tokens + fake_inputs.shape[-1],
             attention_mask=attention_mask,
-            do_stream=True,
             **hf_generate_kwargs,
         )
diff --git a/TTS/tts/layers/xtts/gpt_inference.py b/TTS/tts/layers/xtts/gpt_inference.py
@@ -3,8 +3,6 @@
 from transformers import GenerationMixin, GPT2PreTrainedModel
 from transformers.modeling_outputs import CausalLMOutputWithCrossAttentions
 
-from TTS.tts.layers.xtts.stream_generator import StreamGenerationConfig
-
 
 class GPT2InferenceModel(GPT2PreTrainedModel, GenerationMixin):
     """Override GPT2LMHeadModel to allow for prefix conditioning."""
@@ -17,7 +15,6 @@ def __init__(self, config, gpt, pos_emb, embeddings, norm, linear, kv_cache):
         self.final_norm = norm
         self.lm_head = nn.Sequential(norm, linear)
         self.kv_cache = kv_cache
-        self.generation_config = StreamGenerationConfig.from_model_config(config) if self.can_generate() else None
 
     def store_prefix_emb(self, prefix_emb):
         self.cached_prefix_emb = prefix_emb
diff --git a/TTS/tts/layers/xtts/stream_generator.py b/TTS/tts/layers/xtts/stream_generator.py
@@ -29,25 +29,18 @@ def setup_seed(seed: int) -> None:
     torch.backends.cudnn.deterministic = True
 
 
-class StreamGenerationConfig(GenerationConfig):
-    def __init__(self, **kwargs):
-        super().__init__(**kwargs)
-        self.do_stream = kwargs.pop("do_stream", False)
-
-
 class NewGenerationMixin(GenerationMixin):
     @torch.inference_mode()
     def generate(  # noqa: PLR0911
         self,
         inputs: torch.Tensor | None = None,
-        generation_config: StreamGenerationConfig | None = None,
+        generation_config: GenerationConfig | None = None,
         logits_processor: LogitsProcessorList | None = None,
         stopping_criteria: StoppingCriteriaList | None = None,
         prefix_allowed_tokens_fn: Callable[[int, torch.Tensor], list[int]] | None = None,
         synced_gpus: bool | None = False,
         assistant_model: PreTrainedModel | None = None,
         streamer: "BaseStreamer | None" = None,
-        use_model_defaults: bool | None = None,
         custom_generate: str | Callable | None = None,
         seed: int = 0,
         **kwargs,
@@ -102,11 +95,6 @@ def generate(  # noqa: PLR0911
                 same tokenizer. The acceleration is achieved when forecasting candidate tokens with the assistant model
                 is much faster than running generation with the model you're calling generate from. As such, the
                 assistant model should be much smaller.
-            use_model_defaults (`bool`, *optional*):
-                When it is `True`, unset parameters in `generation_config` will be set to the model-specific default
-                generation configuration (`model.generation_config`), as opposed to the global defaults
-                (`GenerationConfig()`). If unset, models saved starting from `v4.50` will consider this flag to be
-                `True`.
             kwargs:
                 Ad hoc parametrization of `generate_config` and/or additional model-specific kwargs that will be
                 forwarded to the `forward` function of the model. If the model is an encoder-decoder model, encoder
@@ -137,10 +125,16 @@ def generate(  # noqa: PLR0911
         generation_mode_kwargs = self._extract_generation_mode_kwargs(
             custom_generate, kwargs, synced_gpus, assistant_model, streamer
         )
-
-        generation_config, model_kwargs = self._prepare_generation_config(
-            generation_config, use_model_defaults, **kwargs
+        # Check length values before updating the config with defaults.
+        # We'll use it later to define the final min/max length (# 6)
+        has_default_max_length = kwargs.get("max_length") is None and (
+            generation_config is None or generation_config.max_length is None
         )
+        has_default_min_length = kwargs.get("min_length") is None and (
+            generation_config is None or generation_config.min_length is None
+        )
+        generation_config, model_kwargs = self._prepare_generation_config(generation_config, **kwargs)
+
         generation_mode = generation_config.get_generation_mode(assistant_model)
         self._validate_model_kwargs(model_kwargs.copy())
         self._validate_generation_mode(generation_mode, generation_config, generation_mode_kwargs)
@@ -212,8 +206,6 @@ def generate(  # noqa: PLR0911
 
         # 6. Prepare `max_length` depending on other stopping criteria.
         input_ids_length = input_ids.shape[-1]
-        has_default_max_length = kwargs.get("max_length") is None and generation_config.max_length is not None
-        has_default_min_length = kwargs.get("min_length") is None and generation_config.min_length is not None
         generation_config = self._prepare_generated_length(
             generation_config=generation_config,
             has_default_max_length=has_default_max_length,
@@ -500,7 +492,6 @@ def init_stream_support():
             repetition_penalty=1.2,
             early_stopping=True,
             seed=0,
-            do_stream=True,
         )
         stream_result = ""
         for x in generator:
diff --git a/pyproject.toml b/pyproject.toml
@@ -25,7 +25,7 @@ build-backend = "hatchling.build"
 
 [project]
 name = "coqui-tts"
-version = "0.27.4"
+version = "0.27.5"
 description = "Deep learning for Text to Speech."
 readme = "README.md"
 requires-python = ">=3.10, <3.15"

Original file line number	Diff line number	Diff line change
`@@ -531,6 +531,5 @@ def get_generator(self, fake_inputs, **hf_generate_kwargs):`
`531`	`531`	`eos_token_id=self.stop_audio_token,`
`532`	`532`	`max_length=self.max_gen_mel_tokens + fake_inputs.shape[-1],`
`533`	`533`	`attention_mask=attention_mask,`
`534`		`- do_stream=True,`
`535`	`534`	`**hf_generate_kwargs,`
`536`	`535`	`)`