set mamba_size for HybridMambaDecodeReqToTokenPool

sgl-project · ispobock · Feb 20, 2026 · Feb 19, 2026 · Feb 19, 2026 · Feb 19, 2026
commit 0270147e66d9ba85be1a3418cbe3127c426fd153
@@ -158,6 +158,7 @@ def __init__(
         speculative_num_draft_tokens: int,
         enable_mamba_extra_buffer: bool,
         pre_alloc_size: int,
+        mamba_size: int = None,
     ):
         DecodeReqToTokenPool.__init__(
             self,
@@ -172,8 +173,9 @@ def __init__(
         )
         self.enable_mamba_extra_buffer = enable_mamba_extra_buffer
         self.enable_memory_saver = enable_memory_saver
+        effective_mamba_size = (mamba_size if mamba_size is not None else size) + pre_alloc_size
         self._init_mamba_pool(
-            size=size + pre_alloc_size,
+            size=effective_mamba_size,
             mamba_spec_state_size=size + pre_alloc_size,
             cache_params=cache_params,
             device=device,

@@ -445,6 +445,7 @@ def init_memory_pool(self: ModelRunner, total_gpu_memory: int):
                         speculative_num_draft_tokens=self.server_args.speculative_num_draft_tokens,
                         enable_mamba_extra_buffer=self.server_args.enable_mamba_extra_buffer(),
                         pre_alloc_size=pre_alloc_size,
+                        mamba_size=self.server_args.max_mamba_cache_size,
                     )
                 else:
                     self.req_to_token_pool = DecodeReqToTokenPool(