fix: fix vllm tokenizer count error (#2555)

csunny · fangyinc · web-flow · commit 0bdff7a0f265 · 2025-03-31T08:31:04.000+08:00
Co-authored-by: Fangyin Cheng &lt;staneyffer@gmail.com&gt;
diff --git a/packages/dbgpt-core/src/dbgpt/model/cluster/worker/default_worker.py b/packages/dbgpt-core/src/dbgpt/model/cluster/worker/default_worker.py
@@ -19,6 +19,8 @@
 from dbgpt.model.adapter.loader import ModelLoader
 from dbgpt.model.adapter.model_adapter import get_llm_model_adapter
 from dbgpt.model.cluster.worker_base import ModelWorker
+from dbgpt.model.proxy.base import TiktokenProxyTokenizer
+from dbgpt.util.executor_utils import blocking_func_to_async_no_executor
 from dbgpt.util.model_utils import _clear_model_cache, _get_current_cuda_memory
 from dbgpt.util.parameter_utils import _get_dict_from_obj
 from dbgpt.util.system_utils import get_system_info
@@ -43,6 +45,8 @@ def __init__(self) -> None:
         self._support_generate_func = False
         self.context_len = 4096
         self._device = get_device()
+        # Use tiktoken to count token if model doesn't support
+        self._tiktoken = TiktokenProxyTokenizer()
 
     def load_worker(
         self, model_name: str, deploy_model_params: BaseDeployModelParameters, **kwargs
@@ -241,18 +245,20 @@ def generate(self, params: Dict) -> ModelOutput:
             return output
 
     def count_token(self, prompt: str) -> int:
-        return _try_to_count_token(prompt, self.tokenizer, self.model)
+        return _try_to_count_token(prompt, self.tokenizer, self.model, self._tiktoken)
 
     async def async_count_token(self, prompt: str) -> int:
-        # TODO if we deploy the model by vllm, it can't work, we should run
-        #  transformer _try_to_count_token to async
         from dbgpt.model.proxy.llms.proxy_model import ProxyModel
 
         if isinstance(self.model, ProxyModel) and self.model.proxy_llm_client:
             return await self.model.proxy_llm_client.count_token(
                 self.model.proxy_llm_client.default_model, prompt
             )
-        raise NotImplementedError
+
+        cnt = await blocking_func_to_async_no_executor(
+            _try_to_count_token, prompt, self.tokenizer, self.model, self._tiktoken
+        )
+        return cnt
 
     def get_model_metadata(self, params: Dict) -> ModelMetadata:
         ext_metadata = ModelExtraMedata(
@@ -594,7 +600,9 @@ def _new_metrics_from_model_output(
     return metrics
 
 
-def _try_to_count_token(prompt: str, tokenizer, model) -> int:
+def _try_to_count_token(
+    prompt: str, tokenizer, model, tiktoken: TiktokenProxyTokenizer
+) -> int:
     """Try to count token of prompt
 
     Args:
@@ -612,11 +620,11 @@ def _try_to_count_token(prompt: str, tokenizer, model) -> int:
 
         if isinstance(model, ProxyModel):
             return model.count_token(prompt)
-        # Only support huggingface model now
-        return len(tokenizer(prompt).input_ids[0])
-    except Exception as e:
-        logger.warning(f"Count token error, detail: {e}, return -1")
-        return -1
+        # Only support huggingface and vllm model now
+        return len(tokenizer([prompt]).input_ids[0])
+    except Exception as _e:
+        logger.warning("Failed to count token, try tiktoken")
+        return tiktoken.count_token("cl100k_base", [prompt])[0]
 
 
 def _try_import_torch():