PaddlePaddle · zhang-prog · Mar 5, 2026 · Mar 5, 2026 · Mar 5, 2026 · Mar 5, 2026
diff --git a/paddlex/inference/genai/backends/vllm.py b/paddlex/inference/genai/backends/vllm.py
@@ -13,11 +13,7 @@
 # limitations under the License.
 
 from ....utils import logging
-from ....utils.deps import (
-    get_dep_version,
-    is_genai_engine_plugin_available,
-    require_genai_engine_plugin,
-)
+from ....utils.deps import is_genai_engine_plugin_available, require_genai_engine_plugin
 from ..configs.utils import (
     backend_config_to_args,
     set_config_defaults,
@@ -29,8 +25,6 @@
 def register_models():
     from vllm import ModelRegistry
 
-    vllm_version = get_dep_version("vllm")
-
     if is_genai_engine_plugin_available("vllm-server"):
         for model_name in ALL_MODEL_INFO:
             if (

diff --git a/paddlex/inference/genai/configs/paddleocr_vl_09b.py b/paddlex/inference/genai/configs/paddleocr_vl_09b.py
@@ -13,7 +13,9 @@
 # limitations under the License.
 
 
-from ....utils.deps import require_deps
+from packaging.version import Version
+
+from ....utils.deps import get_dep_version, require_deps
 
 __all__ = ["get_config"]
 
@@ -49,17 +51,23 @@ def get_config(backend):
 
         import torch
 
+        tf_version = get_dep_version("transformers")
+        if Version(tf_version) >= Version("5.0.0"):
+            remote_code_key = "no-trust-remote-code"
+        else:
+            remote_code_key = "trust-remote-code"
+
         if torch.xpu.is_available():
             return {
-                "trust-remote-code": True,
+                remote_code_key: True,
                 "max-num-batched-tokens": 16384,
                 "no-enable-prefix-caching": True,
                 "mm-processor-cache-gb": 0,
                 "enforce-eager": True,
             }
         else:
             return {
-                "trust-remote-code": True,
+                remote_code_key: False,
                 "gpu-memory-utilization": 0.5,
                 "max-model-len": 16384,
                 "max-num-batched-tokens": 131072,

diff --git a/paddlex/paddlex_cli.py b/paddlex/paddlex_cli.py
@@ -368,7 +368,7 @@ def _install_genai_deps(plugin_types):
             sys.exit(1)
 
         for plugin_type in plugin_types:
-            if "vllm" in plugin_type or "sglang" in plugin_type:
+            if "sglang" in plugin_type:
                 install_packages(["xformers"], constraints="required")
                 if is_cuda_available():
                     try:

diff --git a/paddlex/utils/deps.py b/paddlex/utils/deps.py
@@ -280,6 +280,13 @@ def is_genai_engine_plugin_available(backend="any"):
             from .env import is_cuda_available
 
             if is_cuda_available():
+                if "vllm" in backend:
+                    vllm_version = get_dep_version("vllm")
+                    assert (
+                        vllm_version is not None
+                    ), "Could not find vLLM. Please install it by running: 'paddlex --install genai-vllm-server'"
+                    if Version(vllm_version) >= Version("0.12.0"):
+                        return True
                 return is_dep_available("xformers") and is_dep_available("flash-attn")
             return True
         return False

diff --git a/setup.py b/setup.py
@@ -228,11 +228,7 @@
             "transformers",
         ],
         "genai-vllm-server": [
-            "einops",
-            "torch == 2.8.0",
-            "transformers < 5.0.0",
-            "uvloop",
-            "vllm == 0.10.2",
+            "vllm == 0.16.0",
         ],
         "paddle2onnx": [
             "paddle2onnx == 2.0.2rc3",