[feat] support async dataflow by resamping in next rollout step by YanhuiDua · Pull Request #1198 · InternLM/xtuner

YanhuiDua · 2025-10-31T02:34:54Z

This PR support async dataflow by resamping in next rollout step and use non-stream inference by call abort_request to infer engine. The aborted(paused) request will take "abort" as finish_reason; LMDeploy support this feature in PR: add endpoint /abort_request lmdeploy#4092
This PR standardizes the usage of concurrency parameters for the dataflow process. XTUNER_MAX_CONCURRENCY is now used to control the concurrency of the dataflow itself. The concurrency for the inference engine is calculated based on the dataflow's concurrency, prompt_repeat_k, and tp_size. The concurrency for httpx is set to the inference engine's concurrency multiplied by tp_size. Finally, RAY_MAX_CONCURRENCY is used to control Ray's concurrency, which is set to the dataflow's concurrency multiplied by prompt_repeat_k.

…dataflow_sglang

xtuner/v1/ray/dataflow/flow.py

examples/v1/scripts/run_rl_submit.sh

examples/v1/config/rl_qwen25_7B_dapo.py

hhaAndroid · 2025-11-05T07:55:50Z

examples/v1/config/rl_qwen25_7B_dapo.py

    tensor_parallel_size=rollout_tp_size,
    expert_parallel_size=rollout_ep_size,
    gpu_memory_utilization=0.8,
+    context_length = max_response_length + 2048,


Suggested change

context_length = max_response_length + 2048,

context_length = max_response_length + max_prompt_length,

hhaAndroid · 2025-11-05T07:59:32Z

examples/v1/config/rl_qwen25_7B_dapo.py

 eval_data_path = os.environ["EVAL_DATA_PATH"]
 enable_evaluate = True if eval_data_path != "" else False
+enbale_partial_rollout = int(os.environ.get("ENBALE_PARTIAL_ROLLOUT", "0"))
+max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", "512"))


Suggested change

max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", "512"))

max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", 512))

hhaAndroid · 2025-11-05T08:20:22Z

examples/v1/config/rl_qwen25_7B_dapo.py

 eval_data_path = os.environ["EVAL_DATA_PATH"]
 enable_evaluate = True if eval_data_path != "" else False
+enbale_partial_rollout = int(os.environ.get("ENBALE_PARTIAL_ROLLOUT", "0"))
+max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", "512"))


加个 TODO，说明后续要重构为唯一的对外参数，而且是单卡。内部所有其他参数都基于这个自动折算

YanhuiDua added 5 commits October 30, 2025 19:32

[feat] support async dataflow and resample

6df6b63

fix

f6a068e

fix

7ac3bc5

fix

8fffa49

change to abort_request

b863a10

YanhuiDua force-pushed the async_dataflow branch from 20ab012 to b863a10 Compare November 3, 2025 07:48

YanhuiDua added 2 commits November 3, 2025 16:10

fix

4e95343

Merge branch 'main' of https://github.com/InternLM/xtuner into async_…

ddb1574

…dataflow_sglang

YanhuiDua commented Nov 3, 2025

View reviewed changes

xtuner/v1/ray/dataflow/flow.py Show resolved Hide resolved

YanhuiDua added 2 commits November 3, 2025 18:05

fix concurrency

b93af30

fix

b2f5f42

YanhuiDua changed the title ~~[feat] support sync dataflow by resamping in next sample (version1)~~ [feat] support async dataflow by resamping in next training step (version1) Nov 3, 2025

fix

cbbbcd6

YanhuiDua force-pushed the async_dataflow branch from f0372d8 to cbbbcd6 Compare November 3, 2025 12:02

YanhuiDua changed the title ~~[feat] support async dataflow by resamping in next training step (version1)~~ [feat] support async dataflow by resamping in next rollout step Nov 4, 2025

YanhuiDua added 3 commits November 4, 2025 11:23

fix

f7b9d9c

fix

8c5412a

fix

34431e2

hhaAndroid reviewed Nov 4, 2025

View reviewed changes

examples/v1/scripts/run_rl_submit.sh Outdated Show resolved Hide resolved

hhaAndroid reviewed Nov 4, 2025

View reviewed changes

examples/v1/config/rl_qwen25_7B_dapo.py Outdated Show resolved Hide resolved

fix

2b84ed1

YanhuiDua force-pushed the async_dataflow branch from 34431e2 to 8fffa49 Compare November 4, 2025 06:51

add assert

97d7fd4

YanhuiDua force-pushed the async_dataflow branch from 2b84ed1 to 8fffa49 Compare November 5, 2025 02:51

skip lmdeploy ut

a95a84b

hhaAndroid reviewed Nov 5, 2025

View reviewed changes

hhaAndroid approved these changes Nov 5, 2025

View reviewed changes

YanhuiDua added 3 commits November 5, 2025 16:51

Merge branch 'main' of https://github.com/InternLM/xtuner into HEAD

12349fa

fix comments

6dd8cfa

fix comments

867c612

fix comments

e451064

YanhuiDua merged commit a8e3b07 into InternLM:main Nov 5, 2025
3 of 4 checks passed

YanhuiDua deleted the async_dataflow branch March 3, 2026 11:36

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[feat] support async dataflow by resamping in next rollout step#1198

[feat] support async dataflow by resamping in next rollout step#1198
YanhuiDua merged 20 commits intoInternLM:mainfrom
YanhuiDua:async_dataflow

YanhuiDua commented Oct 31, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

hhaAndroid Nov 5, 2025

Uh oh!

hhaAndroid Nov 5, 2025

Uh oh!

hhaAndroid Nov 5, 2025 •

edited

Loading

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

	context_length = max_response_length + 2048,
	context_length = max_response_length + max_prompt_length,

	max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", "512"))
	max_concurrent = int(os.environ.get("XTUNER_MAX_CONCURRENCY", 512))

Conversation

YanhuiDua commented Oct 31, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

hhaAndroid Nov 5, 2025

Choose a reason for hiding this comment

Uh oh!

hhaAndroid Nov 5, 2025

Choose a reason for hiding this comment

Uh oh!

hhaAndroid Nov 5, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

YanhuiDua commented Oct 31, 2025 •

edited

Loading

hhaAndroid Nov 5, 2025 •

edited

Loading