Skip to content

RL 的时候训练了几个 Step #33

@YooYoo67

Description

@YooYoo67

你好,很荣幸看到这篇工作!
在论文中我没有找到这篇工作的 RL 应该训练多少个 step,我看到文后的 7B图像画了大概 2500 个 step 多一些,但是我跑了 2750 个 step 后结果并不是很好,看到 shell 脚本里写的 10 个 epoch, 5000个 step。所以想问一下该工作 对于 3B、7B、14B 分别一共要训多少个step?

期待您的回复,谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions