BLIVA/train_configs/pretrain_bliva_vicuna.yaml at main · mlpc-ucsd/BLIVA · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68

model:
  arch: pretrain_bliva_vicuna
  model_type: vicuna7b
  load_finetuned: False
  load_pretrained: True

  pretrained: "https://storage.googleapis.com/sfr-vision-language-research/LAVIS/models/InstructBLIP/instruct_blip_vicuna7b_trimmed.pth"
  finetuned: ""

  # vit encoder
  image_size: 224
  drop_path_rate: 0
  use_grad_checkpoint: False
  vit_precision: "fp16"
  freeze_vit: True

  # Q-Former
  num_query_token: 32

  # path to Vicuna checkpoint
  llm_model: "path to Vicuna checkpoint"

  # generation configs
  prompt: ""

datasets:
  llava_pretrain:
    vis_processor:
        train:
          name: "blip_image_train"
          image_size: 224
    text_processor:
        train:
          name: "blip_caption"

run:
  #runner: runner_iter

  task: image_text_pretrain
  # optimizer
  lr_sched: "linear_warmup_cosine_lr"
  init_lr: 1e-5
  min_lr: 0
  warmup_lr: 1e-8

  weight_decay: 0.05
  max_epoch: 3
  accum_grad_iters: 1

  batch_size_train: 8
  batch_size_eval: 1
  num_workers: 8
  warmup_steps: 1000

  seed: 42
  output_dir: "output/pretrain_bliva_vicuna/"

  amp: True
  resume_ckpt_path: null

  evaluate: False
  train_splits: ["train"]

  device: "cuda"
  world_size: 1
  dist_url: "env://"
  distributed: True