KindXiaoming
diff --git a/‎scripts/lattice.py‎
Lines changed: 5 additions & 2 deletions b/‎scripts/lattice.py‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎scripts/modadd.py‎
Lines changed: 5 additions & 2 deletions b/‎scripts/modadd.py‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎src/run_exp.py‎
Lines changed: 201 additions & 0 deletions b/‎src/run_exp.py‎
Lines changed: 201 additions & 0 deletions
diff --git a/‎src/utils/crystal_metric.py‎
Lines changed: 5 additions & 5 deletions b/‎src/utils/crystal_metric.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/utils/dataset.py‎
Lines changed: 9 additions & 2 deletions b/‎src/utils/dataset.py‎
Lines changed: 9 additions & 2 deletions
@@ -1,8 +1,11 @@
 import time
 import os
 import sys
-from model import *
-from dataset import *
+
+sys.path.append('..')
+
+from src.utils.model import *
+from src.utils.dataset import *
 import numpy as np
 from sklearn.decomposition import PCA
 
 
@@ -1,8 +1,11 @@
 import time
 import os
 import sys
-from model import *
-from dataset import *
+
+sys.path.append('..')
+
+from src.utils.model import *
+from src.utils.dataset import *
 import numpy as np
 from sklearn.decomposition import PCA
 import math
 
@@ -0,0 +1,201 @@
+import torch
+import torch.nn as nn
+import torch.optim as optim
+import numpy as np
+import random
+
+from tqdm import tqdm
+
+import sys
+sys.path.append("..")
+
+import argparse
+from src.utils.driver import train_single_model
+from src.utils.visualization import visualize_embedding
+from src.utils.crystal_metric import crystal_metric
+import json
+
+data_id_choices = ["lattice", "greater", "family_tree", "equivalence", "circle"]
+model_id_choices = ["H_MLP", "standard_MLP", "H_transformer", "standard_transformer"]
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser(description='Experiment')
+    parser.add_argument('--seed', type=int, default=77, help='random seed')
+    parser.add_argument('--data_id', type=str, required=True, choices=data_id_choices, help='Data ID')
+    parser.add_argument('--model_id', type=str, required=True, choices=model_id_choices, help='Model ID')
+
+
+args = parser.parse_args()
+seed = args.seed
+data_id = args.data_id
+model_id = args.model_id
+
+data_size = 1000
+train_ratio = 0.8
+
+param_dict = {
+    'seed': seed,
+    'data_id': data_id,
+    'data_size': data_size,
+    'train_ratio': train_ratio,
+    'model_id': model_id,
+    'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
+    'embd_dim': 16,
+}
+
+
+# Train the model
+print(f"Training model with seed {seed}, data_id {data_id}, model_id {model_id}")
+ret_dic = train_single_model(param_dict)
+
+## Exp1: Visualize Embeddings
+print(f"Experiment 1: Visualize Embeddings")
+model = ret_dic['model']
+dataset = ret_dic['dataset']
+torch.save(model.state_dict(), f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.pt")
+
+if hasattr(model.embedding, 'weight'):
+    visualize_embedding(model.embedding.weight.cpu(), title=f"{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}", save_path=f"../results/emb_{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.png", dict_level = dataset['dict_level'] if 'dict_level' in dataset else None)
+else:
+    visualize_embedding(model.embedding.data.cpu(), title=f"{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}", save_path=f"../results/emb_{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.png", dict_level = dataset['dict_level'] if 'dict_level' in dataset else None)
+
+
+## Exp2: Metric vs Overall Dataset Size (fixed train-test split)
+print(f"Experiment 2: Metric vs Overall Dataset Size (fixed train-test split)")
+data_size_list = [100, 200, 500, 1000, 2000, 5000, 10000]
+for i in tqdm(range(len(data_size_list))):
+    data_size = data_size_list[i]
+    param_dict = {
+        'seed': seed,
+        'data_id': data_id,
+        'data_size': data_size,
+        'train_ratio': train_ratio,
+        'model_id': model_id,
+        'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
+        'embd_dim': 16,
+    }
+    print(f"Training model with seed {seed}, data_id {data_id}, model_id {model_id} with train_ratio {train_ratio} and data_size {data_size}")
+    ret_dic = train_single_model(param_dict)
+    model = ret_dic['model']
+    dataset = ret_dic['dataset']
+
+    torch.save(model.state_dict(), f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.pt")
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}_train_results.json", "w") as f:
+        json.dump(ret_dic["results"], f, indent=4)
+
+    aux_info = {}
+    if data_id == "lattice":
+        aux_info["lattice_size"] = 5
+    elif data_id == "greater":
+        aux_info["p"] = 30
+    elif data_id == "family_tree":
+        aux_info["dict_level"] = dataset['dict_level']
+    elif data_id == "equivalence":
+        aux_info["mod"] = 5
+    elif data_id == "circle":
+        aux_info["p"] = 59
+    else:
+        raise ValueError(f"Unknown data_id: {data_id}")
+    
+    if hasattr(model.embedding, 'weight'):
+        metric_dict = crystal_metric(model.embedding.weight.cpu(), data_id, aux_info)
+    else:
+        metric_dict = crystal_metric(model.embedding.data.cpu(), data_id, aux_info)
+
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.json", "w") as f:
+        json.dump(metric_dict, f, indent=4)
+
+## Exp3: Metric vs Train Fraction (fixed dataset size)
+print(f"Experiment 3: Metric vs Train Fraction (fixed dataset size)")
+train_ratio_list = np.arange(1, 10) / 10
+data_size = 1000
+for i in tqdm(range(len(train_ratio_list))):
+    train_ratio = train_ratio_list[i]
+    param_dict = {
+        'seed': seed,
+        'data_id': data_id,
+        'data_size': data_size,
+        'train_ratio': train_ratio,
+        'model_id': model_id,
+        'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
+        'embd_dim': 16,
+    }
+    print(f"Training model with seed {seed}, data_id {data_id}, model_id {model_id} with train_ratio {train_ratio} and data_size {data_size}")
+    ret_dic = train_single_model(param_dict)
+    model = ret_dic['model']
+    dataset = ret_dic['dataset']
+
+    torch.save(model.state_dict(), f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.pt")
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}_train_results.json", "w") as f:
+        json.dump(ret_dic["results"], f, indent=4)
+
+    aux_info = {}
+    if data_id == "lattice":
+        aux_info["lattice_size"] = 5
+    elif data_id == "greater":
+        aux_info["p"] = 30
+    elif data_id == "family_tree":
+        aux_info["dict_level"] = dataset['dict_level']
+    elif data_id == "equivalence":
+        aux_info["mod"] = 5
+    elif data_id == "circle":
+        aux_info["p"] = 59
+    else:
+        raise ValueError(f"Unknown data_id: {data_id}")
+    
+    if hasattr(model.embedding, 'weight'):
+        metric_dict = crystal_metric(model.embedding.weight.cpu(), data_id, aux_info)
+    else:
+        metric_dict = crystal_metric(model.embedding.data.cpu(), data_id, aux_info)
+
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.json", "w") as f:
+        json.dump(metric_dict, f, indent=4)
+
+    
+
+## Exp4: Grokking plot: Run with different seeds
+print(f"Experiment 4: Train with different seeds")
+seed_list = np.linspace(0, 1000, 20, dtype=int)
+for i in tqdm(range(len(seed_list))):
+    seed = seed_list[i]
+    data_size = 1000
+    train_ratio = 0.8
+
+    param_dict = {
+        'seed': seed,
+        'data_id': data_id,
+        'data_size': data_size,
+        'train_ratio': train_ratio,
+        'model_id': model_id,
+        'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
+        'embd_dim': 16,
+    }
+    print(f"Training model with seed {seed}, data_id {data_id}, model_id {model_id} with train_ratio {train_ratio} and data_size {data_size}")
+    ret_dic = train_single_model(param_dict)
+
+    model = ret_dic['model']
+    dataset = ret_dic['dataset']
+    torch.save(model.state_dict(), f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.pt")
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}_train_results.json", "w") as f:
+        json.dump(ret_dic["results"], f, indent=4)
+
+    aux_info = {}
+    if data_id == "lattice":
+        aux_info["lattice_size"] = 5
+    elif data_id == "greater":
+        aux_info["p"] = 30
+    elif data_id == "family_tree":
+        aux_info["dict_level"] = dataset['dict_level']
+    elif data_id == "equivalence":
+        aux_info["mod"] = 5
+    elif data_id == "circle":
+        aux_info["p"] = 59
+    else:
+        raise ValueError(f"Unknown data_id: {data_id}")
+
+    if hasattr(model.embedding, 'weight'):
+        metric_dict = crystal_metric(model.embedding.weight.cpu(), data_id, aux_info)
+    else:
+        metric_dict = crystal_metric(model.embedding.data.cpu(), data_id, aux_info)
+
+    with open(f"../results/{seed}_{data_id}_{model_id}_{data_size}_{train_ratio}.json", "w") as f:
+        json.dump(metric_dict, f, indent=4)
@@ -73,7 +73,7 @@ def side_length_deviation(a, b, c, d):
 
     metric_dict = {
         'metric': np.mean(deviation_arr),
-        'variances': variances,
+        'variances': variances.tolist(),
     }
 
     return metric_dict
@@ -93,7 +93,7 @@ def greater_metric(reps, aux_info):
 
     metric_dict = {
         'metric': np.std(diff_arr) / np.mean(diff_arr),
-        'variances': variances,
+        'variances': variances.tolist(),
     }
     return metric_dict
 
@@ -135,7 +135,7 @@ def family_tree_metric(reps, aux_info):
 
     metric_dict = {
         'metric': 1 - np.mean([collinearity for collinearity in collinearity_by_generation.values() if not np.isnan(collinearity)]),
-        'variances': variances,
+        'variances': variances.tolist(),
     }
     return metric_dict
 
@@ -160,7 +160,7 @@ def equivalence_metric(reps, aux_info):
     print(np.mean(diff_arr) , np.mean(cross_diff_arr))
     metric_dict = {
         'metric': np.mean(diff_arr) / np.mean(cross_diff_arr),
-        'variances': variances,
+        'variances': variances.tolist(),
     }
     return metric_dict
 
@@ -187,6 +187,6 @@ def circle_metric(reps, aux_info):
 
     metric_dict = {
         'metric': circularity_score,
-        'variances': variances,
+        'variances': variances.tolist(),
     }
     return metric_dict
@@ -1,6 +1,10 @@
 import numpy as np
 import torch
 
+import sys
+sys.path.append("..")
+from src.utils.FamilyTreeGenerator import GenerateFamilyTree
+
 def parallelogram_dataset(p, dim, num, seed=0, device='cpu'):
 
     torch.manual_seed(seed)
@@ -34,7 +38,7 @@ def parallelogram_dataset(p, dim, num, seed=0, device='cpu'):
     return dataset
 
 
-def modular_addition_dataset(p, seed=0, device='cpu'):
+def modular_addition_dataset(p, num, seed=0, device='cpu'):
 
     torch.manual_seed(seed)
     np.random.seed(seed)
@@ -43,8 +47,11 @@ def modular_addition_dataset(p, seed=0, device='cpu'):
     y = np.arange(p)
     XX, YY = np.meshgrid(x, y)
     data_id = np.transpose([XX.reshape(-1,), YY.reshape(-1,)])
+
+    data_id = np.random.choice(len(data_id), size=num, replace=True)
     labels = (data_id[:,0] + data_id[:,1]) % p
     labels = torch.tensor(labels, dtype=torch.long)
+
 
     vocab_size = p
 
@@ -281,7 +288,6 @@ def mod_classification_dataset(p, num, seed=0, device='cpu'):
 
     return dataset
 
-from FamilyTreeGenerator import GenerateFamilyTree
 def family_tree_dataset(p, num, seed=0, device='cpu'):
 
     torch.manual_seed(seed)
@@ -311,5 +317,6 @@ def family_tree_dataset(p, num, seed=0, device='cpu'):
     dataset['data_id'] = data_id
     dataset['label'] = labels
     dataset['vocab_size'] = vocab_size
+    dataset['dict_level'] = ret_dic['dict_level']
 
     return dataset