agi-brain
diff --git a/‎…Box2D/LunarLander-v3/learning_curves.pdf‎ ‎…er-v3/learning_curves_LunarLander-v3.pdf‎benchmarks/Box2D/LunarLander-v3/learning_curves.pdf renamed to benchmarks/Box2D/LunarLander-v3/learning_curves_LunarLander-v3.pdf
15.5 KB b/‎…Box2D/LunarLander-v3/learning_curves.pdf‎ ‎…er-v3/learning_curves_LunarLander-v3.pdf‎benchmarks/Box2D/LunarLander-v3/learning_curves.pdf renamed to benchmarks/Box2D/LunarLander-v3/learning_curves_LunarLander-v3.pdf
15.5 KB
diff --git a/‎…Box2D/LunarLander-v3/plot_LunarLander.py‎ ‎…2D/LunarLander-v3/plot_LunarLander-v3.py‎benchmarks/Box2D/LunarLander-v3/plot_LunarLander.py renamed to benchmarks/Box2D/LunarLander-v3/plot_LunarLander-v3.py
Lines changed: 1 addition & 1 deletion b/‎…Box2D/LunarLander-v3/plot_LunarLander.py‎ ‎…2D/LunarLander-v3/plot_LunarLander-v3.py‎benchmarks/Box2D/LunarLander-v3/plot_LunarLander.py renamed to benchmarks/Box2D/LunarLander-v3/plot_LunarLander-v3.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/Box2D/LunarLander-v3/run_LunarLander-v3_all.sh‎
Lines changed: 63 additions & 0 deletions b/‎benchmarks/Box2D/LunarLander-v3/run_LunarLander-v3_all.sh‎
Lines changed: 63 additions & 0 deletions
diff --git a/‎benchmarks/MPE/simple_spread_v3/plot_simple_spread_v3.py‎
Lines changed: 74 additions & 0 deletions b/‎benchmarks/MPE/simple_spread_v3/plot_simple_spread_v3.py‎
Lines changed: 74 additions & 0 deletions
diff --git a/‎benchmarks/MuJoCo/Ant-v5/a2c/run_a2c_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions b/‎benchmarks/MuJoCo/Ant-v5/a2c/run_a2c_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎…/MuJoCo/Swimmer-v5/ddpg/ddpg_mujoco.yaml‎ ‎…arks/MuJoCo/Ant-v5/ddpg/ddpg_Ant-v5.yaml‎benchmarks/MuJoCo/Swimmer-v5/ddpg/ddpg_mujoco.yaml renamed to benchmarks/MuJoCo/Ant-v5/ddpg/ddpg_Ant-v5.yaml b/‎…/MuJoCo/Swimmer-v5/ddpg/ddpg_mujoco.yaml‎ ‎…arks/MuJoCo/Ant-v5/ddpg/ddpg_Ant-v5.yaml‎benchmarks/MuJoCo/Swimmer-v5/ddpg/ddpg_mujoco.yaml renamed to benchmarks/MuJoCo/Ant-v5/ddpg/ddpg_Ant-v5.yaml
diff --git a/‎benchmarks/MuJoCo/Ant-v5/ddpg/run_ddpg_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions b/‎benchmarks/MuJoCo/Ant-v5/ddpg/run_ddpg_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎…ks/MuJoCo/Swimmer-v5/ppo/ppo_mujoco.yaml‎ ‎…hmarks/MuJoCo/Ant-v5/ppo/ppo_Ant-v5.yaml‎benchmarks/MuJoCo/Swimmer-v5/ppo/ppo_mujoco.yaml renamed to benchmarks/MuJoCo/Ant-v5/ppo/ppo_Ant-v5.yaml b/‎…ks/MuJoCo/Swimmer-v5/ppo/ppo_mujoco.yaml‎ ‎…hmarks/MuJoCo/Ant-v5/ppo/ppo_Ant-v5.yaml‎benchmarks/MuJoCo/Swimmer-v5/ppo/ppo_mujoco.yaml renamed to benchmarks/MuJoCo/Ant-v5/ppo/ppo_Ant-v5.yaml
diff --git a/‎benchmarks/MuJoCo/Ant-v5/ppo/run_ppo_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions b/‎benchmarks/MuJoCo/Ant-v5/ppo/run_ppo_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎benchmarks/MuJoCo/Ant-v5/sac/run_sac_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions b/‎benchmarks/MuJoCo/Ant-v5/sac/run_sac_Ant-v5.sh‎
Lines changed: 40 additions & 0 deletions
@@ -59,7 +59,7 @@ def main():
     plt.xlabel("Step")
     plt.ylabel("Average Return")
     plt.tight_layout()
-    plt.savefig("learning_curves.pdf", dpi=200)
+    plt.savefig("learning_curves_LunarLander-v3.pdf", dpi=200)
     # plt.show()
 
 
 
@@ -0,0 +1,63 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Run all benchmark scripts under Box2D/LunarLander-v3.
+# This script assumes the directory layout:
+# benchmarks/Box2D/LunarLander-v3/{iql,qmix,vdn}/run_*_LunarLander-v3.sh
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+ROOT_DIR="${SCRIPT_DIR}"
+
+# List the per-algorithm scripts you want to run (in order).
+SCRIPTS=(
+  "${ROOT_DIR}/a2c/run_a2c_LunarLander-v3.sh"
+  "${ROOT_DIR}/c51/run_c51_LunarLander-v3.sh"
+  "${ROOT_DIR}/double_dqn/run_ddqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/dqn/run_dqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/drqn/run_drqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/dueling_dqn/run_dueldqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/noisy_dqn/run_noisydqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/perdqn/run_perdqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/pg/run_pg_LunarLander-v3.sh"
+  "${ROOT_DIR}/ppg/run_ppg_LunarLander-v3.sh"
+  "${ROOT_DIR}/ppo/run_ppo_LunarLander-v3.sh"
+  "${ROOT_DIR}/qrdqn/run_qrdqn_LunarLander-v3.sh"
+  "${ROOT_DIR}/sac/run_sac_LunarLander-v3.sh"
+)
+
+
+START_ALL=$(date +%s)
+echo "============================================================"
+echo "[Benchmark SUITE START] Box2D / LunarLander-v3"
+echo "  Time: $(date '+%Y-%m-%d %H:%M:%S')"
+echo "============================================================"
+
+for s in "${SCRIPTS[@]}"; do
+  if [ ! -f "$s" ]; then
+    echo "[ERROR] missing script: $s" >&2
+    exit 2
+  fi
+  if [ ! -x "$s" ]; then
+    # Allow running even if executable bit is not set.
+    chmod +x "$s" || true
+  fi
+
+  echo ""
+  echo "------------------------------------------------------------"
+  echo "[RUN] $s"
+  echo "  Time: $(date '+%Y-%m-%d %H:%M:%S')"
+  echo "------------------------------------------------------------"
+
+  bash "$s"
+
+done
+
+END_ALL=$(date +%s)
+ELAPSED=$((END_ALL - START_ALL))
+
+echo ""
+echo "============================================================"
+echo "[Benchmark SUITE END] Box2D / LunarLander-v3"
+echo "  Time: $(date '+%Y-%m-%d %H:%M:%S')"
+echo "  Elapse: ${ELAPSED}s"
+echo "============================================================"
@@ -0,0 +1,74 @@
+import os
+import glob
+import pandas as pd
+import seaborn as sns
+import matplotlib.pyplot as plt
+from typing import Optional
+
+sns.set(style="darkgrid")
+
+algorithm_legend = {
+    'iddpg': 'IDDPG',
+    'iql': 'IQL',
+    'maddpg': 'MADDPG',
+    'mappo': 'MAPPO',
+    'masac': 'MASAC',
+    'matd3': 'MATD3',
+    'qmix': 'QMIX',
+    'vdac': 'VDAC',
+    'vdn': 'VDN',
+    'wqmix': 'WQMIX'
+}
+
+
+def load_algo_curves(
+        algo_dir: Optional[str] = None,
+        algo_name: Optional[str] = None
+) -> pd.DataFrame:
+    all_dfs = []
+    csv_files = glob.glob(os.path.join(algo_dir, "results", "seed_*", "learning_curve.csv"))
+
+    for seed_id, csv_path in enumerate(csv_files):
+        df = pd.read_csv(csv_path)
+
+        df = df.iloc[:, :2]
+        df.columns = ["step", "avg_return"]
+
+        df["algorithm"] = algo_name
+        df["seed"] = seed_id
+        all_dfs.append(df)
+
+    return pd.concat(all_dfs, ignore_index=True)
+
+
+def main():
+    root = os.getcwd()
+
+    dfs = []
+    for algo in ["a2c", "dqn", "ppo"]:
+        dfs.append(load_algo_curves(os.path.join(root, algo), algorithm_legend[algo]))
+
+    data = pd.concat(dfs, ignore_index=True)
+
+    plt.figure(figsize=(8, 5))
+
+    sns.lineplot(
+        data=data,
+        x="step",
+        y="avg_return",
+        hue="algorithm",
+        estimator="mean",
+        errorbar="sd",   # mean ± std
+        linewidth=2,
+    )
+
+    plt.title("simple_spread_v3")
+    plt.xlabel("Step")
+    plt.ylabel("Average Return")
+    plt.tight_layout()
+    plt.savefig("learning_curves_simple_spread_v3.pdf", dpi=200)
+    # plt.show()
+
+
+if __name__ == "__main__":
+    main()
@@ -0,0 +1,40 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+
+PROJECT_ROOT="${SCRIPT_DIR}/../../../"
+PYTHON=python
+
+ALGO="a2c"
+ENV="MuJoCo"
+ENV_ID="Ant-v5"
+CONFIG_PATH="${SCRIPT_DIR}/${ALGO}_${ENV_ID}.yaml"
+
+OUT_ROOT="${SCRIPT_DIR}/results"
+
+
+for SEED in 1 2 3 4 5; do
+  WORKDIR="${OUT_ROOT}/seed_${SEED}"
+  mkdir -p "${WORKDIR}"
+
+  echo "========== [Benchmark START] seed=${SEED} =========="
+
+  START_TIME=$(date +%s)
+  if ${PYTHON} "${PROJECT_ROOT}/train.py" \
+    --algo "${ALGO}" \
+    --env "${ENV}" \
+    --env-id "${ENV_ID}" \
+    --seed "${SEED}" \
+    --config-path "${CONFIG_PATH}"\
+    --result-path "${OUT_ROOT}/seed_${SEED}"; then
+  END_TIME=$(date +%s)
+  ELAPSED=$((END_TIME - START_TIME))
+  STATUS="SUCCESS"
+  else
+    STATUS="FAILED"
+  fi
+
+  echo "========== [Benchmark END] seed=${SEED} | status=${STATUS} | time=${ELAPSED}s =========="
+  echo
+done
@@ -0,0 +1,40 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+
+PROJECT_ROOT="${SCRIPT_DIR}/../../../"
+PYTHON=python
+
+ALGO="ddpg"
+ENV="MuJoCo"
+ENV_ID="Ant-v5"
+CONFIG_PATH="${SCRIPT_DIR}/${ALGO}_${ENV_ID}.yaml"
+
+OUT_ROOT="${SCRIPT_DIR}/results"
+
+
+for SEED in 1 2 3 4 5; do
+  WORKDIR="${OUT_ROOT}/seed_${SEED}"
+  mkdir -p "${WORKDIR}"
+
+  echo "========== [Benchmark START] seed=${SEED} =========="
+
+  START_TIME=$(date +%s)
+  if ${PYTHON} "${PROJECT_ROOT}/train.py" \
+    --algo "${ALGO}" \
+    --env "${ENV}" \
+    --env-id "${ENV_ID}" \
+    --seed "${SEED}" \
+    --config-path "${CONFIG_PATH}"\
+    --result-path "${OUT_ROOT}/seed_${SEED}"; then
+  END_TIME=$(date +%s)
+  ELAPSED=$((END_TIME - START_TIME))
+  STATUS="SUCCESS"
+  else
+    STATUS="FAILED"
+  fi
+
+  echo "========== [Benchmark END] seed=${SEED} | status=${STATUS} | time=${ELAPSED}s =========="
+  echo
+done
@@ -0,0 +1,40 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+
+PROJECT_ROOT="${SCRIPT_DIR}/../../../"
+PYTHON=python
+
+ALGO="ppo"
+ENV="MuJoCo"
+ENV_ID="Ant-v5"
+CONFIG_PATH="${SCRIPT_DIR}/${ALGO}_${ENV_ID}.yaml"
+
+OUT_ROOT="${SCRIPT_DIR}/results"
+
+
+for SEED in 1 2 3 4 5; do
+  WORKDIR="${OUT_ROOT}/seed_${SEED}"
+  mkdir -p "${WORKDIR}"
+
+  echo "========== [Benchmark START] seed=${SEED} =========="
+
+  START_TIME=$(date +%s)
+  if ${PYTHON} "${PROJECT_ROOT}/train.py" \
+    --algo "${ALGO}" \
+    --env "${ENV}" \
+    --env-id "${ENV_ID}" \
+    --seed "${SEED}" \
+    --config-path "${CONFIG_PATH}"\
+    --result-path "${OUT_ROOT}/seed_${SEED}"; then
+  END_TIME=$(date +%s)
+  ELAPSED=$((END_TIME - START_TIME))
+  STATUS="SUCCESS"
+  else
+    STATUS="FAILED"
+  fi
+
+  echo "========== [Benchmark END] seed=${SEED} | status=${STATUS} | time=${ELAPSED}s =========="
+  echo
+done
@@ -0,0 +1,40 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+
+PROJECT_ROOT="${SCRIPT_DIR}/../../../"
+PYTHON=python
+
+ALGO="sac"
+ENV="MuJoCo"
+ENV_ID="Ant-v5"
+CONFIG_PATH="${SCRIPT_DIR}/${ALGO}_${ENV_ID}.yaml"
+
+OUT_ROOT="${SCRIPT_DIR}/results"
+
+
+for SEED in 1 2 3 4 5; do
+  WORKDIR="${OUT_ROOT}/seed_${SEED}"
+  mkdir -p "${WORKDIR}"
+
+  echo "========== [Benchmark START] seed=${SEED} =========="
+
+  START_TIME=$(date +%s)
+  if ${PYTHON} "${PROJECT_ROOT}/train.py" \
+    --algo "${ALGO}" \
+    --env "${ENV}" \
+    --env-id "${ENV_ID}" \
+    --seed "${SEED}" \
+    --config-path "${CONFIG_PATH}"\
+    --result-path "${OUT_ROOT}/seed_${SEED}"; then
+  END_TIME=$(date +%s)
+  ELAPSED=$((END_TIME - START_TIME))
+  STATUS="SUCCESS"
+  else
+    STATUS="FAILED"
+  fi
+
+  echo "========== [Benchmark END] seed=${SEED} | status=${STATUS} | time=${ELAPSED}s =========="
+  echo
+done