Benutzerhandbuch

Vollständiger Leitfaden zum Konfigurieren von Anbietern, Erstellen von Kombinationen, Integrieren von CLI-Tools und Bereitstellen von OmniRoute.

Inhaltsverzeichnis

Pricing at a Glance
Use Cases
Provider Setup
CLI Integration
Deployment
Available Models
Advanced Features

💰 Preise im Überblick

Stufe	Anbieter	Kosten	Kontingent zurücksetzen	Am besten für
💳 ABO	Claude Code (Pro)	20 $/Monat	5h + wöchentlich	Bereits abonniert
	Codex (Plus/Pro)	20–200 $/Monat	5h + wöchentlich	OpenAI-Benutzer
	Gemini CLI	KOSTENLOS	180.000/Monat + 1.000/Tag	Alle!
	GitHub-Copilot	10–19 $/Monat	Monatlich	GitHub-Benutzer
🔑 API-SCHLÜSSEL	DeepSeek	Bezahlung pro Nutzung	Keine	Billiges Denken
	Groq	Bezahlung pro Nutzung	Keine	Ultraschnelle Inferenz
	xAI (Grok)	Bezahlung pro Nutzung	Keine	Grok 4 Argumentation
	Mistral	Bezahlung pro Nutzung	Keine	In der EU gehostete Modelle
	Ratlosigkeit	Bezahlung pro Nutzung	Keine	Sucherweitert
	Zusammen KI	Bezahlung pro Nutzung	Keine	Open-Source-Modelle
	Feuerwerk KI	Bezahlung pro Nutzung	Keine	Schnelle FLUX-Bilder
	Großhirn	Bezahlung pro Nutzung	Keine	Geschwindigkeit im Wafermaßstab
	Kohärent	Bezahlung pro Nutzung	Keine	Befehl R+ RAG
	NVIDIA NIM	Bezahlung pro Nutzung	Keine	Unternehmensmodelle
💰 GÜNSTIG	GLM-4.7	0,6 $/1 Mio.	Täglich 10 Uhr	Budgetsicherung
	MiniMax M2.1	0,2 $/1 Mio.	5-Stunden-Rollen	Günstigste Option
	Kimi K2	$9/Monat pauschal	10 Millionen Token/Monat	Vorhersehbare Kosten
🆓 KOSTENLOS	iFlow	$0	Unbegrenzt	8 Modelle kostenlos
	Qwen	$0	Unbegrenzt	3 Modelle kostenlos
	Kiro	$0	Unbegrenzt	Claude frei

💡 Profi-Tipp: Beginnen Sie mit der Kombination Gemini CLI (180.000 kostenlos/Monat) + iFlow (unbegrenzt kostenlos) = 0 $ Kosten!

🎯 Anwendungsfälle

Fall 1: „Ich habe ein Claude Pro-Abonnement“

Problem: Kontingent läuft ungenutzt ab, Ratenbegrenzungen bei intensiver Codierung

Combo: "maximize-claude"
  1. cc/claude-opus-4-6        (use subscription fully)
  2. glm/glm-4.7               (cheap backup when quota out)
  3. if/kimi-k2-thinking       (free emergency fallback)

Monthly cost: $20 (subscription) + ~$5 (backup) = $25 total
vs. $20 + hitting limits = frustration

Fall 2: „Ich möchte Nullkosten“

Problem: Ich kann mir keine Abonnements leisten und brauche zuverlässige KI-Codierung

Combo: "free-forever"
  1. gc/gemini-3-flash         (180K free/month)
  2. if/kimi-k2-thinking       (unlimited free)
  3. qw/qwen3-coder-plus       (unlimited free)

Monthly cost: $0
Quality: Production-ready models

Fall 3: „Ich brauche 24/7-Codierung, keine Unterbrechungen“

Problem: Fristen, ich kann mir Ausfallzeiten nicht leisten

Combo: "always-on"
  1. cc/claude-opus-4-6        (best quality)
  2. cx/gpt-5.2-codex          (second subscription)
  3. glm/glm-4.7               (cheap, resets daily)
  4. minimax/MiniMax-M2.1      (cheapest, 5h reset)
  5. if/kimi-k2-thinking       (free unlimited)

Result: 5 layers of fallback = zero downtime
Monthly cost: $20-200 (subscriptions) + $10-20 (backup)

Fall 4: „Ich möchte KOSTENLOSE KI in OpenClaw“

Problem: Benötigen Sie einen KI-Assistenten in Messaging-Apps, völlig kostenlos

Combo: "openclaw-free"
  1. if/glm-4.7                (unlimited free)
  2. if/minimax-m2.1           (unlimited free)
  3. if/kimi-k2-thinking       (unlimited free)

Monthly cost: $0
Access via: WhatsApp, Telegram, Slack, Discord, iMessage, Signal...

📖 Anbieter-Setup

🔐 Abonnementanbieter

Claude Code (Pro/Max)

Dashboard → Providers → Connect Claude Code
→ OAuth login → Auto token refresh
→ 5-hour + weekly quota tracking

Models:
  cc/claude-opus-4-6
  cc/claude-sonnet-4-5-20250929
  cc/claude-haiku-4-5-20251001

Profi-Tipp: Verwenden Sie Opus für komplexe Aufgaben, Sonnet für Geschwindigkeit. OmniRoute verfolgt das Kontingent pro Modell!

OpenAI Codex (Plus/Pro)

Dashboard → Providers → Connect Codex
→ OAuth login (port 1455)
→ 5-hour + weekly reset

Models:
  cx/gpt-5.2-codex
  cx/gpt-5.1-codex-max

Gemini CLI (KOSTENLOS 180.000/Monat!)

Dashboard → Providers → Connect Gemini CLI
→ Google OAuth
→ 180K completions/month + 1K/day

Models:
  gc/gemini-3-flash-preview
  gc/gemini-2.5-pro

Bester Wert: Riesiges kostenloses Kontingent! Verwenden Sie dies vor kostenpflichtigen Stufen.

GitHub-Copilot

Dashboard → Providers → Connect GitHub
→ OAuth via GitHub
→ Monthly reset (1st of month)

Models:
  gh/gpt-5
  gh/claude-4.5-sonnet
  gh/gemini-3-pro

💰 Günstige Anbieter

GLM-4.7 (Täglicher Reset, 0,6 $/1 Mio.)

Registrieren Sie sich: Zhipu AI
Holen Sie sich den API-Schlüssel vom Coding Plan
Dashboard → API-Schlüssel hinzufügen: Anbieter: glm, API-Schlüssel: your-key

Verwendung: glm/glm-4.7 — Profi-Tipp: Coding Plan bietet 3× Kontingent zu 1/7 Kosten! Täglich um 10:00 Uhr zurückgesetzt.

MiniMax M2.1 (5 Stunden Zurücksetzen, 0,20 $/1 Mio.)

Registrieren Sie sich: MiniMax
API-Schlüssel abrufen → Dashboard → API-Schlüssel hinzufügen

Verwendung: minimax/MiniMax-M2.1 – Profi-Tipp: Günstigste Option für langen Kontext (1 Mio. Token)!

Kimi K2 (9 $/Monat pauschal)

Abonnieren: Moonshot AI
API-Schlüssel abrufen → Dashboard → API-Schlüssel hinzufügen

Verwendung: kimi/kimi-latest — Profi-Tipp: Feste 9 $/Monat für 10 Mio. Token = 0,90 $/1 Mio. effektive Kosten!

🆓 KOSTENLOSE Anbieter

iFlow (8 KOSTENLOSE Modelle)

Dashboard → Connect iFlow → OAuth login → Unlimited usage

Models: if/kimi-k2-thinking, if/qwen3-coder-plus, if/glm-4.7, if/minimax-m2, if/deepseek-r1

Qwen (3 KOSTENLOSE Modelle)

Dashboard → Connect Qwen → Device code auth → Unlimited usage

Models: qw/qwen3-coder-plus, qw/qwen3-coder-flash

Kiro (Claude KOSTENLOS)

Dashboard → Connect Kiro → AWS Builder ID or Google/GitHub → Unlimited

Models: kr/claude-sonnet-4.5, kr/claude-haiku-4.5

🎨 Kombinationen

Beispiel 1: Abonnement maximieren → Günstiges Backup

Dashboard → Combos → Create New

Name: premium-coding
Models:
  1. cc/claude-opus-4-6 (Subscription primary)
  2. glm/glm-4.7 (Cheap backup, $0.6/1M)
  3. minimax/MiniMax-M2.1 (Cheapest fallback, $0.20/1M)

Use in CLI: premium-coding

Beispiel 2: Nur kostenlos (kostenlos)

Name: free-combo
Models:
  1. gc/gemini-3-flash-preview (180K free/month)
  2. if/kimi-k2-thinking (unlimited)
  3. qw/qwen3-coder-plus (unlimited)

Cost: $0 forever!

🔧 CLI-Integration

Cursor-IDE

Settings → Models → Advanced:
  OpenAI API Base URL: http://localhost:20128/v1
  OpenAI API Key: [from omniroute dashboard]
  Model: cc/claude-opus-4-6

Claude Code

Bearbeiten Sie ~/.claude/config.json:

{
  "anthropic_api_base": "http://localhost:20128/v1",
  "anthropic_api_key": "your-omniroute-api-key"
}

Codex-CLI

export OPENAI_BASE_URL="http://localhost:20128"
export OPENAI_API_KEY="your-omniroute-api-key"
codex "your prompt"

OpenClaw

Bearbeiten Sie ~/.openclaw/openclaw.json:

{
  "agents": {
    "defaults": {
      "model": { "primary": "omniroute/if/glm-4.7" }
    }
  },
  "models": {
    "providers": {
      "omniroute": {
        "baseUrl": "http://localhost:20128/v1",
        "apiKey": "your-omniroute-api-key",
        "api": "openai-completions",
        "models": [{ "id": "if/glm-4.7", "name": "glm-4.7" }]
      }
    }
  }
}

Oder verwenden Sie Dashboard: CLI-Tools → OpenClaw → Auto-config

Cline / Weiter / RooCode

Provider: OpenAI Compatible
Base URL: http://localhost:20128/v1
API Key: [from dashboard]
Model: cc/claude-opus-4-6

🚀 Bereitstellung

VPS-Bereitstellung

git clone https://github.com/diegosouzapw/OmniRoute.git
cd OmniRoute && npm install && npm run build

export JWT_SECRET="your-secure-secret-change-this"
export INITIAL_PASSWORD="your-password"
export DATA_DIR="/var/lib/omniroute"
export PORT="20128"
export HOSTNAME="0.0.0.0"
export NODE_ENV="production"
export NEXT_PUBLIC_BASE_URL="http://localhost:20128"
export API_KEY_SECRET="endpoint-proxy-api-key-secret"

npm run start
# Or: pm2 start npm --name omniroute -- start

Docker

# Build image (default = runner-cli with codex/claude/droid preinstalled)
docker build -t omniroute:cli .

# Portable mode (recommended)
docker run -d --name omniroute -p 20128:20128 --env-file ./.env -v omniroute-data:/app/data omniroute:cli

Informationen zum hostintegrierten Modus mit CLI-Binärdateien finden Sie im Abschnitt „Docker“ in den Hauptdokumenten.

Umgebungsvariablen

| Variable | Standard | Beschreibung | | --------------------- | ------------------------------------ | ------------------------------------------------------------------------ | ---- | | JWT_SECRET | omniroute-default-secret-change-me | JWT-Signaturgeheimnis (Änderung in der Produktion) | | INITIAL_PASSWORD | 123456 | Erstes Login-Passwort | | DATA_DIR | ~/.omniroute | Datenverzeichnis (Datenbank, Nutzung, Protokolle) | | PORT | Framework-Standard | Service-Port (20128 in Beispielen) | | HOSTNAME | Framework-Standard | Host binden (Docker ist standardmäßig 0.0.0.0) | | NODE_ENV | Laufzeitstandard | Legen Sie production für die Bereitstellung | fest | | BASE_URL | http://localhost:20128 | Serverseitige interne Basis-URL | | CLOUD_URL | https://omniroute.dev | Basis-URL des Cloud-Synchronisierungsendpunkts | | API_KEY_SECRET | endpoint-proxy-api-key-secret | HMAC-Geheimnis für generierte API-Schlüssel | | REQUIRE_API_KEY | false | Bearer-API-Schlüssel auf /v1/* erzwingen | | ENABLE_REQUEST_LOGS | false | Aktiviert Anforderungs-/Antwortprotokolle | | AUTH_COOKIE_SECURE | false | Secure Authentifizierungscookie erzwingen (hinter HTTPS-Reverse-Proxy) |

Die vollständige Umgebungsvariablenreferenz finden Sie im README.

📊 Verfügbare Modelle

Alle verfügbaren Modelle anzeigen

Claude Code (cc/) – Pro/Max: cc/claude-opus-4-6, cc/claude-sonnet-4-5-20250929, cc/claude-haiku-4-5-20251001

Codex (cx/) – Plus/Pro: cx/gpt-5.2-codex, cx/gpt-5.1-codex-max

Gemini CLI (gc/) – KOSTENLOS: gc/gemini-3-flash-preview, gc/gemini-2.5-pro

GitHub Copilot (gh/): gh/gpt-5, gh/claude-4.5-sonnet

GLM (glm/) – 0,6 $/1 Mio.: glm/glm-4.7

MiniMax (minimax/) – 0,2 $/1 Mio.: minimax/MiniMax-M2.1

iFlow (if/) – KOSTENLOS: if/kimi-k2-thinking, if/qwen3-coder-plus, if/deepseek-r1

Qwen (qw/) – KOSTENLOS: qw/qwen3-coder-plus, qw/qwen3-coder-flash

Kiro (kr/) – KOSTENLOS: kr/claude-sonnet-4.5, kr/claude-haiku-4.5

DeepSeek (ds/): ds/deepseek-chat, ds/deepseek-reasoner

Groq (groq/): groq/llama-3.3-70b-versatile, groq/llama-4-maverick-17b-128e-instruct

xAI (xai/): xai/grok-4, xai/grok-4-0709-fast-reasoning, xai/grok-code-mini

Mistral (mistral/): mistral/mistral-large-2501, mistral/codestral-2501

Perplexität (pplx/): pplx/sonar-pro, pplx/sonar

Together AI (together/): together/meta-llama/Llama-3.3-70B-Instruct-Turbo

Feuerwerks-KI (fireworks/): fireworks/accounts/fireworks/models/deepseek-v3p1

Großhirn (cerebras/): cerebras/llama-3.3-70b

Zusammenhang (cohere/): cohere/command-r-plus-08-2024

NVIDIA NIM (nvidia/): nvidia/nvidia/llama-3.3-70b-instruct

🧩 Erweiterte Funktionen

Benutzerdefinierte Modelle

Fügen Sie jedem Anbieter eine beliebige Modell-ID hinzu, ohne auf ein App-Update warten zu müssen:

# Via API
curl -X POST http://localhost:20128/api/provider-models \
  -H "Content-Type: application/json" \
  -d '{"provider": "openai", "modelId": "gpt-4.5-preview", "modelName": "GPT-4.5 Preview"}'

# List: curl http://localhost:20128/api/provider-models?provider=openai
# Remove: curl -X DELETE "http://localhost:20128/api/provider-models?provider=openai&model=gpt-4.5-preview"

Oder verwenden Sie das Dashboard: Anbieter → [Anbieter] → Benutzerdefinierte Modelle.

Dedizierte Anbieterrouten

Leiten Sie Anfragen mit Modellvalidierung direkt an einen bestimmten Anbieter weiter:

POST http://localhost:20128/v1/providers/openai/chat/completions
POST http://localhost:20128/v1/providers/openai/embeddings
POST http://localhost:20128/v1/providers/fireworks/images/generations

Das Anbieterpräfix wird automatisch hinzugefügt, wenn es fehlt. Nicht übereinstimmende Modelle geben 400 zurück.

Netzwerk-Proxy-Konfiguration

# Set global proxy
curl -X PUT http://localhost:20128/api/settings/proxy \
  -d '{"global": {"type":"http","host":"proxy.example.com","port":"8080"}}'

# Per-provider proxy
curl -X PUT http://localhost:20128/api/settings/proxy \
  -d '{"providers": {"openai": {"type":"socks5","host":"proxy.example.com","port":"1080"}}}'

# Test proxy
curl -X POST http://localhost:20128/api/settings/proxy/test \
  -d '{"proxy":{"type":"socks5","host":"proxy.example.com","port":"1080"}}'

Vorrang: Schlüsselspezifisch → Combo-spezifisch → Anbieterspezifisch → Global → Umgebung.

Modellkatalog-API

curl http://localhost:20128/api/models/catalog

Gibt nach Anbieter gruppierte Modelle mit Typen (chat, embedding, image) zurück.

Cloud-Synchronisierung

Synchronisieren Sie Anbieter, Kombinationen und Einstellungen geräteübergreifend
Automatische Hintergrundsynchronisierung mit Timeout + Fail-Fast – Bevorzugen Sie serverseitiges BASE_URL/CLOUD_URL in der Produktion

LLM Gateway Intelligence (Phase 9)

Semantischer Cache – Nicht-Streaming-Antworten mit Temperatur = 0 werden automatisch zwischengespeichert (Umgehung mit X-OmniRoute-No-Cache: true)
Request Idempotency – Dedupliziert Anfragen innerhalb von 5 Sekunden über den Header Idempotency-Key oder X-Request-Id
Fortschrittsverfolgung – Opt-in-SSE-event: progress-Ereignisse über den X-OmniRoute-Progress: true-Header

Übersetzerspielplatz

Zugriff über Dashboard → Übersetzer. Debuggen und visualisieren Sie, wie OmniRoute API-Anfragen zwischen Anbietern übersetzt.

Modus	Zweck
Spielplatz	Wählen Sie Quell-/Zielformate aus, fügen Sie eine Anfrage ein und sehen Sie sich sofort die übersetzte Ausgabe an
Chat-Tester	Senden Sie Live-Chat-Nachrichten über den Proxy und überprüfen Sie den gesamten Anfrage-/Antwortzyklus
Prüfstand	Führen Sie Batch-Tests über mehrere Formatkombinationen hinweg durch, um die Übersetzungskorrektheit zu überprüfen
Live-Monitor	Beobachten Sie Übersetzungen in Echtzeit, während Anfragen über den Proxy fließen

Anwendungsfälle:

Debuggen Sie, warum eine bestimmte Client-/Provider-Kombination fehlschlägt
Stellen Sie sicher, dass Denktags, Toolaufrufe und Systemaufforderungen korrekt übersetzt werden
Vergleichen Sie Formatunterschiede zwischen den API-Formaten OpenAI, Claude, Gemini und Responses

Routing-Strategien

Konfigurieren Sie über Dashboard → Einstellungen → Routing.

| Strategie | Beschreibung | | ------------------------------ | --------------------------------------------------------------------------------------------------------------------------------- | ---------------------- | | Zuerst füllen | Verwendet Konten in der Reihenfolge ihrer Priorität – das primäre Konto bearbeitet alle Anfragen, bis es nicht mehr verfügbar ist | | Round Robin | Durchläuft alle Konten mit einem konfigurierbaren Sticky-Limit (Standard: 3 Anrufe pro Konto) | | P2C (Power of Two Choices) | Wählt zwei zufällige Konten aus und leitet sie zum gesünderen weiter – gleicht Last mit Gesundheitsbewusstsein aus | | Zufällig | Wählt für jede Anfrage per Fisher-Yates-Shuffle | zufällig ein Konto aus | | Am wenigsten genutzt | Leitet zum Konto mit dem ältesten lastUsedAt-Zeitstempel weiter und verteilt den Datenverkehr gleichmäßig | | Kostenoptimiert | Leitet zum Konto mit dem niedrigsten Prioritätswert weiter, optimiert für Anbieter mit den niedrigsten Kosten |

Wildcard-Modellaliase

Erstellen Sie Platzhaltermuster, um Modellnamen neu zuzuordnen:

Pattern: claude-sonnet-*     →  Target: cc/claude-sonnet-4-5-20250929
Pattern: gpt-*               →  Target: gh/gpt-5.1-codex

Platzhalter unterstützen * (beliebige Zeichen) und ? (einzelnes Zeichen).

Fallback-Ketten

Definieren Sie globale Fallback-Ketten, die für alle Anfragen gelten:

Chain: production-fallback
  1. cc/claude-opus-4-6
  2. gh/gpt-5.1-codex
  3. glm/glm-4.7

Belastbarkeit und Leistungsschalter

Konfigurieren Sie über Dashboard → Einstellungen → Resilienz.

OmniRoute implementiert Resilienz auf Anbieterebene mit vier Komponenten:

Anbieterprofile – Konfiguration pro Anbieter für:
- Fehlerschwelle (wie viele Fehler vor dem Öffnen)
- Abklingdauer
- Empfindlichkeit der Grenzfrequenzerkennung
- Exponentielle Backoff-Parameter
Bearbeitbare Ratenbegrenzungen – Standardeinstellungen auf Systemebene, konfigurierbar im Dashboard:
- Anfragen pro Minute (RPM) – Maximale Anfragen pro Minute und Konto
- Min. Zeit zwischen Anfragen – Mindestlücke in Millisekunden zwischen Anfragen
- Max. gleichzeitige Anfragen – Maximale gleichzeitige Anfragen pro Konto
- Klicken Sie zum Ändern auf Bearbeiten und dann auf Speichern oder Abbrechen. Werte bleiben über die Resilience-API bestehen.
Leistungsschalter – Verfolgt Ausfälle pro Anbieter und öffnet automatisch den Stromkreis, wenn ein Schwellenwert erreicht wird:
- GESCHLOSSEN (fehlerfrei) – Anfragen fließen normal
- OFFEN – Der Anbieter ist nach wiederholten Ausfällen vorübergehend gesperrt
- HALF_OPEN – Testen, ob sich der Anbieter erholt hat
Richtlinien und Sperrkennungen – Zeigt den Status des Leistungsschalters und die Sperrkennungen mit der Möglichkeit zum erzwungenen Entsperren an.
Automatische Erkennung von Ratenbegrenzungen – Überwacht die Header 429 und Retry-After, um proaktiv zu vermeiden, dass die Ratenbegrenzungen der Anbieter erreicht werden.

Profi-Tipp: Verwenden Sie die Schaltfläche Alle zurücksetzen, um alle Leistungsschalter und Abklingzeiten zu löschen, wenn ein Anbieter nach einem Ausfall wiederhergestellt wird.

Datenbankexport/-import

Verwalten Sie Datenbanksicherungen unter Dashboard → Einstellungen → System & Speicher.

Aktion	Beschreibung
Datenbank exportieren	Lädt die aktuelle SQLite-Datenbank als `.sqlite`-Datei herunter
Alle exportieren (.tar.gz)	Lädt ein vollständiges Backup-Archiv herunter, einschließlich: Datenbank, Einstellungen, Kombinationen, Anbieterverbindungen (keine Anmeldeinformationen), API-Schlüsselmetadaten
Datenbank importieren	Laden Sie eine `.sqlite`-Datei hoch, um die aktuelle Datenbank zu ersetzen. Es wird automatisch ein Backup vor dem Import erstellt

# API: Export database
curl -o backup.sqlite http://localhost:20128/api/db-backups/export

# API: Export all (full archive)
curl -o backup.tar.gz http://localhost:20128/api/db-backups/exportAll

# API: Import database
curl -X POST http://localhost:20128/api/db-backups/import \
  -F "file=@backup.sqlite"

Importvalidierung: Die importierte Datei wird auf Integrität (SQLite-Pragmaprüfung), erforderliche Tabellen (provider_connections, provider_nodes, combos, api_keys) und Größe (max. 100 MB) validiert.

Anwendungsfälle:

OmniRoute zwischen Maschinen migrieren
Erstellen Sie externe Backups für die Notfallwiederherstellung
Konfigurationen zwischen Teammitgliedern teilen (alle exportieren → Archiv teilen)

Einstellungs-Dashboard

Die Einstellungsseite ist zur einfachen Navigation in 5 Registerkarten unterteilt:

Tab	Inhalt
Sicherheit	Anmelde-/Passworteinstellungen, IP-Zugriffskontrolle, API-Authentifizierung für `/models` und Anbieterblockierung
Routing	Globale Routing-Strategie (6 Optionen), Wildcard-Modell-Aliase, Fallback-Ketten, Combo-Standardwerte
Belastbarkeit	Anbieterprofile, bearbeitbare Tarifbegrenzungen, Leistungsschalterstatus, Richtlinien und Sperrkennungen
KI	Denken Sie an die Budgetkonfiguration, die globale System-Prompt-Injektion, die Prompt-Cache-Statistiken
Fortgeschritten	Globale Proxy-Konfiguration (HTTP/SOCKS5)

Kosten- und Budgetmanagement

Zugang über Dashboard → Kosten.

Tab	Zweck
Budget	Legen Sie Ausgabenlimits pro API-Schlüssel mit Tages-/Wochen-/Monatsbudgets und Echtzeitverfolgung fest
Preise	Modellpreiseinträge anzeigen und bearbeiten – Kosten pro 1.000 Ein-/Ausgabe-Tokens pro Anbieter

# API: Set a budget
curl -X POST http://localhost:20128/api/usage/budget \
  -H "Content-Type: application/json" \
  -d '{"keyId": "key-123", "limit": 50.00, "period": "monthly"}'

# API: Get current budget status
curl http://localhost:20128/api/usage/budget

Kostenverfolgung: Bei jeder Anfrage wird die Token-Nutzung protokolliert und die Kosten anhand der Preistabelle berechnet. Sehen Sie sich Aufschlüsselungen in Dashboard → Nutzung nach Anbieter, Modell und API-Schlüssel an.

Audiotranskription

OmniRoute unterstützt die Audiotranskription über den OpenAI-kompatiblen Endpunkt:

POST /v1/audio/transcriptions
Authorization: Bearer your-api-key
Content-Type: multipart/form-data

# Example with curl
curl -X POST http://localhost:20128/v1/audio/transcriptions \
  -H "Authorization: Bearer your-api-key" \
  -F "file=@audio.mp3" \
  -F "model=deepgram/nova-3"

Verfügbare Anbieter: Deepgram (deepgram/), AssemblyAI (assemblyai/).

Unterstützte Audioformate: mp3, wav, m4a, flac, ogg, webm.

Combo-Balancing-Strategien

Konfigurieren Sie die Balance pro Combo unter Dashboard → Combos → Erstellen/Bearbeiten → Strategie.

Strategie	Beschreibung
Round-Robin	Rotiert nacheinander durch die Modelle
Priorität	Versucht immer das erste Modell; fällt nur bei Fehler zurück
Zufällig	Wählt für jede Anfrage ein zufälliges Modell aus der Kombination aus
Gewichtet	Routen proportional basierend auf den zugewiesenen Gewichten pro Modell
Am wenigsten genutzt	Leitet zum Modell mit den wenigsten aktuellen Anfragen weiter (verwendet Kombinationsmetriken)
Kostenoptimiert	Leitet zum günstigsten verfügbaren Modell (unter Verwendung der Preistabelle)

Globale Combo-Standards können unter Dashboard → Einstellungen → Routing → Combo-Standards festgelegt werden.

Gesundheits-Dashboard

Zugriff über Dashboard → Gesundheit. Echtzeit-Übersicht über den Systemzustand mit 6 Karten:

Karte	Was es zeigt
Systemstatus	Betriebszeit, Version, Speichernutzung, Datenverzeichnis
Anbietergesundheit	Zustand des Leistungsschalters pro Anbieter (geschlossen/offen/halboffen)
Ratenlimits	Aktive Abklingzeiten pro Konto mit verbleibender Zeit
Aktive Sperren	Anbieter, die durch die Sperrrichtlinie vorübergehend gesperrt sind
Signatur-Cache	Statistiken zum Deduplizierungs-Cache (aktive Schlüssel, Trefferquote)
Latenztelemetrie	p50/p95/p99-Latenzaggregation pro Anbieter

Profi-Tipp: Die Gesundheitsseite wird alle 10 Sekunden automatisch aktualisiert. Verwenden Sie die Leistungsschalterkarte, um zu ermitteln, bei welchen Anbietern Probleme auftreten.

FilesExpand file tree

USER_GUIDE.md

Latest commit

History

USER_GUIDE.md

File metadata and controls

Benutzerhandbuch

Inhaltsverzeichnis

💰 Preise im Überblick

🎯 Anwendungsfälle

Fall 1: „Ich habe ein Claude Pro-Abonnement“

Fall 2: „Ich möchte Nullkosten“

Fall 3: „Ich brauche 24/7-Codierung, keine Unterbrechungen“

Fall 4: „Ich möchte KOSTENLOSE KI in OpenClaw“

📖 Anbieter-Setup

🔐 Abonnementanbieter

Claude Code (Pro/Max)

OpenAI Codex (Plus/Pro)

Gemini CLI (KOSTENLOS 180.000/Monat!)

GitHub-Copilot

💰 Günstige Anbieter

GLM-4.7 (Täglicher Reset, 0,6 $/1 Mio.)

MiniMax M2.1 (5 Stunden Zurücksetzen, 0,20 $/1 Mio.)

Kimi K2 (9 $/Monat pauschal)

🆓 KOSTENLOSE Anbieter

iFlow (8 KOSTENLOSE Modelle)

Qwen (3 KOSTENLOSE Modelle)

Kiro (Claude KOSTENLOS)

🎨 Kombinationen

Beispiel 1: Abonnement maximieren → Günstiges Backup

Beispiel 2: Nur kostenlos (kostenlos)

🔧 CLI-Integration

Cursor-IDE

Claude Code

Codex-CLI

OpenClaw

Cline / Weiter / RooCode

🚀 Bereitstellung

VPS-Bereitstellung

Docker

Umgebungsvariablen

📊 Verfügbare Modelle

🧩 Erweiterte Funktionen

Benutzerdefinierte Modelle

Dedizierte Anbieterrouten

Netzwerk-Proxy-Konfiguration

Modellkatalog-API

Cloud-Synchronisierung

LLM Gateway Intelligence (Phase 9)

Übersetzerspielplatz

Routing-Strategien

Wildcard-Modellaliase

Fallback-Ketten

Belastbarkeit und Leistungsschalter

Datenbankexport/-import

Einstellungs-Dashboard

Kosten- und Budgetmanagement

Audiotranskription

Combo-Balancing-Strategien

Gesundheits-Dashboard