docs: update documentation to match current codebase

claude · pasrom · commit 57f6adbcf7c9 · 2026-04-02T18:57:25.000+02:00
CLAUDE.md: - Add FluidVAD.swift to project structure - Add SampleRateQuery.swift + audiotap Tests/ to project structure - Update FluidDiarizer.swift description (Sortformer mode) - Update Parakeet description (custom vocabulary via CTC boosting) - Add VAD preprocessing architecture section - Add Diarization section (Sortformer / AppSettings.diarizerMode) - Update build variant test count (~795) docs/architecture-macos.md: - Add FluidVAD.swift row to Audio Processing table - Update AudioTapLib output (mono or stereo, actualChannels) - Update DualSourceRecorder processing (actual channel count) - Update FluidDiarizer diarization section (two modes: OfflineDiarizer + Sortformer) README.md: - Add Parakeet custom vocabulary support (CTC boosting) - Add Sortformer overlap-aware diarizer mode - Add VAD preprocessing feature - Add .none protocol provider (save transcript only, no LLM) https://claude.ai/code/session_017weHGLJ3mD4APmtbpLU1jH
diff --git a/CLAUDE.md b/CLAUDE.md
@@ -25,7 +25,8 @@ app/MeetingTranscriber/    # Swift macOS menu bar app (SPM)
     WhisperKitEngine.swift # WhisperKit transcription engine (CoreML/ANE, 99+ languages)
     ParakeetEngine.swift   # NVIDIA Parakeet TDT v3 engine via FluidAudio (CoreML/ANE, 25 EU languages)
     Qwen3AsrEngine.swift   # Qwen3-ASR 0.6B engine via FluidAudio (CoreML/ANE, 30 languages, macOS 15+)
-    FluidDiarizer.swift    # CoreML-based speaker diarization via FluidAudio (on-device)
+    FluidDiarizer.swift    # CoreML-based speaker diarization via FluidAudio (on-device, OfflineDiarizer + Sortformer modes)
+    FluidVAD.swift         # VAD preprocessing via FluidAudio Silero v6 (silence trimming + timeline remapping)
     SpeakerMatcher.swift   # Speaker embedding DB + cosine similarity matching
     DiarizationProcess.swift  # DiarizationProvider protocol + result types
     PipelineQueue.swift    # Decouples recording from post-processing (transcription → diarization → protocol)
@@ -62,6 +63,10 @@ tools/audiotap/            # AudioTapLib — CATapDescription-based app audio ca
     AudioCaptureResult.swift  # Result struct
     Helpers.swift          # machTicksToSeconds, getDefaultOutputDeviceUID, writeAllToFileHandle
     MicRestartPolicy.swift # Pure decision logic for mic engine restart on device change
+    SampleRateQuery.swift  # Pure functions for sample rate detection and cross-validation
+  Tests/
+    MicRestartPolicyTests.swift
+    SampleRateQueryTests.swift
 tools/meeting-simulator/   # Meeting simulator tool for testing
   Package.swift
   Sources/main.swift
@@ -170,7 +175,7 @@ Use the `/git-workflow` skill. Commit proactively after every logical unit of wo
 **Transcription engines:**
 - `TranscribingEngine` protocol abstracts ASR backends. Three implementations: `WhisperKitEngine` (99+ languages, ~1 GB model), `ParakeetEngine` (25 EU languages, ~50 MB model, ~10× faster), and `Qwen3AsrEngine` (30 languages, ~1.75 GB model, macOS 15+).
 - `AppSettings.transcriptionEngine` enum (`.whisperKit` / `.parakeet` / `.qwen3`) selects the engine. Settings UI shows engine picker; engine-specific options hidden when not selected. `availableCases` filters by macOS version.
-- Parakeet auto-detects language (no parameter). WhisperKit and Qwen3 support explicit language selection.
+- Parakeet auto-detects language (no parameter) and supports custom vocabulary via CTC boosting (`ParakeetEngine.customVocabularyPath`). WhisperKit and Qwen3 support explicit language selection.
 - `Qwen3AsrEngine` requires macOS 15+ (`@available`). Returns plain text (no timestamps) — emits single `TimestampedSegment`. Chunks audio into <=30s windows (`Qwen3AsrConfig.maxAudioSeconds`). Type-erased in AppState via `_qwen3Engine: AnyObject?` for macOS <15 compatibility.
 - `AppState.activeTranscriptionEngine` returns the selected engine, used by `PipelineQueue`.
 
@@ -199,11 +204,15 @@ Use the `/git-workflow` skill. Commit proactively after every logical unit of wo
 - `MeetingDetector` counts each pattern once per poll — prevents over-counting when multiple windows match the same app.
 
 **Diarization:**
-- `FluidDiarizer` uses FluidAudio (CoreML/ANE) for on-device speaker diarization — no HuggingFace token needed.
+- `FluidDiarizer` uses FluidAudio (CoreML/ANE) for on-device speaker diarization — no HuggingFace token needed. Two modes: `.offlineDiarizer` (default) and `.sortformer` (overlap-aware, via `SortformerDiarizer`). Selected via `AppSettings.diarizerMode`.
 - **Dual-track diarization:** App and mic tracks are diarized separately. Speaker IDs are prefixed (`R_` for remote/app, `M_` for mic/local), merged, and assigned via `assignSpeakersDualTrack`. Single-source recordings fall back to diarizing the mix with `assignSpeakers`.
 - `SpeakerMatcher` stores speaker embeddings in `speakers.json` and matches via cosine similarity (multi-embedding, max 5 per speaker, confidence margin 0.10).
 - `DiarizationProvider` protocol enables mock injection in tests.
 
+**VAD preprocessing:**
+- `FluidVAD` wraps FluidAudio Silero v6 for voice activity detection. When enabled (`AppSettings.vadEnabled`), silence is trimmed before transcription and timestamps are remapped back to the original timeline via `VadSegmentMap`.
+- `PipelineQueue` holds a cached `FluidVAD` instance (reused across jobs). Pass `vadConfig: nil` to disable.
+
 **Protocol generation:**
 - `ProtocolGenerating` protocol with two implementations: `ClaudeCLIProtocolGenerator` and `OpenAIProtocolGenerator`.
 - `AppSettings.protocolProvider` enum (`.claudeCLI` / `.openAICompatible` / `.none`) selects the provider. `.none` skips LLM generation and saves the transcript only.
@@ -233,7 +242,7 @@ Two build variants controlled by compile-time flag `APPSTORE` (`-Xswiftc -DAPPST
 | **OpenAI API** | Yes | Yes (only LLM option) |
 | **Entitlements** | Mic only | Sandbox + mic + network + file picker |
 | **Build** | `./scripts/build_release.sh` | `./scripts/build_release.sh --appstore` |
-| **Tests** | 618 | ~604 (14 CLI tests excluded) |
+| **Tests** | ~795 | fewer (CLI tests excluded via `#if !APPSTORE`) |
 
 - CLI-specific code lives in `ClaudeCLIProtocolGenerator.swift` (entire file `#if !APPSTORE`)
 - `ProtocolProvider` enum uses `CaseIterable` — `.claudeCLI` case excluded at compile time, picker adapts automatically
diff --git a/README.md b/README.md
@@ -55,12 +55,13 @@ A native macOS menu bar app that automatically detects, records, transcribes, an
 - **Dual audio recording** — App audio ([CATapDescription](https://developer.apple.com/documentation/coreaudio/catap)) + microphone simultaneously
 - **On-device transcription** — Three engines, selectable in Settings:
   - [WhisperKit](https://github.com/argmaxinc/WhisperKit) — 99+ languages, ~1 GB model
-  - [Parakeet TDT v3](https://github.com/FluidInference/FluidAudio) (NVIDIA) — 25 EU languages, ~50 MB model, ~10× faster
+  - [Parakeet TDT v3](https://github.com/FluidInference/FluidAudio) (NVIDIA) — 25 EU languages, ~50 MB model, ~10× faster, custom vocabulary support (CTC boosting)
   - [Qwen3-ASR](https://github.com/FluidInference/FluidAudio) (Alibaba) — 30 languages, ~1.75 GB model, macOS 15+
-- **On-device speaker diarization** — [FluidAudio](https://github.com/FluidInference/FluidAudio) via CoreML/ANE — no HuggingFace token needed
+- **On-device speaker diarization** — [FluidAudio](https://github.com/FluidInference/FluidAudio) via CoreML/ANE — no HuggingFace token needed; two modes: standard (`OfflineDiarizer`) and overlap-aware (`Sortformer`)
 - **Dual-track diarization** — App and mic tracks diarized separately for clean speaker separation without echo interference
 - **Speaker recognition** — Voice embeddings stored across meetings, matched via cosine similarity
-- **AI protocol generation** — Structured Markdown via [Claude Code CLI](https://docs.anthropic.com/en/docs/claude-code) or OpenAI-compatible APIs (Ollama, LM Studio, etc.)
+- **VAD preprocessing** — Optional silence trimming via FluidAudio Silero v6 before transcription, with automatic timestamp remapping
+- **AI protocol generation** — Structured Markdown via [Claude Code CLI](https://docs.anthropic.com/en/docs/claude-code), OpenAI-compatible APIs (Ollama, LM Studio, etc.), or disabled (save transcript only)
 - **Configurable protocol prompt** — Custom prompt file support (`~/Library/Application Support/MeetingTranscriber/protocol_prompt.md`)
 - **Manual recording** — Record any app via app picker, not just detected meetings
 - **Multi-format input** — Supports WAV, MP3, M4A, MP4, and with ffmpeg also MKV, WebM, OGG
diff --git a/docs/architecture-macos.md b/docs/architecture-macos.md
@@ -64,6 +64,7 @@ Meeting Window Detected (CGWindowListCopyWindowInfo)
 | `AudioMixer.swift` | Resampling, mixing, echo suppression, mute masking, WAV I/O |
 | `AudioConstants.swift` | Shared audio pipeline constants (target sample rate) |
 | `MicRecorder.swift` | Microphone recording via AVAudioEngine |
+| `FluidVAD.swift` | VAD preprocessing via FluidAudio Silero v6 — silence trimming + `VadSegmentMap` timeline remapping |
 | `tools/audiotap/Sources/` | AudioTapLib — CATapDescription-based app audio capture (SPM library) |
 
 ### Support
@@ -102,17 +103,17 @@ PipelineQueue: waiting → transcribing → [diarizing] → generatingProtocol 
 ```
 AudioTapLib (CATapDescription)
 ├─ Input: App PID → CoreAudio process tap → aggregate device
-├─ Output: Interleaved float32 stereo → FileHandle (raw PCM)
+├─ Output: Interleaved float32 (mono or stereo) → FileHandle (raw PCM)
 ├─ Mic: AVAudioEngine → mono WAV file (MicCaptureHandler)
-└─ Metadata: micDelay, actualSampleRate via AudioCaptureResult
+└─ Metadata: micDelay, actualSampleRate, actualChannels via AudioCaptureResult
 ```
 
 **Key:** CATapDescription requires NO Screen Recording permission (purple dot indicator only). Handles output device changes by recreating tap automatically.
 
 ### Processing (DualSourceRecorder.stop())
 
 ```
-Raw float32 stereo → mono (channel average)
+Raw float32 (mono or stereo, actual channel count from AudioCaptureResult) → mono
   → Resample to 16kHz
   → Save app.wav (16kHz mono)
   → Load mic.wav (already 16kHz from MicCaptureHandler)
@@ -185,7 +186,11 @@ All recordings are normalized to 16kHz at capture time — no resampling needed
 
 On-device speaker diarization using FluidAudio (CoreML/ANE). No HuggingFace token or Python subprocess needed. Models downloaded automatically on first run (~50 MB).
 
-Flow: `FluidDiarizer.run(audioPath, numSpeakers)` → `OfflineDiarizerManager` → `DiarizationResult` with segments, speaking times, and speaker embeddings.
+Two modes selected via `AppSettings.diarizerMode`:
+- **`.offlineDiarizer`** (default) — `OfflineDiarizerManager`, standard speaker segmentation
+- **`.sortformer`** — `SortformerDiarizer`, overlap-aware diarization (handles simultaneous speech)
+
+Flow: `FluidDiarizer.run(audioPath, numSpeakers)` → selected diarizer → `DiarizationResult` with segments, speaking times, and speaker embeddings.
 
 ### Speaker Matching