Ladder of Heads Free Transformer

Split-head attention VAE for character-level text modeling.

Architecture

Each transformer layer contains a binary VAE:

First N heads: bidirectional (encoder) — sees full context for posterior
Remaining heads: causal (decoder) — computes prior from z_{<i}

Latents flow through the residual stream, creating a ladder prior across depth. Giving you an encoder / decoder with shared weights and a bunch of computational reuse.

Key Ideas

Component	Description
Dual attention	Single QKV projection, split mask per head
Binary codes	K bits/layer → 2^K discrete codes, straight-through gradient
Free bits	Per-layer KL threshold prevents posterior collapse
Span dropout	Random causal span masking for regularization

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
loh_free_transformer.py		loh_free_transformer.py
text8_loader.py		text8_loader.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Ladder of Heads Free Transformer

Architecture

Key Ideas

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Ladder of Heads Free Transformer

Architecture

Key Ideas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages