medbench-brasil

Leaderboard contínuo e reproduzível de desempenho de LLMs em provas médicas brasileiras. A contraparte, no nível do modelo de linguagem, do fhir-brasil — que resolve interoperabilidade de dados. Enquanto o fhir-brasil prova que é possível construir infraestrutura de saúde em padrão aberto, o medbench-brasil mede, com rigor e transparência, o que os modelos de IA realmente sabem (e não sabem) sobre medicina no contexto brasileiro, em português.

Disponível em medbench-brasil.ia.br.

Motivação

Há um corpo crescente de trabalhos acadêmicos avaliando LLMs em provas médicas brasileiras — Severino et al. (2025), D'Addario (HealthQA-BR, 2025) e Correia et al. (PROPOR 2026), entre outros. Essas publicações estabelecem resultados rigorosos em recortes e momentos específicos, e o medbench-brasil se apoia nelas como referência metodológica.

O que o medbench-brasil propõe é complementar: um leaderboard vivo e continuamente atualizado conforme novos modelos e novas edições de prova entram em disponibilidade pública, com ênfase em três aspectos operacionais:

Dataset estruturado das provas do Revalida e do ENAMED (INEP), com gabarito oficial pós-recurso e classificação por especialidade
Harness de avaliação reproduzível — API e modelos locais, sem uso de ferramentas, prompt mínimo, três execuções por modelo, log bruto (raw.jsonl) persistido para re-scoring determinístico
Análise de contaminação por edição × modelo — cada par é classificado como provavelmente limpo ou provavelmente contaminado a partir do corte de treino declarado pelo fornecedor, e os resultados são reportados nos dois recortes
Linhas de base humanas diretas — nota de corte e taxa oficial de aprovação por edição, com referências publicadas pelo INEP citadas abaixo de cada gráfico
Site público em pt-BR com leaderboard, detalhe por modelo, detalhe por edição, metodologia e download do dataset

Referências

CORREIA, João Vitor Mariano; CASTRO, Pedro Henrique Alves de; GARCIA, Gabriel Lino; PAIOLA, Pedro Henrique; PAPA, João Paulo. Class of LLMs: Benchmarking Large Language Models on the Brazilian National Medical Examination. In: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026), vol. 2. Salvador, 2026. p. 101–111. Disponível em: https://aclanthology.org/2026.propor-2.17/.
D'ADDARIO, Andrew Maranhão Ventura. HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models. arXiv:2506.21578, 16 jun. 2025. Disponível em: https://doi.org/10.48550/arXiv.2506.21578.
SEVERINO, João Victor Bruneti et al. Benchmarking open-source large language models on Portuguese Revalida multiple-choice questions. BMJ Health & Care Informatics, v. 32, n. 1, e101195, fev. 2025. DOI: 10.1136/bmjhci-2024-101195. Disponível em: https://pmc.ncbi.nlm.nih.gov/articles/PMC12082654/.

Pacotes

Pacote	Descrição
`@precisa-saude/medbench-dataset`	Questões de Revalida e ENAMED estruturadas em JSON, com tipagem e loader
`@precisa-saude/medbench-harness`	Pipeline de avaliação: providers, runner, scorer, CLI `medbench`

O site (site/) consome os dois pacotes em tempo de build — deploy estático no Cloudflare Pages.

Como começar

Pré-requisitos: Node ≥ 20, pnpm ≥ 9.

pnpm install
pnpm turbo build
pnpm turbo test lint typecheck

Rodar o site localmente:

pnpm --filter ./site dev

Rodar uma avaliação (exemplo — ver packages/eval-harness/src/cli.ts para a lista completa de backends e flags):

node packages/eval-harness/dist/cli.js eval \
  --backend openrouter \
  --model google/gemini-3.1-pro-preview \
  --cutoff 2025-11-01 \
  --edition revalida-2025-1 \
  --runs 3

Backends suportados: anthropic, openai, google, openrouter, together, maritaca, ollama. O CLI também expõe o comando smoke (pré-flight com 8 questões) e o flag --restart para descartar retomadas.

Roadmap em docs/development/PLAN.md.

Contribuindo

Veja CONTRIBUTING.md e CONVENTIONS.md. Contribuições de dados (novas edições de Revalida ou ENAMED, correções de gabarito) devem citar a fonte oficial INEP. Contribuições de novos modelos devem incluir a data de corte de treino documentada, conforme o fornecedor.

Aviso

O medbench-brasil é um instrumento de avaliação e pesquisa. Não constitui aconselhamento médico e não deve ser usado para decisões clínicas. Ver DISCLAIMER.md.

Licença

Apache-2.0.

Name		Name	Last commit message	Last commit date
Latest commit History 100 Commits
.claude/agents		.claude/agents
.github		.github
.husky		.husky
docs		docs
examples		examples
packages		packages
probes/revalida-2025-1		probes/revalida-2025-1
results		results
scripts		scripts
site		site
.commitlintrc.cjs		.commitlintrc.cjs
.editorconfig		.editorconfig
.env.example		.env.example
.gitignore		.gitignore
.npmrc		.npmrc
.nvmrc		.nvmrc
.precisa.json		.precisa.json
.prettierignore		.prettierignore
.prettierrc		.prettierrc
.releaserc.cjs		.releaserc.cjs
AGENTS.md		AGENTS.md
CHANGELOG.md		CHANGELOG.md
CITATION.cff		CITATION.cff
CLAUDE.md		CLAUDE.md
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
CONVENTIONS.md		CONVENTIONS.md
DISCLAIMER.md		DISCLAIMER.md
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
SUPPORT.md		SUPPORT.md
eslint.config.js		eslint.config.js
package.json		package.json
pnpm-lock.yaml		pnpm-lock.yaml
pnpm-workspace.yaml		pnpm-workspace.yaml
renovate.json		renovate.json
tsconfig.json		tsconfig.json
turbo.json		turbo.json
vitest.config.ts		vitest.config.ts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

medbench-brasil

Motivação

Referências

Pacotes

Como começar

Contribuindo

Aviso

Licença

About

Uh oh!

Releases 8

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

medbench-brasil

Motivação

Referências

Pacotes

Como começar

Contribuindo

Aviso

Licença

About

Topics

Resources

License

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 8

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages