Arquivo público de microdados do DATASUS em formato Parquet. Conversão 1:1 a partir dos DBC/DBF originais do ftp.datasus.gov.br, com zero transformação semântica — todas as colunas preservadas, schema por partição, provenance com SHA256 dos arquivos-fonte.
Mantido pela Precisa Saúde como recurso para pesquisa epidemiológica. Dados sob regime de dados abertos (Lei 12.527/2011, Decreto 8.777/2016); nossa compilação e derivações sob CC-BY 4.0.
| Dataset | Status | Cobertura | Schema |
|---|---|---|---|
| SIA-PA (Produção Ambulatorial) | ✅ ativo | 2008–presente | docs/schema/sia-pa.md |
| SIH-RD (Internações Hospitalares) | 🟡 planejado | — | docs/schema/sih-rd.md |
| SIM (Mortalidade) | 🟡 planejado | — | docs/schema/sim.md |
| SINASC (Nascidos Vivos) | 🟡 planejado | — | docs/schema/sinasc.md |
| SINAN (Agravos Notificáveis) | 🟡 planejado | — | docs/schema/sinan.md |
| CNES-ST (Estabelecimentos) | 🟡 planejado | — | docs/schema/cnes-st.md |
Datasets marcados como planejados têm schema documentado e decoder
pronto (@precisa-saude/datasus-dbc); falta apenas o script
scripts/archive-<dataset>.ts. Contribuições de pesquisadores que
trabalham com esses subdatasets são bem-vindas — veja
docs/contributing.md e use
scripts/archive-sia-pa.ts como template.
-- Todos os exames de jan/2024 em SP:
SELECT *
FROM read_parquet('https://dfdu08vi8wsus.cloudfront.net/sia-pa/ano=2024/uf=SP/mes=01/part.parquet');
-- Série histórica de uma UF (schema evolution automática):
SELECT PA_CMP, COUNT(*)
FROM read_parquet(
'https://dfdu08vi8wsus.cloudfront.net/sia-pa/ano=*/uf=AC/mes=*/part.parquet',
union_by_name = true
)
GROUP BY PA_CMP
ORDER BY PA_CMP;import polars as pl
df = pl.scan_parquet(
"s3://datasus-parquet/sia-pa/ano=2024/uf=SP/mes=*/part.parquet",
storage_options={"region": "sa-east-1"},
).collect()library(arrow)
ds <- open_dataset(
"s3://datasus-parquet/sia-pa/ano=2024/uf=SP",
format = "parquet"
)s3://datasus-parquet/
sia-pa/
ano=YYYY/uf=XX/mes=MM/part.parquet
provenance/ano=YYYY/uf=XX/mes=MM/part.provenance.json
sih-rd/
…
manifest.json — catálogo completo (datasets, cobertura, schema)
Partição por mês preserva o schema do DBF-fonte daquela competência.
union_by_name=true no DuckDB ou unified_schema=True no Arrow lidam
com evolução cross-year transparentemente.
Cada partição tem um part.provenance.json com SHA256 do DBC-fonte
original do FTP DATASUS. Para validar:
- Baixe o
PA{UF}{YYMM}.dbcdireto deftp://ftp.datasus.gov.br/dissemin/publicos/SIASUS/200801_/Dados/ sha256sum PA{UF}{YYMM}.dbc→ compare comsources[].sha256do provenance- Se bate, clone este repo no
gitShaindicado no provenance, rodepnpm archive-sia-pa --ufs XX --years YYYYe compare o Parquet emitido byte-a-byte com o publicado
Detalhes em docs/provenance.md.
GH Actions sonda o FTP DATASUS semanalmente, detecta novas competências publicadas, converte o delta em Parquet, faz upload para S3 e cria um GitHub Release com os assets daquela janela. Cada release vira um DOI Zenodo.
Ciclo:
ftp.datasus.gov.br → detect-new → archive-<dataset> → provenance → S3 → Release + Zenodo DOI
Workflow em .github/workflows/refresh.yml.
Site
datasus-vize cadeia end-to-end: este repo publica os Parquets brutos no S3 — o sitedatasus-vizconsome via CloudFront, agrega para LOINC e republica artefatos otimizados. A cadeia inteira (com a gotcha "novo ano no S3 não aparece sozinho no site") está documentada emdatasus-viz/site/docs/data-pipeline.md.
Veja docs/contributing.md. Em resumo:
- Decida o subpath FTP oficial (ex.:
/dissemin/publicos/SIHSUS/…pro SIH-RD). - Implemente
scripts/archive-<dataset>.tsseguindo o padrão descripts/archive-sia-pa.ts. - Crie
docs/schema/<dataset>.mddocumentando colunas e referências ao dicionário oficial DATASUS. - Adicione ao matrix do workflow
.github/workflows/refresh.yml. - Abra PR. Maintainers revisam, mergeiam, e a partir do próximo cron semanal o dataset entra no ciclo.
- Código (scripts, workflows, docs): Apache-2.0 (LICENSE)
- Dados publicados (Parquet + provenance): CC-BY 4.0 — compilação/derivação nossa; dados brutos seguem regime de dados abertos (Lei 12.527, Decreto 8.777)
Ver CITATION.cff + DOI emitido por release do Zenodo.
- DATASUS FTP:
ftp.datasus.gov.br/dissemin/publicos/ - TabNet (visualização oficial): http://tabnet.datasus.gov.br
- Dicionários oficiais: veja
docs/schema/<dataset>.mdde cada dataset @precisa-saude/datasus-dbc— decoder DBC em TypeScript usado pelo pipeline@precisa-saude/datasus-sdk— SDK de alto nível (schemas tipados, FTP, terminologia)datasus-viz— site/CLI de visualização consumindo este arquivo