# TFM_MDD_framework
Framework multiómico para la identificación de biomarcadores en depresión mayor (MDD), centrado en transcriptómica, con integración de análisis adaptativo y automatizado para datos de microarrays y RNA-seq.
---
## 🧠 Objetivo del proyecto
Desarrollar un framework reproducible y modular que permita el preprocesamiento, análisis diferencial, enriquecimiento funcional e interpretación de datos ómicos relacionados con la depresión, con foco inicial en datos transcriptómicos (Affymetrix y RNA-seq).
---
## 📁 Estructura del repositorio
TFM_MDD/ ├── data/ # Datos brutos y metadatos (no incluidos en Git) │ └── transcriptomics/ │ ├── notebooks/ # Exploraciones interactivas (Jupyter) │ └── README.md │ ├── pipeline/ # Automatización (Snakemake u otros) │ └── README.md │ ├── results/ # Resultados generados (no incluidos) │ ├── GSE98793/ │ ├── GSE44593/ │ └── log_preprocessing.txt │ ├── scripts/ # Scripts organizados por tipo │ ├── general/ # Descarga, mapeo, QC y master │ └── transcriptomics/ # Expresión diferencial, enriquecimiento y validación │ ├── environment.yml # Entorno reproducible Conda └── .gitignore # Exclusión de carpetas y archivos pesados
---
## ⚙️ Instalación del entorno
Requiere Conda:
```bash
conda env create -f environment.yml
conda activate tfm_mdd
Rscript scripts/general/preprocessing_master.RRscript scripts/transcriptomics/differential_expression.RRscript scripts/transcriptomics/enrichment_analysis.RTambién disponibles versiones interactivas para ejecución manual en RStudio:
run_differential_expression_interactive.Rrun_enrichment_interactive.R
General:
prepare_geo_dataset.sh: descarga automatizada desde GEOdownload_raw_geo.R,download_metadata_geo.R: extracción estructuradamap_gene_ids.R: mapeo de identificadores a Entrez/SYMBOLpreprocessing_master.R: orquestador general por datasetqc_post_normalization.R: validación técnica post-normalización
Transcriptómicos:
preprocessing_microarray.R,preprocessing_rnaseq.R: flujo adaptativo según plataformadifferential_expression.R: análisis DESeq2 o limma según tipo de datosenrichment_analysis.R: enriquecimiento GO/KEGGvalidate_logfc_direction.R: verificación de sentido de regulación
Los datos transcriptómicos (microarrays y RNA-seq) y los resultados generados no se incluyen en el repositorio por motivos de tamaño y reproducibilidad. Su estructura está descrita en:
data/README.md: organización por tipo y GSE IDresults/README.md: estructura de salida por análisis
Este proyecto forma parte del Trabajo de Fin de Máster de:
Jessica Valdivia Máster en Bioinformática y Bioestadística Universitat Oberta de Catalunya (UOC)
MIT License — Puedes usar, adaptar y distribuir este framework con fines académicos o personales.
Si utilizas o te basas en este framework, por favor cita:
Valdivia, J. (2025). TFM_MDD_framework: Framework multiómico para la identificación de biomarcadores en depresión mayor. Trabajo de Fin de Máster, UOC.
---