UrbanSound8K Audio Classification

Классификация городских звуков из датасета UrbanSound8K с использованием log-mel спектрограмм и сверточной нейросети (CNN).

Проект реализует полный ML-пайплайн:
загрузка аудио → аугментации → извлечение признаков → обучение модели → валидация → early stopping → сохранение чекпоинтов → финальная оценка на тесте.

Датасет

UrbanSound8K

8732 аудиоклипа
10 классов (air_conditioner, car_horn, dog_bark и др.)
10 фолдов

Архитектура

Признаки

Resampling до 22050 Hz
Фиксированная длина 4 секунды
Log-Mel Spectrogram (256 mel-бинов)
Per-sample z-normalization

Модель

UrbanSoundCNN

4 сверточных блока (Conv → BN → ReLU ×2 → MaxPool → Dropout)
Global Average Pooling
Linear head (64 hidden units)
Dropout = 0.6
~591k параметров

Регуляризация и обучение

Optimizer: AdamW
weight_decay: 3e-4
label_smoothing: 0.15
Gradient clipping (max_norm=1.0)
LR scheduler: ReduceLROnPlateau
Early stopping (patience=10)

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
Urbansound_cnn.ipynb		Urbansound_cnn.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

UrbanSound8K Audio Classification

Датасет

Архитектура

Признаки

Модель

Регуляризация и обучение

Аугментации (train only)

Audio-level

SpecAugment

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

UrbanSound8K Audio Classification

Датасет

Архитектура

Признаки

Модель

Регуляризация и обучение

Аугментации (train only)

Audio-level

SpecAugment

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages