Skip to content

Latest commit

 

History

History

README.md

Анализ демографических данных

🗃️ Проанализированные данные

Датасет описывает возраст, уровень образования, страну происхождения, количество рабочих часов в неделю, диапазоны заработных плат, социальные связи людей от 17 лет.

Набор данных опубликован на платформе UC Irvine Machine Learning Repository: https://archive.ics.uci.edu/dataset/2/adult

🔗 Просмотреть прокомментированный код с графиками и ответами на вопросы исследования

Перейти к отчету в pdf

Перейти к Jupyter Notebook

💡 Вопросы, ответы на которые даны в анализе

  • Какое распредление имеют количественные признаки?
  • Какие значения имеют категориальные признаки и какие гипотезы можно из этого сформулировать?
  • Сколько людей каждой расы представлено в этом наборе данных?
  • Каков средний возраст мужчин?
  • Каков процент людей, имеющих степень бакалавра?
  • Какой процент людей с высшим образованием (бакалавры, магистратуры или доктора) зарабатывает более 50 тыс.?
  • Какой процент людей без высшего образования зарабатывает более 50 тыс.?
  • Какое минимальное количество часов человек работает в неделю?
  • Какой процент людей, работающих минимальное количество часов в неделю, имеет зарплату более 50 тыс.?
  • В какой стране самый высокий процент людей, которые зарабатывают >50 тыс., и каков этот процент?
  • Определите самую популярную профессию для тех, кто зарабатывает >50 тыс. в Индии.

⚙️ Инструменты

математическая статистика, Pandas, NumPy, Seaborn и Matplotlib, Jupyter Notebook