Прогнозирование дохода на основе личных данных

В этом проекте мы обучим модели, чтобы предсказать, зарабатывает ли конкретный человек менее 50 000 долларов США или более 50 000 долларов США в год. Эти данные были получены из базы данных переписи населения США и состоят из таких характеристик, как профессия, возраст, страна происхождения, образование и сфера работы. В этом практическом проекте мы выполним следующие задания:

Импорт наборов данных и библиотек
Проводим разведочный анализ данных
Выполняем визуализацию данных
Подготовка данных
Строим и оцениваем простую логистическую регрессионную модель
Строим и оцениваем модель XGBoost
Сравниваем модели между собой

Графики

График дохода

Как мы можем заметить наши данные несбалансированность, поэтому для правильной оценки точности модели мы будем сравнивать ее с DummyClassifier

График образования

График возраста

График отношения между всеми парами переменных

Матрица корреляции

По матрице можно понять что на доход больше всего влияет сколько лет образование у человека

Предсказывающие модели

Для данного проекта я использовал логическую регрессионную модель, а также библиотеку XGBoost

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера

XGBoost — алгоритм машинного обучения, основанный на дереве поиска решений и использующий фреймворк градиентного бустинга.

Для поиска оптимальных параметров я использовал Optuna

История оптимизации логистической регрессии

История оптимизации XGBoost

Оценка моделей

Точность логистической регрессии и XGBoost выше чем у DummyClassifier. Это говорит о том что наши модели обученный правильно. Также мы можем что по итогу точность XGBoost выше на 2% чем у логистической регрессии

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
img		img
Baseline.ipynb		Baseline.ipynb
README.md		README.md
data.csv		data.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Прогнозирование дохода на основе личных данных

Графики

График дохода

График образования

График возраста

График отношения между всеми парами переменных

Матрица корреляции

Предсказывающие модели

История оптимизации логистической регрессии

История оптимизации XGBoost

Оценка моделей

About

Uh oh!

Releases

Packages

Languages

01zhas/Census-Income

Folders and files

Latest commit

History

Repository files navigation

Прогнозирование дохода на основе личных данных

Графики

График дохода

График образования

График возраста

График отношения между всеми парами переменных

Матрица корреляции

Предсказывающие модели

История оптимизации логистической регрессии

История оптимизации XGBoost

Оценка моделей

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages