В этом проекте мы обучим модели, чтобы предсказать, зарабатывает ли конкретный человек менее 50 000 долларов США или более 50 000 долларов США в год. Эти данные были получены из базы данных переписи населения США и состоят из таких характеристик, как профессия, возраст, страна происхождения, образование и сфера работы. В этом практическом проекте мы выполним следующие задания:
- Импорт наборов данных и библиотек
- Проводим разведочный анализ данных
- Выполняем визуализацию данных
- Подготовка данных
- Строим и оцениваем простую логистическую регрессионную модель
- Строим и оцениваем модель XGBoost
- Сравниваем модели между собой
Как мы можем заметить наши данные несбалансированность, поэтому для правильной оценки точности модели мы будем сравнивать ее с DummyClassifier
По матрице можно понять что на доход больше всего влияет сколько лет образование у человека
Для данного проекта я использовал логическую регрессионную модель, а также библиотеку XGBoost
Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера
XGBoost — алгоритм машинного обучения, основанный на дереве поиска решений и использующий фреймворк градиентного бустинга.
Для поиска оптимальных параметров я использовал Optuna
Точность логистической регрессии и XGBoost выше чем у DummyClassifier. Это говорит о том что наши модели обученный правильно. Также мы можем что по итогу точность XGBoost выше на 2% чем у логистической регрессии







