Целью проекта является проведение исследовательского анализа данных о заказах билетов на мероприятия сервиса Яндекс Афиша за период с 1 июня по 31 октября 2024 года и проверка гипотез, связанных с динамикой выручки, поведением пользователей и особенностями использования платформы. В рамках проекта необходимо изучить предоставленные датасеты, провести предобработку данных, привести выручку к единой валюте, рассчитать новые признаки, выявить и проанализировать основные метрики, а также проверить гипотезы, которые помогут понять поведение пользователей и выявить ключевые факторы, влияющие на продажи билетов.
Важной частью проекта является оценка корректности данных, проверка наличия пропусков и дубликатов, анализ распределения ключевых количественных признаков и подготовка данных к исследованию. Особое внимание уделяется объединению данных из нескольких источников и созданию единого датафрейма, который позволит проводить анализ в различных разрезах (по регионам, типам мероприятий, устройствам и другим факторам).
Результаты анализа помогут сформулировать рекомендации для продуктовой команды сервиса Яндекс Афиша, направленные на увеличение выручки, улучшение пользовательского опыта и выявление новых возможностей для развития бизнеса.
Первый датасет final_tickets_orders_df.csv включает информацию обо всех заказах билетов, совершённых с двух типов устройств — мобильных и стационарных. Поля датасета соответствуют таблице purchases, с которой вы работали в предыдущих заданиях:
order_id— уникальный идентификатор заказа.user_id— уникальный идентификатор пользователя.created_dt_msk— дата создания заказа (московское время).created_ts_msk— дата и время создания заказа (московское время).event_id— идентификатор мероприятия из таблицы events.cinema_circuit— сеть кинотеатров. Если не применимо, то здесь будет значение 'нет'.age_limit— возрастное ограничение мероприятия.currency_code— валюта оплаты, например rub для российских рублей.device_type_canonical— тип устройства, с которого был оформлен заказ, например mobile для мобильных устройств, desktop для стационарных;revenue— выручка от заказа.service_name— название билетного оператора.tickets_count— количество купленных билетов.total— общая сумма заказа.
Второй датасет final_tickets_events_df.csv содержит информацию о событиях, включая город и регион события, а также информацию о площадке проведения мероприятия. Датасет содержит такие поля:
event_id— уникальный идентификатор мероприятия.event_name— название мероприятия. Аналог поля event_name_code из исходной базы данных.event_type_description— описание типа мероприятия.event_type_main— основной тип мероприятия: театральная постановка, концерт и так далее.organizers— организаторы мероприятия.region_name— название региона.city_name— название города.venue_id— уникальный идентификатор площадки.venue_name— название площадки.venue_address— адрес площадки.
Третий датасет final_tickets_tenge_df.csv содержит информациию о курсе тенге к российскому рублю за 2024 год. Значения в рублях представлено для 100 тенге. Датасет содержит такие поля:
nominal— номинал (100 тенге);data— дата;curs— курс тенге к рублю;cdx— обозначение валюты (kzt).
- Импорт библиотек и загрузка данных
- Первичный осмотр данных и проверка корректности
- Объединение датасетов и формирование общего датафрейма
- Проверка и обработка пропусков и дубликатов
- Проверка распределений и выбросов
- Расчёт новых признаков
- Формулировка гипотез для проверки
- Проверка нормальности распределений
- Проведение статистических тестов
- Интерпретация результатов
- Составление аналитической записки