Projet realisé en janvier 2025 dans le cadre de ma formation Data Scientist avec CentraleSupélec/OpenClassrooms.
Une entreprise brésilienne qui propose une solution de vente sur les marketplaces en ligne souhaite réaliser une segmentation des clients que son équipe Marketing pourra utiliser au quotidien pour ses campagnes de communication. L'objectif de cette segmentation est de caractériser les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles ; l'analyse devra fournir à l’équipe Marketing une description actionable de la segmentation et de sa logique sous-jacente pour une utilisation optimale, ainsi qu’une proposition de contrat de maintenance basée sur une analyse de la stabilité des segments au cours du temps.
Les données-source sont disponibles sur https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce ou en téléchargement direct sur https://course.oc-static.com/projects/olist.db
- fichiers :
- queries.sql : code sql permettant l'exécution de quelques requêtes d'exploration préliminaire de la base de données
- notebook_1.ipynb : code Python permettant l'import des fichiers .csv, leur nettoyage & jointure et l'analyse exploratoire des données
- notebook_2.ipynb : code Python permettant la modélisation de la segmentation clients
- notebook_3.ipynb : code Python permettant le suivi du model drift
- slideshow.pdf : diapositives de présentation du projet
- Sélectionner et entraîner des modèles d’apprentissage non-supervisé
- Évaluer les performances des modèles d’apprentissage non supervisé
- Python 3.13.2
Voir requirements.txt pour la liste complète des librairies & packages.
Cette étude a été produite par CelineBoutinon sur la base du jeu de données Olist sur Kaggle (https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce) contenant des données sur les commandes, les avis, les vendeurs, les produits et les clients. Le jeu de données est fourni « tel quel » par Olist et est hébergé sur Kaggle à des fins de recherche et d’éducation ; son utilisation est soumise aux conditions générales de Kaggle ainsi qu’aux termes de la license CC BY-NC-SA 4.0 disponible sur https://creativecommons.org/licenses/by-nc-sa/4.0/. Ni Kaggle ni Olist ne donne aucune garantie, expresse ou implicite, quant à l’exactitude, l’exhaustivité, l’actualité ou la fiabilité de ces données, ni n’assume aucune responsabilité pour les erreurs dans l’information ni pour toute utilisation des informations fournies. Les utilisateurs des données sont responsables de l’utilisation qu’ils en font et les analyses présentées ici restent la responsabilité seule de l'auteure. Pour plus de détails, veuillez consulter les conditions d’utilisation sur https://www.kaggle.com/terms et https://www.kaggle.com/docs/datasets#licensing.
Este estudo foi produzido por CelineBoutinon com base no conjunto de dados Olist disponível no Kaggle (https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce), que contém dados sobre pedidos, avaliações, vendedores, produtos e clientes. O conjunto de dados é fornecido "no estado em que se encontra" pela Olist e hospedado no Kaggle para fins de pesquisa e educação; seu uso está sujeito aos termos gerais do Kaggle, bem como aos termos da licença CC BY-NC-SA 4.0 disponíveis em https://creativecommons.org/licenses/by-nc-sa/4.0/. Nem o Kaggle nem a Olist oferecem qualquer garantia, expressa ou implícita, quanto à exatidão, completude, atualidade ou confiabilidade desses dados, nem assumem qualquer responsabilidade por erros nas informações ou pelo uso das informações fornecidas. Os usuários dos dados são responsáveis pelo uso que fizerem deles, e as análises apresentadas aqui são de exclusiva responsabilidade da autora. Para mais detalhes, consulte os termos de uso em https://www.kaggle.com/terms e https://www.kaggle.com/docs/datasets#licensing.