À la question de savoir comment éviter l'overfitting, 90 % des data scientists répondent incorrectement.
Contrairement à ce que l'on pourrait penser, diviser la base de données en ensembles d'entraînement (train) et de test ne permet pas d'éviter le surapprentissage (ou overfitting). Diviser la base de données permet surtout de vérifier que le modèle développé n'a pas fait de surapprentissage.
Pour le jour 22 du calendrier de l'Avent spécial data science, nous allons parler des solutions pour éviter le surapprentissage.
Retrouvez l'ensemble des articles en cliquant ici : https://natacha-njongwa-yepnga.ck.page/profile
Voici le programme de la journée :
Un modèle surapprend lorsqu'il affiche de très bonnes performances sur la base d'apprentissage mais ne possède pas un bon pouvoir de généralisation. Voici trois principales causes d'overfitting dans la pratique :
Pour éviter le surapprentissage, voici 6 approches que je privilégie dans la pratique :
1️⃣ Avoir une base de données suffisamment grande et représentative de la population : S'assurer que les données d'entraînement couvrent un large spectre des cas possibles, minimisant ainsi le risque que le modèle apprenne uniquement des particularités de l'échantillon d'entraînement.
2️⃣ Conserver dans le modèle final uniquement les variables les plus pertinentes : Éliminer les caractéristiques superflues ou peu informatives pour réduire la complexité du modèle et améliorer sa capacité à généraliser.
3️⃣ Utiliser des techniques de régularisation, comme Ridge, Lasso ou Elastic Net : Ces méthodes pénalisent la complexité excessive du modèle, aidant à prévenir l'overfitting en conservant uniquement les caractéristiques les plus importantes.
4️⃣Recourir à des modèles ensemblistes : Utiliser des techniques telles que le bagging, le boosting ou le Random Forest, qui combinent les prédictions de plusieurs modèles pour améliorer la robustesse et la généralisation.
5️⃣ Commencer toujours par les modèles les plus simples : Avant de passer à des modèles plus complexes, explorez les modèles plus simples qui peuvent souvent fournir de bonnes performances avec une meilleure généralisabilité.
6️⃣ Appliquer l'Early stopping : Lors de l'entraînement, arrêter le processus avant que le modèle ne commence à surapprendre en surveillant les performances sur un ensemble de validation et en arrêtant l'apprentissage lorsque ces performances commencent à se dégrader.
![]() |
Pour plus de détails, vous pouvez revoir la vidéo du jour 35 du challenge #100JoursDeML
A. Une base de données trop grande et variée.
B. Un modèle trop complexe pour la taille des données disponibles.
C. L'utilisation de techniques de régularisation.
D. Aucune réponse n'est juste
A. Pour éviter l'overfitting
B. Pour augmenter la capacité de généralisation du modèle.
C. Pour utiliser toutes les données pour l'entraînement.
D. Aucune réponse n'est juste
A. Augmenter le nombre de variables dans le modèle.
B. Utiliser des modèles ensemblistes.
C. Appliquer la régularisation, comme Ridge ou Lasso.
D. Aucune réponse n'est juste
💌 Contact et Partage
Merci de m'avoir lu. Vos retours sont précieux ; n'hésitez pas à me faire part de vos commentaires par email.
Si vous avez aimé cet email, partagez-le sur vos réseaux ou autour de vous en utilisant ce lien https://natacha-njongwa-yepnga.ck.page/inscriptionnewsletter
Bonne journée à vous et à demain pour la surprise du jour 23.
Let's go!
Natacha
Hello Reader, Bienvenue dans ce nouvel e-mail spécial Stats Secrets : Booster sa carrière grâce aux statistiques. Pour info, ma toute première formation co-construite avec Benjamin Ejzenberg est toujours à 397 euros jusqu'à ce soir à minuit. Après, il sera trop tard pour bénéficier de ce tarif. Pour acheter la formation à prix réduit, rendez-vous sur le lien suivant pour tous les détails : https://natacha-njongwa-yepnga.systeme.io/statssecrets Rejoindre Stats Secrets Aujourd'hui, j'aimerais...
Hello Reader, Bienvenue dans ce nouvel e-mail spécial Stats Secrets : Booster sa carrière grâce aux statistiques. Pour info, ma toute première formation co-construite avec Benjamin Ejzenberg est toujours à 397 euros jusqu'à demain minuit. Après, il sera trop tard pour bénéficier de ce tarif. Pour acheter la formation à prix réduit, rendez-vous sur le lien suivant pour tous les détails : https://natacha-njongwa-yepnga.systeme.io/statssecrets Rejoindre Stats Secrets Aujourd'hui, j'aimerais...
Hello Reader, J'espère que l'e-mail d'hier sur les 33 tests statistiques t'a plu. La statistique est une compétence incontournable à maîtriser pour avoir de très bonnes bases dans le monde de la data. Et peut-être as-tu l'intention de progresser sur ces notions cette année. Alors, jusqu'au 15 février, je t'offre deux choses : Un e-mail par jour pour maîtriser le monde de la data. L'accès à la formation StatsSecrets pour enfin maîtriser les statistiques, exceptionnellement à 397 euros (prix...