Bienvenue dans cet email du calendrier de l'Avent, Jour 21.
Si tu as ouvert ton calendrier depuis le début de ce mois,, tu sais que nous avons déjà abordé les thématiques suivantes :
L'ensemble des articles est disponible ici : https://natacha-njongwa-yepnga.ck.page/profile
🎓 Pour le Jour 21, notre thème sera : "Les concepts de biais/variance, l'underfitting et l'overfitting"
Voici le programme de la journée :
L'underfitting (sous-apprentissage) se produit lorsqu'un modèle de machine learning est trop simple pour capturer les motifs et les relations dans les données. En pratique, on observe de l'underfitting lorsque les performances sont mauvaises, non seulement sur la base d'apprentissage, mais aussi sur la base de test.
L'overfitting (surapprentissage), à l'opposé, survient quand un modèle est trop complexe. Il apprend non seulement les motifs pertinents dans les données d'entraînement, mais aussi le bruit et les détails spécifiques à cet ensemble de données.
Dans la pratique, un modèle qui présente de l'overfitting est un modèle qui affiche d'excellentes performances sur la base d'apprentissage, mais qui a de très mauvaises performances sur une base de test. Un tel modèle généralise mal à des situations inconnues. Vous pouvez lire l'article d'Amazon suivant sur le sujet: https://aws.amazon.com/fr/what-is/overfitting/#:~:text=Le%20surajustement%20est%20un%20comportement,pas%20pour%20les%20nouvelles%20donn%C3%A9es.
![]() |
Le Biais en machine learning fait référence à une erreur provenant de suppositions erronées dans le processus d'apprentissage du modèle. Un biais élevé peut entraîner l'underfitting, où le modèle est trop simpliste pour capturer la complexité ou les nuances des données.
La Variance est le degré auquel le modèle de machine learning est sensible aux petites fluctuations dans les données d'entraînement. Une variance élevée peut conduire à l'overfitting, où le modèle apprend trop de détails et de bruits spécifiques à l'ensemble de données d'entraînement, au détriment de sa capacité à bien performer sur des données non vues.
Le principal défi en machine learning est de gérer le compromis entre le biais et la variance. Idéalement, un modèle doit avoir un biais assez bas pour faire des prédictions précises et une variance suffisamment faible pour bien généraliser à partir des données d'entraînement vers des données de test inédites. Trouver cet équilibre est crucial pour le développement d'un modèle robuste et fiable.
![]() |
Pour plus de détails, vous pouvez revoir la vidéo du jour 36 du challenge #100JoursDeML
A. Lorsqu'un modèle est trop complexe et capture le bruit dans les données.
B. Lorsqu'un modèle est trop simple pour capturer la complexité des données.
. Lorsqu'un modèle réalise des prédictions parfaites sur les données de test.
A. Lorsqu'un modèle ne parvient pas à apprendre suffisamment à partir des données d'entraînement.
B. Lorsqu'un modèle réalise des prédictions médiocres sur les données de test malgré de bonnes performances sur les données d'entraînement.
C. Lorsqu'un modèle est suffisamment flexible pour s'adapter à toutes sortes de données.
A. Un modèle avec un biais élevé et une faible variance est généralement le plus précis.
B. Augmenter la complexité du modèle réduit généralement le biais et augmente la variance.
C. Une variance élevée est toujours préférable à un biais élevé.
💌 Contact et Partage
Merci de m'avoir lu. Vos retours sont précieux ; n'hésitez pas à me faire part de vos commentaires par email.
Si vous avez aimé cet email, partagez-le sur vos réseaux ou autour de vous en utilisant ce lien https://natacha-njongwa-yepnga.ck.page/inscriptionnewsletter
Bonne journée à vous et à demain pour la surprise du jour 22.
Let's go!
Natacha
Hello Reader, Bienvenue dans ce nouvel e-mail spécial Stats Secrets : Booster sa carrière grâce aux statistiques. Pour info, ma toute première formation co-construite avec Benjamin Ejzenberg est toujours à 397 euros jusqu'à ce soir à minuit. Après, il sera trop tard pour bénéficier de ce tarif. Pour acheter la formation à prix réduit, rendez-vous sur le lien suivant pour tous les détails : https://natacha-njongwa-yepnga.systeme.io/statssecrets Rejoindre Stats Secrets Aujourd'hui, j'aimerais...
Hello Reader, Bienvenue dans ce nouvel e-mail spécial Stats Secrets : Booster sa carrière grâce aux statistiques. Pour info, ma toute première formation co-construite avec Benjamin Ejzenberg est toujours à 397 euros jusqu'à demain minuit. Après, il sera trop tard pour bénéficier de ce tarif. Pour acheter la formation à prix réduit, rendez-vous sur le lien suivant pour tous les détails : https://natacha-njongwa-yepnga.systeme.io/statssecrets Rejoindre Stats Secrets Aujourd'hui, j'aimerais...
Hello Reader, J'espère que l'e-mail d'hier sur les 33 tests statistiques t'a plu. La statistique est une compétence incontournable à maîtriser pour avoir de très bonnes bases dans le monde de la data. Et peut-être as-tu l'intention de progresser sur ces notions cette année. Alors, jusqu'au 15 février, je t'offre deux choses : Un e-mail par jour pour maîtriser le monde de la data. L'accès à la formation StatsSecrets pour enfin maîtriser les statistiques, exceptionnellement à 397 euros (prix...