🎁Calendrier de l'Avent SpĂ©cial Data Science - Jour 24 Les indicateurs Ă  maĂźtriser lorsqu'on fait de la classification


[💡 Info avant de dĂ©marrer : Hier, durant le WAS22, nous avons parlĂ© d'analyse de la variance. Le replay est disponible dans la vidĂ©o ci-dessous. L'ensemble des ressources du live est disponible ici : ​https://github.com/LeCoinStat/WAS/tree/main/WAS22​]

Le replay est disponible ici:

video preview​

​

​

Maintenant place Ă  la surprise du jour 24

​

​

​

Voici le programme de la journée :

  • Les 7 indicateurs Ă  maĂźtriser lorsqu'on fait un modĂšle de classification
  • Le quiz pour Ă©valuer vos connaissances.

Les 7 indicateurs Ă  maĂźtriser lorsqu'on fait un modĂšle de classification

En machine learning, lorsqu'on parle de classification, on fait rĂ©fĂ©rence au modĂšle ayant comme variable d'intĂ©rĂȘt une variable qualitative. Pour Ă©valuer les performances d'une classification, voici les 7 indicateurs les plus utilisĂ©s.

1. Courbe ROC et AUC

  • DĂ©finition: La courbe ROC (Receiver Operating Characteristic) est un graphique qui illustre la capacitĂ© d'un modĂšle de classification Ă  distinguer entre les classes. L'AUC (Area Under the Curve) est la mesure de l'aire sous la courbe ROC.
  • InterprĂ©tation: Une courbe ROC plus proche du coin supĂ©rieur gauche indique une meilleure performance. Une AUC proche de 1 signifie une excellente capacitĂ© de distinction entre les classes. L'AUC de 80 % signifie que si je choisis deux individus alĂ©atoires, le modĂšle sera capable de bien classer ces deux individus dans 80 % des cas..
  • Limites: La courbe ROC et l'AUC peuvent ĂȘtre trompeuses dans des situations oĂč les donnĂ©es sont trĂšs dĂ©sĂ©quilibrĂ©es. Elles ne tiennent pas compte du coĂ»t des diffĂ©rents types d'erreurs.

​

2. Matrice de Confusion

  • DĂ©finition: Tableau qui montre les vrais positifs, vrais nĂ©gatifs, faux positifs et faux nĂ©gatifs d'un modĂšle de classification.
  • InterprĂ©tation: Permet d'Ă©valuer la prĂ©cision du modĂšle en distinguant les types d'erreurs commises.
  • Limites: Ne fournit d'informations sur le fonctionnement du modĂšle Ă  diffĂ©rents seuils.

​

3. Exactitude (Accuracy)

  • DĂ©finition: Proportion des prĂ©dictions correctes par rapport au total des prĂ©dictions.
  • InterprĂ©tation: Mesure globale de la performance du modĂšle.
  • Limites: Peut ĂȘtre trompeuse dans les cas de dĂ©sĂ©quilibre des classes, favorisant la classe majoritaire.

4. Précision (Precision)

  • DĂ©finition: Proportion des vrais positifs parmi toutes les prĂ©dictions positives.
  • UtilitĂ©: Utile lorsque le coĂ»t des faux positifs est Ă©levĂ©.
  • Limites: Peut ignorer une grande partie des vrais positifs (faible rappel), surtout dans des classes dĂ©sĂ©quilibrĂ©es.

5. Rappel (Recall)

  • DĂ©finition: Proportion des vrais positifs par rapport au nombre total de cas rĂ©els positifs.
  • UtilitĂ©: Important dans les situations oĂč manquer un positif rĂ©el est critique.
  • Limites: Peut conduire Ă  une augmentation des faux positifs.

​

6. Score F1

  • DĂ©finition: Moyenne harmonique de la prĂ©cision et du rappel.
  • UtilitĂ©: Donne un Ă©quilibre entre prĂ©cision et rappel, particuliĂšrement dans des situations oĂč ces deux mesures sont importantes.
  • Limites: Peut ne pas ĂȘtre informatif dans des contextes oĂč un des aspects (prĂ©cision ou rappel) est nettement plus important.

7. Sensibilité et Spécificité

  • DĂ©finition: La sensibilitĂ© (rappel) mesure la capacitĂ© de dĂ©tecter les positifs, tandis que la spĂ©cificitĂ© mesure la capacitĂ© de dĂ©tecter les nĂ©gatifs.
  • UtilitĂ©: Utile pour Ă©valuer la capacitĂ© du modĂšle Ă  identifier correctement les diffĂ©rentes classes.
  • Limites: Comme le rappel, la sensibilitĂ© peut conduire Ă  une augmentation des faux positifs, tandis que la spĂ©cificitĂ© peut augmenter les faux nĂ©gatifs.

​
Pour passer de 0 à 1 en data science vous pouvez suivre les vidéos du challenge #100JoursDeML

video preview​

​


Le Quiz du jour

Question 1: Quelle métrique est la plus appropriée pour évaluer un modÚle de classification lorsque les classes sont trÚs déséquilibrées ?

  • a) Exactitude (Accuracy)
  • b) Score F1
  • c) Courbe ROC et AUC

Question 2: Quel est le principal avantage de l'utilisation de la courbe ROC et de l'AUC pour évaluer un modÚle de classification ?

​

  • a) Elles fournissent une mesure unique de la performance du modĂšle.
  • b) Elles montrent la capacitĂ© du modĂšle Ă  distinguer entre les classes Ă  diffĂ©rents seuils de classification.
  • c) Elles donnent des informations dĂ©taillĂ©es sur les types d'erreurs commises par le modĂšle.

​

Question 3: Dans une matrice de confusion, que représentent les "faux positifs" ?

  • a) Les instances oĂč le modĂšle prĂ©dit correctement la classe positive.
  • b) Les instances oĂč le modĂšle prĂ©dit incorrectement la classe nĂ©gative comme positive.
  • c) Les instances oĂč le modĂšle manque de prĂ©dire la classe positive.

​

🎉 FĂ©licitations et Conclusion

Nous voici au terme de notre Calendrier de l'Avent spécial Data Science. J'espÚre que ces 24 jours vous ont été enrichissants et que les informations partagées vous seront utiles pour vos futurs projets.

Un grand merci pour votre engagement, votre curiosité et vos retours positifs. Merci également à tous ceux et celles qui ont participé aux quiz par email tout au long de ce calendrier. J'espÚre que cette expérience a été aussi agréable pour vous qu'elle l'a été pour moi.

Je vous souhaite Ă  tous de trĂšs belles fĂȘtes de fin d'annĂ©e. Restez curieux, continuez Ă  apprendre et n'oubliez pas : la connaissance s'enrichit lorsqu'elle est partagĂ©e. N'hĂ©sitez pas Ă  partager les articles autour de vous. Vous pouvez les retrouver Ă  tout moment en cliquant ici : https://natacha-njongwa-yepnga.ck.page/profile.

À trùs bientît pour de nouvelles aventures en data science !

Let's go!

​

Natacha

Natacha NJONGWA YEPNGA

Read more from Natacha NJONGWA YEPNGA

Hello Reader, Comment allez-vous ? De mon cĂŽtĂ©, les trois derniers mois ont Ă©tĂ© particuliĂšrement difficiles. Ma mission de freelance s’est arrĂȘtĂ©e brutalement. Je ne m’y attendais pas. Et pour ĂȘtre honnĂȘte, je n’étais pas prĂȘte. J’ai ressenti une sorte de vide un mĂ©lange d’incomprĂ©hension, de colĂšre et de peur. Je vous avoue que j’ai encore les larmes aux yeux quand je repense Ă  cet Ă©pisode. Alors, sans vraiment rĂ©flĂ©chir, j’ai dĂ©cidĂ© d’arrĂȘter d’ĂȘtre freelance. Je me suis dit que j’allais me...

Hello Reader, Il y a deux jours, j’ai lu un post de Steven Bartlett que j’ai trouvĂ© fascinant.Je voulais le partager avec vous : “The most important people in my team are the self-educators. The people I promote fastest aren’t the ones with the best CVs, but those I find late on a Friday, teaching themselves something nobody asked them to learn.” Et je crois qu’il a mis le doigt sur la compĂ©tence la plus rare aujourd’hui : celle de ne pas attendre qu’on vous dise d’apprendre. ThĂšme :...

Hello Reader, Avez-vous suivi les rĂ©centes annonces dans la tech ? Quelque chose est en train de se produire sur le marchĂ© du travail. Ce n’est pas une rĂ©volution visible du jour au lendemain, mais une transformation lente, profonde et irrĂ©versible de notre Ă©conomie. Les chiffres sont glaçants. Accenture a supprimĂ© 12 000 postes, UPS 48 000, Amazon prĂ©voit jusqu’à 30 000 licenciements selon Reuters, Intel 24 000, NestlĂ© 16 000 — dont 12 000 cols blancs. MĂȘme Goldman Sachs estime que l’IA...