Qu'est-ce qu'une bonne prévision ?
Les prévisions sont comme des amis : La confiance est le facteur le plus important (vous ne voulez jamais que vos amis vous mentent), mais parmi vos amis dignes de confiance, vous préférez rencontrer ceux qui vous racontent les histoires les plus intéressantes.
Qu'est-ce que je veux dire par cette métaphore ? Nous voulons que les prévisions soient "bonnes", "exactes" et "précises ". Mais qu'entendons-nous par là ? Aiguisons notre réflexion pour mieux articuler et visualiser ce que nous attendons d'une prévision. La qualité d'une prévision peut être mesurée de deux manières indépendantes, et vous devez prendre en compte les deux - étalonnage et précision - pour obtenir une compréhension satisfaisante des performances de votre prévision.
Calibrage des prévisions
Pour simplifier, commençons par la classification binaire : Le résultat prévu ne peut prendre que deux valeurs : "vrai ou faux", "0 ou 1", etc.
Pour être plus concret, considérons les courriels et la question de savoir s'ils seront marqués comme spam par l'utilisateur de la boîte aux lettres. Un système prédictif produit, pour chaque courriel, un pourcentage de probabilité que ce courriel soit considéré comme du spam par l'utilisateur (que nous considérons comme la vérité de base). Au-delà d'un certain seuil, disons 95%, l'e-mail se retrouve dans le dossier spam.
Pour évaluer ce système, vous pouvez, en premier lieu, vérifier l'étalonnage des prévisions : Pour les courriels auxquels est attribuée une probabilité de spam de 80%, la fraction de vrai spam devrait être de l'ordre de 80% (ou du moins ne pas différer de manière statistiquement significative). Pour les courriels auxquels on a attribué une probabilité de spam de 5%, la fraction de vrai spam devrait être d'environ 5%, et ainsi de suite. Si c'est le cas, nous pouvons faire confiance à la prévision : Une prétendue probabilité de 5% est en effet une probabilité de 5%.
Une prévision calibrée nous permet de prendre des décisions stratégiques : Par exemple, nous pouvons fixer le seuil du dossier spam de manière appropriée et nous pouvons estimer le nombre de faux positifs / faux négatifs à l'avance (il est inévitable qu'une partie du spam arrive dans la boîte de réception et que certains courriels importants finissent dans le dossier spam).
Netteté des prévisions
L'étalonnage est-il le seul moyen de prévoir la qualité ? Pas tout à fait ! Imaginez une prévision qui attribue la probabilité globale de spam - 85% - à chaque courrier électronique. Cette prévision est bien calibrée, puisque 85% de tous les courriels sont des spams ou d'autres formes de malveillance. Vous pouvez faire confiance à cette prévision ; elle ne vous ment pas, mais elle est tout à fait inutile : Vous ne pouvez prendre aucune décision utile sur la base de l'affirmation triviale répétée "la probabilité que ce courrier électronique soit un spam est de 85%."
Une prévision utile est celle qui attribue des probabilités très différentes aux différents courriels - 0,1% de probabilité de spam pour le courriel de votre patron, 99,9% pour les publicités pharmaceutiques douteuses, et qui reste calibrée. Cette propriété d'utilité est appelée " netteté" par les statisticiens, car elle fait référence à la largeur de la distribution prédite des résultats, compte tenu d'une prévision : Plus elle est étroite, plus elle est nette.
Une prévision non individualisée qui produit toujours la probabilité de spam 85% est maximalement imprécise. Une netteté maximale signifie que le filtre anti-spam n'attribue qu'une probabilité de spam de 0% ou 100% à chaque courrier électronique. Ce degré maximal de précision - de déterminisme - est souhaitable, mais il est irréaliste : une telle prévision ne sera (très probablement) pas calibrée, et certains courriels marqués d'une probabilité de spam de 0% s'avéreront être du spam, tandis que certains courriels marqués d'une probabilité de spam de 100% s'avéreront être ceux de votre tendre moitié.
Quelles sont alors les meilleures prévisions ? Nous ne voulons pas renoncer à la confiance, c'est pourquoi les prévisions doivent rester calibrées, mais à l'intérieur des prévisions calibrées, nous voulons la plus précise. C'est le paradigme de la prévision probabiliste, formulé par Gneiting, Balabdaoui et Raftery en 2007 (J. R. Statist. Soc. B 69, partie 2, pp. 243-268) : Optimisez la netteté, mais ne compromettez pas l'étalonnage. Faites la déclaration la plus forte possible, à condition qu'elle reste vraie. Comme pour nos amis, racontez-moi l'histoire la plus intéressante, mais ne me mentez pas. Pour un filtre anti-spam, la prévision la plus précise attribue des valeurs telles que 1% pour les courriels qui ne sont manifestement pas des spams, 99% pour les courriels qui sont manifestement des spams, et une valeur intermédiaire pour les cas difficiles à trancher (qui ne devraient pas être trop nombreux).





