Calibration and sharpness

Blog

Calibrage et précision : Les deux aspects indépendants de la qualité des prévisions

Qu'est-ce qu'une bonne prévision ?

Les prévisions sont comme des amis : La confiance est le facteur le plus important (vous ne voulez jamais que vos amis vous mentent), mais parmi vos amis dignes de confiance, vous préférez rencontrer ceux qui vous racontent les histoires les plus intéressantes.

 

Qu'est-ce que je veux dire par cette métaphore ? Nous voulons que les prévisions soient "bonnes", "exactes" et "précises ". Mais qu'entendons-nous par là ? Aiguisons notre réflexion pour mieux articuler et visualiser ce que nous attendons d'une prévision. La qualité d'une prévision peut être mesurée de deux manières indépendantes, et vous devez prendre en compte les deux - étalonnage et précision - pour obtenir une compréhension satisfaisante des performances de votre prévision.

Calibrage des prévisions

Pour simplifier, commençons par la classification binaire : Le résultat prévu ne peut prendre que deux valeurs : "vrai ou faux", "0 ou 1", etc.

Pour être plus concret, considérons les courriels et la question de savoir s'ils seront marqués comme spam par l'utilisateur de la boîte aux lettres. Un système prédictif produit, pour chaque courriel, un pourcentage de probabilité que ce courriel soit considéré comme du spam par l'utilisateur (que nous considérons comme la vérité de base). Au-delà d'un certain seuil, disons 95%, l'e-mail se retrouve dans le dossier spam.

Pour évaluer ce système, vous pouvez, en premier lieu, vérifier l'étalonnage des prévisions : Pour les courriels auxquels est attribuée une probabilité de spam de 80%, la fraction de vrai spam devrait être de l'ordre de 80% (ou du moins ne pas différer de manière statistiquement significative). Pour les courriels auxquels on a attribué une probabilité de spam de 5%, la fraction de vrai spam devrait être d'environ 5%, et ainsi de suite. Si c'est le cas, nous pouvons faire confiance à la prévision : Une prétendue probabilité de 5% est en effet une probabilité de 5%.

Une prévision calibrée nous permet de prendre des décisions stratégiques : Par exemple, nous pouvons fixer le seuil du dossier spam de manière appropriée et nous pouvons estimer le nombre de faux positifs / faux négatifs à l'avance (il est inévitable qu'une partie du spam arrive dans la boîte de réception et que certains courriels importants finissent dans le dossier spam).

Netteté des prévisions

L'étalonnage est-il le seul moyen de prévoir la qualité ? Pas tout à fait ! Imaginez une prévision qui attribue la probabilité globale de spam - 85% - à chaque courrier électronique. Cette prévision est bien calibrée, puisque 85% de tous les courriels sont des spams ou d'autres formes de malveillance. Vous pouvez faire confiance à cette prévision ; elle ne vous ment pas, mais elle est tout à fait inutile : Vous ne pouvez prendre aucune décision utile sur la base de l'affirmation triviale répétée "la probabilité que ce courrier électronique soit un spam est de 85%."

Une prévision utile est celle qui attribue des probabilités très différentes aux différents courriels - 0,1% de probabilité de spam pour le courriel de votre patron, 99,9% pour les publicités pharmaceutiques douteuses, et qui reste calibrée. Cette propriété d'utilité est appelée " netteté" par les statisticiens, car elle fait référence à la largeur de la distribution prédite des résultats, compte tenu d'une prévision : Plus elle est étroite, plus elle est nette.

Une prévision non individualisée qui produit toujours la probabilité de spam 85% est maximalement imprécise. Une netteté maximale signifie que le filtre anti-spam n'attribue qu'une probabilité de spam de 0% ou 100% à chaque courrier électronique. Ce degré maximal de précision - de déterminisme - est souhaitable, mais il est irréaliste : une telle prévision ne sera (très probablement) pas calibrée, et certains courriels marqués d'une probabilité de spam de 0% s'avéreront être du spam, tandis que certains courriels marqués d'une probabilité de spam de 100% s'avéreront être ceux de votre tendre moitié.

Quelles sont alors les meilleures prévisions ? Nous ne voulons pas renoncer à la confiance, c'est pourquoi les prévisions doivent rester calibrées, mais à l'intérieur des prévisions calibrées, nous voulons la plus précise. C'est le paradigme de la prévision probabiliste, formulé par Gneiting, Balabdaoui et Raftery en 2007 (J. R. Statist. Soc. B 69, partie 2, pp. 243-268) : Optimisez la netteté, mais ne compromettez pas l'étalonnage. Faites la déclaration la plus forte possible, à condition qu'elle reste vraie. Comme pour nos amis, racontez-moi l'histoire la plus intéressante, mais ne me mentez pas. Pour un filtre anti-spam, la prévision la plus précise attribue des valeurs telles que 1% pour les courriels qui ne sont manifestement pas des spams, 99% pour les courriels qui sont manifestement des spams, et une valeur intermédiaire pour les cas difficiles à trancher (qui ne devraient pas être trop nombreux).

Recalibrer votre chaîne d'approvisionnement

Tendances mondiales et perspectives sectorielles, livrées mensuellement avec la lettre d'information Supply Chain Compass. 

Une peinture abstraite de l'étalonnage et de la netteté

La figure suivante permet de visualiser l'étalonnage et la précision des classificateurs de spam. Un classificateur de spam est représenté par une collection de cercles de la même couleur, de sorte que la taille de chaque cercle reflète le nombre de courriels qui ont été étiquetés avec la probabilité de spam prédite respective. L'axe des abscisses représente la probabilité de spam prédite, l'axe des ordonnées la fréquence de spam observée. L'échelle des axes est choisie de manière à détailler les probabilités qui sont soit proches de zéro ("presque certainement pas"), soit proches de un ("presque certainement").

Un cercle, un ensemble de prédictions individuelles de probabilité de spam qui prennent la même valeur, est calibré lorsqu'il se trouve sur la ligne de calibrage, la ligne noire diagonale pour laquelle les probabilités prédites et les fréquences mesurées correspondent. Plus un cercle s'éloigne de la ligne d'étalonnage, plus l'écart entre la prévision et la réalité est important, et plus la prévision n'est pas étalonnée. Lorsqu'un cercle se situe au-dessus de la ligne d'étalonnage, les prédictions associées ont sous-estimé la probabilité réelle ; lorsqu'il se situe en dessous de la ligne d'étalonnage, les prédictions sont surestimées. En bas à droite et en haut à gauche, vous trouverez des prédictions désastreuses qui attribuent une très grande probabilité à des événements rares, ou vice versa.

Considérons maintenant les cercles verts : Les probabilités prédites et les fréquences réelles correspondent parfaitement, pour les six cercles, ce qui reflète une prévision parfaitement calibrée et plutôt précise. Le seul cercle bleu est calibré (il touche la ligne diagonale), mais il reflète une prévision inutile et imprécise qui ne produit que "85%" chaque fois qu'on lui demande quelle est la probabilité de spam d'un courrier électronique. Il s'agit d'une prévision défensive : Elles ne sont pas fausses, mais inutiles. Les cercles orange reflètent un filtre anti-spam trop confiant : Il produit 0,2% ou 99,8% comme spam-forecast - des affirmations fortes, qui seraient utiles si elles étaient vraies ! Parmi les courriels "presque certainement pas du spam", nous trouvons cependant environ 5% de spam, ce qui est beaucoup plus que les 0,2% prévus. Parmi les courriers électroniques "presque certainement du spam" (probabilité prédite de 99,8% ), seuls 95% environ se révèlent être du spam. Cette prévision orange est plus nette que la verte, mais elle a perdu son étalonnage. La certitude apparente supplémentaire n'est d'aucune utilité, car nous ne pouvons pas faire confiance aux prévisions.

Le cercle rouge reflète une prévision non nette et non calibrée : Ce filtre anti-spam attribue toujours la probabilité "25%" à chaque courrier électronique, ce qui est à la fois faux (la probabilité globale est d'environ 80%) et non spécifique.

Le paradigme de la "netteté maximale soumise à l'étalonnage" signifie que vous voulez pousser les cercles aussi loin que possible dans les zones "presque certaines", en bas à gauche et en haut à droite, tout en les maintenant collés à la ligne d'étalonnage. Nous visons des déclarations fortes et exploitables telles que "1% spam" ou "99% spam", tout en sachant que ces déclarations doivent être véridiques.

calibration-and-sharpness-body-01

Calibrage et précision des prévisions de la demande

Chez Blue Yonder, nous ne gagnons pas notre vie en filtrant les spams, mais nous établissons des prévisions, par exemple, pour la demande des clients. Notre cible n'est pas binaire (spam/no-spam), mais un nombre. Une grande partie de l'argument ci-dessus peut être réutilisée : Une prévision calibrée mais inutile attribue la demande moyenne globale (moyenne des produits, des emplacements, des jours) à chaque produit-emplacement-jour dans le futur : "Ce produit se vendra en moyenne 1,6 fois demain", répété pour chaque produit, jour et lieu, est une affirmation vraie et calibrée pour un supermarché typique, mais ne constitue pas une base significative pour le réapprovisionnement ou toute autre décision commerciale. D'autre part, une prévision qui prétend avoir une précision maximale ("Demain, dans le magasin 123, vous vendrez exactement 17 concombres") n'est pas réaliste et empêcherait toute décision stratégique significative concernant les déchets et les ruptures de stock.

Jusqu'à quel point les prévisions du commerce de détail peuvent-elles devenir précises ? Dans le commerce de détail, nous avons affaire à de nombreux clients potentiels (bien plus de 100 par jour), chacun d'entre eux pouvant acheter un certain produit avec une faible probabilité : Lorsque vous entrez dans un supermarché, vous n'achetez qu'une petite partie des produits proposés. Si l'on suppose en outre que chaque produit bénéficie d'une disponibilité parfaite (pas de rupture de stock) et que chaque client achète au maximum un article d'un produit donné, la précision théorique maximale possible est connue : il s'agit de la distribution de Poisson, dont nous avons examiné les propriétés dans mon blog précédent Forecasting few is different. En d'autres termes, la distribution des ventes autour de la moyenne prédite suit une distribution de Poisson : Une prédiction moyenne de "5" s'accompagne d'une probabilité finie que la demande réelle soit, par exemple, de 3 (probabilité de 14% ), 4 (probabilité de 18% ), 5 (probabilité de 18% ), 6 (probabilité de 15% ), 7 (probabilité de 10% ), etc. Ces probabilités prédites peuvent, tout comme pour notre filtre anti-spam, être vérifiées dans la pratique : Lorsque nous attribuons à l'événement "13 concombres" une probabilité de 12%, nous nous attendons à ce que, en moyenne, 12% de ces cas aboutissent à la vente de 13 concombres. Une fois le calibrage établi, nous pouvons utiliser les prévisions pour prendre des décisions stratégiques, telles que l'équilibrage du coût des ruptures de stock et des déchets.

Dans la pratique, les hypothèses fortes qui sous-tendent la distribution de Poisson ne sont souvent pas respectées : Les gens achètent plus d'articles d'un produit donné, des articles sont en rupture de stock et les facteurs qui influencent la demande ne sont pas tous connus, ce qui rend difficile de prétendre connaître la probabilité d'achat moyenne. La distribution de Poisson reste néanmoins un cas idéal approximatif, bien que parfois inatteignable, qui donne une grande orientation. Dans nos solutions de prévision, nous comparons les performances obtenues dans la pratique à différentes limites théoriques afin d'estimer dans quelle mesure nous sommes proches de ce qui est possible dans des circonstances données. Cela nous permet d'identifier les points faibles à améliorer, les prévisions déjà excellentes et les anomalies qui nécessitent un examen plus approfondi.

Comment les bonnes prévisions ressemblent à de bons amis

Le paradigme de la "maximisation de la netteté des distributions prédictives soumises au calibrage" (Gneiting, Balabdaoui et Raftery) est donc incroyablement utile pour rendre tangibles les performances en matière de prévision, quel que soit le domaine. En fin de compte, dans chaque situation de prévision, nous voulons être en mesure de dire, avec confiance : Il s'agit d'une prévision calibrée qui est aussi précise que possible.

Cette prévision est comme votre ami le plus divertissant, qui vous raconte de belles histoires et vous donne des conseils utiles, mais qui ne vous ment jamais.