Les pièges de l'évaluation des prévisions

Blog

Les pièges de l'évaluation des prévisions

Dans la première partie de ce billet, nous avons présenté les distributions de probabilité de ventes censurées. Mettons maintenant la main à la pâte et voyons ce que signifie concrètement la capacité finie. Nous commençons par mettre en évidence les pièges subtils dans lesquels une personne peut tomber par inadvertance, puis nous expliquons comment nous résolvons généralement la situation.

Confondre les ventes et la demande

Votre responsable vous demandera peut-être d'ignorer complètement ce billet de blog pour obtenir à la fois un "premier modèle simple"" et une "estimation approximative de la qualité du modèle"." Vous pourriez prendre une grande respiration et le faire, c'est-à-dire interpréter directement les chiffres de vente comme une véritable demande.

Que pourrait-il se passer ? Une comparaison naïve entre une prévision non biaisée de la demande et les ventes observées aboutira généralement au verdict suivant : "la prévision est biaisée, elle est surestimée"": La capacité limitée a fait baisser la valeur des ventes observées. Plus la capacité est atteinte souvent, plus les ventes sont affectées. Dans la pratique, ce qui est particulièrement dommageable, c'est que l'impact d'une capacité limitée varie considérablement d'un groupe de produits à l'autre : Les produits frais doivent être en rupture de stock de temps à autre pour éviter le gaspillage et la capacité est atteinte de temps à autre. Les denrées non périssables sont souvent réapprovisionnées sans rupture de stock et la capacité n'est presque jamais atteinte. Une comparaison entre groupes de produits souffrira énormément de l'impact différent des différentes stratégies de capacité/stockage.

Mais pourrions-nous obtenir un modèle non biaisé ? C'est peu probable : Lors de la formation, votre modèle apprend directement une demande biaisée. D'une distribution complète de la demande avec une moyenne de 9,7, le modèle n'apprendrait que la distribution contrainte et censurée, qui a une valeur moyenne plus faible, comme le montre la figure ci-dessous :

forecasting-evaluation-pitfalls-body-01

Le cercle vicieux d'une prévision sous-estimée qui conduit à une faible commande, à davantage de ruptures de stock, à une prévision encore plus sous-estimée, est enclenché et s'accélère perpétuellement - tandis que l'évaluation confirme que "tout va bien"" et que "les prévisions de vente sont bonnes"." Dans d'autres situations, les contraintes de capacité pendant la phase de formation et d'évaluation peuvent varier pour quelque raison que ce soit, ce qui a des conséquences pernicieuses sur l'interprétation du biais observé (ou de l'absence de biais).

Si vous avez lu jusqu'ici, vous comprenez probablement que les ventes et la demande ne sont pas équivalentes, et vous serez en mesure d'argumenter de manière convaincante auprès de votre supérieur pour qu'il emprunte la voie la plus longue et la plus précise.

Sélection des jours où la demande n'a pas été satisfaite

L'écueil ci-dessus est assez intuitif : La demande et les ventes sont des quantités différentes, et les mettre sur un pied d'égalité alors qu'elles ne le sont pas est manifestement problématique. Le deuxième écueil que je souhaite vous voir éviter est un peu plus subtil (réservez une réunion de deux heures pour l'expliquer à votre directeur) : Une idée qui apparaît généralement dans les projets est de former ou d'évaluer les modèles sur les seuls événements de non saturation, c'est-à-dire sur les jours où les ventes n'ont pas saturé la capacité. En d'autres termes, tous les événements pour lesquels une censure a eu lieu (les ventes sont égales aux stocks) sont supprimés de la formation ou de l'évaluation, et seules les valeurs des ventes inférieures à la capacité sont conservées. Les événements restants ne sont pas soumis à des contraintes, ce qui, espérons-le, rendrait la formation et l'évaluation impartiales.

Mais ce n'est pas du tout le cas ! En sélectionnant les jours où la capacité n'a pas été atteinte, on sélectionne naturellement les événements à fluctuation négative pour lesquels la demande s'est avérée, par hasard, particulièrement faible. En d'autres termes, on introduit un biais de sélection en se concentrant sur les événements qui sont des valeurs aberrantes négatives. Un tel ensemble de données de formation ou d'évaluation ne reflète pas la demande réelle de manière impartiale, mais produit un ensemble de données négativement biaisé. Les événements pour lesquels la capacité a été atteinte sont ceux pour lesquels la demande réelle était, par hasard, légèrement supérieure à la moyenne. Ces événements seraient nécessaires pour enregistrer une valeur globale non biaisée. Dans la figure ci-dessous, nous voyons pourquoi la suppression des événements de dépassement de capacité peut être encore pire que la formation sur l'ensemble des données de valeurs de ventes (c'est-à-dire sur la demande contrainte) : Les ventes moyennes conditionnées par le fait de ne pas atteindre la capacité (ligne verte en pointillés) sont inférieures aux ventes moyennes globales (ligne rouge), car les ventes moyennes en cas d'atteinte de la capacité (ligne noire) contribuent à des valeurs plus élevées. Rappelez-vous : Ce que nous aimerions apprendre ou ce que nous avons prédit est la demande moyenne en pointillés bleus.

forecasting-evaluation-pitfalls-body-02

Statistiquement parlant, les jours où il n'y a pas eu de rupture de stock ne sont pas représentatifs de tous les jours, mais ce sont ceux où il y a eu le moins de monde dans le supermarché. Peut-être que les fraises n'étaient pas fraîches, ou qu'une campagne de promotion pour les mangues a fait fuir les gens - dans tous les cas, nous sélectionnerions des valeurs aberrantes et nous ne pouvons pas nous attendre à ce qu'elles soient impartiales !

Si vous optez pour la stratégie inverse et sélectionnez les événements pour lesquels la capacité a été atteinte, vous faussez encore plus fortement votre ensemble de données : Les ventes moyennes n'ont alors rien à voir avec les prévisions, puisqu'elles reproduisent exactement la stratégie de fixation de la capacité - les ventes correspondent alors trivialement à la capacité.

La séparation des données d'évaluation selon que la capacité a été atteinte (" ) ou non (" ) viole également un principe important de l'évaluation des prévisions : Ne jamais diviser les données en fonction d'un critère inconnu au moment de la prévision. Un tel découpage induit presque toujours un biais de sélection subtil dans les groupes résultants. Un effet similaire est abordé dans l'article de blog Vous n'auriez pas dû le savoir.

Comment éviter les pièges

En ce qui concerne la formation, la conclusion est désastreuse : Il n'y a aucun moyen de contourner la "formation appropriée" " en utilisant des méthodes telles que la régression Tobit, qui tient compte du fait que l'observation de 12 lorsque la capacité est de 12 ne fixe qu'une limite inférieure à la demande réelle ce jour-là. En d'autres termes, nous avons besoin d'une méthode de régression qui "comprenne" que 12 articles vendus signifient "12 articles ou plus en demande"." La capacité finie supprime véritablement l'information - un modèle qui utilise des ventes à capacité limitée comme données d'entrée, même s'il le fait correctement, sera toujours moins précis qu'un modèle qui utilise une demande non limitée.

Lors de l'évaluation du modèle, il est possible de tenir compte explicitement de la capacité finie : Les ventes attendues pour une capacité finie donnée peuvent être calculées à partir de la distribution de probabilité censurée. Une fois encore, n'oubliez pas que les ventes attendues en cas de contraintes de capacité ne sont pas simplement la plus petite valeur de "la prévision de la demande sans contrainte" et de "la capacité," ", mais qu'il convient de tenir compte de la distribution de probabilité complète sous contrainte. On aboutit alors à une comparaison du type suivant :

Moyenne de la prédiction de la demande non censuréeMoyenne des prévisions de ventes censuréesMean actual sales
17.8414.3514.66

Dans ce cas, il convient de confirmer que les ventes réelles (après contraintes de capacité) correspondent bien aux attentes.

Probabilité d'atteinte de la capacité prévue et fréquence d'atteinte de la capacité réelle

Bien que la comparaison des ventes prévues en fonction des contraintes de capacité avec les ventes réelles permette d'établir le biais (ou l'absence de biais) de la prévision et constitue une bonne première étape dans l'établissement de sa qualité, on se heurte souvent à un certain scepticisme, qui se présente comme suit : "Nous reconnaissons que la prévision n'est pas biaisée dans l'ensemble, mais nous craignons qu'elle soit sur-prévisionnelle et sous-prévisionnelle d'une manière malheureuse qui entraîne à la fois plus de gaspillage et plus de ruptures de stock que nécessaire."

En d'autres termes, les acteurs de la prévision ne s'intéressent pas seulement à l'absence globale de biais, mais aussi à l'absence de biais dans toutes les situations de demande possibles. Ils ne veulent pas sous-estimer les jours de forte vente et compenser cette sous-estimation par une surestimation des jours de faible vente. En particulier, lorsque la capacité est atteinte, les parties prenantes veulent s'assurer qu'elle ne l'est que légèrement (peu de clients partent avec une demande non satisfaite) ; lorsqu'il y a des déchets, ils ne doivent pas être énormes.

Pour répondre à cette crainte légitime (vous pouvez facilement imaginer des prévisions terribles qui ne sont globalement pas biaisées et qui vous laissent avec beaucoup de déchets et de clients insatisfaits), je propose de séparer les données en fonction de la probabilité d'atteinte de la capacité prédite. En d'autres termes, compte tenu d'une prévision et d'un certain niveau de stock installé ce jour-là, vous calculez la probabilité prévue que le stock soit épuisé, c'est-à-dire la probabilité prévue d'atteinte de la capacité. Cette probabilité d'atteinte de la capacité est proche de 0 lorsque le niveau de stock est fixé à une valeur élevée par rapport aux prévisions (par exemple, lorsque le niveau de stock est fixé au quartile 0,99 de la distribution de la demande, nous sommes alors certains à 99% de ne pas atteindre le niveau de capacité). La probabilité d'atteinte de la capacité est proche de 1 lorsque le niveau de stock est faible, par exemple lorsqu'il est fixé au quantile 0,01 de la distribution de la demande.

Pour chaque prédiction, nous disposons alors d'une probabilité prédite d'atteindre la capacité (par exemple, 0,42) et d'une capacité réelle atteinte (atteinte ou non atteinte). Ce type d'événement n'est qu'anecdotique : la simple existence de quelques paires "improbables" " "probabilité de succès de la capacité prédite = 0,05, mais la capacité a été effectivement atteinte" ne signifie pas que la probabilité prédite est trompeuse. Ce n'est que lorsque vous disposez d'une collection de nombreuses prédictions probabilistes et d'événements associés avec succès ou sans succès que les probabilités prédites peuvent être vérifiées de manière rigoureuse. Pour ce faire, vous recueillez de nombreuses paires de probabilités d'atteinte de la capacité (nombres à virgule flottante compris entre 0 et 1) et d'atteintes de la capacité (résultats discrets, 1 pour "est atteinte" " et 0 pour "n'est pas atteinte""). Répartissez-les dans des groupes de capacité prévue d'environ 0, d'environ 0,10, d'environ 0,20, etc. Pour chaque godet, vous calculez ensuite la moyenne du taux d'atteinte de la capacité prévu et du taux d'atteinte de la capacité réel. Lorsqu'il est prévu qu'une capacité soit atteinte dans 0,10 des cas, nous nous attendons à ce que la capacité soit effectivement atteinte dans environ 10% de ces cas.

Nous appelons les probabilités prédites "calibrées"" lorsque nous pouvons leur faire confiance dans le sens où une capacité prédite de 0,70 se produit dans 70% de ces cas (pour en savoir plus sur le calibrage, consultez l'article du blog intitulé Calibration and sharpness : Les deux aspects indépendants de la qualité des prévisions). Une prévision calibrée permet de prendre des décisions stratégiques en matière de réapprovisionnement : Fixez le niveau de stock de telle sorte que vous vous attendiez à être en rupture de stock dans 0,023 des jours - et vous êtes réellement en rupture de stock dans 2,3% des jours. Il s'agit de la gestion des risques : Vous quantifiez le risque de manière calibrée et vous prenez consciemment les risques qui valent la peine d'être pris.

Dans la figure ci-dessous, les cercles noirs indiquent les événements individuels d'atteinte de capacité - la capacité a été atteinte (en haut de la figure) ou non (en bas de la figure). Lorsque nous regroupons toutes les prédictions, le taux moyen de réussite de la capacité prédite de 0,82 correspond à la fréquence mesurée (cercle vert). Lorsque nous distinguons les probabilités d'atteinte de capacité proches de 0, de 0,1, de 0,2, etc., nous constatons que les prévisions d'atteinte de capacité sont calibrées : Les cercles bleus sont proches de la diagonale.

forecasting-evaluation-pitfalls-body-03

L'évaluation des probabilités et des fréquences d'atteinte de la capacité prédites par rapport aux probabilités et aux fréquences réelles ne suffit pas à garantir une bonne prévision : Lorsque vous stockez 1 000 articles, il n'y a pas de différence dans le comportement d'atteinte de la capacité entre une prévision de 5, 10 ou 100 - dans tous les cas, l'événement finit dans le même seau "la capacité ne sera certainement pas atteinte"." Par conséquent, une analyse des biais dans les ventes prévues devrait compléter l'analyse du taux d'atteinte des capacités afin de vérifier que les prévisions ne sont pas biaisées en fonction des contraintes de capacité et des vitesses.

En général, le regroupement par probabilité d'atteinte de la capacité prévue ou par ventes prévues est conforme à la règle "soyez prospectif : évaluez ce que vous prévoyez, au lieu d'être rétrospectif" pour éviter le biais de rétrospection décrit dans l'article de blog Vous n'auriez pas dû toujours savoir mieux.

Conclusion : la gestion des risques nécessite des outils probabilistes

Les prévisions ponctuelles, qui produisent un seul chiffre en guise de prédiction, ne conviennent pas pour traiter des questions stratégiques probabilistes telles que le niveau de stock permettant d'assurer un taux de rupture de stock inférieur à 1%. Lorsque vous posez une question probabiliste - et toutes les questions sur le risque sont probabilistes - vous avez besoin d'outils probabilistes pour y répondre. Vous devrez enseigner à votre directeur au moins une compréhension de base de la "valeur d'espérance",", de la "censure"," et de la "distribution"."

Lorsque la capacité a un impact sur le monde réel (et c'est presque toujours le cas), nous devons prendre les contraintes de capacité au sérieux. Nous ne devons pas essayer de comprendre les événements a posteriori ("la capacité a été atteinte ce jour-là, quelle en est la cause exacte ?"), mais nous devons nous tourner vers l'avenir et évaluer l'étalonnage des prévisions en les séparant en fonction des ventes prévues et de la probabilité d'atteinte de la capacité prévue.

Tous les exemples présentés dans ce blog ont été construits dans un environnement de type bac à sable, en supposant une prévision parfaite de la demande qui produit une distribution bien équilibrée. Je vous ai protégé de tous les problèmes plus complexes que vous rencontrez généralement dans le monde réel. Pourtant, même dans ce scénario simple, nous voyons que notre intuition est facilement trompée. Par conséquent, il est important de ne pas se contenter de suivre la toute première idée qui surgit sur la manière de résoudre un problème d'évaluation ("regroupons simplement les capacités qui ont été atteintes par rapport aux capacités qui n'ont pas été atteintes""), mais d'adopter un point de vue sceptique et de simuler d'abord ce que la méthode ferait dans un cadre idéal.