Die Vorhersage des zukünftigen Bedarfs soll nun mittels Methoden des überwachten Maschinellen Lernens verbessert werden. Dafür bedarf es der Aufbereitung der Daten pro Artikel, um eine Vorhersage auf Artikelebene für den nächsten Zeitschritt (Tages- oder Wochenbasis) zu ermöglichen, sowie der Extraktion von aussagekräftigen Informationen in Form von relevanten Merkmalen für die Vorhersage. Dabei sollen Merkmale aus den historischen Daten (Bedarfe der Vergangenheit) extrahiert (u.a., mittels unüberwachter Clusteranalysen) und mit Metadaten der einzelnen Artikel kombiniert werden. Für die Vorhersage können Regressionsverfahren des klassischen Maschinellen Lernens oder tiefe Neuronale Netze verwendet werden.
Die präzise und verbesserte Vorhersage der Bedarfe auf Artikelebene mittels ML Methoden verbessert die Lieferfähigkeit, reduziert Lager- und Opportunitätskosten in Form von entgangenen Umsätzen sowie Kundenabwanderung und ermöglicht somit einen optimalen Service und Kapitalbindung. Augenblicklich manuell durchgeführte Korrekturen können in Zukunft schrittweise automatisiert werden. Die Vorhersagegenauigkeit kann mit der des aktuell verwendeten Verfahrens verglichen werden, um mögliche Verbesserungen zu quantifizieren.
Für die Vorhersage wurden verschiedene Regressionsmodelle des klassischen Maschinellen Lernens (ARIMA Modelle sowie XGBoosting Trees aus der Familie der Ensemble Lerner) und tiefe Neuronale Netze (rückgekoppelte neuronale Netze mit Long-Short-Term Memory) exploriert. Dabei wurde ein Datensatz mit 600.000 Artikel und historischen Daten über 3 Jahre (2017 – 2020) verwendet. Zu den größten Herausforderungen des Datensatzes gehören Artikel, die kurzfristig ein sehr starkes Absatzverhalten zeigen und über einen längeren Zeitraum jedoch ein geringes (Long-Tail-Artikel), Neuerscheinungen und schwer vorhersehbare externe Einflüsse, die die Nachfrage stark beeinflussen, wie z. B. politische, soziale oder mediale Ereignisse. Um den Merkmalsraum für die Vorhersage anzureichern, wurde ein unüberwachte Clusteralgorithmus (Fuzzy C-Means) verwendet, um Artikel mit ähnlichem Absatzverhalten zu gruppieren. Die Clusterzugehörigkeit kann (a) als weiteres informatives Merkmal zur Erfassung von Saisonalität und des Absatzverhaltens im Zeitverlauf und (b) als wichtiger Indikator für das Unternehmen (Entscheidungshilfe für die Sortiment-Auswahl) verwendet werden.