Demand Planning: Processi, metodologie e modelli matematici per la gestione della domanda commerciale [1 ed.] 8847008212, 9788847008212, 9788847008229 [PDF]

Il libro Demand Planning analizza metodi quantitativi, modelli matematici e processi aziendali per la gestione e la pian

257 75 5MB

Italian Pages XIV, 600 pagg. [616] Year 2008

Table of contents :

Content:
Front Matter....Pages I-XIV
Introduzione....Pages 1-10
Front Matter....Pages 11-11
Demand Planning e Supply Chain Management....Pages 13-48
Processi di Demand Planning....Pages 49-84
Sistemi organizzativi di Demand Planning....Pages 85-123
Sistemi informativi di Demand Planning....Pages 125-154
Front Matter....Pages 155-155
Demand Analytics: analisi multidimensionale....Pages 157-184
Demand Analytics: analisi statistica e KPI....Pages 185-227
Demand Intelligence: clustering....Pages 229-268
Demand Intelligence: regole associative....Pages 269-307
Demand Intelligence: classificazione....Pages 309-349
Front Matter....Pages 351-351
Time Series Analysis....Pages 353-380
Valutazione dei modelli di Sales Forecasting....Pages 381-403
Time Series Forecasting....Pages 405-439
Modelli per serie storiche irregolari....Pages 441-470
Regressione lineare....Pages 471-518
Front Matter....Pages 519-519
Supply Chain Planning: distribuzione....Pages 521-558
Supply Chain Planning: produzione....Pages 559-591
Back Matter....Pages 593-600

Demand Planning: Processi, metodologie e modelli matematici per la gestione della domanda commerciale [1 ed.]
8847008212, 9788847008212, 9788847008229 [PDF]

Author / Uploaded
Damiano Milanato (auth.)

0 0 0
Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden

Datei wird geladen, bitte warten...

Zitiervorschau

Demand Planning

Damiano Milanato

Demand Planning Processi, metodologie e modelli matematici per la gestione della domanda commerciale

Damiano Milanato Dipartimento di Ingegneria Gestionale Facolt`a di Ingegneria dei Sistemi Politecnico di Milano, Milano

Damiano Milanato svolge attività didattica per il corso Laboratorio di sistemi produttivi e logistici presso la Facoltà di Ingegneria dei Sistemi del Politecnico di Milano, Dipartimento di Ingegneria Gestionale. I suoi interessi di ricerca si articolano in due aree: modelli di ottimizzazione per il Supply Chain Management, algoritmi e metodologie di Sales Forecasting e Data Mining applicati al Demand Planning.

ISBN 978-88-470-0821-2 Springer Milan Berlin Heidelberg New York e-ISBN 978-88-470-0822-9 Springer Milan Berlin Heidelberg New York Springer-Verlag fa parte di Springer Science+Business Media springer.com © Springer-Verlag Italia, Milano 2008

Quest’opera è protetta dalla legge sul diritto d’autore e la sua riproduzione è ammessa solo ed esclusivamente nei limiti stabiliti dalla stessa. Le fotocopie per uso personale possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall’art. 68, commi 4 e 5, della legge 22 aprile 1941 n. 633. Le riproduzioni per uso non personale e/o oltre il limite del 15% potranno avvenire solo a seguito di specifica autorizzazione rilasciata da AIDRO, Via Corso di Porta Romana n. 108, Milano 20122, e-mail [email protected] e sito web www.aidro.org. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all’utilizzo di illustrazioni e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla registrazione su microfilm o in database, o alla riproduzione in qualsiasi altra forma (stampata o elettronica) rimangono riservati anche nel caso di utilizzo parziale. La violazione delle norme comporta le sanzioni previste dalla legge. 9

8

7

6

5

4

3

2

1

Impianti: PTP-Berlin, Protago TEX-Production GmbH, Germany (www.ptp-berlin.eu) Progetto grafico della copertina: Simona Colombo, Milano Stampa: GRAFICHE PORPORA, Cernusco S/N (MI) Stampato in Italia Springer-Verlag Italia srl – Via Decembrio 28 –20137 Milano

Indice

Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

Parte I Processi, organizzazione e sistemi informativi di Demand Planning 1

Demand Planning e Supply Chain Management . . . . . . . . . . . . . . . . 1.1 Introduzione al Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Deﬁnizione di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Processi, metodologie e modelli matematici . . . . . . . . . . . . . . . 1.1.3 Sales Forecast, Sales Budget, Sales Target, Demand Plan . . . 1.2 Supply Chain Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Deﬁnizione di Supply Chain Management . . . . . . . . . . . . . . . . 1.2.2 Soggetti aziendali operanti nella Supply Chain . . . . . . . . . . . . 1.2.3 Strutture logistico-produttive della Supply Chain Network . . 1.2.4 Catene fornitore – produttore – distributore . . . . . . . . . . . . . . 1.2.5 Supply Chain Relationship Management . . . . . . . . . . . . . . . . . 1.2.6 Tipologie di domanda commerciale . . . . . . . . . . . . . . . . . . . . . . 1.3 Progettazione e gestione della Supply Chain . . . . . . . . . . . . . . . . . . . . 1.3.1 Progettazione della conﬁgurazione e delle attivit` a operative . 1.3.2 Supply Chain Strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Supply Chain Network Design . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Supply Chain Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Supply Chain Execution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.6 Supply Chain Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.7 Integrazione dei processi di Supply Chain Management . . . . . 1.4 Motivazioni gestionali per il Demand Planning . . . . . . . . . . . . . . . . . . 1.5 Fattori critici di successo per il Demand Planning . . . . . . . . . . . . . . .

13 13 13 14 17 21 21 22 24 24 26 29 32 32 33 37 40 41 44 44 46 47

2

Processi di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.1 Criticit` a dei processi di Demand Planning . . . . . . . . . . . . . . . . . . . . . . 49

VI

Indice

2.2

2.3

2.4

2.5

3

2.1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Criticit` a di prodotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Criticit` a di mercato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Oggetto della previsione e del piano di domanda . . . . . . . . . . . . . . . . . 2.2.1 Determinanti della domanda commerciale . . . . . . . . . . . . . . . . 2.2.2 Modalit` a di risposta alla domanda commerciale . . . . . . . . . . . 2.2.3 Classiﬁcazione Wortmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processi di Sales & Operations Planning . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Pianiﬁcazione della produzione e della distribuzione . . . . . . . . 2.3.2 Tipologie di piani operativi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Underforecasting vs. Overforecasting . . . . . . . . . . . . . . . . . . . . . Diﬀerenze operative fra piani di domanda . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Transizione sales forecast – sales budget . . . . . . . . . . . . . . . . . . 2.4.2 Transizione sales budget – demand plan . . . . . . . . . . . . . . . . . . 2.4.3 Transizione demand plan – sales target . . . . . . . . . . . . . . . . . . . 2.4.4 Esempio numerico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Processi di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Quadro generale dei processi di Demand Planning . . . . . . . . . 2.5.2 Demand Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Sales Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 Demand Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.5 Marketing Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.6 Collaborative Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49 50 52 54 54 55 57 59 59 61 63 64 65 66 67 67 70 70 72 75 78 80 81

Sistemi organizzativi di Demand Planning . . . . . . . . . . . . . . . . . . . . . . 85 3.1 Workﬂow di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.1.1 Classiﬁcazione delle attivit`a di Demand Planning . . . . . . . . . . 85 3.1.2 Progettazione degli workﬂow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.1.3 Workﬂow verticali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.1.4 Workﬂow orizzontali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.1.5 Esempio di Workﬂow di Demand Planning . . . . . . . . . . . . . . . . 93 3.2 Diﬀusione funzionale dei piani di domanda . . . . . . . . . . . . . . . . . . . . . . 94 3.2.1 Fabbisogni funzionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.2.2 Funzioni demand oriented . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.3 Funzioni supply oriented . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.2.4 Funzioni di pianiﬁcazione strategica e ﬁnanziaria . . . . . . . . . . 101 3.3 Organizzazione dei processi di Demand Planning . . . . . . . . . . . . . . . . 102 3.3.1 Specialized Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.2 Multiple Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.3.3 Consensus Based Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.3.4 Ruolo dei Demand Planner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4 Qualitative Sales Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.4.1 Introduzione alle metodologie di Sales Forecasting . . . . . . . . . 108 3.4.2 Jury of executive opinion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.4.3 Metodo Delphi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Indice

VII

3.4.4 Coinvolgimento della forza di vendita . . . . . . . . . . . . . . . . . . . . 112 3.4.5 Coinvolgimento dei partner di ﬁliera . . . . . . . . . . . . . . . . . . . . . 114 3.4.6 Ricerche di mercato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.5 Collaborative Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3.5.1 Gestione tradizionale della domanda . . . . . . . . . . . . . . . . . . . . . 115 3.5.2 Vendor Managed Inventory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 3.5.3 Collaborative Planning, Forecasting, Replenishment . . . . . . . 120 4

Sistemi informativi di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . 125 4.1 Tecnologie informatiche per il Demand Planning . . . . . . . . . . . . . . . . . 125 4.2 Enterprise Resource Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2.1 Moduli applicativi ERP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2.2 Architettura informatica dei sistemi ERP . . . . . . . . . . . . . . . . . 128 4.3 Advanced Planning & Scheduling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4.3.1 Moduli applicativi APS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4.3.2 Moduli APS di Demand Planning . . . . . . . . . . . . . . . . . . . . . . . 131 4.4 Data Warehousing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 4.4.1 Deﬁnizione di Data Warehouse e Data Mart . . . . . . . . . . . . . . 132 4.4.2 Architettura dei Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . 134 4.4.3 Caratteristiche dei Data Warehouse . . . . . . . . . . . . . . . . . . . . . . 137 4.4.4 Tecnologie OLTP e OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.5 Workﬂow Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 4.6 Integrazione dei sistemi ERP, APS, Data Warehousing . . . . . . . . . . . 141 4.7 Modelli di dati per il Demand Planning . . . . . . . . . . . . . . . . . . . . . . . . 145 4.7.1 Dati statici e dati dinamici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.7.2 Dimensioni di analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.7.3 Gerarchie di navigazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.7.4 Entit` a e attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 4.7.5 Misure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Parte II Modelli e algoritmi di Business Intelligence 5

Demand Analytics: analisi multidimensionale . . . . . . . . . . . . . . . . . . . 157 5.1 Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.1.1 Deﬁnizione di Business Intelligence . . . . . . . . . . . . . . . . . . . . . . 157 5.1.2 Quadro delle metodologie di Business Intelligence . . . . . . . . . 158 5.1.3 Demand Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.1.4 Demand Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.2 Analisi multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.2.1 Introduzione al data browsing . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.2.2 Operazioni di data browsing: navigazione orizzontale . . . . . . . 167 5.2.3 Operazioni di data browsing: navigazione verticale . . . . . . . . . 169 5.2.4 Operatori di aggregazione (roll-up) . . . . . . . . . . . . . . . . . . . . . . 170 5.2.5 Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

VIII

Indice

5.2.6 Operatori di ripartizione (drill-down) . . . . . . . . . . . . . . . . . . . . 179 5.2.7 Quadro sintetico delle operazioni di browsing dimensionale . 184 6

Demand Analytics: analisi statistica e KPI . . . . . . . . . . . . . . . . . . . . . 185 6.1 Analisi statistica delle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.1.1 Finalit` a dell’analisi statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.1.2 Analisi univariata: indici di posizionamento . . . . . . . . . . . . . . . 186 6.1.3 Analisi univariata: indici di dispersione . . . . . . . . . . . . . . . . . . . 192 6.1.4 Intervallo di conﬁdenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 6.1.5 Analisi bivariata: correlazione e covarianza . . . . . . . . . . . . . . . . 197 6.2 KPI Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 6.2.1 Ciclo di pianiﬁcazione e controllo . . . . . . . . . . . . . . . . . . . . . . . . 202 6.2.2 Ciclo di vita dei KPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.2.3 Classiﬁcazione dei KPI per il Demand Planning . . . . . . . . . . . 205 6.2.4 KPI derivati per la domanda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 6.2.5 Sales Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.2.6 Customer Service Analysis: eﬃcacia ed eﬃcienza . . . . . . . . . . 218 6.2.7 Customer Service Analysis: componenti . . . . . . . . . . . . . . . . . . 220 6.2.8 Customer Service Analysis: fasi operative del ciclo attivo . . . 221 6.2.9 Customer Service Analysis: KPI . . . . . . . . . . . . . . . . . . . . . . . . . 223

7

Demand Intelligence: clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 7.2 Tipologie di attributi per il clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7.2.1 Matrice degli attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7.2.2 Attributi numerici continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 7.2.3 Attributi numerici discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 7.2.4 Attributi categorici ordinali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 7.2.5 Attributi categorici nominali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 7.2.6 Selezione di attributi e di entit` a . . . . . . . . . . . . . . . . . . . . . . . . . 234 7.2.7 Discretizzazione di attributi numerici . . . . . . . . . . . . . . . . . . . . 234 7.3 Applicazioni di clustering per il Data Mining . . . . . . . . . . . . . . . . . . . . 235 7.4 Applicazioni di clustering per il Demand Planning . . . . . . . . . . . . . . . 237 7.5 Analisi degli attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 7.5.1 Metodi di trasformazione degli attributi . . . . . . . . . . . . . . . . . . 241 7.5.2 Filtraggio degli attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 7.5.3 Riduzione degli attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 7.6 Calcolo della distanza fra osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . 249 7.6.1 Parametri di input per il clustering . . . . . . . . . . . . . . . . . . . . . . 249 7.6.2 Metriche per il calcolo delle distanze . . . . . . . . . . . . . . . . . . . . . 250 7.6.3 Soft Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 7.7 Misure di prestazione per il clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 253 7.8 Algoritmo delle K-medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 7.8.1 Struttura dell’algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 7.8.2 Esempio numerico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

Indice

IX

7.8.3 Estensioni dell’algoritmo base . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 7.8.4 Parametrizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 7.9 Algoritmo di agglomerazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.9.1 Struttura dell’algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.9.2 Esempio numerico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 7.9.3 Estensioni dell’algoritmo base . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 7.10 Esempio di applicazione: new product forecasting . . . . . . . . . . . . . . . . 267 8

Demand Intelligence: regole associative . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.1 Regole associative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.1.1 Market Basket Analysis: prodotti acquistati . . . . . . . . . . . . . . 269 8.1.2 Caratteristiche degli itemset . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 8.1.3 Caratteristiche delle regole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 8.1.4 Principio Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 8.1.5 Algoritmo Apriori: generazione degli itemset frequenti . . . . . . 281 8.1.6 Algoritmo Apriori: generazione delle regole associative forti . 284 8.1.7 Valutazione dell’importanza delle regole forti . . . . . . . . . . . . . . 286 8.1.8 Parametrizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 8.1.9 Rappresentazione dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 8.1.10 Utilizzo predittivo delle regole associative . . . . . . . . . . . . . . . . . 291 8.1.11 Utilizzo analitico delle regole associative . . . . . . . . . . . . . . . . . . 294 8.2 Regole associative sequenziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 8.2.1 Market Basket Analysis e Clickstream Analysis . . . . . . . . . . . 296 8.2.2 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.3 Matrice Stati – Transizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.4 Probabilit` a delle sequenze temporali . . . . . . . . . . . . . . . . . . . . . 301 8.2.5 Clustering delle sequenze temporali . . . . . . . . . . . . . . . . . . . . . . 303 8.2.6 Algoritmo per il clustering delle sequenze temporali . . . . . . . . 304 8.2.7 Parametrizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.2.8 Rappresentazione dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . 306

9

Demand Intelligence: classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1 Introduzione alla classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1.1 Deﬁnizione del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1.2 Formulazione matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 9.2 Applicazioni di classiﬁcazione per il Demand Planning . . . . . . . . . . . 312 9.3 Analisi dei dati per la classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 9.3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 9.3.2 Report per l’analisi numerica . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 9.4 Misure di prestazione per la classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . 321 9.4.1 Schema generale dei modelli di classiﬁcazione . . . . . . . . . . . . . 321 9.4.2 Classiﬁcation Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325 9.4.3 Analisi dell’errore di classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . 326 9.5 Classiﬁcatori bayesiani naive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 9.5.1 Calcolo delle probabilit` a condizionate . . . . . . . . . . . . . . . . . . . . 327

X

Indice

9.5.2 Indipendenza degli attributivi esplicativi condizionati alle classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 9.5.3 Esempio numerico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 9.6 Classiﬁcatori ad albero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 9.6.1 Propriet` a degli alberi di classiﬁcazione . . . . . . . . . . . . . . . . . . . 331 9.6.2 Alberi di classiﬁcazione a priori . . . . . . . . . . . . . . . . . . . . . . . . . 332 9.6.3 Struttura degli algoritmi per la classiﬁcazione ad albero . . . . 334 9.6.4 Regole di separazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 9.6.5 Regole di classiﬁcazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 9.6.6 Metriche di disomogeneit`a dei nodi . . . . . . . . . . . . . . . . . . . . . . 339 9.6.7 Sviluppo dei nodi dell’albero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 9.6.8 Esempio di applicazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

Parte III Modelli e algoritmi di Sales Forecasting 10

Time Series Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 10.1 Introduzione alla Time Series Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 353 10.1.1 Deﬁnizione di serie storica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 10.1.2 Livelli di disponibilit` a e calcolo della domanda . . . . . . . . . . . . 354 10.1.3 Obiettivi della Time Series Analysis . . . . . . . . . . . . . . . . . . . . . 356 10.1.4 Componenti delle serie storiche continue . . . . . . . . . . . . . . . . . . 357 10.1.5 Tipologie di serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 10.2 Sales cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 10.2.1 Processo di sales cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 10.2.2 Algoritmo generale di sales cleaning . . . . . . . . . . . . . . . . . . . . . 365 10.2.3 Intervallo di conﬁdenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 10.2.4 Media mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 10.2.5 Valutazione delle promozioni commerciali . . . . . . . . . . . . . . . . . 373 10.3 Scomposizione delle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 10.3.1 Scomposizione moltiplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 10.3.2 Scomposizione additiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380

11

Valutazione dei modelli di Sales Forecasting . . . . . . . . . . . . . . . . . . . 381 11.1 Accuratezza previsionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 11.1.1 Valutazione dei modelli di sales forecasting . . . . . . . . . . . . . . . 381 11.1.2 Intervalli di analisi e previsione . . . . . . . . . . . . . . . . . . . . . . . . . . 382 11.1.3 Deﬁnizione e modalit` a di calcolo della forecast accuracy . . . . 385 11.1.4 Analisi della forecast accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . 386 11.2 Metriche per l’accuratezza previsionale . . . . . . . . . . . . . . . . . . . . . . . . . 387 11.2.1 Classiﬁcazione delle misure di forecast error . . . . . . . . . . . . . . . 387 11.2.2 Ambiti di utilizzo delle misure di forecast error . . . . . . . . . . . . 388 11.2.3 Misure puntuali di errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 11.2.4 Misure di distorsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 11.2.5 Misure di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

Indice

XI

11.2.6 Esempio applicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 11.3 Utilizzo delle metriche di forecast accuracy . . . . . . . . . . . . . . . . . . . . . 396 11.3.1 Monitoraggio degli errori di previsione . . . . . . . . . . . . . . . . . . . 396 11.3.2 Forecast Benchmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 11.3.3 Scelta del livello di calcolo del Sales Forecast . . . . . . . . . . . . . . 402 12

Time Series Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 12.1 Introduzione al Time Series Forecasting . . . . . . . . . . . . . . . . . . . . . . . . 405 12.1.1 Generazione del Sales Forecast . . . . . . . . . . . . . . . . . . . . . . . . . . 405 12.1.2 Fasi del processo di Sales Forecasting . . . . . . . . . . . . . . . . . . . . 406 12.1.3 Classiﬁcazione dei modelli di Time Series Forecasting . . . . . . 408 12.1.4 Domanda oggetto di previsione . . . . . . . . . . . . . . . . . . . . . . . . . . 410 12.2 Medie mobili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 12.2.1 Naive forecasting e media aritmetica . . . . . . . . . . . . . . . . . . . . . 412 12.2.2 Media mobile semplice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 12.2.3 Media mobile pesata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 12.3 Smorzamento esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 12.3.1 Smorzamento esponenziale semplice . . . . . . . . . . . . . . . . . . . . . . 416 12.3.2 Esempio applicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 12.4 Modello di Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 12.4.1 Modello di Holt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 12.4.2 Modello di Holt a tendenza smorzata . . . . . . . . . . . . . . . . . . . . 421 12.4.3 Modello moltiplicativo di Winters . . . . . . . . . . . . . . . . . . . . . . . 422 12.4.4 Inizializzazione del modello di Holt-Winters . . . . . . . . . . . . . . . 425 12.4.5 Best-ﬁt parametrico per il modello di Holt-Winters . . . . . . . . 426 12.4.6 Modello additivo di Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 12.5 Modello Time Series Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 12.5.1 Ricomposizione moltiplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 12.5.2 Esempio applicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 12.6 Combinazione di modelli di Sales Forecasting . . . . . . . . . . . . . . . . . . . 432 12.7 Intervallo di conﬁdenza per il Sales Forecast . . . . . . . . . . . . . . . . . . . . 435 12.8 Deﬁnizione del piano non vincolato di domanda . . . . . . . . . . . . . . . . . 436 12.8.1 Demand Netting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 12.8.2 Consensus Based Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . 438

13

Modelli per serie storiche irregolari . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 13.1 Prevedibilit` a delle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 13.1.1 Irregolarit` a delle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . 441 13.1.2 Cause di irregolarit` a nella domanda . . . . . . . . . . . . . . . . . . . . . . 444 13.1.3 Forecastability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 13.1.4 Modelli per serie storiche irregolari . . . . . . . . . . . . . . . . . . . . . . 446 13.2 Modelli di traslazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 13.2.1 Shift temporale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 13.2.2 Proﬁlazione di quantit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 13.2.3 Estensione alle serie sporadiche periodiche . . . . . . . . . . . . . . . . 450

XII

Indice

13.3 Modello di Croston . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 13.3.1 Versione base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 13.3.2 Versione modiﬁcata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 13.4 Modello di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 13.4.1 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 13.4.2 Algoritmo di previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 13.5 New product forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 13.5.1 Ciclo di vita dei prodotti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 13.5.2 Applicazione di pattern di vendita . . . . . . . . . . . . . . . . . . . . . . . 458 13.5.3 Forecasting per analogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 13.5.4 Altri modelli per il new product forecasting . . . . . . . . . . . . . . . 461 13.6 Classiﬁcazione di serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 13.6.1 Time Series Automatic Classiﬁcation . . . . . . . . . . . . . . . . . . . . 463 13.6.2 Test di sparsit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 13.6.3 Test di periodicit`a stagionale . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 13.6.4 Test di regolarit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 13.6.5 Matrice di classiﬁcazione delle serie storiche . . . . . . . . . . . . . . . 468 13.7 Gestione dei calendari di vendita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 14

Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 14.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 14.1.1 Deﬁnizione di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . 471 14.1.2 Correlazione e causalit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 14.1.3 Modelli per l’apprendimento supervisionato . . . . . . . . . . . . . . . 473 14.1.4 Regression based forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 14.2 Applicazioni di regressione per il Demand Planning . . . . . . . . . . . . . . 476 14.3 Variabili indipendenti e dipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 14.3.1 Tipologie di variabili indipendenti . . . . . . . . . . . . . . . . . . . . . . . 477 14.3.2 Tipologie di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . 479 14.3.3 Struttura del dataset per la regressione lineare . . . . . . . . . . . . 480 14.3.4 Intervalli temporali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 14.4 Regressione lineare semplice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 14.4.1 Impostazione formale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 14.4.2 Interpretazione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 14.4.3 Calcolo dei coeﬃcienti di regressione . . . . . . . . . . . . . . . . . . . . . 490 14.4.4 Ritardo temporale nella correlazione . . . . . . . . . . . . . . . . . . . . . 493 14.4.5 Analisi di trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 14.4.6 Analisi di stagionalit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496 14.4.7 Analisi di ciclicit` a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 14.5 Regressione lineare multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 14.5.1 Impostazione formale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 14.5.2 Analisi marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 14.5.3 Attributi esplicativi categorici . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 14.6 Misure di prestazione per la regressione lineare . . . . . . . . . . . . . . . . . . 502 14.6.1 Classiﬁcazione delle misure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502

Indice

XIII

14.6.2 Coeﬃciente di correlazione lineare . . . . . . . . . . . . . . . . . . . . . . . 503 14.6.3 Coeﬃciente di determinazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 507 14.6.4 Coeﬃciente di determinazione “adjusted” . . . . . . . . . . . . . . . . 509 14.6.5 Intervallo di conﬁdenza per la variabile target . . . . . . . . . . . . . 510 14.7 Selezione delle variabili indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 14.7.1 Linearit` a del modello di regressione . . . . . . . . . . . . . . . . . . . . . . 512 14.7.2 Multicollinearit` a delle variabili indipendenti . . . . . . . . . . . . . . 513 14.7.3 Algoritmi per la costruzione dei modelli di regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515

Parte IV Supply Chain Planning 15

Supply Chain Planning: distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . 521 15.1 Store Replenishment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521 15.1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521 15.1.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523 15.1.3 Estensioni del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 15.2 Store Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 15.2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 15.2.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 15.2.3 Estensioni del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 15.3 Capacitated Facility Location Problem . . . . . . . . . . . . . . . . . . . . . . . . . 543 15.3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 15.3.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 15.3.3 Estensioni del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 15.4 Vehicle Routing Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 15.4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 15.4.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 15.4.3 Estensioni del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 15.5 Pick-up & Delivery Vehicle Routing Problem . . . . . . . . . . . . . . . . . . . . 555 15.5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555 15.5.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556

16

Supply Chain Planning: produzione . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 16.1 Production Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 16.1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 16.1.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560 16.2 Demand Backlogging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568 16.2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568 16.2.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 570 16.2.3 Estensioni del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573 16.3 Promotion Proﬁtability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576 16.3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576 16.3.2 Modello matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578

XIV

Indice

16.4 Inventory Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582 16.4.1 Gestione delle scorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582 16.4.2 Metodologie di riordino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586 16.4.3 Dimensionamento della scorta di sicurezza . . . . . . . . . . . . . . . . 588 Bibliograﬁa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593 Indice analitico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595

Introduzione

Questo volume descrive i processi di business, le metodologie gestionali di supporto ed i modelli matematici per l’analisi, la previsione ed il controllo della domanda commerciale, relativa alle vendite dei prodotti ﬁniti realizzati dalle aziende manifatturiere, distribuiti dagli operatori logistici lungo i canali commerciali della distribuzione, attraverso i nodi di transito della rete logistica ﬁno a raggiungere i clienti, rappresentati da aziende industriali e consumatori ﬁnali che acquistano tali beni. I processi di Demand Planning si collocano all’interno dei cicli di pianiﬁcazione e controllo di Sales & Operations Planning, i quali hanno l’obiettivo di formulare piani di domanda, di produzione, di distribuzione, di reintegro delle scorte, di allocazione di quantit` a di prodotti ﬁniti presso i punti vendita della rete distributiva. La deﬁnizione del piano di domanda (budget delle vendite) dei prodotti ﬁniti sui mercati, indicante le quantit`a di vendita di ciascun articolo, in ogni locazione di vendita e per tutti i periodi dell’orizzonte di pianiﬁcazione, costituisce un processo di importanza strategica nelle attivit` a di Supply Chain Planning, in quanto da esso dipendono le decisioni operate nella costruzione dei piani delle attivit` a esecutive di produzione e di distribuzione, trasporto e rifornimento dei prodotti presso i punti di contatto con il cliente ﬁnale. Alcune aziende di produzione di manufatti industriali o di servizi svolgono periodicamente attivit` a d’analisi delle serie storiche della domanda commerciale espressa nel passato dai propri clienti, con strumenti di calcolo elementari o metodi matematici soﬁsticati, al ﬁne di trarre informazioni utili e conoscenze sui segmenti prodotto-mercato, idonee a supportare il conseguente processo di previsione della domanda futura. Generare stime di vendita accurate aiuta i responsabili della pianiﬁcazione della produzione, della distribuzione e degli acquisti a deﬁnire piani operativi di Sales & Operations Planning eﬃcaci, in relazione all’erogazione di un adeguato livello di servizio al cliente, ed internamente eﬃcienti nell’utilizzo delle risorse logistiche e produttive impiegate nelle attivit`a operative di fabbricazione, assemblaggio, confezionamento, stoccaggio, trasporto e consegna dei prodotti ﬁniti ai clienti.

2

Introduzione

Il libro aﬀronta le tematiche di Demand Planning secondo diﬀerenti punti di vista, fra loro integrati: • contesto industriale: le attivit` a di Demand Planning sono inserite nel contesto di business della gestione delle operations (Supply Chain Management); • contesto operativo: i processi decisionali di Demand Planning sono descritti seguendo ﬂussi di lavoro di riferimento, pi` u comunemente utilizzati nella deﬁnizione dei piani di domanda (Sales Forecast, Marketing Plan, Sales Budget, Demand Plan), nell’analisi delle vendite storiche, nella deﬁnizione delle campagne di marketing per incentivare le vendite in speciﬁci segmenti prodotto-mercato; • contesto organizzativo: i processi di Demand Planning trovano naturale collocazione all’interno delle strutture organizzative aziendali interne, a vocazione funzionale, ed esterne, di tipo reticolare, comprendenti gruppi di aziende di Produzione e Logistica cooperanti nella deﬁnizione dei piani operativi e delle regole di gestione della Supply Chain Network; • infrastruttura informativa: applicativi informatici di tipo gestionale, quali i sistemi Enterprise Resource Planning e Advanced Planning & Scheduling, ed i sistemi di memorizzazione dei dati storici (Data Warehousing) supportano ed abilitano l’implementazione dei processi di Demand Planning, presidiati dalle funzioni organizzative e da speciﬁche ﬁgure professionali (i demand planner ); • contesto metodologico: le decisioni di Demand Planning risultano pi` u eﬃcaci se prese mediante il supporto di metodologie quantitative, modelli matematici ed algoritmi per l’analisi dei dati di domanda e la formulazione dei piani previsionali di vendita nei periodi dell’orizzonte di pianiﬁcazione delle operations aziendali. La disciplina gestionale del Demand Planning `e collocata all’interno delle attivit` ae dei processi decisionali ed esecutivi del ciclo di pianiﬁcazione e controllo di Sales & Operations Planning, sia dal punto di vista dei riferimenti bibliograﬁci disponibili in letteratura, sia per quanto concerne la strutturazione di insegnamenti universitari e corsi di formazione rivolti alle aziende operanti, a vari livelli e con diﬀerenti focalizzazioni, nell’universo del Supply Chain Management. La bibliograﬁa attuale aﬀronta le tematiche complesse di Demand Planning secondo punti di vista parziali, focalizzando la trattazione su speciﬁci aspetti della gestione della domanda commerciale, classiﬁcabili secondo tre ﬁloni principali: • la descrizione qualitativa dei processi e dei task caratterizzanti le attivit` a di previsione della domanda, nonch´e le relazioni di input/output che uniscono le attivit` a di Demand Planning a quelle di Production & Distribution Planning; • l’analisi quantitativa dei modelli matematici di Sales Forecasting per la generazione delle previsioni statistiche di vendita, basate sull’analisi delle regolarit` a presenti nelle serie storiche di domanda; • l’analisi descrittiva degli strumenti informativi aziendali a supporto delle attivit` a ordinarie della gestione operativa (order entry, order management, cicli attivo e passivo).

Introduzione

3

Sul fronte delle metodologie matematiche di supporto ai processi aziendali (non soltanto relativi al Supply Chain Management), il recente sviluppo dei modelli di Business Intelligence e di Data Mining suggerisce molteplici ed interessanti applicazioni ﬁnalizzate al miglioramento continuo delle attivit` a di Demand Planning a forte contenuto decisionale, concernenti la formulazione dei piani di domanda e di riassortimento delle gamme commerciali di vendita. La letteratura specialistica su tali temi si limita in prevalenza alla descrizione, puntuale ed accurata, dei modelli e degli algoritmi di Data Mining, con brevi accenni ai campi di possibile utilizzo di tali classi di metodi a contesti applicativi anche signiﬁcativamente diﬀerenti fra loro. ` profonda convinzione dell’Autore ritenere che la disciplina gestionale del Demand E Planning necessiti di una trattazione completa ed integrata, includente • l’analisi del contesto operativo, • lo studio dei processi e dei ﬂussi di lavoro implementati nelle aziende della Supply Chain, • le modalit` a organizzative di generazione collaborativa, diﬀusione e sincronizzazione dei piani di domanda, • la disamina dei sistemi informativi, delle metodologie gestionali e dei modelli matematici a supporto delle decisioni di Demand Planning. Il libro Demand Planning tratta in modo sistematico e con adeguato livello di approfondimento i processi, l’organizzazione e l’infrastruttura tecnologica delle attivit` a di gestione della domanda commerciale, classiﬁcando le diverse attivit`a all’interno di quattro macroprocessi gestionali: 1. Demand Analytics: analisi consuntiva ed interpretativa dei dati storici di domanda orientata al reporting direzionale, valutazione delle performance conseguite sul fronte delle vendite e del servizio al cliente, attuata con strumenti di Business Intelligence e Data Browsing; 2. Demand Intelligence: analisi quantitativa della domanda storica mediante modelli di Data Mining, ﬁnalizzata all’estrazione di conoscenze signiﬁcative, non banali, giustiﬁcabili ed a valore aggiunto, per meglio condurre le successive attivit` a di pianiﬁcazione della domanda futura; 3. Sales Forecasting: generazione dei piani di domanda, mediante applicazione di algoritmi di Time Series Forecasting e Regressione Lineare; 4. Marketing Intelligence: deﬁnizione di campagne promozionali su speciﬁci segmenti prodotto-mercato, sfruttando i risultati ottenuti dalle analisi di Demand Intelligence. I processi di Demand Planning inquadrati nelle quattro categorie sono supportati da metodi e modelli matematici, descritti approfonditamente nelle due sezioni centrali del libro: l’utilizzo sinergico dei modelli di Business Intelligence e Sales Forecasting oﬀre opportunit` a nuove ai demand planner, il cui compito primario consiste nella formulazione di stime di domanda il pi` u possibile accurate, veritiere ed aﬃdabili.

4

Introduzione

Struttura dell’opera Il libro `e diviso in quattro sezioni ed `e articolato in 16 capitoli. La prima sezione, Processi, organizzazione e sistemi informativi di Demand Planning, composta dai capitoli 1, 2, 3 e 4, oﬀre un quadro introduttivo del contesto operativo in cui si svolgono i processi aziendali di Demand Planning. La gestione della domanda commerciale viene collocata nell’ambito dei processi di progettazione e gestione della Supply Chain. I processi di Demand Planning vengono descritti in dettaglio, con riferimento ai ﬂussi di lavoro tipici, ai ruoli organizzativi delle diverse ﬁgure professionali coinvolte, alle metodologie gestionali di supporto ed agli strumenti informatici di automazione delle attivit` a, a forte contenuto decisionale, locali ai macroprocessi di Demand Analytics, Demand Intelligence, Sales Forecasting e Marketing Intelligence. Il capitolo 1 colloca i processi di Demand Planning all’interno delle strutture reticolari chiamate Supply Chain Network, dichiarando l’oggetto di indagine del libro nell’ambito dei processi di Sales & Operations Planning. Il capitolo 2 analizza i processi decisionali ed operativi di Demand Planning, il capitolo 3 inserisce tali processi all’interno dei reticoli organizzativi aziendali, il capitolo 4 descrive l’infrastruttura informatica e gli applicativi software di gestione dei processi di Demand Planning. Evidente `e la natura descrittivo-divulgativa dei primi quattro capitoli, accessibili anche da parte di lettori che non posseggano soﬁsticate conoscenze di Algebra Lineare, di Statistica descrittiva ed inferenziale e dei metodi di ottimizzazione lineare della Ricerca Operativa, fortemente consigliate per comprendere eﬃcacemente i modelli, gli algoritmi e le tecniche matematiche presentate nelle tre sezioni successive. Gli studenti universitari dei Corsi di Laurea di primo livello delle Facolt`a a contenuto economico-scientiﬁco (Ingegneria Gestionale, Ingegneria della Produzione e della Logistica, Economia aziendale) possono facilmente accostarsi all’analisi dei contenuti della prima sezione, nell’ambito degli insegnamenti didattici di base sui temi di Supply Chain Management e Sales & Operations Planning, nei quali si aﬀronta l’analisi della domanda commerciale e delle relative metodologie di previsione in modo prevalentemente descrittivo, accennando eventualmente ad alcuni modelli quantitativi di Sales Forecasting contenuti nei capitoli 11 e 12 della terza sezione. La seconda sezione del libro, Modelli e algoritmi di Business Intelligence, include i capitoli 5, 6, 7, 8 e 9, ed ha come oggetto la trattazione delle metodologie e dei modelli matematici di Business Intelligence, calati nel contesto operativo del Demand Planning attraverso la classiﬁcazione dei modelli nelle due macroclassi denominate Demand Analytics e Demand Intelligence. La prima classe include le tecniche di analisi multidimensionale dei dati relativi ai piani di domanda ed alle rilevazioni storiche delle vendite: data browsing (capitolo 5), analisi statistica (capitolo 6) e metriche di performance per il Demand Planning (capitolo 6). La seconda classe di modelli riguarda i metodi di Data Mining per l’estrazione di conoscenze signiﬁcative ed a valore aggiunto dai dati di domanda archiviati ed organizzati nelle strutture di memorizzazione dei datawarehouse: modelli di clu-

Introduzione

5

stering (capitolo 7), algoritmi per l’identiﬁcazione di regole associative (capitolo 8) e per la classiﬁcazione di segmenti prodotto-mercato (capitolo 9). Questa sezione `e utile agli studenti interessati alla conoscenza delle metodologie di Business Intelligence, Data Mining, Data Warehousing, nell’ambito di insegnamenti didattici omonimi tenuti presso i Corsi di Laurea di primo e di secondo livello nelle Facolt` a di Ingegneria, Scienze dell’Informazione, Statistica o nei Corsi Master delle Facolt` a di Economia aziendale. La terza sezione, Modelli e algoritmi di Sales Forecasting, include i capitoli 10, 11, 12, 13 e 14, relativi alla presentazione dei modelli matematici di Sales Forecasting, relativi alla previsione statistica della domanda commerciale per i prodotti della gamma aziendale. Alcune parti di questa sezione sono tradizionali, capillarmente conosciute e diﬀuse nelle aziende di Supply Chain Management, irrinunciabili per una trattazione completa delle tematiche di Demand Planning. Accanto a contenuti consolidati nell’ambito della previsione statistica della domanda (i modelli per il Time Series Forecasting nel capitolo 12, le metriche di forecast accuracy nel capitolo 11, le tecniche di regressione lineare nel capitolo 14), i capitoli 10 e 13 contengono aspetti comunemente poco trattati nei corsi universitari inerenti al Supply Chain Management: l’analisi delle serie storiche, le metodologie di Sales Cleaning, i modelli di previsione per serie storiche irregolari, particolarmente diﬃcili da trattare, nel calcolo delle previsioni statistiche. Questa sezione del libro pu` o essere utilmente fruita da studenti universitari che desiderino approfondire i contenuti di base relativi ai modelli di Sales Forecasting, tradizionalmente presentati negli insegnamenti didattici di primo livello relativi alle operations della Produzione e della Logistica, talvolta semplicemente accennati in quanto relegati all’interno di una sola “sezione” descrittiva. Conoscenze base di statistica descrittiva sono richieste per un’adeguata comprensione degli aspetti matematici dei modelli trattati; un valido testo per l’apprendimento di tali contenuti `e indicato in Bibliograﬁa al riferimento [22]. La quarta ed ultima sezione del libro, Supply Chain Planning, composta dai capitoli 15 e 16, propone una rassegna di modelli di ottimizzazione lineare, applicabili nell’ambito dei processi decisionali di Supply Chain Planning, per la progettazione e la gestione delle attivit` a di produzione dei prodotti ﬁniti, distribuzione verso i nodi logistici della Supply Chain Network. A conclusione del capitolo 16, vengono illustrate le pi` u comuni metodologie per la gestione delle scorte (inventory planning). Il piano di domanda rappresenta il principale input per tali modelli, il cui obiettivo consiste nella formulazione di piani di produzione, distribuzione, promozione ed allocazione della domanda ottimali, con riferimento ad una funzione obiettivo da massimizzare o minimizzare, nel rispetto di un sistema di vincoli relativi alle condizioni di funzionamento dei sistemi produttivi e distributivi. Lo studio dei modelli di Supply Chain Planning `e consigliabile agli studenti delle Facolt`a di Ingegneria Gestionale, Ingegneria della Produzione e della Logistica come approfondimento, in insegnamenti didattici della Laurea Magistrale, rispetto ai contenuti di base di Sales & Operations Planning acquisti nei corsi di Supply Chain Management di primo livello. Prerequisito indispensabile per la compren-

6

Introduzione

sione dei modelli presentati `e la conoscenza delle metodologie di Programmazione Lineare Continua e Intera, reperibili nei numerosi testi universitari di Ricerca Operativa, fra i quali si consiglia il volume di cui al riferimento bibliograﬁco [31]. Ad eccezione della trattazione dei metodi di gestione delle scorte, i due capitoli contengono modelli di programmazione lineare, continua o a numeri interi, per la rappresentazione dei sistemi logistico-produttivi orientati alla conduzione ottimale delle attivit` a di Sales & Operations Planning. Tale famiglia di metodi matematici della Ricerca Operativa `e in grado di modellizzare con elevata accuratezza numerose classi di problemi di Supply Chain Management: da quelli di progettazione dei sistemi integrati di reti logistico-produttive e logistico-distributive, ai problemi di formulazione dei piani operativi di produzione, distribuzione, allocazione, replenishment. I punti di forza della programmazione lineare risiedono nella capacit` a di modellizzare obiettivi e vincoli di Supply Chain Management in modo ﬂessibile, scalabile e modulare, e nella capacit` a di esprimere tramite equazioni e disequazioni lineari una molteplicit` a di condizioni operative di logistica e di produzione. In ciascuno dei modelli presentati si fa esplicito riferimento al ruolo svolto dalla domanda, e dalle relative stime predittive, a ribadire l’importanza di un’eﬃcace conduzione dei processi di Demand Planning, nelle fasi decisionali di Demand Analytics, Demand Intelligence, Sales Forecasting e Marketing Intelligence. Contenuto dei capitoli Il capitolo 1 presenta lo scenario industriale entro cui i processi ed i ﬂussi di lavoro di Demand Planning trovano naturale collocazione: Supply Chain Management. Le catene logistico-produttive vengono caratterizzate per tipologia di soggetti aziendali, relazioni di business che le governano, modalit` a di scambio informativo fra decisori. Le decisioni di Demand Planning vengono collocate all’interno dei processi di progettazione della struttura della Supply Chain Network e delle attivit` a operative di pianiﬁcazione, esecuzione e controllo dei ﬂussi informativi, ﬁsici e commerciali fra i nodi della rete logistico-produttiva. Il capitolo 2 descrive la struttura ed il contenuto di lavoro dei processi che si svolgono nell’ambito del Demand Planning, inquadrandoli nel paradigma concettuale del Sales & Operations Planning. La deﬁnizione degli obiettivi e delle modalit` a di lavoro avviene in accordo con lo schema generale che distingue i processi di Demand Planning in attivit` a di Demand Analytics, Demand Intelligence, Sales Forecasting e Marketing Intelligence. All’interno del capitolo vengono illustrate le diﬀerenze operative fra le diverse tipologie di piani di domanda: sales budget, sales target, sales forecast, demand plan. Il capitolo 3 descrive l’organizzazione aziendale che abilita i processi di Demand Planning. Partendo dalla deﬁnizione dei ﬂussi di lavoro, di tipo orizzontale o verticale, in cui si articolano i processi decisionali di Demand & Supply Chain Planning, si analizzano le modalit` a organizzative di redazione dei piani di domanda, evidenziando i fabbisogni informativi di ciascuna funzione aziendale e caratterizzando la ﬁgura professionale dei demand planner. I modelli organizzativi di Demand Planning vengono classiﬁcati secondo tre ﬁloni di analisi: modelli organizzativi interni, in cui il coordinamento avviene nell’ambito delle funzioni aziendali (specialized,

Introduzione

7

multiple, consensus based forecasting), metodi collaborativi per il qualitative forecasting, modelli interaziendali di Demand & Inventory Planning, per lo sviluppo collaborativo di piani di domanda, produzione, distribuzione e riassortimento fra partner della Supply Chain (Vendor Managed Inventory, Collaborative Planning, Forecasting & Replenishment). Il capitolo 4 aﬀronta il tema dei sistemi informativi di Demand Planning. Le caratteristiche peculiari dei sistemi Enterprise Resource Planning, Advanced Planning & Scheduling, Data Warehousing e Workﬂow Management sono descritte, in relazione alla tipologia di dati di Demand Planning utilizzati dai demand planner e dai sales analyst nel corso dei processi di analisi e previsione della domanda commerciale. L’architettura multidimensionale dei dati di domanda `e rappresentata, in termini di dimensioni di analisi, gerarchie di navigazione, entit` a e metriche di performance. Il capitolo 5 descrive le metodologie di navigazione multidimensionale sui dati quantitativi di Demand Planning. Dopo aver classiﬁcato le metodologie ed i modelli di Business Intelligence, distinguendo fra applicazioni di Data Browsing multidimensionale ed algoritmi di Data Mining per la scoperta di conoscenza nei dati, il capitolo descrive le pi` u comuni operazioni di analisi dei dati storici di domanda, compiute quotidianamente dai demand planner : aggregazione, consolidamento, ripartizione ed allocazione delle quantit` a dei piani di domanda. Il capitolo 6 `e suddiviso in due parti. Nella prima, vengono presentate le metriche di analisi statistica dei dati storici di domanda, distinguendo fra operatori matematici per l’analisi univariata e bivariata. Nella seconda, si passa alla descrizione di sistemi di Key Performance Indicators per l’analisi di fatturato (Sales Analysis) e per la valutazione del servizio erogato ai clienti (Customer Service). Il capitolo 7, primo dei tre dedicati ai modelli matematici di Data Mining, descrive gli algoritmi per il clustering di segmenti prodotto-mercato, in relazione alle caratteristiche assunte da sistemi di attributi descrittivi e quantitativi associati alle entit` a oggetto di classiﬁcazione. Dopo aver analizzato le principali tecniche di trattamento e normalizzazione dei valori associati a diﬀerenti tipologie di attributi, sono presentati dettagliatamente gli algoritmi di agglomerazione e delle K-medie, nonch´e le metriche di valutazione della bont` a di raggruppamento dei segmenti nei cluster. Il capitolo 8 illustra i modelli matematici per la deﬁnizione di regole associative di acquisto congiunto di prodotti da parte dei clienti nei punti vendita della distribuzione. Le regole associative sono classiﬁcate in statiche e dinamiche, in relazione alla loro dipendenza temporale. Per le prime, l’algoritmo Apriori viene descritto e corredato da esempi numerici; per le seconde, viene presentato un algoritmo per la gestione delle regole sequenziali basato sui processi stocastici propri delle catene di Markov. Il capitolo 9 illustra i modelli di classiﬁcazione di segmenti prodotto-mercato in classi distinte formate dai valori di attributi categorici, utilizzando le tecniche basate sugli alberi di classiﬁcazione e sui classiﬁcatori bayesiani. Sono presentate le principali metriche di classiﬁcazione, insieme ad esempi applicativi ed alle modalit` a di rappresentazione dei risultati in report analitici.

8

Introduzione

Il capitolo 10 `e dedicato all’analisi delle serie storiche di domanda, ed `e il primo di cinque capitoli dedicati ai modelli matematici di Sales Forecasting. Il capitolo `e suddiviso in tre parti: nella prima, le serie storiche vengono classiﬁcate in tipologie, analizzandone le caratteristiche quantitative attraverso lo studio delle componenti di regolarit` a; nella seconda, si passa all’analisi delle metodologie quantitative per la pulizia statistica delle serie storiche di domanda; inﬁne, nella terza parte sono presentati due metodi di separazione delle componenti regolari (tendenza, stagionalit` a e ciclicit`a) delle serie storiche. Il capitolo 11 elenca le metriche di valutazione dell’accuratezza predittiva dei modelli di Time Series Forecasting. Alla tradizionale rassegna delle metriche puntuali e globali, di distorsione e di dispersione, si aggiunge la disamina di ambiti applicativi di utilizzo di cruscotti di Forecast Accuracy: monitoraggio temporale degli errori di previsione, benchmarking fra modelli alternativi, selezione del livello di calcolo delle previsioni della domanda commerciale. Il capitolo 12, centrale nella trattazione dei modelli di Sales Forecasting, analizza i principali modelli di previsione della domanda applicati alle serie storiche continue e regolari: medie mobili, smorzamento esponenziale, modello di Holt-Winters, modelli basati su scomposizione della domanda nelle componenti principali. Di ciascun modello si forniscono le equazioni deﬁnitorie, gli ambiti pi` u appropriati di utilizzo, le principali limitazioni; il tema dell’ottimizzazione parametrica `e aﬀrontato con riferimento al modello di Holt-Winters. Il capitolo 13 presenta i modelli di previsione per serie storiche caratterizzate da irregolarit` a nella sequenza dei valori di domanda. Avendo individuato le principali cause di sporadicit` a nella domanda, si analizzano i modelli di traslazione, i modelli di Croston e Poisson, le tecniche di previsione della domanda per nuovi prodotti, per i quali non si dispone di dati storici di vendita. A conclusione del capitolo, viene proposta una sintesi dei concetti espressi nei capitoli 12 e 13, presentando un algoritmo per il riconoscimento e la classiﬁcazione automatica delle serie storiche di domanda. Il capitolo 14 conclude la trattazione dei modelli matematici di Sales Forecasting, presentando la classe di metodi di regressione lineare. Dall’analisi delle applicazioni di tali modelli ai processi di Demand Planning, si passa a deﬁnire le variabili indipendenti e dipendenti, i concetti di correlazione e causalit` a, i modelli per la regressione lineare semplice e multipla. Il capitolo si conclude con la descrizione delle metriche di forecast accuracy per valutare la bont` a predittiva dei modelli di regressione, e delle metodologie di selezione delle variabili indipendenti da includere nei modelli regressivi. Gli ultimi due capitoli del libro sono dedicati alle applicazioni di Demand Planning nell’ambito dei processi di pianiﬁcazione delle attivit` a operative della Supply Chain (Supply Chain Planning). Il capitolo 15 presenta alcuni modelli per la progettazione e la gestione dei sistemi distributivi: store replenishment, store allocation, facility location problem, vehicle routing problem. Il capitolo 16 `e dedicato ai modelli di programmazione della produzione (production planning), delle promozioni di vendita (promotion proﬁtability) e di ge-

Introduzione

9

stione delle scorte nelle diverse locazioni produttive e distributive (inventory planning); `e inoltre analizzato un modello per la gestione dei ritardi di consegna al cliente (demand backlogging). Indicazioni bibliograﬁche Il libro Demand Planning rappresenta una rielaborazione dell’Autore di temi operativi di Supply Chain Management, Supply Chain Planning, Demand Planning, aﬀrontati con l’ausilio delle metodologie e dei modelli matematici di Business Intelligence, Data Mining e Sales Forecasting. I lettori interessati ad avere riferimenti bibliograﬁci sulle tematiche gestionali e metodologiche coperte da questo libro possono analizzare le diverse voci elencate nella Bibliograﬁa ﬁnale. Per lo studio degli aspetti generali dei processi di Supply Chain Management, sui versanti della Logistica distributiva e della Logistica di produzione, si segnalano i volumi [4] Brandolese-Pozzetti-Sianesi e [5] Cavalieri-Pinto. Il testo [20] Mentzer-Moon rappresenta un valido riferimento per l’analisi descrittiva dei processi e delle best practices aziendali di Sales Forecasting. Con riferimento alle metodologie matematiche utilizzate nelle sezioni seconda e terza di questo volume, si segnalano due testi di assoluta eccellenza nei rispettivi campi di studio: • [30] Vercellis, per le metodologie quantitative di Business Intelligence e Data Mining; • [18] Makridakis-Wheelwright-Hyndman, per i modelli matematici di Sales Forecasting. Il lettore interessato ad ulteriori indicazioni bibliograﬁche in relazione a speciﬁci temi contenuti nei capitoli di questo libro pu` o contattare l’Autore, all’indirizzo di posta elettronica: [email protected] Destinatari dell’opera Il libro si rivolge a due categorie principali di lettori: studenti universitari delle Facolt` a scientiﬁco-ingegneristiche e professionisti aziendali di Demand Planning e Supply Chain Management. L’utilit` a del testo per il primo gruppo di lettori `e stata delineata in precedenza, descrivendo le quattro sezioni in cui il libro `e articolato. In ambito accademico, il testo pu` o essere utilizzato anche per preparare seminari e moduli di approfondimento all’interno degli insegnamenti didattici relativi ai processi di Supply Chain Management. I professionisti aziendali che possono trarre beneﬁcio, a vario titolo e con differente grado di approfondimento, dalla lettura del libro sono i responsabili delle attivit` a di Produzione e Logistica delle aziende industriali e commerciali e coloro che presidiano i processi di pianiﬁcazione della domanda commerciale (demand planner, sales analyst), i quali possono incrementare il proprio bagaglio conoscitivo circa l’universo del Demand Planning attraverso l’analisi di speciﬁci processi, metodi gestionali e modelli matematici presentati in questo libro.

10

Introduzione

Il frequente ricorso ad esempi numerici a corredo della trattazione formale delle metodologie e dei modelli quantitativi serve ad agevolare i lettori nella comprensione delle parti a maggiore contenuto tecnico presenti nel testo. Milano, maggio 2008

Damiano Milanato

Parte I

Processi, organizzazione e sistemi informativi di Demand Planning

1 Demand Planning e Supply Chain Management

Introduzione al Demand Planning – Supply Chain Management – Progettazione e gestione della Supply Chain – Motivazioni gestionali per il Demand Planning – Fattori critici di successo per il Demand Planning

1.1 Introduzione al Demand Planning 1.1.1 Deﬁnizione di Demand Planning Le moderne aziende industriali progettano, producono e distribuiscono prodotti ﬁniti e servizi da immettere nei mercati ﬁnali di vendita, dove i clienti manifestano la volont` a di acquisto per tali prodotti e servizi, recandosi presso le strutture preposte alla vendita diretta, nel caso dei consumatori ﬁnali, o stipulando accordi e contratti di acquisto con i fornitori di beni intermedi, nel caso in cui i clienti siano altre aziende industriali. Tali aziende operano all’interno di strutture complesse ed articolate chiamate Supply Chain (catene logistico-produttive di fornitura), formate da sistemi cooperanti di imprese di produzione e distribuzione che interscambiano fra loro prodotti, informazioni di business e conoscenza circa i comportamenti di acquisto dei clienti appartenenti alla ﬁliera, nonch´e denaro derivante dalle transazioni commerciali di compravendita di prodotti e servizi. Ogni azienda industriale che opera nel campo della fornitura di materie prime, della produzione di componenti e manufatti industriali o nel settore della distribuzione di beni materiali o servizi presso i mercati si trova quotidianamente nella necessit`a di dover eﬀettuare stime relative all’entit`a della futura domanda commerciale che presumibilmente verr`a espressa dai soggetti fruitori di tali beni. Il processo aziendale di deﬁnizione del piano temporale di domanda, relativo a tutti i prodotti della gamma commercializzata dall’azienda e per tutti i clienti e le tipologie di canali distributivi, svolge un ruolo chiave nel supportare ed alimentare altri processi aziendali di pianiﬁcazione dell’utilizzo delle risorse disponibili per la realizzazione ﬁsica e la distribuzione dei prodotti sui mercati di vendita. Il piano aziendale di domanda (demand plan) si esprime attraverso la deﬁnizione delle quantit` a di vendita pianiﬁcate per i prodotti appartenenti al mix, nei periodi futuri dell’orizzonte temporale di riferimento per la programmazione logistico-produttiva; tali quantit` a sono anche ripartite sulle diverse tipologie di clienti dell’azienda, serviti attraverso speciﬁci canali distributivi. Il piano di doMilanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

14

1 Demand Planning e Supply Chain Management

manda, periodicamente formulato dalle funzioni aziendali preposte, rappresenta il commitment aziendale circa il volume di vendite da sostenere nel futuro, al ﬁne di soddisfare massimamente le aspettative dei clienti, fornendo loro un adeguato livello di servizio, ed ottenere adeguati margini di proﬁtto, generando redditivit` a per l’impresa e incrementando la quota di mercato a danno di aziende competitor. Con il termine Demand Planning si intende deﬁnire l’insieme dei processi aziendali, delle metodologie gestionali e delle tecniche quantitative atte a supportare la deﬁnizione del piano di domanda delle aziende industriali e commerciali, opportunamente collocate in Supply Chain multistadio, multilivello, a diﬀerente grado di integrazione collaborativa fra i partner della ﬁliera logistico-produttiva. La disciplina del Demand Planning ha come oggetto la deﬁnizione e lo studio dei processi di business che si occupano di: • generazione delle previsioni di vendita (sales forecasting) per i prodotti presso i clienti; • generazione del budget aziendale delle vendite (sales budgeting) ad opportuni livelli di aggregazione su prodotti, mercati e periodi; • formulazione del piano ﬁnale di domanda (demand plan), vincolato alle disponibilit` a produttive e distributive reperibili in azienda nel breve-medio periodo, da condividere e diﬀondere all’interno delle diverse funzioni aziendali. Al Demand Planning aﬀeriscono processi di business, metodologie gestionali e modelli matematici orientati alla gestione ottimale della domanda commerciale per i prodotti realizzati e venduti dall’azienda industriale o commerciale. Il piano aziendale di domanda (demand plan), generato mediante processi, metodi e modelli matematici di Demand Planning, quantiﬁca indirettamente il fabbisogno di risorse (manodopera, macchine di produzione e di trasporto, tecnologia, materiali) necessarie al suo ottenimento, supportando i responsabili aziendali nella formulazione dei piani di fornitura (supply plan). Il piano di domanda costituisce quindi l’input principale per la preparazione dei piani aziendali di produzione (production plan), distribuzione (distribution plan) ed approvvigionamento (procurement plan), ovvero dei piani operativi predisposti per fornire le risorse necessarie al soddisfacimento del piano di domanda e del budget delle vendite.

1.1.2 Processi, metodologie e modelli matematici L’insieme delle attivit` a di gestione aziendale che aﬀeriscono al contesto del Demand Planning `e estremamente ampio e si articola in diversi processi di business, supportati dall’impiego di speciﬁche metodologie gestionali e dall’utilizzo intensivo di modelli matematici per l’interpretazione e la previsione della domanda commerciale. Delineare i tratti peculiari dei macroprocessi aziendali di Demand Planning signiﬁca descrivere in dettaglio: • i processi aziendali che, opportunamente articolati in workﬂow multiutente di esecuzione, compongono il Demand Planning;

1.1 Introduzione al Demand Planning

15

• le metodologie gestionali impiegate per il supporto qualitativo e procedurale ai processi di Demand Planning, speciﬁcando anche quali funzioni aziendali sono coinvolte nell’adozione di tali metodologie; • le tecniche, gli algoritmi ed i modelli matematici per il supporto quantitativo ai processi di Demand Planning. Processi La disciplina aziendale del Demand Planning si compone di alcuni macroprocessi caratteristici individuabili nella maggior parte dei contesti industriali. Fra gli altri, si menzionano a titolo d’esempio: • l’analisi della domanda storica, delle caratteristiche dei prodotti e dei clienti (Demand Analytics & Intelligence); • la deﬁnizione delle previsioni di vendita per i segmenti prodotto-cliente nel tempo (Sales Forecasting); • la deﬁnizione del piano della domanda, del budget delle vendite e dei piani di fornitura (Demand & Supply Planning). Ai diversi macroprocessi si possono associare speciﬁci processi caratterizzanti quali, ad esempio, l’analisi statistica e l’interpretazione delle vendite storiche, la segmentazione dei clienti attualmente in essere, la proﬁlazione di nuovi clienti, la pulizia statistica di serie storiche e l’identiﬁcazione delle componenti di regolarit` a nelle vendite, la preparazione della previsione statistica della domanda commerciale, la preparazione dei piani promozionali per speciﬁche coppie prodotto-mercato, la deﬁnizione del piano di vendita per nuovi prodotti, la revisione delle alternative di sales forecast, la generazione del piano vincolato di domanda, la determinazione delle quote target per la forza di vendita, il calcolo degli errori previsionali e la conseguente implementazione di azioni correttive, la condivisione collaborativa del piano di domanda e del piano degli acquisti con i fornitori. I macroprocessi di Demand Planning si sviluppano all’interno di complessi workﬂow intraaziendali ed interaziendali, deﬁniti da sequenze logiche di processi e singole attivit` a, a loro volta internamente composte di fasi svolte da utenti. Tali processi comunicano fra loro attraverso relazioni di input/output e sono svolti da speciﬁche funzioni aziendali con l’ausilio di metodi e modelli quantitativi. Lo studio dei processi di Demand Planning costituisce l’oggetto del capitolo 2. Esempio 1. Il macroprocesso di analisi della domanda storica (demand analytics & demand intelligence) si articola nei processi di analisi multidimensionale delle vendite storiche (esecuzione di molteplici interrogazioni su cubi di vendite), analisi ABC delle vendite per classi di fatturato, segmentazione e proﬁlazione dei clienti, analisi delle vendite incrociate (cannibalizzazione nella domanda fra prodotti). Esempio 2. Il macroprocesso di deﬁnizione delle previsioni di vendita (sales forecasting) si articola nei processi, strettamente sequenziali, di analisi statistica delle serie storiche (rimozione di valori irregolari non frequenti), identiﬁcazione di pattern storici relativi a promozioni passate, identiﬁcazione e proiezione nel futuro di regolarit` a statistiche estrapolate dalle serie storiche analizzate, generazione del

16

1 Demand Planning e Supply Chain Management

piano previsionale di vendita, generazione del piano degli eventi promozionali, sintesi dei piani previsionali statistico e promozionale, diﬀusione del piano di sales forecast per la validazione ﬁnale presso le funzioni aziendali, la forza vendita e gli esperti di settore. Metodologie gestionali Le metodologie gestionali di Demand Planning guidano, per taluni gruppi di processi, il loro eﬀettivo svolgimento in sequenze e workﬂow articolati. Si tratta di modelli gestionali, best practices aziendali, gruppi di processi speciﬁcamente strutturati secondo ﬂussi di lavoro codiﬁcati, che talvolta si rivelano utili nella conduzione di macroprocessi di Demand Planning. Un singolo processo di Demand Planning non necessariamente deve essere supportato da una speciﬁca metodologia gestionale quanto, pi` u frequentemente, da una tipologia di modelli matematici. Esempi di metodologie gestionali sono: • CPFR (Collaborative Planning Forecasting & Replenishment): metodologia gestionale di sincronizzazione dei piani di domanda e di ripristino delle giacenze di prodotto presso i siti distributivi, formulati congiuntamente e condivisi fra i partner della ﬁliera logistico-produttiva; • VMI (Vendor Managed Inventory): metodologia gestionale di ripristino delle scorte di prodotto presso i siti del cliente, a cura del fornitore dei prodotti; • metodologie di brainstorming e Consensus Based Forecasting: approcci qualitativi, fra i quali la valutazione di esperti di settore, il metodo Delphi, il Jury of Executive Opinion, orientati alla deﬁnizione dei piani di sales forecasting formulati da gruppi di lavoro composti da partecipanti di provenienza eterogenea, basandosi sulla condivisione di informazioni relative alle vendite aziendali, alla penetrazione dell’azienda nei mercati ed ai futuri scenari di business. Modelli matematici I processi di Demand Planning sono frequentemente supportati dall’utilizzo di modelli matematici, metodi e algoritmi di tipo statistico per l’analisi quantitativa di serie storiche e di pattern di vendita associati a prodotti e clienti. I modelli matematici impiegati dai pianiﬁcatori della domanda (i demand planner) appartengono a tre ﬁloni tematici distinti: 1. modelli e algoritmi di Data Mining (scoperta di conoscenza in grandi database): modelli di clustering, regole associative, algoritmi di classiﬁcazione, modelli di analisi di pattern sequenziali; 2. modelli e algoritmi di Sales Forecasting (previsione di pattern futuri di vendita): metodi di scomposizione e ﬁltraggio statistico di serie storiche, modelli di smorzamento esponenziale, modelli per serie sporadiche e per la previsione delle vendite di nuovi prodotti; 3. modelli e algoritmi di Ottimizzazione (tecniche di programmazione lineare applicate a problemi di Supply Chain Planning): modelli per il dimensionamento delle risorse produttive, modelli per la deﬁnizione dei piani di produzione, distribuzione ed approvvigionamento.

1.1 Introduzione al Demand Planning

17

Esempio 3. Il macroprocesso di Sales Forecasting, il cui obiettivo `e la generazione di una forecast baseline statistica da sottoporre a successivi processi di revisione di tipo collaborativo-procedurale, `e abilitato dall’impiego di modelli e algoritmi di forecasting i quali, attraverso l’analisi quantitativa delle componenti delle serie storiche di domanda, ne predicono l’andamento nel futuro, riproducendo lungo l’orizzonte di previsione le regolarit` a individuate dall’analisi dei valori passati. Esempio 4. Il macroprocesso di Demand Analytics & Intelligence `e supportato da numerosi modelli ed algoritmi per l’analisi dei dati, dalle semplici interrogazioni multidimensionali, basate sull’aggregazione di dati semplici di domanda storica secondo predeﬁnite regole e ﬁltri di selezione dei dati disaggregati (Demand Analytics), alle tecniche di Data Mining applicate alla segmentazione dei clienti in gruppi omogenei rispetto a determinati criteri (clustering), alla predizione dei comportamenti futuri di nuovi prodotti o mercati di vendita (classiﬁcazione multicategorica), all’analisi dei comportamenti di acquisto dei consumatori (regole associative). La ﬁgura 1.1 riassume i concetti di processi, metodologie gestionali e modelli matematici esposti in questo paragrafo.

Figura 1.1. Processi, metodologie gestionali e modelli matematici

1.1.3 Sales Forecast, Sales Budget, Sales Target, Demand Plan L’obiettivo dei processi, delle metodologie e dei modelli matematici di Demand Planning consiste nella eﬃcace gestione della domanda commerciale, nel corso delle diverse fasi del suo ciclo di vita. Periodicamente, all’interno dei processi di Sales

18

1 Demand Planning e Supply Chain Management

& Operations Planning, le aziende industriali preparano, approvano e diﬀondono internamente il piano generale di domanda per i prodotti ﬁniti realizzati all’interno del mix commerciale, da distribuire presso i clienti ed i mercati ﬁnali, secondo opportuni canali commerciali di vendita. Prima di analizzare dettagliatamente il contesto operativo in cui le aziende aﬀrontano i processi di Demand Planning (il riferimento `e alle aree Supply Chain Management e Sales & Operations Planning), `e opportuno distinguere sin da ora, dal punto di vista terminologico, i quattro concetti chiave di previsione delle vendite, budget delle vendite, target di vendita, piano generale vincolato di domanda. Sales Forecast La previsione delle vendite (Sales Forecast) `e deﬁnita come la proiezione nel futuro della domanda commerciale attesa; la previsione quantitativa `e eﬀettuata mediante stime probabilistiche basate sull’analisi del mercato e, laddove possibile, sull’analisi dei dati di vendita consuntivi, a parit` a di prodotto venduto all’interno di uno speciﬁco mercato o cliente. Mediante l’uso di modelli matematici di sales forecasting da parte di apposite funzioni aziendali, viene periodicamente generata la previsione della domanda, espressa in termini di quantit` a di prodotto (volumi ﬁsici oppure valori monetari) che presumibilmente i singoli mercati di vendita si aspettano di ricevere nel futuro, a fronte di un insieme di ipotesi formulate dall’azienda in merito al contesto competitivo ed alle caratteristiche dei mercati. La previsione della domanda coincide con la pi` u accurata percezione dell’azienda di quanto potr` a realmente accadere nel futuro, con riferimento alle future vendite che i mercati accorderanno ai prodotti ed ai servizi erogati dall’azienda. La stima della domanda commerciale `e generata mediante un mix di metodi e modelli: • quantitativi : si analizzano i dati disponibili per le vendite passate dei prodotti, e da questi si estrapolano i valori futuri di domanda generando il forecast statistico, nell’ipotesi che i comportamenti dei consumatori ﬁnali e le regolarit` a matematiche veriﬁcatesi nelle vendite passate si ripetano anche nel futuro; • qualitativi : attraverso metodologie di interazione collaborativa fra dipartimenti aziendali, il forecast statistico, ottenuto mediante l’uso di modelli matematici, viene discusso, raﬃnato e sottoposto a revisione, ﬁno ad ottenere una previsione della domanda unica e condivisa per tutte le funzioni aziendali. La previsione della domanda si esprime, al livello di dettaglio massimo, su almeno tre dimensioni gestionali: • per ciascun prodotto (end item, codice, articolo, Stock Keeping Unit – SKU, referenza, a seconda della terminologia adottata in azienda); • per ciascun cliente (mercato di vendita, speciﬁca azienda industriale o commerciale, singolo punto vendita al dettaglio, canale distributivo, ecc.); • per ciascun bucket temporale nell’orizzonte di previsione (formato da giorni, settimane, quindicine, mesi, ecc.).

1.1 Introduzione al Demand Planning

19

L’obiettivo che si vuol perseguire nella deﬁnizione del sales forecast `e l’accuratezza previsionale (forecast accuracy), misurabile tramite il confronto fra la previsione stessa, che rappresenta una stima a priori dell’entit` a della domanda, e le vendite eﬀettive dei prodotti sui mercati, misurate a posteriori. Il piano previsionale della domanda, al momento della sua periodica generazione, risulta privo di vincoli operativi (unconstrained forecast ), sia relativi alle possibili azioni di marketing volte a “migliorare” il forecast statistico, nel senso di orientarlo maggiormente verso gli obiettivi strategici di redditivit` a aziendale, sia in relazione alle risorse tecnologiche disponibili per la produzione e la distribuzione delle quantit` a previste nella previsione della domanda. Sales Budget Il budget delle vendite (Sales Budget, piano di fatturato) deﬁnisce l’ammontare delle vendite dei prodotti, suddivise per periodi e per mercati di vendita, che l’azienda si propone di realizzare nel successivo esercizio contabile (ad esempio, nel prossimo anno). Il budget delle vendite `e tipicamente redatto dalle funzioni Vendite e Marketing, in quanto in esse risiede maggiormente la conoscenza delle caratteristiche dei clienti; il sales budget alimenta altri budget di esercizio, o budget operativi, che l’azienda periodicamente formula per la pianiﬁcazione della gestione operativa. In coerenza con gli obiettivi strategici deﬁniti dal top management sulla competitivit` a e sulla proﬁttabilit` a dell’azienda nel medio-lungo periodo, il budget delle vendite incorpora: • il sales forecast generato tramite analisi quantitative dei dati storici disponibili; • i piani di marketing relativi all’introduzione di nuovi prodotti su nuovi o esistenti mercati, la sostituzione di prodotti obsoleti, la preparazione di eventi promozionali per incentivare la vendita di alcuni gruppi di prodotti. Mentre la previsione statistica della domanda viene prevalentemente formulata in termini di volumi ﬁsici, il budget delle vendite si esprime in valori monetari, in quanto agisce su due leve decisionali nella determinazione del fatturato aziendale: • le quantit` a ﬁsiche di vendita, espresse in diﬀerenti unit` a di misura; • i prezzi unitari di vendita dei prodotti, espressi in valuta per unit` a di prodotto. Se la previsione della domanda rappresenta una stima passiva, il pi` u possibile accurata, di ci` o che l’azienda ritiene verosimilmente potr` a accadere nel futuro circa le preferenze dei clienti per i prodotti commercializzati, la deﬁnizione del budget delle vendite esprime ci`o che l’azienda vuole attivamente che accada sui mercati di vendita, al ﬁne di garantirsi adeguati margini di redditivit` a e, talvolta, di semplice sopravvivenza nei confronti dei mercati in cui opera. Sales Target Il target delle vendite (Sales Target, vendite obiettivo) rappresenta il livello obiettivo da raggiungere nelle vendite dei prodotti, all’interno di uno speciﬁco intervallo temporale di controllo, da parte della forza di vendita operativa nei mercati locali. La funzione Vendite solitamente deﬁnisce tali obiettivi di fatturato, sti-

20

1 Demand Planning e Supply Chain Management

molanti e raggiungibili dai singoli operatori di vendita, oggettivamente misurabili dal management aziendale, al ﬁne di corrispondere adeguata remunerazione al personale in caso di soddisfacimento dei target. L’obiettivo che si vuol perseguire nella deﬁnizione del target per la forza di vendita e per gli operatori del marketing di prodotto `e la possibilit` a, da parte di costoro, di raggiungere e superare tali livelli obiettivo, determinati in modo oggettivo, razionale e rigoroso da parte del management, anche sulla base dei valori stimati per la previsione della domanda commerciale. L’eﬀettiva raggiungibilit` a di un target genera motivazione nel personale di vendita. Il target delle vendite, riferimento operativo per il personale commerciale, viene deﬁnito a valle della redazione del piano di domanda (deﬁnito nel prosieguo del paragrafo). Come accade per la valutazione di accuratezza del sales forecast, anche il raggiungimento del target `e misurato dal confronto con i valori eﬀettivi di domanda (actual sales). Demand Plan Il piano di domanda (Demand Plan), unico e condiviso fra tutte le funzioni aziendali, identiﬁca il volume di domanda che l’azienda intende realisticamente realizzare lungo l’orizzonte previsionale, a fronte di: • Supply Plan: un deﬁnito insieme di risorse produttive e logistiche disponibili nel breve-medio termine, utilizzabili per fabbricare e distribuire le quantit` a di prodotto deﬁnite dal piano di domanda; • Sales Budget: un deﬁnito insieme di azioni commerciali pianiﬁcate dalle funzioni Vendite e Marketing, per promuovere e collocare il volume di vendite deﬁnito dal piano di domanda sui mercati ﬁnali. Il piano di domanda `e un output del processo generale di Sales & Operations Planning, ed alimenta in cascata la deﬁnizione dei piani di produzione, distribuzione ed approvvigionamento, nel breve-medio termine. Dall’analisi incrociata di: • demand: opportunit` a di vendita presenti sul mercato, espresse nella previsione della domanda per i prodotti e nelle azioni di marketing; • supply: limitazioni di capacit` a produttiva e distributiva oﬀerte dalle strutture impiantistiche logistico-produttive; si ottiene il Demand Plan, che indica il volume o il valore economico delle vendite che l’azienda intende sostenere nell’orizzonte di previsione, condiviso sia dalle funzioni che si occupano della creazione e del mantenimento della domanda (Marketing, Vendite), sia da quelle che si adoperano per il suo soddisfacimento (Produzione, Logistica, Acquisti). La ﬁgura 1.2 esprime i legami che intercorrono fra previsione di domanda, budget delle vendite, piano di domanda e target di vendita, in modo schematico.

1.2 Supply Chain Management

21

Figura 1.2. Sales Forecast, Sales Budget, Sales Target e Demand Plan

1.2 Supply Chain Management 1.2.1 Deﬁnizione di Supply Chain Management Le moderne catene logiche e produttive (Supply Chain) rappresentano reti articolate multilivello di imprese industriali e commerciali, di produzione e di distribuzione, interconnesse fra loro e comunicanti attraverso relazioni e scambi di ﬂussi di materiali, informazioni e denaro. Una Supply Chain `e deﬁnibile come insieme integrato di attivit` a di produzione, distribuzione, approvvigionamento di beni materiali o servizi, svolte da soggetti aziendali mediante l’ausilio di risorse tecnologiche e gestionali. Le risorse cui si fa riferimento nella deﬁnizione sono rappresentate dalle strutture impiantistiche di produzione e distribuzione, dalle tecnologie di prodotto, di processamento e stoccaggio dei materiali “work in progress”, dalle modalit` a gestionali e dalle metodologie organizzative di governo dei processi logistico-produttivi. I processi aziendali di governo, progettazione, gestione e controllo delle catene di fornitura costituiscono l’oggetto del Supply Chain Management, disciplina intesa come insieme di attivit`a per la pianiﬁcazione ed il controllo della produzione, degli approvvigionamenti e della distribuzione di prodotti presso clienti, aventi come obiettivo la gestione eﬃciente del ciclo produttivo-logistico integrato, all’interno di una struttura complessa di fornitori, produttori, distributori, clienti e consumatori ﬁnali (Supply Chain Network). I processi di Supply Chain Management si articolano in attivit` a di natura strategica, organizzativa e gestionale rivolte al presidio dei ﬂussi aziendali di materiali e delle relative informazioni, lungo l’intera catena logistico-produttiva.

22

1 Demand Planning e Supply Chain Management

I ﬂussi ﬁsici ed informativi attraversano i nodi delle reti logistico-produttive in modo multidirezionale, secondo due “direttrici” principali: • downstream: ﬂussi ﬁsici di materiali da “monte” verso “valle”, dalle materie prime ai prodotti ﬁniti confezionati (il valore aggiunto dai singoli nodi della rete `e dato dal relativo grado di completamento del prodotto); • upstream: ﬂussi di informazioni da “valle” verso “monte”, che circolano dai punti vendita verso le aziende distributrici e produttrici e che si esplicano attraverso la trasmissione fra i nodi della rete dei dati storici di vendita, dei dati di previsione circa le vendite future di prodotti ﬁniti, dei piani di ripristino delle giacenze, dei piani di produzione e dei piani di approvvigionamento dei materiali (il valore aggiunto dai singoli nodi della rete `e dato dalla condivisione collaborativa di informazioni su dati storici e su piani futuri fra i vari soggetti della Supply Chain). I prodotti si arricchiscono progressivamente di valore aggiunto, di tipo tecnologico, lungo i vari stadi della ﬁliera logistico-produttiva, generando redditivit` a e proﬁtti (Value Chain) per i diversi attori che partecipano alle attivit` a di approvvigionamento, produzione, distribuzione e consegna dei prodotti. Nel deﬁnire il concetto di Supply Chain Management si evidenziano solitamente i seguenti elementi caratteristici: • le attivit` a di pianiﬁcazione, attuazione e controllo dei processi di acquisto, produzione, distribuzione e vendita dei prodotti industriali e dei servizi, interconnesse fra loro attraverso scambi di materiali, informazioni e denaro; • i soggetti aziendali coinvolti in tali attivit` a di gestione della catena logisticoproduttiva, costituenti i nodi delle Supply Chain Network; • le risorse necessarie e quelle disponibili ad implementare eﬃcacemente i processi di Supply Chain Management da parte dei diversi soggetti aziendali; • gli obiettivi da perseguire nella gestione delle attivit`a logistico-produttive, rivolti alla massimizzazione del servizio al cliente (customer service), inteso come la capacit`a delle aziende della ﬁliera di consegnare al cliente ﬁnale (ultimo stadio della Supply Chain Network) il prodotto giusto, al momento giusto (entro e non oltre la data di consegna concordata), nella giusta quantit` a e nelle giuste condizioni (qualit` a del prodotto, conformit` a dell’imballaggio, ecc.), secondo la concordata modalit` a logistica di consegna.

1.2.2 Soggetti aziendali operanti nella Supply Chain I nodi di una rete logistico-produttiva (Supply Chain Network) sono rappresentati da tre tipologie “base” di soggetti aziendali, come illustrato in ﬁgura 1.3: • produttori : aziende industriali che trasformano e realizzano beni materiali, dal livello di materie prime o semilavorati ﬁno all’ottenimento dei prodotti ﬁniti, ricevendo in ingresso dai fornitori materiali a contenuto tecnologico e grado di completamento inferiori;

1.2 Supply Chain Management

23

• fornitori : aziende industriali che producono e distribuiscono materie prime, componenti e semilavorati ai soggetti produttori; • distributori : aziende industriali e commerciali che distribuiscono i prodotti ﬁniti, ricevuti dai soggetti produttori, attraverso la rete logistica ed i canali di vendita, per raggiungere il cliente ﬁnale presso le apposite strutture di vendita (punti vendita, store, negozi, outlet, centri commerciali, ecc.). All’interno di questa classiﬁcazione delle tipologie “base” di soggetti appartenenti ad una Supply Chain integrata multilivello, rientrano altri operatori industriali e commerciali, quali ad esempio: • terzisti e subfornitori : aziende di produzione che forniscono ai soggetti produttori prodotti ﬁniti “equivalenti”, aventi cio`e il medesimo contenuto tecnologico di quelli abitualmente realizzati dai produttori stessi, nel caso in cui la capacit` a produttiva di questi ultimi non sia suﬃciente ad evadere, in un deﬁnito intervallo temporale, un piano principale di produzione (Master Plan) nei tempi e nelle quantit` a prescritte e concordate con i “clienti” (ad esempio, i distributori logistici o, direttamente, i punti vendita ﬁnali);

Figura 1.3. Soggetti fornitori, produttori e distributori in una Supply Chain

• intermediari logistici: aziende logistiche di distribuzione, stoccaggio, trasporto, che organizzano le modalit` a di confezionamento e consegna dei prodotti ﬁniti ai clienti. I soggetti distributori possono richiedere i servizi di tali operatori logistici “terzi”, in caso di insuﬃciente capacit` a ricettiva dei depositi di stoccaggio temporaneo dei prodotti lungo i canali distributivi della Supply Chain o di insuﬃciente capacit` a di trasporto, dovuta a temporanea sovrassaturazione della ﬂotta di mezzi per il trasporto dei prodotti fra i depositi logistici centrali/regionali ed i centri di distribuzione al dettaglio/punti vendita. I terzisti ed i subfornitori sono identiﬁcabili, nella classiﬁcazione base, come “fornitori”, gli intermediari logistici come “distributori”.

24

1 Demand Planning e Supply Chain Management

1.2.3 Strutture logistico-produttive della Supply Chain Network Una catena logistico-produttiva pu` o essere classiﬁcata, a seconda del numero di nodi che compongono la rete, come: • rete semplice (monolivello): se `e composta da un’unica sequenza fornitoreproduttore-distributore, avendo eventualmente posto a valle di tale catena elementare le strutture per la vendita diretta al consumatore ﬁnale; • rete complessa (multilivello): se `e composta da molteplici sequenze fornitoreproduttore-distributore legate da rapporti di input/output nello scambio di prodotti e informazioni. Solamente in corrispondenza dell’ultimo livello della catena `e posizionabile l’insieme delle strutture di vendita al cliente. Ciascun nodo logico di una Supply Chain (nodo “produttore”, nodo “fornitore”, nodo “distributore”) `e composto da una molteplicit` a di nodi ﬁsici, caratterizzabili come: • impianti di produzione: stabilimenti per la produzione di semilavorati dalle materie prime, stabilimenti per la fabbricazione e/o l’assemblaggio di semilavorati e componenti in prodotti ﬁniti; • impianti di stoccaggio produttivo: depositi di fabbrica per la conservazione temporanea dei materiali in input ai processi di produzione e dei materiali in output, a valle dei processi di controllo qualit` a della produzione; • impianti di stoccaggio distributivo: depositi centrali/periferici, regionali/di zona, transit points o cross docking, ove immagazzinare provvisoriamente lotti di prodotti confezionati, provenienti dagli impianti produttivi o da altri impianti di stoccaggio, per ricomporli poi in unit` a di trasporto a dimensione diﬀerente, al ﬁne di direzionarli verso altri nodi della rete logistico-produttiva, principalmente verso i canali ed i punti vendita ﬁnali. L’ultimo stadio di una Supply Chain Network multilivello `e rappresentato dai nodi ﬁsici che identiﬁcano le strutture di vendita al cliente ﬁnale (punti vendita, singoli negozi o catene in franchising, outlet, supermercati, centri commerciali). 1.2.4 Catene fornitore – produttore – distributore Se si adotta come punto di riferimento di una Supply Chain elementare il soggetto produttore, cio`e l’azienda industriale manifatturiera che svolge processi tecnologici di fabbricazione e/o assemblaggio di semilavorati e componenti per ottenere i prodotti ﬁniti da immettere sul mercato, le attivit` a di gestione operativa che caratterizzano tale soggetto sono deﬁnibili come (ﬁgura 1.4): • inbound logistics (logistica in entrata, gestione dei materiali acquistati): attivit` a di ricevimento, controllo e stoccaggio dei materiali in input, provenienti da soggetti fornitori e terzisti;

1.2 Supply Chain Management

25

Figura 1.4. Conﬁgurazione di una Supply Chain

• manufacturing operations: attivit` a di produzione volti a trasformare i materiali in ingresso in semilavorati (work in progress) e prodotti ﬁniti, sfusi o confezionati; • outbound logistics (logistica in uscita, gestione dei prodotti ﬁniti da distribuire): attivit` a di distribuzione, spedizione e stoccaggio intermedio dei prodotti ﬁniti attraverso i canali della logistica distributiva (depositi centrali, intermedi, periferici, centri di transito e smistamento), per raggiungere i punti di consegna delle merci ai clienti, siano essi di tipo industriale o singoli consumatori. Il soggetto produttore gestisce i propri impianti produttivi, dislocati presso diverse aree geograﬁche, e le proprie strutture ricettive in ingresso (magazzini di fabbrica per ricevimento materiali) ed in uscita (magazzini di fabbrica per lo stoccaggio dei prodotti ﬁniti, in attesa del loro trasporto verso i nodi della ﬁliera distributiva). La composizione delle catene elementari fornitore-produttore-distributore costituisce una Supply Chain multilivello, in cui ciascun nodo rappresenta un’azienda caratterizzata da (ﬁgura 1.5): • attivit` a operative di approvvigionamento, produzione, distribuzione e vendita (attivit` a di tipo source-make-deliver, secondo la terminologia propria del modello SCOR – Supply Chain Operations Reference); • processi decisionali di Sales & Operations Planning, relativi alla pianiﬁcazione strategica, tattica ed operativa delle attivit` a di vendita, distribuzione, produzione e approvvigionamento dei materiali; • funzioni aziendali che svolgono le attivit` a operative, implementando le decisioni contenute nei piani aziendali multiperiodo propri dei processi di Sales & Operations Planning. In particolare, le funzioni Marketing e Vendite, Logistica, Produzione e Acquisti sono maggiormente coinvolte nei processi di conﬁgurazione, pianiﬁcazione e controllo della Supply Chain. Con riferimento ad una catena elementare fornitore-produttore-distributore, ciascuno dei tre soggetti aziendali svolge periodicamente, all’interno di speciﬁche funzioni aziendali, il processo di previsione della domanda commerciale per i prodotti internamente realizzati:

26

1 Demand Planning e Supply Chain Management

Figura 1.5. Attivit` a operative, processi decisionali e funzioni aziendali

• il fornitore eﬀettua previsioni circa le vendite future di semilavorati, componenti, sottoassiemi o materie prime, impiegate nei processi di trasformazione del produttore; • il produttore eﬀettua previsioni circa le vendite future di prodotti ﬁniti, richiesti in quantit` a variabili nel tempo dai clienti industriali e dai distributori logistici, i quali si occupano del packaging e del trasporto di tali prodotti presso le strutture di vendita al cliente ﬁnale; • il distributore eﬀettua previsioni circa le vendite dirette di prodotti ﬁniti, in quanto richiesti dal consumatore ﬁnale come “domanda indipendente” presso i punti vendita gestiti dai rivenditori al dettaglio. 1.2.5 Supply Chain Relationship Management Nell’esempio di singola catena fornitore-produttore-distributore, riportato in ﬁgura 1.5, i prodotti ﬁniti realizzati dal produttore sono distribuiti lungo la ﬁliera, attraverso la rete logistica del distributore, verso i punti di vendita al dettaglio: il distributore agisce come intermediario di vendita fra il produttore di beni materiali ed il consumatore, limitando parzialmente la visibilit` a del produttore sull’andamento della domanda direttamente espressa dal cliente ﬁnale presso i centri di acquisto.

1.2 Supply Chain Management

27

Con l’espressione Supply Chain Relationship Management si `e soliti descrivere le possibili modalit` a di relazione fra i diversi soggetti aziendali che compongono la Supply Chain Network. L’interazione nella catena produttore-distributoreconsumatore avviene usualmente mediante relazioni commerciali di tipo: • Business to Consumer (B2C ), all’interfaccia distributore-consumatore; • Business to Business (B2B), all’interfaccia produttore-distributore. Viceversa, le relazioni commerciali fra il fornitore di semilavorati ed il produttore di beni di consumo sono normalmente di tipo B2B, nell’ipotesi che il fornitore di componenti e sottoassiemi non immetta i propri prodotti anche direttamente nel mercato consumer. A sua volta, il produttore pu` o vendere direttamente i propri prodotti ﬁniti a clienti industriali, che li utilizzano quindi come componenti da assemblare per ottenere gli end item, intrattenendo anche in questo caso relazioni di tipo B2B con i soggetti a valle nella rete. A seconda della tipologia di cliente con cui un’azienda si interrelaziona in modo diretto negli scambi commerciali, `e possibile distinguere fra segmenti industriali caratterizzati da relazioni B2B e parti della ﬁliera logistico-distributiva caratterizzate da relazioni B2C , in quanto direttamente collegate al consumatore. Business to Business Nel modello relazionale B2B, le aziende industriali, cio`e i soggetti produttori, vendono i propri prodotti ad altre aziende industriali, cio`e ad altri produttori, perch´e questi ultimi utilizzino i manufatti acquistati (ad esempio: i componenti) come input ai propri processi di produzione, per la realizzazione di altri prodotti (ad esempio: gli assemblati) da distribuire presso altri clienti industriali o presso i consumatori ﬁnali. Le aziende che adottano modelli logistici e commerciali di tipo B2B si caratterizzano per: • limitato numero di clienti a valle nella Supply Chain; • domanda poco elastica e variante nel breve periodo; • domanda indiretta lungo la Supply Chain, cio`e domanda derivata in modo diretto (business to business) dalla domanda commerciale espressa dagli altri partner industriali situati a valle nella catena logistico-produttiva, quindi legata in modo mediato e indiretto alla domanda realmente manifestata dal cliente; • singoli ordini di acquisto per quantit` a elevate di prodotto; • elevato grado di relazione tecnologica e/o commerciale con i clienti; • predominanza di relazioni di vendita individuali con i singoli clienti, condotte tramite contatto diretto col cliente da parte della forza di vendita locale, secondo precisi canali commerciali di vendita e speciﬁche modalit` a di relazione con il singolo cliente; • contrattazioni ed accordi commerciali di lungo termine con i singoli clienti, spesso basate su sconti di prezzo in relazione ai volumi d’acquisto concordati. Tali peculiarit` a di relazione commerciale fra i partner B2B portano alla deﬁnizione di piani di domanda sviluppati mediante l’utilizzo di:

28

1 Demand Planning e Supply Chain Management

• workﬂow integrati e collaborativi fra le aziende industriali, secondo modelli di cooperazione interaziendali, quali ad esempio VMI e CPFR; • metodologie di Sales Forecasting prevalentemente di tipo qualitativo, basate sia sulla conoscenza dei mercati e dei singoli clienti industriali da parte dei venditori locali (di area, di zona, ...), sia sulla consultazione di esperti di settore industriale. Business to Consumer Nel modello relazionale B2C , le aziende industriali, siano esse produttrici o pi` u frequentemente distributrici di prodotti ﬁniti confezionati, si interfacciano direttamente con il consumatore ﬁnale, il quale manifesta la propria volont` a di acquisto del prodotto, per consumo personale domestico, unicamente presso il singolo punto vendita. Le aziende che adottano modelli logistici e commerciali di tipo B2C sono caratterizzate da: • elevato numero di clienti a valle nella Supply Chain; • domanda molto elastica e ﬂuttuante nel breve periodo; • domanda diretta lungo la Supply Chain, cio`e domanda non mediata (business to consumer), direttamente espressa dai clienti ﬁnali situati all’ultimo stadio nella catena logistico-produttiva; • singoli ordini di acquisto indipendenti e per quantit` a minime di prodotto; • assenza di relazioni di vendita individuali con i singoli consumatori ﬁnali: il prodotto `e disponibile sugli scaﬀali dei punti vendita, costantemente riforniti dai canali della grande distribuzione. Se il cliente non trova immediatamente disponibile a scaﬀale il prodotto “preferito” nella quantit` a desiderata, ne seleziona uno equivalente di un competitor, presente nello stesso punto vendita. Tali peculiarit` a di relazione commerciale fra le aziende B2C ed i clienti ﬁnali portano alla deﬁnizione di piani di domanda sviluppati mediante l’utilizzo di: • azioni promozionali, quali la riduzione del prezzo dei prodotti o la presenza di gadget accessori al prodotto, rivolte a ﬁdelizzare la base clienti esistente verso i propri prodotti, ad incrementare il numero di nuovi clienti e ad incentivarne l’acquisto nel tempo dei prodotti della gamma; • workﬂow parzialmente integrati fra le aziende industriali a monte nella ﬁliera (all’interfaccia produttore-distributore-retailer), secondo modelli che incentivano la cooperazione e lo scambio di dati reali POS (point of sale) dai punti vendita, come i sistemi elettronici EDI (Electronic Data Interchange) e le tecniche di gestione delle scorte di tipo VMI ; • metodologie di Sales Forecasting prevalentemente di tipo quantitativo statistico, basate sull’analisi numerica delle serie storiche di domanda e sulla correlazione fra vendite e driver esterni che inﬂuenzano la domanda del consumatore, spiegandone le variazioni occorse nel tempo. Dal confronto fra modelli di Supply Chain Relationship Management di tipo B2B e B2C , si osserva che al diminuire della numerosit` a della base clienti esistente ed

1.2 Supply Chain Management

29

all’aumentare dell’importanza dei singoli clienti e della loro incidenza sulla redditivit` a aziendale, l’azienda operante in contesti B2B predilige l’utilizzo di metodi “qualitativi” di contatto diretto e relazione con il cliente, ad esempio operando un’integrazione sincronizzata fra i piani operativi di produzione emessi periodicamente dal cliente ed i piani di domanda e di consegna di breve termine formulati dall’azienda stessa. Viceversa, le aziende della distribuzione retail operanti in contesti B2C utilizzano soﬁsticati modelli matematici per formulare le previsioni della domanda reale, direttamente espressa dai singoli consumatori visti come una moltitudine di microclienti statisticamente “aggregabili”. Le aziende fornitrici dei distributori (i soggetti produttori) stipulano accordi di collaborazione con i gestori dei canali retail al ﬁne di poter disporre direttamente dei piani di domanda formulati dai distributori, beneﬁciando quindi della visibilit` a diretta sui comportamenti di acquisto dei consumatori. 1.2.6 Tipologie di domanda commerciale I diversi soggetti aziendali che partecipano alle attivit` a di progettazione e gestione della Supply Chain, secondo speciﬁci legami di relazione con i partner della ﬁliera, devono provvedere periodicamente alla stima previsionale dei volumi di domanda cui dovranno far fronte nel futuro, predisponendo adeguati piani di produzione, distribuzione e fornitura. Tali aziende vedono la domanda di mercato sotto diverse angolazioni, con riferimento ai due seguenti criteri di analisi: • posizionamento relativo dell’azienda nella catena logistico-produttiva; • posizionamento relativo del prodotto realizzato, lungo la gerarchia costruttiva espressa dalla distinta base di produzione (Bill of Materials – BOM ). Con riferimento al primo criterio di analisi, i soggetti distributori situati all’ultimo livello retail della ﬁliera logistico-distributiva sperimentano, stimano e subiscono la domanda del consumatore ﬁnale, tale e quale, senza soggetti “terzi” che operino forme di ﬁltro nei confronti della domanda realmente espressa dal consumatore presso i punti ﬁnali di acquisto dei prodotti. Al contrario, i distributori intermedi, collocati su livelli a monte rispetto alla distribuzione ﬁnale1 , ed i produttori di prodotti ﬁniti sperimentano una domanda “mediata” dai rivenditori. Con riferimento al secondo criterio di analisi, i soggetti produttori e i soggetti distributori, a qualsiasi stadio siano posizionati nella ﬁliera logistico-distributiva, percepiscono la domanda espressa dal cliente per i prodotti ﬁniti; viceversa, i soggetti fornitori di materiali (componenti, imballaggi per il confezionamento, materie prime) in input alle attivit` a tecnologiche dei soggetti produttori devono prevedere la domanda relativa ai componenti dei prodotti ﬁniti, in quanto tali sottoassiemi rappresentano il “prodotto ﬁnito”, dal punto di vista dei fornitori. 1

Il riferimento `e, in questo caso, alle aziende fornitrici di servizi logistici che gestiscono i depositi centrali/periferici, stoccando presso le medesime strutture ricettive le merci fabbricate da diversi soggetti produttori.

30

1 Demand Planning e Supply Chain Management

` quindi possibile deﬁnire le due seguenti classiﬁcazioni trasversali delle tipoE logie di domanda commerciale: • domanda diretta vs. domanda indiretta; • domanda indipendente vs. domanda dipendente. Si precisa che il contesto logistico-produttivo cui tale doppia classiﬁcazione fa riferimento `e quello “tradizionale”, nel quale i singoli soggetti aziendali sono legati da contratti commerciali di fornitura di prodotti e servizi, in assenza di partnership di lungo periodo basate sulla condivisione dei piani operativi emessi dai soggetti della ﬁliera ed integrati collegialmente. Domanda diretta (Sell-Out). Rappresenta la domanda per i prodotti ﬁniti fabbricati ed assemblati dal soggetto produttore, espressa dal consumatore ﬁnale in modo diretto (non intermediato) presso i punti ﬁnali adibiti alla vendita. Il Sell-Out `e previsto (a priori) e misurato (a posteriori) da: • soggetto distributore all’ultimo stadio della ﬁliera, nel caso siano presenti stadi logistico-distributivi intermedi fra il soggetto produttore ed il consumatore; • soggetto produttore, nel caso esistano canali di vendita diretta al consumatore, non intermediati da operatori logistici terzi; • soggetto produttore, nel caso di vendita dei prodotti ﬁniti direttamente ai clienti industriali. Domanda indiretta (Sell-In). La domanda indiretta (domanda derivata) `e quella che si manifesta per i prodotti ﬁniti realizzati dal soggetto produttore, stimata da aziende della Supply Chain che operano non a contatto diretto con il cliente ﬁnale. Il produttore ed i distributori che gestiscono magazzini centralizzati di stoccaggio delle merci2 misurano e stimano la domanda commerciale formulata dai rivenditori e dai gestori dei punti vendita (Sell-In). I clienti diretti con cui si interfacciano i distributori sono i proprietari dei punti ﬁnali di accesso ai prodotti, i quali fungono da intermediari nelle transazioni di vendita con i distributori e, risalendo la catena logistico-produttiva, con i produttori ed i loro fornitori. In modo analogo, il produttore deve stimare la domanda per i propri prodotti ﬁniti da parte dei distributori logistici, gestori dei depositi centrali e periferici, i quali emettono mensilmente ordini di rifornimento delle merci, per ricompletare il livello desiderato di scorte di prodotto tenute presso i centri logistici. Domanda indipendente. Si deﬁnisce domanda indipendente la domanda espressa per i prodotti ﬁniti venduti direttamente al cliente ﬁnale presso i punti vendita. Il prodotto ﬁnito rimane integro, dal punto di vista funzionale-morfologico, durante le diverse movimentazioni lungo gli stadi della ﬁliera; al pi` u, subisce confe-

2

Si tratta quindi di distributori non collocati all’ultimo stadio della ﬁliera logisticodistributiva.

1.2 Supply Chain Management

31

zionamenti diﬀerenti e consegne in lotti di entit` a variabile, a seconda delle esigenze dei singoli mercati locali di vendita. Domanda dipendente. I prodotti ﬁniti sono composti da numerose parti componenti, le quali vengono assemblate, seguendo complessi routing tecnologici, per ottenere il manufatto ﬁnale venduto al cliente: lo schema costruttivo del prodotto ﬁnale `e deﬁnito dalla distinta base di prodotto (BOM ). La domanda dipendente `e la richiesta di rifornimento per le materie prime, i semilavorati ed i materiali di confezionamento che formano il prodotto ﬁnito. Tale domanda `e stimata dalle aziende che riforniscono i soggetti produttori di end item. Il produttore deﬁnisce periodicamente il piano di approvvigionamento dei componenti in input, esplodendo i fabbisogni di prodotto ﬁnito3 nei fabbisogni di componenti e materie prime, secondo una metodologia gestionale nota come Material Requirements Planning (MRP). Il fornitore deve stimare, attraverso l’uso di tecniche e modelli di Sales Forecasting, la domanda dipendente per i suoi prodotti intermedi. La tabella 1.1 sintetizza la classiﬁcazione ortogonale presentata. Tabella 1.1. Classiﬁcazione delle tipologie di domanda commerciale domanda

indipendente

dipendente

diretta indiretta

punto vendita distributori produttori terzisti

punto vendita fornitori

Si osservi che il soggetto produttore pu` o stimare la domanda diretta ed indipendente per i propri prodotti ﬁniti, qualora disponga di strutture proprie per la vendita diretta al cliente ﬁnale4 . Inoltre, produttore e rivenditori possono sperimentare anche la domanda indiretta, nel caso vendano presso i punti vendita anche parti e componenti di ricambio, da sostituire nel prodotto ﬁnito senza comprometterne il normale funzionamento. Va da ultimo ribadito il fatto che la classiﬁcazione operata `e valida solo nell’ipotesi di gestione “tradizionale della Supply Chain”. L’esistenza di rapporti “evoluti”, di tipo collaborativo, nelle interazioni fra le catene elementari fornitore-produttoredistributore-cliente determina un incremento di visibilit` a lungo la Supply Chain per i soggetti situati a monte: anche produttori e distributori, ad esempio, sono resi partecipi dei piani di domanda formulati dai gestori dei punti vendita, in modo 3

4

I fabbisogni di prodotto ﬁnito sono direttamente dipendenti dal piano di domanda (demand plan), vincolato alle disponibilit` a di capacit` a produttiva, ricettiva e distributiva. ` il caso, ad esempio, dei negozi di abbigliamento “monomarca”, di propriet` E a dei produttori.

32

1 Demand Planning e Supply Chain Management

tale da poter dimensionare pi` u eﬃcacemente, sulla base della stima della domanda diretta e non intermediata, le rispettive capacit` a logistico-produttive.

1.3 Progettazione e gestione della Supply Chain 1.3.1 Progettazione della conﬁgurazione e delle attivit` a operative Le imprese che svolgono attivit`a di progettazione, produzione e distribuzione di prodotti e servizi nell’ambito di Supply Chain Network interaziendali aﬀrontano processi decisionali complessi ed articolati, talvolta in collaborazione con i partner della ﬁliera, in relazione alla progettazione della struttura reticolare della Supply Chain ed alla gestione delle attivit` a operative di Sales & Operations Planning. Alcuni processi decisionali, di natura strategica, si riferiscono alla progettazione del ruolo che la singola impresa assume nella Supply Chain, e si occupano, dapprima, della deﬁnizione della strategia aziendale di lungo periodo, identiﬁcando il core business per l’impresa, i fattori critici di successo e le fonti di vantaggio competitivo, quindi, in un secondo momento, della deﬁnizione della conﬁgurazione tecnico-impiantistica e del dimensionamento delle risorse logistico-produttive. Altri processi decisionali, di natura tattica e operativa, presidiano invece il regolare svolgimento delle attivit` a ordinarie di sviluppo, ingegnerizzazione, produzione, distribuzione e vendita del prodotto ﬁnito, in coerenza con il tradizionale ciclo di attivit` a di gestione della Supply Chain, denominato Sales & Operations Planning. Pertanto, i processi decisionali di Supply Chain Management si articolano nel tempo lungo due “direttrici” principali: • la progettazione strategica della struttura organizzativa ed impiantistica della Supply Chain Network (Supply Chain Conﬁguration Management ); • la gestione operativa delle attivit` a produttive e logistiche della Supply Chain (Supply Chain Operations Management). Le attivit` a caratteristiche di questi due “momenti” decisionali si svolgono con diversa frequenza e durata nell’arco del ciclo di vita della Supply Chain. La progettazione della strategia logistico-produttiva aziendale ed il conseguente dimensionamento delle strutture di produzione e distribuzione individuano un processo lungo ed impegnativo che ha impatti signiﬁcativi nel lungo periodo: coinvolge direttamente il top management aziendale e richiede lo sviluppo e la realizzazione di investimenti in risorse e capacit` a umane e tecnologiche; la sua frequenza di revisione `e annuale o pluriennale, l’orizzonte di impatto delle decisioni abbraccia un periodo di almeno 3-5 anni. La gestione operativa delle “operations” si articola invece nelle attivit`a di pianiﬁcazione, implementazione e controllo analitico dei piani di domanda, di produzione, di acquisto e di distribuzione dei prodotti sui mercati di vendita: la frequenza di tali processi `e ovviamente maggiore, rispetto a quelli di conﬁgurazione della Supply Chain, ed `e tipicamente giornaliera, settimanale o mensile, a seconda del

1.3 Progettazione e gestione della Supply Chain

33

livello di dettaglio in cui si articolano i diversi piani, lungo le dimensioni prodotto, cliente, tempo. Le due macroclassi di processi di progettazione e gestione della Supply Chain si possono suddividere in ulteriori processi di livello gerarchico-decisionale inferiore, schematizzati in ﬁgura 1.6:

Figura 1.6. Processi di progettazione e gestione della Supply Chain

1. Supply Chain Conﬁguration Management (SCCM ): • Supply Chain Strategy (SCS ) • Supply Chain Network Design (SCND) 2. Supply Chain Operations Management (SCOM ): • Supply Chain Planning (SCP) • Supply Chain Execution (SCE ) • Supply Chain Analytics (SCA) Nei paragraﬁ seguenti gli elementi di questa classiﬁcazione vengono dettagliati ed approfonditi, anche con riferimento al ruolo rivestito dai processi e dalle metodologie di Demand Planning, utile guida nella conduzione di alcune attivit` a di progettazione e gestione della Supply Chain. 1.3.2 Supply Chain Strategy Il primo processo decisionale da aﬀrontare nell’ambito della progettazione del ruolo di un’azienda in un contesto integrato di Supply Chain Management `e la deﬁnizione della strategia di impresa. Le aree di indagine su cui si focalizza l’analisi del management e dei responsabili delle funzioni aziendali sono le seguenti, riportate in ﬁgura 1.7: 1. 2. 3. 4.

identiﬁcazione dei segmenti prodotto-mercato nei quali si vuole competere; deﬁnizione delle modalit`a di attuazione del vantaggio competitivo aziendale; scelte di make or buy strategico; preparazione dei piani di Sales & Operations Planning, nel lungo periodo.

Nel prosieguo del paragrafo vengono evidenziate le peculiarit` a di ciascuna area di analisi.

34

1 Demand Planning e Supply Chain Management

Figura 1.7. Processi di Supply Chain Strategy

Segmenti prodotto-mercato Questa analisi viene condotta per ciascuna delle Business Unit in cui l’impresa `e organizzata; si decidono quali tipologie di prodotti realizzare, con quali caratteristiche tecnico-funzionali e con quali requisiti di qualit` a, su quali mercati di vendita commercializzare tali prodotti, in relazione ai bisogni dei clienti che si intendono soddisfare. L’analisi periodica, condotta a livello corporate, dell’insieme dei prodotti del mix aziendale e dell’insieme dei clienti attualmente in portafoglio permette all’azienda di valutare la possibilit` a di introdurre nuovi prodotti innovativi, sostituirne alcuni obsoleti in speciﬁci mercati, diversiﬁcare il mix commercializzato e rinnovare l’immagine dei diversi brand aziendali, investire risorse commerciali nell’apertura di nuovi canali di vendita in nuovi mercati. Lo studio dei segmenti prodotto-mercato `e condotto mediante: • analisi ed interpretazione dei bisogni futuri dei clienti, espressi anche in relazione al livello di soddisfazione attuale derivante dall’acquisto dei prodotti; • analisi dei comportamenti evidenziati dai clienti nel passato, nel manifestare la propria volont` a di acquisto dei prodotti. Queste analisi di Demand Intelligence, svolte con l’ausilio di modelli ed algoritmi di Data Mining, permettono da un lato di segmentare i diversi clienti in portafoglio, raggruppandoli in gruppi omogenei su speciﬁci segmenti di prodotto, dall’altro di prevedere comportamenti di acquisto di nuovi potenziali clienti, su cui sviluppare mirate azioni di marketing per alcuni prodotti; • analisi delle azioni commerciali dei competitor (diversiﬁcazione del mix, promozione di brand speciﬁci, ecc.), in relazione al soddisfacimento dei medesimi bisogni di acquisto; • valutazione dell’attuale posizionamento e della quota di mercato dell’impresa nel proprio settore di riferimento, mediante analisi di distanza (gap analysis) rispetto alle prestazioni erogate dai competitor ed alle prestazioni attese dai clienti; • analisi delle performance erogate nel passato dalle funzioni di Marketing e Vendite, in relazione alla redditivit` a attesa/redditivit` a ottenuta (analisi economica di fatturato), alla capacit` a di valutare correttamente l’entit` a della domanda di

1.3 Progettazione e gestione della Supply Chain

35

mercato (analisi di forecast accuracy). Tali analisi di Demand Analytics sono svolte aggregando i dati puntuali disponibili verso livelli gerarchici superiori, lungo le dimensioni prodotto, mercato, tempo. I modelli e le metodologie di Demand Analytics e di Demand Intelligence supportano eﬃcacemente la fase di analisi dei segmenti prodotto-mercato. Modalit` a di attuazione del vantaggio competitivo L’azienda industriale e commerciale integrata nella Supply Chain deve creare, mantenere nel tempo ed ottimizzare un insieme di diﬀerenziali competitivi, distintivi ed eccellenti rispetto alle aziende concorrenti, che le consentano la sopravvivenza ed il raggiungimento di adeguati margini di redditivit` a. L’analisi delle modalit` a di attuazione dei diﬀerenziali competitivi `e operata valutando le prestazioni erogate in relazione ai fattori critici di successo per il servizio al cliente (customer service) quali, ad esempio, l’immagine ed il concept del prodotto/brand, il prezzo e la qualit` a del prodotto, la diversiﬁcazione e l’ampiezza del mix commerciale, il servizio di vendita (ciclo di gestione dell’ordine, puntualit` a e accuratezza di consegna, ﬂessibilit` a di mix e di riassortimento degli ordini), il servizio di assistenza post-vendita (gestione delle parti di ricambio, interventi in garanzia, smaltimento dei prodotti obsoleti). Anche in questo tipo di analisi, le prestazioni aziendali sono valutate: • in relazione alle aspettative del cliente (target setting); • in relazione alle prestazioni erogate dai competitor di settore o dai competitor best in class, operanti in diversi settori industriali (benchmarking). I modelli e le metodologie di Demand Analytics e di Demand Intelligence oﬀrono adeguato supporto anche durante le fasi di analisi delle prestazioni di customer service. Gli indicatori di performance (KPI, Key Performance Indicators) pi` u comuni nella valutazione del servizio erogato al cliente sono descritti nel capitolo 6, in relazione ai metodi di Demand Analytics. Make or buy strategico Deﬁnire una politica aziendale di make or buy strategico signiﬁca decidere quali segmenti della catena logistico-produttiva internalizzare, quindi gestire con mezzi tecnologici e know-how propri, e quali demandare all’esterno, avvalendosi di competenze tecnologiche produttive o distributive di terze parti. L’analisi delle opportunit` a di terziarizzazione di parti di prodotto o di servizi logistici `e condotta attraverso lo studio: • delle fonti alternative di approvvigionamento di materie prime, componenti standard di uso comune, semilavorati; • delle modalit` a di produzione tecnologica dei prodotti ﬁniti: analisi delle modalit` a di composizione dei prodotti (distinta base, BOM ); analisi delle modalit` a di costruzione tecnologica dei prodotti (cicli di fabbricazione ed assemblaggio dei componenti, distinta delle risorse, Bill of Resources – BOR);

36

1 Demand Planning e Supply Chain Management

• delle modalit` a di confezionamento, stoccaggio, trasporto e distribuzione del prodotto ﬁnito presso i mercati di vendita. Tipiche decisioni di make or buy strategico possono riguardare la selezione dei fornitori con i quali stipulare accordi di lungo periodo, l’identiﬁcazione di quali parti di prodotto realizzare internamente e mediante l’adozione di quali tecnologie, l’esternalizzazione delle attivit` a di distribuzione dei prodotti ﬁniti presso i canali di vendita, aﬃdando la gestione delle consegne ad operatori logistici specializzati. L’analisi dei segmenti prodotto-mercato e la valutazione dei diﬀerenziali competitivi di eccellenza per l’azienda sono fasi preliminari che forniscono informazioni utili per la scelta delle logiche di make or buy strategico. Piani strategici di lungo periodo La deﬁnizione delle politiche di make or buy strategico conduce alla successiva formulazione dei piani strategici, articolati lungo un orizzonte di decisione pluriennale, riesaminati con frequenza annuale. I programmi di lungo periodo mirano a garantire proﬁttabilit` a all’impresa attraverso un opportuno piano di reperimento delle risorse produttive e logistiche; i piani strategici sono deﬁniti secondo le seguenti tre tipologie. Piani operativi. Sono dati dal piano strategico di domanda e dai piani strategici di produzione, acquisto e distribuzione, indicanti i volumi da produrre e l’ammontare di risorse (materiali in input) da approvvigionare negli anni. I volumi ed i valori economici sono espressi a livelli aggregati, per famiglia / linea di prodotto, business unit, gruppo omogeneo di clienti, e si articolano temporalmente con una granularit` a annuale o semestrale. Piano degli investimenti. Rappresenta il piano pluriennale di acquisizione delle risorse produttive e logistiche (tecnologia, materiali, macchine, risorse umane, know-how tecnico e gestionale) atte a conﬁgurare le strutture impiantistiche della Supply Chain intraaziendale. Piano ﬁnanziario. A fronte dell’entit` a di risorse richieste dal piano degli investimenti, il piano ﬁnanziario determina l’attuabilit` a degli investimenti, valutando il fabbisogno ﬁnanziario complessivo, ripartito negli anni, in relazione alla disponibilit` a di cassa ed alla capacit`a di ricorso alle fonti di ﬁnanziamento per l’impresa. La generazione del piano previsionale delle vendite (sales forecast) per famiglie di prodotti e gruppi di mercati fornisce supporto alla predisposizione dei piani operativi di lungo periodo, costituendo uno degli input per il piano di domanda, vincolato alla disponibilit` a delle risorse interne ed esterne. La deﬁnizione dei piani operativi sulle business unit dell’azienda `e quindi abilitata, fra l’altro, dall’impiego di modelli matematici di sales forecasting, i quali tipicamente generano previsioni di volumi ﬁsici di domanda, poi tradotti in termini economici attraverso analisi di redditivit` a, utilizzando come coeﬃcienti di conversione prezzi e costi industriali di prodotto.

1.3 Progettazione e gestione della Supply Chain

37

1.3.3 Supply Chain Network Design La progettazione della conﬁgurazione strutturale della rete logistico-produttiva in cui le aziende operano in modo integrato, scambiando ﬂussi di materiali, ﬂussi informativi e ﬁnanziari, `e un processo complesso che si pu` o scomporre nei seguenti moduli costituenti, riportanti anche in ﬁgura 1.8: 1. progettazione della conﬁgurazione tecnologica; 2. progettazione della conﬁgurazione organizzativa (intra- e interaziendale); 3. progettazione della conﬁgurazione gestionale.

Figura 1.8. Processi di Supply Chain Network Design

tre aspetti della progettazione della Supply Chain Network sono fortemente correlati fra loro e non possono essere eseguiti in maniera strettamente sequenziale, in assenza di feedback retroattivi di controllo decisionale. Conﬁgurazione tecnologica La progettazione tecnologica della Supply Chain Network si focalizza sulla valutazione delle risorse tecnologiche necessarie al soddisfacimento dei piani operativi; essa implica l’analisi delle possibili alternative tecnico/impiantistiche in cui `e possibile organizzare i diversi nodi della rete, con riferimento agli impianti di produzione e di stoccaggio dei materiali. Le decisioni di make or buy strategico, prese nella fase SCS, impattano fortemente le scelte, gerarchicamente conseguenti, di dimensionamento impiantistico della rete. Durante la fase di conﬁgurazione tecnologica della rete logistico-produttiva, l’azienda si occupa del reperimento delle risorse necessarie a soddisfare i fabbisogni e gli impieghi espressi nel processo di Supply Chain Planning. Obiettivo della fase SCND `e la deﬁnizione dei piani di capacit` a interna di produzione, di stoccaggio e di distribuzione/trasporto, al ﬁne di: • validare o mettere in discussione le assunzioni di make or buy strategico operate in fase SCS ; • valutare la sostenibilit` a operativa dei piani strategici di lungo termine, a fronte del volume aggregato di risorse di cui si intende disporre negli anni successivi.

38

1 Demand Planning e Supply Chain Management

La conﬁgurazione delle strutture di produzione, distribuzione e acquisto dei materiali `e metodologicamente organizzata nelle fasi seguenti: • deﬁnizione del reticolo della Supply Chain: numero di impianti necessari e loro localizzazione geograﬁca, dimensionamento ed allocazione delle capacit`a produttive e ricettive per ogni nodo della rete; • deﬁnizione della tipologia di impianti: struttura e caratteristiche costruttive degli stabilimenti produttivi; tipologia dei depositi di stoccaggio, lungo i diversi livelli logistico-distributivi della Supply Chain; • identiﬁcazione delle tecnologie di produzione pi` u idonee per ciascuna tipologia di prodotto: deﬁnizione dei cicli produttivi e delle tipologie di macchine necessarie a svolgere le lavorazioni; deﬁnizione del grado di automazione e di parallelismo/ridondanza delle risorse produttive; • conﬁgurazione impiantistica (layout) delle tecnologie di produzione: disposizione ﬁsica, all’interno dell’area complessiva di stabilimento, delle macchine per linee seriali di produzione (ﬂow shop), per reparti a tecnologia omogenea (job shop), per posti ﬁssi di lavoro; • identiﬁcazione delle tecnologie di stoccaggio pi` u idonee per ciascuna tipologia di prodotto: deﬁnizione dei cicli di stoccaggio e prelievo dei prodotti; scelta delle attrezzature di trasporto e del tipo di locazioni ﬁsiche in cui stoccare i prodotti, negli stadi intermedi del processo produttivo-distributivo; • conﬁgurazione impiantistica (layout) delle tecnologie di stoccaggio: ubicazione planimetrica delle strutture di immagazzinamento dei prodotti intermedi e ﬁniti, deﬁnizione delle vie di accesso, prelievo e trasporto interno dei prodotti; • selezione tattica dei fornitori di materie prime e semilavorati, mediante l’uso di metodologie gestionali di Vendor Rating, e loro collocazione geograﬁca5 ; • selezione tattica dei terzisti, da utilizzare come buﬀer di tecnologia e capacit`a produttiva nel caso di sovrassaturazione delle risorse produttive interne, in presenza, ad esempio, di domanda reale superiore a quanto stimato dalle previsioni di vendita; • selezione tattica di fornitori di servizi di distribuzione logistica dei prodotti e loro ubicazione geograﬁca, nel caso in cui il soggetto produttore decida di esternalizzare completamente le attivit`a di collocazione dei prodotti nei canali commerciali6; • valutazione dei ﬂussi di materiali lungo i percorsi di collegamento dei nodi (soggetti produttori, fornitori, distributori) della Supply Chain Network. La conﬁgurazione tecnologica della Supply Chain (di cui un semplice esempio `e riportato in ﬁgura 1.9), in termini di numero e tipologia di strutture logisticoproduttive localizzate in corrispondenza dei diversi nodi, comporta scelte strategiche di frazionamento o centralizzazione delle capacit` a produttiva e ricettiva su uno 5

6

La tipologia di semilavorati approvvigionata esternamente dai fornitori ` e conseguenza delle scelte di make or buy strategico, operate durante i processi di Supply Chain Strategy. Anche questa decisione consegue a scelte strategiche di make or buy, sul versante della distribuzione.

1.3 Progettazione e gestione della Supply Chain

39

Figura 1.9. Esempio di conﬁgurazione tecnologia di una Supply Chain Network

o pi` u siti. La stima delle previsioni di domanda nel lungo periodo, per le diverse linee di prodotti e per i diversi segmenti di mercato, fornisce supporto alle attivit` a di Supply Chain Network Design. Conﬁgurazione organizzativa L’organizzazione delle strutture aziendali componenti la Supply Chain Network deﬁnisce le modalit` a di interrelazione fra soggetti produttori, distributori e fornitori operanti a diverso titolo nella ﬁliera, sia a livello di struttura gerarchica di responsabilit` a decisionale, sia per quanto concerne i canali di comunicazione e scambio di informazione che si instaurano fra le aziende partner della Supply Chain. L’organizzazione aziendale dei nodi del reticolo viene progettata secondo due direttrici: • organizzazione interna (intraaziendale): deﬁnizione dell’architettura gerarchica delle responsabilit` a; allocazione delle responsabilit` a a livello corporate e di singola business unit; organizzazione della singola azienda per funzioni tematiche o per progetti interfunzionali; progettazione dei sistemi di valutazione ed incentivazione del personale7 ; 7

Un esempio signiﬁcativo per il Demand Planning `e dato dalle modalit` a di retribuzione e premio della forza vendita locale, in relazione ai risultati ottenuti (sales target vs. actual sales).

40

1 Demand Planning e Supply Chain Management

• organizzazione esterna (interaziendale): deﬁnizione delle modalit` a di interazione burocratica commerciale con le aziende della ﬁliera, a monte e a valle (attivit` a ordinarie di emissione ordini, fatturazione, controllo qualit` a in ingresso, ecc.); deﬁnizione delle modalit`a di collaborazione evoluta, nello scambio di informazioni e piani operativi fra i partner della Supply Chain. La conﬁgurazione organizzativa si esplica secondo i fondamenti della Organizzazione Aziendale, la cui trattazione esula dagli scopi del libro. Essa `e sovente una conseguenza delle scelte di make or buy strategico, nonch´e delle decisioni in merito alla conﬁgurazione tecnologica8 . Conﬁgurazione gestionale Accanto alla progettazione della struttura impiantistica della Supply Chain Network ed alla deﬁnizione delle pratiche di interazione organizzativa fra gli attori della ﬁliera, l’azienda integrata deve anche speciﬁcare le metodologie gestionali secondo cui deﬁnire i piani strategici, tattici ed operativi. Tali metodologie sono utilizzate a supporto del macroprocesso di Sales & Operations Planning. La conﬁgurazione gestionale della Supply Chain permette di identiﬁcare le metodologie pi` u opportune per un eﬃciente presidio delle attivit` a di programmazione e controllo della produzione e della logistica (Supply Chain Planning, Supply Chain Analytics). Anche in questo caso `e possibile classiﬁcare le tecniche di gestione in: • metodologie di gestione interna: metodi e modelli matematici per la gestione della domanda commerciale (Sales Forecasting, Demand Analytics, Demand Intelligence), per la pianiﬁcazione della produzione interna ed esterna (Master Planning), della distribuzione e degli acquisti (Distribution & Procurement Planning); metodologie per la valutazione delle prestazioni erogate dai piani di Supply Chain Planning (analisi degli scostamenti rispetto alle previsioni, valutazione del livello di servizio erogato al cliente); • metodologie di gestione esterna: metodologie gestionali per il coordinamento ed il controllo dei partner della ﬁliera (Vendor Rating, Vendor Managed Inventory, Collaborative Planning Forecasting Replenishment). 1.3.4 Supply Chain Planning Insieme con i processi di Supply Chain Execution e Supply Chain Analytics, quello di pianiﬁcazione di medio-breve termine della Supply Chain (SCP) presenta un ciclo di svolgimento a maggiore frequenza e revisione, rispetto ai processi strategici di Supply Chain Strategy e Supply Chain Network Design. Nei processi del ciclo SCP-SCE -SCA si svolgono le attivit` a ordinarie di programmazione, esecuzione e controllo dei processi tecnologici di produzione e stoccaggio dei prodotti e di 8

Ad esempio, la scelta di avvalersi di fornitori terzi di prodotti ﬁniti (come buﬀer di capacit` a produttiva), espressa in fase di conﬁgurazione impiantistica della Supply Chain Network, determina la necessit` a di deﬁnire le modalit` a di relazione commerciale ed organizzativa con tali partner.

1.3 Progettazione e gestione della Supply Chain

41

distribuzione presso i mercati di vendita: i piani, opportunamente strutturati in gerarchie basate sulla loro disaggregazione temporale, esplicitano e diﬀondono in tutta l’azienda le decisioni dei responsabili di funzione circa lo scenario operativo di breve-medio termine relativo ai volumi di vendita, alle quantit` a da produrre, alle quantit` a da immettere verso i nodi della rete logistica di consegna ai clienti. In particolare, il processo di Supply Chain Planning si sviluppa secondo due orizzonti, il medio termine (da 2-3 mesi a 12-18 mesi) ed il breve termine (dalla singola giornata lavorativa al mese); i piani che vengono generati nel corso delle attivit` a di Sales & Operations Planning sono cos`ı articolati: 1. 2. 3. 4. 5.

pianiﬁcazione della domanda commerciale (sales forecast, demand plan); pianiﬁcazione della distribuzione (distribution plan, transportation plan); pianiﬁcazione della produzione (production plan); pianiﬁcazione degli acquisti (procurement plan); pianiﬁcazione delle giacenze presso i nodi della Supply Chain Network (inventory plan).

I piani generati speciﬁcano quali sono gli impieghi ed il fabbisogno per le risorse e le capacit`a logistico-produttive dimensionate nel processo di Supply Chain Network Design. Essi hanno granularit` a temporale: • giornaliera/oraria, nel breve termine (orizzonte operativo); • settimanale/quindicinale, al pi` u mensile, nel medio termine (orizzonte tattico); e sono dettagliati: • per singolo prodotto (referenza, item, articolo) e per singolo cliente (punto vendita, store, singola azienda industriale), nel breve termine; • per gruppo di prodotti (primo livello di aggregazione dei prodotti ﬁniti), per canale di vendita o gruppo/area di clienti (retail, grande distribuzione, ecc.), nel medio termine. La ﬁgura 2.2, inserita nel capitolo 2, evidenzia il ﬂusso tipico del macroprocesso di Sales & Operations Planning. Dalle cinque attivit` a di pianiﬁcazione precedentemente elencate, si pu`o osservare, ad esempio, che il piano di domanda alimenta in cascata i piani logisticoproduttivi di produzione (interna ed esterna), distribuzione logistica ed acquisto dei materiali: esso costituisce il principale input per le attivit` a di programmazione, insieme con la disponibilit` a complessiva di risorse nel breve e nel medio termine. I modelli di Supply Chain Planning, insieme con le relazioni che intercorrono con la stima previsionale della domanda, sono illustrati nei capitoli 15 e 16. 1.3.5 Supply Chain Execution Una volta deﬁniti e validati formalmente i piani operativi di breve e medio periodo, si procede alla loro implementazione esecutiva, dando mandato ai responsabili delle vendite, degli acquisti, dei reparti produttivi e dei depositi logistici di porre in atto le decisioni redatte mediante la stesura dei piani di Sales & Operations Planning.

42

1 Demand Planning e Supply Chain Management

Figura 1.10. Processi di Supply Chain Execution

Lo svolgimento delle attivit` a operative, di tipo ripetitivo e burocratico, comporta il continuo scambio, con i partner della ﬁliera, di ﬂussi di informazioni e ﬂussi di materiali, come evidenziato in ﬁgura 1.10. Flussi di informazioni I ﬂussi “immateriali” che circolano nella Supply Chain sono relativi ad attivit` a di: • ciclo dell’ordine cliente (ciclo attivo); • ciclo dell’ordine di acquisto (ciclo passivo); • ciclo di programmazione integrata. I primi due cicli riguardano le attivit` a di comunicazione formale inerenti alle transazioni di vendita, alle interfacce produttore-cliente, distributore-cliente, fornitoreproduttore. Alcuni esempi, riguardanti le transazioni amministrative con il cliente ﬁnale, sono: ricevimento dell’ordine cliente, analisi delle righe d’ordine e valutazione della modalit` a di soddisfacimento (semplice prelievo da stock, immediato o diﬀerito, richiesta di produzione), preparazione dei documenti di prelievo da magazzino, preparazione dei documenti di consegna formale (bolla di accompagnamento, documenti di fatturazione, ecc.), predisposizione dei mezzi di consegna (organizzazione giornaliera della ﬂotta di trasporto), aggiornamenti periodici inoltrati al cliente sullo stato di avanzamento dell’ordine, ricezione e veriﬁca dei pagamenti. Il ciclo di programmazione integrata concerne le attivit` a compartecipate con i partner della ﬁliera, con i quali si sono stipulati accordi di collaborazione a vario titolo9. Ad esempio, in una relazione di tipo VMI fra produttore e fornitore, quest’ultimo emette regolarmente report consuntivi di rilevazione delle giacenze di materie prime e componenti, misurate presso i depositi in ingresso del soggetto produttore. La trasmissione dei piani di domanda da condividere, durante lo svolgimento delle fasi della metodologia CPFR, costituisce un altro esempio di transazioni di informazioni fra soggetti cooperanti nella Supply Chain Network. Speciﬁche tipologie di sistemi informativi, noti come sistemi gestionali ERP (Enterprise Resource Planning), oﬀrono supporto tecnologico all’attuazione delle transazioni informative di Supply Chain Execution, attraverso l’impiego dei moduli 9

Coproduzione e condivisione riservata dei piani di distribuzione e produzione, comakership, partnership tecnologiche o commerciali di vario tipo.

1.3 Progettazione e gestione della Supply Chain

43

di Order Management e Material Management per la gestione delle attivit` a dei cicli attivo e passivo.

Flussi di materiali I prodotti a diﬀerente grado di completamento tecnologico lungo i diversi stadi logistico-produttivi della Supply Chain vengono continuamente trasferiti attraverso i nodi della rete, secondo opportune modalit` a di trasporto e consegna ﬁsica, dal soggetto “mittente” al soggetto “ricevente”. Il trasferimento ﬁsico delle merci lungo la ﬁliera avviene lungo due “direttrici” orizzontali: • servizio di vendita, da monte a valle: dal fornitore di materie prime ﬁno al cliente ﬁnale. Il prodotto viene progressivamente arricchito di contenuto tecnologico e funzionale, e ﬂuisce ﬁno al punto di consegna per il consumatore; • servizio post-vendita, da valle a monte: dal cliente al produttore/fornitore. Il prodotto, difettoso o obsoleto, viene riparato (e riconsegnato al cliente) o ritirato dal mercato, sostituendolo con un modello diﬀerente, qualora il cliente proceda ad un nuovo acquisto. Le attivit` a di movimentazione dei materiali nella fase operativa di Supply Chain Execution comprendono operazioni ﬁsiche10 di: • trasferimenti dei prodotti fra le macchine operatrici, durante le fasi produttive prescritte dal routing tecnologico, internamente ad un singolo nodo della Supply Chain; • stoccaggio e prelievo dei prodotti presso i “depositi”; con tale termine si intendono le strutture adibite allo stazionamento temporaneo dei materiali, fra una fase tecnologica o distributiva e le successive: si tratta di buﬀer interoperazionali fra le macchine di produzione, magazzini di fabbrica a valle delle linee produttive, oppure magazzini di transito e smistamento delle merci lungo gli stadi della ﬁliera logistica; • packaging dei prodotti e composizione delle unit` a di carico, prima di inoltrarle al successivo nodo della rete, da monte verso valle; • ricevimento dei materiali in ingresso (interfaccia fornitore-produttore): operazioni di controllo di conformit` a degli imballaggi di consegna e di qualit` a dei prodotti in ingresso agli stabilimenti manifatturieri del produttore; • consegna dei materiali in uscita (interfaccia produttore-distributore o distributore-cliente ﬁnale): operazioni di confezionamento e spedizione dei prodotti verso i nodi logistici di distribuzione. Speciﬁche tipologie di sistemi informativi oﬀrono supporto tecnologico all’attuazione delle transazioni ﬁsiche di Supply Chain Execution: sistemi di warehouse management, software RFID di identiﬁcazione automatica dei prodotti e delle relative movimentazioni. 10

La classiﬁcazione proposta riguarda esclusivamente ﬂussi ﬁsici di materiali da monte a valle (servizio di vendita).

44

1 Demand Planning e Supply Chain Management

1.3.6 Supply Chain Analytics L’ultima fase dell’insieme di processi di programmazione, esecuzione e controllo tipici del Supply Chain Management si riferisce alle diverse attivit` a di misurazione e controllo delle prestazioni realmente erogate al cliente dalle aziende della Supply Chain Network, nel corso delle attivit`a esecutive (SCE ), in relazione agli obiettivi pianiﬁcati nel corso della stesura dei piani di breve-medio termine (SCP). I metodi ed i modelli matematici di Supply Chain Analytics applicati al Demand Planning, cui sono dedicati i capitoli 5 e 6 del libro, hanno una triplice valenza applicativa: • consuntiva: misurano lo scostamento fra valori obiettivo pianiﬁcati nelle fasi SCP e valori realmente ottenuti nelle fasi SCE (scostamenti di domanda, scostamenti nelle previsioni di vendita, nel fatturato, nel livello di servizio al cliente); • interpretativa (analitica): cercano di spiegare il motivo degli scostamenti consuntivati presentati al management, sotto forma di reportistica, attraverso l’utilizzo di modelli esplicativi di Data Mining, i quali si propongono di identiﬁcare relazioni ricorrenti e signiﬁcative fra tipologie eterogenee di dati (valori consuntivi di domanda, caratteristiche qualitative dei prodotti e dei clienti); • predittiva: dopo aver opportunamente compreso le relazioni che legano fenomeni esogeni di input (ad esempio: il comportamento ed i bisogni di acquisto dei consumatori) ai valori previsti per l’output (ad esempio: l’andamento passato della domanda di prodotti ﬁniti nel tempo), si cerca di prevedere la proiezione futura dei dati di output rilevati nel passato (quindi, ad esempio: l’andamento futuro della domanda di prodotti nell’orizzonte di pianiﬁcazione). L’analisi delle performance di Demand Planning costituisce l’oggetto delle indagini di Demand Analytics e Demand Intelligence. Con il primo gruppo di modelli, attraverso la deﬁnizione di indicatori di merito (KPI ), si studiano le prestazioni operative dell’azienda, in relazione alle vendite, al servizio erogato al cliente, alla capacit`a di prevedere con accuratezza la domanda sui segmenti prodotto-mercato. Mediante l’impiego del secondo gruppo di modelli, tratti dalla disciplina della Business Intelligence, si valutano le caratteristiche dei mercati di vendita e dei prodotti, con la duplice valenza interpretativa e predittiva, al ﬁne di apprendere dall’esperienza passata quali opportunit` a di prodotto-mercato l’azienda pu` o sfruttare proﬁttevolmente nel tempo e quali azioni future, sul fronte della gestione della domanda commerciale, `e necessario intraprendere per conseguire i vantaggi economici attesi. 1.3.7 Integrazione dei processi di Supply Chain Management A conclusione dell’analisi svolta in merito ai processi di Supply Chain Conﬁguration e di Supply Chain Operations Management, vengono delineati quali scambi informativi collegano, in modo multidirezionale, i diversi processi studiati, facendo riferimento alla ﬁgura 1.11.

1.3 Progettazione e gestione della Supply Chain

45

Figura 1.11. Integrazione dei processi di Supply Chain Management

La fase di deﬁnizione della strategia logistico-produttiva aziendale (SCS ) fornisce in input alla fase di conﬁgurazione delle risorse tecnologiche (SCND) il necessario budget degli investimenti in attrezzature ed impianti di produzione, stoccaggio e distribuzione previsti negli anni successivi. I piani di capacit` a formulati in sede di conﬁgurazione reticolare della Supply Chain (SCND) vengono riportati al management strategico, per ricevere validazione formale; tali piani rappresentano anche un input che funge da vincolo per la fase di programmazione operativa di breve-medio termine (SCP): i piani di domanda, di produzione ed acquisto devono essere coerenti con le limitazioni di capacit`a insite nei piani interni delle capacit` a produttive e ricettive, pena la non fattibilit` a realizzativa dei piani stessi. I piani di approvvigionamento, deﬁniti in fase SCP, vengono trasmessi ai fornitori, ai terzisti ed ai partner della ﬁliera distributiva, i quali hanno reso note all’azienda produttrice le limitazioni di disponibilit` a di materiali e capacit` a. La fase Supply Chain Planning trasmette periodicamente i piani alla successiva fase implementativa (SCE ), a valle della quale i risultati operativi conseguiti sul campo vengono misurati e comparati con i valori obiettivo deﬁniti in sede di pianiﬁcazione, durante la fase Supply Chain Analytics. Le rilevazioni analitiche eseguite in fase SCA, supportate da modelli di Demand Intelligence e dalla conoscenza maturata sul campo dalla forza di vendita locale, forniscono interpretazioni e predizioni circa il futuro potenziale comportamento dell’insieme dei consumatori.

46

1 Demand Planning e Supply Chain Management

1.4 Motivazioni gestionali per il Demand Planning I processi gestionali di Demand Planning conducono alla formulazione dei piani di domanda (sales forecast, sales budget, sales target, demand plan) e dei piani operativi di lungo, medio, breve termine. Le motivazioni gestionali che giustiﬁcano l’adozione, da parte delle aziende della Supply Chain, di metodologie e modelli matematici per l’eﬃciente gestione dei processi di Demand Planning, ed in particolare per la stima accurata della domanda commerciale, possono essere ricondotte alle seguenti. Motivazioni esterne. Riguardano le relazioni dell’azienda con i clienti, gli stakeholders, i partner della ﬁliera: soddisfazione del cliente, conseguita attraverso la massimizzazione delle pratiche di servizio al cliente; soddisfazione degli stakeholders dell’impresa (azionisti privati e pubblici), conseguita attraverso la massimizzazione della proﬁttabilit` a e del valore economico dell’impresa nel medio e nel lungo periodo; rapporti eﬃcienti di gestione dei partner esterni, ad esempio stipulando accordi vantaggiosi di lungo periodo con i fornitori strategici di materiali in input ai processi produttivi. Motivazioni interne. Riguardano l’eﬃciente svolgimento dei processi logisticoproduttivi interni all’azienda: acquisizioni e sviluppo degli investimenti di lungo periodo sulle risorse di produzione e distribuzione; eﬃciente gestione del capitale e degli asset aziendali; eﬃciente conduzione dei processi operativi di programmazione delle attivit` a di breve-medio termine di Sales & Operations Planning; raggiungimento o superamento dei target di vendita. Mediante la valorizzazione eﬃciente della domanda commerciale sui diversi segmenti prodotto-mercato nei periodi dell’orizzonte temporale di riferimento, l’azienda integrata nella Supply Chain Network formula piani di domanda multiperiodo ad elevata accuratezza ed `e in grado di svolgere in modo eﬃciente i processi operativi di11 : • customer management: servizio al cliente, massimizzato garantendo la disponibilit` a del prodotto quando richiesto e nelle quantit` a/qualit` a richieste; • supplier management: rapporto contrattuale con i fornitori e i terzisti, avendo la possibilit` a di negoziare eﬃcacemente i prezzi e le disponibilit` a nel tempo delle materie prime, nonch´e le modalit`a e la tempiﬁcazione di rifornimento; • collaborative management : pianiﬁcazione eﬃciente con i partner della ﬁliera, condividendo piani di domanda e di fornitura precisi e veritieri; • operations management : eﬃciente predisposizione dei piani di impiego delle risorse interne (produzione, stoccaggio, trasporto), su base multiplant, scegliendo le migliori alternative produttive e logistiche;

11

Le prime tre aree di gestione proposte nell’elenco sono riconducibili alle “motivazioni esterne” che giustiﬁcano e abilitano i processi di Demand Planning, le successive alle “motivazioni interne”.

1.5 Fattori critici di successo per il Demand Planning

47

• inventory management : monitoraggio accurato delle giacenze lungo tutti i livelli presidiati nella rete logistico-produttiva, al ﬁne di non disporre di eccessive quantit` a di prodotti ﬁniti invenduti e costosi in termini di mantenimento a scorta presso i magazzini; • resource management : eﬃciente pianiﬁcazione e sviluppo temporale degli investimenti in tecnologie di prodotto, di processo, di stoccaggio, di trasporto, in capitale umano e know-how; • ﬁnance management : eﬃciente impiego nel tempo della liquidit` a di cassa, eﬃciente pianiﬁcazione delle risorse ﬁnanziarie da reperire ed erogare ai progetti di investimento per il potenziamento delle attivit` a ﬁsiche e gestionali di Supply Chain Management.

1.5 Fattori critici di successo per il Demand Planning Aﬃnch´e i processi di Demand Planning siano svolti in modo ottimale, onde fornire i vantaggi competitivi esposti nella sezione 1.4, `e necessario che le aziende integrate nella Supply Chain Network strutturino ed organizzino i loro processi operativi per la deﬁnizione dei piani di domanda, di produzione, di distribuzione e di acquisto, tenendo conto dei quattro fattori critici di successo, nel seguito illustrati: integrazione collaborativa delle funzioni aziendali nella formulazione univoca dei piani di domanda; integrazione process-based delle attivit`a di Demand Planning all’interno dei processi di Sales & Operations Planning; univocit` a del piano di domanda, diﬀuso secondo diﬀerenti modalit` a di lettura ai diversi soggetti operanti nella Supply Chain integrata; controllo continuo delle prestazioni ottenute dai piani di domanda nel tempo. Integrazione organizzativa. Il macroprocesso gestionale di Sales & Operations Planning, ed in particolare i processi di generazione dei piani integrati di domanda (sales forecast, sales budget, sales target, demand plan), necessitano del coinvolgimento di diverse funzioni aziendali: • demand oriented: Marketing e Vendite; • supply oriented: Produzione, Logistica, Acquisti; • support oriented: Finanza, Risorse Umane; le quali apportano contributi e conoscenze speciﬁche “di funzione” alla deﬁnizione generale dei piani di disponibilit` a (supply plans) ed utilizzo (demand plans) delle risorse aziendali. Il processo di Demand Planning pu` o essere condotto, a livello organizzativo, secondo diﬀerenti approcci di integrazione, presentati nei capitoli 2 e 3, che mirano a coinvolgere a diverso titolo le funzioni aziendali e, nel caso di rapporti ` comunque importante collaborativi interaziendali, anche i partner della ﬁliera. E sottolineare sin d’ora che deve esistere un ente aziendale (una speciﬁca funzione, un team interfunzionale dedicato) in grado di svolgere il ruolo di master centrale nella deﬁnizione, nella revisione e nella diﬀusione in azienda dei piani di domanda

48

1 Demand Planning e Supply Chain Management

e di fornitura, facendosi carico dei vincoli e delle aspettative portate dalle singole funzioni. Integrazione operativa. Il processo di Demand Planning occupa una precisa posizione nell’ambito dei processi di pianiﬁcazione e controllo delle operations logistico-produttive (S&OP): le previsioni di domanda e la deﬁnizione del budget di domanda sono soggetti alla veriﬁca di fattibilit` a operativa, valutando nel medio-lungo termine l’eﬀettiva disponibilit` a (o, comunque, reperibilit` a) delle risorse operative. Le previsioni ed i piani di domanda devono essere formulati in modo strettamente integrato con i piani di fornitura (di produzione, di acquisto, di distribuzione), condividendo da un lato l’insieme di opportunit` a oﬀerte dal mercato dei clienti, dall’altro l’insieme di vincoli tecnologici, produttivi e logistici presentati dalle funzioni preposte alla realizzazione concreta dei prodotti previsti dai piani di Sales & Operations Planning. Convergenza operativa. Al termine dei processi S&OP di formulazione ed integrazione dei piani di domanda e di fornitura, l’unica versione condivisa dei piani di domanda viene diﬀusa in ambito aziendale ed interaziendale (single number forecast, single number demand plan). Le funzioni aziendali ed i partner della ﬁliera fruiscono dei piani di domanda, espressi in modo diﬀerente a seconda delle speciﬁche esigenze; il piano vincolato di domanda (demand plan), unico ad ogni elaborazione uﬃciale, viene diﬀuso alle diverse funzioni: • a diversi livelli gerarchici di aggregazione, lungo gli assi prodotto-cliente-tempo; • con diversi orizzonti di visibilit` a (orizzonte strategico, tattico, operativo); • con diverse unit` a di misura (volumi ﬁsici, valori monetari ). Analisi delle prestazioni. Al termine delle fasi attuative di Supply Chain Execution, le funzioni aziendali preposte alla generazione ed al controllo dei piani di domanda si occupano della misura delle performance ottenute dai processi previsionali di Demand Planning. L’analisi delle diverse tipologie di varianze `e critica per il successo dei progetti di Demand Planning: prima di poter correggere errori di previsione occorre averli correttamente misurati ed avere chiaramente identiﬁcato le ragioni che hanno determinato tali scostamenti. Il vantaggio di poter misurare con precisione i risultati dei piani di domanda `e duplice: • nel breve periodo: consente di remunerare adeguatamente la forza di vendita locale, comparando l’ammontare eﬀettivo delle vendite per prodotto-mercatoperiodo rapportato ai valori obiettivo deﬁniti nel piano di sales target; • nel medio-lungo periodo: consente di migliorare l’accuratezza dei piani di sales forecast, attraverso l’acquisizione di informazioni e conoscenza di business sulle variabili che causano la domanda per i prodotti ﬁniti.

2 Processi di Demand Planning

Criticit` a dei processi di Demand Planning – Oggetto della previsione e del piano di domanda – Processi di Sales & Operations Planning – Diﬀerenze operative fra piani di domanda – Processi di Demand Planning

2.1 Criticit` a dei processi di Demand Planning 2.1.1 Introduzione La disciplina gestionale del Demand Planning presenta diversi aspetti critici, legati al contesto di business, che la rendono un macroprocesso chiave per la competitivit`a delle aziende consorziate in sistemi integrati di Supply Chain Network. Il macroprocesso di Demand Planning si articola in processi decisionali, opportunamente sequenziati secondo workﬂow da seguire da parte di utenti intra- e interaziendali; il presente capitolo `e dedicato all’analisi dei processi costituenti e delle loro interrelazioni. I processi di Demand Planning richiedono inoltre un adeguato coinvolgimento e supporto operativo da parte delle funzioni aziendali, portatrici di competenze logistico-produttive di diversa provenienza e specializzazione, nonch´e della conoscenza dei comportamenti di acquisto nei segmenti prodotto-mercato in cui l’azienda opera. I piani di domanda (sales forecast, sales budget, sales target, demand plan) vengono formulati (fase SCP), implementati (fase SCE ) e controllati (fase SCA) periodicamente, durante i cicli operativi di Sales & Operations Planning. La previsione statistica di domanda, gli obiettivi di vendita per la forza locale, il piano budgetario di domanda sono deﬁniti, al massimo livello di dettaglio: • per tutti i codici prodotto ﬁnito (esempio: articolo o referenza); • per tutti i mercati ﬁnali di vendita (esempio: punti vendita al dettaglio); e misurati in opportune: • unit` a di misura temporale, espresse in unit`a omogenee cronologicamente equidistanti: giorni, settimane, mesi, ...; • unit` a di misura di prodotto-mercato (unit` a ﬁsiche per identiﬁcare i volumi di vendita, unit` a monetarie per misurare il volume di aﬀari presso i clienti).

Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

50

2 Processi di Demand Planning

Ad esempio, il piano previsionale delle vendite (sales forecast) prevede che verr` a venduta una quantit` a Q1 del prodotto p, presso il cliente c, nel periodo t dell’orizzonte di riferimento; viceversa, il piano vincolato di domanda (demand plan) stabilisce di immettere sul mercato, per la medesima terna {p, c, t} una quantit` a inferiore Q2 , a causa di vincoli di capacit` a produttiva, non altrimenti risolvibili nel breve termine. ` opportuno distinguere le criticit` E a del contesto di Supply Chain Management che caratterizzano la complessit`a dei processi di Demand Planning, secondo i due assi dimensionali di prodotto e mercato. 2.1.2 Criticit` a di prodotto Vi sono alcuni fattori critici di complessit` a relativi ai prodotti commercializzati dalle imprese della ﬁliera logistico-produttiva che portano alla necessit` a di stimare accuratamente la domanda futura di mercato ed i potenziali eﬀetti sulla redditivit` a e sulla competitivit` a aziendali. Ampiezza della gamma. La variet` a dei prodotti presenti nel catalogo commerciale delle aziende produttive e distributive `e assai elevata: i prodotti sono oﬀerti in molteplici varianti ed opzioni, opportunamente conﬁgurabili su precise scelte del cliente, e talvolta si diﬀerenziano, a parit` a di famiglia commerciale, semplicemente perch´e diversamente imballati ed etichettati oppure perch´e presentano diﬀerenti colori o piccole varianti, a parit` a di contenuto tecnologico e modalit` a d’uso da parte del consumatore. L’ampiezza del mix oﬀerto ha conseguenze in merito alla progettazione dei processi di produzione e di spedizione dei prodotti: la best practice gestionale nota come postponement suggerisce di progettare i prodotti in modo tale che la diversiﬁcazione subentri solamente nelle fasi terminali di assemblaggio delle parti componenti l’assieme ﬁnale, quindi il pi` u tardi possibile. Dal punto di vista della deﬁnizione del piano di domanda, la proliferazione dei codici prodotto ﬁnito comporta sovente il ricorso, da parte delle aziende, a strumenti informatici noti come sistemi Advanced Planning & Scheduling (APS ), che permettono il calcolo automatico del sales forecast per ciascun item. Gli utenti che si occupano dell’analisi e della revisione del forecast generato (i demand planner) focalizzano la loro attenzione sugli articoli maggiormente richiesti dai clienti, oppure su quelli che, avendo un prezzo di vendita elevato, generano maggiore fatturato a parit` a di volumi venduti. In altri casi, si preferisce aggregare i singoli codici prodotto ﬁnito in famiglie commerciali, sulle quali calcolare il piano previsionale a livello aggregato, ripartendo poi i volumi aggregati sui singoli item, sulla base di pesi statistici opportunamente settati1 . Riassortimento della gamma. Il mix di prodotti presenti a catalogo e proposti sul mercato viene frequentemente riassortito, al ﬁne di rinnovare l’oﬀerta di ven1

La possibilit` a di calcolare il forecast previsionale a livelli gerarchici aggregati, per prodotto e/o mercato e/o bucket temporale, comporta beneﬁci per quanto concerne l’aﬃdabilit` a statistica dei valori previsti (forecast accuracy). Questo aspetto viene approfondito nel capitolo 12.

2.1 Criticit` a dei processi di Demand Planning

51

dita ed incrementare la quota di mercato, ﬁdelizzando ulteriormente i clienti in portafoglio e acquisendone nuovi. La variazione nell’insieme di codici end item si ottiene introducendo nuovi prodotti, completamente innovativi o parzialmente sostituitivi di altri prodotti, e creando nuove opzioni o varianti di referenze esistenti; altri prodotti, obsoleti o basso-vendenti, vengono rimossi dall’oﬀerta commerciale. La periodica revisione dei prodotti oﬀerti implica uno stretto controllo delle previsioni e dei piani di vendita, in particolar modo per i prodotti fortemente innovativi, non sostituitivi di altre referenze, per i quali non si dispone, per deﬁnizione, di dati storici relativi a vendite eﬀettuate nel passato. Ciclo di vita dei prodotti. I nuovi prodotti, recentemente lanciati sul mercato con speciﬁche campagne promozionali, e quelli in fase terminale del proprio ciclo di vita necessitano di modelli ed algoritmi di previsione speciﬁci, diﬀerenti da quelli utilizzati nell’ambito di serie storiche “regolari” (relative cio`e a prodotti che si trovano nella fase centrale di maturit`a, nel proprio product lifecycle). Conseguentemente al frequente riassortimento della gamma commerciale, il ciclo di vita dei prodotti si riduce sempre pi` u nel tempo: all’interno di cicli periodici (o stagioni) di vendita, vengono presentati prodotti da vendere esclusivamente all’interno di uno speciﬁco ciclo, per particolari motivazioni legate a fattori esterni (ad esempio: le stagioni climatiche) o a fattori interni (ad esempio: le collezioni nel settore dell’abbigliamento, le innovazioni tecnologiche in ambito hi-tech). La progressiva riduzione del product lifecycle implica una riduzione percentuale dei prodotti per i quali si dispone di un suﬃciente numero di valori storici, da fornire in ingresso ai modelli matematici di analisi delle serie storiche. Attivit` a di marketing. Nonostante esistano consolidate tecniche matematiche di previsione delle vendite per prodotti a domanda regolare nel tempo (prodotti “continuativi”), le quali forniscono un sales forecast di buona accuratezza, i decisori dei processi di Demand Planning pianiﬁcano sovente attivit` a promozionali, addizionali rispetto al forecast generato statisticamente, ad esempio per incentivare l’acquisto dei prodotti in periodi di bassa vendita, mediante azioni di riduzione del prezzo unitario, sconto su quantit` a minime acquistate, introduzione di gadget a corredo del prodotto. Le attivit` a di pianiﬁcazione delle promozioni e degli eventi di marketing costituiscono un fattore di complessit` a nei processi di Demand Planning, e devono essere supportate da speciﬁche metodologie gestionali e modelli quantitativi, a causa delle strutturali ed ovvie limitazioni dei modelli statistici di analisi delle serie storiche, per i quali `e impossibile prevedere la presenza di una promozione su un certo segmento prodotto-mercato nel futuro, constatando che in passato non `e mai stata attuata alcuna azione promozionale di marketing sul medesimo segmento. Durabilit` a dei prodotti. Alcuni prodotti, ad esempio gli articoli alimentari freschi nel comparto industriale food & beverage, hanno una limitata vita utile (shelf life, durata “sullo scaﬀale” del punto vendita), terminata la quale non sono pi` u fruibili da parte dei clienti, in quanto hanno subito un’alterazione permanente delle condizioni di utilizzo. La criticit` a delle previsioni di vendita `e maggiore per

52

2 Processi di Demand Planning

prodotti a bassa durabilit` a: l’accuratezza delle stime generate per questa classe di articoli dev’essere spinta a livello giornaliero, in coerenza cio`e con la frequenza di riapprovvigionamento di tali prodotti sugli scaﬀali e sugli spazi espositivi presso i punti vendita. Approvvigionamento dei componenti. La presenza nella gamma commerciale di prodotti ad alto contenuto tecnologico comporta la necessit` a di dover gestire, in particolar modo per i soggetti produttore e fornitore nella Supply Chain Network, complesse distinte di fabbricazione ed assemblaggio dei prodotti (BOM ), formate da numerosi livelli gerarchici, dal prodotto ﬁnito ﬁno ai componenti elementari di acquisto, non ulteriormente scomponibili, ed alle materie prime in input ai processi industriali di trasformazione chimico-ﬁsica. Eseguire una stima di domanda per tali prodotti ingegneristicamente complessi implica doversi riferire necessariamente ad un orizzonte di previsione della domanda almeno pari al lead time massimo (LTmax ) di reperibilit` a sul mercato dei componenti: in altri termini, per immettere sul mercato un determinato volume di un certo prodotto p, al periodo futuro t, occorre iniziare almeno t − LTmax periodi prima il reperimento delle materie prime, negoziando contratti di fornitura di medio-lungo termine con i fornitori geograﬁcamente dispersi. D’altro canto, `e noto che, a parit` a di segmento prodottomercato, formulare previsioni di domanda in periodi dell’orizzonte di riferimento “lontani”, rispetto all’istante corrente, comporta una minore accuratezza, rispetto alla stima dei volumi di vendita per periodi “vicini”.

2.1.3 Criticit` a di mercato La stima della domanda commerciale `e un processo complesso anche per la presenza di aspetti critici legati al mercato in cui l’azienda opera, sia con riferimento al parco clienti in portafoglio, sia in relazione al contesto competitivo caratterizzato dalle azioni della concorrenza, rivolte ad incrementare la rispettiva quota di mercato. Numero di clienti. L’elevato numero di clienti con cui l’azienda intrattiene relazioni di vendita, siano essi consumatori ﬁnali o aziende industriali, comporta il ricorso a soluzioni informatiche per la generazione automatica e massiva delle previsioni di vendita, in analogia a quanto descritto per l’ampiezza della gamma di prodotti. Anche i clienti possono quindi essere ripartiti in classi di appartenenza, svolgendo analisi ABC sul fatturato di competenza e sui volumi di vendita: la stima della domanda per i clienti pi` u rappresentativi viene condotta con maggiore attenzione, facendo seguire alla fase di generazione automatica del sales forecast statistico una revisione multilivello, da parte dei diversi soggetti aziendali partecipanti al processo di Consensus Based Forecasting, illustrato nel prosieguo del capitolo. Livello di servizio. Il raggiungimento di un elevato livello di servizio al cliente rappresenta un elemento critico per molte aziende operanti nel settore retail/grande distribuzione: prodotti standard, di utilizzo comune e consolidato, ven-

2.1 Criticit` a dei processi di Demand Planning

53

gono costantemente riforniti presso i punti ﬁnali di contatto con il cliente, il quale esige di trovare il proprio prodotto “preferito” presso gli scaﬀali del punto vendita, pena la scelta di un prodotto di un’azienda competitor, del tutto simile dal punto di vista tecnologico-funzionale. Il servizio al cliente `e una misura del grado di aﬀezione del cliente per i prodotti ﬁniti realizzati e distribuiti dalle aziende della ﬁliera, e si articola lungo diverse dimensioni di analisi: prestazioni di tempo, prestazioni di prezzo, prestazioni di conformit` a, prestazioni di supporto post-vendita. Per talune imprese, ad esempio operanti in settori industriali make to stock o deliver to stock 2 , il processo di previsione della domanda commerciale `e cruciale, determinante per la loro stessa sopravvivenza: di fondamentale importanza `e quindi la stesura di piani di domanda ad elevata accuratezza, onde identiﬁcare con precisione gli eﬀettivi volumi di prodotto richiesti dai consumatori al punto vendita, indirettamente ﬁltrati dalle politiche gestionali di riordino e ricompletamento delle scorte, praticate dalle strutture di distribuzione al dettaglio nella ﬁliera logistica. Azioni dei competitor. L’analisi strategica dei segmenti prodotto-mercato (svolta nella fase SCS ) in cui l’azienda decide di investire risorse sviluppando il proprio business non pu` o prescindere dall’attenta valutazione delle politiche di vendita e distribuzione adottate dalle imprese competitor operanti nel medesimo settore industriale; tramite valutazione comparativa delle performance interne ed esterne (analisi di benchmarking), l’azienda pu` o intraprendere speciﬁche azioni promozionali e campagne di marketing mirate all’incremento della quota di mercato e dell’immagine dei propri brand commerciali. Lead time di consegna. La rapidit` a di consegna dei prodotti ai consumatori ﬁnali diviene sempre pi` u una variabile critica per la valutazione delle performance aziendali, in termini di livello di servizio percepito dal cliente. La struttura della rete commerciale e l’organizzazione logistica dei canali distributivi inﬂuenzano le prestazioni legate alla puntualit` a/rapidit` a di consegna delle merci ai clienti. Una previsione di domanda accurata, eﬀettuata per singola referenza e per singolo punto vendita, consente di rifornire al momento giusto i centri di spesa per i clienti, con le quantit` a giuste di prodotto e con la giusta composizione di mix, senza la necessit`a di dover detenere elevate quantit` a di stock presso i livelli intermedi della ﬁliera logistico-distributiva. Canali commerciali di vendita. L’azienda integrata nella Supply Chain deve essere in grado di posizionare opportunamente, dal punto di vista dell’oﬀerta commerciale, i propri prodotti all’interno di speciﬁci canali di distribuzione e vendita diretta al cliente, segmentando e specializzando l’oﬀerta attraverso la deﬁnizione di azioni di marketing focalizzate sulle peculiarit` a dei singoli mercati. Anche i processi transazionali di vendita richiedono un’adeguata progettazione, poich´e molto diverse sono le modalit`a di relazione commerciale con i clienti, a seconda che si operi in comparti industriali di tipo B2B o B2C . L’organizzazione delle attivit` a 2

L’analisi delle modalit` a di ricevimento e risposta alla domanda commerciale per i prodotti del mix aziendale `e svolta nei paragraﬁ 2.2.2 e 2.2.3.

54

2 Processi di Demand Planning

di vendita presso i mercati locali prevede, a seconda dei casi, il coinvolgimento diretto di agenti di vendita ad elevata specializzazione verticale, piuttosto che la progettazione di strutture di comunicazione “massiva” con il cliente, quali ad esempio mailing list, pubblicit` a televisiva o cartacea generica, portali web contenenti i cataloghi dei prodotti.

2.2 Oggetto della previsione e del piano di domanda 2.2.1 Determinanti della domanda commerciale I piani di domanda formulati nel corso dei processi operativi di Sales & Operations Planning (dal sales forecast al demand plan) si riferiscono ai prodotti ﬁniti realizzati dai soggetti produttori, distribuiti dagli stessi oppure da operatori logistici terzi presso i clienti ﬁnali, nel corso dei periodi in cui l’orizzonte di previsione `e articolato. I piani di domanda sono deﬁniti tenendo conto di tre fondamentali determinanti, che concorrono a formare il budget delle vendite: • le previsioni statistiche in relazione alle componenti regolari della domanda (trend, stagionalit` a, ciclicit`a economica); • le azioni di marketing volte a sostenere e promuovere le vendite di alcuni prodotti presso speciﬁci comparti di mercato; • l’insieme degli ordini cliente gi` a in portafoglio, al momento della redazione dei piani di domanda. Quest’ultima componente della domanda commerciale `e data, ad esempio: • nel caso della gestione Business to Consumer : dagli ordini di rifornimento ai punti vendita o presso i centri logistici di transito delle merci; • nel caso della gestione Business to Business: dagli ordini di acquisto inoltrati nel breve-medio periodo dai clienti industriali. Esistono svariate metodologie e best practices gestionali di trattamento delle determinanti di domanda: il problema consiste nel consolidamento rule based delle diverse fonti di domanda, poich´e il piano ﬁnale di domanda, nella sua forma disaggregata e diﬀondibile presso gli operatori di vendita, contiene la semplice indicazione di quanto dovr` a presumibilmente essere immesso sul mercato, per ciascuna terna prodotto-cliente-periodo, senza distinzione di provenienza delle speciﬁche quantit` a domandate3 . Ad esempio, si supponga che il forecast, generato da un apposito team di demand planner per la terna {p, c, t}, sia pari alla quantit` a QF ; nello stesso periodo t il dipartimento di Marketing decide di introdurre sul mercato c un’ulteriore quantit` a QM di prodotto p, proponendo uno sconto sul prezzo di vendita. Il dipar3

L’analisi delle logiche di nettiﬁcazione degli ordini cliente sulle previsioni di vendita (demand netting) `e svolta nel capitolo 12.

2.2 Oggetto della previsione e del piano di domanda

55

timento Vendite ha invece raccolto, per la stessa terna, un ammontare di ordini cliente pari alla quantit` a QO . Attraverso speciﬁche regole e politiche operative di Demand Planning, le quantit` a di domanda QF + QM (previsionale complessiva) e QO (ordinato) vengono consolidate, ottenendo il valore unico QB di domanda per la terna {p, c, t} in oggetto, rappresentante il valore di sales budget, da confrontare in seguito con i vincoli di disponibilit` a delle risorse logistico-produttive, al ﬁne di pervenire alla stesura del demand plan. 2.2.2 Modalit` a di risposta alla domanda commerciale Come sottolineato in precedenza, il lead time di consegna dei prodotti ai clienti rappresenta un elemento critico per la progettazione dei processi decisionali e operativi di Demand Planning. La modalit` a di risposta alla domanda commerciale adottata dalle aziende operanti nelle moderne Supply Chain Network consiste nel determinare: • che cosa viene formalmente richiesto dai clienti nelle transazioni di acquisto: quale livello tecnologico di prodotto, quale livello logistico di consegna; • che cosa `e necessario gestire mediante previsioni di domanda; • che cosa `e possibile gestire su esplicita commessa cliente; in relazione ai processi tecnologici di produzione e logistici di distribuzione. La domanda commerciale pu` o quindi essere soddisfatta dall’azienda logisticoproduttiva secondo le due modalit` a seguenti. Gestione su previsione La produzione dei componenti e/o dei prodotti ﬁniti avviene per ripristinare il livello di scorta di prodotto ﬁnito detenuta presso i depositi di fabbrica (gestiti dal soggetto produttore) e/o presso i depositi logistici (gestiti dal soggetto distributore): i piani di produzione e distribuzione sono deﬁniti ed implementati per garantire la disponibilit` a immediata di volumi di prodotto presso i magazzini logistico-produttivi e presso i punti vendita di raccolta della domanda del cliente ﬁnale. In contesti industriali in cui il lead time, la tempestivit` a e la puntualit` a di consegna sono fattori critici di successo, la stima previsionale della domanda riveste un ruolo di primaria importanza nel garantire il corretto ricompletamento delle giacenze di prodotto presso le strutture ricettive della Supply Chain. Unicamente sulla base della previsione di sales forecasting, quindi in assenza di ordini cliente, vengono redatti il sales budget e, coerentemente con i vincoli di scarsit`a delle risorse logistico-produttive, il piano uﬃciale di domanda. Gestione su commessa cliente La produzione dei componenti e/o dei prodotti ﬁniti avviene esclusivamente in presenza di espliciti ordini di acquisto dei clienti. Le attivit` a di fabbricazione, assemblaggio, confezionamento e spedizione dei prodotti iniziano dopo il ricevimento dell’ordine, in quanto il cliente `e disposto ad attendere la consegna del

56

2 Processi di Demand Planning

prodotto per un periodo di tempo almeno pari alla somma dei lead time di tutte le fasi sequenziali di produzione e controllo qualit` a, confezionamento, spedizione e consegna. A seconda dell’entit` a del lead time richiesto per la consegna, si rende necessario per il soggetto produttore anticipare alcune fasi produttive (rispetto al ricevimento formale dell’ordine), ad esempio quelle relative alla fabbricazione di parti e componenti, da assemblare nel prodotto ﬁnito solo all’atto di deﬁnizione dell’ordine da parte del cliente, processo formale nel quale il cliente speciﬁca l’esatta conﬁgurazione tecnico-funzionale del prodotto, selezionandone una speciﬁca variante. La presenza di ridotti lead time di consegna dei prodotti accettati dal mercato rende il processo statistico di generazione delle previsioni di vendita una necessit` a ﬁsiologica per le aziende della Supply Chain. Senza un piano accurato di sales forecast, non `e possibile stimare, ad esempio, il fabbisogno indiretto di materie prime da approvvigionare nel medio-lungo termine, stipulando contratti di acquisto con i fornitori: la conoscenza del sales forecast mensile o semestrale sulle materie prime e sui componenti elementari (di comune utilizzo e reperibili presso molteplici fornitori) permette di rispondere positivamente alle richieste di acquisto dei prodotti ﬁniti, ottenuti dalla composizione delle parti il cui fabbisogno indiretto `e stato precedentemente stimato. Nell’ambito dei sistemi produttivi e distributivi della Supply Chain, `e possibile deﬁnire una speciﬁca fase che rappresenta lo stadio tecnologico pi` u avanzato in corrispondenza del quale elaborare le previsioni di vendita. Risulta sempre possibile identiﬁcare, in tutte le catene di fornitura, per tutti i settori industriali e le classi merceologiche di prodotti, un punto di disaccoppiamento (Customer Order Decoupling Point – CODP) che permette di distinguere le fasi logistico-produttive gestite su previsione (a monte del punto di disaccoppiamento) da quelle successive, gestite su ordine. Il posizionamento del CODP lungo le fasi logistico-produttive attraversate dai prodotti ﬁniti identiﬁca univocamente: • lo stato di avanzamento tecnologico-logistico del prodotto in corso di realizzazione; • una speciﬁca fase del processo tecnologico-logistico. Sulla base del confronto operativo fra: • il lead time totale di produzione-distribuzione necessario alla completa fornitura del prodotto ﬁnito (LTP D ); • il lead time massimo concesso dal cliente per il ricevimento del prodotto (LTO ); il soggetto produttore determina l’esatta collocazione del CODP.

2.2 Oggetto della previsione e del piano di domanda

57

Partendo dall’ultima fase logistico-produttiva nella ﬁliera4 , cio`e dall’istante di consegna ﬁsica del prodotto al cliente, si misura a ritroso la lunghezza temporale del ciclo attivo, ﬁno a raggiungere l’istante LTP D : la fase produttiva o distributiva ivi posizionata deve essere gestita su previsione, quella immediatamente successiva su commessa. 2.2.3 Classiﬁcazione Wortmann La classiﬁcazione delle modalit` a di risposta alla domanda commerciale proposta da J.Wortmann nel 1983 si presta eﬃcacemente, con opportuni adattamenti, a rappresentare i possibili posizionamenti del punto di disaccoppiamento previsioniordini, lungo gli stadi logistico-produttivi delle Supply Chain articolate fornitoreproduttore-cliente. L’ampiezza della gamma commerciale gestita dalle aziende industriali, composta di numerose varianti sulle conﬁgurazioni basiche dei prodotti ﬁniti, suggerisce di separare i processi di produzione e montaggio di parti e componenti standard da quelli di personalizzazione del prodotto ﬁnito, mediante speciﬁco assiemaggio dei sottoassiemi standard, in piena coerenza con l’esigenza gestionale di customizzare gli articoli venduti in stadi avanzati, prossimi al confezionamento ﬁnale. La classiﬁcazione Wortmann, schematizzata in ﬁgura 2.1, individua cinque tipologie di aziende che soddisfano in modo diﬀerente la domanda commerciale; procedendo da monte a valle nella ﬁliera, si incontrano le realt` a logistico-produttive nel seguito tipizzate.

Figura 2.1. Classiﬁcazione Wortmann

Engineer to Order (ETO) L’intero processo di progettazione ingegneristica di prodotto, deﬁnizione dei cicli di produzione, acquisizione delle materie prime, fabbricazione (make) e montaggio (assembly) dei componenti sul prodotto ﬁnito, spedizione e consegna al cliente `e svolto su precisa indicazione formale del cliente. Questa modalit` a di risposta alla 4

Ad esempio, dalla fase di trasporto del prodotto ﬁnito dai depositi periferici zonali ai punti vendita.

58

2 Processi di Demand Planning

domanda `e tipica di aziende che producono beni ad elevato contenuto tecnologico, di elevato valore unitario ed in modeste quantit` a di produzione. Purchase to Stock (PTS), Make to Order (MTO) L’intero processo tecnologico (fabbricazione di parti e loro assemblaggio) `e svolto su commessa cliente. L’acquisto dei materiali standard in input alle diverse commesse che il produttore ricever` a nell’orizzonte di previsione viene operato mediante stime previsive di domanda. Make to Stock (MTS), Assembly to Order (ATO) Il lead time concesso dal cliente si riferisce, nel contesto ATO, alla sola personalizzazione nel montaggio delle parti componenti: il prodotto ﬁnito `e scelto a catalogo, sulla base di molteplici varianti e opzioni di inclusione/esclusione di componenti secondari accessori. Il produttore, ricevuto l’ordine di acquisto per una speciﬁca versione di prodotto ﬁnito, procede al prelievo delle parti standard, teoricamente disponibili a magazzino in quanto correttamente stimate nel relativo fabbisogno, ed attiva i processi tecnologici multifase di assemblaggio delle parti5 . La previsione di domanda viene operata, nel contesto MTS /ATO, per i materiali di acquisto e per le parti standard internamente costruite. Assembly to Stock (ATS) L’intervallo temporale di soddisfacimento dell’ordine concesso dal cliente `e relativo al solo tempo di spedizione ﬁsica del prodotto, dal magazzino di fabbrica del produttore, lungo gli stadi della ﬁliera distributiva, ﬁno a raggiungere il punto vendita. L’attivit` a di confezionamento dei prodotti, diﬀerenziata per paese e per tipologia di utenti, avviene talvolta presso i centri intermodali di transito e smistamento dei lotti di spedizione: la modalit` a di risposta alla domanda commerciale `e meglio deﬁnibile, in tal caso, come Package to Stock (PTS ), nel senso che il tempo di attesa concesso dal cliente `e relativo alla spedizione ﬁsica del prodotto dall’ultimo stadio della rete logistica direttamente ai centri di acquisto per il consumatore ﬁnale. La previsione di domanda `e operata a livello di prodotti ﬁniti in entrambi i casi. Deliver to Stock (DTS) Il lead time concesso dal mercato `e nullo, nei contesti DTS tipici della distribuzione dei beni di largo consumo, nei settori merceologici food & beverage, consumer packaged goods (in generale identiﬁcati con l’acronimo Fast Moving Consumer Goods): il cliente si aspetta di trovare la merce immediatamente disponibile e prelevabile dagli scaﬀali espositivi. La previsione di domanda `e operata, anche nel caso DTS, a livello di prodotti ﬁniti confezionati. 5

Se il settore avionico costituisce un valido esempio di produzioni ETO, il settore automobilistico ben rappresenta il caso di produzioni di tipo MTS /ATO.

2.3 Processi di Sales & Operations Planning

59

La diﬀerenza fra i contesti ATS e DTS `e semplicemente relativa alla profondit` a della previsione nel canale logistico, in relazione a quale soggetto logisticoproduttivo eﬀettua primariamente l’attivit` a di stima previsionale della domanda di prodotti ﬁniti. In entrambi i contesti, il retailer del punto vendita formula le previsioni per la domanda diretta (Sell-Out), le quali possono essere trasmesse, con o senza ﬁltri di controllo, a monte della ﬁliera logistico-produttiva, verso i distributori ed i produttori, in assenza o in presenza di metodologie gestionali di collaborazione fra partner della Supply Chain.

2.3 Processi di Sales & Operations Planning 2.3.1 Pianiﬁcazione della produzione e della distribuzione I processi di Demand Planning si collocano all’interno del macroprocesso di Sales & Operations Planning (S&OP), nel quale l’azienda pianiﬁca nel breve-medio termine le proprie attivit` a di produzione, di distribuzione e di integrazione operativa con i fornitori di materiali e con i terzisti. Il processo tradizionale di S&OP si sviluppa all’interno della singola azienda di produzione e distribuzione, nell’ambito della fase Supply Chain Planning (SCP); si tratta quindi di un processo svolto in modo non collaborativo con i partner della Supply Chain Network ed ha valenza operativa, rientrando nell’area di competenza del Supply Chain Operations Management. Lo schema generale del processo S&OP `e presentato in ﬁgura 2.2. I processi che compongono lo schema S&OP si caratterizzano per diﬀerenti granularit` a temporali ed orizzonti decisionali: • processi di medio periodo: i processi di Demand Planning, Master Planning, Material & Capacity Requirements Planning (MRP/CRP), Distribution Requirements Planning (DRP) si caratterizzano per orizzonte di lavoro annuale e dettaglio mensile; • processi di breve periodo: i processi interni di Operations Scheduling (job loading, allocation & sequencing), Transportation Scheduling (vehicle loading & routing) ed i processi esterni di programmazione operativa dei fornitori si caratterizzano per orizzonte di lavoro settimanale e dettaglio orario o giornaliero. Lo schema tradizionale disegnato in ﬁgura 2.2 include le fasi di: • pianiﬁcazione delle attivit` a (SCP): blocchi rettangolari e relativo output presentato nella parte destra della ﬁgura; • esecuzione delle attivit` a (SCE ): blocchi ovali situati nella parte bassa in ﬁgura. Non sono stati inseriti in ﬁgura feedback retroattivi per il controllo e la valutazione delle performance operative (SCA) conseguite nello svolgimento delle attivit` a esecutive.

60

2 Processi di Demand Planning

Figura 2.2. Processo generale di Sales & Operations Planning

L’obiettivo del macroprocesso S&OP `e la generazione di piani operativi fattibili, in grado di soddisfare gli impieghi potenziali delle risorse logistico-produttive (la domanda di mercato) assorbendo quantitativi di risorse realmente disponibili nel breve-medio periodo. Dall’analisi incrociata e interfunzionale di: • fabbisogni di produzione e distribuzione, stimati mediante i piani di sales forecast e sales budget; • disponibilit` a di risorse di produzione e distribuzione, stimata tramite i piani di capacit`a emessi nella fase Supply Chain Network Design; si determinano: • demand planning: i piani di domanda; • supply planning: i piani di produzione, stoccaggio, distribuzione, acquisto. I dati in ingresso ed in uscita al processo S&OP sono evidenziati in ﬁgura 2.3, riadattata dalla ﬁgura 2.2. Dal punto di vista terminologico, `e opportuno classiﬁcare i piani di domanda in due tipologie: • piani non vincolati : non soggetti a restrizioni operative circa la disponibilit` a di risorse nel breve-medio termine (sales forecast, piani di marketing intelligence, sales budget); • piani vincolati : sottostanti alle limitazioni circa le capacit` a logistico-produttive di breve-medio termine (demand plan, piani di marketing, sales target). I piani di domanda vincolati sono operativamente implementabili, poich´e compatibili con i piani di capacit` a delle risorse: rappresentano piani material & capacity feasible.

2.3 Processi di Sales & Operations Planning

61

Figura 2.3. Piani in input ed in output nel processo di Sales & Operations Planning

La stesura dei piani di domanda e di capacit` a in input al processo S&OP deve essere condotta, da parte dei responsabili di funzione, con la massima imparzialit` a (unbiased thinking), in assenza di condizionamenti mentali legati: • all’interazione fra persone nello stesso gruppo di lavoro, internamente al quale si riscontra sempre la presenza di soggetti opinion leader ; • all’interazione fra funzioni o gruppi di lavoro diﬀerenti, ciascuno dei quali persegue obiettivi interni, talvolta in conﬂitto con le altre funzioni, ed `e portatore di un insieme di vincoli da proporre alle controparti. 2.3.2 Tipologie di piani operativi I piani in output al macroprocesso S&OP sono oggetto di negoziazione fra: • le funzioni demand oriented, che propongono la stima previsionale della domanda, il portafoglio attuale delle commesse acquisite, i piani di marketing per lo sviluppo di nuovi prodotti e la promozione di quelli esistenti nella gamma commerciale; • le funzioni supply oriented, che presentano i piani pluriennali di acquisizione, sviluppo e mantenimento delle capacit`a logistico-produttive dell’azienda. I piani di domanda devono sottostare ai vincoli sulla disponibilit` a di risorse tecnologiche e di materiali in ingresso ai processi produttivi interni; l’analisi di fattibilit` a del budget delle vendite sulle limitazioni operative di capacit` a porta alla generazione di un insieme di piani tecnicamente realizzabili, globalmente coerenti, sostenibili ﬁnanziariamente nel breve-medio termine dall’impresa. Il sistema di piani di domanda si articola nelle azioni di marketing (marketing plan: promozioni di vendita, marketing relazionale), negli obiettivi di vendita per il personale addetto ai contatti diretti con i clienti (sales target ), inﬁne nel demand plan, che sintetizza i volumi di vendita che l’azienda deve sostenere,

62

2 Processi di Demand Planning

per ciascun prodotto ﬁnito, nei periodi di tempo dell’orizzonte di pianiﬁcazione tattico-operativa. Il sistema dei piani operativi logistico-produttivi pu` o essere dettagliato secondo orizzonti di breve e medio termine, come descritto in ﬁgura 2.2 e nel seguito illustrato. Piani operativi di medio termine Il piano principale di produzione (Master Production Schedule – MPS ) deﬁnisce i volumi di produzione interna dei prodotti ﬁniti, con dettaglio settimanale o mensile, indicando in quali stabilimenti e su quali linee produttive realizzare i diversi articoli, con quali cicli tecnologici, nel caso esistano alternative di routing, e con quali attrezzature di fabbricazione e montaggio. Il piano dei fabbisogni di domanda dipendente (Material Requirements Plan – MRP) deﬁnisce i volumi di componenti, semilavorati e sottoassiemi da approvvigionare, mediante l’utilizzo di risorse interne o con l’ausilio dei fornitori esterni, speciﬁcando in quale periodo dell’orizzonte di programmazione `e richiesta la disponibilit` a per tali materiali componenti, al ﬁne di rispettare la sincronizzazione produttiva delle attivit` a di costruzione ed assiemaggio ﬁnale dei componenti sul prodotto ﬁnito. Il piano di distribuzione dei prodotti lungo il canale logistico (Distribution Requirements Plan – DRP) indica i volumi di prodotto ﬁnito che devono essere movimentati nel tempo attraverso i nodi logistici della rete, dai depositi di fabbrica dei produttori verso i magazzini gestiti dai distributori. Il piano delle scorte di prodotto presso i nodi logistico-produttivi (Inventory Plan) indica le quantit` a di prodotti ﬁniti che devono essere rese disponibili per il confezionamento, la composizione dei lotti di movimentazione ed il loro trasporto ﬁno ai punti vendita. Il piano delle scorte deriva dai piani MPS, MRP, DRP mediante proiezione temporale degli “ingressi di prodotto” (produzioni versate a magazzino) e delle “uscite di prodotto” (produzioni prelevate dal magazzino per la consegna), per ciascun nodo della Supply Chain Network. In sede di formulazione del piano delle giacenze, viene inoltre deﬁnito il livello obiettivo di giacenza, per ogni prodotto ﬁnito e per ogni sito logistico-produttivo, di cui disporre nell’ultimo periodo dell’orizzonte di programmazione. Piani operativi di breve termine I piani di medio periodo MPS, MRP, DRP vengono periodicamente esplosi ad un dettaglio temporale pi` u ﬁne, dalla settimana/mese al singolo giorno/ora. La schedulazione dei fornitori (suppliers scheduling) rappresenta il piano operativo delle consegne giornaliere che il sistema di pianiﬁcazione dei materiali MRP si aspetta di ricevere dai fornitori di materie prime e semilavorati, al ﬁne di lanciare le attivit` a operative di produzione giornaliera, deﬁnite nella schedulazione delle risorse interne (operations scheduling). La schedulazione interna indica, per ciascun pacchetto di lavoro (job):

2.3 Processi di Sales & Operations Planning

63

• job allocation: su quali macchine operatrici deve essere lavorato; • job sequencing: secondo quale sequenza tecnologica deve essere processato, come prescritto dal job routing; • job timing: in quale istante deve iniziare la lavorazione sulla prima macchina. La schedulazione delle attivit` a di movimentazione, stoccaggio, prelievo da magazzino e spedizione al cliente (transportations scheduling) si articola, per ciascuna unit` a di carico e per ciascuna risorsa della ﬂotta di trasporto disponibile, nelle fasi di: • vehicle loading: su quali risorse di trasporto caricare quali unit` a di carico; • vehicle routing: quali nodi logistici visitare per stoccare, scomporre/ricomporre, prelevare le unit` a di carico, secondo quale sequenza e con quale percorso attraversare le diverse zone di consegna. 2.3.3 Underforecasting vs. Overforecasting La generazione delle previsioni di vendita (sales forecast ) svolge un ruolo centrale nell’intero macroprocesso S&OP, in quanto rappresenta il principale input per: • i successivi processi di Demand Planning per la determinazione del demand plan; • i processi di Supply Chain Planning per la formulazione dei piani operativi di produzione, acquisto e distribuzione. Il sales forecast `e generalmente formulato dalla funzione Vendite o da appositi team di demand planner, e rappresenta la base numerica su cui si innestano le azioni di marketing e gli ordini confermati dai clienti nel breve periodo. Sulla base dei volumi previsionali stimati si esegue la pianiﬁcazione delle modalit`a di impiego delle risorse disponibili, impegnando nel tempo le macchine, gli operatori, le risorse di trasporto. Formulare previsioni di vendita errate, sottostimando o sovrastimando l’eﬀettivo ammontare della domanda diretta espressa dal cliente ﬁnale, porta all’ineﬃciente utilizzo delle risorse logistico-produttive interne ed esterne. La deﬁnizione di un piano di domanda poco accurato: • aumenta la probabilit` a di incorrere in periodi di stockout, in cui la domanda reale si rivela superiore alla stima di sales forecast; • induce ad incrementare il livello di scorta di sicurezza dei prodotti ﬁniti, da tenere presso i magazzini di fabbrica ed i depositi della rete logistica, per cautelarsi nei confronti della domanda sottostimata; • deteriora il livello di servizio, dovendo l’azienda pagare penali di ritardata consegna della merce ai clienti (costi di backlog o diﬀerita consegna); • comporta revisioni frequenti ai piani operativi di breve periodo, al ﬁne di sopperire alla mancanza di materiali presso gli stabilimenti ed i magazzini della Supply Chain Network, modiﬁcando i piani di produzione (rischedulando le produzioni sulle linee, riattrezzando gli impianti e frazionando i lotti produttivi) e di distribuzione (modiﬁcando la composizione delle unit` a di carico, allestendo

64

2 Processi di Demand Planning

i carichi di trasporto in modo non eﬃciente dal punto di vista dell’occupazione spaziale o volumetrica dei veicoli). Underforecasting Sottostimare l’entit`a della domanda di prodotto comporta la perdita di opportunit` a di vendita sul mercato, non fornendo adeguata risposta alle volont` a di acquisto espresse dal cliente ﬁnale: le vendite perse perch´e la domanda `e stata sottostimata comportano un costo di stockout (mancata disponibilit` a di prodotti per la vendita). Al mancato margine di proﬁtto si aggiunge il ridotto livello di servizio oﬀerto alla clientela, che non sempre trova il prodotto immediatamente disponibile sugli scaﬀali dei punti vendita, e diminuisce quindi il grado di “fedelt` a” al brand, preferendo nel futuro l’acquisto di prodotti simili oﬀerti dalla concorrenza. Sul versante dell’impiego delle risorse logistico-produttive, la sottostima della domanda reale induce a formulare piani che sottoutilizzano gli impianti di produzione, stoccaggio e distribuzione, lasciando sottosature molte risorse costose, a detrimento della proﬁttabilit` a di lungo periodo degli investimenti in risorse tecnologiche, dimensionate in modo non corretto nella fase Supply Chain Network Design. Overforecasting Sovrastimare l’entit` a della domanda reale per i prodotti ﬁniti comporta l’immissione sul mercato di quantit` a in eccesso, diﬃcilmente smaltibili nel tempo, a meno di intraprendere a posteriori azioni promozionali di liquidazione sottocosto di tali quantit` a in esubero. La permanenza di prodotti invenduti presso i punti vendita induce i gestori retail a ridurre le quantit` a ordinate nel futuro, anche a fronte di domanda a trend crescente nel tempo. Ai prodotti invenduti occorre inoltre associare i costi connessi con la loro deperibilit`a ﬁsica (shelf life, vita utile “ﬁsica”) ed il conseguente smaltimento, nonch´e i costi di obsolescenza tecnologica (vita utile “tecnologica”), dovuti alla impossibilit` a di vendere i prodotti oltre un certo limite di tempo (ﬁne della vita utile), perch´e percepiti come inadeguati all’utilizzo da parte dei consumatori ﬁnali. La sovrastima previsionale della domanda induce il sistema logistico-distributivo ad incrementare i volumi ordinati, movimentati attraverso i nodi della ﬁliera: tenere ingenti quantit` a di prodotto in giacenza presso i magazzini per lunghi periodi determina l’insorgenza di costi di mantenimento a scorta di capitale circolante “immobilizzato”, non diversamente convertibile in altre opportunit` a, ad esempio di tipo ﬁnanziario. Da ultimo, gli impianti produttivi e logistici sono utilizzati in modo ineﬃciente: ad esempio, le macchine operatrici risultano sovrautilizzate in seguito alla produzione di quantit` a di prodotti eccedenti la domanda eﬀettiva, a scapito della produzione di altri prodotti la cui domanda `e stata stimata con elevata accuratezza.

2.4 Diﬀerenze operative fra piani di domanda Generalmente i piani di domanda in input al processo S&OP (sales forecast, piani di marketing, sales budget) ed i piani di domanda in output (demand plan, sales

2.4 Diﬀerenze operative fra piani di domanda

65

target ) diﬀeriscono fra loro per ragioni dovute a: • analisi di business intelligence sui segmenti prodotto-mercato svolte dalle funzioni Marketing e Vendite; • vincoli relativi a piani di capacit` a generati dalle funzioni Produzione/Logistica; • politiche di incentivazione e riconoscimento delle capacit` a della forza vendita. Risulta opportuno analizzare le cause degli scostamenti fra piani di domanda distinguendo fra le tre transizioni: sales forecast – sales budget; sales budget – demand plan; demand plan – sales target. 2.4.1 Transizione sales forecast – sales budget La previsione della domanda `e generata con metodi e modelli statistici di sales forecasting, mentre le azioni di marketing derivano dalla conoscenza del mercato da parte dei responsabili delle funzioni Marketing e Vendite. L’analisi delle condizioni operative di mercato (analisi dei segmenti prodotto-mercato, analisi delle azioni dei competitor) `e supportata, da un lato, da metodologie gestionali di formalizzazione della conoscenza implicita (tecniche di brainstorming e metodi qualitativi di sales forecasting), dall’altro dai modelli matematici di business intelligence applicati al Demand Planning. L’integrazione delle opportunit` a intrinseche alla previsione di domanda, alle azioni di marketing e al portafoglio ordini in essere conﬂuisce nel processo di deﬁnizione del sales budget. Ciascuno dei piani `e deﬁnito, come noto, in termini di quantit` a di domanda per ciascuna terna prodotto-mercato-periodo, per tutti i periodi dell’orizzonte di previsione. Si elencano alcuni esempi di motivazioni che determinano lo scostamento fra previsione statistica di domanda e budget delle vendite. 1. Le quantit` a di domanda possono essere spostate da prodotti “basso vendenti”, non critici per la redditivit` a aziendale, seppur richiesti dal mercato e contemplati nel sales forecast, a prodotti “alto vendenti”, generanti margini maggiori. 2. Le quantit` a di domanda possono essere spostate da prodotti obsoleti, alla ﬁne del proprio ciclo di vita, la cui domanda `e bassa e decrescente, verso prodotti nuovi, in fase di crescita iniziale nella propria curva di product lifecycle. 3. Le quantit` a di domanda previste statisticamente possono essere modiﬁcate secondo assegnate logiche di nettiﬁcazione degli ordini cliente in portafoglio. 4. Le quantit` a di domanda possono subire variazioni in seguito a revisione del top management, onde garantire la compatibilit` a con il piano strategico di sviluppo aziendale. 5. La promozione su alcuni prodotti, mediante azioni commerciali rivolte ad incrementarne la vendita, pu` o incidere sulle vendite di altri prodotti: tale fenomeno, noto come eﬀetto di cannibalizzazione fra prodotti, dev’essere accuratamente stimato, al ﬁne di evitare di sovrastimare la domanda per i prodotti poco richiesti, “cannibalizzati” da altri prodotti nei periodi di promozione di questi ultimi.

66

2 Processi di Demand Planning

2.4.2 Transizione sales budget – demand plan Il budget di medio termine relativo alle vendite deﬁnisce le quantit` a che si ritiene necessario vendere, nell’orizzonte di programmazione, per sostenere i piani strategici di competitivit` a aziendale. Esso `e coerente con le stime statistiche di domanda, le commesse gi`a acquisite, gli interventi correttivi operati dalle funzioni Marketing e Vendite. Il demand plan deriva dal sales budget, modiﬁcato per tenere conto dei vincoli tecnologici di produzione, stoccaggio e distribuzione nel medio periodo, a loro volta derivanti dalle decisioni di pianiﬁcazione delle capacit` a prese nel corso del processo di Supply Chain Network Design. Si elencano alcuni esempi di motivazioni che determinano lo scostamento fra budget delle vendite e piano di domanda. 1. La quantit` a domandata per una terna prodotto-mercato-periodo {p,c,t} `e ridotta, nel medesimo periodo t, a causa di limitazioni nella capacit` a produttiva in corrispondenza delle macchine preposte all’assemblaggio dei componenti del prodotto p. Alternative di subfornitura di quantit` a di prodotto ﬁnito p non sono altrimenti praticabili nel periodo t. 2. La quantit` a domandata `e ridotta, nel medesimo periodo t, a causa di limitazioni nella capacit` a di stoccaggio delle strutture logistiche dedicate all’immagazzinamento dello speciﬁco prodotto p6 . 3. La quantit` a domandata `e ridotta, nel medesimo periodo t, a causa di limitazioni nella disponibilit` a di una materia prima, approvvigionabile esclusivamente presso un fornitore strategico sovrassaturo nel periodo t e nei periodi limitroﬁ nell’orizzonte di programmazione. 4. La quantit` a domandata `e spostata in altri periodi t∗, antecedenti o successivi al periodo t, a causa delle limitazioni di capacit` a indicate nei precedenti punti 1, 2, 3. Due alternative possono comunque essere valutate per sopperire alle infattibilit` a esempliﬁcate nei quattro punti precedenti: • lato marketing: adottare variazioni sul prezzo nei prodotti, incrementando il prezzo di quelli che presentano infattibilit` a logistico-produttive, al ﬁne di disincentivarne l’acquisto nel breve periodo, a vantaggio di altri prodotti meglio allocabili alle risorse disponibili7; • lato produzione: ridurre i livelli di scorta obiettivo di ﬁne periodo (target stock) per alcuni prodotti “non vincolati” alla scarsit` a di risorse, a vantaggio dei prodotti per i quali non si riesce a soddisfare la domanda di mercato di periodo. 6

7

Questa circostanza pu` o veriﬁcarsi, ad esempio, nel caso di prodotti del comparto food & beverage che necessitano di particolari condizioni termoﬁsiche di conservazione (ad esempio, i prodotti surgelati in magazzini “freddi”). Si sta implicitamente ipotizzando che la domanda dei prodotti sia signiﬁcativamente elastica rispetto alla variabile prezzo. Un’analisi di regressione lineare, eﬀettuata comparando i dati storici di domanda e la serie storica dei prezzi di vendita del prodotto, pu` o avvalorare o smentire tale ipotesi.

2.4 Diﬀerenze operative fra piani di domanda

67

La prima modalit` a risolutiva di un’infattibilit` a produttiva implica un ricircolo verso le fasi di generazione dei piani di marketing e, conseguentemente, del budget delle vendite. 2.4.3 Transizione demand plan – sales target Va inﬁne considerata la transizione demand plan – sales target, nella quale vengono deﬁniti gli obiettivi di vendita ed il relativo piano di remunerazione per i venditori, responsabili della gestione dei segmenti di mercato “clienti industriali” e “consumer”. La quantit` a di vendita obiettivo (sales target ), deﬁnita dai responsabili all’interno della funzione Vendite, per un’assegnata terna prodotto-mercato-periodo pu` o essere: • coincidente con il demand plan; • superiore al valore deﬁnito nel demand plan, per stimolare e valorizzare la capacit`a di vendita dei salesman, anche tenendo conto delle buone performance di vendita dimostrate dagli stessi nel passato, in relazione alla medesima coppia prodotto-mercato8 ; • leggermente inferiore al valore deﬁnito nel demand plan, nel caso in cui il singolo venditore abbia in passato conseguito risultati non brillanti nella vendita della coppia prodotto-mercato in questione, non avendo mai raggiunto il target di vendita. 2.4.4 Esempio numerico Per meglio esempliﬁcare le problematiche relative alle diﬀerenze operative nei piani di domanda, presentate nei tre paragraﬁ precedenti, viene proposto un caso numerico. Un’azienda di produzione di apparati hi-tech realizza due prodotti p1 e p2 , venduti sul mercato c1 . L’orizzonte mensile di programmazione si estende da gen08 ad ago08. Nelle tabelle 2.1 e 2.2 sono riportati i valori numerici dei piani di sales forecast, di marketing e gli ordini cliente in portafoglio all’istante corrente (dic07, il bucket precedente al primo periodo di previsione). Gli ordini cliente sono presenti soltanto per i primi tre mesi dell’orizzonte, in quanto i clienti tipicamente inoltrano ordini nel breve-medio termine, senza impegnarsi su commesse nel lungo periodo. Il piano di sales forecast, generato da algoritmi statistici, `e invece presente su tutto l’orizzonte di previsione. L’azienda intende sostenere le vendite nel segmento {p1 , c1 } nei mesi di bassa domanda, mag08 e ago08, pianiﬁcando due promozioni di durata mensile che prevedono l’immissione, in tali mesi, di 20 unit` a aggiuntive di p1 sul mercato c1 . 8

Questa modalit` a “aggressiva” di incentivazione della forza di vendita deve comunque essere compatibile con i vincoli di disponibilit` a delle risorse, esposti in merito alla transizione sales budget – demand plan.

68

2 Processi di Demand Planning Tabella 2.1. Piani di domanda per il segmento {p1 , c1 }

P1 - C1

gen08

feb08

mar08

apr08

giu08

lug08

sales forecast piani marketing ordini sales budget demand plan sales target

100

120

100

135

95 20

140

110

80 20

115 115 115 115

100 120 120 120

85 100 115 115

135 120 120

115 120 120

130 125 125

110 110 110

100 100 110

mag08

ago08

Tabella 2.2. Piani di domanda per il segmento {p2 , c1 } P2 - C1 sales forecast piani marketing ordini sales budget demand plan sales target

gen08

feb08

mar08

apr08

giu08

lug08

70

75

80

80

mag08 90 −30

70

65

ago08 85 −30

50 70 60 60

80 80 80 80

85 85 85 90

80 80 90

60 60 60

70 70 70

65 65 65

55 55 55

D’altro canto, si prevede che l’eﬀetto delle due promozioni sul segmento {p1 , c1 } induca eﬀetti di cannibalizzazione sulle vendite del prodotto p2 nel medesimo mercato, riducendone le quantit` a previsionali di 30 unit` a, in ciascun mese di promozione su p1 . Il budget delle vendite viene determinato tramite la seguente regola di collaborative forecasting: la domanda di budget `e espressa dal massimo fra due quantit` a, gli ordini cliente e la somma algebrica del sales forecast e del piano di marketing. Per ottenere il piano vincolato di domanda (demand plan) per i due prodotti ﬁniti, occorre tener conto dei vincoli di capacit` a produttiva disponibile nei mesi dell’orizzonte di programmazione, in assenza, per ipotesi, di altri vincoli tecnologici o logistici. I prodotti p1 e p2 sono assemblati su due linee diﬀerenti, L1 ed L2 , le quali oﬀrono capacit` a massima mensile pari a 120 e 100 unit`a conformi. Dall’analisi della tabella 2.2, si osserva che per il prodotto p2 non vi sono vincoli attivi di capacit` a, pertanto il piano vincolato di domanda coincide con il sales budget. Viceversa, per il prodotto p1 la capacit`a produttiva non `e suﬃciente ad evadere la domanda nei mesi apr08 e giu08. La produzione della quantit` a eccedente nel mese apr08 (15 unit` a) viene anticipata al mese precedente mar08, producendo quindi 120 unit` a nel mese apr08, raggiungendo la massima saturazione dell’impianto L1 . La produzione della quantit` a eccedente nel mese giu08 (10 unit` a) viene invece in parte anticipata di un mese (5 unit` a aggiuntive prodotte in mag08 ),

2.4 Diﬀerenze operative fra piani di domanda

69

in parte delegata ad un terzista, in grado di produrre le rimanenti 5 unit` a nel mese giu08 in cui si manifesta, presumibilmente, la domanda9 . Il sales target, obiettivo di vendita per la forza di vendita locale, `e leggermente diverso dal demand plan, per entrambi i prodotti: a, invece • prodotto p 1 : nel mese ago08 si richiede al venditore di piazzare 110 unit` delle 100 pianiﬁcate, sfruttando l’eﬀetto della campagna promozionale prevista per quel mese; tale ulteriore quantit` a di vendita non conﬂigge con il vincolo di capacit`a di periodo per la linea produttiva L1 ; • prodotto p 2 : nei mesi di maggiore vendita, mar08 e apr08, si richiede al venditore di superare il piano di domanda, rispettivamente di 5 e 10 unit` a. La ﬁgura 2.4 presenta l’andamento graﬁco dei piani di forecast e di domanda per il segmento {p1 , c1 }: il sales forecast, non vincolato, ha un proﬁlo irregolare, tipico nel caso in cui la previsione sia calcolata a livello di singolo item; il piano vincolato di domanda ha un andamento maggiormente livellato, a causa sia della presenza di promozioni per raﬀorzare le vendite nei periodi di bassa domanda, sia della limitata disponibilit` a temporale della risorsa L1 .

Figura 2.4. Graﬁci di sales forecast e demand plan per il segmento {p1 , c1 }

9

Si sta implicitamente ipotizzando che il terzista non abbia dato la propria disponibilit` a a produrre le 15 unit` a eccedenti nel mese apr08 nello stesso mese, a causa del ridotto margine temporale di preavviso (dic07 – apr08 ). In alternativa, l’azienda non ha ritenuto conveniente delegare la produzione di p1 in apr08 al terzista, valutando economicamente pi` u conveniente anticipare di un mese la produzione delle 15 unit` a internamente, incorrendo comunque in costi di mantenimento a scorta del prodotto p1 .

70

2 Processi di Demand Planning

2.5 Processi di Demand Planning 2.5.1 Quadro generale dei processi di Demand Planning Lo schema concettuale di riferimento per il macroprocesso Sales & Operations Planning (ﬁgura 2.3) `e scomponibile nelle due componenti Demand Planning e Supply Planning, rispettivamente preposte alla gestione della domanda commerciale ed alla gestione delle risorse logistico-produttive. Il confronto collaborativo fra le opportunit` a di sviluppo della domanda nel breve-medio termine (sales budget) e le capacit`a disponibili per le risorse nel medesimo orizzonte di programmazione (piani di capacit` a ) conduce l’azienda alla formulazione dei piani di domanda e dei piani operativi, concernenti lo svolgimento delle attivit` a produttive e distributive predisposte per far fronte al volume programmato di domanda per i prodotti ﬁniti. Entrando nel merito dei soli processi caratterizzanti il Demand Planning, si possono distinguere due momenti concettuali di pianiﬁcazione della domanda commerciale: • preparazione del budget delle vendite (non vincolato alla disponibilit` a di risorse); • negoziazione del budget delle vendite (vincolato alla disponibilit` a di risorse). La dinamica dei processi di analisi incrociata dei piani di budget (impieghi: sales budget; disponibilit` a: budget delle capacit` a) `e stata aﬀrontata nei precedenti paragraﬁ di questo capitolo. Dal punto di vista dei processi di Demand Planning, la negoziazione dei budget porta alla generazione del piano vincolato di domanda (demand plan), del piano operativo delle azioni di marketing (marketing plan), del piano degli obiettivi di vendita (sales target ), piani la cui fattibilit` a `e garantita dal rispetto dei vincoli sulla scarsit` a delle risorse nel tempo. La dinamica dei processi che caratterizzano la generazione dei piani di domanda non vincolati (sales forecast, piani non vincolati di marketing, sales budget) costituisce l’oggetto di questa sezione del capitolo. La ﬁgura 2.5 riporta lo schema di inquadramento generale dei processi di Demand Planning relativi alla generazione dei piani non vincolati di domanda. Dall’analisi della ﬁgura 2.5 si evidenziano due ﬂussi principali di processi paralleli, che conducono al processo negoziale di Collaborative Forecasting, nel quale viene deﬁnito il budget delle vendite, input per il macroprocesso Sales & Operations Planning. I processi Demand Analytics e Sales Forecasting sono orientati all’analisi statistica ed alla interpretazione delle vendite storiche, ﬁnalizzata, da un lato, alla valutazione delle performance di accuratezza nella redazione dei sales forecast passati, dall’altro alla formulazione del piano previsionale di domanda per l’orizzonte di pianiﬁcazione. I processi Demand Intelligence e Marketing Intelligence sono orientati all’analisi dei segmenti prodotto-mercato, in relazione ai comportamenti di acquisto manifestati nel passato dai clienti, al ﬁne di interpretare e generalizzare le caratteristiche peculiari di ogni segmento per poter deﬁnire piani di marketing mirati

2.5 Processi di Demand Planning

71

Figura 2.5. Quadro generale dei processi di Demand Planning

ed eﬃcaci, dal punto di vista della soddisfazione dei clienti e della redditivit` a aziendale. I processi di Collaborative Forecasting hanno la ﬁnalit` a di generare il budget delle vendite, tenendo conto delle commesse gi`a acquisite, delle previsioni statistiche di vendita e delle azioni di marketing, inerenti alla pianiﬁcazione di promozioni ed eventi speciali e all’introduzione di nuovi prodotti sul mercato. L’ottenimento del sales budget, univoco e condiviso fra le funzioni aziendali demand oriented, rappresenta il punto di arrivo di una serie di attivit` a e fasi di negoziazione guidate da regole di business e best practices, mirate al raggiungimento del consenso unanime sul piano di budget. Prima di passare all’analisi dei singoli moduli costituenti il processo di Demand Planning, `e opportuno fornire una precisazione di tipo terminologico. Come noto, il processo di Collaborative Forecasting, talvolta indicato anche come Consensus Based Forecasting, porta alla formulazione del budget delle vendite; peraltro, la presenza del termine “forecasting” nella sua denominazione fa esplicito riferimento ` possibile superare questa apparente incongruenza al piano di sales forecast. E terminologica, speciﬁcando che il sales budget si ottiene sulla base del piano di sales forecast, sua principale determinante, mediante operazioni algebriche quali, ad esempio: • aggiunta di promozioni ed eventi commerciali; • mix dei valori di sales forecast con gli ordini acquisiti alla data corrente; • spostamento nel tempo o riduzione di quantit` a di forecast, dovuta alla presenza di correlazioni negative fra due prodotti. Ci`o detto, `e possibile riferirsi al sales budget anche con la notazione sales forecast consolidato.

72

2 Processi di Demand Planning

2.5.2 Demand Analytics La fase Demand Analytics si occupa della valutazione delle performance che l’azienda `e stata capace di erogare nei periodi passati, in relazione alle attivit` a di vendita e di servizio al cliente. I dati storici in input alle analisi di Demand Analytics appartengono a due diﬀerenti tipologie: • serie storiche consuntive (actual ): valori misurati a consuntivo circa la domanda realmente manifestatasi durante i processi del ciclo attivo (actual sales), i prezzi praticati per i diversi articoli (actual prices), le performance erogate in termini di servizio operativo al cliente (actual KPIs); • serie storiche preventive (target ): valori preventivati nel passato in relazione all’entit` a della domanda commerciale pianiﬁcata (demand plan) ed agli obiettivi di vendita (sales target ); valori di sales forecast generati nel passato per i periodi trascorsi dell’orizzonte di programmazione; valori pianiﬁcati per i prezzi di vendita dei prodotti (target prices) o per altri indicatori di performance (target KPIs). Il confronto fra prestazioni erogate e prestazioni pianiﬁcate fa emergere scostamenti, la cui analisi interpretativa costituisce una componente delle indagini di Demand Analytics. La ricerca conoscitiva delle cause che hanno condotto all’ottenimento di prestazioni inferiori ai target pianiﬁcati `e ﬁnalizzata all’implementazione di azioni correttive, per poter meglio prevedere i futuri scenari di domanda. Alcuni esempi di azioni correttive possono riguardare: • azioni di marketing volte ad incrementare il livello delle vendite: ad esempio, modiﬁca dei prezzi per i prodotti, inclusione di gadget a corredo del prodotto base, cessazione delle attivit`a di commercializzazione presso alcuni canali di vendita di prodotti basso-vendenti, deﬁnizione di campagne promozionali per incrementare le vendite su speciﬁci segmenti prodotto-mercato; • azioni di sales forecasting volte ad incrementare l’accuratezza predittiva: modiﬁca del modello di sales forecasting statistico utilizzato per generare il piano, diversa parametrizzazione dei valori numerici in input agli algoritmi, diverso settaggio dei valori percentuali di soglia per l’accuratezza obiettivo del sales forecast. Le indagini svolte nella fase Demand Analytics forniscono elementi utili alla successiva fase di generazione del piano previsionale di domanda. La fase Demand Analytics `e internamente scomponibile nei seguenti quattro moduli costituenti, schematizzati in ﬁgura 2.6. Analisi gerarchica dei dati di domanda L’analisi della domanda storica pu` o essere eseguita navigando all’interno di cubi multidimensionali di dati, aggregando i valori disponibili per i dati storici e per i valori target secondo le tipiche gerarchie di analisi di Demand Planning, deﬁnite dai prodotti, dai mercati, dai canali di vendita, dai bucket temporali e da altre dimensioni signiﬁcative per lo speciﬁco contesto di business. Diversi analisti di

2.5 Processi di Demand Planning

73

Figura 2.6. Fasi del processo di Demand Analytics

business sono interessati a prendere visione dei valori consuntivi di domanda sotto forma di report numerici: • aggregati a diversi livelli lungo gli assi gerarchici; • presentati in diﬀerenti unit` a di misura (logistiche, produttive, economiche); • ﬁltrati secondo diﬀerenti condizioni logico-matematiche di ricerca. Le tecniche analitiche di Business Intelligence oﬀrono ampio supporto nel presentare i dati preventivi e consuntivi secondo le interrogazioni di ricerca predeﬁnite dagli utenti di Demand Planning. I dati vengono recuperati e ﬁltrati mettendo in evidenza, con segnali di allarme graﬁci, valori anomali negli indicatori di performance misurati che si discostano dai valori target oltre una predeﬁnita soglia di controllo. Alcuni esempi di interrogazioni sui dati storici di domanda possono essere: • trovare i prodotti che, nel passato esercizio contabile (ad esempio, un anno) e con riferimento ad un certo mercato, hanno totalizzato un valore complessivo di vendita superiore a 5M$; • trovare i mercati in cui un certo prodotto non `e stato mai venduto in un certo mese; • trovare le coppie prodotto-mercato per le quali l’errore di previsione, valutato negli ultimi 12 mesi, `e stato superiore al 15%, in corrispondenza dell’ultima generazione del piano di sales forecast. I dati richiesti vengono ricercati e selezionati all’interno di voluminose basi di dati note come datawarehouse, attraverso interrogazioni OLAP (On Line Analytics Processing) opportunamente ottimizzate nei tempi di risposta e nelle modalit` a di accesso ai dati. Valutazione delle performance esterne (customer service & sales analysis) L’analisi delle performance esterne documenta l’eﬃcacia delle attivit`a di Demand Planning operate dall’azienda, nei confronti dei clienti e degli stakeholder, e viene

74

2 Processi di Demand Planning

svolta monitorando due tipologie di indicatori, confrontandone i valori attesi con quelli eﬀettivi: • KPI relativi al livello di servizio al cliente (customer service); • KPI relativi ai ritorni economici di vendita (sales analysis). Il livello di dettaglio gerarchico al quale il monitoraggio viene condotto dipende dagli interessi funzionali dei singoli utenti. Esempi di indicatori di performance di customer service sono, con riferimento a coppie prodotto-mercato e deﬁnito un intervallo temporale di controllo: • percentuale di ordini consegnati on time, in accordo con la data di consegna concordata con il cliente all’atto della formalizzazione dell’ordine; • tempo di ciclo medio di evasione di un ordine, dal ricevimento formale alla consegna dei prodotti ﬁniti presso la locazione concordata con il cliente industriale o presso il punto vendita, nel caso di vendita di beni di largo consumo; • percentuale di ordini evasi completamente da stock; • ritardo di consegna massimo conseguito nel soddisfacimento di un ordine. L’analisi dei ritorni economici di vendita `e condotta con una duplice ottica: • analisi di fatturato: si mettono a confronto i fatturati target ed eﬀettivo, scomponendo tali misure aggregate secondo determinanti indipendenti, ciascuna applicata a parit` a di valori per le restanti componenti di fatturato (scostamento di quantit` a, scostamento di prezzo, scostamento di mix); • analisi di impatto delle azioni di marketing: le curve promozionali attese, output della fase di pianiﬁcazione di marketing, sono confrontate con quelle eﬀettive, rilevate mediante dati POS al termine degli eventi stessi. Valutazione delle performance interne (forecast accuracy) Le performance interne riguardano l’analisi della capacit` a delle funzioni preposte alla formulazione dei piani di domanda (vincolati e non vincolati) di generare previsioni e budget di vendita aderenti alla realt` a, quanto pi` u possibile prossimi ai valori consuntivi di domanda realmente espressi dai clienti. I piani non vincolati di domanda (sales forecast, sales budget) sono messi a confronto con i risultati operativi di vendita (actual sales), per valutare l’entit` a degli scostamenti nelle previsioni statistiche; i piani di marketing sono altres`ı comparati con misure di eﬃcacia degli interventi promozionali intrapresi in speciﬁci segmenti prodottomercato, rilevando indirettamente il grado di conoscenza dei mercati eﬀettivamente dimostrato dagli utenti delle funzioni Marketing e Vendite. In particolare vengono misurati gli scostamenti, in termini di unit` a non monetarie, fra: • sales forecast e actual sales: errore di previsione (forecast error); • sales budget e actual sales: analisi delle varianze. Analisi statistica dei dati di domanda L’analisi della domanda prevede anche il calcolo di indicatori statistici relativi

2.5 Processi di Demand Planning

75

alle caratteristiche numeriche delle serie storiche disponibili; gli indici calcolati appartengono a due classi di modelli matematici: • indicatori sintetici di analisi univariata e multivariata (indici di posizionamento, indici di dispersione); • indicatori sulle componenti regolari e ripetitive delle serie storiche (analisi di densit` a, coeﬃcienti di trend, stagionalit` a, ciclicit`a). Lo studio delle propriet` a quantitative delle serie storiche `e di ausilio al settaggio dei modelli di sales forecasting adatti a trattare numericamente le speciﬁche tipologie di pattern in esame; tale attivit` a di tuning dei modelli `e svolta nel processo di Sales Forecasting. Un aspetto rilevante dell’analisi statistica dei dati storici riguarda la valutazione della correlazione fra i valori passati di domanda e le variabili indipendenti di business che presumibilmente ne inﬂuenzano l’andamento; `e possibile discriminare fra variabili esogene, non direttamente controllate dall’azienda10, e variabili endogene, appartenenti alla sfera decisionale di azione dei soggetti operanti nella Supply Chain11. L’indagine conoscitiva sulle interrelazioni potenzialmente esistenti fra la domanda (variabile dipendente) e le variabili indipendenti di contesto consente di spiegare i legami di causa-eﬀetto fra azioni di business e reazioni dei clienti, accresce la conoscenza di business dei decisori aziendali, `e di ausilio alla conﬁgurazione di modelli di regressione lineare, semplice o multipla, per la generazione del piano di sales forecast. 2.5.3 Sales Forecasting La valutazione di forecast accuracy, output della fase Demand Analytics, rappresenta un dato in ingresso alla fase di previsione statistica della domanda commerciale (Sales Forecasting). Essendo a conoscenza dell’entit` a degli errori di previsione commessi in periodi passati dopo aver utilizzato uno speciﬁco set di modelli matematici di sales forecasting, `e possibile tarare nuovamente i parametri degli algoritmi disponibili, oppure cambiare gruppo di algoritmi, in seguito al mutato andamento temporale delle serie storiche di domanda. Obiettivo della fase di Sales Forecasting `e la costruzione del piano previsionale non vincolato di domanda, per tutte le combinazioni signiﬁcative dei segmenti prodotto-mercati, per tutti i periodi dell’orizzonte temporale di pianiﬁcazione. Al 10

11

Il riferimento `e a variabili ambientali che inﬂuiscono sui consumi di prodotti (variabili ambientali legate alle stagioni atmosferiche), a variabili socio-economiche (ad esempio, la ricchezza dei consumatori), a variabili legate al contesto competitivo (azioni della concorrenza, regolamentazioni legislative che impattano sulle vendite dei prodotti in taluni mercati). Esempi in tal senso sono la politica di prezzo adottata dall’azienda per i prodotti, l’eﬀort economico erogato per una campagna pubblicitaria (advertising), il livello di innovazione del prodotto, la tipologia di promozioni di vendita eﬀettuate.

76

2 Processi di Demand Planning

termine di tale processo, decisori diversi dello stesso team formulano predizioni diverse per le medesime terne prodotto-mercato-tempo. Tali soggetti funzionali dispongono delle stesse informazioni circa i risultati delle valutazioni di Demand Analytics ed applicano modelli ed algoritmi statistici per la previsione della domanda futura, oltre alla loro esperienza qualitativa, derivante dalla conoscenza dei singoli segmenti prodotto-mercato. Le versioni di sales forecast generate in questa fase vengono successivamente negoziate in fase di Collaborative Forecasting. Le criticit`a insite nel processo di generazione del sales forecast sono nel seguito illustrate e riportate schematicamente in ﬁgura 2.7. Ai modelli matematici di Sales Forecasting `e dedicata la terza sezione del libro.

Figura 2.7. Fasi del processo di Sales Forecasting

Sales Cleaning L’assunzione implicita, insita nei modelli matematici per le serie storiche di vendita, riguarda il fatto che la storia della domanda passata si ripeter` a, in modo pi` u o meno regolare, anche nel futuro: il riferimento `e alla presenza di componenti standard delle serie numeriche, identiﬁcabili dall’analisi statistica dei proﬁli di domanda, quali la stagionalit` a, la ciclicit` a economica ed il trend di variazione temporale. Prima di procedere al calcolo del sales forecast per i periodi dell’orizzonte di riferimento, vi `e spesso la necessit`a di procedere ad una pulizia statistica preliminare delle serie storiche, tramite algoritmi di sales cleaning, rimuovendo valori anomali (outlier ) occorsi nel passato, automaticamente rilevati dall’analisi dei pattern storici. Tali perturbazioni, manifestatesi nel passato a causa di un’azione promozionale o di una vendita straordinaria di periodo, si potranno veriﬁcare in futuro con probabilit` a molto bassa, tendente a zero: gli outlier devono quindi essere eliminati, aﬃnch´e gli algoritmi di sales forecasting non li interpretino come valori regolari ed occorrenti anche nel futuro. La collezione e la conservazione degli outlier rilevati dai modelli di sales cleaning possono costituire elemento di utilit`a conoscitiva per gli analisti. Ad esempio, l’identiﬁcazione degli eﬀetti consuntivi di azioni promozionali intraprese nel passato,

2.5 Processi di Demand Planning

77

isolate mediante i processi di pulizia degli outlier, permette agli utenti di marketing di studiare ed interpretare i risultati ottenuti, confrontandoli con i pattern promozionali target. Product/Market Clustering Non sempre `e corretto utilizzare modelli di sales forecasting basati sull’analisi delle serie storiche per la generazione del piano di domanda previsionale, per due ragioni: • tali serie storiche possono non esistere, ad esempio per prodotti di recente introduzione; • l’analisi di particolari tipologie di serie storiche, fortemente irregolari nelle componenti standard, operata mediante modelli di time series forecasting, conduce a risultati scorretti. Risulta quindi opportuno procedere ad un’analisi preliminare di raggruppamento di segmenti prodotto-mercato in cluster che presentino caratteristiche di omogeneit`a, in relazione alla tipologia di pattern storici rilevati dai dati disponibili. Cos`ı facendo, si perviene alla deﬁnizione di cluster per prodotti continuativi regolari, continuativi non regolari, sporadici regolari (periodici), sporadici irregolari, stagionali regolari, ecc. Per ciascun cluster di segmenti prodotto-mercato si seleziona un opportuno set di algoritmi di sales forecasting, fra le categorie di modelli in letteratura: • modelli per serie storiche regolari; • modelli per serie storiche irregolari; • modelli di regressione lineare. Ottimizzazione dei parametri dei modelli Individuato il corretto insieme di modelli per ciascun gruppo omogeneo di coppie prodotto-mercato, si procede alla ricerca della conﬁgurazione ottimale dei parametri numerici in ingresso a ciascuna classe di algoritmi. Questa fase di ottimizzazione interna, nota come best-ﬁt parametrico, operata secondo modalit` a diﬀerenti per ciascuna classe di modelli di sales forecasting, permette di ottenere il miglior risultato possibile nell’applicazione di una speciﬁca famiglia di algoritmi ad un segmento prodotto-mercato, per tutte le combinazioni famiglia di algoritmi – segmento prodotto-mercato sensate. Selezione automatica del sales forecast Qualora esista la possibilit` a di associare pi` u classi di algoritmi, internamente ottimizzati, alla medesima coppia prodotto-mercato12 , `e necessario selezionare l’algoritmo migliore per tale coppia, in grado di assicurare il livello massimo di accuratezza predittiva, avendo a disposizione la serie storica di valori precedentemente 12

L’esperienza del demand planner `e una buona guida “manuale” per capire quali famiglie di algoritmi di sales forecasting siano maggiormente promettenti, in relazione a speciﬁche coppie prodotto-mercato. D’altro canto, le analisi statistiche di Demand Intelligence sulle componenti delle serie storiche oﬀrono valido supporto per l’associazione automatica di classi di algoritmi a segmenti prodotto-mercato

78

2 Processi di Demand Planning

ﬁltrata mediante sales cleaning. Anche questa fase di ottimizzazione esterna, nota come best-ﬁt algoritmico, viene svolta in automatico dai motori statistici di calcolo presenti nei software di Demand Planning. Il miglior proﬁlo di domanda futura selezionato costituisce il sales forecast della coppia prodotto-mercato in esame. La periodica ottimizzazione interna ed esterna dei parametri e degli algoritmi di sales forecasting pu` o essere guidata dall’analisi di forecast accuracy, per ciascuna combinazione attiva famiglia di algoritmi – segmento prodotto-mercato: solamente nel caso in cui l’errore di previsione, generato in corrispondenza dell’ultima versione del piano di forecast (emessa nel periodo t − 1, rispetto al periodo corrente t), superi un certo valore soglia predeﬁnito, si ricorre alla rideﬁnizione delle famiglie di algoritmi da associare alle coppie prodotto-mercato oppure, pi` u semplicemente, ad un nuovo settaggio dei parametri propri della classe di modelli matematici utilizzata in precedenza. 2.5.4 Demand Intelligence La fase conoscitiva di Demand Intelligence viene svolta in parallelo all’analisi delle caratteristiche quantitative dei pattern storici di domanda. L’obiettivo delle analisi di Demand Intelligence consiste nella ricerca di relazioni statisticamente signiﬁcative, non banali, frequenti ed aventi valore aggiunto di conoscenza, all’interno di un insieme eterogeneo di dati di prodotto-mercato riguardanti: • i comportamenti temporali di spesa dei consumatori presso i punti vendita; • le caratteristiche temporali di acquisto (volumi e periodicit` a) dei clienti industriali; • gli attributi descrittivi dei singoli prodotti e dei singoli clienti; • le caratteristiche qualitative dei segmenti in cui l’azienda opera; • le tipologie di pattern numerici associati a speciﬁche azioni di vendita. Dai risultati oﬀerti dallo studio delle caratteristiche nascoste nelle grandi moli di dati storici presenti nei datawarehouse dipartimentali o centrali, si possono ricavare informazioni e conoscenze di business sul contesto competitivo, da sfruttare nella fase di pianiﬁcazione delle attivit` a di marketing, oggetto della successiva fase di Marketing Intelligence. Le tecniche ed i modelli matematici di Data Mining permettono di analizzare i dati storici secondo una duplice ottica: 1. ottica interpretativa: estrarre conoscenza e relazioni di regolarit` a dai dati per meglio comprendere le caratteristiche dei clienti nei diversi segmenti; 2. ottica predittiva: formulazione previsioni circa i comportamenti futuri dei clienti sui diversi prodotti, proiettando nel futuro le relazioni logico-matematiche ricavate dall’analisi interpretativa dei dati storici. Gli ambiti di indagine dei modelli di Data Mining utili per il Demand Planning sono i seguenti, schematizzati in ﬁgura 2.8.

2.5 Processi di Demand Planning

79

Figura 2.8. Tecniche e modelli di supporto alla fase di Demand Intelligence

Impatto incrociato nelle vendite. I modelli matematici per le regole associative (association rules) studiano le eventuali correlazioni presenti nelle vendite di diversi prodotti, registrate nello stesso periodo o in periodi successivi per lo stesso cliente, al ﬁne di individuare, da un lato, possibili regolarit` a fra gruppi di prodotti frequentemente acquistati in modo congiunto, dall’altro, eﬀetti di cannibalizzazione sulle vendite incrociate di coppie di prodotti. Omogeneit` a dei segmenti prodotto-mercato. I modelli matematici di raggruppamento omogeneo di elementi (clustering) formano insiemi disgiunti (cluster o partizioni omogenee) di segmenti prodotto-mercato aventi attributi i cui valori presentano un elevato grado di similarit` a. Lo studio di speciﬁche caratteristiche, occorse nel passato, di gruppi di prodotti e/o mercati permette di raggruppare elementi simili; all’interno di ciascuna partizione operata sulla totalit` a degli elementi disponibili `e quindi possibile dedurre regole generali di comportamento, comuni a tutti gli elementi appartenenti al cluster, applicabili anche in futuro, in presenza di nuovi elementi da includere in uno dei cluster precedentemente generati. Sequenze temporali di vendita. I modelli matematici di sequence clustering analizzano l’andamento temporale di pattern storici di vendita, con la duplice ﬁnalit` a di raggruppare curve aventi caratteristiche numeriche di similarit` a e di dedurre regole generali che giustiﬁchino le transizioni temporali da un certo livello quantitativo di domanda, manifestatosi in un certo istante, ad uno diﬀerente, cronologicamente successivo. L’analisi dei pattern promozionali che si sono manifestati nel passato (actual promotions) `e competenza di questa sezione di Demand Intelligence. Il processo di sales cleaning identiﬁca ed isola all’interno delle serie storiche le quantit` a di vendita imputabili alle azioni di promozione dei prodotti eseguite nel passato. Le curve storiche di promozioni vengono archiviate nel datawarehouse di Marketing e Vendite, a disposizione dei modelli di analisi delle sequenze temporali numeriche. L’analisi di scostamento economico fra actual promo e target promo compete invece alla sezione Demand Analytics. Impatto di azioni di marketing. I modelli matematici di predizione dei valori assunti da variabili discrete all’interno di predeﬁnite classi (classiﬁcation) permet-

80

2 Processi di Demand Planning

tono di correlare, in un dataset di combinazioni prodotto-mercato, una particolare variabile dipendente discreta ad un insieme di altre variabili, supposte indipendenti, di cui sono noti i valori. Ad esempio, analizzando il datawarehouse degli eventi speciali passati, in cui sono stati registrati sia gli impatti attesi che i risultati eﬀettivamente conseguiti, `e possibile valutare la risposta data dai clienti a precedenti campagne promozionali operate su determinati prodotti, piuttosto che all’introduzione di nuovi prodotti, al ﬁne di determinare la probabilit` a che nuove azioni di marketing riscontrino interesse e successo presso i clienti esistenti o potenziali. I modelli di classiﬁcazione estraggono dai dati storici, mediante processi logici d’apprendimento induttivo, regole di correlazione occorse con signiﬁcativa regolarit` a nel passato ed idonee a spiegare i valori assunti dalla variabile dipendente, e le applicano a nuovi elementi per valutarne il futuro probabile comportamento in relazione alla variabile oggetto di indagine.

2.5.5 Marketing Intelligence Le analisi di Demand Intelligence incrementano la conoscenza delle caratteristiche dei segmenti prodotto-mercato, a vantaggio degli operatori delle funzioni di Marketing e Vendite, il cui ruolo consiste nel sostenere nel tempo la vendita dei prodotti attraverso la progettazione di azioni commerciali mirate, focalizzate su speciﬁci gruppi di prodotti e di mercati. Gli studi di Demand Intelligence vengono presentati dai demand analysts, sotto forma di reportistica, ai responsabili delle attivit` a commerciali per le diverse famiglie di prodotti sui diversi mercati. La fase di Marketing Intelligence si propone di interpretare i risultati ottenuti dall’applicazione dei modelli di Data Mining sui datawarehouse contenenti i dati di vendita, con l’obiettivo di deﬁnire i piani operativi di marketing da integrare con il piano previsionale di forecast e con il portafoglio delle commesse acquisite. Le azioni di marketing si sviluppano lungo le due dimensioni di prodotto e mercato. Azioni sui prodotti. Alcuni esempi di piani di marketing sui prodotti sono: • deﬁnizione di promozioni su prodotti basso-vendenti, attuate con sconti sul prezzo; • deﬁnizione di oﬀerte di vendita congiunta di coppie o gruppi di prodotti confezionati insieme, in occasione di particolari eventi o festivit` a; • rideﬁnizione dei listini per i prodotti ﬁniti, a livello di opzioni e varianti; • progettazione di campagne pubblicitarie su determinate linee di prodotto, attuate attraverso opportuni canali multimediali di comunicazione; • preparazione dei cataloghi commerciali da distribuire presso i punti vendita, organizzati raggruppando nella stessa area (pagina o gruppo di pagine) prodotti funzionalmente simili e/o con comportamento di vendita diﬀerente, per stimolare l’acquisto incrociato di tali prodotti.

2.5 Processi di Demand Planning

81

Azioni sui mercati. Alcuni esempi di piani di marketing sui mercati sono: • valutazione dell’opportunit` a di aprire nuovi punti vendita (di propriet` a oppure in franchaising) presso nuove aree geograﬁche; • valutazione delle prospettive di vendita su potenziali prospect, presso i quali inviare gli agenti di vendita per un contatto iniziale; • deﬁnizione di cicli promozionali (contenuti, durata, modalit` a di presentazione, parametri economici dell’oﬀerta) su gruppi di prodotti, per speciﬁci clienti; • introduzione di nuove linee di prodotto su speciﬁci mercati target; • progettazione di relazioni commerciali collaborative con singoli clienti industriali B2B, a livello di integrazione logistico-produttiva e/o gestionale; • deﬁnizione delle modalit` a di contatto con il cliente in contesti B2C (siti web commerciali, mailing list, attivit` a di advertising multimediali, call center per i servizi di customer care). Nell’ambito delle relazioni di tipo Business to Business con gli interlocutori della Supply Chain Network, l’azienda si interfaccia con un numero limitato di clienti ad elevato valore e l’intensit`a e la durata delle relazioni con i clienti sono elevate. In tali contesti `e frequente l’utilizzo di metodologie gestionali di Sales Forecasting di tipo qualitativo, basate sulla conoscenza, implicita o formalizzata, che gli agenti di vendita locale hanno dei clienti di propria competenza. Le tecniche di Data Mining oﬀrono utile supporto nell’identiﬁcare i comportamenti di acquisto da parte dei clienti industriali e nel valutare la potenzialit` ae l’impatto probabile di campagne di marketing. Viceversa, le aziende operanti in contesti Business to Consumer prediligono l’impiego di modelli matematici di analisi delle serie storiche e di regressione lineare, in quanto i loro “clienti” sono deﬁniti da una moltitudine di singoli consumatori a basso valore unitario, trattabili statisticamente come variabili indipendenti non correlate. Nei settori industriali di tipo B2C , i modelli di association rules e sequence clustering si rivelano eﬃcaci nella predisposizione di piani di marketing orientati al sostenimento nel tempo della fedelt` a (loyalty) del consumatore ﬁnale ed all’incremento delle vendite incrociate di gruppi di prodotti di largo consumo.

2.5.6 Collaborative Forecasting I piani formulati dalle funzioni Marketing e Vendite, ed in particolare da un apposito gruppo di lavoro dedicato alla generazione ed al controllo del piano previsionale di domanda, vengono valutati nella fase ﬁnale di Collaborative Forecasting, il cui obiettivo consiste nella generazione del piano di budget delle vendite (sales budget). Input alla fase di forecasting collaborativo vi sono i seguenti piani di domanda: 1. 2. 3. 4.

piano degli ordini e delle commesse confermate (customer orders); previsione statistica della domanda (sales forecast); piano delle azioni di marketing (promotion plan); piano commerciale relativo all’introduzione di nuovi prodotti ed al ritiro di prodotti obsoleti (product lifecycle plan).

82

2 Processi di Demand Planning

Attraverso una serie di fasi (presentate in ﬁgura 2.9), combinate in workﬂow seriali/paralleli, si giunge alla negoziazione ed alla deﬁnizione univoca e condivisa del piano non vincolato di sales budget, mediante l’apporto collaborativo di soggetti di diversa estrazione funzionale, specializzazione e conoscenza di business.

Figura 2.9. Processi di Collaborative Forecasting

Analisi gerarchica del piano di sales forecast Le versioni alternative del piano di sales forecast sono diﬀuse ai diversi utenti delle funzioni Marketing e Vendite ed ai gruppi multifunzionali di lavoro, con ﬁnalit` a di analisi e valutazione. Diversi soggetti aziendali analizzano i medesimi dati previsionali a diversi livelli gerarchici di consolidamento sulle terne prodotto-mercatotempo, visualizzando i valori presentati nei report secondo opportune unit` a di misura logistiche, produttive, economiche. All’interno di questa fase `e possibile progettare una molteplicit` a di workﬂow verticali di analisi, modiﬁca, negoziazione, consolidamento fra gli utenti che occupano diversi ruoli all’interno delle rispettive funzioni di provenienza. Ad esempio, svolgendo una sequenza di revisioni progressive bottom-up/top-down, 1. gli agenti di vendita esprimono il loro parere sulla bont` a del sale forecast ai livelli bottom delle gerarchie (singolo prodotto ﬁnito, singolo punto vendita o cliente, giorno/settimana), eventualmente apportando correzioni manuali; 2. il sales forecast modiﬁcato dagli operatori locali di vendita `e inoltrato (workﬂow bottom-up) ai manager di prodotto/linea ed agli account di zona, citt` ao regione, i quali possono apportare ulteriori modiﬁche, approvare o disapprovare le proposte operate dagli agenti di vendita allo step precedente; 3. il sales forecast viene quindi inoltrato, in forma ulteriormente aggregata lungo le gerarchie di analisi, al top management (di prodotto o mercato) per la validazione ﬁnale; 4. il sales forecast `e inﬁne diﬀuso per conoscenza agli operatori dei livelli gerarchici inferiori (workﬂow top-down), disaggregato applicando opportuni coeﬃcienti di allocazione sulle quantit` a consolidate di prodotto/mercato, al ﬁne di poter essere direttamente utilizzato dagli utenti operativi. Gli strumenti OLAP di analisi gerarchica dei database multidimensionali oﬀrono supporto agli utenti nei processi di analisi e revisione di tipo gerarchico-verticale.

2.5 Processi di Demand Planning

83

Analisi gerarchica del piano di marketing In perfetta analogia con quanto illustrato per l’analisi gerarchica del piano di sales forecast, anche i processi di revisione dei piani di marketing si svolgono seguendo workﬂow verticali misti, di tipo bottom-up/top-down oppure top-down/bottom-up. All’interno dei processi di valutazione dei piani di marketing `e possibile prevedere il coinvolgimento di esperti esterni di business, per particolari nicchie di prodotto-mercato, o integrare le analisi gerarchiche con i risultati derivanti da ricerche di mercato commissionate ad enti esterni specializzati per valutare la customer satisfaction su taluni segmenti. A valle dei processi di analisi gerarchica `e comunque possibile riscontrare la presenza di previsioni controverse, discordanti fra le diverse controparti, su taluni segmenti, a diversi livelli di aggregazione. I valori non consensuali costituiscono eccezioni, da negoziare e discriminare mediante l’applicazione di regole formalizzate. Applicazione di regole collaborative di Demand Planning I piani revisionati di sales forecast e di marketing e le relative eccezioni vengono discussi attraverso l’applicazione di regole codiﬁcate di consensus based forecasting. La pi` u semplice regola di gestione dei piani di sales forecast e di marketing consiste nel sommare algebricamente la previsione statistica di vendita all’incremento indotto dalle promozioni pianiﬁcate (delta promo). Con riferimento a diﬀerenti versioni alternative di piani di sales forecast e marketing, una semplice regola di consolidamento prescrive che la previsione ﬁnale, per un certo segmento prodotto-mercato nell’arco dell’orizzonte previsionale, venga deﬁnita tramite la media pesata delle formulazioni proposte da un insieme di utenti gerarchicamente paritetici, ciascuna delle quali viene ponderata secondo uno speciﬁco coeﬃciente di peso relativo, ad esempio proporzionale al grado di forecast accuracy conseguito in edizioni precedenti del sales forecast da parte dei diversi decisori. L’applicazione di regole di consolidamento delle versioni di sales forecast non pu` o prescindere dal rispetto delle direttive strategiche formulate dal top management, su diversi segmenti aggregati prodotto-mercato, nel corso dei processi di Supply Chain Strategy. Analisi delle versioni del piano di sales budget Le versioni di sales budget vengono analizzate gerarchicamente, secondo le modalit` a di workﬂow sopra citate. Le eccezioni ed i problemi aperti che le regole formali di business non sono state in grado di dirimere vengono sottoposte all’analisi puntuale del responsabile funzionale del processo di sales budgeting, il quale pu` o istruire un ulteriore tavolo negoziale fra le controparti, al ﬁne di chiarire le motivazioni che hanno condotto i decisori a formulare previsioni signiﬁcativamente diﬀormi fra loro.

84

2 Processi di Demand Planning

Pubblicazione del piano di sales budget Una volta giunti alla deﬁnizione ﬁnale del sales budget, approvata dai responsabili delle funzioni di Marketing e Vendite, questa viene diﬀusa ai responsabili delle funzioni logistico-produttive ed ai partner della Supply Chain con i quali l’azienda intrattiene rapporti evoluti di collaborazione. La trasmissione del budget delle vendite, attraverso i consueti canali formali di comunicazione inter- e intraaziendale, segna il passaggio formale alle fasi del macroprocesso di Sales & Operations Planning di negoziazione dei piani di previsione della domanda e delle capacit` a operative, precedenti rispetto alla formulazione del piano vincolato di domanda, del piano di remunerazione per gli agenti di vendita, dei piani operativi di produzione e logistica.

3 Sistemi organizzativi di Demand Planning

Workﬂow di Demand Planning – Diﬀusione funzionale dei piani di domanda – Organizzazione dei processi di Demand Planning – Qualitative Sales Forecasting – Collaborative Demand Planning

3.1 Workﬂow di Demand Planning 3.1.1 Classiﬁcazione delle attivit` a di Demand Planning I processi gestionali di Demand Planning si collocano all’interno delle attivit` a di pianiﬁcazione della domanda, della produzione e della distribuzione, nell’ambito dei cicli di programmazione e controllo del Sales & Operations Planning. I processi e le attivit`a di S&OP si caratterizzano per la presenza di: • utenti interni all’azienda, aventi competenze eterogenee di Supply Chain Management, provenienti dalle funzioni monodisciplinari; • utenti esterni all’azienda, partner di ﬁliera ed esperti di settore, chiamati a fornire consulenza nei processi qualitativi di validazione collaborativa dei piani di domanda; • metodologie gestionali e modelli matematici di supporto all’eﬃcace svolgimento delle attivit` a; • sistemi informativi per l’automazione dei processi della gestione operativa (ciclo attivo, ciclo passivo); • sistemi informativi per il supporto decisionale, per l’ottimizzazione dei processi a contenuto decisionale, nell’ambito delle attivit` a di Supply Chain Conﬁguration & Operations Management. Dal punto di vista concettuale, esistono tre tipologie di attivit` a che caratterizzano i processi di Demand Planning: le attivit` a operative, le attivit` a gestionali e le attivit` a analitiche. Attivit` a operative Sono le attivit` a di Supply Chain Execution, relative • al ciclo attivo (gestione ordinaria delle relazioni di vendita con i clienti), • al ciclo passivo (gestione ordinaria delle relazioni di acquisto con i fornitori), Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

86

3 Sistemi organizzativi di Demand Planning

• alla gestione dei partner logistico-produttivi nella Supply Chain Network (attivit` a dei cicli attivo/passivo gestite mediante rapporti evoluti di collaborazione). Limitatamente all’ambito del Demand Planning, sono inquadrabili come operative le attivit` a del ciclo dell’ordine cliente, dal primo contatto con l’acquirente alla consegna ﬁnale del prodotto ﬁnito, secondo le convenute condizioni di tempo, localit` a, qualit` a, prezzo, servizi aggiuntivi. Le attivit` a operative si caratterizzano per la presenza di “dati” (piani di domanda, piani di produzione e distribuzione, ordini cliente, ecc.) aventi granularit` a massima lungo le dimensioni prodotto-mercato-tempo ed una forte caratterizzazione funzionale; le decisioni operative sono rigidamente codiﬁcate mediante regole deterministiche, strutturate con chiare sequenze di esecuzione e ridottissimi ambiti di discrezionalit` a da parte degli utenti implementatori. Attivit` a gestionali Sono le attivit` a, ad elevato contenuto decisionale, di Supply Chain Network Design e di Supply Chain Planning, caratterizzate dalla formulazione di piani di domanda e di piani logistico-produttivi che hanno impatto nel lungo-medio-breve periodo sulla redditivit` a aziendale, che si traducono successivamente in azioni esecutive ordinarie, ripetitive e cicliche di Supply Chain Execution. Le attivit` a gestionali si caratterizzano per la presenza di dati provenienti da diverse funzioni aziendali, aventi granularit` a variabile lungo le dimensioni prodottomercato-tempo, a seconda dell’orizzonte temporale di riferimento per le decisioni di Demand Planning; le decisioni gestionali, semistrutturate ed a forte contenuto “individuale” (cio`e basate sull’esperienza e sulla responsabilit`a dei pianiﬁcatori), sono guidate dall’utilizzo di algoritmi e tecniche matematiche per la modellazione e l’ottimizzazione dei sistemi logistico-produttivi, quali il Data Mining, il Sales Forecasting, i modelli di ottimizzazione lineare. Attivit` a analitiche Al termine dell’implementazione operativa delle decisioni di Supply Chain Planning che caratterizzano la gestione ordinaria S&OP, le attivit` a analitiche si occupano delle analisi di consuntivazione di quanto `e avvenuto eﬀettivamente durante le attivit` a operative di Supply Chain Execution. Le attivit` a analitiche direzionali di Supply Chain Analytics sono orientate allo studio dei dati consuntivi di domanda, di produzione, acquisto e distribuzione, in relazione ai valori target precedentemente pianiﬁcati per tali variabili decisionali. Attraverso metodi e modelli di analisi multidimensionale dei dati (demand analytics) e di scoperta di conoscenza nei dati (data mining), si determinano le performance erogate dai processi di Supply Chain Management e si valutano le azioni migliorative da apportare nei cicli successivi di S&OP. La creativit` a, la capacit` a personale di sintesi delle informazioni e la visione manageriale dei singoli e dei gruppi di lavoro restano comunque fattori critici di successo nelle fasi di controllo delle performance aziendali di Demand Planning e nelle fasi di pianiﬁcazione strategica (Supply Chain Strategy).

3.1 Workﬂow di Demand Planning

87

Figura 3.1. Gerarchia di decisioni e processi di Supply Chain Management

Le attivit` a operative, gestionali ed analitiche proprie dei sistemi di Demand Planning possono essere collocate all’interno di una piramide di gerarchia decisionale che caratterizza le decisioni aziendali di Supply Chain Management. La ﬁgura 3.1 deﬁnisce tale piramide, speciﬁcando (sul lato sinistro) i processi di Supply Chain Management coinvolti e (sul lato destro) le diverse attivit` a di Demand Planning.

3.1.2 Progettazione degli workﬂow I processi aziendali di Demand Planning che caratterizzano le fasi decisionali di Demand Analytics, Demand Intelligence, Sales Forecasting, Marketing Intelligence, Sales & Operations Planning vengono svolti dai soggetti aziendali operanti nelle funzioni, ciascuno dei quali costituisce un utente (decisore, analista, revisore) all’interno di un ﬂusso articolato di lavoro multifase. I processi di Demand Planning si possono analizzare secondo una quadruplice ottica: 1. analisi dei processi e delle attivit` a (analitiche, operative, decisionali); 2. analisi degli workﬂow di interrelazione e sincronizzazione fra i diversi decisori, all’interno dei quali trovano collocazione le diverse attivit` a; 3. analisi dell’apporto funzionale-organizzativo alle attivit` a di Demand Planning, da parte di ogni area disciplinare inserita nell’organigramma; 4. analisi dei sistemi informativi utilizzati per il supporto allo svolgimento delle attivit` a svolte dalle funzioni aziendali. Un workﬂow (ﬂusso di lavoro) deﬁnisce l’organizzazione reticolare di processi, fasi ed attivit` a orientate al perseguimento di un obiettivo aziendale comune. Gli elementi minimi di lavoro, cio`e le singole attivit` a o fasi interne ai processi, sono composte da un contenuto di lavoro, da metodologie gestionali e modelli matematici abilitanti, da sistemi informativi di supporto e da un insieme di utenti incaricati della loro esecuzione.

88

3 Sistemi organizzativi di Demand Planning

L’analisi dei singoli processi caratterizzanti il sistema Demand Planning `e stata svolta nel capitolo 2. In questo capitolo l’interesse si concentra sull’analisi del coinvolgimento organizzativo delle funzioni aziendali ai processi di Demand Planning. Il capitolo 4 `e invece focalizzato sulla tipologia di strumenti software disponibili come supporto decisionale per i decisori aziendali, nelle diverse attivit` a di Demand Planning. I singoli processi, le attivit`a e le fasi di Demand Planning sono organizzate in modo gerarchico all’interno di sequenze o ﬂussi di lavoro. Per ciascun processo di Demand Planning occorre progettare un workﬂow tipico di svolgimento; operativamente questo signiﬁca: • identiﬁcare il processo di riferimento da modellizzare tramite workﬂow (processi di Demand Analytics, Demand Intelligence, Sales Forecasting, Marketing Intelligence, Collaborative Forecasting; processi di preparazione e consolidamento dei piani vincolati di domanda, di produzione e di distribuzione); • identiﬁcare le fasi e le attivit`a da porre in relazione all’interno del workﬂow di ciascun processo, conoscendone il contenuto di lavoro e la durata media di svolgimento; • identiﬁcare gli input e gli output informativi di ciascuna fase; • dimensionare ciascuna fase del processo in termini di numero e tipologia di risorse funzionali; • organizzare le fasi cronologicamente, ponendone in sequenza l’esecuzione temporale su un diagramma di Gantt; • identiﬁcare il livello di analisi, calcolo, modiﬁca, revisione dei dati per ciascuna fase, secondo le dimensioni di analisi prodotto-mercato-tempo; • identiﬁcare le metodologie gestionali, le best practices e i modelli di supporto; • identiﬁcare gli applicativi informativi di supporto alla trasformazione dei dati e le strutture di memorizzazione per la conservazione dei dati stessi. I processi di Demand Planning si caratterizzano per due tipologie di workﬂow: workﬂow verticali e workﬂow orizzontali, la cui composizione determina l’architettura complessiva di esecuzione dei processi. 3.1.3 Workﬂow verticali Un workﬂow verticale prevede l’esecuzione di attivit` a a medesimo contenuto decisionale o analitico, a diﬀerenti livelli gerarchici di analisi, controllo e validazione. I processi d’analisi, revisione ed approvazione di Demand Planning sono svolti mediante ﬂussi verticali che coinvolgono soggetti aziendali a responsabilit` a diﬀerente. La gerarchia degli workﬂow verticali `e duplice: • gerarchia organizzativa di responsabilit` a : deﬁnisce il ruolo all’interno dell’organizzazione aziendale e le responsabilit`a decisionali dei singoli utenti; • gerarchia di aggregazione dei dati : deﬁnisce il livello di consolidamento dei dati quantitativi di Demand Planning.

3.1 Workﬂow di Demand Planning

89

Esistono due tipologie base di ﬂussi di lavoro verticali: • workﬂow bottom-up: dal livello gerarchico organizzativo minimo al livello massimo; • workﬂow top-down: dal livello di aggregazione massima dei dati al livello granulare minimo. Workﬂow bottom-up Nel primo caso, le decisioni di vendita caratteristiche della formulazione dei piani di domanda vengono deﬁnite, con opportune metodologie e modelli matematici, ai livelli inferiori nella gerarchica aziendale dagli utenti delle funzioni Marketing e Vendite, il cui obiettivo `e caratterizzare i piani di previsione e di budgeting ai livelli di dettaglio minimi operativi, nei quali i singoli dati di vendita sono fruiti dagli operatori “sul campo” (agenti di vendita, operatori di call center per il servizio post-vendita). La tipologia funzionale ed il ruolo operativo degli utenti deﬁniscono implicitamente il numero di livelli gerarchici di analisi e controllo delle informazioni di Demand Planning. Utenti operativi analizzano ed elaborano decisioni sui dati al massimo livello di granularit` a, quindi per singolo prodotto ﬁnito (SKU o SKUL, Stock Keeping Unit at Location), singolo punto vendita, singola settimana/giorno. Successivamente, utenti operativi di medio livello (responsabili di prodotto, accountant di zona o area) analizzano e validano i medesimi dati a livelli intermedi di aggregazione gerarchica, per prodotto (inclusivo di tutte le varianti ed opzioni), per gruppo di mercati, a livello di trimestre/mese. Inﬁne i manager (responsabili di brand, country manager) costituiscono il livello gerarchico superiore, in cui le microdecisioni attuate dagli operatori di linea vengono analizzate, approvate o respinte, sottoposte a processi di negoziazione con i decisori locali. Nella transizione fra una coppia di livelli di una stessa dimensione d’analisi (ad esempio: mercato) occorre deﬁnire un’opportuna metrica di aggregazione dei dati dal livello inferiore a quello superiore. a parit` a di livelli gerarchici per le altre dimensioni. La ﬁgura 3.2 mostra un esempio di workﬂow verticale bottom-up di trasmissione ed approvazione del budget delle vendite, nella fase di Collaborative Forecasting, che si svolge progressivamente: • secondo una gerarchia organizzativa di vendita basata su sei livelli di utenti: uno di deﬁnizione dei dati di previsione di vendita (livello customer ) e cinque di analisi dei dati a livelli di aggregazione superiori (livelli sales agent, zone manager, area manager, country manager, sales manager ); • secondo una gerarchia organizzativa di prodotto formata da due livelli: product manager e brand manager ; • lungo l’asse temporale a tre livelli: settimana, mese, trimestre. Come indicato in ﬁgura 3.2, gli agenti di vendita revisionano il budget delle vendite per singolo prodotto sul singolo punto vendita, con granularit` a settimanale, apportando modiﬁche locali all’insieme consolidato delle previsioni statistiche e dei piani operativi di marketing. Responsabili di vendita per aree geograﬁche di

90

3 Sistemi organizzativi di Demand Planning

Figura 3.2. Gerarchie di aggregazione nelle dimensioni prodotto-mercato-tempo

mercato consolidano i dati a livelli aggregati, eventualmente modiﬁcando quantit` a di vendita per famiglie di prodotto, zone o aree di vendita. La validazione ﬁnale `e operata dal direttore Vendite nazionale (country manager ), il quale informa il direttore generale (sales manager ) circa il budget annuale delle vendite, ripartendo i dati per trimestre e per brand di prodotto, relativamente alla nazione di propria competenza. Per ciascuna nazione di vendita esiste uno speciﬁco direttore delle vendite, che riporta al sales manager; lo stesso tipo di esplosione gerarchica vale anche per le altre transizioni fra i sei livelli della gerarchia di mercato: ad esempio, ciascun agente di vendita presidia un insieme ﬁnito di punti di vendita; un insieme di sales agent rendicontano il proprio operato ad uno stesso manager di zona. Workﬂow top-down I piani di domanda possono essere formulati anche seguendo un ﬂusso di lavoro di tipo top-down, dall’alto verso il basso percorrendo le gerarchie di prodottomercato-tempo. In questo caso, i decisori svolgono attivit` a analitiche, di calcolo ed interpretazione dei dati aggregati per famiglie di prodotto e di mercato, con bucket temporali a livello mensile, trimestrale o annuale. Ad esempio, la deﬁnizione dei piani di domanda strategici, nel processo direzionale di Supply Chain Strategy, avviene a livello di top management dirigenziale, mediante processi di negoziazione qualitativa fra responsabili di country, responsabili di famiglie o linee di prodotto, supportati da indagini di mercato e risultati derivanti dalle analisi di Demand Analytics e Demand Intelligence. I responsabili di prodotto-mercato dei livelli gerarchici inferiori ricevono i piani di domanda, deﬁniti nei processi strategici di Supply Chain Strategy oppure in quelli tattici di Supply Chain Planning e disaggregati verso i singoli prodotti, le singole unit` a di vendita, i singoli bucket temporali. Nella transizione fra una coppia di livelli di una stessa dimensione d’analisi (ad esempio: mercato), occorre deﬁnire una opportuna metrica di disaggregazione dei dati dal livello superiore a quello inferiore, a parit` a di livelli di analisi per le altre dimensioni: in questo caso, si tratta di dividere una quantit` a di vendita decisa a livello consolidato (ad esempio: a livello product family) nelle quantit` a di vendita per i singoli elementi (ad esempio: prodotti ai livelli SKU, SKU per locazione

3.1 Workﬂow di Demand Planning

91

o SKU per variante/opzione), rispettando il vincolo di integrit` a di aggregazione bottom-up dal livello inferiore a quello superiore. La ripartizione delle quantit` a aggregate dalle entit` a “padre” alle entit` a “ﬁglio” avviene secondo criteri di allocazione uniformi o proporzionali ad indicatori esterni, caratteristici dei singoli elementi di livello inferiore. Workﬂow middle-out I processi aziendali di Demand Planning che si svolgono mediante workﬂow verticali sono in genere intermedi rispetto ai due casi base top-down e bottom-up: a partire da un deﬁnito livello gerarchico tridimensionale sui prodotti, mercati e periodi, negli workﬂow di tipo middle-out entrambe le direzioni top-down e bottom-up vengono percorse da diversi utenti cui interessa analizzare, modiﬁcare o validare i dati di domanda a speciﬁci livelli di visualizzazione. Ad esempio, con riferimento al processo di Sales Forecasting: • il piano di sales forecast viene elaborato a livello SKU /zona di vendita/mese, ad esempio per ragioni di accuratezza statistica dei risultati ottenuti; • il sales forecast viene diﬀuso bottom-up verso i livelli decisionali aggregati per controllo e validazione; • il piano di sales forecast, coerente con le modiﬁche manageriali, viene quindi ridirezionato top-down verso i livelli inferiori, disaggregato per agenti di vendita e per singoli clienti, a livello settimanale e per singola SKU. 3.1.4 Workﬂow orizzontali A diﬀerenza del workﬂow di tipo verticale, che prevede l’esecuzione delle medesime attivit` a analitiche, elaborative o di controllo a diversi livelli gerarchici lungo le dimensioni prodotto-mercato-tempo, i processi che si articolano mediante workﬂow orizzontali prevedono l’esecuzione di attivit` a a diﬀerente contenuto decisionale, svolte: • una dopo l’altra, secondo i cicli di pianiﬁcazione periodici dei processi di Demand Planning, attraverso sequenze predeﬁnite e sincronizzate; • da diversi decisori funzionali con competenze di business diverse, che analizzano dati eterogenei, presentati in speciﬁci report e si avvalgono di modelli matematici e strumenti informatici speciﬁci per contenuto delle attivit` a. Ciascuna fase sequenziale di un processo organizzato mediante workﬂow orizzontale pu` o prevedere al suo interno un certo grado di parallelismo delle attivit` a, per due ragioni: 1. alcune fasi possono essere svolte in parallelo, nello stesso intervallo temporale, perch´e non richiedono interazioni di scambio di informazioni in input/output, pur basandosi sugli stessi dati in ingresso; 2. lo stesso tipo di attivit`a `e svolto da utenti che lavorano allo stesso livello gerarchico, utilizzano gli stessi applicativi informatici e le stesse metodologie, ma sono responsabili della gestione di diversi segmenti prodotto-mercato, diverse

92

3 Sistemi organizzativi di Demand Planning

aree di vendita, diverse famiglie di prodotto. La ﬁgura 3.3 indica una possibile ripartizione di alcuni prodotti/mercati fra pianiﬁcatori diversi. Nell’esempio in ﬁgura 3.3, il manager A di zona gestisce la zona di vendita X, suddivisa in tre segmenti sotto il controllo di tre agenti di vendita, mentre il manager B gestisce le zone Y e Z. Solo i prodotti appartenenti alla famiglia fam 123 sono venduti nella zona X; analogamente, i prodotti della famiglia fam 456 sono commercializzati nei mercati delle zone Y e Z. Pertanto l’assegnazione di coppie prodotto-mercato a diﬀerenti manager zonali porta alla conﬁgurazione dei tre segmenti: {zona X – famiglia fam 123}; {zona Y – famiglia fam 456}; {zona Z – famiglia fam 456}.

Figura 3.3. Associazioni di segmenti prodotto-mercato ad utenti

Alcuni esempi di parti di workﬂow orizzontali sono i seguenti: • la fase di sales cleaning deve necessariamente precedere le fasi di deﬁnizione del piano di sales forecast (forecast statistico e revisioni verticali successive): gli algoritmi di sales forecasting intervengono nella formulazione del sales forecast analizzando le quantit` a storiche di vendita depurate dalle anomalie che hanno perturbato la regolarit` a delle vendite; • la fase di progettazione delle promozioni future avviene a valle del processo di analisi degli eﬀetti consuntivi di eventi passati, misurati con il supporto di algoritmi di Demand Intelligence; • la fase di applicazione di algoritmi di sales forecasting ai diversi segmenti prodotto-mercato si svolge solo dopo aver classiﬁcato tali segmenti in base alla loro demand forecastability, in grado di discriminare fra prodotti regolari continuativi, regolari stagionali, sporadici; • la decisione di quali prodotti nuovi introdurre su quali mercati (nella fase Marketing Intelligence) avviene dopo aver analizzato (nella fase Demand Intelli-

3.1 Workﬂow di Demand Planning

93

gence) i risultati ottenuti con algoritmi di classiﬁcazione, clustering e regole associative circa l’eﬀetto di precedenti campagne di vendita.

3.1.5 Esempio di Workﬂow di Demand Planning In questo paragrafo viene illustrato un esempio applicativo di workﬂow orizzontali e verticali di Demand Planning, con particolare riferimento alle fasi precedenti il processo multifunzionale di Sales & Operations Planning. La ﬁgura 3.4 evidenza le fasi interne ai processi di Demand Analytics, Demand Intelligence, Sales Forecasting e Marketing Intelligence, collocandole orizzontalmente sull’asse temporale di pianiﬁcazione. Con un particolare simbolo graﬁco sono indicate le fasi internamente alle quali si innesta un workﬂow di tipo verticale, di analisi e revisione gerarchica di piani di domanda, passati o futuri.

Figura 3.4. Esempio di workﬂow di Demand Planning

94

3 Sistemi organizzativi di Demand Planning

Le fasi di Demand Analytics e Demand Intelligence possono essere svolte in parallelo da diversi utenti: analisti di business, nel primo caso, utenti di marketing nel secondo. Le attivit` a di pulizia statistica delle serie storiche di vendita devono cominciare in anticipo, in quanto gli outlier rilevati rispetto alla baseline storica oﬀrono informazioni utili: • per la valutazione a posteriori della eﬀectivness delle promozioni (analisi di fatturato, analisi di customer service); • per la valutazione a priori della proﬁtability di promozioni future, applicate su segmenti prodotto-mercato ritenuti “promettenti” secondo le analisi di classiﬁcazione dei segmenti basate sulla probabilit`a di risposta positiva ad eventi di marketing. L’analisi di fatturato, di costo e di redditivit` a fornisce indicazioni utili ai modelli per la segmentazione dei clienti in gruppi omogenei (clustering), ad esempio sulla base dei valori economici registrati per le vendite eﬀettuate nel passato. L’analisi dei KPI di sales forecasting, attraverso la misura degli errori di previsione, consente alle fasi successive di classiﬁcare le serie storiche in base alla loro forecastability e di analizzare con particolare attenzione quei segmenti prodottomercato per i quali nel passato l’accuratezza previsionale `e stata eccessivamente bassa. Le fasi di analisi qualitativa delle previsioni di vendita, dei piani di marketing e dei piani di introduzione di nuovi prodotti o di apertura di nuovi canali di vendita sono svolte da utenti senior, dalla forza locale di vendita e da opinion leader di mercato esterni, coordinati attraverso metodologie gestionali di brainstorming focalizzate sulle idee di business innovative. L’analisi statistica delle vendite storiche, svolta nelle fasi iniziali di sales forecasting, permette di evidenziare eventuali correlazioni presenti fra la domanda di mercato occorsa nel passato e le variabili indipendenti che l’hanno inﬂuenzata. L’analisi di correlazione lineare fra coppie o gruppi di variabili `e di ausilio ai modelli di regressione lineare, atti a prevedere le vendite future sui segmenti prodotto-mercato, in base ai probabili futuri valori assunti dalle variabili esogene, stimate da specialisti di settore. In seguito alla revisione ﬁnale delle versioni di sales forecast e delle versioni dei piani di marketing, le possibili alternative di scenario di mercato subiscono il successivo processo negoziale di consolidamento, per arrivare alla deﬁnizione del budget delle vendite nel corso dei processi di Collaborative Forecasting.

3.2 Diﬀusione funzionale dei piani di domanda 3.2.1 Fabbisogni funzionali Utenti provenienti dalle funzioni aziendali presidiano le fasi di Demand Analytics, Demand Intelligence, Sales Forecasting, Marketing Intelligence, Collaborative Fo-

3.2 Diﬀusione funzionale dei piani di domanda

95

recasting e le attivit` a di deﬁnizione dei piani vincolati di domanda, nel corso dei processi di Sales & Operations Planning. Al termine della deﬁnizione del piano uﬃciale di domanda (demand plan) compatibile con i vincoli di capacit` a produttiva e distributiva di medio-lungo periodo, si procede alla sua diﬀusione alle funzioni che concorrono alla formazione della domanda di mercato (Marketing, Vendite: funzioni demand oriented), a quelle che sostengono ﬁnanziariamente tale domanda nel medio termine (Finanza, Controllo di Gestione: funzioni business oriented) ed a quelle che si occupano del soddisfacimento di tale domanda (Acquisti, Produzione, Logistica: funzioni supply oriented). Ciascuna funzione aziendale fruisce periodicamente del piano uﬃciale di domanda, disponendo di speciﬁci report che dettagliano i volumi o i valori economici di vendita secondo deﬁniti livelli gerarchici di aggregazione, unit` a di misura, orizzonti temporali di visibilit` a della domanda. Diverse tipologie di utenti “operativi” interpretano ed implementano il piano di domanda, all’interno dei processi di Supply Chain Execution, svolgendo le attivit` a operative di acquisizione e gestione degli ordini cliente, preparazione e confezionamento delle merci da spedire, produzione tecnologica dei prodotti, approvvigionamento delle materie prime. Per ciascuna funzione aziendale, i paragraﬁ seguenti mettono in luce i fabbisogni informativi in relazione alle caratteristiche del demand plan, secondo la triplice ottica di analisi deﬁnita dal livello gerarchico dei dati, dalle unit` a di misura utilizzate e dalla lunghezza dell’orizzonte di pianiﬁcazione. I piani di sales forecast, di marketing, di sales budget ed il piano vincolato di domanda sono univocamente determinati a valle dei processi di negoziazione interfunzionale di Collaborative Forecasting e Sales & Operations Planning. Esiste una sola versione di demand plan, uﬃciale e formalmente condivisa fra i diversi stakeholder aziendali. La pratica gestionale nota come single number forecasting prevede che il medesimo piano di domanda venga condiviso alle funzioni monodisciplinari, esprimendolo nel linguaggio metrico proprio di ciascuna area di competenza. Vengono generate viste dei piani di domanda, applicando coeﬃcienti di conversione fra le diverse unit` a di misura ai valori quantitativi in cui originariamente `e stato redatto il piano di domanda. La ﬁgura 3.5 mostra un esempio schematico di gerarchie di prodotto e di mercato, indicando i livelli pi` u appropriati di fruizione dei piani di domanda da parte delle funzioni logistico-produttive, marketing & vendite, ﬁnanza & amministrazione.

3.2.2 Funzioni demand oriented Nella classe delle funzioni orientate alla formazione ed al mantenimento della domanda dei prodotti ﬁniti presso i diversi mercati si possono includere le funzioni Marketing e Vendite.

96

3 Sistemi organizzativi di Demand Planning

Figura 3.5. Funzioni aziendali e livelli gerarchici dei piani di domanda

Funzione Marketing Il Marketing di prodotto ha la responsabilit` a di generare e mantenere nel tempo la domanda dei prodotti presso i consumatori ﬁnali B2C, che si recano presso i punti vendita per procedere all’acquisto di speciﬁche varianti ed opzioni di prodotto. I singoli prodotti vengono commercializzati attraverso appositi canali di vendita; a ciascuno si associa una precisa immagine di marca, uno speciﬁco concetto pubblicitario; ciascun prodotto viene pianiﬁcato attraverso la deﬁnizione di un piano promozionale di vendita. Il sostenimento di marketing si esplica attraverso azioni di ﬁdelizzazione dei consumatori, sia sul fronte dei prodotti esistenti, sia attraverso la frequente introduzione di nuovi prodotti o varianti. Le attivit` a di marketing sono rivolte alla: • deﬁnizione del prezzo dei prodotti; • deﬁnizione delle campagne promozionali sui prodotti e delle relative leve (sconti sul prezzo di vendita, sulle quantit` a acquistate, inclusione di gadget); • progettazione del ciclo di vita dei prodotti; • channel placement dei prodotti nel tempo; • analisi delle tipologie di consumatori e delle peculiarit` a geograﬁche dei singoli mercati di vendita; • analisi dei fattori competitivi che determinano i volumi di vendita nei singoli segmenti prodotto-mercato; • deﬁnizione degli obiettivi di servizio al cliente (KPI di customer service); • clustering dei segmenti prodotto-mercato; • analisi delle regole di acquisto dei consumatori ﬁnali. Al ﬁne di supportare le attivit` a elencate, `e necessario fornire i piani intermedi di sales forecast, il piano di budget ed il piano vincolato di domanda alle funzioni di marketing di prodotto nelle forme seguenti: • in unit` a di misura monetarie; • con un intervallo temporale di riferimento almeno annuale, dettagliato per bucket mensili o trimestrali; • con dettaglio gerarchico sui prodotti a livello di categoria, famiglia, brand o linea di prodotto.

3.2 Diﬀusione funzionale dei piani di domanda

97

Si pu` o notare la signiﬁcativa aggregazione dei dati di vendita, disponibili a livello microscopico per singoli prodotti ﬁniti e per singoli punti vendita, verso livelli superiori nelle gerarchie di prodotto-mercato, coerentemente con le attivit`a di medio-lungo periodo proprie delle analisi di marketing. Tuttavia `e possibile riscontrare anche analisi di dettaglio, ad esempio per pianiﬁcare promozioni sulle vendite di speciﬁci articoli su alcuni punti vendita. Funzione Vendite La funzione Vendite ha un duplice obiettivo: • nel medio-lungo termine, generare e mantenere la domanda dei prodotti presso i grandi clienti industriali (relazioni B2B), i partner commerciali e logistici della grande o piccola distribuzione all’interno della ﬁliera (wholesaler, retailer ); • nel medio-breve termine, motivare la forza di vendita locale, attraverso la deﬁnizione dei target operativi delle vendite (sales target ), ambiziosi, stimolanti ma al tempo stesso operativamente raggiungibili, procedendo poi alla loro periodica valutazione, al ﬁne di corrispondere equamente gli incentivi e le provvigioni di vendita agli agenti ed ai responsabili di zona. L’elaborazione delle previsioni di vendita permette alla funzione Vendite di analizzare le opportunit` a di ingresso in nuovi segmenti prodotto-mercato, i potenziali eﬀetti di nuove campagne di marketing o di variazione dei prezzi di vendita, la possibilit` a di apertura di nuovi canali di distribuzione. Lo studio delle componenti regolari delle serie storiche di vendita consente di scoprire ed interpretare i trend di domanda, positivi o negativi, oltre che l’andamento dei cicli stagionali. Il piano di sales budget ed il piano vincolato di domanda sono periodicamente forniti alle funzioni di vendita nelle forme seguenti: • in unit` a di misura monetarie; • con un intervallo temporale di riferimento almeno annuale, dettagliato per bucket mensili o trimestrali; • con dettaglio gerarchico sui mercati a livello di singolo account, regione, zona di vendita comprendente un insieme omogeneo di clienti ﬁnali (depositi logistici, punti vendita al dettaglio, centri della grande distribuzione). La lunghezza dell’orizzonte temporale pu` o anche eccedere il singolo esercizio annuale di vendita, per meglio predisporre i contratti di fornitura e di collaborazione pluriennali con i partner della ﬁliera logistico-distributiva. 3.2.3 Funzioni supply oriented Nella classe delle funzioni orientate al soddisfacimento operativo della domanda dei prodotti ﬁniti, si possono includere le funzioni Produzione, Acquisti, Logistica. Le tre funzioni menzionate sviluppano due tipologie di piani di fornitura: • piani di lungo termine: piani di produzione, acquisto e distribuzione deﬁniti nei processi di Supply Chain Network Design, orientati a predisporre le risorse

98

3 Sistemi organizzativi di Demand Planning

logistico-produttive necessarie al soddisfacimento dei volumi di domanda che si prevede si manifesteranno nei successivi mesi/anni, in coerenza con i piani strategici di sviluppo deﬁniti nei processi di Supply Chain Strategy; • piani operativi di breve-medio termine: piani di produzione, acquisto e distribuzione deﬁniti nei processi di Supply Chain Planning. Funzione Produzione La funzione Produzione provvede, basandosi sui piani di domanda diﬀusi ad ogni ciclo di pianiﬁcazione S&OP, alla preparazione di tre piani: • piano di capacit` a produttiva nel medio-lungo periodo; • piano operativo di produzione nel medio-breve periodo per i prodotti ﬁniti, i componenti ed i sottoassiemi di fabbricazione interna; • piano operativo delle giacenze di produzione nel medio-breve periodo: viene deﬁnita la proiezione (giornaliera/settimanale/mensile) delle scorte di prodotti ﬁniti ed intermedi presso i siti di stoccaggio outbound del produttore; dettagliando con precisione gli impieghi di capacit` a produttiva e di manodopera. Le infattibilit` a evidenziate dal confronto fra il piano di sales budget ed i vincoli di disponibilit` a delle risorse di produzione concorrono alla determinazione dei fabbisogni aggiuntivi di capacit` a, da reperire presso i terzisti (nel breve periodo) oppure attraverso nuovi investimenti tecnologici (nel medio-lungo periodo). Il sales budget ed il piano vincolato di domanda sono periodicamente forniti alle funzioni di produzione nelle forme seguenti: • in unit` a di misura tecnologiche di produzione (unit` a, pezzi, lotti produttivi); • su un intervallo di lungo periodo pluriennale, dettagliato per bucket trimestrali, ai ﬁni della preparazione del piano di capacit` a produttiva; • su un intervallo di breve periodo dell’ordine di qualche mese (da qualche giorno/settimana a tre/sei mesi circa, a seconda dei contesti produttivi), dettagliato per bucket giornalieri o settimanali, ai ﬁni della preparazione dei piani operativi di produzione MPS e di schedulazione; • con dettaglio gerarchico sui prodotti a livello di singola SKU. La speciﬁcazione del livello di dettaglio dei dati di vendita lungo le gerarchie di mercato non `e rilevante ai ﬁni della stesura dei piani di produzione. Infatti, il grado di priorit` a automaticamente associato agli ordini di produzione emessi dai sistemi MPS -MRP stabilisce implicitamente l’urgenza relativa dei job da schedulare in produzione, senza che gli operatori di scheduling conoscano esattamente le coordinate del destinatario dei lotti di produzione in corso di avanzamento presso gli impianti. Funzione Acquisti La funzione Acquisti emette tre tipologie di piani: • piano strategico di approvvigionamento nel medio-lungo periodo: viene indicato il fabbisogno di materiali in input, da sostenere nel medio-lungo termine, a fronte dei volumi di prodotto ﬁnito complessivamente richiesti nei piani di

3.2 Diﬀusione funzionale dei piani di domanda

99

domanda. I piani di acquisto speciﬁcano sia i volumi di acquisto necessari, sia quali fornitori sarebbe necessario contattare nel medio-lungo termine, con i quali stipulare accordi strategici di fornitura dei prodotti; • piano operativo di approvvigionamento nel medio-breve periodo: viene indicato quando approvvigionare quali quantit` a di materiali in ingresso, reperibili attraverso quali fornitori alternativi, secondo due orizzonti temporali di riferimento: breve termine (suppliers scheduling) e medio termine (material requirement plan – MRP); • piano operativo delle giacenze di acquisto nel medio-breve periodo: viene deﬁnita la proiezione (giornaliera/settimanale/mensile) delle scorte di materie prime di acquisto esterno presso i siti di controllo e stoccaggio inbound del produttore. La diﬃcolt` a nel reperire materie prime particolari, ad esempio perch´e servite da pochi fornitori su scala internazionale o perch´e particolarmente costose o in quanto disponibili solamente in alcune stagioni dell’anno, costituisce un parametro critico per valutare la lunghezza dell’orizzonte sul quale deﬁnire i piani di domanda. L’orizzonte di visibilit` a dei piani di domanda per i prodotti ﬁniti deve avere estensione almeno pari alla somma dei lead time di produzione degli articoli e di acquisto delle materie prime “critiche”, ad elevato lead time di reperimento sul mercato dei fornitori. Se cos`ı non fosse, un fabbisogno diretto di prodotti ﬁniti potrebbe generare un fabbisogno indiretto di materie prime occorrente nel passato, cio`e non copribile in tempo per rispettare le scadenze produttive scandite dal sistema di programmazione della produzione e degli acquisti di medio termine MPS -MRP. Il piano di sales budget ed il piano vincolato di domanda sono periodicamente forniti alle funzioni di approvvigionamento materiali nelle forme seguenti: • in unit` a di misura ﬁsiche di acquisto (unit` a, pezzi, pallet, lotti di spedizione); • su un intervallo di lungo periodo pluriennale, dettagliato per bucket mensili, per la preparazione del piano strategico di acquisto; • su un intervallo di breve periodo dell’ordine di qualche mese (da qualche settimana a tre/sei mesi circa), dettagliato per bucket giornalieri o settimanali, ai ﬁni della preparazione dei piani operativi di acquisto esterno MRP; • con dettaglio gerarchico sui prodotti a livello di famiglia, poich´e la stima dei fabbisogni di materiali in input avviene senza scendere nel dettaglio degli impieghi unitari per singola SKU. Analogamente al caso della funzione Produzione, anche la funzione Acquisti non `e interessata a conoscere quali clienti abbiano ordinato i prodotti ﬁniti, la cui produzione induce il consumo dei materiali di acquisto esterno. Funzione Logistica Anche i piani emessi dalla funzione Logistica si articolano secondo diverse direttrici temporali: • piano di capacit` a ricettiva nel medio-lungo periodo: viene speciﬁcato il fabbisogno di capacit` a di stoccaggio dei materiali necessari presso i depositi interni o esterni agli stabilimenti manifatturieri, a fronte dei volumi di prodotto ﬁnito

100

3 Sistemi organizzativi di Demand Planning

richiesti nei piani di domanda. Tali piani deﬁniscono sia i volumi di stoccaggio necessari per deposito logistico-produttivo, sia quali strutture tecnologiche di accoglimento dei materiali siano meglio indicate, in relazione alle caratteristiche di immagazzinamento richieste dai prodotti ﬁniti; • piano di capacit` a distributiva nel medio-lungo periodo: indica il fabbisogno di risorse logistiche per il trasporto delle merci lungo le strutture intermedie della ﬁliera logistico-distributiva, ﬁno a raggiungere il punto ﬁnale di contatto con il cliente. Le decisioni di organizzazione ed allestimento della ﬂotta di trasporto e spedizione dei prodotti lungo i canali logistici della Supply Chain vengono prese nel corso dei processi di Supply Chain Network Design; • piano operativo di distribuzione e stoccaggio nel medio-breve periodo: viene indicato quando stoccare e/o distribuire quali quantit` a di prodotti ﬁniti, appartenenti a quali lotti di consegna, presso quali strutture ricettive. Vengono inoltre deﬁniti nel breve periodo i routing di consegna dei prodotti presso i punti vendita, ad opera dei vettori della ﬂotta di trasporto (vehicle scheduling, vehicle routing); • piano operativo delle giacenze di distribuzione nel medio-breve periodo: viene deﬁnita la proiezione (giornaliera/settimanale/mensile) delle scorte di prodotto ﬁnito presso i siti di trasferimento e stoccaggio intermedio dei distributori. Il piano di sales budget ed il piano vincolato di domanda sono periodicamente forniti alle funzioni di distribuzione dei prodotti ﬁniti nelle forme seguenti: • in unit` a di misura ﬁsiche proprie delle attivit` a esecutive di distribuzione (unit` a logistiche di carico, unit` a di volume, unit` a di peso); • su un intervallo temporale di lungo periodo pluriennale, dettagliato per bucket mensili, ai ﬁni della preparazione del piano strategico di reperimento delle capacit`a distributiva e ricettiva; • su un intervallo temporale di breve periodo dell’ordine di qualche mese (da qualche settimana a tre/sei mesi circa), dettagliato per bucket giornalieri o settimanali, ai ﬁni della preparazione dei piani operativi di spedizione e stoccaggio dei prodotti ﬁniti; • con dettaglio gerarchico sui prodotti a livello di singola SKUL (stock keeping unit localizzata per singola location logistica); • con dettaglio gerarchico sui mercati a livello di zona o area geograﬁca (gruppo localizzato di clienti), per la preparazione dei piani di dimensionamento dei servizi logistici di stoccaggio e trasporto; • con dettaglio gerarchico sui mercati a livello di singolo cliente ﬁnale, per la preparazione dei piani operativi di consegna giornaliera delle merci. I dati di vendita e di distribuzione sono generalmente aggregati, seguendo l’asse dimensionale di mercato, partendo dalle singole locazioni di vendita (livello shipto location), verso i magazzini periferici o centrali (livello warehouse), quindi per zona logistica e per altri criteri di raggruppamento geograﬁco.

3.2 Diﬀusione funzionale dei piani di domanda

101

3.2.4 Funzioni di pianiﬁcazione strategica e ﬁnanziaria Le funzioni aziendali preposte alla pianiﬁcazione strategia e ﬁnanziaria (funzioni Finanza, Amministrazione, direzione di Business Unit) valutano la fattibilit` a ﬁnanziaria e la compatibilit` a dei piani di domanda e dei piani operativi di S&OP con la strategia di sviluppo e proﬁttabilit` a aziendale di lungo periodo. A valle della deﬁnizione dei budget delle vendite, della produzione, delle attivit` a di acquisto e di distribuzione, le funzioni di amministrazione contabile e ﬁnanziaria si preoccupano di valutare la redditivit` a dei piani formulati, calcolando: • i budget di costo: costi delle attivit` a di vendita, costi logistici delle spedizioni e delle scorte, costi di produzione ed acquisto dei materiali, costi indiretti di periodo; • i budget di investimento, valutando l’entit` a degli esborsi ﬁnanziari da erogare nei singoli anni dell’orizzonte di pianiﬁcazione strategica; • i budget ﬁnanziari, relativi alle modalit` a di reperimento delle risorse ﬁnanziare per sostenere i piani di investimento in tecnologie di prodotto, di produzione, di distribuzione e stoccaggio. Funzioni Finanza e Amministrazione L’elaborazione delle previsioni di vendita permette alla funzione Finanza di deﬁnire il piano ﬁnanziario ed i budget di costo nel medio e lungo periodo, per proiettare nel tempo i livelli di costo, di proﬁtto o perdita (in relazione agli obiettivi di fatturato di vendita) e gli esborsi di capitale connessi alle attivit` a di fornitura, al ﬁne di valutare la redditivit` a aziendale nel lungo periodo, l’impiego delle disponibilit` a di cassa, l’esigenza di reperimento di nuove fonti di ﬁnanziamento dei capitali. Le analisi ﬁnanziarie sono svolte a livello corporate, per unit` a logistico-produttive di produzione o distribuzione (business unit), valorizzando i KPI economico-ﬁnanziari in unit` a di misura monetarie, pesando le quantit` a ﬁsiche di domanda, di produzione e di distribuzione sulla base dei prezzi di vendita dei prodotti ﬁniti, dei costi operativi diﬀerenziali di produzione e spedizione, dei costi di mantenimento a scorta e di obsolescenza dei semilavorati e dei prodotti ﬁniti mantenuti in giacenza. Le analisi di cash ﬂow, degli investimenti ﬁnanziari alternativi, dei proﬁli di solvibilit` a e credito dei clienti industriali sono tipiche valutazioni operate dalla funzione Finanza. Le funzioni di Amministrazione e Contabilit` a valutano le prestazioni economiche collegate alle avvenute operazioni commerciali, per monitorare il livello di eﬃcienza interna delle Business Unit. L’orizzonte di pianiﬁcazione ﬁnanziaria `e pluriennale (da uno a cinque anni), dettagliato a bucket mensile o trimestrale; i valori di domanda sono espressi in unit` a di misura monetarie, nelle valute dei singoli paesi in cui l’azienda oﬀre i propri prodotti; il livello di aggregazione dei prodotti `e per linea, brand, divisione operativa, business unit; il livello di raggruppamento dei clienti `e per zona, regione o nazione di vendita. Il controllo di gestione pu`o analizzare i dati di vendita a livello meno consolidato, dettagliando i valori anche per famiglie di prodotti o singole SKU, per

102

3 Sistemi organizzativi di Demand Planning

determinare con precisione i costi eﬀettivi sostenuti per la produzione, l’acquisto e la distribuzione. Funzione Risorse Umane La funzione Risorse Umane `e interessata a prendere visione dei piani di domanda e dei piani operativi, al ﬁne di valutare l’ammontare di risorse umane da utilizzare nei processi operativi di Supply Chain Execution e nei processi gestionali di Supply Chain Planning e Supply Chain Analytics. Attraverso il contatto con i responsabili di funzione, vengono stabiliti i target e gli incentivi per il personale di vendita, le politiche di formazione del personale, il dimensionamento delle risorse umane all’interno delle funzioni. In particolare, ai ﬁni della deﬁnizione dei piani di Demand Planning, `e opportuno reperire skill e competenze per lo svolgimento delle attivit` a interpretative e previsionali di sales forecasting e data mining sui dati di vendita, che richiedono un background culturale di tipo matematico-statistico ed analitico. Il livello di dettaglio tridimensionale dei piani di domanda e le relative unit` a economiche di misura sono gli stessi delle funzioni Finanza ed Amministrazione. Management strategico Il top management deﬁnisce i piani strategici di lungo periodo per l’espansione aziendale, operata attraverso fusioni ed acquisizioni aziendali, preparando piani pluriennali di investimento in tecnologie di prodotto e di processo. Le analisi di livello corporate svolte dal management strategico si propongono di valutare le condizioni economico-ﬁnanziarie dei mercati in cui l’azienda opera, la fattibilit` a di progetti strategici di incremento delle quote di mercato nelle aree di vendita, le azioni dei competitor attraverso indagini di benchmarking strategico. I piani di domanda analizzati in questa sede sono formulati a livelli gerarchici notevolmente aggregati, per divisioni di prodotto ed aree di mercato nazionali o continentali, sotto forma di valori monetari, estendendosi lungo orizzonti di durata almeno triennale/quinquennale, con granularit` a temporale semestrale o annuale.

3.3 Organizzazione dei processi di Demand Planning ` possibile deﬁnire i piani di domanda, nei loro progressivi stadi di elaborazione E (sales forecast, marketing plan, sales budget, sales target, demand plan), seguendo alcuni approcci di sincronizzazione e coordinamento interfunzionale, noti come specialized forecasting, multiple forecasting, consensus based forecasting. Ciascuna metodologia organizzativa di formulazione dei piani prevede il coinvolgimento delle funzioni aziendali a livelli diversi, con riferimento ai soggetti che hanno la responsabilit` a di preparare la prima versione dei piani, in rapporto a coloro che invece li devono validare, facendoli evolvere in versioni e correzioni successive. Per ciascuno dei tre approcci gestionali vengono messi in evidenza le caratteristiche peculiari, gli workﬂow tipici, i punti di forza ed i punti di debolezza.

3.3 Organizzazione dei processi di Demand Planning

103

3.3.1 Specialized Forecasting L’approccio specialistico alla preparazione dei piani di domanda1 (detto anche Single Function Forecasting) consiste nel delegare una speciﬁca funzione aziendale alla preparazione della prima versione formale del piano, da inoltrare in seguito alle altre funzioni per analisi, integrazione, negoziazione e validazione ﬁnale. Una funzione aziendale ritenuta maggiormente idonea alla formulazione del piano, in quanto disponente del know-how matematico-statistico e delle necessarie conoscenze qualitative sui segmenti prodotto-mercato, utilizza gli algoritmi ed i modelli matematici di Business Intelligence e Sales Forecasting per ottenere la prima versione delle previsioni, per tutti i segmenti prodotto-mercato validi, lungo l’orizzonte di pianiﬁcazione. Il piano proposto viene periodicamente diﬀuso alle altre funzioni demand oriented, supply oriented, business oriented, per conoscenza ed analisi di validazione. Gli utenti dipartimentali si riuniscono periodicamente, condividono documenti in formato elettronico, organizzano sessioni congiunte di lavoro per discutere le difformit` a riscontrate dalle funzioni locali rispetto alla versione iniziale proposta dal dipartimento che detiene la ownership del processo di formulazione. Il responsabile della funzione specialistica raccoglie le diverse obiezioni inoltrate dai decisori funzionali e le incorpora come modiﬁche documentate alla prima versione del piano. Solitamente la funzione Marketing, la funzione Vendite (ﬁgura 3.6) o, talvolta, la funzione Logistica, concentrano al loro interno le capacit`a e la responsabilit` a di generare la versione iniziale del piano di domanda. Il processo di negoziazione interfunzionale `e poco accentuato in questo approccio, in cui la qualit` a intrinseca del piano di domanda iniziale risente inevitabilmente

Figura 3.6. Specialized forecast generato dalla funzione Vendite 1

Si utilizza come riferimento terminologico, in questo paragrafo e nei due seguenti, il piano previsionale di domanda (sales forecast ). Le analisi svolte sono comunque estendibili anche alla preparazione dei piani di marketing, di budget delle vendite, ed ai piani vincolati di domanda.

104

3 Sistemi organizzativi di Demand Planning

della speciﬁca funzione che lo ha generato (fenomeno detto biased forecasting), trovandosi quest’ultima in una posizione negoziale dominante rispetto alle altre funzioni chiamate a fornire semplice validazione. Il piano di domanda viene generato dalla funzione delegata nella forma metrica che pi` u le risulta confacente: ad esempio, in unit` a volumetriche per la funzione Logistica, in unit` a monetarie per le funzioni Marketing e Vendite. Attraverso l’applicazione di coeﬃcienti di conversione, i piani vengono quindi tradotti nelle metriche proprie di ciascuna funzione ricevente. Va d’altro canto osservato che i piani di domanda diﬀusi nelle fasi iniziali contengono “derive” naturali tipiche delle funzioni owner. Ad esempio: • le funzioni demand oriented tendono a sovrastimare la domanda di mercato (e la relativa capacit` a dei sistemi produttivi e logistici di far fronte ai volumi stimati), cogliendo in modo naturale le molteplici opportunit` a di vendita, ragionando quindi in termini di capacit` a inﬁnita di soddisfacimento, in assenza di vincoli di capacit` a produttiva e distributiva; • le funzioni supply oriented vincolano il piano di domanda alle eﬀettive disponibilit` a logistico-produttive di breve-medio periodo, sottostimando il volume complessivo di vendite ed ignorando talune opportunit` a di vendita, la cui conoscenza `e patrimonio informativo delle funzioni Marketing e Vendite. L’eﬀetto distorcente che pu` o derivare dalla focalizzazione funzionale `e spiegabile con il fatto che i responsabili della funzione owner del piano di sales forecast sono valutati in relazione a speciﬁci obiettivi locali: • eﬃcienza interna nelle operations di produzione e logistica, per le funzioni supply oriented; • eﬃcacia esterna nel raggiungimento degli obiettivi di vendita (sales target) e di soddisfazione generale dei clienti, per le funzioni demand oriented. Risulta in generale pi` u appropriato aﬃdare l’ownership della stima delle previsioni di domanda alle funzioni che naturalmente si occupano della generazione delle opportunit` a di mercato (Marketing e Vendite), demandando il raﬃnamento del piano di sales forecast alla successiva negoziazione interfunzionale propria dei processi S&OP. In altri casi, `e possibile ricorrere all’impiego di soggetti “eccellenti” non stakeholder, quali specialisti esterni di mercato e consulenti di Sales Forecasting. 3.3.2 Multiple Forecasting La principale limitazione insita nell’approccio specialized forecasting consiste nella ridotta comunicazione fra le funzioni, all’interno delle riunioni di confronto interdipartimentale. Per superare la naturale distorsione dei piani derivante dalla ownership focalizzata su un’unica funzione, l’approccio parallelo alla generazione del piano di domanda (detto anche Multiple Forecasting) consiste nella preparazione iniziale di una serie di piani alternativi di sales forecast, ciascuno redatto da una

3.3 Organizzazione dei processi di Demand Planning

105

Figura 3.7. Multiple forecasting

funzione demand oriented o supply oriented, da confrontare in seguito durante i meeting interfunzionali periodicamente organizzati dai responsabili delle strutture monodisciplinari (ﬁgura 3.7). Ciascuna funzione redige in maniera indipendente il sales forecast nella forma pi` u idonea alla successiva fruizione operativa dei dati, secondo proprie unit` a metriche, consolidando o disaggregando i valori stimati di domanda lungo le gerarchie tipiche di analisi prodotto-mercato-tempo2 . La stima della domanda `e formulata sulla base delle esigenze operative delle singole funzioni: valgono ancora le considerazioni espresse nel paragrafo precedente, circa la distorsione di giudizio presente nelle funzioni. L’attivit` a negoziale di confronto porta alla deﬁnizione di un unico piano previsionale. La collaborazione fra dipartimenti `e ancora piuttosto frammentata e ridotta, specialmente nelle fasi preliminari di analisi dei dati storici di vendita e durante la generazione iniziale del sales forecast. Talvolta gli stessi dati storici in ingresso per l’analisi delle funzioni possono essere stati misurati in modo non corretto, ad esempio se si considerano come driver della domanda di mercato i volumi di spedizione o le sole quantit` a ordinate (fatturate e consegnate) dai clienti. L’approccio di forecasting multiplo si focalizza sulla negoziazione fra le funzioni, incentivando il coordinamento regolamentato e la collaborazione fra i soggetti interessati alla generazione del piano di domanda. Un vantaggio implicito nella modalit` a di interazione multiple forecasting `e indubbiamente la migliore circolazione di idee fra le controparti, l’analisi dei diversi punti di vista di ogni funzione, bilanciando in modo teoricamente democratico e paritetico le esigenze delle singole aree aziendali. 2

` utile ricordare, ad esempio, che la funzione Marketing formula le previsioni per E linea o famiglia di prodotto con orizzonte annuale, la funzione Vendite segmenta i valori quantitativi a livello territoriale, sotto la gestione di ciascun venditore di zona o area. Al contrario, le funzioni logistico-produttive disaggregano i valori ﬁno al livello di singole SKU (funzione Produzione) e SKU by location (funzione Logistica), in relazione ai cicli di pianiﬁcazione della produzione e della distribuzione.

106

3 Sistemi organizzativi di Demand Planning

Anche in questo caso, tuttavia, esistono “derive” che inﬂuenzano l’imparzialit` a di deﬁnizione dei piani di domanda, dovute al peso (potere, prestigio) relativo detenuto da talune funzioni all’interno della comunit` a, i cui membri possono apparire come opinion leader accentratori.

3.3.3 Consensus Based Forecasting L’approccio integrato pi` u evoluto per la deﬁnizione dei piani di domanda (detto Consensus Based Forecasting – CBF ) prevede la formazione di gruppi multifunzionali di lavoro, temporanei o permanenti, dedicati prevalentemente alla formulazione delle previsioni di vendita, integrate dai piani di marketing. Utenti funzionali si riuniscono per formulare il piano di domanda, da diﬀondere in seguito ai colleghi che non hanno partecipato al processo deﬁnitorio (ﬁgura 3.8).

Figura 3.8. Consensus Based Forecasting

Attraverso meccanismi di integrazione interpersonale basati sulla condivisione di informazioni, vincoli ed opportunit` a, si genera un clima di ﬁducia e collaborazione fra i presenti alle riunioni CBF, tutti orientati al perseguimento della redditivit` a globale per l’azienda, che non necessariamente `e ottenibile dalla “somma” delle proﬁttabilit` a locali per le singole aree dipartimentali. Ciascuna funzione `e chiamata, attraverso i suoi rappresentanti, ad esplicitare vincoli, obiettivi ed opportunit` a di business scaturite da indagini locali; le posizioni alternative, portate all’attenzione dell’assemblea, vengono fatte convergere verso un’unica formulazione, il pi` u possibile condivisa, del piano di domanda. L’approccio collaborativo CBF richiede, oltre all’esplicito commitment del management strategico, il coinvolgimento di un insieme signiﬁcativo di risorse appositamente selezionate per speciﬁcit` a di competenza, le quali hanno un elevato livello di conoscenza sui temi di Business Intelligence, Sales Forecasting, Marketing Relazionale. Tali risorse sono estratte dai bacini monodisciplinari per formare i forecast group decisionali; `e opportuno che tali tipologie di utenti siano permanentemente dedicati alla generazione dei piani vincolati di domanda e di fornitura nelle fasi di Supply Chain Planning, a scapito delle attivit` a ordinarie di implementazione e controllo temporale dei piani di domanda.

3.3 Organizzazione dei processi di Demand Planning

107

I membri interfunzionali del gruppo sono remunerati in relazione alla qualit` a dei piani di domanda generati, in relazione all’eﬃcacia (eﬀectiveness) ed alla precisione (accuracy) delle stime previsionali di domanda. Approcci collaborativi di tipo CBF possono anche estendersi all’inclusione, all’interno dei gruppi di lavoro, di soggetti aziendali esterni (clienti, fornitori, partner di ﬁliera), dando luogo a forme innovative di generazione dei piani di domanda, note come Collaborative Planning, Forecasting & Replenishment (CPFR). 3.3.4 Ruolo dei Demand Planner L’approccio basato sul consenso, sulla comunicazione e sulla collaborazione interfunzionale prevede la predisposizione ad hoc di un team dedicato alla generazione dei piani di domanda. I membri della nuova struttura organizzativa sono deﬁnibili come demand planner : tali operatori devono possedere speciﬁci requisiti di relazione interpersonale ed apposite conoscenze matematiche e metodologiche, al ﬁne di garantire la loro imparzialit` a ed il riconoscimento, implicito ed unanime all’interno dei dipartimenti aziendali, del loro ruolo di forecast champion (o forecast master ). I demand planner svolgono i seguenti compiti: • ricercano i dati e le informazioni in input alla deﬁnizione dei piani di domanda, reperibili presso i serbatoi di conoscenza funzionale; • formulano i piani previsionali di sales forecast; • conducono le analisi di Demand Analytics e Demand Intelligence, supportando gli utenti di Marketing e Vendite nell’interpretazione dei report consuntivi, delle interrogazioni OLAP richieste e dei risultati dei modelli di Data Mining; • si interfacciano con esperti esterni di business, analisti di mercato, talvolta con i principali clienti, al ﬁne di raccogliere le informazioni sul contesto competitivo e sulle azioni dinamiche dei competitor, anche attraverso analisi di benchmarking; • deﬁniscono i contenuti e la schedulazione temporale delle sessioni plenarie di confronto interfunzionale sui piani alternativi di domanda, convocando periodicamente il personale di riferimento per ciascuna area dipartimentale; • conducono imparzialmente le attivit` a di negoziazione collaborativa fra le controparti, al ﬁne di far convergere i partecipanti all’ottenimento consensuale di un unico piano di domanda; • diﬀondono il piano vincolato di domanda presso le singole funzioni, preparando i necessari report secondo le unit` a di misura ed i livelli gerarchici multidimensionali di presentazione dei valori, idonei per le diverse aree operative dell’azienda. Ai demand planner sono richieste competenze di tipo: • matematico-statistico, per l’utilizzo degli algoritmi di business intelligence, analisi statistica dei dati di domanda, sales cleaning e sales forecasting; • relazionale-comunicativo, per la conduzione imparziale e collaborativa delle sessioni di lavoro interfunzionali;

108

3 Sistemi organizzativi di Demand Planning

• organizzativo, per il coinvolgimento mirato delle migliori risorse dipartimentali nei processi di reperimento delle informazioni di domanda; • business knowledge, nel senso della conoscenza dei settori di mercato in cui l’azienda opera, delle peculiarit` a dei diversi segmenti prodotto-cliente, delle leve competitive e dei driver che inﬂuenzano il manifestarsi della domanda presso i clienti industriali ed i consumatori ﬁnali.

3.4 Qualitative Sales Forecasting 3.4.1 Introduzione alle metodologie di Sales Forecasting In questa sezione del capitolo vengono illustrati i pi` u comuni metodi qualitativi di formulazione delle previsioni della domanda commerciale (sales forecast). L’insieme di tali metodologie `e complementare ed integrativo rispetto all’applicazione dei modelli matematici per la determinazione del piano statistico di domanda. La classiﬁcazione standard tradizionale dei metodi per la generazione del sales forecast prevede tre macroclassi di approcci utilizzabili: 1. modelli qualitativi a base soggettiva di interazione e negoziazione consensuale (analizzati in questa sezione); 2. modelli di Time Series Forecasting, basati sull’analisi delle serie storiche di vendita (trattati nei capitoli 12 e 13); 3. modelli di regressione lineare, basati sulla correlazione della domanda commerciale con driver di business indipendenti, considerati come variabili esterne, a loro volta oggetto di previsione (trattati nel capitolo 14). Tali classi di metodi non sono mutuamente esclusive, bens`ı vanno utilizzate congiuntamente ed in modo sinergico, per sfruttare i punti di forza oﬀerti da ciascuna. Un esempio tipico di utilizzo congiunto di tali metodologie `e prescritto dal seguente workﬂow di generazione del piano di domanda: 1. il sales forecast viene generato mediante l’impiego di modelli matematici di analisi delle serie storiche, che scompongono le serie continue e regolari nelle componenti standard, prima di proiettare nel futuro tali componenti, aggregandole a formare la baseline statistica di domanda; 2. la componente erratica, non prevedibile statisticamente e presente nella serie storica, isolata tramite metodi di sales cleaning, viene analizzata attraverso la preparazione di modelli di regressione lineare semplice, in cui l’azione di variabili esterne indipendenti (ad esempio, il prezzo di vendita dei prodotti, la temperatura registrata presso le locazioni di vendita) viene valutata misurandone gli eﬀetti, qualora esistenti in modo statisticamente signiﬁcativo, sulla domanda di mercato; 3. il sales forecast viene sottoposto a revisioni, progressivamente modiﬁcato in alcune parti, facendo ricorso ai metodi qualitativi di valutazione delle previsioni illustrati in questa sezione;

3.4 Qualitative Sales Forecasting

109

4. meccanismi di consensus based forecasting discriminano inﬁne casi di incertezza e conﬂittualit` a residui fra demand planner, ﬁno a raggiungere la versione deﬁnitiva ed uﬃciale del piano non vincolato di domanda. I campi di impiego tipici delle metodologie di qualitative sales forecasting sono i seguenti: • stima della domanda commerciale per nuovi prodotti innovativi, privi di storia commerciale e diﬃcilmente assimilabili a prodotti esistenti; • stima della domanda nel lungo periodo, a livello strategico, per linee di prodotto e zone macroscopiche di mercato; • aggiustamento delle previsioni di vendita generate tramite modelli quantitativi di sales forecasting; • analisi di scenario per innovazioni tecnologiche, valutazioni di impatto nell’apertura di nuovi mercati. I punti di forza delle metodologie qualitative, rispetto ai modelli matematici, sono: • la capacit` a di prevedere repentine, inattese e consistenti variazioni di livello nella domanda, dovute alla presenza di nuovi cicli macroeconomici in controtendenza, di nuovi fattori di competizione nei mercati, di nuove tecnologie di produzione o distribuzione dei prodotti, di fattori di cambiamento nelle preferenze dei consumatori; • il ricorso all’opinione di esperti del settore industriale o commerciale di riferimento (sales executive, agenti di vendita, esperti di scenari di marketing, esperti indipendenti, partner cooperanti nella ﬁliera). I punti di debolezza delle metodologie di qualitative sales forecasting sono: • elevato dispendio temporale e monetario di risorse aziendali ed interaziendali: le risorse dipartimentali dell’azienda sono sottratte ai quotidiani impegni di gestione delle attivit` a operative di Supply Chain Management, e convogliate all’interno dei meeting di negoziazione consensuale dei piani di domanda; gli esperti esterni devono essere remunerati per le consulenze fornite; • complessit`a e contraddittoriet` a delle informazioni qualitative, di cui tener conto nella formulazione della previsione; • presenza di opinion leader e di pressioni interne all’azienda, che orientano il giudizio, teoricamente indipendente, dei decisori chiamati a fornire il proprio parere circa i futuri scenari di domanda; • presenza di distorsioni tipiche nella determinazione della domanda, a seconda della tipologia di soggetti aziendali coinvolti. Ad esempio, i soggetti della distribuzione propongono sovente piani di domanda (riapprovvigionamento dei depositi intermedi) sovrastimati, per cautelarsi nei confronti della variabilit` a della domanda a valle, espressa indipendentemente da clienti e consumatori; • presenza di opinioni diﬀuse e fortemente radicate, diﬃcili da cambiare per inerzia di pensiero dei decisori; • eccesso di ﬁducia nelle proprie idee, difese con veemenza nelle riunioni; • eccesso di conﬁdenza nelle correlazioni portate a supporto delle proprie idee.

110

3 Sistemi organizzativi di Demand Planning

Dal punto di vista delle gerarchie multidimensionali di domanda, basate sulle tre dimensioni principali prodotto-mercato-tempo: • i modelli quantitativi di Time Series Forecasting sono utilizzati per generare le previsioni operative di breve periodo, eﬀettuate sulle singole entit` a di prodotto ﬁnito e punto vendita, in modo dinamico nel tempo, a livello giornaliero o settimanale; • i modelli di Qualitative Sales Forecasting vengono adoperati per formulare predizioni strategiche di lungo periodo, a livello mensile, semestrale o annuale, su macrofamiglie di prodotti, aggregate su zone, regioni, aree di mercato, basate su indicatori economici piuttosto che sull’andamento locale delle serie storiche di domanda sui singoli segmenti prodotto-mercato. I successivi paragraﬁ della sezione sono dedicati alla presentazione delle metodologie qualitative di sales forecasting. 3.4.2 Jury of executive opinion Il metodo jury of executive opinion prevede la preparazione di meeting periodici di Sales Forecasting in cui `e richiesta la partecipazione di un panel di esperti di Demand Planning, quali: • demand planner ed analisti di Demand Analytics, aﬀerenti alle funzioni di Marketing e Vendite; • responsabili delle attivit` a di marketing di prodotto; • responsabili di linee di prodotto e segmenti di mercato, a livello aggregato; • responsabili delle funzioni di produzione, logistica e ﬁnanza; • esperti e consulenti esterni; per la formulazione consensuale del piano previsionale di domanda, in presenza o in assenza di una base di lavoro di partenza data dal sales forecast statistico. La previsione della domanda `e ottenuta attraverso scambi di opinioni diretti e frontali, poich´e i pianiﬁcatori elaborano le proprie opinioni pubblicamente, formulando idee personali da sottoporre al vaglio di giudizio dei presenti. Essi rappresentano un gruppo di lavoro costituito ad hoc per la formulazione delle stime di vendita. L’utilizzo di dati strutturati, quali ad esempio: • risultati di precedenti campagne di marketing; • analisi di Demand Intelligence circa potenziali regole di acquisto dei consumatori o formazione di cluster di clienti; • analisi di accuratezza predittiva relative a precedenti edizioni del forecast; • report di eﬃcienza dei precedenti piani di produzione e di distribuzione; oﬀrono un supporto quantitativo ai decisori convocati in assemblea. Il difetto principale della metodologia jury of executive opinion risiede nella capacit`a di soggetti/funzioni “forti” di porsi come opinion leader nei confronti di soggetti/funzioni “deboli”, inﬂuenzandone il parere nelle votazioni ﬁnali precedenti la deﬁnizione uﬃciale dei piani di domanda. Tipico `e il caso in cui la funzione

3.4 Qualitative Sales Forecasting

111

amministrativa-ﬁnanziaria guida le decisioni di gruppo, in accordo con obiettivi strategici di budgeting e proﬁttabilit` a di speciﬁche linee di prodotto. Non `e infrequente il caso in cui i responsabili di produzione limitino le richieste dei commerciali, a causa di vincoli nelle strutture produttive di breve periodo, incapaci di soddisfare il volume di domanda espresso dai venditori locali e dai responsabili del marketing di prodotto. Le riunioni schedulate nel tempo risultano estremamente onerose, non soltanto per l’impegno temporale dei singoli partecipanti, quanto piuttosto per l’eﬀort speso nella preparazione dei meeting e nella verbalizzazione progressiva delle decisioni parziali prese in ciascuna riunione. 3.4.3 Metodo Delphi Il metodo Delphi si diﬀerenzia dal precedente metodo jury of executive opinion in quanto la formulazione del piano di domanda avviene in modo asincrono, indipendente e delocalizzato per ciascun decisore o esperto aﬀerente ad uno dei bacini di provenienza elencati nel paragrafo precedente. A ciascun membro del comitato di esperti viene richiesta la formulazione della previsione di vendita per un insieme di segmenti prodotto-mercato, mediante la risposta a quesiti contenuti in un questionario. La prima formulazione individuale viene eﬀettuata in assenza degli altri decisori, in luoghi diﬀerenti (le funzioni di appartenenza dei membri interni, le aziende di provenienza dei partner di ﬁliera o degli esperti esterni) per ciascun decisore. Ogni previsione quantitativa deve essere: • redatta secondo le convenzioni formali previste; • indipendente ed anonima, periodicamente consegnata al demand planner responsabile della conduzione del processo complessivo; • giustiﬁcata fornendo una documentata e dettagliata motivazione di corredo. Al termine della prima raccolta di opinioni private, il responsabile del processo distribuisce a ciascun previsore il risultato del primo giro di opinioni, divulgando le previsioni anonime formulate da ciascun decisore, con la relativa motivazione, dopo averle sintetizzate e presentate secondo un insieme di report. Nella seconda fase del processo, ciascun decisore, analizzate le opinioni altrui, pu` o • confermare la propria previsione indipendente, oppure • modiﬁcare la formulazione iniziale, giustiﬁcando il cambiamento. Al termine della seconda fase di raccolta delle opinioni, il processo di generazione del sales forecast pu`o continuare o terminare, a discrezione del demand planner che ne detiene il controllo. Il processo termina se la previsione formulata indipendentemente dai decisori `e convergente verso un range limitato di valori, ottenuto in modo implicitamente consensuale; in questo caso, una semplice riunione formale coinvolgente un sottoinsieme limitato di decisori (i rappresentanti funzionali e/o coloro che hanno espresso pareri maggiormente discordanti) permette di convergere deﬁnitivamente al single number forecast, da divulgare uﬃcialmente alle funzioni

112

3 Sistemi organizzativi di Demand Planning

aziendali. In caso contrario, se le opinioni sono ancora divergenti e non direzionate verso il medesimo livello o ordine di grandezza, il demand planner conduttore del processo basato sul metodo Delphi istruisce un nuovo giro di consultazioni, evidenziando le previsioni maggiormente discordanti e chiedendone giustiﬁcazione ai rispettivi owner. Il metodo Delphi rappresenta una sorta d’approccio jury of executive opinion “virtuale”, a causa della diversa ubicazione dei diversi decisori, indipendenti nell’esprimere il proprio giudizio di scenario, non inﬂuenzati dalle posizioni forti di eventuali opinion leader. Ogni possibile forma di distorsione sulle singole opinioni dei decisori `e annullata da questa metodologia: idee conﬂittuali e discordanti non sono rimosse dalla presenza di pressioni da parte di talune funzioni aziendali, e possono permanere inalterate per diverse iterazioni del metodo Delphi. Se, da un lato, questa libera circolazione di idee e di scenari alternativi `e positiva, poich´e stimola successive discussioni di gruppo condotte mediante tecniche di brainstorming orientate allo sviluppo proattivo di idee innovative, dall’altro le diverse iterazioni del processo sono time consuming, potenziale causa di ritardi nella deﬁnizione ﬁnale della previsione di domanda. Il metodo Delphi si presta in modo pi` u eﬃcace alla generazione di previsioni strategiche di lungo termine, su segmenti aggregati prodotto-mercato. Se fra i vantaggi di questo metodo vanno annoverati il ridotto costo di implementazione (non `e necessario organizzare riunioni) e l’assenza di posizioni di leadership dominante, occorre per` o evidenziare alcune criticit`a sostanziali: • ccorre porre particolare cura nella selezione del panel di esperti, in numero non eccessivo, coinvolgendo le migliori risorse disponibili in azienda ed all’esterno; • l’onerosit` a temporale di tale approccio, le cui fasi sono diluite nel tempo; • l’opportunit` a di utilizzare il metodo Delphi esclusivamente per analisi di scenario di lungo periodo, non certo per la deﬁnizione delle previsioni puntuali di domanda.

3.4.4 Coinvolgimento della forza di vendita Questo approccio prevede la condivisione della generazione dei piani di domanda con la forza locale di vendita, pur non essendo quest’ultima direttamente responsabile dell’accuratezza dei piani previsionali. Infatti, i compiti tipici dei venditori di area (sales representative) riguardano: • la vendita dei prodotti dell’azienda e dei servizi accessori; • la costruzione e il mantenimento di relazioni commerciali eﬃcaci con i clienti; • la diﬀusione in azienda delle conoscenze di mercato (marketing intelligence), acquisite con l’esperienza maturata sul campo. I responsabili delle vendite di area e di canale ed il management centrale delle funzioni di vendita sono direttamente coinvolti nella formulazione del sales fore-

3.4 Qualitative Sales Forecasting

113

cast, solitamente per validare o modiﬁcare una baseline di domanda generata dai demand planner utilizzando i modelli matematici. Il processo di generazione o validazione del forecast statistico `e strutturato per livelli gerarchici, secondo ﬂussi sequenziali di tipo bottom-up (prima fase) e topdown (seconda fase), procedendo gerarchicamente dai livelli inferiori (venditori di zona) verso livelli di domanda consolidati (responsabili di area, sales representative, direzione delle vendite). Il sales forecast proposto o corretto dai venditori locali viene aggregato e sottoposto a revisione da parte dei responsabili dei mercati geograﬁci, quindi riproposto per conoscenza ed acquisizione ﬁnale agli agenti di vendita, mediante ripropagazione dei valori aggregati modiﬁcati. I vantaggi di questo approccio sono relativi alla possibilit` a di: • incorporare nella previsione di domanda l’esperienza pratica degli operatori commerciali sul campo; • motivare maggiormente il personale e gli agenti di vendita, rendendoli attivamente partecipi nella preparazione della stima della domanda; • individuare imminenti cambiamenti nelle caratteristiche del mercato; • analizzare e revisionare le quote di mercato; • segmentare i clienti per classi di importanza, al ﬁne di intraprendere azioni di marketing mirate; • eseguire benchmarking sulle attivit` a commerciali operate nel passato dai competitor; • richiedere l’opinione della forza di vendita circa possibili azioni promozionali attuabili localmente su speciﬁci segmenti prodotto-mercato. D’altro canto, se si utilizza questo metodo, `e necessario includere negli obiettivi e nella remunerazione variabile del personale di vendita anche aspetti legati all’accuratezza del sales forecast, altrimenti i venditori rischiano di percepire come inutile perdita di tempo la revisione negoziale della previsione generata da soggetti talvolta sconosciuti, i demand planner. Oltre a non essere formalmente corretto chiedere ai venditori la completa redazione del sales forecast “da prato verde”, `e necessario scorporare dalla previsione: • la quota parte di correzione della baseline statistica derivante dalla conoscenza del mercato da parte degli agenti di vendita; • dalla quota legata agli obiettivi di remunerazione variabile propria dei singoli venditori. Infatti, si riscontra sovente una tendenza a proporre previsioni di domanda sottostimate dagli operatori commerciali, cos`ı da poter superare gli obiettivi sul campo, ottenendo una maggiore ricompensa, proporzionale alla quota di superamento del sales target. Inﬁne, l’opinione dei venditori deve essere esclusivamente richiesta sui segmenti prodotto-mercato a maggiore redditivit` a per l’azienda, all’incirca corrispondente ai prodotti classiﬁcati in classe A.

114

3 Sistemi organizzativi di Demand Planning

Fra i punti di debolezza di questo approccio, si citano: • la complessit`a organizzativa e l’onere temporale: i meeting devono essere opportunamente schedulati e diretti dai demand planner; • la valutazione della qualit` a intrinseca delle opinioni della forza di vendita, spesso basata su intuizioni non supportate da adeguate motivazioni, piuttosto che da rilevazioni oggettive. 3.4.5 Coinvolgimento dei partner di ﬁliera L’approccio del coinvolgimento della forza di vendita pu` o essere esteso ai partner della ﬁliera logistico-produttiva, ai quali viene richiesto di condividere, almeno parzialmente, piani di domanda e di sviluppo del proprio business, ponendo le basi per relazioni cooperative di lungo periodo, basate su logiche di collaborative forecasting (CPFR) e vendor managed inventory (VMI ). Piani di domanda possono essere formulati congiuntamente dai partner della Supply Chain Network, compartecipando in modo veritiero e condiviso informazioni su: • • • •

piani di domanda stimati dai retailer gestori dei punti vendita; piani di sviluppo e ampliamento del business presso alcuni canali commerciali; piani di marketing dei distributori sui prodotti disponibili nei punti vendita; piani di marketing dei produttori, relativi a sconti sulle quantit` a acquistate dai distributori in determinati intervalli temporali; • piani di ampliamento delle capacit` a di produzione e distribuzione; • accordi di lungo periodo con i fornitori di servizi logistici e di materie prime (supplier relationship management). 3.4.6 Ricerche di mercato Mediante il metodo delle ricerche di mercato, un campione di clienti rappresentativi viene intervistato per conoscerne l’opinione circa i gusti, le preferenze, le tendenze e le possibili evoluzioni di mercato, i punti di forza e di debolezza del servizio al cliente attualmente erogato dal sistema logistico-distributivo. I questionari vengono distribuiti attraverso sistemi di mailing list, tramite accesso a portali web, oppure erogati mediante interviste frontali dirette. La tipologia di domande poste agli intervistati `e diﬀerente, a seconda che si tratti di clienti industriali o singoli consumatori: ai primi viene richiesto di esplicitare un potenziale piano di sviluppo industriale di lungo periodo, per valutare la possibilit` a di stipulare accordi commerciali e/o tecnologici di lungo periodo; ai secondi viene richiesto di esprimere opinioni circa le preferenze di acquisto per i prodotti dell’azienda e dei competitor. Il sondaggio eseguito su un campione di clienti viene generalizzato mediante i metodi della statistica inferenziale, che individuano comportamenti di acquisto generali e diﬀusi estrapolando i risultati ottenuti. Il vantaggio di questo approccio risiede nella possibilit` a di eseguire un check-up completo del servizio al cliente oﬀerto dall’azienda al mercato, a valle del quale `e

3.5 Collaborative Demand Planning

115

possibile attuare azioni correttive di sostenimento ed incentivazione dei consumi da parte dei clienti. I punti critici di attenzione riguardano invece: • la scelta della numerosit`a del campione intervistato; • la valutazione della signiﬁcativit` a statistica nell’analisi delle risposte ottenute; • la limitata volont` a dei clienti di anticipare decisioni strategiche o tattiche circa futuri piani di acquisto.

3.5 Collaborative Demand Planning 3.5.1 Gestione tradizionale della domanda In questa sezione del capitolo vengono descritte alcune metodologie gestionali di collaborazione logistico-produttiva fra i partner della ﬁliera, identiﬁcati come aziende di fornitura, produzione, subfornitura, distribuzione e vendita al dettaglio. I modelli di Collaborative Demand Planning vengono applicati fra gruppi di aziende della Supply Chain consorziate secondo accordi commerciali, logistici e produttivi di medio e lungo termine, al ﬁne di incrementare l’eﬃcienza operativa delle attivit` a di rifornimento dei punti vendita lungo la catena di fornitura, ottenendo beneﬁci per i diversi partner collaboranti, deﬁnibili come: • per i dettaglianti : incremento di livello di servizio al cliente ﬁnale, riduzione dei prodotti invenduti presso i punti vendita, riduzione degli stockout a causa di mancanza di rifornimento da parte dei distributori retail, maggior disponibilit` a di assortimento e variet` a di prodotti esposti presso i punti vendita; • per i distributori : riduzione del livello di giacenza di prodotti ﬁniti presso i depositi intermedi centrali o periferici, ottimizzazione del carico dei mezzi di trasporto per spedire i prodotti ﬁniti ai punti vendita ed ai clienti industriali richiedenti (eﬃcienza nel riempimento dei veicoli, riduzione delle consegne parziali con mezzi di trasporto scarsamente saturi), eﬃciente sincronizzazione delle attivit` a di distribuzione alle richieste di riapprovvigionamento inoltrate dai punti vendita; • per i produttori ed i terzisti : riduzione del livello di giacenza di prodotti ﬁniti e componenti presso gli stabilimenti produttivi, ottimizzazione dei piani di produzione (migliore lottizzazione delle produzioni, gestione dei cicli tecnologici e riattrezzaggi degli impianti), eﬃciente sincronizzazione delle produzioni ai prelievi dal magazzino per spedire i prodotti verso i nodi della rete distributiva. Nel processo tradizionale di gestione della domanda commerciale, il soggetto rivenditore (dettagliante, gestore dei punti vendita) esegue stime periodiche della domanda dei clienti ﬁnali (Sell-Out) che si recano presso i punti di consegna dei prodotti, manifestando la loro domanda diretta di acquisto. I soggetti distributori eseguono previsioni circa le quantit` a ordinate dai rivenditori per riassortire gli scaffali dei punti vendita, valutando cio`e la domanda indiretta (Sell-In) formulata dai dettaglianti attraverso ordini di acquisto, nella catena elementare che si articola dai centri distributivi ai punti di consegna delle merci ai clienti. Anche i soggetti

116

3 Sistemi organizzativi di Demand Planning

produttori sperimentano la domanda indiretta dei distributori, nei confronti dei prodotti ﬁniti realizzati e stoccati presso gli impianti di produzione, a loro volta dislocati su diversi siti manifatturieri. Esistono tre approcci principali alla gestione collaborativa delle attivit` a di previsione, distribuzione, produzione e pianiﬁcazione delle scorte nella Supply Chain Network, note come Continous Replenishment, Vendor Managed Inventory (VMI ), Collaborative Planning, Forecasting and Replenihsment (CPFR), oggetto di analisi nei prossimi due paragraﬁ. Le metodologie collaborative di Demand Planning ed Inventory Planning si propongono di superare le limitazioni del modello tradizionale cliente-fornitore, secondo cui: 1. il cliente formula la previsione della domanda commerciale; 2. il cliente controlla i livelli di giacenza ed emette, quando necessario, ordini di replenishment verso i livelli logistico-produttivi a monte nella ﬁliera, speciﬁcando la dimensione del lotto di consegna e la modalit` a spazio-temporale di ritiro della merce; 3. il fornitore formula la previsione degli ordini di riassortimento che verranno presumibilmente inoltrati dal cliente; 4. il fornitore evade regolarmente gli ordini del cliente, approntando i carichi da spedire presso il sito del cliente, prelevando i prodotti ﬁniti dai magazzini di stoccaggio. Le logiche di determinazione della domanda indiretta formulata dai rivenditori ed inoltrata verso i distributori e, quindi, dai distributori verso i produttori, modiﬁcano l’entit` a eﬀettiva della domanda di Sell-Out inizialmente generata in modo indipendente dai clienti ﬁnali. La domanda percepita dai livelli a monte nella Supply Chain non corrisponde alla domanda diretta di Sell-Out: esistono infatti alcuni eﬀetti di distorsione che portano alla trasformazione della domanda diretta in domanda indiretta, mediata dai nodi logistici della Supply Chain Network: • grado di incertezza delle previsioni formulate dai rivenditori nel calcolo della domanda di Sell-Out; • politiche di riordino (lottizzazione dei fabbisogni) dei nodi distributivi della catena logistico-distributiva; • politiche di acquisto basate su campagne promozionali, operate dai dettaglianti verso i clienti, dai distributori verso i rivenditori, dai produttori ai distributori. Il sales forecast formulato dai rivenditori `e aﬀetto da incertezza statistica nell’errore di stima della domanda commerciale: il mantenimento di un livello di scorta di sicurezza dei prodotti pi` u venduti rappresenta un meccanismo tipico per cautelarsi dalla variabilit` a della domanda dei consumatori ﬁnali. La modalit` a di controllo delle giacenze di magazzino (presso i depositi distributivi e presso i punti vendita) inﬂuenza altres`ı la frequenza e l’entit` a degli ordini di replenishment inoltrati verso gli stadi a monte nella Supply Chain: sostanzialmente diﬀerenti sono, ad esempio, le logiche di riordino ad intervallo ﬁsso (e quantit` a variabile di acquisto) ed a quantit` a ﬁssa (lotto economico costante, riordinato

3.5 Collaborative Demand Planning

117

ogniqualvolta il livello di giacenza scende sotto una soglia di allarme, quindi con cadenza temporale irregolare). L’entit` a degli ordini emessi dai distributori ai produttori `e spesso funzione delle politiche di prezzo praticate da questi ultimi verso le aziende negli stadi a valle della Supply Chain. La riduzione del prezzo dei prodotti induce i distributori ad accaparrare quantit` a maggiori di prodotto rispetto alle richieste dei dettaglianti, detenendo giacenza non giustiﬁcata da reali fabbisogni, ma a ﬁni speculativi. Esempio Il gestore di un punto vendita stima la domanda di un prodotto ﬁnito p pari a 100 unit` a in un futuro periodo t.3 L’errore di previsione mediamente commesso dal rivenditore `e pari al 10%, calcolato sulla base di rilevazioni storiche degli scostamenti fra sales forecast ed actual sales. Tale valore di variabilit` a nell’accuratezza previsionale di stima della domanda diretta, peraltro di discreto livello nei settori retail di tipo consumer goods, comporta la deﬁnizione di un ordine di replenishment pari a 110 unit` a, di cui: • 100 rappresentano la migliore stima della domanda commerciale; • 10 costituiscono la scorta di sicurezza richiesta dal rivenditore, al ﬁne di cautelarsi nei confronti della propria imprecisione di stima delle vendite al dettaglio. A sua volta, il distributore di prodotti ﬁniti formula, in modo indipendente e non collaborativo, la stima della domanda per la medesima coppia prodotto-periodo, valutando la domanda indiretta, espressa dall’ordine del dettagliante nella misura di 110 unit` a, con un errore di stima pari, anch’esso, al 10%. La stima del distributore porta quindi alla deﬁnizione di un ordine di acquisto al produttore pari a 121 = 110 + 0,1 · 110 unit` a di prodotto ﬁnito. Il produttore si cautela, rispetto alla variabilit` a della domanda emessa dal distributore, producendo il 10% in pi` u di prodotti ﬁniti, stimando quindi una domanda complessiva di circa 133 = 121 + 0,1·121 unit` a. Per semplicit` a, in questo esempio si suppone che il produttore abbia suﬃciente disponibilit` a on hand di componenti e materiali in input per la produzione di 133 unit` a di prodotto ﬁnito. In conclusione, a fronte di una domanda di mercato pari a 100 unit` a di prodotto ﬁnito, il sistema logistico-produttivo `e costretto a: • produrre e stoccare 33 unit` a aggiuntive presso il sito del produttore; • stoccare 21 unit` a aggiuntive presso i siti della catena di distribuzione; • stoccare 10 unit` a aggiuntive presso il punto vendita; avendo ipotizzato, nell’esempio numerico, assenza di lead time di riordino, assenza di politiche di reintegro basate sulla lottizzazione dei fabbisogni o su acquisti speculativi, assenza di livelli manifatturieri di composizione e packaging del prodotto ﬁnito (livelli della distinta base di produzione o di spedizione). La quantit` a di prodotto ﬁnito “aggiuntiva”, realizzata a causa di informazioni incerte nei processi non collaborativi di stima della domanda nella ﬁliera, `e pari a 3

Esempio riadattato da [20] Mentzer-Moon.

118

3 Sistemi organizzativi di Demand Planning

21 + 33 = 54 unit` a, consistente nel 54% della domanda liberamente formulata dai clienti ﬁnali (pari a 100 unit` a). Se si considera inevitabile e ﬁsiologico un errore di stima della domanda del 10% da parte del retailer, l’eccesso di giacenza (overstock) presente nella ﬁliera a tre stadi `e stimabile eseguendo il rapporto fra: • la somma degli eccessi di domanda in ogni nodo: 10−10 = 0 per il dettagliante, 21 − 10 = 11 per il distributore, 33 − 10 = 23 per il produttore; • la somma della giacenza totale da tenere presso ciascuno dei tre nodi: 110 + 110 + 110 = 330; pari alla percentuale: 34/330 = 10,3%. Se le aziende operanti negli stadi a monte della ﬁliera logistico-produttiva condividessero i piani di domanda con l’azienda localizzata all’ultimo stado della ﬁliera (i gestori dei punti vendita), che costituisce l’unico punto di stima della domanda di Sell-Out, ciascun soggetto della Supply Chain potrebbe tenere a stock, produrre e distribuire 110+unit` a di prodotto ﬁnito (100 unit` a deﬁnite dal Sales Forecast, 10 unit` a dovute all’incertezza nella stima della domanda dei consumatori formulata dal dettagliante, cio`e dal soggetto che ha la massima visibilit` a e conoscenza del comportamento dei clienti ﬁnali). In tal caso, l’ineﬃcienza del processo di Sales Forecasting comporterebbe la presenza di 10 unit` a di giacenza aggiuntiva presso i magazzini del dettagliante, del distributore e del produttore, rappresentante il 30% della domanda espressa dal cliente. L’eﬀetto di visibilit` a ottimale sulla domanda dei clienti ﬁnali si ottiene mediante condivisione dei piani di domanda, diﬀusi dal soggetto dettagliante (in generale, dall’ultimo stadio della catena di fornitura) verso i partner di ﬁliera situati a monte, nei nodi di distribuzione e produzione. In tal caso, ciascun soggetto misura la medesima domanda commerciale di Sell-Out, senza sperimentare le distorsioni ampliﬁcate delle quantit` a da produrre e consegnare, dovute a formulazioni indipendenti del Sales Forecast da parte dei singoli attori non cooperanti: la piena visibilit` a della domanda dei canali logistici comporta evidenti beneﬁci di riduzione delle giacenze nei diversi nodi della rete, nonch´e la predisposizione di piani di produzione, prelievo e consegna pi` u accurati. L’ampliﬁcazione delle ﬂuttuazioni di domanda che si riscontra nei livelli a monte nella Supply Chain, • dovuta alla formulazione di previsioni di vendita poco accurate e soggette a politiche gestionali di riordino speciﬁche dei singoli nodi, • accentuate dall’esplosione dei fabbisogni di prodotti ﬁniti in fabbisogni di materie prime e componenti, `e nota come eﬀetto bullwip: l’entit` a delle giacenze aumenta quanto pi` u ci si allontana dal nodo ﬁnale della catena di fornitura. Come si pu`o osservare dall’esempio numerico precedentemente esposto, il soggetto retailer, pi` u vicino al cliente ﬁnale, consegue il vantaggio percentuale minore nell’implementare logiche collaborative di Collaborative Demand Planning, rispetto ai soggetti distributore e produttore, i quali beneﬁcerebbero della piena visibilit` a

3.5 Collaborative Demand Planning

119

della domanda di Sell-Out in seguito alla predisposizione di accordi commerciali e logistici di tipo CPFR o VMI. Oltre a rivelare ai partner le previsioni riservate sulla domanda diretta, il soggetto retailer sarebbe costretto ad esplicitare le proprie politiche di riordino dei prodotti ﬁniti, da negoziare con i soggetti a monte nella Supply Chain Network. Risulta quindi evidente che il sistema di collaborazione interaziendale basato su progetti CPFR o VMI deve prevedere adeguati meccanismi di incentivazione per i soggetti retailer, in termini di riduzione dei costi di stoccaggio dei prodotti e dei costi di stockout.

3.5.2 Vendor Managed Inventory Nella metodologia gestionale nota come Vendor Managed Inventory (VMI ), il soggetto a monte nella catena di fornitura gestisce il ricompletamento delle scorte del soggetto immediatamente a valle: • il produttore riassortisce le giacenze dei distributori di primo livello (depositi centrali o regionali); • il distributore di primo livello gestisce lo stock dei successivi nodi logisticodistributivi; • il distributore periferico rifornisce con periodiche consegne i punti vendita di zona, direttamente controllati nel network dei clienti locali. Il soggetto “fornitore” `e costantemente aggiornato sui dati relativi a: • il piano previsionale di domanda del soggetto “cliente” (ad esempio, il piano delle vendite retail presso i punti vendita); • il livello delle giacenze di prodotti ﬁniti presso i magazzini interni del cliente; • l’andamento dei consumi di materiali prelevati dai magazzini del cliente, per la vendita ai consumatori ﬁnali. La metodologia VMI prevede le seguenti fasi operative, iterate ciclicamente con frequenza variabile: • il cliente fornisce periodicamente i dati di giacenza a ﬁne periodo (giorno, settimana) al fornitore; • il cliente rende noti i dati di consumo dello stock presso i punti vendita, secondo la medesima granularit` a temporale; • il fornitore elabora il piano di consegne al cliente, spedendo quantit` a di prodotto verso le location distributive, per ricompletare il livello di giacenze, onde soddisfare la domanda previsionale stimata per i periodi successivi. Il riassortimento dei punti vendita del cliente `e quindi sotto completo controllo e responsabilit` a del soggetto “fornitore”, il quale assicura l’assenza di stockout presso i punti ﬁnali di vendita, entro ragionevoli limiti contrattualmente concordati in fase di deﬁnizione dei parametri di funzionamento della collaborazione VMI.

120

3 Sistemi organizzativi di Demand Planning

Il vantaggio dell’approccio gestionale VMI `e duplice: • il cliente risparmia il costo di emissione degli ordini di reintregro dello stock; al cliente `e garantito un assegnato livello di servizio ai consumatori ﬁnali da parte del fornitore, il quale `e soggetto a penali contrattuali, in caso di ineﬃciente riassortimento e mancanza di prodotti ﬁniti a scaﬀale; inﬁne, il cliente mantiene livelli ridotti di giacenza, risparmiando sui costi opportunit` a di mantenimento di capitale immobilizzato in magazzino; • il fornitore pianiﬁca e controlla in modo pi` u eﬃciente ed integrato le consegne al cliente, predisponendo internamente carichi di trasporto ottimizzati, secondo la frequenza necessaria a garantire lo stock replenishment del cliente. L’eﬃciente caricamento dei vettori di trasporto pi` u che compensa, dal punto di vista del fornitore, il costo derivante dall’incremento nella frequenza delle consegne di quantitativi di modesta entit` a per i prodotti ﬁniti della gamma commerciale. L’approccio VMI garantisce a tutti i fornitori partner dei propri clienti la visibilit` a piena della domanda di Sell-Out, basata sulla migliore stima statistica operata dal gestore del punto vendita. Le decisioni sui livelli di scorta obiettivo di periodo, da garantire presso i magazzini del cliente, e sulla frequenza di riordino sui punti vendita sono prese: • dal cliente stesso (metodologia Continous Replenishment ); • dal fornitore (metodologia Vendor Managed Inventory). Nel primo caso, la scelta dell’entit`a del safety stock per i prodotti ﬁniti vincola maggiormente i piani di produzione, stoccaggio e riassortimento emessi dal soggetto fornitore; nel secondo caso, il fornitore `e libero di deﬁnire le quantit` a da spedire di volta in volta al cliente, rispondendo contrattualmente del proprio operato sulla base di misure periodiche di KPI di customer service. La metodologia Continous Replenishment prevede inoltre che il piano di replensihment proposto dal fornitore venga preventivamente approvato dal cliente prima dell’eﬀettiva implementazione, in accordo con il criterio di controllo diretto dei livelli di stock esercitato dal cliente. Modalit` a evolute di VMI prevedono che il fornitore venga pagato per l’avvenuto rifornimento di prodotti ﬁniti al cliente solamente nel caso in cui tali prodotti siano stati eﬀettivamente venduti ai consumatori presso i punti vendita: i prodotti stoccati presso i depositi del cliente retail sono di propriet` a del fornitore, ﬁno al momento dell’eﬀettivo acquisto consumer. Tale politica gestionale, deﬁnita consignment stock, riduce l’onere di mantenere in giacenza prodotti invenduti presso i punti vendita, spostando i costi di mantenimento a scorta verso il fornitore dei beni. 3.5.3 Collaborative Planning, Forecasting, Replenishment La metodologia gestionale nota come Collaborative Planning, Forecasting, Replenihsment (CPFR) rappresenta una forma evoluta di collaborazione fra aziende operanti nella Supply Chain Network. I fondamenti di tale approccio al Demand

3.5 Collaborative Demand Planning

121

& Inventory Planning sono stati proposti dal consorzio internazionale Voluntary Interindustry Commerce Standards Association (VICS ). La metodologia collaborativa CPFR `e strutturata in tre parti principali: pianiﬁcazione strategica e tattica, previsione della domanda, rifornimento dei prodotti. Planning. Le aziende della Supply Chain cooperanti nell’implementazione della metodologia CPFR deﬁniscono congiuntamente i piani strategici collaborativi, relativi a: • strategie di vendita dei prodotti lungo i canali commerciali della distribuzione; • modalit` a di sincronizzazione delle transazioni commerciali: politiche pull di reintegro delle giacenze, modalit` a push/pull di produzione dei componenti facenti parte dei prodotti ﬁniti; • fabbisogno di risorse logistico-produttive necessarie per far fronte ai piani operativi di domanda di Sell-Out. In questa fase si prendono inoltre accordi commerciali circa l’attribuzione dei margini economici operativi derivanti dalle transazioni di vendita al cliente ﬁnale. Forecasting. Le previsioni della domanda diretta, normalmente elaborate dal nodo logistico pi` u a valle nella Supply Chain, sono diﬀuse fra i partner di ﬁliera, al ﬁne di condividere opportunit` a e rischi relativi agli impegni di soddisfacimento della domanda dei clienti ﬁnali (piani di produzione, piani di distribuzione, piani di riassortimento). Le quantit` a previsionali sono negoziate fra i soggetti produttori, distributori e rivenditori al dettaglio, secondo meccanismi di Consensus Based Forecasting e regole formali di gestione delle eccezioni. Output di questa macrofase `e la deﬁnizione dei piani di Sell-Out presso i punti vendita, in conseguenza dei quali le singole aziende consorziate emettono piani interni di distribuzione, prelievo di materiali, produzione, approvvigionamento di componenti. Replenishment. I piani di riordino emessi dai soggetti “clienti” verso i soggetti “fornitori” vengono periodicamente discussi fra i partner, giustiﬁcando le proposte operate dai fornitori e dai clienti, tenendo conto dei consumi di prodotto e delle previsioni di vendita. L’emissione del piano degli ordini di acquisto rappresenta l’output di questa macrofase del processo CPFR, unitamente alla proiezione di giacenza per i diversi prodotti ﬁniti lungo i nodi della rete. La procedura formale CPFR si articola in nove fasi operative sequenziali: 1. deﬁnizione dei capisaldi contrattuali della collaborazione: deﬁnizione delle modalit` a gestionali di sincronizzazione dei rifornimenti, deﬁnizione delle modalit` a tecnologiche di trasmissione dei dati di domanda, consumo e giacenza, deﬁnizione delle regole formali di controllo dei piani di domanda e di replenishment, deﬁnizione delle modalit` a di gestione delle eccezioni e dei contenziosi, analisi della struttura logistico-produttiva e logistico-distributiva della Supply Chain Network; 2. redazione dei business plan: deﬁnizione dei piani strategici e tattici di domanda, analisi dei rischi, valutazione di scenari alternativi, deﬁnizione dei target

122

3.

4. 5.

6.

7. 8.

9.

3 Sistemi organizzativi di Demand Planning

di vendita e degli obiettivi di proﬁttabilit` a per ciascun partner operante nel progetto CPFR; deﬁnizione collaborativa delle previsioni della domanda diretta, da utilizzare in seguito come base per la formulazione dei piani interni alle singole aziende partner, integrando tali stime con gli ordini cliente in portafoglio; identiﬁcazione delle eccezioni riscontrate nella stesura delle versioni intermedie dei sales forecast; negoziazione e risoluzione dei conﬂitti emersi fra le controparti, basandosi su regole collaborative formali (un esempio in tal senso `e riportato nel paragrafo 12.8.2) applicate durante i periodici meeting di coordinamento; una volta deﬁnito univocamente il piano previsionale di domanda, da esso si genera il piano degli ordini di reintegro della giacenza, periodicamente emessi dai soggetti “clienti” ai soggetti “fornitori” ai vari livelli della ﬁliera; identiﬁcazione delle eccezioni riscontrate nella stesura delle versioni intermedie del replenishment plan; negoziazione e risoluzione dei conﬂitti emersi fra le controparti nella stesura dei piani che indicano quali quantit` a riapprovvigionare, quando e con quali modalit` a di consegna; approvazione ﬁnale del piano di riordino, per tutti i nodi della Supply Chain Network, e generazione periodica/operativa degli ordini di acquisto.

La negoziazione sui valori relativi ai piani di domanda si articola comparando: • i piani non vincolati di domanda, derivanti dai processi di Demand Intelligence e Sales Forecasting operati dai soggetti pi` u a valle nella catena logistica; • con i vincoli sulle risorse di produzione e di trasporto propri delle aziende situate ai livelli pi` u a monte nella Supply Chain. Un controllo tipico operato a posteriori sulla prima versione di Sales Forecast elaborata dai dettaglianti retail riguarda la presenza di valori outlier di quantit` a previsionali, collocate al di fuori di una banda di conﬁdenza preventivamente concordata fra i partner, nelle fasi 1 e 2 della metodologia CPFR; ad esempio, le aziende produttive e distributive non soddisfano picchi di domanda di periodo superiori ad una soglia assoluta o relativa, calcolata sulla media dei valori di domanda storica. Le esigenze puntuali di domanda dei dettaglianti/distributori vengono esaminate livellando i diversi quantitativi nel tempo, tenendo conto dei vincoli di capacit` a produttiva e distributiva massima di periodo dei diversi soggetti: alcune quantit` a sono anticipate mediante preproduzioni, altre sono delegate a subfornitori; per altri casi di infattibilit` a si cerca di posticipare la domanda, ad esempio predisponendo promozioni di vendita su taluni articoli. Le regole di collaborazione nell’approccio CPFR consistono nella deﬁnizione operativa, per ciascun segmento prodotto-mercato e lungo i periodi dell’orizzonte di programmazione, dei seguenti parametri:

3.5 Collaborative Demand Planning

123

• livelli minimo e massimo di domanda previsionale per singolo periodo; • livello di scorta obiettivo a ﬁne periodo, presso i depositi localizzati lungo i nodi della rete; • modalit` a gestionale di reintegro delle giacenze (quantit` a ﬁsse o variabili, intervalli temporali di riordino ﬁssi o variabili) e relativi parametri gestionali di controllo; • livello di servizio al cliente (probabilit` a massima di stockout); • valori target dei KPI di customer service e di sales analysis (obiettivi di redditivit` a per i singoli partner); • quantit` a massime richiedibili per singolo periodo o gruppo di periodi; • percentuali minime/massime di mix nell’assortimento dei prodotti durante le consegne; • sistemi di alerting per la determinazione automatica delle eccezioni; • regole automatiche di correzione delle eccezioni; • criteri di penalit` a, qualora un partner di ﬁliera non rispetti i valori consentiti per un certo KPI quantitativo (ad esempio, il rispetto della scorta di sicurezza di periodo) per un numero consecutivo di bucket.

4 Sistemi informativi di Demand Planning

Tecnologie informatiche per il Demand Planning – Enterprise Resource Planning – Advanced Planning & Scheduling – Data Warehousing – Workﬂow Management – Integrazione dei sistemi ERP, APS, Data Warehousing – Modelli di dati per il Demand Planning

4.1 Tecnologie informatiche per il Demand Planning Le tre tipologie base di attivit` a di Demand Planning (operative, gestionali ed analitiche) sono abilitate dall’utilizzo dei moderni strumenti di Information & Communication Technology (ICT ), aventi ﬁnalit` a di: • automazione delle attivit`a ripetitive e standard tipiche dei cicli esecutivi SCE ; • archiviazione ed organizzazione strutturata dei dati target e consuntivi rilevati nel corso dei processi SCP e SCE ; • supporto decisionale nei processi di pianiﬁcazione strategica, tattica, operativa. Esistono alcune tipologie di sistemi informativi per il supporto elaborativo alle attivit` a di Demand Planning: • • • •

sistemi sistemi sistemi sistemi

Enterprise Resource Planning (ERP); Advanced Planning & Scheduling (APS ); per il Data Warehousing (DW ); Workﬂow Management (WFMS ).

Questi sistemi ICT consentono agli utenti funzionali di svolgere in maniera controllata le elaborazioni quantitative delle attivit` a a contenuto decisionale (strategico, tattico e operativo) ed esecutivo. Si tratta di applicativi informatici di tipo gestionale/analitico, orientati al: • supporto operativo per gli utenti di Supply Chain Execution (Transaction Processing Systems); • supporto decisionale/analitico per gli utenti nel corso delle indagini di Supply Chain Analytics (Management Information Systems); • supporto decisionale/pianiﬁcativo per gli utenti che si occupano della formulazione dei piani di domanda e di S&OP (Decision Support Systems); • supporto interattivo per tutte le tipologie di utenti caratterizzati nei tre punti precedenti, le cui attivit` a e decisioni sono interrelate attraverso rapporti Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

126

4 Sistemi informativi di Demand Planning

di input/output, guidate da workﬂow orizzontali e verticali deﬁniti mediante relazioni di precedenza e sincronizzazione fra le attivit` a. La ﬁgura 4.1 evidenzia i legami fra i sistemi informativi gestionali elencati, le tipologie di processi ed attivit` a di Demand Planning, la gerarchia delle decisioni di Supply Chain Management. Nei paragraﬁ seguenti le tecnologie informative ERP, APS, DW, WFM vengono dettagliatamente descritte, studiandone le speciﬁche funzionalit` a in relazione ai processi di Demand Planning.

Figura 4.1. Tecnologie informatiche per il Demand Planning

4.2 Enterprise Resource Planning 4.2.1 Moduli applicativi ERP Si deﬁnisce sistema Enterprise Resource Planning (ERP) una suite di moduli software applicativi multitematici per il supporto all’elaborazione delle transazioni operative che caratterizzano i cicli aziendali della gestione ordinaria; l’obiettivo di tali sistemi consiste nella massimizzazione dell’eﬃcienza operativa nello svolgimento delle attivit` a transaction oriented, a diﬀerenza dei sistemi di supporto decisionale, rivolti all’incremento di eﬃcacia decisionale conseguente alle attivit`a analytics oriented di ricerca multidimensionale nei dati. Le attivit` a di routine proprie dei cicli attivo e passivo prevedono la produzione di un numero molto elevato di transazioni nell’unit` a di tempo, rivolte alle funzioni interne, ai clienti, ai fornitori, ai terzisti ed ai partner della ﬁliera. I packages commerciali ERP sono applicazioni gestionali che abilitano e controllano l’esecuzione di tali attivit` a di gestione di business svolte dagli utenti operativi. Inizialmente concepiti come sistemi MRP II per la copertura dei processi ordinari di Supply Chain Management nelle aziende manifatturiere, le aree gestionali presidiate dai moduli componenti i moderni sistemi ERP comprendono oggi l’intero spettro della

4.2 Enterprise Resource Planning

127

gestione di impresa, nei diversi orizzonti temporali caratteristici di ciascuna area metodologica. Mentre la concezione iniziale dei sistemi ERP si `e focalizzata sui processi di pianiﬁcazione e controllo delle risorse di produzione, acquisto e distribuzione (MRP II, nel senso di Manufacturing Resource Planning), a partire dagli anni ‘90 sono stati introdotti anche moduli generali per la gestione dei processi non strettamente attinenti al Supply Chain Management, quali ad esempio: 1. processi ﬁnanziari e amministrativi; 2. processi collaborativi basati su tecnologie Internet / Web. I moduli di un sistema gestionale ERP sono classiﬁcabili come segue. Moduli generali per la gestione d’impresa Amministrazione, contabilit` a e ﬁnanza; gestione delle risorse umane; gestione degli asset tecnologici (ad esempio, le risorse e le tecnologie impiantistiche della ﬁliera logistico-produttiva) ed informatici; pianiﬁcazione dei progetti (Project Management). Moduli di Supply Chain Management Gestione dei materiali (inbound logistics, outbound logistics); gestione delle capacit` a produttive; gestione delle attivit` a operative di Supply Chain Management (ciclo attivo, ciclo passivo); gestione degli inventari e dei magazzini; gestione e classiﬁcazione dei fornitori, e-Procurement. Moduli di Marketing & Vendite Customer Relationship Management; ciclo di vita dei prodotti (Product Lifecycle Management). Moduli collaborativi Web based Partners Relationship Management; e-Commerce, e-Business; e-Marketplace. I sistemi ERP supportano l’esecuzione di una notevole quantit` a di transazioni elementari nell’unit` a di tempo, svolte da numerosi utenti funzionali, attraverso la registrazione di eventi operativi, quali contratti con i fornitori, ordini cliente e fatture, movimentazioni di magazzino, movimentazioni dei lotti di produzione. Dal punto di vista della specializzazione per processi settoriali di business, i moduli applicativi dei sistemi ERP si suddividono in due classi logiche: 1. moduli orizzontali (cross-industry): per ciascuna area funzionale, implementano regole di business generali, ﬂessibili e conﬁgurabili, non speciﬁche di un singolo contesto applicativo1; 1

Si pensi, ad esempio, all’esplosione MRP delle distinte base di prodotto (BOM ), tenendo conto di parametri numerici in input quali i coeﬃcienti di impiego dei componenti e delle materie prime nei semilavorati e nei prodotti ﬁniti, i coeﬃcienti di scarto, i lead time di produzione, le quantit` a prenotate, le giacenze iniziali. Il calcolo standard MRP dei fabbisogni di materiali, presente nel modulo ERP di gestione dei materiali,

128

4 Sistemi informativi di Demand Planning

2. moduli verticali (vertical solutions): per ciascuna area funzionale, i moduli coprono processi e workﬂow specializzati su uno speciﬁco settore verticale di business, con regole ed elaborazioni numeriche ad hoc 2 . L’architettura modulare e facilmente scalabile dei componenti applicativi di una suite ERP permette alle imprese di informatizzare progressivamente le diverse aree funzionali, coperte mediante processi standard e best practices consolidate. 4.2.2 Architettura informatica dei sistemi ERP La sincronizzazione e l’attualit` a dei dati transazionali trattati dai moduli ERP sono garantite dai meccanismi interni di aggiornamento real time che ricevono gli ordini cliente, gli arrivi di materiali, lo stato degli impianti ed i livelli di giacenze praticamente in tempo reale dai sistemi elettronici di monitoraggio “sul campo” (sistemi RTCS di fabbrica, sistemi EDI presso i punti vendita). L’accessibilit` a ai dati operativi `e veloce, molto eﬃciente nella ricerca delle informazioni transazionali richieste dagli utenti, fornite sotto forma di report standard. Le informazioni contenute nei database operazionali di un sistema ERP sono disponibili al massimo livello di dettaglio, non strutturate in modo multidimensionale, n´e consolidate lungo le dimensioni gerarchiche prodotto-mercato-tempo, non storicizzate nel tempo, quindi inadatte alle analisi strategiche sulle performance aziendali. Di conseguenza, i sistemi ERP rappresentano soluzioni informatiche adatte ad abilitare eﬃcacemente lo svolgimento delle sole attivit`a operative, non quello delle attivit` a gestionali di pianiﬁcazione S&OP n`e delle attivit` a analitiche per il supporto delle decisioni. L’architettura informatica dei sistemi ERP si basa sul modello tradizionale client/ server, composto dai seguenti elementi: 1. application server che eseguono elaborazioni di calcolo, precodiﬁcate da regole operative di business; 2. database server che contengono dati per le elaborazioni dei server applicativi; 3. application client di tipo funzionale, che richiedono servizi di calcolo ai server applicativi. La ﬁgura 4.2 mostra un esempio di sistema ERP formato da due moduli applicativi per la gestione degli ordini e dei materiali; cinque utenti si connettono con ruoli operativi diﬀerenti ai server di elaborazione dati, mediante la rete interna. I client applicativi, presidiati dagli utenti funzionali, si occupano della presentazione delle informazioni operazionali calcolate dai server, sotto forma di report e modelli graﬁci standard. Le postazioni client inviano le richieste di elaborazione agli application server monotematici, cio`e corrispondenti ad uno speciﬁco modulo

2

`e inoltre conﬁgurabile impostando speciﬁche politiche di riordino, dimensioni dei lotti di produzione o acquisto, politiche di gestione delle scorte di sicurezza. Esempi di settori verticali sono: Fast Moving Consumer Goods, Consumer Packaged Goods, Food & Beverage, Automotive, elettrodomestici “bianchi”, distribuzione retail.

4.3 Advanced Planning & Scheduling

129

Figura 4.2. Architettura client/server dei sistemi ERP

ERP, collegati a database locali distribuiti nell’Intranet aziendale. I server elaborano in tempo reale le richieste di ricerca e trasformazione dei dati provenienti dai client, mantenendo attiva la connessione client/server di comunicazione con gli utenti, attraverso la rete Intranet ed, eventualmente, le reti Extranet interaziendali, nel caso di comunicazione via Web con clienti e fornitori. I database server transazionali, basati sulla tecnologia relazionale, archiviano i dati associati alle operazioni di vendita e di acquisto quotidianamente registrate dagli utenti operativi attraverso gli applicativi ERP, mantenendo in archivio i dati storici relativi alle fatture, agli ordini, alle rilevazioni di magazzino per un arco temporale molto ridotto, in quanto ai sistemi ERP non `e richiesto l’accesso ai database per l’elaborazione di query di ricerca complesse sulle transazioni avvenute in passato. I package ERP sono anche detti sistemi On-Line Transactional Processing (OLTP), in quanto focalizzati univocamente sull’elaborazione di consistenti volumi di eventi ripetitivi, codiﬁcati e standardizzati nelle modalit` a automatiche di calcolo. Aspetti critici nella progettazione dei sistemi OLTP sono: • la gestione della concorrenza (multiutenza) nell’accesso sequenziale alle informazioni contenute nei database operazionali (parametro misurato dal tempo di risposta del sistema); • l’eﬃcienza di elaborazione e visualizzazione delle transazioni (parametro misurato mediante il throughput delle operazioni: numero di elaborazioni nell’unit` a di tempo).

4.3 Advanced Planning & Scheduling 4.3.1 Moduli applicativi APS I sistemi APS (Advanced Planning & Scheduling systems) rappresentano una famiglia di applicativi per il supporto alle decisioni di Supply Chain Network Design

130

4 Sistemi informativi di Demand Planning

e di Supply Chain Planning. Si tratta di moduli software integrati che implementano i processi decisionali di pianiﬁcazione delle attivit` a di Sales & Operations Planning, quindi anche quelli relativi al sistema di Demand Planning. A diﬀerenza dei sistemi operazionali ERP, i sistemi decisionali APS hanno il compito di automatizzare, abilitare e facilitare lo svolgimento dei processi decisionali e delle metodologie gestionali di programmazione della domanda, della produzione, della distribuzione e degli approvvigionamenti. Un applicativo commerciale APS copre funzionalmente la totalit` a delle aree decisionali di S&OP, ai livelli strategico, tattico ed operativo, consentendo la deﬁnizione dei piani strategici (SCS ), dei piani di conﬁgurazione delle reti logisticoproduttiva e logistico-distributiva (SCND), dei piani operativi (SCP) ed inﬁne, seppur in misura minore, la preparazione di report analitici di controllo delle prestazioni di eﬃcacia esterna e di eﬃcienza interna dei processi di Supply Chain Management. Esistono molteplici moduli “funzionali” all’interno di un sistema per il supporto alle decisioni di tipo APS, opportunamente conﬁgurabili dagli utenti delle funzioni aziendali, durante le fasi di acquisto del package informatico; in ﬁgura 4.3 `e riportato uno schema di tali moduli integrati, proposto da Stadtler e Kilger.

Figura 4.3. Moduli funzionali dei sistemi APS (Stadtler, Kilger – 2000)

Ciascun modulo supporta un insieme di processi di Supply Chain Conﬁguration & Operations Management e si caratterizza per la presenza dei seguenti elementi: • la tipologia funzionale (ad esempio: modulo di Demand Planning, modulo di Master Planning, moduli operativi di Operations Scheduling e Transport Planning, ecc.); • un insieme di modelli logico-matematici di rappresentazione dei processi; • un insieme di tecniche per la risoluzione ottimale o euristica dei piani di produzione e distribuzione formulati (tecniche di programmazione lineare, algoritmi deterministici e probabilistici);

4.3 Advanced Planning & Scheduling

131

• un insieme di tecniche ed algoritmi euristici per la formulazione dei piani di domanda (modelli di sales cleaning, forecasting ed analisi di serie storiche); • un insieme di metodologie di simulazione ed analisi di scenario (what if ), per valutare diﬀerenti alternative di conﬁgurazione delle reti logistico-produttive; • un insieme di interfacce graﬁche per la presentazione interattiva dei piani di domanda e di produzione/distribuzione, sotto forma di tabelle, graﬁci di proiezione delle giacenze di materiali, diagrammi di Gantt per il monitoraggio delle attivit` a operative di produzione e di distribuzione; • un insieme di report, standard o conﬁgurabili, per l’analisi delle prestazioni fornite dai sistemi di produzione e di distribuzione, a valle della implementazione delle decisioni di Supply Chain Planning; • un insieme di layers di integrazione informatica con gli altri applicativi informatici distribuiti nell’Intranet aziendale (sistemi per l’import /export dei dati dai database gestionali verso il sistema APS ). Con riferimento alle modalit` a di integrazione dei sistemi APS con i programmi ed i database presenti nella rete informatica, essi ricevono in ingresso dati da: • database relazionali associati ai sistemi ERP, in particolare ai moduli di gestione degli ordini cliente e delle giacenze di prodotto ﬁnito lungo i nodi di stoccaggio presenti nella ﬁliera; • sistemi legacy e mainframe di elaborazione massiva dei dati aziendali; • datawarehouse e datamart dipartimentali contenenti le serie storiche di domanda, storicizzate negli archivi dei database multidimensionali basati su tecnologie OLAP. I sistemi APS possono anche essere integrati con i moduli di Workﬂow Management eventualmente utilizzati per la sincronizzazione degli utenti partecipanti agli workﬂow verticali e orizzontali tipici dei processi di Demand Planning. 4.3.2 Moduli APS di Demand Planning I processi decisionali di Demand Planning sono supportati dai moduli Demand Planning, Master Planning e Demand Fulﬁlment & ATP/CTP, schematizzati in ﬁgura 4.3. In particolare, la deﬁnizione del piano previsionale di domanda (sales forecast) `e supportata dai modelli matematici e dalle librerie di algoritmi di sales forecasting; la preparazione dei piani di marketing viene attuata attraverso il reperimento di curve storiche di promozioni contenute in librerie locali presenti nel database relazionale di appoggio ai sistemi APS. Il modulo APS di Demand Planning alimenta: • il modulo Master Planning (preparazione del Master Production Schedule), fornendo il sales budget, a valle dei processi di integrazione di sales forecast e marketing plan; • i moduli Distribution Planning e Transport Planning, fornendo il demand plan esecutivo, a livelli opportuni di disaggregazione temporale (mese/settimana nel

132

4 Sistemi informativi di Demand Planning

primo caso, settimana/giorno nel secondo), al ﬁne di preparare le operazioni di spedizione e consegna dei prodotti ai clienti industriali o presso i punti vendita; • il modulo Strategic Network Planning, fornendo periodicamente i sales budget a livelli aggregati lungo le gerarchie di prodotto-mercato-tempo, nel corso dei processi SCS. I moduli di un sistema APS installato nell’Intranet aziendale possono integrarsi con altri sistemi APS presenti presso clienti, fornitori, partner della ﬁliera logisticoproduttiva; in questo caso, la condivisione avviene per scambio di piani di domanda e piani operativi, collegando via Internet il modulo Demand Planning del soggetto produttore (fornitore) con il modulo Purchasing Planning del soggetto cliente (produttore). Poich`e le basi di dati relazionali dei sistemi APS memorizzano solamente i dati storici strettamente necessari alla formulazione dei piani di domanda, produzione, distribuzione ed approvvigionamento lungo l’orizzonte di pianiﬁcazione di medio-breve termine, lo svolgimento di analisi delle performance erogate durante i processi esecutivi SCE pu` o essere eﬀettuata dagli analisti esclusivamente sull’ultimo insieme di piani generato in sede di programmazione, operando l’analisi degli scostamenti e valutando il raggiungimento degli obiettivi di vendita e di eﬃcienza nella gestione delle operations di produzione e distribuzione. Ulteriori indagini di confronto di piani storici e versioni di sales forecast relativi a periodi temporali del passato sono diﬃcilmente eseguibili da parte delle strutture di calcolo ed archiviazione locale nei sistemi APS, per due ragioni: • le prestazioni di caricamento dei dati in memoria per l’esecuzione dei calcoli sono limitate, fortemente decrescenti all’aumentare del volume di dati storici presenti nei database relazionali; • l’organizzazione delle dimensioni di analisi non `e solitamente strutturata secondo gli schemi gerarchici basati su cubi di dati multidimensionali; i dati nei sistemi APS sono disponibili solo ai livelli di massimo dettaglio, al pi` u aggregabili di un livello su ciascuno degli assi prodotto, mercato e tempo.

4.4 Data Warehousing 4.4.1 Deﬁnizione di Data Warehouse e Data Mart Si deﬁnisce Data Warehouse un sistema di basi di dati per la collezione e la conservazione dei dati, orientato al supporto dei processi decisionali di business. Un data warehouse contiene moli signiﬁcative di dati e transazioni aziendali, precedentemente generati durante i processi supportati dagli applicativi gestionali ERP (attivit` a standard della gestione operativa) e dai sistemi decisionali APS (attivit` a di formulazione dei piani S&OP). I dati operazionali ed i piani di domanda archiviati nei repository dei data warehouse sono disponibili per interrogazioni complesse ed analisi di Business Intelligence, da parte dei decisori aziendali che si occupano della valutazione delle performance aziendali.

4.4 Data Warehousing

133

Un datawarehouse pu` o essere quindi considerato da un lato un repository centralizzato di dati a livello corporate, dall’altro un insieme di strumenti informatici in grado di trasformare un insieme di dati eterogenei, di diversa provenienza, in un insieme d’informazioni coerenti, consolidate, ad elevato contenuto qualitativo, fruibili da diverse tipologie di utenti, organizzati per supportare il processo decisionale. Un datawarehouse costituisce una base informativa contenente dati quantitativi utilizzabili per implementare processi di tipo analitico e previsionale. I dati di business provenienti da fonti eterogenee (applicativi gestionali e sistemi decisionali) ed organizzati in strutture di database relazionali di limitate dimensioni, vengono caricati nel data warehouse aziendale o funzionale, previa esecuzione di attivit` a standard di pulizia, ﬁltraggio ed omogeneizzazione dei dati in ingresso (extraction, transformation, loading). I dati archiviati nei data warehouse vengono esaminati dagli analisti di business, che si avvalgono delle tecnologie di esplorazione dei dati multidimensionali proprie della tecnologia OLAP (On-Line Analytical Processing). I dati archiviati nel datawarehouse non rispecchiano l’operativit` a quotidiana degli utenti operativi dei processi di Supply Chain Execution, ma devono rappresentare fatti di rilievo ed interesse per coloro che sono chiamati a deﬁnire i piani aziendali di carattere strategico e tattico. I dati storici archiviati nel datawarehouse e relativi ai processi di Demand Planning appartengono alle seguenti tre tipologie: • piani di domanda (demand plan, sales forecast) progettati dai moduli Demand Planning dei sistemi APS, in corrispondenza dei cicli periodici di S&OP, depositati progressivamente nel data warehouse come versioni successive; • serie storiche di domanda, rilevate a posteriori attraverso i sistemi elettronici EDI /POS localizzati presso i punti ﬁnali di contatto con il cliente, solitamente archiviate nel datawarehouse al massimo livello di dettaglio; • altri dati di domanda, derivabili dalle precedenti due tipologie, calcolabili sulla base di operazioni matematiche, statistiche, di aggregazione e consolidamento3 . Il processo di progettazione logico-funzionale, costruzione, popolamento (iniziale ed incrementale) e manutenzione dei data warehouse prende il nome di data warehousing. Il data warehousing si compone di un insieme di tecniche di Information Technology per assemblare le transazioni di business provenienti da sorgenti di dati eterogenee, nella forma pi` u adatta alle attivit` a di esplorazione conoscitiva di Business Intelligence e Data Mining, rivolte all’estrazione di conoscenze signiﬁcative, non banali e ricorrenti, “nascoste” ma statisticamente individuabili all’interno di ingenti volumi di dati. Si deﬁnisce Data Mart un sistema di data warehouse di tipo funzionale o dipartimentale, contenente dati di business speciﬁci per le esigenze analitiche e decisionali di una singola funzione o di un singolo gruppo di lavoro multifunzionale, come nel 3

Ad esempio, il fatturato eﬀettivo pu` o essere calcolato a partire dai dati storici di vendita, moltiplicando i valori quantitativi di domanda per i prezzi di vendita dei prodotti ﬁniti, variabili nel tempo presso i diversi segmenti prodotto-mercato.

134

4 Sistemi informativi di Demand Planning

caso dei forecast group per le organizzazioni basate su rapporti interfunzionali nella preparazione dei piani di domanda. Possono quindi esistere data mart di marketing, di vendite, di produzione, di logistica distributiva, per l’amministrazione e la ﬁnanza, per il reporting direzionale strategico. I datamart contengono porzioni limitate dei dati di business presenti anche nei data warehouse centrali cross-funzionali; nei datamart sono presenti dati provenienti: 1. dal data warehouse centrale, quindi gi` a organizzati secondo le gerarchie di analisi multidimensionali dei cubi OLAP; 2. da fonti esterne di dati, non strutturate secondo le tecnologie dei cubi multidimensionali e provenienti dal dominio applicativo delle singole funzioni locali, quali ad esempio fogli elettronici, database relazionali, ﬁle di testo, ﬁle in vari formati di lettura.

4.4.2 Architettura dei Data Warehouse La ﬁgura 4.4 schematizza l’architettura logica dei data warehouse; in essa si distinguono le seguenti parti componenti: • i sistemi OLTP transazionali, centrati sulle applicazioni gestionali, per l’alimentazione periodica del data warehouse; • il data warehouse stesso ed i relativi data mart derivati; • i diﬀerenti utilizzi OLAP dei dati archiviati nel data warehouse centrale o nei data mart locali, in relazione alle applicazioni di Demand Planning.

Figura 4.4. Data Warehouse, Data Mart, fonti di dati ed applicazioni

4.4 Data Warehousing

135

La ﬁgura 4.5 specializza invece l’architettura logica dei data warehouse, in relazione agli input/output che in essi transitano nel corso dei processi di Demand Planning. Dal punto di vista concettuale, esistono quattro livelli logici da considerare nell’ambito della progettazione dei data warehouse. Sorgenti di dati. Insieme delle fonti esterne di dati (database relazionali, cubi di dati, fogli di calcolo, ﬁle di testo, dati provenienti da applicazioni web), da collezionare ed archiviare all’interno delle basi di dati multidimensionali. Trasformazione e trasferimento dei dati. Estrazione dei dati dalle sorgenti esterne, correzione dalle anomalie formali e dalle incongruenze di formato riscontrate, caricamento dei dati corretti nel data warehouse, ottenuti mediante metodi di tipo ETL (Extract, Trasform, Load). I sistemi ETL analizzano e puliscono dati scorretti in quanto inconsistenti, duplicati, ridondanti, organizzati localmente in formati diﬀerenti; il caricamento dei dati nel data warehouse pu` o avvenire in modalit` a batch (trasferimento massivo iniziale, a database OLAP vuoto) o in modalit` a incrementale periodica.

Figura 4.5. Input e output dei data warehouse, nei processi di Demand Planning

Organizzazione dei dati (data warehousing). Architettura interna e conﬁgurazione dei dati all’interno delle tabelle del data warehouse centrale e dei data mart locali, descritta dai metadati (i “dati sui dati”), ﬁnalizzata a supportare gli analisti nelle attivit` a di browsing sui dati. Applicazioni analitiche. Software applicativi che interrogano le basi multidimensionali, per fornire agli utenti i risultati delle query di ricerca, sotto forma graﬁca, di report tabellari, di viste aggregate di supporto alle analisi di Business Intelligence e Data Mining. La ﬁgura 4.6 illustra lo schema architetturale descritto, suddiviso nelle fasi sequenziali di reperimento e trasformazione dei dati, popolamento del data warehouse

136

4 Sistemi informativi di Demand Planning

e dei data mart locali, esplorazione ed interrogazione dei dati organizzati nelle strutture tabellari del data warehouse. La ﬁgura 4.6 evidenzia, nella parte relativa alla data analysis, le due principali ﬁnalit` a di utilizzo delle capacit` a di ricerca nei dati dei sistemi OLAP: 1. analisi dimensionale dei dati: ricerca di informazioni attraverso la deﬁnizione di interrogazioni di ricerca all’interno delle tabelle del data warehouse; 2. data mining: ricerca di conoscenze aggiuntive “nascoste” nei dati, di tipo non banale n´e intuitivo, non facilmente ottenibili mediante la progettazione a priori di query per la ricerca di informazioni standard. A seconda dei punti di vista presenti in letteratura, i modelli matematici e gli algoritmi di sales forecasting possono anche essere collocati all’interno dell’analisi delle serie storiche, intesa come tecnica quantitativa di data mining.

Figura 4.6. Architettura logica dei datawarehouse

La progettazione incrementale dei sistemi di data warehouse pu` o prevedere due modalit` a alternative: da un lato, `e possibile costruire inizialmente una costellazione di data mart dipartimentali non integrati, da integrare successivamente per formare il data warehouse centrale; dall’altro, i data mart locali vengono derivati dal data warehouse aziendale gi`a realizzato e funzionante, mediante processi di trasferimento e replicazione dei dati. I fattori critici di successo nella progettazione dei data warehouse riguardano: • la selezione delle fonti esterne di dati; • la preparazione dei dati provenienti da fonti esterne, da eseguire mediante operazioni di selezione, ﬁltraggio e normalizzazione, prima di archiviare tali infor-

4.4 Data Warehousing

137

mazioni in modo accurato, consistente e permanente all’interno delle strutture multidimensionali; • la modalit` a di organizzazione ed accesso ai dati storici archiviati, al ﬁne di ottenere buone prestazioni nei tempi di risposta alle interrogazioni analitiche formulate dagli analisti aziendali, durante le attivit` a di browsing sui cubi; • la gestione degli aggiornamenti e delle sincronizzazioni dei dati transazionali verso il data warehouse, nonch´e la preparazione di viste preaggregate di dati, per rispondere rapidamente alle query frequentemente formulate dagli analisti.

4.4.3 Caratteristiche dei Data Warehouse Come precedentemente ricordato, un data warehouse rappresenta una raccolta di dati per il supporto alle decisioni manageriali, realizzata separatamente dalle basi di dati dei sistemi di elaborazione operazionale dei dati transazionali, le quali sono costruite a supporto dei singoli processi operativi di vendita, produzione e distribuzione. I sistemi di data warehouse possiedono cinque caratteristiche fondamentali, che li distinguono dai sistemi transazionali OLTP: 1. 2. 3. 4. 5.

sono database orientati ad uno speciﬁco argomento di business; i dati in essi contenuti sono integrati da diverse fonti; i dati sono variabili secondo la dimensione tempo; i dati sono permanenti (“non volatili”); sono database separati ﬁsicamente e logicamente dai database transazionali.

Orientamento ai dati. Mentre le strutture dati dei sistemi transazionali sono organizzate a supporto dei singoli processi applicativi (orientamento funzionale), cio`e delle attivit` a dei cicli attivo e passivo per il Supply Chain Execution, nei data warehouse l’attenzione progettuale si sposta sui dati di business cross-funzionali, organizzati secondo • dimensioni e gerarchie di analisi; • entit` a elementari che popolano i livelli delle gerarchie; • misure di prestazione che rappresentano determinazioni quantitative delle entit` a elementari. Le entit` a di business, quali prodotti, clienti, periodi temporali, business unit, fornitori, stabilimenti produttivi, depositi logistici, stagioni di vendita, rappresentano naturali criteri di navigazione all’interno dei cubi di dati, secondo predeﬁnite condizioni di ricerca delle informazioni. L’organizzazione basata sulle entit` a, anzich´e sui processi di business, si presta pi` u eﬃcientemente a compiere interrogazioni complesse e percorsi di ricerca sui dati multidimensionali, preaggregati in viste precalcolate per accedere pi` u rapidamente ai risultati delle interrogazioni. Integrazione dei dati. I dati inseriti in un data warehouse provengono da diverse sorgenti informative, interne ed esterne, contenenti dati relativi alle attivit` a operative svolte nel corso dei cicli produttivi, logistici, commerciali ed amministrativi

138

4 Sistemi informativi di Demand Planning

di un’azienda. Fra le sorgenti interne di dati si ricordano i sistemi transazionali ERP ed i sistemi APS, internamente ai quali si generano le diverse versioni dei piani di domanda. Le sorgenti esterne di dati sono identiﬁcate da informazioni redatte da enti esterni all’azienda, quali societ` a di analisi di mercato, specialisti di settori verticali di business, consulenti indipendenti. Ad esempio, i dati esterni sono rappresentati, nel caso dei processi di Demand Planning, da questionari compilati dai consumatori circa il livello di servizio percepito (verso l’azienda ed in relazione con le aziende competitor di settore), da analisi statistiche di mercato circa le preferenze della clientela verso innovazioni di prodotto o modalit` a di presentazione promozionale delle oﬀerte. Risulta necessario riconciliare le diversit` a formali nella struttura e nella rappresentazione dei dati multitematici provenienti da sistemi informativi eterogenei, attraverso l’utilizzo di sistemi di codiﬁca dei nomi associati alle entit`a e sistemi di normalizzazione metrica, per misurare le grandezze quantitative in unit` a di misura omogenee e confrontabili. Storicizzazione dei dati. I dati quantitativi inseriti in un data warehouse sono organizzati cronologicamente, facendo esplicito riferimento alla dimensione temporale, collocata su uno degli assi di aggregazione. A diﬀerenza dei database transazionali, che mantengono memorizzate ed archiviate solo informazioni correnti relative alle transazioni appartenenti ad un orizzonte operativo di poche settimane/mesi, nei sistemi di data warehouse l’orizzonte temporale di variazione dei dati storici `e dell’ordine degli anni, poich´e risulta di interesse analizzare l’evoluzione temporale delle informazioni archiviate, quali le serie storiche di vendita nei segmenti prodotto-mercato. Nei data mart per il supporto alle decisioni di Demand Planning, le misure quantitative memorizzate nel loro evolversi temporale riguardano: • le serie storiche della domanda commerciale, dei prezzi e dei costi dei prodotti; • le serie storiche degli investimenti in attivit` a di marketing relazionale; • l’andamento temporale di variabili esogene indipendenti, utili nei modelli di regressione lineare, quali i fattori climatici e stagionali, le azioni promozionali dei competitor, l’andamento macroeconomico dei mercati e dei settori industriali, le caratteristiche quantitative e le abitudini di acquisto dei consumatori; • le diverse versioni dei piani di domanda e dei piani operativi di S&OP. La storicizzazione dei dati di domanda permette agli analisti di Demand Planning di misurare la qualit` a delle previsioni di vendita in relazione ai dati consuntivi, quantiﬁcando la forecast accuracy nel corso dei processi di Demand Analytics. La presenza di versioni di forecast diﬀerenti, formulate da demand planner distinti in corrispondenza della stessa ﬁnestra temporale di previsione e per gli stessi segmenti prodotto-mercato, permette di valutare la capacit`a previsiva dei singoli esperti; qualora il piano ﬁnale di domanda non vincolato (sales budget) sia frutto di un processo negoziale e sequenziale di collaborative forecasting basato su

4.4 Data Warehousing

139

workﬂow verticali o orizzontali, la comparazione dei diversi piani con lo storico di domanda permette di quantiﬁcare il contributo incrementale (positivo o negativo) dei singoli “step” collaborativi alla determinazione della versione ﬁnale del piano di domanda. Non volatilit` a dei dati. I dati quantitativi inseriti in un data warehouse non sono solitamente accessibili in modiﬁca da parte degli analisti di business. A diﬀerenza dei dati operazionali presenti nei sistemi ERP, i quali • subiscono costantemente cicli di inserimento, modiﬁca, salvataggio o cancellazione; • vengono inseriti in piccoli volumi incrementali, non appena nuovi dati aggiornati sono disponibili per l’inserimento, provenienti dai sistemi di monitoraggio di fabbrica, dai sistemi web di gestione dei clienti e dei fornitori, dai sisemi EDI di rilevazione dei dati di vendita, oppure inseriti manualmente dagli impiegati operativi; i dati storici inseriti in un data warehouse sono: • caricati e sincronizzati ad intervalli regolari di tempo (ad esempio, nel corso di processi batch schedulati automaticamente in ore notturne); • acceduti dagli utenti, in ore diurne, tramite interrogazioni di ricerca e funzionalit` a di analisi multidimensionale OLAP. Le operazioni di caricamento dei dati storici in un data warehouse operano su GigaByte di record di database ed avvengono secondo due modalit` a alternative: 1. caricamento batch massivo iniziale, da data warehouse vuoto, contenente soltanto le strutture tabellari e lo schema logico delle tipologie di dati (metadati ); 2. caricamenti progressivi incrementali, svolti periodicamente, mediante aggiunta di nuovi bucket temporali passati e futuri, nuove entit` a dimensionali, nuovi valori quantitativi per le misure storicizzate. Separazione dei dati. Le strutture di memorizzazione ed immagazzinamento dei dati storici nei datawarehouse sono logicamente e ﬁsicamente distinte da quelle per l’archiviazione dei dati operazionali, all’interno dei database server delle singole applicazioni ERP ed APS. Le esigenze operative e tecnologiche che giustiﬁcano questa scelta sono evidenziate nel paragrafo successivo. 4.4.4 Tecnologie OLTP e OLAP Esistono numerose diﬀerenze concettuali, modellistiche e tecnologiche fra i sistemi di gestione delle transazioni operative basati sulla tecnologia OLTP ed i sistemi di gestione delle analisi di business per il supporto alle decisioni, fondate sulla tecnologia OLAP. Come accennato nel paragrafo precedente, le strutture di immagazzinamento dei dati all’interno dei data warehouse sono costruite separatamente da quelle relazionali dei database server di supporto alle applicazioni ERP, per due ragioni dovute alle diﬀerenti modalit` a di utilizzo di tali sistemi da parte degli utenti.

140

4 Sistemi informativi di Demand Planning

Numerosit` a dei database server. Non esiste una singola base di dati transazionale, di appoggio ai moduli applicativi ERP, che concentri la totalit` a delle informazioni richieste per le analisi decisionali all’interno dei data warehouse centrali o dei data mart funzionali. Nel caso delle analisi di Demand Analytics e Demand Intelligence, i dati di domanda provengono: • dal database operazionale delle Vendite, contenente, da un lato, i dati sugli ordini cliente, dettagliatamente deﬁniti nei prodotti richiesti, nelle quantit` a di vendita, nelle modalit` a di consegna, con la speciﬁcazione delle date di consegna richiesta ed eﬀettiva, dall’altro, le transazioni formali di acquisto (ricevute, scontrini memorizzati elettronicamente e trasmessi mediante tecnologie di Electronic Data Interchange); • dal database di appoggio ai sistemi APS che formulano le previsioni di vendita; • dal database operazionale di Marketing, contenente i dati delle campagne di marketing, relativi ai volumi addizionali immessi per sostenere le promozioni. La concentrazione di tutti i dati operazionali su un unico database relazionale di appoggio agli applicativi ERP pregiudicherebbe la qualit` a e le prestazioni di accesso concorrente di molti utenti agli stessi dati dinamici. Aggregazione dei dati. I dati contenuti nei data warehouse vengono frequentemente aggregati lungo le dimensioni prodotto-mercato-tempo, al ﬁne di analizzare i dati su viste consolidate di sintesi delle informazioni puntuali. Questa esigenza non `e presente nei sistemi transazionali, in cui tutti i dati quantitativi sono deﬁniti al massimo livello di granularit` a (nel caso del Demand Planning: prodotti ﬁniti, punti vendita, giorni di vendita). La tabella 4.1 mette in luce le principali diﬀerenze fra le modalit` a di utilizzo dei dati nelle applicazioni gestionali OLTP e nelle applicazioni analitiche OLAP. Attraverso l’acronimo FASMI (Fast Analysis Shared Multidimensional Information) `e possibile sintetizzare le caratteristiche dei sistemi basati su cubi OLAP: 1. fast : obiettivo primario dei sistemi di data warehousing `e la velocit`a di risposta alle interrogazioni formulate dai demand planner; 2. analysis: la ﬁnalit` a analitica dei sistemi OLAP prescinde dal contesto applicativo dei decisori che interrogano la base dati multidimensionale per analizzare i dati sotto vari aspetti, punti di vista, logiche di business; 3. shared: i dati e le analisi operate su di essi sono condivise fra gli analisti; un adeguato sistema di security management controlla l’accesso asincrono e concorrente ai medesimi volumi di dati presenti nel datawarehouse4 ; 4. multidimensional : l’analisi e la navigazione su molteplici dimensioni sono un requisito essenziale per le ﬁnalit`a conoscitive di Business Intelligence; 5. information: l’informazione `e costituita dai dati sulle transazioni gestionali, dalle aggregazioni di tali dati sugli assi di navigazione, dalle speciﬁche interrogazioni formulate dagli utenti. 4

Nei sistemi transazionali OLTP non `e invece possibile l’accesso contemporaneo di pi` u utenti al medesimo set di transazioni aperte.

4.6 Integrazione dei sistemi ERP, APS, Data Warehousing

141

4.5 Workﬂow Management I sistemi informativi di gestione dei ﬂussi di lavoro (Workﬂow Management, WFM ) implementano gli workﬂow di Demand Planning di tipo verticale (topdown, bottom-up, middle-out) ed orizzontale, illustrati nel capitolo 3, i quali veicolano e regolamentano con relazioni di precedenza e di consegne intermedie input/output i processi di Demand Planning, trattati nel capitolo 2. La conﬁgurazione tipica di un sistema di gestione degli workﬂow multiutente prevede la deﬁnizione dei seguenti parametri progettuali: • le tipologie/ruoli di utenti, nel senso dei ruoli aziendali all’interno dei processi di Demand Planning ricoperti dagli utenti (demand planner, sales manager); • i singoli utenti, ciascuno dei quali ricopre un singolo ruolo; • la lista di attivit` a da svolgere da parte di ciascun utente (identiﬁcativo, contenuto di lavoro, metodologie di supporto, risultati attesi); • la mappatura attivit` a/processi nell’ambito delle attivit` a di Demand Analytics, Demand Intelligence, Marketing Intelligence e Sales Forecasting; • le relazioni di precedenza che intercorrono fra le diverse attivit` a; • gli input e gli output di ciascuna fase/attivit` a; • la collocazione temporale delle attivit` a in un diagramma di Gantt ; • i meccanismi automatici di sincronizzazione fra utenti e consuntivazione della realizzazione delle attivit`a (ad esempio, invio automatico di e-mail agli utenti appartenenti ad una speciﬁca mailing list, quando un utente ha terminato una certa attivit` a, al ﬁne di comunicare ai colleghi che le attivit` a successive possono iniziare).

4.6 Integrazione dei sistemi ERP, APS, Data Warehousing Le tecnologie Enterprise Resource Planning, Advanced Planning & Scheduling, Data Warehousing sono integrate mediante relazioni di input/output nei processi di Demand Planning e, pi` u in generale, di Sales & Operations Planning. La tabella 4.2 sintetizza le relazioni intercorrenti fra i processi di Demand Planning ed i sistemi informativi di supporto. I sistemi di Workﬂow Management risultano trasversali allo schema di classiﬁcazione riportato in tabella 4.2, in quanto possono fungere da supporto e veicolo di trasmissione delle informazioni di Demand Planning. La ﬁgura 4.7 evidenzia i ﬂussi di dati fra gli applicativi ERP, APS, DW, con riferimento ai processi di Demand Planning. Il sistema ERP fornisce al sistema APS alcuni dati quantitativi, di cui `e proprietario, necessari all’elaborazione dei piani di domanda, di produzione, di distribuzione e di acquisto nel breve, medio e lungo termine:

142

4 Sistemi informativi di Demand Planning Tabella 4.1. Diﬀerenze fra le tecnologie OLTP e OLAP sistemi gestionali (OLTP)

sistemi analitici (OLAP)

tipologia di operazioni

predeﬁnite, strutturate e semplici

casuali, non strutturate e complesse

Focus

automazione di operazioni standard e ripetitive

supporto decisionale, generazione di conoscenza sui dati

Utenti

operativi (ciclo attivo e passivo)

analisti di business, demand planner

numerosit` a degli utenti

migliaia

decine/centinaia

tipologia di decisioni

semplici, operative

strategiche, tattiche

complessit` a delle operazioni

pochi dati numerici (processi ripetitivi)

molti dati numerici (processi euristici)

granularit` a delle operazioni

su dati dinamici dettagliati

su dati statici disaggregati e aggregati

attualit` a delle operazioni

su dati correnti aggiornati

su dati storici non sempre aggiornati

orizzonte temporale

poche settimane/mesi (valore corrente dati)

anni (evoluzione storica dati)

modalit` a di accesso ai dati

lettura e scrittura

sola lettura

concorrenza di accesso

molti utenti sincroni

pochi utenti asincroni

metrica di prestazione

throughput delle transazioni

throughput delle interrogazioni (tempo di risposta)

dimensioni database

GigaByte

TeraByte

frequenza di aggiornamento

immediata e costante

periodica

query ad hoc

quasi assenti (richieste semplici e prevedibili)

molto frequenti (interrogazioni complesse e imprevedibili)

ottica e copertura

sulle transazioni funzionali (applicazioni gestionali)

sui processi integrati (applicazioni analitiche)

frequenza delle operazioni

molte transazioni rapide (lock degli utenti esclusivi)

poche interrogazioni lunghe (lock degli utenti condivisi)

materializzazione delle viste (precalcolo)

assente

frequente (abbassamento dei tempi di risposta)

struttura delle tabelle

normalizzate per inserimenti eﬃcienti

denormalizzate per analisi eﬃcienti

tipologia di operazioni sulle tabelle

inserimento, modiﬁca, cancellazione

interrogazione ed accesso a dati aggregati

4.6 Integrazione dei sistemi ERP, APS, Data Warehousing

143

Tabella 4.2. Processi, sistemi informativi e output nel contesto di Demand Planning processi

sistemi informativi

Output

Supply Chain Planning

Advanced Planning & Scheduling

Supply Chain Execution Supply Chain Analytics

Enterprise Resource Planning

piani di domanda piani di produzione piani di distribuzione transazioni dei cicli attivo e passivo report consuntivi misure KPI output di Data Mining

Data Warehousing/ Business Intelligence

• anagraﬁche per le entit` a prodotto, mercato, periodo ed, eventualmente, per altre dimensioni di analisi dei piani di domanda (canale logistico, stabilimento, fornitore); • giacenze iniziali (al periodo t = 0) per ciascun prodotto, presso le strutture produttive e ricettive (depositi centrali, periferici, punti vendita); • arrivi schedulati e confermati di prodotto presso i punti vendita nel tempo, in seguito all’approvazione di precedenti edizioni dei piani di produzione e distribuzione; • ordini cliente confermati, da considerare insieme alle previsioni di vendita per formare il mix della domanda futura sui segmenti prodotto-mercato. Le serie storiche di domanda rilevate presso i punti vendita si riferiscono ad un orizzonte temporale storico molto limitato, relativo alle pi` u recenti rilevazioni delle vendite eﬀettuate a consuntivo. Secondo procedure di trasferimento incrementale

Figura 4.7. Dati e sistemi informativi nel contesto del Demand Planning

144

4 Sistemi informativi di Demand Planning

dei dati, il data warehouse viene periodicamente caricato mediante l’inserimento dei valori pi` u recenti di tali serie storiche, misurate nelle attivit` a di Supply Chain Execution; nel data warehouse di Demand Planning le serie di domanda sono scandite attraverso un orizzonte temporale dell’ordine di alcuni anni, al ﬁne di permettere ai demand planner analisi precise circa gli andamenti nel tempo della domanda sui segmenti commerciali, misurando gli scostamenti fra valori actual e valori target. Le serie storiche di domanda collezionate all’interno dei data warehouse vengono periodicamente fornite in ingresso ai sistemi APS, per consentire il calcolo del sales forecast. Solitamente, dai sistemi di data warehousing `e possibile ricevere anche indicatori relativi alle performance attese ed agli obiettivi dei piani di S&OP. I valori target dei KPI vengono quindi messi a confronto, tramite opportuni cruscotti analitici, con i valori a consuntivo, secondo il seguente workﬂow: 1. il sistema APS riceve le serie storiche di domanda ed i valori target dei KPI ; 2. il sistema APS genera il piano statistico della domanda, applicando algoritmi di sales forecasting e modelli di data mining, nonch´e i piani operativi di produzione e distribuzione nel medio-breve periodo; 3. gli utenti del sistema APS analizzano i KPI relativi al sistema di piani emessi all’interno del sistema, mediante il confronto fra target e valori eﬀettivi; 4. i valori eﬀettivi delle metriche di prestazione vengono trasmessi, insieme con i piani formulati nell’orizzonte di previsione, al datawarehouse per l’archiviazione; 5. gli analisti di Demand Planning accedono ai piani target ed ai valori consuntivi all’interno del datawarehouse. Le edizioni rolling dei piani di domanda, produzione, distribuzione ed acquisto generate regolarmente dal sistema APS vengono pubblicate: • verso il datawarehouse, archiviate per la futura analisi degli scostamenti con i valori actual, non appena questi saranno disponibili; • verso il sistema gestionale ERP, aﬃnch´e gli utenti operativi possano fruirne, predisponendo le conseguenti attivit` a operative e le relative transazioni commerciali5. Talvolta `e possibile riscontrare soluzioni informatiche “ibride”, rispetto al caso standard evidenziato in ﬁgura 4.7, per l’architettura dei sistemi informativi di Demand Planning: • le analisi di Business Intelligence possono essere interamente demandate al sistema di data warehousing, anzich´e delegarne una parte alla reportistica standard fornita dai sistemi APS ; 5

Ad esempio, la disponibilit` a del piano uﬃciale degli acquisti permette agli operatori dei sistemi ERP di emettere i corrispondenti ordini di acquisto verso i fornitori. La disponibilit` a del piano di produzione consente di elaborare i report MRP per la valutazione della reperibilit` a tempiﬁcata di materiali, assiemi, sottoassiemi e componenti.

4.7 Modelli di dati per il Demand Planning

145

• il calcolo delle previsioni di domanda pu` o essere svolto completamente all’interno del data warehouse, provvisto di moduli analitici contenenti librerie di algoritmi standard per il calcolo statistico del sales forecast. Le analisi di Data Mining, relative alla classiﬁcazione, al clustering, alla identiﬁcazione di regole associative statiche o dinamiche, sono eﬀettuate all’interno del data warehouse, in quanto il database relazionale su cui usualmente poggiano i sistemi APS non oﬀre le necessarie prestazioni di calcolo per elaborare query complesse di Data Mining su volumi di dati dell’ordine dei TeraByte.

4.7 Modelli di dati per il Demand Planning 4.7.1 Dati statici e dati dinamici La struttura multidimensionale dei cubi OLAP si presta eﬃcacemente all’analisi dei dati di domanda, durante i processi di Demand Analytics, Demand Intelligence, Marketing Intelligence e Sales Forecasting che caratterizzano i ﬂussi di lavoro di Demand Planning. In questa sezione del capitolo si vogliono evidenziare le logiche di modellazione multidimensionale dei dati per le analisi di Demand Planning, con riferimento alle modalit` a di rappresentazione delle entit`a (prodotti, mercati, periodi ) e degli indicatori di performance per la valutazione dei modelli di sales forecasting e di ` utile premettere una classiﬁcazione di base circa le tipologie business intelligence. E di dati che si incontrano nell’ambito dei processi di Demand Planning: • dati statici : con tale espressione si fa riferimento alle entit` a relative alle transazioni commerciali, quali i prodotti, i mercati di vendita o i clienti/consumatori ﬁnali, i bucket dell’orizzonte temporale di riferimento; • dati dinamici : con tale espressione ci si riferisce all’insieme di indicatori quantitativi relativi alle serie storiche di vendita ed ai piani previsionali di domanda formulati nei processi di Demand Planning. Ciascun indicatore numerico si sviluppa attorno alle entit` a deﬁnite nel modello dei dati statici. Nonostante la terminologia adottata possa far pensare alla variabilit` a temporale dei dati, `e evidente che sia i dati “statici” relativi alle entit` a, sia i dati “dinamici” relativi agli indicatori sono tempovarianti, cambiando ad ogni aggiornamento del data warehouse: • l’insieme dei prodotti commercializzati e dei mercati serviti dalle aziende `e in costante cambiamento nel tempo, a causa del riassortimento della gamma di vendita; • i valori degli indicatori variano nel tempo: si pensi, ad esempio, all’evoluzione temporale delle serie storiche, le quali si incrementano periodicamente di osservazioni disponibili, secondo la logica di roll forward dei piani di domanda: bucket futuri diventano progressivamente passati, andando a formare la base storica di analisi per le metodologie di Business Intelligence e Data Mining.

146

4 Sistemi informativi di Demand Planning

4.7.2 Dimensioni di analisi Le dimensioni di analisi rappresentano, nei sistemi di data warehousing, modalit` a e percorsi tipici di analisi, aggregazione ed esplorazione dei dati quantitativi relativi agli indicatori di prestazione. Le dimensioni di un cubo sono costituite dai criteri di ricerca che si vogliono utilizzare per compiere interrogazioni su ingenti volumi di dati. Esistono tre dimensioni fondamentali per le analisi di Demand Planning, presenti in qualsiasi contesto applicativo ed in qualsiasi settore verticale di business: dimensione prodotto, dimensione mercato, dimensione tempo. Infatti, il piano di domanda si esprime secondo i prodotti ﬁniti e le parti di ricambio (asse di prodotto) venduti ai clienti intermedi o ﬁnali (asse di mercato), durante periodi temporali di lunghezza omogenea (asse del tempo). Possono essere sempre previste ulteriori dimensioni di analisi, attraverso le quali dettagliare la granularit` a minima dei dati numerici dei KPI : • dimensione produttiva (stabilimento di produzione, manufacturing location); • dimensione logistica outbound (soggetti distributori, depositi centrali, depositi periferici, canali di vendita, vettori di spedizione); • dimensione logistica inbound (soggetti fornitori, stabilimenti di approvvigionamento, siti di stoccaggio intermedio dei materiali). I dati numerici relativi ai KPI presenti nei cubi OLAP sono organizzati secondo le dimensioni di analisi. Ad esempio, in un sistema quadridimensionale strutturato secondo le dimensioni {prodotto, mercato, tempo, deposito regionale}, l’indicatore relativo alla serie storica delle spedizioni deﬁnisce le quantit` a spedite: • • • •

per ciascun prodotto ﬁnito; da ciascun deposito regionale; verso ogni punto vendita di destinazione; in ogni periodo dell’orizzonte temporale di riferimento.

La ﬁgura 4.8 mostra alcuni casi di analisi secondo molteplici dimensioni. A ciascuna dimensione di analisi corrisponde una tabella delle dimensioni nella struttura del datawarehouse. Ciascuna tabella contiene l’elenco degli attributi che caratterizzano le entit` a appartenenti alla speciﬁca dimensione. Ad esempio, con riferimento alla dimensione cliente, la corrispondente tabella delle dimensioni contiene i campi {nome cliente, indirizzo, citt` a, regione, classe}. 4.7.3 Gerarchie di navigazione Una dimensione di analisi `e formata da livelli di aggregazione, analisi e calcolo, rispetto ad un unico livello base di deﬁnizione per la dimensione, che deﬁnisce il livello di granularit` a massima dei dati numerici, cio`e il maggior livello di dettaglio o disaggregazione delle entit`a {prodotto, mercato, tempo} disponibile nei record delle tabelle del datawarehouse.

4.7 Modelli di dati per il Demand Planning

147

Figura 4.8. Esempi di dimensioni di analisi per il Demand Planning

I percorsi di navigazione mediante i quali si possono aggregare i dati dinamici lungo gli assi dimensionali relativi ai dati statici prendono il nome di gerarchie di navigazione. Una dimensione di analisi `e composta da molteplici livelli gerarchici di aggregazione dei dati, lungo i quali i dati numerici sono acceduti in lettura dai demand planner, durante le attivit` a di aggregazione e visualizzazione dei report sui dati statici e dinamici. Alcuni esempi di gerarchie di navigazione, relativi agli assi principali, sono i seguenti: 1. dimensione prodotto: SKU −→ famiglia −→ sottogruppo −→ gruppo −→ linea; 2. dimensione mercato: store −→ zona −→ citt`a −→ regione −→ paese; 3. dimensione tempo: giorno −→ settimana −→ mese −→ anno. Il primo livello di ciascuna gerarchia `e il livello foglia (bottom), in cui i dati statici relativi alle entit` a presentano il massimo livello di dettaglio. Per ciascun percorso di navigazione sui dati esiste sempre un unico livello radice (top), in cui i dati statici presentano il massimo livello di aggregazione e sintesi. Nell’esempio precedente, i livelli gerarchici {SKU, store, giorno} rappresentano i livelli di massima granularit` a dei dati. La ﬁgura 4.9 presenta un esempio di gerarchie di aggregazione dei dati lungo le dimensioni di analisi, con riferimento al modello {prodotto, mercato, tempo}. Il passaggio da un livello L al livello di aggregazione L+ 1 in una gerarchia avviene applicando un opportuno operatore algebrico di aggregazione. Per convenzione, al livello bottom di ciascuna gerarchia viene assegnato l’identiﬁcativo di livello 0. Una gerarchia di navigazione `e quindi costituita da un insieme di livelli, ciascuno contenente un insieme di entit` a (ad esempio, per i livelli bottom: la lista dei punti vendita, la lista dei codici prodotto ﬁnito, la lista dei giorni appartenenti ai diversi mesi).

148

4 Sistemi informativi di Demand Planning

Figura 4.9. Gerarchie di aggregazione e navigazione sui dati

4.7.4 Entit` a e attributi Le strutture tabellari dei database relazionali ERP, corrispondenti al modello gerarchico OLAP, sono di tipo “piatto”, in cui ciascun record elementare (contenente, in chiave primaria, ciascuna SKU, ciascuno store, ecc.) possiede un insieme di attributi che caratterizzano le entit` a di base, cio`e le entit`a collocate al livello 0 della corrispondente dimensione di analisi. Ad esempio, la tabella contenente i prodotti ﬁniti ha una struttura formalmente analoga a quella presentata in tabella 4.3, che deﬁnisce la tabella delle dimensioni per la dimensione prodotto. Analoghi esempi seguono per l’asse dei mercati (tabella delle dimensioni 4.4) e per l’asse dei tempi (tabella delle dimensioni 4.5). Le colonne nelle tre tabelle 4.3, 4.4 e 4.5, ad eccezione della prima per ciascuna tabella, identiﬁcano potenziali livelli di aggregazione dei dati, partendo dai livelli bottom SKU, cliente, giorno.

Tabella 4.3. Esempio di tabella dei prodotti ﬁniti in un database ERP SKU

famiglia

sottogruppo

Gruppo

linea

SKU 1 SKU 2 SKU 3 SKU 4 SKU 5

FAM1 FAM1 FAM2 FAM1 FAM3

S-G-alfa S-G-alfa S-G-alfa S-G-alfa S-G-beta

GR A GR A GR A GR A GR B

linea linea linea linea linea

colore X X X X X

Rosso Giallo Verde Verde Giallo

4.7 Modelli di dati per il Demand Planning

149

Tabella 4.4. Esempio di tabella dei mercati in un database ERP store

zona

Citt` a

Regione

paese

classe

C1 C2 C3 C4 C5

logistica1 logistica2 logistica2 logistica3 logistica2

Mantova Milano Milano Cordova Milano

Lombardia Lombardia Lombardia Andalusia Lombardia

Italia Italia Italia Spagna Italia

A A C B B

Tabella 4.5. Esempio di tabella dei bucket temporali in un database ERP giorno

settimana

quindicina

Mese

anno

spedizioni

2007 2008 2008 2008 2008 2008

7 2007 7 2008 11 2008 16 2008 18 2008 22 2008

1 2 1 1 1 2

feb07 feb08 mar08 apr08 mag08 mag08

2007 2008 2008 2008 2008 2008

S`ı No S`ı S`ı S`ı No

02-12 02-16 03-12 04-15 05-02 05-30

02 02 03 04 05 05

07 08 08 08 08 08

Ciascun record della tabella 4.3 identiﬁca univocamente un’entit` a, cio`e un oggetto contenuto all’interno di un livello gerarchico di una dimensione. Ad esempio, l’entit` a SKU 2 appartiene al livello 0 (SKU ) dell’asse dei prodotti; l’entit` a feb08 appartiene invece al livello mese, nella gerarchia {giorno → settimana → quindicina → mese → anno} riportata in tabella 4.5, quindi si trova al secondo livello (mese), calcolato partendo dal livello bottom (giorno). Ogni campo all’interno di una tabella delle dimensioni `e modellizzabile come un dominio ﬁnito di valori; ad esempio, il dominio SKU contiene l’elenco dei prodotti appartenenti al mix commerciale dell’azienda, in un dato istante temporale di caricamento dei dati statici nel datawarehouse. Nell’esempio in tabella 4.3, l’attributo colore non appartiene alla gerarchia di navigazione formata dalla sequenza di attributi {SKU → famiglia → sottogruppo → gruppo → linea}. Tale attributo pu` o comunque essere incluso in un’altra gerarchia, formata ad esempio dai due soli livelli {SKU → colore}, posta in parallelo rispetto alla gerarchia principale di navigazione. La ﬁgura 4.10 sintetizza i concetti espressi, mostrando alcuni esempi di gerarchie parallele d’aggregazione. Ad esempio, lungo la dimensione prodotto sono assegnate due gerarchie parallele di aggregazione (parte sinistra della ﬁgura 4.10), aventi lo stesso livello bottom e lo stesso livello top, ma percorsi di navigazione paralleli ed indipendenti. La ﬁgura 4.11 mostra un esempio di gerarchia parallela relativa all’asse dei mercati. Nella parte destra della ﬁgura `e riportata la gerarchia, nella parte centrale un esempio d’entit` a che popolano i diversi livelli gerarchici.

150

4 Sistemi informativi di Demand Planning

Figura 4.10. Gerarchie parallele di aggregazione e navigazione sui dati

Le entit`a appartenenti a livello store (livello bottom) sono aggregate secondo due criteri diﬀerenti: per zona geograﬁca (verso l’alto in ﬁgura) e per classe di importanza (verso il basso in ﬁgura). Ciascuna entit` a di livello 0 pu` o avere quindi pi` u entit` a “padri” secondo diverse gerarchie, purch´e esista un unico padre diretto (da livello 0 a livello 1) per ogni ramo gerarchico. Infatti, secondo la rappresentazione tabellare piatta propria dei sistemi ERP, uno store ha un solo valore per l’attributo zona ed un solo valore per l’attributo classe. Esistono due tipologie principali di attributi per la caratterizzazione delle entit`a elementari al livello 0 di ciascuna gerarchia di navigazione: 1. attributi descrittivi : descrivono le propriet` a delle entit` a di base, in termini di caratteristiche ﬁsiche, chimiche, funzionali, geograﬁche; 2. attributi gerarchici : forniscono criteri di aggregazione delle entit` a di base, secondo relazioni gerarchiche di tipo padre-ﬁglio. Esempi di attributi descrittivi sono: • per le entit` a prodotto la forma, il colore, il peso, la materia prima principale, la tipologia di utente target; • per le entit` a mercato la collocazione geograﬁca e la classe di importanza del cliente. Esempi di attributi gerarchici sono: • per le entit` a prodotto la famiglia di appartenenza, il gruppo, il brand; • per le entit` a mercato la citt` a, la regione, il paese, l’area commerciale. Per quanto concerne l’asse temporale, la naturale scansione degli anni in mesi, settimane, quindicine, giorni deﬁnisce implicitamente la gerarchia principale di aggregazione per tale dimensione. Anche gli attributi descrittivi possono essere utilizzati come criterio di aggregazione gerarchica per le entit` a di base al livello 0 nelle gerarchie parallele. Si veda, come esempio, la gerarchia {SKU → colore → gruppo colore → linea} riportata

4.7 Modelli di dati per il Demand Planning

151

Figura 4.11. Gerarchie parallele e relative entit` a sull’asse dei mercati

in ﬁgura 4.10. I valori degli attributi descrittivi sono impiegabili come criteri di discriminazione nelle analisi di Data Mining, come ad esempio: • il clustering di segmenti prodotto-mercato, utilizzando alcuni attributi descrittivi o esplicativi come criteri di raggruppamento delle entit` a nei cluster; • la classiﬁcazione di segmenti prodotto-mercato mediante regole di classiﬁcazione nella cui costruzione logica si utilizzano attributi descrittivi; oppure utilizzati come predittori nei modelli di regressione semplice o multipla. 4.7.5 Misure La base dati multidimensionale OLAP ruota attorno ai concetti chiave di dimensione di analisi, gerarchia di navigazione, entit` a e attributi, misure. Quest’ultimo concetto si riferisce agli indicatori numerici utilizzati nelle analisi di navigazione e di business intelligence sui cubi multidimensionali. Ciascuna misura o indicatore/KPI di un cubo di dati deﬁnisce il valore numerico di una grandezza misurabile, osservata in corrispondenza di una n-upla di attributi. Con riferimento ai processi di Demand Planning, esempi di misure presenti in un data mart accessibile da parte dei demand planner sono: • serie storiche della domanda commerciale rilevata presso i punti vendita, dei prezzi di vendita dei prodotti, dei costi di produzione e di distribuzione;

152

4 Sistemi informativi di Demand Planning

• serie storica delle edizioni di sales forecast; • serie storica degli obiettivi di vendita (sales target ) per segmenti prodottomercato; • serie storica dei piani di produzione e distribuzione. Una misura viene deﬁnita e speciﬁcata in relazione all’insieme di entit` a che caratterizzano le tabelle delle dimensioni nel datawarehouse. Ad esempio, il valore della domanda D(p,c,t) = D* registrata per il prodotto p, sul mercato c, in corrispondenza del bucket t, fa riferimento a tre tabelle delle dimensioni: • alla tupla che identiﬁca il prodotto p nella tabella della dimensione prodotto; • alla tupla che identiﬁca il cliente c nella tabella della dimensione mercato; • alla tupla che identiﬁca il periodo t nella tabella della dimensione tempo; e contiene il valore numerico D*, memorizzato all’interno di una tabella dei fatti, relativa alla misura domanda. Una tabella dei fatti contiene due tipologie di elementi: 1. i riferimenti primari alle tabelle delle dimensioni, per ciascun asse che descrive la misura quantitativa; 2. i valori numerici delle misure stesse. L’esempio riportato in ﬁgura 4.12 si riferisce alle misure quantitative domanda e prezzo di vendita, le cui coordinate lungo gli assi sono deﬁnite dal prodotto, dal mercato e dal periodo. In ﬁgura sono evidenziate in grassetto le chiavi primarie delle tabelle delle dimensioni prodotto, mercato, periodo. La tabella dei fatti presenta come chiave secondaria la terna di identiﬁcativi per le entit`a {prodotto, mercato, tempo}. La tabella 4.6 esempliﬁca una tipica tabella dei fatti, in cui • le dimensioni sono deﬁnite da prodotto, mercato, tempo (le prime tre colonne); • le misure sono costituite dalla domanda di mercato, espressa in quantit`a ﬁsiche, dal prezzo unitario di vendita e dal fatturato totale di periodo, per ciascun segmento prodotto-mercato (le ultime tre colonne della tabella); • i fatti sono rappresentati dalle singole righe della tabella, composte dall’unione dei dati statici con i dati dinamici. Si osservi che la misura “secondaria” fatturato totale di periodo `e derivata dal prodotto fra le misure “primarie” domanda e prezzo, mediante un semplice calcolo algebrico eseguito all’interno del datawarehouse. La ﬁgura 4.13 evidenzia la struttura a cubo tridimensionale relativa alla misura domanda, esplosa lungo gli assi principali prodotto, mercato, tempo. La singola cella del cubo corrisponde ad un record nella tabella dei fatti per la misura domanda, in cui sono state selezionate tre speciﬁche entit` a di prodotto, mercato, tempo, all’interno dei rispettivi livelli bottom. Un cubo avente un numero di dimensioni superiori a tre viene anche deﬁnito ipercubo. Il sistema informativo di datawarehousing elabora informazioni relative alle misure in esso contenute. Un fatto di analisi `e dato dall’intersezione fra i dati

4.7 Modelli di dati per il Demand Planning

153

Figura 4.12. Tabelle delle dimensioni e tabella dei fatti per la misura “domanda” Tabella 4.6. Esempio di tabella dei fatti contenente tre misure prodotto

mercato

periodo

domanda

prezzo

fatturato

P1 P1 P1 P1 P2 P2

C1 C2 C3 C1 C1 C1

t1 t1 t1 t2 t1 t2

100 200 0 120 200 30

5 10 7 5 20 25

500 2000 0 600 4000 750

statici, relativi alla descrizione delle entit`a nelle dimensioni di analisi, ed i dati dinamici, relativi alle misure quantitative. Un fatto pu` o essere costituito anche da un insieme di misure, ad esempio relative all’evento di acquisto (misura: domanda) di un prodotto, presso un punto vendita, ad un certo prezzo (misura: prezzo di vendita) di listino. Dal punto di vista della progettazione tecnica della struttura tabellare del datawarehouse, le tabelle dei fatti possono essere collegate a quelle delle dimensioni secondo schemi di database a stella (star ) o a ﬁocco di neve (snowﬂake).

154

4 Sistemi informativi di Demand Planning

Figura 4.13. Cubo a tre dimensioni per la misura “domanda”

Parte II

Modelli e algoritmi di Business Intelligence

5 Demand Analytics: analisi multidimensionale

Business Intelligence – Analisi multidimensionale

5.1 Business Intelligence 5.1.1 Deﬁnizione di Business Intelligence Con il termine Business Intelligence si fa riferimento ad un insieme di metodi e modelli matematici per l’analisi multidimensionale e statistica dei dati di business, orientata alla ricerca di informazioni e conoscenze quantitative estraibili dai dati storici rilevati a consuntivo e collezionati all’interno di un datawarehouse. L’applicazione dei metodi di Business Intelligence alla disciplina del Supply Chain Management `e ﬁnalizzata all’incremento di conoscenza da parte dei decision maker su quanto `e accaduto in passato nel corso dei processi di Demand Planning e, pi` u in generale, di Sales & Operations Planning, secondo una duplice ottica: • interpretativa: la misurazione delle performance aziendali erogate nel passato aiuta gli analisti a comprendere le dinamiche di business ed i driver che hanno portato alla determinazione di tali risultati, al ﬁne di identiﬁcare le cause degli scostamenti fra quanto pianiﬁcato e quanto eﬀettivamente ottenuto; • predittiva: la conoscenza delle performance erogate e l’analisi degli errori commessi nel passato supportano i decisori nel deﬁnire piani migliori nel futuro, predisponendo previsioni e piani di maggior qualit` a ed accuratezza. La Business Intelligence comprende un insieme di processi, metodologie e modelli matematici di indagine e ricerca di informazioni all’interno dei dati grezzi, ﬁnalizzati al supporto decisionale (decision making) e basati sull’impiego intensivo • delle tecnologie informatiche di analisi multidimensionale su grandi moli di dati storici collezionati nei datawarehouse; • delle metodologie matematico-statistiche per la sintesi di informazioni quantitative relative ai dati aggregati, al ﬁne di formulare inferenze, generalizzazioni e regole predittive utili al processo previsionale di formulazione dei piani.

Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

158

5 Demand Analytics: analisi multidimensionale

Le tecnologie informatiche di datawarehousing e le metodologie di Business Intelligence costituiscono validi strumenti di risposta ai seguenti problemi legati al paradigma della knowledge discovery on databases (KDD): 1. identiﬁcazione dei dati rilevanti per i processi decisionali, da reperire nei sistemi OLTP transazionali e convogliare verso i sistemi multidimensionali OLAP; 2. rappresentazione e visualizzazione dei dati multidimensionali secondo diﬀerenti prospettive di analisi, mediante la deﬁnizione di viste e report; 3. 3scoperta di conoscenza attraverso l’identiﬁcazione di pattern signiﬁcativi e ricorrenti nei dati storici. Le tecniche di tipo feature selection, ETL e di progettazione dei datawarehouse risolvono il primo problema, le tecnologie OLAP di navigazione gerarchica risolvono il secondo, i modelli matematici di Data Mining supportano gli utenti per quanto concerne il terzo. Le tecnologie OLAP e le tecniche di Data Mining possono essere inquadrate all’interno dello spettro delle metodologie di Business Intelligence, come evidenziato nel paragrafo successivo. 5.1.2 Quadro delle metodologie di Business Intelligence La disciplina della Business Intelligence `e composta da una molteplicit`a di metodologie di tipo informatico e matematico, idonee a supportare i processi di tipo decisionale all’interno delle attivit` a della gestione strategica, tattica ed operativa di impresa. La gerarchia di metodologie di data warehousing e business intelligence riportata in ﬁgura 5.1 evidenza il percorso logico sequenziale di acquisizione, trasformazione, consolidamento, esplorazione dei dati di business, ﬁnalizzata alla loro rappresentazione sintetica (sotto forma di report per il management aziendale) ed all’estrazione di conoscenza ad elevato valore aggiunto dai dati storici archiviati.

DECISION MAKING

PRESENTAZIONE DEI DATI

DEMAND INTELLIGENCE

DEMAND ANALYTICS

DEMAND ANALYTICS

DATA REPORTING

ESTRAZIONE DI CONOSCENZA DAI DATI

DATA MINING

ANALISI STATISTICA DEI DATI

DATA STATISTICS

NAVIGAZIONE SUI DATI (VISTE, CONSUNTIVI, KPI ANALYSIS) ORGANIZZAZIONE DEI DATI IDENTIFICAZIONE DELLE FONTI DI DATI

DATA BROWSING

DATA WAREHOUSING DATA SOURCING

Figura 5.1. Gerarchia delle metodologie di data warehousing e business intelligence

5.1 Business Intelligence

159

Il primo livello metodologico `e rappresentato dalla selezione delle fonti di dati transazionali rilevanti per le indagini analitiche di Business Intelligence; nel caso del Demand Planning, il riferimento `e ai sistemi ERP ed APS. Il secondo livello descrive l’organizzazione dei dati transazionali, opportunamente ﬁltrati dai sistemi gestionali OLTP mediante tecniche ETL, quindi consolidati all’interno del datawarehouse. Il terzo, il quarto ed il quinto livello si riferiscono a metodologie inquadrabili nell’ambito della Business Intelligence (navigazione analitica sui dati storici, analisi statistica dei dati, KPI analysis, analisi dei pattern e delle similarit` a signiﬁcative nei dati), presentate nei paragraﬁ seguenti. Il sesto livello deﬁnisce la modalit` a di rappresentazione visuale dei dati sintetici di business, misurati tramite Key Performance Indicators, fruibili dall’utente ﬁnale. Al termine dei processi di analisi dei dati storici ha luogo il processo decisionale vero e proprio (decision making), avente l’obiettivo di formulare piani previsionali accurati ed intraprendere azioni strategiche, tattiche ed operative eﬃcaci per la redditivit` a aziendale nel breve, medio, lungo periodo. Con riferimento al contesto applicativo del Demand Planning, le metodologie di Business Intelligence possono essere suddivise, a livello macroscopico, in due classi principali. Demand Analytics. Metodologie orientate all’analisi multidimensionale e statistica dei dati storici di domanda; metodologie per il monitoraggio delle prestazioni di Demand Planning. Demand Intelligence. Metodologie di Data Mining orientate alla ricerca di regole, similitudini, percorsi logici frequenti e pattern rilevanti nascosti all’interno dei dati storici di domanda, memorizzati nelle strutture di archiviazione del datawarehouse. La tabella 5.1 anticipa alcuni concetti distintivi delle metodologie di Demand Analytics e Demand Intelligence, approfonditi nei successivi due paragraﬁ. Esempio Un semplice esempio pu`o aiutare a comprendere le diﬀerenze in termini di valore aggiunto di informazione fra le metodologie di Demand Analytics e Demand Intelligence. Assegnati i valori di domanda per alcuni segmenti prodotto-mercato, a livello mensile, riportati nella tabella dei fatti 5.2, in cui: • le prime tre colonne evidenziano le dimensioni di analisi; • la quarta colonna contiene i valori storici della misura domanda; • ciascuna riga rappresenta un fatto relativo al processo di vendita; le analisi di Business Intelligence consentono di ottenere, ad esempio, i seguenti risultati: • analisi di Demand Analytics permettono di calcolare i totali di vendita per trimestre, per ciascun segmento prodotto-mercato (quinta colonna), e di evidenziare i periodi in cui la domanda `e risultata inferiore ad un valore soglia pari

160

5 Demand Analytics: analisi multidimensionale

Tabella 5.1. Confronto fra i metodi di Demand Analytics e Demand Intelligence Metodologie di classe di metodi Demand Analytics

Business Intelligence per punto di vista dell’analisi veriﬁca di ipotesi (conoscenza passiva)

Demand Intelligence

generazione di ipotesi (conoscenza attiva)

il Demand Planning valore aggiunto metodi e modelli • query OLAP incremento di • analisi statistica informazione, • KPI Demand capacit` a di Planning interpretazione • metodi di visualizzazione Data Mining: incremento di • classiﬁcazione conoscenza, • clustering capacit` a di • regole associative interpretazione e • analisi di serie di predizione storiche

Tabella 5.2. Esempio di tabella dei fatti per la domanda nei segmenti prodotto

mercato

periodo (mese)

domanda

P1 P1 P1

C1 C1 C1

t1 t2 t3

100 (*) 450 20 (*)

P1 P1 P1

C2 C2 C2

t1 t2 t3

P2 P2 P2

C1 C1 C1

t1 t2 t3

150 (*) 0 (*) 300

P2 P2 P2

C2 C2 C2

t1 t2 t3

320 300 660

1200 300 430

totale trimestre (t1 + t2 + t3 )

promozione

570

NO SI NO

1930

SI SI SI

450

NO NO NO

1280

NO SI SI

a 200 unit` a per periodo (valori seguiti dal simbolo (*) nella quarta colonna). Questo tipo di analisi pu` o smentire o confermare un’ipotesi, formulata in modo implicito ed a priori dall’utente, circa il miglior mercato di vendita, fra C1 e C2 , per il mix assegnato di prodotti P1 e P2 ; • analisi di Demand Intelligence permettono di evidenziare il fatto che nella maggior parte dei periodi di domanda elevata (comunque superiore alla soglia minima di 200 unit` a per periodo) si `e veriﬁcato un evento promozionale pianiﬁcato dalla funzione Marketing (ultima colonna della tabella). Inoltre, un’analisi

5.1 Business Intelligence

161

di classiﬁcazione bayesiana pu` o predire con probabilit` a molto bassa la presenza di domanda modesta per prodotti venduti nel mercato C2 , come sembra suggerito dai dati riportati nell’esempio, volutamente sempliﬁcato; • analisi di Demand Intelligence permettono di rilevare la presenza di acquisti incrociati fra prodotti appartenenti allo stesso “carrello della spesa”; ad esempio, clienti che acquistano il prodotto P1 nel mercato C2 acquistano anche il prodotto P2 con probabilit` a 80%.

5.1.3 Demand Analytics Le metodologie di Demand Analytics, oggetto del presente capitolo e del successivo, si suddividono in tre categorie: metodi per l’analisi gerarchica multidimensionale sui dati, metodi per l’analisi statistica dei dati, metodi per la valutazione dei Key Performance Indicators. Entrambe le metodologie analitiche si avvalgono dell’uso di modelli, report e template standard o custom per la presentazione graﬁca dei risultati ottenuti (tabelle pivot opportunamente strutturate, graﬁci di vario tipo, correlogrammi, curve di densit` a, ecc.). Analisi multidimensionale dei dati La navigazione gerarchica sui dati multidimensionali (data browsing) `e abilitata dalle tecnologie OLAP, una volta che i dati storici di domanda sono stati organizzati secondo il modello logico centrato su dimensioni, gerarchie, entit` a, misure e fatti. La tecnologia OLAP permette la costruzione di viste multidimensionali sui dati: le informazioni storiche relative alle decisioni di Demand Planning sono strutturate per dimensioni d’analisi ed esaminate a diversi livelli di dettaglio, mediante operazioni gerarchiche d’aggregazione (consolidamento dei dati) e disaggregazione (scomposizione dei dati), addizione e sottrazione di dimensioni. Mediante le analisi di data browsing, il demand planner formula ipotesi circa l’andamento passato di alcuni fatti quantitativi oggetto di indagine; il risultato a posteriori delle interrogazioni sintetiche di ricerca sui dati storici porta a giustiﬁcare o smentire le assunzioni mentali formulate dall’analista. In altri termini, il demand planner compie due azioni congiunte: • deﬁnisce il criterio di selezione sui dati (ad esempio, selezionare i segmenti il cui fatturato, nell’ultimo semestre, `e risultato superiore a 50 k$); • deﬁnisce un’ipotesi circa il risultato conseguente al criterio di interrogazione sui dati (ad esempio, i soli segmenti relativi ai mercati localizzati in Europa hanno conseguito un fatturato superiore alla soglia deﬁnita). La risposta fornita dalle query OLAP rappresenta una forma di conoscenza di tipo passivo, in cui il decisore ha preventivamente formulato mentalmente un criterio di correlazione e similarit`a sui valori quantitativi dei dati storici. Per deﬁnire in modo esaustivo le modalit` a di navigazione sui dati occorre speciﬁcare:

162

5 Demand Analytics: analisi multidimensionale

• la numerosit` a e la tipologia di dimensioni utilizzate dinamicamente durante l’attivit` a di browsing sui dati; • l’organizzazione delle dimensioni in gerarchie di navigazione; • la modalit` a di aggregazione (consolidamento verticale) dei dati; • la modalit` a di disaggregazione (esplosione verticale) dei dati. Ad esempio, un punto dell’ipercubo relativo alla misura domanda pu` o essere riferito alle quattro dimensioni {prodotto, mercato, tempo, magazzino}, le quali sono organizzate secondo le gerarchie: • • • •

asse asse asse asse

prodotto: prodotto → colore → famiglia → gruppo; mercato: store → zona → citt`a → regione → paese; tempo: settimana → mese → trimestre → semestre → anno; magazzino: magazzino regionale → magazzino centrale.

La domanda `e aggregata utilizzando l’operatore di consolidamento somma verso i livelli gerarchici superiori; la domanda `e altres`ı ripartita verso i livelli inferiori, secondo le quattro dimensioni di analisi, utilizzando un criterio di proporzionalit` a basato su una base di ripartizione esterna (ad esempio, il fatturato conseguito durante l’ultimo esercizio). Analisi statistica dei dati L’analisi statistica dei dati deﬁnisce un insieme di indicatori sintetici relativi alle caratteristiche numeriche dei dati storici, per valutare la distribuzione dei dati ed il relativo range di variazione, la presenza di valori statisticamente anomali, la variabilit` a dei dati attorno al loro valor medio. Cruscotti di KPI statistici oﬀrono una visione sintetica dell’andamento della domanda nel tempo e per segmenti prodotto-mercato; essi possono essere presentati, attraverso tabelle e graﬁci, unitamente alle principali viste di aggregazione sui dati costruite durante il browsing OLAP. L’analisi statistica si riferisce a due tipologie di dati: • le serie storiche dei valori di domanda e dei piani operativi, rilevate a consuntivo per ciascun segmento prodotto-mercato, articolate lungo orizzonti temporali di ampiezza variabile, a seconda della profondit` a di storicizzazione dei dati progettata per il datawarehouse o datamart di Demand Planning; • le serie storiche dei valori degli attributi esplicativi che descrivono i driver indipendenti della domanda commerciale sui segmenti prodotto-mercato. Analisi delle performance di Demand Planning (KPI) L’analisi delle prestazioni erogate dai processi esecutivi di Demand Planning (KPI analysis) viene svolta all’interno dei cubi di dati storici archiviati nel datamart a disposizione dei demand planner e dei sales analyst, e si articola in quattro fasi sequenziali: 1. deﬁnizione delle metriche di performance per i processi di Demand Planning; 2. deﬁnizione dei valori obiettivo per ciascuna metrica;

5.1 Business Intelligence

163

3. rilevazione dei valori consuntivi per ciascuna metrica; 4. analisi degli scostamenti fra risultato ottenuto e valore obiettivo. Le metriche di prestazione per i processi di Demand Planning possono essere classiﬁcate secondo tre direttrici d’analisi: • metriche relative al fatturato generato attraverso le vendite; • metriche relative all’accuratezza del piano previsionale di domanda; • metriche relative al livello di servizio erogato al cliente durante i processi operativi di vendita dei prodotti. La deﬁnizione dei valori obiettivo per ciascun KPI avviene durante i processi di Supply Chain Planning (Marketing Intelligence e Sales Forecasting, nel caso speciﬁco del Demand Planning). La misurazione dei valori consuntivi dei KPI avviene tramite rilevazione diretta presso i punti vendita, in relazione alle operazioni di pagamento dei clienti, convogliando poi i valori rilevati sul campo verso i sistemi di data warehousing, in sede di caricamento incrementale dei dati per ciascun KPI. Inﬁne, l’analisi degli scostamenti per i diversi KPI riveste una duplice ﬁnalit` a: • valutare le prestazioni dei singoli segmenti prodotto-mercato, al ﬁne di attribuire ai responsabili di prodotto e di mercato le corrispondenti remunerazioni, in modo proporzionale al raggiungimento degli obiettivi di vendita (sales target ) concordati con i supervisori; • analizzare le cause degli scostamenti imprevisti rilevati, con l’obiettivo di deﬁnire linee guida e piani di azione correttivi1 , volti a migliorare le prestazioni di vendita sui segmenti prodotto-mercato che si sono rivelati critici per la presenza di valori eﬀettivi dei KPI largamente inferiori ai target. 5.1.4 Demand Intelligence Le metodologie di Demand Intelligence, oggetto dei capitoli 7, 8 e 9, riguardano l’applicazione dei modelli matematici di Data Mining al contesto del Demand Planning. Attraverso l’analisi dei dati storici di vendita e lo studio delle correlazioni fra la domanda ed i suoi attributi esplicativi, `e possibile dedurre regole di business relative all’intensit` a della domanda, ricavare comportamenti frequenti dei clienti analizzando le loro transazioni di acquisto, selezionare pattern di vendita ricorrenti e tipici per talune famiglie di prodotti, raggruppare prodotti e/o mercati in cluster sulla base di simili logiche di business ricavate dall’analisi degli attributi esplicativi. La ﬁnalit` a delle indagini di Data Mining `e l’estrazione di nuove conoscenze signiﬁcative, di frequente occorrenza, non banali, che correlano prodotti, mercati, clienti, canali di vendita, attivit` a di marketing, caratteristiche intrinseche del contesto competitivo. La formalizzazione delle regole di Data Mining ne permette la successiva proiezione futura, orientata alla preparazione di piani di domanda ac1

Ad esempio, deﬁnendo promozioni sul prezzo di vendita in segmenti prodotto-mercato caratterizzati da ridotti livelli di vendita, oppure introducendo nuovi prodotti in mercati standard e variando il mix commerciale oﬀerto presso alcuni punti vendita.

164

5 Demand Analytics: analisi multidimensionale

curati, aﬃdabili e sostenibili mediante opportune azioni di marketing, produzione e distribuzione. Le metodologie ed i modelli di Data Mining sono inquadrabili all’interno di tre classi: modelli di clustering, di associazione, di classiﬁcazione. Clustering I modelli e gli algoritmi di clustering applicati al Demand Planning, cui `e dedicato il capitolo 7, si occupano di deﬁnire insiemi omogenei di entit` a prodotto-mercato, aventi caratteristiche simili per quanto concerne alcuni attributi, qualitativi o quantitativi, descrittivi delle propriet` a assunte dalle entit` a. La determinazione di cluster internamente omogenei aiuta i demand planner ad intraprendere azioni di marketing focalizzate, appositamente ritagliate sulle caratteristiche peculiari degli elementi componenti ciascun cluster; la qualit` a e l’eﬃcacia delle azioni di marketing, nonch´e la loro probabilit` a di successo, aumentano quanto maggiore `e la conoscenza dei comportamenti storici manifestati da un gruppo omogeneo di clienti, in relazione all’acquisto di un deﬁnito gruppo di prodotti. Ad esempio, sulla base dell’analisi degli attributi esplicativi colore, prezzo, fatturato (misurato nell’ultimo trimestre), i segmenti S1 , S2 , S3 e S4 sono risultati appartenere al medesimo cluster C1 , diverso dal cluster C2 contenente i segmenti S5 , S6 e S7 . Regole associative I modelli per la costruzione di regole associative (statiche o dinamiche) applicati al Demand Planning, cui `e dedicato il capitolo 8, mirano ad identiﬁcare associazioni di vendita ricorrenti nelle transazioni di acquisto dei consumatori, attraverso l’analisi statistica dei panieri di prodotti congiuntamente acquistati durante una stessa transazione di acquisto. Una regola associativa mette in evidenza l’acquisto frequente di uno speciﬁco sottoinsieme di prodotti, a parit` a di cliente, all’interno di diverse transazioni commerciali cronologicamente distinte. Una regola associativa pu` o essere di tipo statico o di tipo dinamico, dipendente dalla sequenza temporale in cui gli acquisti di prodotti si sono successivamente manifestati. Ad esempio, la regola R1 {se un cliente acquista il prodotto P 1 , allora acquista anche il prodotto P 2 nella medesima transazione, con probabilit` a 85% } `e di tipo statico, in quanto si riferisce ad acquisti congiunti all’interno della singola transazione commerciale. Al contrario, la regola R2 {se un cliente acquista il prodotto P 1 in una transazione, allora acquista lo stesso prodotto in almeno una delle prossime tre transazioni, con probabilit` a 70% } `e di tipo dinamico, in quanto gli eventi di acquisto si manifestano in corrispondenza di transazioni temporalmente distinte. Classiﬁcazione I modelli e gli algoritmi di classiﬁcazione applicati al Demand Planning, cui `e dedicato il capitolo 9, hanno l’obiettivo di assegnare un valore, variabile all’interno di un dominio discreto, ad un attributo target che descrive un processo operativo di Demand Planning, in corrispondenza di diversi segmenti prodotto-mercato,

5.2 Analisi multidimensionale

165

mediante l’analisi dei valori degli attributi esplicativi disponibili per tali segmenti. Classiﬁcare un segmento signiﬁca associare una classe (o etichetta) univoca, mediante l’applicazione deterministica o probabilistica di una sequenza di regole di classiﬁcazione, derivate in modo induttivo da una serie di dati storici di cui si conoscono sia i valori del target sia i valori degli attributi descrittivi. Ad esempio, una regola di classiﬁcazione pu`o descrivere la probabilit`a che un cliente aderisca ad una campagna di marketing (valori possibili: s`ı, no) conoscendo il valore di fatturato generato da tale cliente nell’ultimo trimestre, il numero di acquisti eﬀettuato nell’ultimo anno, la frequenza di acquisto di un certo paniere di prodotti, la frequenza di adesione a precedenti promozioni basate sullo sconto del prezzo di vendita dei prodotti.

5.2 Analisi multidimensionale 5.2.1 Introduzione al data browsing L’analisi multidimensionale dei dati di domanda avviene attraverso l’esplorazione delle misure quantitative, storicizzate nel datawarehouse, lungo le dimensioni di analisi disponibili, percorrendo le molteplici gerarchie di navigazione per ciascun asse. Almeno tre dimensioni devono esistere per poter analizzare i dati storici e le prestazioni delle misure di domanda, dei piani di marketing, di produzione e di distribuzione: prodotto, mercato, tempo. Ciascun utente analista di Demand Planning dispone delle seguenti propriet` a di accesso ai cubi di dati multidimensionali: • pu` o accedere ad una limitata porzione di entit` a prodotto, mercato, tempo, in relazione al proprio dominio analitico. Ad esempio, gli utenti sales representative del mercato Italia possono analizzare i dati di prodotto relativi alle vendite, al fatturato ed al livello di servizio esclusivamente con accesso limitato a tutti i punti vendita ubicati nelle citt` a italiane, eventualmente aggregando i valori di domanda per citt` a o per regione, per zona logistica, per deposito regionale di rifornimento, ecc.; • pu` o accedere ad un deﬁnito insieme di KPI relativi ai soli processi di Demand Planning e S&OP direttamente presidiati; • pu` o accedere ai dati storici in sola lettura; • viene abilitato ad eseguire un determinato insieme di funzionalit` a di navigazione sui dati. Ad esempio, un utente pu` o visualizzare tabelle pivot e correlogrammi costruiti da altri utenti amministratori del datawarehouse, senza poter creare viste e report propri. Per ciascuna misura di prestazione, i cui valori numerici sono archiviati nelle tabelle dei fatti, esiste una serie di valori target, cadenzati nel tempo, ed una serie di valori consuntivi. L’analisi multidimensionale dei dati prevede di progettare, per ciascuna misura di prestazione:

166

5 Demand Analytics: analisi multidimensionale

1. l’articolazione in dimensioni di analisi; 2. le modalit` a di aggregazione e disaggregazione dei valori numerici durante le attivit` a di navigazione lungo le gerarchie; 3. il livello di massima granularit` a nei dati. Ad esempio: • la misura domanda `e deﬁnita secondo gli assi {prodotto, mercato, tempo} ed i relativi dati sono disponibili, al livello di massimo dettaglio, ai livelli {SKU, negozio, giorno}; • la misura prezzo di vendita `e deﬁnita secondo gli assi {prodotto, tempo} ed i relativi dati sono disponibili, al livello di massimo dettaglio, ai livelli {famiglia di prodotti, mese}; • la misura sales target `e deﬁnita secondo gli assi {prodotto, mercato, tempo, canale} ed i relativi dati sono disponibili, al livello di massimo dettaglio, ai livelli {linea di prodotti, zona di vendita, trimestre, canale di vendita}. Dai tre esempi menzionati, si pu` o dedurre che: • la domanda storica `e deﬁnita ai tre livelli bottom degli assi {prodotto, mercato, tempo}, e non `e ulteriormente disaggregabile n´e dettagliabile secondo una quarta dimensione aggiuntiva di analisi; • il prezzo di vendita `e, per ipotesi di business, costante su ciascun mercato, variabile per famiglia di prodotti (costante all’interno dei prodotti appartenenti alla stessa famiglia commerciale) e su ogni mese (nelle settimane di ciascun mese il prezzo di listino dei prodotti non viene variato); • l’obiettivo di vendita (sales target ) `e dettagliato per linea di prodotto, per zona di vendita (`e quindi omogeneo per tutti i negozi ubicati nella medesima zona), per trimestre e per canale di vendita (quarta dimensione aggiuntiva). La domanda storica viene confrontata con il target di vendita nel modo seguente: dapprima il sales target viene consolidato lungo la quarta dimensione relativa ai canali di vendita (tale dimensione viene rimossa, dal punto di vista logico), aggregando i valori per tutti i canali di vendita; successivamente, i dati storici di domanda, ora disponibili ai livelli bottom {SKU, negozio, giorno}, vengono aggregati, separatamente per ciascun asse, ﬁno a ricondursi ai livelli di massimo dettaglio per la misura sales target, cio`e {linea di prodotti, zona di vendita, trimestre}, secondo le seguenti gerarchie: • asse prodotto: da prodotti a famiglia di prodotti, quindi a linea di prodotti ; • asse mercato: da negozio a zona di vendita; • asse tempo: da giorno a settimana, quindi a mese, inﬁne a trimestre. I dati relativi alle misure di prestazione possono essere navigati dagli analisti di business secondo due direzioni principali: in modalit` a orizzontale e in modalit` a verticale. Le operazioni logiche ed algebriche di aggregazione, disaggregazione, esplosione o consolidamento dimensionale si chiamano primitive di navigazione.

5.2 Analisi multidimensionale

167

5.2.2 Operazioni di data browsing: navigazione orizzontale Durante la navigazione orizzontale, il demand planner focalizza la propria attenzione su una speciﬁca n-upla di livelli gerarchici, uno per ciascun asse, all’interno della quale analizza i valori numerici di un insieme di misure di prestazione. Tre operazioni sono possibili, in questa modalit` a di browsing dei dati: • slice and dice: operazione di ﬁltraggio delle entit` a; • drill-through: operazione di inserimento/rimozione di dimensioni; • pivoting: rotazione degli assi dimensionali sulle viste di dati. Slice and dice Il ﬁltraggio per entit` a implica la selezione di un insieme limitato di prodotti, mercati, periodi, sulla base di assegnati criteri logico-aritmetici di estrazione: • criteri statici : ﬁltrano le entit` a sulla base dei valori degli attributi esplicativi o degli attributi gerarchici da esse posseduti; • criteri dinamici: selezionano le entit` a mediante condizioni algebriche sui valori di alcune misure. Mediante un criterio statico, `e ad esempio possibile selezionare i prodotti di colore rosso, di peso unitario inferiore a 5 kg, venduti all’interno di mercati della regione Lazio (regione `e la categoria padre di citt` a, a sua volta padre della categoria punto vendita), in periodi compresi fra Febbraio 2007 e Febbraio 2008. Mediante un criterio dinamico, `e invece possibile selezionare i prodotti caratterizzati da un valore di domanda, per ciascun punto vendita e per ciascun mese, superiore al valore soglia 1200 M$. La tabella 5.3 mostra il risultato dei due criteri di ricerca esempliﬁcati, con riferimento ad un dataset contenente 12 fatti transazionali. La penultima colonna della tabella riporta i risultati relativi al criterio statico (CS ), per ciascun record; l’ultima colonna riporta i risultati per il criterio dinamico (CD) basato sul valore della domanda di periodo. Drill-through Una seconda operazione di navigazione orizzontale `e data dall’inserimento o dalla rimozione di dimensioni di analisi (drill-through), per meglio dettagliare i dati (esplosione nei dettagli, nel caso dell’inserimento di una dimensione; consolidamento su un asse, nel caso di eliminazione di una dimensione di analisi). Ad esempio, i valori di domanda, disponibili per prodotto, mercato e tempo, possono essere esplosi nella dimensione stabilimento produttivo, identiﬁcando in questo modo la provenienza logistica dei lotti di vendita. La tabella 5.4 mostra un esempio numerico di inserimento della quarta dimensione sulla misura domanda, inizialmente deﬁnita su tre assi. Pivoting L’operazione di pivoting consiste nell’organizzare il layout graﬁco di presentazione

168

5 Demand Analytics: analisi multidimensionale Tabella 5.3. Esempio di tabella dei fatti per la domanda e risultati dei ﬁltri

SKU colore peso cliente regione periodo (mese) domanda (MS) CS CD P1 P1 P1 P1 P1 P1 P2 P2 P2 P3 P3 P3

rosso rosso rosso rosso rosso rosso giallo giallo giallo rosso rosso rosso

4 4 4 4 4 4 2 2 2 7 7 7

kg kg kg kg kg kg kg kg kg kg kg kg

C1 C1 C1 C2 C2 C2 C1 C1 C1 C2 C2 C2

Veneto Veneto Veneto Lazio Lazio Lazio Veneto Veneto Veneto Lazio Lazio Lazio

Gen07 Feb07 Mar07 Gen07 Feb07 Mar07 Gen07 Feb07 Mar07 Gen06 Feb06 Mar06

1000 1220 800 700 500 1300 1320 700 400 2400 1600 1400

no no no no ok ok no no no no no no

no ok no no no ok ok no no ok ok ok

Tabella 5.4. Esempio di inserimento di una quarta dimensione per la domanda prodotto

Cliente

periodo (mese)

domanda (MS)

P1

C1

Gen07

1000

P1

C1

Feb07

1220

P1

C1

Mar07

800

stabilimento produttivo

domanda per stabilimento

Roma Lione Nizza Roma Lione Nizza Roma Lione Nizza

200 600 200 320 450 450 150 600 50

di una vista multidimensionale di dati, deﬁnendo la posizione relativa degli assi monodimensionali. In altri termini, vengono deﬁniti i criteri di esplosione dei dati sulle dimensioni che si vogliono associare ad una vista di misure come visualizzazione di default (a meno, cio`e, di successive operazioni di drill-through dimensionale). Per ciascuna dimensione che si vuole inserire in una vista, occorre speciﬁcare: • i livelli gerarchici di visualizzazione iniziale, da settare prima che l’utente compia qualsiasi operazione di navigazione (ad esempio: {SKU, negozio, giorno}, per le dimensioni {prodotto, mercato, tempo}); • il posizionamento di primo livello: la dimensione pu` o essere inserita sulle righe oppure sulle colonne della tabella dei fatti (di cui la vista costituisce un’estrazione selettiva);

5.2 Analisi multidimensionale

169

• il posizionamento di secondo livello: a quale livello di esplosione relativa si vuole posizionare la dimensione. Ad esempio, una vista tridimensionale contenente la misura di domanda pu` o essere organizzata in molteplici visualizzazioni di pivoting, quali ad esempio: 1. righe → prodotti, mercati, domanda; colonne → periodi ; ordine di esplosione ad albero: (1) prodotti, (2) mercati ; (tabella 5.5) 2. righe → prodotti, periodi, domanda; colonne → mercati ; ordine di esplosione ad albero: (1) prodotti, (2) periodi ; (tabella 5.6) 3. righe → mercati, periodi, domanda; colonne → prodotti ; ordine di esplosione ad albero: (1) periodi, (2) mercati ; (tabella 5.7) ferma restando la scelta dei livelli gerarchici inizialmente visualizzabili. 5.2.3 Operazioni di data browsing: navigazione verticale La navigazione verticale avviene lungo le gerarchie in cui sono strutturati gli assi dimensionali. Gli utenti aggregano e disaggregano i valori numerici delle misure all’interno delle tabelle dei fatti, percorrendo in modo ascendente o discendente i livelli monodimensionali di ciascuna dimensione di analisi. Per deﬁnire univocamente la modalit` a di navigazione verticale negli workﬂow occorre speciﬁcare: • bottom-up: con quale operatore di consolidamento si aggregano i dati numerici dai livelli gerarchici inferiori (entit` a disaggregate) a quelli superiori (entit`a aggregate); • top-down: con quale operatore di suddivisione si disaggregano i dati da livelli gerarchici superiori a livelli inferiori, in maniera coerente con la modalit` a di aggregazione precedentemente deﬁnita. Le modalit`a di navigazione verticale bottom-up e top-down deﬁniscono gli workﬂow analitici dei demand planner, all’interno dei cubi di analisi. La tabella 5.8 esempliﬁca due esempi di aggregazione: • il primo, basato sulla somma algebrica dei valori ﬁgli (misura: domanda); • il secondo, basato sulla media uniforme dei valori ﬁgli (misura: prezzo di vendita); ed un esempio di disaggregazione, basato sulla divisione uniforme sul numero di valori ﬁgli (misura: sales budget). La ﬁgura 5.2 schematizza graﬁcamente le operazioni di aggregazione, disaggregazione, inserimento di dimensione e ﬁltraggio orizzontale, cui si `e fatto riferimento in questo paragrafo; la dimensione di analisi `e quella di mercato, la dimensione inserita `e il tempo.

170

5 Demand Analytics: analisi multidimensionale Tabella 5.5. Visualizzazione pivot per prodotti −→ mercati −→ periodi

P1 P1 P1 P2 P2 P2

C1 C2 C3 C1 C2 C3

T1

T2

T3

T4

10 30 100 40 5 5

20 25 40 10 20 25

40 70 20 5 30 25

70 20 100 30 10 25

Tabella 5.6. Visualizzazione pivot per prodotti −→ periodi −→ mercati

P1 P1 P1 P1 P2 P2 P2 P2

T1 T2 T3 T4 T1 T2 T3 T4

C1

C2

C3

10 20 40 70 40 10 5 30

30 25 70 20 5 20 30 10

100 40 20 100 5 25 25 25

Tabella 5.7. Visualizzazione pivot per periodi −→ mercati −→ prodotti

T1 T2 T3 T4

C1 C2 C3 C1 C2 C3 C1 C2 C3 C1 C2 C3

P1

P2

10 30 100 20 25 40 40 70 20 70 20 100

40 5 5 10 20 25 5 30 25 30 10 25

5.2.4 Operatori di aggregazione (roll-up) Gli operatori di aggregazione si riferiscono al consolidamento di un gruppo di entit` a di livello inferiore al livello immediatamente superiore, lungo una deﬁnita gerarchia su un asse dimensionale, nell’ambito degli workﬂow di analisi di Demand Analytics di tipo bottom-up. Ad esempio, si pu` o fare riferimento ad un insieme di misure deﬁnite secondo i tre assi principali {prodotto, mercato, tempo}, aggregabili secondo le gerarchie di navigazione riportate in ﬁgura 5.3.

5.2 Analisi multidimensionale

171

Tabella 5.8. Operatori di aggregazione e disaggregazione su tre misure SKU

cliente

P1

C1

C1

P1

misura

valore della misura

canale vendita

domanda plant

Gen07

domanda

1000

GDO

100 (a)

(a+b+c)

Retail

700 (b)

Gen07

C1

P1

periodo (mese)

prezzo

Feb07

sales budget

domanda totale

Altri

200 (c)

17

GDO

11 (d)

(d+e+f)/3

Retail

15 (e)

prezzo medio

Altri

25 (f)

1230

GDO

410 (g)

(g)=1230/3

Retail

410 (g)

ripartizione uniforme

Altri

410 (g)

ALL

LOMB

regione

CAST

filtraggio di store

MN

MI

città

CV

ripartizione da città a zona LOG 1

LOG 2

LOG 3

LOG 4

zona

aggregazione per zona C1

C6

C7

C8

C2

C3

C5

C4

C9

C10

C11

C12

C13

store

bottom level aggregazione per classe

A

B

ALL

C

2006

classe

2007

2008

anno

aggiunta della dimensione tempo

Figura 5.2. Operazioni di navigazione lungo la gerarchia dei mercati

Si elencano nel seguito i principali operatori di aggregazione delle misure, per passare da un generico livello inferiore (ad esempio, SKU per l’asse dei prodotti ) al livello gerarchico immediatamente superiore, secondo una gerarchia di navigazione (ad esempio, famiglia oppure colore nelle due gerarchie parallele per l’asse dei prodotti ). Secondo la terminologia propria delle analisi OLAP, tale operazione `e chiamata roll-up dei dati lungo una o pi` u gerarchie di analisi. L’operazione di roll-

172

5 Demand Analytics: analisi multidimensionale paese

linea

regione

gruppo

sottogruppo

famiglia

gruppo colore

città

colore

zona

classe

anno

canale distributivo

mese

sales rep

giorno

store

SKU

settimana

Figura 5.3. Esempio di gerarchie d’aggregazione sui tre assi principali

up multidimensionale viene eﬀettuata muovendosi sequenzialmente lungo una gerarchia per volta. Ad esempio, riferendosi alla ﬁgura 5.3, per aggregare una misura dai livelli {SKU, store, giorno} ai livelli {gruppo colore, canale distributivo, anno}, vengono eﬀettuate le seguenti operazioni elementari di roll-up monodimensionale: 1. aggregazione secondo la direzione SKU → colore → gruppo colore; 2. aggregazione secondo la direzione store → sales rep → canale distributivo; 3. aggregazione secondo la direzione giorno → settimana → mese → anno. L’ordine con cui viene compiuto il percorso di aggregazione `e indiﬀerente. I percorsi di roll-up possono anche essere di tipo misto, attraversando pi` u volte la stessa dimensione; ad esempio: SKU → colore → store → sales rep → gruppo colore → giorno → settimana → mese → canale distributivo → anno. Somma algebrica Il pi` u semplice criterio per aggregare i valori di una misura dal livello bottom ai livelli superiori `e dato dalla somma algebrica dei valori delle entit` a “ﬁglie”, consolidati sulle entit` a “padre”. Ad esempio, deﬁnita D(p,c,t) la domanda per il prodotto ﬁnito p (al livello bottom), presso il punto vendita c (al livello bottom), rilevata nel giorno t (al livello bottom), la domanda totale per tutti i prodotti appartenenti alla famiglia F k`e data da: D(Fk , c, t) = D(p, c, t) , ∀k = 1, . . . , card{F } , p∈Fk

essendo card{F } il numero di famiglie di prodotto, cio`e il numero di entit` a che popolano il livello famiglia sull’asse dei prodotti. Il valore di domanda al livello top nella gerarchia dei prodotti pu` o essere calcolato, rimanendo al livello famiglia, sommando su tutte le card{F } famiglie di prodotto presenti su tale livello: card{F }

D(c, t) =

k=1

D(Fk , c, t) =

card{F }

k=1

p∈Fk

D(p, c, t) ,

5.2 Analisi multidimensionale asse mercato

X

città

Z(A)

C1

asse tempo

C2

C3

173

C4

Z(B)

zona

C5

C6

store sku 1

G1

sku 2

S1 G2

sku 3

M

D(C4, G3) G3

mese

sku 4

S1

settimana

sku 5

G4

giorno sku 6

Figura 5.4. Esempio di consolidamento totale lungo l’asse dei prodotti

eseguendo il consolidamento totale della domanda sull’asse dei prodotti, come mostrato anche in ﬁgura 5.4, avendo posto c = {C4 }, t ={G3 }. La quantit` a D(c,t) rappresenta una vista bidimensionale sulla domanda: in questo caso, `e la domanda totalmente consolidata lungo l’asse dei prodotti. L’operatore di somma algebrica `e invariante rispetto all’ordine di applicazione lungo le dimensioni di analisi. Deﬁniti card{P }, card{C} e card{T } le cardinalit` a dei livelli bottom di prodotto (SKU ), mercato (store) e tempo (giorno), il totale della domanda commerciale per tutti i prodotti del mix, su tutti i mercati esistenti, lungo un determinato intervallo temporale storico, `e indiﬀerentemente calcolabile come: card{T } card{C} card{P }

D=

t=1

c=1

p=1

card{C} card{T } card{P }

D(p, c, t) =

card{T } card{P } card{C}

=

t=1

p=1

c=1

=

c=1

p=1

t=1

c=1

t=1

p=1

D(p, c, t) =

card{P } card{T } card{C}

D(p, c, t) = =

card{C} card{P } card{T }

p=1

t=1

c=1

D(p, c, t) =

card{P } card{C} card{T }

D(p, c, t) =

p=1

c=1

t=1

D(p, c, t) .

La somma algebrica rappresenta il criterio pi` u naturale per aggregare dati numerici di domanda, espressi in unit`a ﬁsiche o monetarie, e, pi` u in generale, misure

174

5 Demand Analytics: analisi multidimensionale

Tabella 5.9. Report di consolidamento parziale/totale lungo tre assi dimensionali

“additive” quali il fatturato, le quantit` a relative ai piani di produzione, di acquisto e di spedizione. La tabella 5.9 mostra un esempio numerico di consolidamenti bidimensionali o monodimensionali sui dati storici di domanda, inizialmente disaggregati per SKU, store, mese. Nel report di cui alla tabella 5.9 sono riportate le viste di consolidamento: • totale vendite per segmento, a totale mese (cio`e su tutto il 2007); • totale vendite per prodotto, a totale mese (2007) e a totale mercato (C1 + C2 + C3 + C4 ); • totale vendite per combinazione mercato-mese, a totale prodotto (P1 + P2 + P3 + P4 ); • totale vendite per mercato, a totale mese (2007) e a totale prodotto (P1 + P2 + P3 + P4 ). Media semplice La media semplice si calcola pesando uniformemente, con media aritmetica, i valori di una misura dal livello inferiore al livello superiore, per tutte le entit` a “ﬁglie” che appartengono ad una speciﬁca entit` a “padre”. Ad esempio, deﬁnito π(p,c,t) il prezzo di vendita per il prodotto ﬁnito p, presso il punto vendita c, rilevato nel giorno t, il prezzo di vendita medio per tutti i prodotti appartenenti alla famiglia

5.2 Analisi multidimensionale

175

Fk , venduti presso il negozio c nel giorno t, `e dato da: π(p, c, t) π(Fk , c, t) =

p∈Fk

card{Fk }

,

∀k = 1, . . . , card{F } ,

essendo card{Fk } il numero di prodotti distinti all’interno della famiglia Fk . Misure riferite dimensionalmente all’unit` a di prodotto o di tempo sono solitamente aggregate mediante l’operatore media (ad esempio, il prezzo o il costo unitario di prodotto, espressi in unit` a monetarie per unit` a di prodotto [$/kg], [Euro/pezzo]). Media pesata La media pesata si calcola pesando in maniera non uniforme, secondo un opportuno sistema di pesi relativi, i valori di una misura dal livello inferiore al livello superiore, per tutte le entit` a “ﬁglie” che appartengono ad una speciﬁca entit` a “padre”. Ad esempio, deﬁnita D(p,c,t) la domanda per il prodotto ﬁnito p, presso il punto vendita c, rilevata nel periodo t, la domanda media pesata per tutti i prodotti appartenenti alla famiglia Fk , venduti presso il negozio c nel giorno t, `e data da: w(p) · D(p, c, t) p∈Fk D(Fk , c, t) = , ∀k = 1, . . . , card{F } , w(p) p∈Fk

essendo w(p) il peso relativo del prodotto p-esimo all’interno della famiglia Fk . La somma dei pesi relativi w(p) non deve necessariamente essere pari a 1, sulla base della deﬁnizione sopra riportata per l’operatore media pesata. Esistono diversi criteri di assegnazione dei pesi relativi, in relazione al contesto del Demand Planning. Ad esempio, pu` o risultare utile sommare la domanda dei singoli prodotti, pesando le quantit` a relative • sulla base del prezzo di vendita del prodotto; • sulla base dell’importanza relativa di mix dei singoli prodotti, alcuni dei quali sono strategici nella loro famiglia di appartenenza, altri sono basso-vendenti. Aggregando invece le quantit`a di domanda lungo l’asse dei tempi, a parit` a di segmento prodotto-mercato, `e utile pesare i singoli mesi, consolidati in trimestri ed in anni, pesandoli sul numero di giorni eﬀettivi di apertura del punto vendita, considerando cio`e: • la diﬀerente durata dei mesi, secondo il calendario standard; • il calendario di vendita, comprensivo di festivit` a ordinarie e straordinarie. Minimo Una possibile metrica di aggregazione per le entit` a disaggregate ai livelli inferiori `e data dal valore minimo fra i valori assunti da una misura, deﬁnito nel modo seguente, con riferimento alla domanda di mercato D(p,c,t) e ad una generica

176

5 Demand Analytics: analisi multidimensionale

famiglia di prodotti Fk : Dmin (Fk , c, t) = min D(p, c, t) . p∈Fk

Il valore minimo Dmin rilevato in corrispondenza di una misura `e utile per identiﬁcare la performance peggiore erogata per le vendite di un prodotto, di un mercato, in un periodo. Il responsabile della famiglia Fk di prodotti `e interessato a identiﬁcare la business unit o il segmento prodotto-mercato in corrispondenza del quale si sono registrate le vendite minime, al ﬁne di derivarne le cause ed intraprendere le necessarie azioni correttive. Massimo La metrica speculare rispetto al minimo `e data dal valore massimo fra quelli assunti da una misura, sempre deﬁnito facendo riferimento alla domanda di mercato D(p,c,t) e ad una generica famiglia di prodotti Fk : Dmax (Fk , c, t) = max D(p, c, t) . p∈Fk

Il valore massimo Dmax `e utile per identiﬁcare la miglior performance erogata in corrispondenza di una certa entit` a di livello inferiore. Se, ad esempio, l’aggregazione basata sul massimo valore `e operata dal livello temporale giorno al livello superiore settimana, si vuole valutare in quale giorno di una certa settimana si sono registrate le maggiori vendite per un certo segmento prodotto-mercato. Count if L’operatore di aggregazione basato sul conteggio condizionato somma solamente il numero di entit` a di livello inferiore che soddisfano una determinata condizione. Ad esempio, si vogliono contare quante entit` a di livello SKU hanno valore di domanda, a parit` a di mercato e periodo, superiore ad una soglia D*: count if(Fk , c, t) = card{p ∈ Fk |D(p, c, t) > D∗ } . Un caso pi` u generale dell’operatore di conteggio condizionato `e dato dal conteggio totale (count all ) del numero di entit` a “ﬁglie” che appartengono ad un’entit` a “padre”. Nel caso delle entit` a prodotto che appartengono gerarchicamente alla famiglia Fk si ha: count all(Fk , c, t) = card{p ∈ Fk } . L’operatore di conteggio condizionato pu` o anche essere espresso in percentuale, per mettere in evidenza la quota percentuale di entit` a che soddisfano ad un certo requisito di domanda minima, prezzo massimo, fatturato minimo, ecc. Il valore del conteggio condizionato percentuale `e funzione di count if e count all : count if%(Fk , c, t) = 100 ·

card{p ∈ Fk |D(p, c, t) > D∗ } . card{p ∈ Fk }

5.2 Analisi multidimensionale

177

5.2.5 Splitting La ripartizione di un valore numerico aggregato di una misura da un livello gerarchico superiore ad uno inferiore lungo un asse dimensionale, verso un insieme di entit` a “ﬁglie” aggregate sulla stessa entit` a “padre”, prende il nome di • drill-down, secondo la terminologia dei cubi OLAP; • splitting o allocation, secondo la terminologia di Demand Planning. In entrambi i casi, una quantit` a aggregata Q, inserita in corrispondenza di un punto n-dimensionale aggregato, deve essere ripartita, lungo una gerarchia monodimensionale, verso entit`a disaggregate. Ad esempio, una quantit`a Q di budget di vendita inizialmente allocata al punto tridimensionale {SKU 1 , zona A , Gennaio 2008} deve essere divisa sugli store appartenenti alla zona A . Successivamente, per ciascuna tripla {SKU, store, mese}, deve essere eseguita una suddivisione dei valori di budget assegnati a ciascun mese sulle singole settimane componenti. Si tratta di una doppia operazione di drill-down, dapprima lungo l’asse dei mercati, quindi lungo l’asse dei tempi. Le operazioni di allocazione o ripartizione di quantit` a totali verso entit` a disaggregate trovano impiego, nell’ambito dei processi di Demand Planning, in fase di deﬁnizione del sales forecast o del budget delle vendite. Tali operazioni sono compiute all’interno dei sistemi APS oppure nell’ambito dei datamart di Demand Planning, purch´e sia stata autorizzata l’editabilit` a dei valori aggregati da parte dei demand planner. I piani di domanda possono essere generati, manualmente dai demand planner o automaticamente dagli algoritmi di Sales Forecasting, • ai livelli bottom sulle dimensioni prodotto, mercato, tempo: in questo caso il problema dello splitting non sussiste; • a livelli aggregati secondo una o pi` u dimensioni di analisi. In quest’ultimo caso, poich´e la pubblicazione dei piani di domanda avviene ai massimi livelli di granularit` a sui tre assi principali, cio`e ai livelli fruibili da parte degli utenti operativi che presidiano i processi di Supply Chain Execution, l’operazione di ripartizione `e necessaria e deve essere accuratamente deﬁnita. Seguono due esempi di workﬂow in cui `e coinvolta l’operazione di drill-down monogerarchico. Workﬂow bottom-up/top-down Ai livelli bottom SKU, store, settimana, i demand planner deﬁniscono il sales forecast. Il piano formulato viene aggregato a livello zona (gruppo di store) e di famiglia (gruppo di SKU ). I responsabili di zona di vendita e di famiglia di prodotto si riuniscono per validare il piano di domanda ai livelli di analisi di loro pertinenza. I responsabili di zona/famiglia apportano localmente modiﬁche manuali ai valori previsionali di domanda a livello aggregato; ad esempio, incrementano i valori di sales forecast, sulla base di un insieme di ordini cliente di recente confermati. Sulla base di una opportuna misura di splitting, i valori di sales forecast aggregati vengono ripartiti dai livelli famiglia/zona ai livelli SKU /store.

178

5 Demand Analytics: analisi multidimensionale

Il piano di forecast, integrato con i piani di marketing, viene quindi pubblicato ai livelli disaggregati SKU, store, settimana. Eventualmente, il piano operativo di sales forecast pu` o essere ulteriormente proﬁlato ripartendo le quantit` a settimanali nei giorni standard di vendita di ciascuna settimana (lun-ven; lun-sab; ecc.), secondo basi di splitting standard che seguono i proﬁli tipici delle vendite nei negozi nell’arco della settimana. La ﬁgura 5.5 mostra un esempio numerico relativo alla prima parte del workﬂow illustrato (bottom-up): assegnati tre valori previsionali in corrispondenza degli store C1 , C2 e C3 , rispettivamente pari a 100, 200 e 300, il valore totale aggregato a livello zona (zona Z(A), il cui valore di forecast vale 600) mediante operazione di roll-up viene aggiornato, dal responsabile di zona, al nuovo valore 1500.

2100

X

città

3000

X

città

MODIFICA MANUALE ROLL-UP

600

Z(A)

C1

C2

100

200

1500

Z(B)

zona

C3

C4

C5

C6

300

400

500

600

store

1500

Z(A)

C1

C2

?

?

1500

Z(B)

zona

C3

C4

C5

C6

?

400

500

600

store

Figura 5.5. Roll-up e splitting sugli store in un workﬂow bottom-up/top-down

Workfow top-down/bottom-up Ai livelli aggregati famiglia, zona, settimana, i responsabili delle vendite per famiglia di prodotto e zona di vendita deﬁniscono il sales budget, basandosi su analisi di tipo economico sui KPI relativi al fatturato ed ai costi operativi; le quantit` a previsionali sono inserite manualmente ai livelli aggregati. Mediante doppio splitting automatico dei valori aggregati di budget vengono deﬁniti i valori disaggregati, ai livelli SKU, store, settimana. Gli utenti operativi analizzano i valori obiettivo di sales budget assegnati ed eventualmente propongono valori diﬀerenti, da sottoporre ai sales manager di livello superiore L’analisi degli scostamenti fra il budget totale pianiﬁcato ai livelli famiglia, zona, settimana ed il budget totale rivisto ai livelli SKU, store, settimana viene operata sia a livello aggregato globale, sia a livello disaggregato locale, laddove sono sorti problemi di conﬂittualit` a fra i responsabili di zona ed i venditori locali. Attraverso la predisposizione di meeting periodici, il processo di Consensus Based Forecasting conduce alla deﬁnizione del piano di budget condiviso e formalmente approvato da tutti i soggetti aziendali coinvolti. Al termine delle correzioni apportate al sales budget, si procede alla sua pubblicazione e diﬀusione all’interno dell’azienda, presso la struttura di vendita e di distribuzione, ai livelli di massima granularit` a SKU, store, settimana.

5.2 Analisi multidimensionale

179

Drill-through A prescindere dalla logica di ripartizione utilizzata per disaggregare i dati da un livello consolidato verso livelli gerarchici inferiori, `e possibile visualizzare dimensioni aggiuntive durante i percorsi di navigazione utilizzati, aumentando il livello di dettaglio granulare delle misure numeriche presenti nelle tabelle del datawarehouse. Ad esempio, `e possibile dettagliare i dati domanda, disponibili all’interno di una vista ai livelli SKU, store, settimana, aggiungendo la quarta dimensione logistica magazzino e la quinta dimensione produttiva stabilimento. Graﬁcamente si crea un albero gerarchico in cui si hanno, per le diverse misure: • valori consolidati, nei nodi radice (livelli di massima aggregazione prima dell’operazione di drill-through); • valori disaggregati e ripartiti secondo le opportune logiche di splitting, nei nodi foglia. La tabella 5.10 riporta un esempio numerico relativo all’operazione di inserimento dimensionale di drill-through, in cui il modello basato sulle dimensioni prodotto, mercato, tempo viene esploso nei dettagli delle dimensioni logistica e produzione; la misura domanda `e consolidata eﬀettuando la somma dei valori disaggregati sulle cinque dimensioni. 5.2.6 Operatori di ripartizione (drill-down) In questo paragrafo vengono esaminati i principali operatori di disaggregazione (drill-down) disponibili per la ripartizione di quantit` a aggregate di domanda verso entit` a ai livelli gerarchici inferiori, nel rispetto dei legami logici padre-ﬁglio fra le entit` a che popolano i diversi livelli nelle gerarchie OLAP di navigazione. Gli esempi numerici proposti per esempliﬁcare le diverse logiche di splitting si riferiscono alla suddivisione di valori aggregati lungo una singola gerarchia di navigazione. Risulta immediato estendere la trattazione al caso di splitting multidimensionale, procedendo allo splitting sequenziale su pi` u dimensioni, ad esempio, da semestre a giorno, da brand a singola SKU, da country a singolo store, transitando per tutti i livelli gerarchici intermedi fra i livelli top ed i livelli bottom. Ripartizione uniforme Lo splitting uniforme di una misura valorizzata a livello aggregato prevede la divisione di quantit` a totali consolidate, deﬁnite su entit` a “padre”, in modo uniforme su tutte le entit` a “ﬁglie”, indipendentemente dai valori eventualmente assunti in precedenza dalle singole entit` a ai livelli gerarchici inferiori. Sia Fk la famiglia kesima (livello famiglia) di prodotti ﬁniti (livello SKU ), tale per cui esistano Nk prodotti appartenenti a tale famiglia. Assegnata una quantit` a B(Fk ,c,t) di sales budget per la famigliaFk, per un certo mercato c ed in un dato istante t, a ciascuna SKU p-esima viene assegnata in modo uniforme la medesima quantit` a di sales budget B(p, c, t) =

B(Fk , c, t) , Nk

∀p = 1, . . . , Nk ,

Nk = card{p ∈ Fk } .

180

5 Demand Analytics: analisi multidimensionale Tabella 5.10. Esplosione gerarchica mediante aggiunta di due dimensioni

SKU

P1

P1

P1

store

settimana

C1

03 Gen07

C1

C1

02 Feb07

04 Mar07

domanda warehouse

2000

1330

820

domanda per magazzino

plant

domanda per plant warehouse

W1

800

plant A plant B

400 400

W2

600

plant A plant B

320 280

W3

600

plant A plant B

0 600

W1

330

plant A plant B

200 130

W2

550

plant A plant B

50 500

W3

450

plant A plant B

225 225

W1

150

plant A plant B

105 45

W2

600

plant A plant B

600 0

W3

70

plant A plant B

70 0

La ﬁgura 5.6 mostra un esempio numerico per lo splitting uniforme, riferendosi all’esempio precedentemente riportato in ﬁgura 5.5 relativo allo splitting lungo l’asse dei mercati, dal livello zona al livello store: a ciascuno dei tre clienti C1 , C2 e a, in base al valore inizialmente C3 viene allocato un budget uniforme pari a 500 unit` assegnato per la zona Z(A), pari a 1500 unit` a. Le precedenti proporzioni di budget, pari a 100, 200, 300 per gli store C1 , C2 e C3 , non sono rispettate dalla logica di ripartizione uniforme sul numero di elementi ﬁgli. Ripartizione pesata Lo splitting pesato di una misura valorizzata a livello aggregato prevede la divisione di quantit` a totali consolidate in quantit` a disaggregate, proporzionalmente ad una base esterna di splitting w. Ad esempio, il valore aggregato F di sales forecast su una zona di vendita, in corrispondenza di un prodotto p ed un periodo temporale t, viene ripartito sui singoli negozi proporzionalmente al valore di domanda storica manifestatasi nel passato (ad esempio, durante l’ultimo anno), per le diverse coppie prodotto-mercato. Assegnata una base di splitting w, i cui valori sono riferiti alle singole SKU, sulla quale eﬀettuare la ripartizione delle quantit` a aggregate F di sales forecast deﬁnite

5.2 Analisi multidimensionale 3000

1500

Z(A)

C1

C2

500

500

X

C3

500

181

città

1500

Z(B)

zona

C4

C5

C6

400

500

600

store

SPLITTING UNIFORME

Figura 5.6. Splitting uniforme sugli store in un workﬂow top-down

a livello famiglia di prodotti, la singola quantit` a assegnata a ciascuna entit`a ﬁglio SKU p-esima `e proporzionale al peso di splitting w(p) ad essa relativo: F (p, c, t) =

w(p) · F (Fk , c, t) , N k w(p)

∀p = 1, . . . , Nk ,

Nk = card{p ∈ Fk } .

p=1

La somma dei coeﬃcienti di splitting cw (p) relativi alla base di splitting w `e unitaria, in modo tale da distribuire l’intera quantit` a aggregata di sales forecast F (Fk ,c,t) sulle entit` a di livello inferiore: cw (p) :=

w(p) ; N k w(p)

Nk

cw (p) = 1 .

p=1

p=1

La ﬁgura 5.7 mostra un esempio numerico per lo splitting pesato, riferendosi all’esempio precedentemente riportato in ﬁgura 5.5, relativo alla disaggregazione lungo l’asse dei mercati del valore inizialmente assegnato per la zona Z(A), pari a 1500 unit` a, splittato dal livello zona al livello store: a ciascuno dei tre clienti C1 , C2 e C3 viene assegnato un budget proporzionale al valore di una misura esterna. Le precedenti proporzioni di budget, pari a 100, 200, 300 rispettivamente per gli store C1 , C2 e C3 , non sono pi` u rispettate. Ad esempio, il nuovo valore di budget assegnato allo store C1 , rispetto al nuovo totale iniziale di 1500 unit` a per la zona Z(A), `e calcolato come segue: B(p, C1 , t) =

1000 · 1500 w(C1 ) · B(p, Z(A), t) = = 93, 75 , 3 1000 + 5000 + 10000 w(Cc ) c=1

essendo il coeﬃciente di splitting pari a 1000/16000 per il cliente C1 .

182

5 Demand Analytics: analisi multidimensionale 3000

BASE ESTERNA

1500

Z(A)

C1

C2

X

C3

93,75

468,75 937,5

1000

5000

città

1500

Z(B)

zona

C4

C5

C6

400

500

600

store

10000

SPLITTING PROPORZIONALE ESTERNO

Figura 5.7. Splitting con base esterna sugli store in un workﬂow top-down

Come precedentemente sottolineato, un impiego tipico di ripartizione proporzionale ad una base esterna si veriﬁca nel caso in cui: • la misura oggetto di splitting `e il sales forecast, calcolato a livello aggregato su una o pi` u dimensioni; • la base di splitting `e la domanda storica, rilevata a consuntivo in un precedente intervallo temporale. Lo shift temporale τ di calcolo fra dati storici e previsioni future `e variabile. Ad esempio, per ripartire un piano di domanda • calcolato con gli algoritmi a livello aggregato di zona e su base settimanale • ﬁno al livello bottom store `e possibile utilizzare come base di splitting la domanda storica rilevata nell’esercizio precedente, durante la stessa settimana ed a parit` a di coppia SKU -store (in questo caso: τ = 52). In generale, la ripartizione da eﬀettuare `e la seguente, indicando con F il sales forecast e con D la domanda storica: F (p, storec , t) =

D(p, storec , t − τ ) · F (p, zona, t) , N zona D(p, storej , t − τ ) j=1

∀c = 1, . . . , Nzona ,

Nzona = card{c ∈ zona}.

Un caso particolare di splitting proporzionale ad una base esterna si veriﬁca quando la misura da disaggregare e la base di splitting coincidono: in tal caso, i valori aggregati vengono splittati in proporzione ai valori precedentemente assunti dalla stessa misura a livello disaggregato. In formule, riferendosi al caso della famiglia

5.2 Analisi multidimensionale

183

Fk (livello famiglia) di prodotti p (livello SKU ): F (p, c, t) =

F0 (p, c, t) · F (Fk , c, t) , N k F0 (p, c, t)

∀p = 1, . . . , Nk ,

Nk = card{p ∈ Fk },

p=1

a SKU p-esima, per il mercato c e nelessendo F0 (p,c,t) il sales forecast dell’entit` l’istante t, precedentemente proposto nella prima fase di bottom-up del workﬂow misto bottom-up/top-down. Si osservi che la logica di ripartizione proporzionale su base di splitting interna `e applicabile anche nel caso in cui il sales budget o il sales forecast a livello aggregato vengano ridotti, cio`e quando si veriﬁca che Nk

F0 (p, c, t) > F (Fk , c, t) ,

p=1

ad esempio perch´e i responsabili di zona decidono di concedere un ammontare di risorse inferiore alle richieste formulate dai gestori dei punti vendita locali. La ﬁgura 5.8 riporta un esempio numerico per il caso di splitting proporzionale ad una base di splitting “interna”.

3000

1500

Z(A)

C1

C2

250

500

città

X

1500

Z(B)

zona

C4

C5

C6

400

500

600

C3

750

store

SPLITTING PROPORZIONALE INTERNO

Figura 5.8. Splitting con base interna in un workﬂow bottom-up/top-down

Il caso di splitting pesato interno `e riferito, ancora una volta, all’esempio riportato in ﬁgura 5.5, relativo alla disaggregazione lungo l’asse dei mercati del valore inizialmente assegnato per la zona Z(A), pari a 1500 unit` a, splittato dal livello zona al livello store: a ciascuno dei tre clienti C1 , C2 e C3 viene assegnato un budget proporzionale al valore della medesima misura, il sales forecast. Le precedenti proporzioni di sales forecast, pari a 100, 200, 300 per gli store C1 , C2 e C3 , vengono rispettate dalla logica di ripartizione proporzionale interna. Ad esempio, il nuovo

184

5 Demand Analytics: analisi multidimensionale

valore di sales forecast assegnato allo store C1 , rispetto al nuovo totale di 1500 unit` a per la zona Z(A), `e calcolato come segue: F (p, C1, t) =

100 · 1500 F0 (p, C1 , t) · F (p, Z(A), t) = = 250, 00 , 3 100 + 200 + 300 F0 (p, Cc , t) c=1

essendo il coeﬃciente di splitting pari a 100/600 per lo store C1 . 5.2.7 Quadro sintetico delle operazioni di browsing dimensionale A conclusione dell’analisi delle primitive di navigazione utilizzabili nel data browsing dei cubi di dati OLAP, vengono riassunte in tabella 5.11 le modalit` a di navigazione gerarchica sui dati di domanda e sui KPI da essi derivabili. Tabella 5.11. Primitive di navigazione nei cubi OLAP di Demand Planning operazione OLAP

operatori algebrici

roll-up (aggregazione)

• • • •

Drill-down (disaggregazione)

• ripartizione uniforme • ripartizione pesata esterna • ripartizione pesata interna

drill-through

• aggiunta di dimensione • rimozione di dimensione

Pivoting

• livelli gerarchici • righe/colonne • ordine di esplosione

slice and dice

• ﬁltri statici • ﬁltri dinamici

somma media semplice/pesata minimo/massimo count if

6 Demand Analytics: analisi statistica e KPI

Analisi statistica delle serie storiche – KPI Analysis

6.1 Analisi statistica delle serie storiche 6.1.1 Finalit` a dell’analisi statistica Con riferimento ai processi di Demand Analytics, l’analisi statistica dei dati storici prescrive il calcolo di un insieme completo di indicatori statistici ﬁnalizzati a descrivere sinteticamente le caratteristiche quantitative di una serie storica temporalmente cadenzata (ad esempio, le rilevazioni storiche della domanda commerciale e le diverse edizioni di sales forecast) o di un insieme di valori alfanumerici relativi ad attributi esplicativi della domanda e delle sue determinanti esterne. Gli obiettivi dell’analisi statistica sui dati presenti nel datamart di Demand Planning sono molteplici, nel seguito descritti. Sintesi numerica. Le analisi di business intelligence sui dati consuntivi delle serie storiche di vendita sono meglio intelligibili se operate mediante il calcolo di un cruscotto di indicatori statistici di sintesi, orientati a descrivere le caratteristiche di variabilit` a numerica dei valori occorsi nel passato, evidenziando la media e la varianza dei valori di domanda in corrispondenza dei segmenti prodotto-mercato, i valori estremi del range di variazione dei valori, la probabilit` a di occorrenza futura di valori inclusi all’interno di range. Identiﬁcazione di outlier. Dall’analisi statistica delle serie storiche di vendita e dei valori alfanumerici degli attributi esplicativi della domanda si possono identiﬁcare ed isolare valori numerici anomali, ricorrenti con probabilit` a prossima allo zero nelle serie storiche. La rimozione degli outlier `e parte integrante della fase di pulizia statistica delle serie storiche (sales cleaning), preliminare alla generazione del piano previsionale di domanda mediante algoritmi e modelli matematici di sales forecasting. Finalit` a predittiva. Le analisi statistiche supportano inﬁne l’utilizzo predittivo delle serie storiche mediante l’analisi delle componenti di domanda. La conoscenza delle componenti di una serie storica, quali stagionalit` a, trend e ciclicit` a, permette Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

186

6 Demand Analytics: analisi statistica e KPI

la loro proiezione nel futuro per generare il sales forecast, ed incrementa la conoscenza dei demand planner circa i fenomeni di vendita studiati. Ad esempio, attraverso la conoscenza della natura della domanda storica (serie continue stazionarie e non, sporadiche intermittenti, sporadiche stagionali, ecc.), `e possibile settare ed addestrare le classi di algoritmi pi` u eﬃcienti nel generare previsioni ad elevata accuratezza. Conoscere, ad esempio, il valor medio di periodo della domanda storica in un certo segmento prodotto-mercato e su una base temporale di riferimento, `e d’ausilio ai responsabili di produzione e di logistica per il dimensionamento eﬃciente delle risorse manifatturiere e distributive lungo i canali commerciali della ﬁliera logistica. Inoltre, la conoscenza dei valori estremi appartenenti ad un intervallo di conﬁdenza per la domanda di un segmento prodotto-mercato consente di stimare i casi migliore e peggiore in termini di carico di domanda da dover evadere, nel medio-breve periodo, con le risorse logistico-produttive disponibili, eventualmente facendo ricorso alla subfornitura di prodotti ﬁniti o servizi logistici erogati da aziende partner nella Supply Chain Network. Nei paragraﬁ successivi vengono descritte le principali metriche dell’analisi statistica dei dati storici, suddividendo la trattazione nei due casi di • analisi univariata dei dati : un solo attributo, numerico o categorico, `e preso in considerazione e valutato nella sua progressione temporale; • analisi bivariata dei dati: due attributi sono analizzati in modo congiunto fra loro, al ﬁne di individuare eventuali legami frequenti di correlazione e di causaeﬀetto. L’analisi statistica per gli attributi categorici (non numerici) `e rimandata al capitolo 7 relativo ai metodi di clustering. 6.1.2 Analisi univariata: indici di posizionamento La pi` u comune applicazione dell’analisi statistica univariata riguarda il calcolo di indicatori sintetici per le serie storiche di domanda, disponibili su diversi orizzonti temporali a diversa granularit` a. Gli indicatori per l’analisi univariata delle serie numeriche si suddividono, secondo quanto prescritto dalla statistica descrittiva tradizionale, in due categorie: • misure di posizionamento: media semplice, media pesata, media troncata, minimo, massimo, moda, mediana; • misure di dispersione: range di variazione, deviazione standard, varianza, coeﬃciente di variazione, indicatori di densit` a. In questo paragrafo vengono descritti gli indici di posizionamento per le serie storiche, in quello successivo le misure di dispersione. Il riferimento `e alle serie di domanda deﬁnite su tre generici livelli gerarchici di prodotto-mercato-tempo, in cui il valore puntuale di domanda viene indicato con la notazione D(p, c, t), in relazione al prodotto p, al mercato c, al bucket temporale t. Il generico segmento

6.1 Analisi statistica delle serie storiche

187

prodotto-mercato pu` o essere altres`ı identiﬁcato con l’indice i, per i = 1, . . . , m, essendo m il numero complessivo di serie storiche disponibili nel datawarehouse di Demand Planning. Una serie storica di domanda `e identiﬁcata da una sequenza di valori numerici, rilevati in corrispondenza di istanti temporali equidistanti, generalmente equispaziati con cadenza giornaliera, settimanale o mensile al loro livello di granularit` a minima. Per ciascun segmento prodotto-mercato `e disponibile una singola serie storica; nella presentazione degli indicatori statistici, `e possibile rimuovere l’indice i-esimo di segmento, lasciando in evidenza l’indice temporale t di progressione delle serie. La domanda puntuale pu` o quindi essere indicata con la semplice notazione D(t). L’intervallo temporale di rilevazione dei valori storici di domanda ha un’estensione pari a T periodi, numerati dal pi` u remoto al pi` u recente secondo la convenzione t = 1, . . . T , all’interno dei quali si distinguono due sottointervalli disgiunti per l’analisi dei dati: • training set : intervallo di lunghezza pari a Ts istanti temporali, `e utilizzato per l’addestramento dei modelli di sales forecasting. Il training set `e antecedente rispetto al successivo intervallo di serie storica, denominato test set: i primi periodi t = 1, . . . , Ts di una serie storica appartengono al training set; • test set : intervallo di lunghezza pari a T −Ts istanti temporali, `e utilizzato per la veriﬁca dell’accuratezza dei modelli di sales forecasting. I periodi appartenenti al test set sono indicati come t = Ts + 1, Ts + 2, Ts + 3, . . . , T − 1, T . Media semplice La media semplice di un insieme di T valori di una serie storica di domanda D(t) `e data dalla media aritmetica dei valori disponibili: μD =

T 1 D1 + D2 + . . . + DT . D(t) = T t=1 T

La media semplice rappresenta la principale metrica di posizionamento centrale di una distribuzione di valori in una serie. La media semplice risente fortemente di valori outlier eventualmente presenti nella serie storica, caratterizzati da: • ridotta frequenza di occorrenza; • valori numerici fortemente discosti dal valor medio della distribuzione. I valori outlier vengono ugualmente pesati, nel calcolo della media semplice, rispetto ai valori storici numericamente pi` u prossimi al valor medio, inﬂuenzando quindi in modo signiﬁcativo l’entit` a numerica di tale misura. Media pesata Un’estensione della media semplice `e data dalla media ponderata, in cui i valori di domanda sono moltiplicati per coeﬃcienti di importanza relativa (pesi), la cui somma `e pari all’unit` a. Deﬁnita una distribuzione di T pesi w(t), uno per ciascun

188

6 Demand Analytics: analisi statistica e KPI

valore della serie della domanda, la media pesata `e deﬁnita tramite la relazione: T

μwD =

w(t) · D(t)

t=1 T

= w(t)

w1 D1 + w2 D2 + . . . + wT DT . w1 + w2 + . . . + wT

t=1

Un sistema di pesi opportunamente assegnato alla distribuzione della domanda pu` o cercare di risolvere il problema della presenza dei valori outlier, deﬁnendo ciascun peso w(t) in modo inversamente proporzionale alla distanza di ciascun valore puntuale D(t) della distribuzione dal valor medio μD : w(t) =

1 , f(D(t) − μD )

essendo f(.) una funzione deﬁnita proporzionalmente allo scarto dei valori puntuali D(t) dalla media della distribuzione. Minimo Il valore minimo di una distribuzione serve ad identiﬁcare, nel caso della domanda commerciale, il periodo in cui si `e registrata la domanda minima (worst case): Dmin =

min D(t) .

t=1,...,T

Massimo Il valore massimo di una distribuzione serve ad identiﬁcare, nel caso della domanda commerciale, il periodo in cui si `e registrata la domanda pi` u elevata (best case): Dmax = max D(t) . t=1,...,T

Conoscere il valore minimo ed il valore massimo della domanda, nell’arco di tutto l’intervallo di disponibilit` a dei dati storici, `e utile ai ﬁni del dimensionamento della capacit`a produttiva multiperiodo delle risorse di produzione e di distribuzione dei prodotti ﬁniti presso i punti vendita. Supponendo di produrre i prodotti ﬁniti nel medesimo periodo in cui si manifesta la domanda (piano di produzione di massima reattivit` a), identiﬁcare l’ammontare della domanda massima serve a dimensionare le risorse manifatturiere per sopportare il picco di domanda massima (periodo di maggiore saturazione delle risorse). Viceversa, il valor medio di una distribuzione storica di domanda serve a dimensionare nel modo pi` u livellato possibile il proﬁlo temporale di impiego delle risorse (piano di produzione di minima reattivit` a). Media troncata Assegnata una sequenza di valori di domanda D(t) ordinati in senso crescente, si deﬁnisce quantile di ordine y (0 ≤ y ≤ 1) un valore Qy tale che:

6.1 Analisi statistica delle serie storiche

189

140 120 100 80 60 40 20 0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20

domanda

12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 12 82 61

quantile inferiore

23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23 23

quantile superiore 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77

Figura 6.1. Range interquantile per y = 1/4

• yT valori di domanda sono inferiori al valore Qy ; • (1 − y)T valori di domanda sono superiori al valore Qy . La media troncata `e una media semplice che include nel calcolo i soli valori della serie storica di domanda interni fra i quantili Qy e Q1−y . Ad esempio, se y = 1/4, circa il 50% dei valori della serie storica `e inserito nella formula di calcolo della media semplice, esattamente quelli contenuti nella fascia di valori [Q0,25 ; Q0,75 ]. Indicata con xy (t) la variabile booleana che assume i seguenti valori: 1 , Qy ≤ D(t) ≤ Q1−y xy (t) = ; 0 , D(t) ∈ / [Qy ; Q1−y ] la media troncata simmetricamente al quantile y vale T

μ∗D (y)

=

xy (t) · D(t)

t=1 T

. xy (t)

t=1

L’utilizzo della media troncata aiuta a risolvere il problema della presenza di valori anomali all’interno della distribuzione della serie storica della domanda, isolando e rimuovendo implicitamente i primi e gli ultimi y% valori della distribuzione, ordinata in modo crescente sui T valori numerici disponibili. La ﬁgura 6.1 mostra un esempio di distribuzione dei valori di domanda per la seguente serie storica estesa su 20 periodi, ordinata in senso cronologico: {12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 129 82 61} . Per la serie storica, riportata alla riga domanda in ﬁgura 6.1, i quattro valori in corrispondenza dei bucket t = 1, 3, 6, 7 sono inferiori o uguali al valore Q0,25 = 23,

190

6 Demand Analytics: analisi statistica e KPI

i cinque valori per i bucket t = 13, 15, 16, 18, 19 sono superiori o uguali al valore Q0,75 = 77. Per il caso in esame, si ottengono i seguenti risultati: • la media semplice, estesa ai 20 bucket storici, vale μD = 54,80; • la media troncata per y = 1/4, estesa quindi agli 11 bucket t = 2, 4, 5, 8, 9, 10, 11, 12, 14, 17, 20, vale μ∗D = 51,10. Versioni sempliﬁcate della media troncata possono essere implementate al ﬁne di isolare gli outlier statistici, ad esempio rimuovendo dalla serie storica originaria i valori minimo e massimo: il valor medio della distribuzione viene calcolato quindi tramite la formula T 1 ∗ D(t) − (Dmin + Dmax ) . μD = T − 2 t=1 Nell’esempio numerico di cui alla ﬁgura 6.1, la media troncata escludendo i valori minimo e massimo della serie storica vale: 20 1 1 ∗ D(t) − (D7 + D18 ) = μD = (956 − (11 + 129)) = 53,11 . 20 − 2 t=1 18

Moda La moda di una distribuzione rappresenta il valore pi` u frequente riscontrato dall’analisi dei T valori disponibili. Una serie storica a T periodi assume un numero ﬁnito di valori distinti, al pi` u uguale a T ; assegnato un valore Dj di domanda, la sua frequenza relativa misurata su T periodi storici `e data da fj =

1 · card{t = 1, . . . , T |D(t) = Dj } , T

stante la relazione di esaustivit` a nel veriﬁcarsi dei possibili J(T ) valori distinti: J(T )

fj = 1 .

j=1

La frequenza relativa di occorrenza rilevata per i valori dei dati storici di domanda non pu` o essere assunta come stimatore statistico della probabilit`a che la domanda assumer`a tali valori anche in istanti temporali futuri: si pensi, ad esempio, • ad un proﬁlo di domanda storica priva di stagionalit` a e con una forte tendenza lineare crescente; oppure • ad un proﬁlo di domanda stazionaria, priva di stagionalit` a e di tendenza, lievemente variante attorno al valor medio, che presenta un gradino di discontinuit` a in corrispondenza di una sequenza continua di bucket, da un certo istante continuando nei successivi periodi storici.

6.1 Analisi statistica delle serie storiche

191

La moda M di una distribuzione di domanda `e il suo valore pi` u frequente: MD = Dj |fj =

max

w=1,...,J(T )

fw .

Mediana La mediana di una distribuzione di valori identiﬁca il valore centrale della serie. Ordinando in modo crescente i valori D(t), t = 1,. . . , T , della distribuzione storica della domanda, la mediana `e deﬁnita come: • il valore di domanda nel bucket (T + 1)/2, se T `e un numero dispari; • la media aritmetica dei due valori di domanda in corrispondenza dei bucket tinf = T /2 ;

tsup = (T + 2)/2 ,

se T `e un numero pari. L’indicatore statistico mediana non risente della presenza di outlier, localizzati alle estremit`a sinistra e destra della distribuzione ordinata di valori della serie. La mediana `e identiﬁcabile come quantile di ordine 0,5 di una distribuzione numerica. Esempio Il seguente esempio riassume, riferendosi alla serie storica del segmento prodottomercato riportato in ﬁgura 6.1, il calcolo dei valori delle metriche di posizionamento esposte in questo paragrafo. La ﬁgura 6.2 evidenzia, oltre ai valori della serie storica, i valore della base esterna di calcolo per la media pesata.

140 120 100 80 60 40 20 0 domanda

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20

12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 129 82 61

base esterna 10 25 30 35 20 10 25 25 30 40 10 25 20 25 10 10 20 25 10 10

Figura 6.2. Serie di domanda e base esterna per il calcolo della media pesata

192

6 Demand Analytics: analisi statistica e KPI

Si ottengono i seguenti risultati: • media semplice = 54,80; media pesata = 52,66; • minimo = 11; massimo = 129; moda: entrambi i valori 23 e 44, ciascuno avente frequenza 2/20 = 0,1 (tutti gli altri valori hanno frequenza 1/20 = 0,05); • mediana: si calcola come media aritmetica per i valori di domanda nei bucket tinf = 10 (pari a 46) e tsup = 11 (pari a 48): (46 + 48)/2 = 47. 6.1.3 Analisi univariata: indici di dispersione Alle metriche di posizionamento per le serie di domanda si aggiungono, nel quadro complessivo dell’analisi statistica univariata, indicatori di dispersione dei valori numerici attorno al valor medio, i quali misurano l’entit` a delle variazioni nei valori della serie, quindi la loro instabilit` a rispetto ai valori medi o ai valori pi` u frequenti. La conoscenza degli scarti riscontrati per una serie storica `e utile per dimensionare la domanda e, di conseguenza, le risorse logistico-produttive nel medio-lungo termine, nei periodi di picco di domanda o nei periodi di bassa richiesta da parte del mercato. Assegnato il valor medio μ di una distribuzione, esistono inﬁniti modi in cui i T valori della serie storica possono disporsi attorno a tale indicatore posizionale. In ﬁgura 6.3 sono presentate due serie storiche, D1 (t) e D2 (t), aventi la stessa media, pari a 330 unit` a di prodotto ﬁnito, ma diﬀerente dispersione attorno ad essa: la prima serie presenta valori minimo e massimo rispettivamente pari a D1,min = 10 e D1,max = 1400, la seconda serie valori meno dispersi, D2,min = 280 e D2,max = 395. Range di variazione Il range di variazione di una serie storica `e deﬁnito come la diﬀerenza fra valore massimo e valore minimo, calcolata sui valori dell’intervallo di ampiezza T : RD = Dmax − Dmin = max D(t) − min D(t) . t=1,...,T

t=1,...,T

1600 1400 1200 1000 800 600 400 200 0

1

2

3

4

5

6

7

8

9

10

11

12

serie D1

10

30

100

320

200

40

1000

200

320

130

1400

210

serie D2

280

290

340

315

330

360

350

390

290

395

315

305

Figura 6.3. Due serie aventi la stessa media e distribuzioni di valori diﬀormi

6.1 Analisi statistica delle serie storiche

193

Tale indicatore rappresenta l’intervallo di variabilit` a massima per i valori della serie, all’interno del quale viene a cadere il 100% dei valori D(t). Il range pu` o essere calcolato anche in corrispondenza dei quantili y e 1 − y, assegnato un valore y per l’estremo sinistro della distribuzione ordinata in senso crescente; il range interquantile si calcola come R∗D (y) = Q1−y − Qy . Varianza La varianza di una distribuzione rappresenta la principale misura di dispersione dei valori attorno al valor medio; i quadrati degli scarti sD (t) := D(t) − μD fra i valori puntuali D(t) ed il valor medio μD vengono sommati e divisi per il numero di osservazioni disponibili: 2 σD =

T 1 (D(t) − μD )2 . T t=1

All’aumentare del valore della varianza di una serie storica, aumenta il grado di dispersione dei valori attorno alla media centrale: i valori puntuali D(t) che risultano pi` u discosti rispetto al valore medio della distribuzione risultano maggiormente penalizzati, poich´e gli scarti sono elevati alla seconda potenza. La distribuzione storica della domanda D(t) rappresenta un insieme di T realizzazioni empiriche di una variabile causale oggetto di stima da parte di modelli di sales forecasting, le cui future occorrenze risultano cio`e caratterizzate da una distribuzione di probabilit` a incognita. Spesso si sostituisce alla varianza empirica 2 σD della distribuzione, calcolata sulle T occorrenze storiche, uno stimatore non distorto detto varianza campionaria, deﬁnito come 1 (D(t) − μD )2 . T − 1 t=1 T

2 σ ˆD =

Vale la seguente relazione, che giustiﬁca l’approssimazione della varianza empirica con la varianza campionaria, al crescere della dimensione T della serie storica: 2 = σˆD

T σ2 . T −1 D

Deviazione standard La deviazione standard di una serie storica D(t) `e deﬁnita dalla radice quadrata della sua varianza: 2 . σ D = σD

194

6 Demand Analytics: analisi statistica e KPI

Analoga relazione lega la deviazione standard campionaria alla varianza campionaria. L’unit` a di misura della deviazione standard `e la medesima di quella che caratterizza i valori della serie storica (unit`a ﬁsiche di volume, di peso, di tipo logistico, unit` a monetarie), quindi `e direttamente confrontabile con i valori puntuali D(t) e con il valor medio μD . Coeﬃciente di variazione Il coeﬃciente di variazione di una serie storica `e deﬁnito dal rapporto fra deviazione standard e valor medio della distribuzione dei valori:

2 T T D(t) − T1 T· D(t) σD t=1 t=1 . CVD = = T μD D(t) t=1

Tale indicatore `e adimensionale ed esprime la percentuale di variazione della serie storica rispetto al valor medio. Poich´e prescinde dalla dimensione relativa della domanda (a diﬀerenza degli indicatori media e deviazione standard), coeﬃcienti di variazione di serie storiche distinte possono utilmente essere confrontati fra loro. Ad esempio, diﬀerenti algoritmi di sales forecasting possono essere comparati in relazione ai coeﬃcienti di variazione dei piani alternativi di domanda da essi generati nell’orizzonte futuro, in corrispondenza dei bucket t = T + 1, T + 2, . . . . Indice di asimmetria L’indice di asimmetria (skewness) deﬁnisce il posizionamento direzionale dei valori di una serie storica rispetto al valor medio. Una serie storica si deﬁnisce: • simmetrica, se media e mediana coincidono; • asimmetrica a destra, se il valor medio `e superiore alla mediana; • asimmetrica a sinistra, se il valor medio `e inferiore alla mediana, cio`e se la serie storica risulta maggiormente densa di valori a destra della media. L’indice di asimmetria `e deﬁnito come rapporto fra il momento campionario terzo della serie storica T 1 μ ˆ 3,D = (D(t) − μD )3 T t=1 ed il cubo della deviazione standard campionaria: SKEWD =

μ ˆ3,D 3 . σ ˆD

Il valore nullo per l’indice di asimmetria identiﬁca la serie storica come simmetrica; se SKEW D > 0, la serie risulta simmetrica a destra; se SKEW D < 0, la serie `e simmetrica a sinistra.

6.1 Analisi statistica delle serie storiche

195

Indice di normalit` a Come ricordato a proposito della deﬁnizione di varianza campionaria, la distribuzione statistica associata ad una serie storica di domanda `e incognita. Attraverso opportuni metodi della statistica, `e possibile in alternativa: • descrivere la serie storica mediante una distribuzione empirica di valori, calcolando la funzione di ripartizione empirica (o densit` a cumulata empirica); • approssimare la distribuzione incognita ad una distribuzione di probabilit` a nota, di tipo continuo o discreto. In quest’ultimo caso, l’indice di normalit` a (curtosi ) descrive il grado di approssimazione della serie storica di domanda ad una distribuzione normale (o gaussiana) 2 N (μD ; σD ), di media μD e deviazione standard σD . Deﬁnito il momento campionario quarto della serie storica μ ˆ 4,D =

T 1 (D(t) − μD )4 T t=1

la curtosi della distribuzione D(t) `e deﬁnita nel modo seguente, funzione del momento quarto campionario e della varianza campionaria: KU RTD =

μ ˆ4,D 2 − 3. σˆD

Valgono i seguenti valori di soglia per l’indice di normalit` a: • se KURT D = 0, la serie storica presenta una distribuzione empirica di T valori esattamente gaussiana; • se KURT D > 0, la serie `e ipernormale, in quanto i valori pi` u vicini alla media presentano frequenza empirica superiore rispetto ai valori localizzati in prossimit` a delle code della distribuzione normale; • se KURT D < 0, la serie `e iponormale, cio`e molto dispersa attorno alla media, poich´e la maggior parte dei valori D(t) si posiziona lontano dal valor medio. Qualora la serie storica soddisﬁ con suﬃciente grado di approssimazione (curtosi prossima allo zero) l’ipotesi di normalit`a, `e possibile costruire un intervallo di conﬁdenza per la media, come illustrato nel paragrafo successivo. Esempio Si riportano i valori degli indicatori di dispersione per la serie storica di esempio {12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 129 82 61} : • range di variazione: Dmax − Dmin = 129 − 11 = 118; • range interquantile per y = 1/4: D0,75 − D0,25 = 77 − 23 = 54; • varianza = 863,96 (base di divisione: 20 periodi); varianza campionaria = 909,43 (base di divisione: 19 periodi); deviazione standard = 29,39; • coeﬃciente di variazione = 29,39/54,80 = 0,54; skewness = 0,67.

196

6 Demand Analytics: analisi statistica e KPI

6.1.4 Intervallo di conﬁdenza La deﬁnizione di un intervallo di conﬁdenza per la domanda `e utile in due casi: 1. sales cleaning: `e possibile identiﬁcare gli outlier all’interno della serie storica, utilizzando un criterio basato sull’intervallo di conﬁdenza: i valori storici eﬀettivi che cadono al di fuori della banda deﬁnita dagli estremi sinistro e destro dell’intervallo sono considerati outlier, quindi vengono rettiﬁcati con opportune tecniche di sales cleaning; 2. sales forecasting: durante il processo di generazione del piano previsionale di domanda, `e possibile fornire due stime, pessimistica ed ottimistica, del proﬁlo futuro del sales forecast, rispettivamente coincidenti con gli estremi inferiore e superiore dell’intervallo di conﬁdenza. Con probabilit` a α (percentuale di conﬁdenza), i valori eﬀettivi futuri di domanda cadranno internamente al range descritto tramite l’intervallo di conﬁdenza. Assegnata una distribuzione storica di domanda D(t) estesa su T periodi, calcolate la media μD e la deviazione standard σD corrispondenti, l’intervallo di conﬁdenza al α% `e identiﬁcato tramite gli estremi inferiore (lower bound LBD ) e superiore (upper bound U BD ): LBD = μD − kα · σD ;

U BD = μD + kα · σD ,

essendo kα il percentile di ordine α della distribuzione normale standard N (0; 1), di media nulla e varianza unitaria. L’intervallo di conﬁdenza `e utilizzato per stimare la probabilit` a che la domanda futura si collochi al suo interno, avendone calcolato gli estremi inferiore e superiore sulla base dei valori storici. La probabilit` a che la domanda futura si collochi all’interno dell’intervallo di conﬁdenza [μD − kα · σD ; μD + kα · σD ] `e pari a: • • • •

α = 68% circa, per kα = 1; α = 95% circa, per kα = 1,96; α = 99% circa, per kα = 2,58; α = 99,8% circa, per kα = 3.

Secondo quanto illustrato, il 95% dei valori di una serie D(t) `e contenuto nell’intervallo: [μD − k0,95 · σD ; μD + k0,95 · σD ] = [μD − 1,96 · σD ; μD + 1,96 · σD ] , di ampiezza pari a 3,92 · σD , nell’ipotesi che i valori della serie storica di domanda seguano approssimativamente una distribuzione normale di media μD e deviazione standard σD . L’intervallo di conﬁdenza [μD − 3 · σD ; μD + 3 · σD ] pu` o essere utilizzato per identiﬁcare la presenza di outlier all’interno di una serie storica: valori storici che

6.1 Analisi statistica delle serie storiche

197

cadono al di fuori del range di ampiezza 6 · σD centrato sulla media μD hanno una probabilit` a di occorrenza futura inferiore allo 0,3%. Secondo le metodologie analitiche proprie del sales cleaning, un valore di domanda D(t) per il quale si veriﬁchi una delle seguenti condizioni: D(t) < μD − 3 · σD ;

D(t) > μD + 3 · σD ,

dev’essere rimosso dalla serie storica, secondo una fra le modalit`a alternative descritte nel capitolo 10, dedicato all’analisi delle serie storiche. Esempio In ﬁgura 6.4 sono riportati gli intervalli di conﬁdenza per la serie storica a 20 periodi utilizzata negli esempi precedenti {12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 129 82 61} . I valori estremi sono i seguenti: • α = 68%: [54,80 − 1 · 29,39; 54,80 + 1 · 29,39] = [25,41; 84,19] ; • α = 95%: [54,80 − 1,96 · 29,39; 54,80 + 1,96 · 29,39] = [−2,81; 112,41] . L’intervallo al 68% (punti evidenziati con il simbolo (o)), di ampiezza 58,97, non rileva il valore D(13) = 98 come outlier, al contrario di quanto accade per l’intervallo di conﬁdenza per α = 95% (punti evidenziati con il simbolo (x)), di ampiezza 115,22. Questa semplice osservazione empirica rende ragione del fatto che, al diminuire del valore di probabilit` a che i dati storici di domanda si trovino all’interno di un intervallo di conﬁdenza, la sua ampiezza si restringe. Quanto pi` u `e ridotto in ampiezza un intervallo di conﬁdenza, tanto maggiore `e il rischio di perdita di informazione, qualora si decida di procedere alla rimozione dei valori di domanda identiﬁcati come outlier.

6.1.5 Analisi bivariata: correlazione e covarianza L’analisi bivariata per attributi numerici `e svolta in corrispondenza di due serie storiche di valori rilevati in corrispondenza di un intervallo storico t = 1, . . . , T . Le serie storiche possono riferirsi: • alla domanda misurata per due segmenti prodotto-mercato D1 (t) e D2 (t); • alla domanda relativa ad un segmento prodotto-mercato (prima serie D(t)) e ad una variabile indipendente, potenzialmente esplicativa dell’andamento storico delle vendite per il segmento (seconda serie X(t)). Nel primo caso, si vogliono cogliere eventuali fenomeni di cross-selling e cannibalizzazione fra segmenti commerciali, cercando di correlare le vendite di un segmento alle vendite dell’altro; nel secondo caso, si vogliono studiare eventuali legami di

198

6 Demand Analytics: analisi statistica e KPI intervalli di confidenza (68% e 95% ) 140 120 100 80 60 40 20 0 1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

-20

Figura 6.4. Intervalli di conﬁdenza al 68% (o) ed al 95% (x) per una serie storica

causa-eﬀetto fra un predittore indipendente (ad esempio, il prezzo di vendita di un prodotto) e la domanda. In entrambi i casi, le analisi di Demand Analytics svolte sulle serie storiche servono a fare inferenze circa il futuro andamento delle vendite. L’analisi bivariata per le serie storiche di domanda si riconduce al calcolo dei due indicatori sintetici di correlazione e covarianza.

Coeﬃciente di correlazione lineare Assegnata una sequenza di valori per due serie storiche D1 (t) e D2 (t) nell’intervallo t = 1, . . . , T , calcolati i valori medi per le due distribuzioni (μD1 e μD2 , rispettivamente), il coeﬃciente di correlazione lineare (anche detto di Pearson) esprime l’entit` a del legame esistente fra le due distribuzioni, nel senso di valutare la correlazione fra le variazioni numeriche delle serie storiche, mutuamente indotte o causate da variabili esterne, a parit` a di istante temporale analizzato. Il coeﬃciente di correlazione lineare r12 fra le due serie D1 (t) e D2 (t) `e deﬁnito dalla formula: T

r12 =

t=1 T t=1

(D1 (t) − μD1 )(D2 (t) − μD2 )

(D1 (t) − μD1 )2 ·

T t=1

. (D2 (t) − μD2 )2

Il generico valore del coeﬃciente adimensionale r12 `e compreso fra gli estremi – 1 e 1. Si possono presentare tre casi estremi:

6.1 Analisi statistica delle serie storiche

199

• se r12 = 0, c’`e assenza di correlazione, di tipo lineare, fra le due serie storiche; • se r12 = 1, c’`e completa correlazione positiva (ad un incremento percentuale nei valori della prima serie, corrisponde un identico aumento nei valori della seconda); • se r12 = −1, c’`e completa correlazione negativa (ad un incremento percentuale nei valori della prima serie, corrisponde un decremento della medesima entit` a percentuale nei valori della seconda). Attraverso un diagramma di correlazione (correlogramma o scatter-plot ) `e possibile apprezzare Graﬁcamente l’entit` a della correlazione fra due serie storiche, posizionando i valori della prima sull’asse delle ascisse ed i valori della seconda sull’asse delle ordinate. Ogni punto `e dato dall’intersezione del valore delle serie: x = D1 (t); y = D2 (t) , a parit` a di istante t considerato. Esempio Assegnate le tre serie storiche riportate in tabella 6.1, di cui la prima (domanda 1, D1 ) `e quella utilizzata negli esempi numerici per l’analisi univariata, il correlogramma in ﬁgura 6.5 presenta i valori di • serie domanda 1 sull’asse delle ascisse; • serie serie 2 e serie 3 sull’asse delle ordinate (valori di serie 2 evidenziati mediante il simbolo graﬁco triangolare; valori di serie 3 mediante il simbolo graﬁco circolare). Per ipotesi, la serie storica serie 3 `e stata ottenuta incrementando del 20% i valori della serie domanda 1, a parit` a di bucket temporale: D1 (t) = 1,2 · X3 (t), t = 1, . . . , T . Dalla ﬁgura 6.5 si pu` o osservare quanto segue: Tabella 6.1. Valori numerici per le serie storiche “domanda 1”, “serie 2”, “serie 3” D1 X2 X3

D1 X2 X3

1

2

3

4

5

6

7

8

12 54 14

43 29 52

23 10 28

44 65 53

76 55 91

23 80 28

11 43 13

54 54 65

39 48 130 20 47 58

9

10

11

12

13

14

15

16

17

18

19

20

44 160 53

38 23 46

98 23 118

46 21 55

77 9 92

92 40 110

56 100 67

129 120 155

82 43 98

61 91 73

200

6 Demand Analytics: analisi statistica e KPI Correlazione alla domanda 180 160 serie 2 / serie 3

140 120 100 80 60 40 20 0 0

20

40

60

80

100

120

140

domanda 1

Figura 6.5. Scatter-plot per due serie storiche confrontate con la serie “domanda 1”

• le serie domanda 1 e serie 2 sono fortemente incorrelate, in quanto i valori (punti triangolari) non si posizionano lungo il percorso di una retta, a coeﬃciente angolare positivo (tale per cui r > 0) o negativo (tale per cui r < 0); il coeﬃciente di correlazione lineare vale, in questo caso, r12 = 0,112; • le serie domanda 1 e serie 3 sono perfettamente correlate, stante il legame algebrico lineare precedentemente dichiarato: i valori (punti circolari) si posizionano lungo una retta a coeﬃciente angolare positivo1 ; in questo caso si ha, per deﬁnizione di perfetta correlazione lineare: r13 = 1. Autocorrelazione Qualora le due serie storiche siano coincidenti (D1 (t) = D2 (t) := D(t)), `e possibile analizzare l’autocorrelazione della singola serie D(t) rispetto al tempo, confrontando periodi di domanda uniformemente distanti un intervallo di k periodi (ritardo temporale pari a k). Il coeﬃeciente di autocorrelazione (autocorrelation factor, ACF ) di ordine k per la serie storica D(t), deﬁnita su T istanti temporali, `e deﬁnito dalla formula: T

(D(t) − μD )(D(t − k) − μD )

t=k+1

ACFD (k) =

T

(D(t) − μD

t=1 T

=

)2

·

=

T

(D(t) − μD

)2

t=1

(D(t) − μD )(D(t − k) − μD )

t=k+1 T

. (D(t) − μD

)2

t=1 1

I coeﬃcienti della retta di regressione, avente equazione y = ax + b, sono calcolati nel capitolo 14, relativo ai modelli di regressione lineare.

6.1 Analisi statistica delle serie storiche

201

La media μD `e calcolata su tutti i T periodi storici disponibili. Formalmente, il coeﬃciente di autocorrelazione coincide con il coeﬃciente di Pearson applicato alle serie storiche D(t) e D(t − k): ACFD (k) ≡ r(D(t); D(t − k)) . L’analisi di autocorrelazione `e utile nell’identiﬁcare la componente di stagionalit` a in una serie storica. La ﬁgura 6.6 mostra un esempio di traslazione della serie di domanda D(t) per k = 3 periodi in avanti. Il coeﬃciente ACF (3) vale, in questo caso, 0,373: esiste una modesta correlazione positiva fra valori D(t) e valori D(t − 3) di domanda.

140 120 100 80 60 40 20 0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 12 82 61

domanda

12 43 23 44 76 23 11 54 39 48 44 38 98 46 77 92 56 12 82 61

domanda k = 3

Figura 6.6. Serie storica di domanda standard e traslata in avanti di k = 3 periodi

Covarianza La covarianza di due variabili casuali, relative a due serie di domanda D1 (t) e D2 (t), calcolata nell’intervallo dei dati storici t = 1, . . . , T , `e deﬁnita come COV12 =

T 1 (D1 (t) − μD1 )(D2 (t) − μD2 ) . · T − 1 t=1

In analogia al coeﬃciente di correlazione lineare, la covarianza esprime sinteticamente la variabilit` a congiunta dei valori delle due serie storiche, attorno alle rispettive medie, μD1 e μD2 . Vale la seguente relazione fra covarianza COV e coeﬃciente di Pearson r:

r12 = 1 T −1

COV12 T

t=1

(D1 (t) − μD1

)2

·

T t=1

, (D2 (t) − μD2

)2

dalla quale si desume che, se due variabili hanno covarianza nulla, sono anche totalmente incorrelate.

202

6 Demand Analytics: analisi statistica e KPI

6.2 KPI Analysis 6.2.1 Ciclo di pianiﬁcazione e controllo Un Key Performance Indicator (KPI o misura, nella terminologia dell’analisi multidimensionale OLAP) rappresenta una metrica di prestazione utilizzata per valutare la qualit` a e l’eﬃcacia di un processo, di tipo decisionale o operativo, aﬀerente ad uno speciﬁco contesto di business, quale ad esempio il Supply Chain Management o il Demand Planning. Nell’ambito del ciclo di pianiﬁcazione e controllo che caratterizza i processi e le attivit`a di Sales & Operations Planning, le aziende della ﬁliera logistico-produttiva procedono in modo ricorsivo, ad intervalli periodici, a • pianiﬁcare (plan, Supply Chain Planning): predisporre piani operativi di domanda, produzione, distribuzione e acquisto, con l’obiettivo di massimizzare la proﬁttabilit` a aziendale; • eseguire (do, Supply Chain Execution): implementare operativamente i piani di breve, medio, lungo termine predisposti dalle funzioni aziendali, in collaborazione con i partner della Supply Chain Network; • controllare (check, Supply Chain Analytics): analizzare a posteriori e giustiﬁcare i risultati ottenuti in seguito all’attuazione dei piani operativi, misurando i valori eﬀettivi delle metriche di performance ottenuti sul campo nei processi esecutivi dei cicli attivo e passivo; • reagire (act, Supply Chain Planning, Supply Chain Strategy, Supply Chain Network Design): sulla base degli scostamenti rilevati a consuntivo, implementare opportune azioni correttive di revisione dei piani, rielaborando nuove edizioni di tali piani (nel medio termine), modiﬁcandone alcune caratteristiche in corso d’opera (nel breve termine) oppure rivedendo, in modo pi` u o meno marcato, aspetti relativi alla strategia aziendale di posizionamento nella ﬁliera logistico-produttiva (nel lungo termine). Lo schema circolare di pianiﬁcazione e controllo, tipico dei processi S&OP, `e riportato in ﬁgura 6.7. Attraverso la deﬁnizione di un insieme completo di KPI `e possibile misurare e controllare le performance dei processi S&OP. La costruzione di cruscotti analitici di misurazione dei Key Performance Indicators da parte degli analisti di business (dei demand planner e dei sales analyst) riveste un ruolo centrale nella fase di controllo dell’andamento delle operations aziendali. Lo studio dei KPI si focalizza sull’analisi dei risultati ottenuti a valle dei processi S&OP, calcolando le diﬀerenze quantitative registrate, per ciascuna metrica di prestazione, fra • valori preventivi : piani target (piano di domanda, piano di produzione, ecc.); • valori consuntivi : risultati conseguiti (quantit` a vendute prodotte nel tempo). Il pi` u semplice metodo algebrico di valutazione di un KPI j-esimo, in un cruscotto formato da n indicatori di prestazione, `e quindi dato dal confronto fra il suo valore stimato (previsionale, preventivo, target ) ed il suo valore eﬀettivo (storico, consuntivo, actual ): lo scostamento Δ(Xj ) di un KPI Xj rispetto al valore obiettivo

6.2 KPI Analysis

203

dipende dal valore rilevato a consuntivo tramite la relazione: Δ(Xj ) = XjOBJ − XjACT . Nella valutazione degli scostamenti misurati attraverso i KPI, occorre speciﬁcare • a quali livelli gerarchici sono stati pianiﬁcati per il valore target e misurati per il valore consuntivo; • su quale base temporale si sono compiute le rilevazioni dei valori consuntivi.

raggiungimento obiettivi reforecasting replanning

REAZIONE

PIANIFICAZIONE piano di domanda piano produttivo piano distributivo

DEMAND & SUPPLY INTELLIGENCE

DEMAND & SUPPLY ANALYTICS

MISURA e CONTROLLO

ESECUZIONE ciclo attivo ciclo passivo Supply Chain Network Customer Service

misurazione KPI valutazione scostamenti reporting

Figura 6.7. Ciclo di pianiﬁcazione e controllo nell’ambito S&OP/SCM

6.2.2 Ciclo di vita dei KPI La progettazione di un sistema analitico di controllo delle prestazioni dei processi di Demand Planning richiede la messa a punto di quattro elementi: • un sistema di indicatori KPI atti a descrivere le prestazioni attese da parte dei processi decisionali, di tipo strategico, tattico e operativo di S&OP; • un sistema di raccolta ed archiviazione dei dati eﬀettivi rilevati dal campo (actual ), per le misure associate ai processi sotto controllo; • un sistema di valori di merito (target ) per ciascun KPI ; • un sistema di reporting analitico, orientato al supporto decisionale, focalizzato sui segmenti prodotto-mercato “critici” poich´e di importanza strategica per l’azienda o perch´e presentanti valori eﬀettivi per i KPI molto discosti dai valori obiettivo. Nell’ambito della fase di controllo del ciclo S&OP (Demand Analytics), gli analisti di business preposti all’analisi delle performance aziendali svolgono le attivit` a di KPI analysis, riconducibili alle seguenti fasi sequenziali: 1. data warehousing: aggiornamento dei dati di S&OP all’interno del datawarehouse o dei datamart locali;

204

6 Demand Analytics: analisi statistica e KPI

2. data browsing: analisi multidimensionale delle misure e dei fatti quantitativi; 3. KPI analysis: analisi multidimensionale dei KPI, identiﬁcazione delle cause che hanno dato origine agli scostamenti rilevati; 4. KPI reporting: pubblicazione dei risultati di monitoraggio delle performance mediante report direzionali. La ﬁgura 6.8 mostra il ciclo di vita dei KPI nel corso dei processi di pianiﬁcazione, esecuzione e controllo di S&OP e di Demand Planning.

DEMAND INTELLIGENCE

ESECUZIONE

ciclo attivo ciclo passivo Supply Chain Network Customer Service

SALES FORECASTING

sales accounting sales replanning

KPI REPORTING

DATA WAREHOUSING filtraggio dei dati selezione dei dati consolidamento dei dati

KPI ANALYSIS

DATA BROWSING

DEMAND & SUPPLY ANALYTICS

navigazione verticale navigazione orizzontale query OLAP

misurazione KPI valutazione scostamenti monitoraggio eccezioni

Figura 6.8. Ciclo di vita dei KPI nei processi di S&OP e di Demand Planning

Una volta che i dati storici pi` u recenti siano stati inseriti cumulativamente nelle tabelle dei fatti del datawarehouse, gli analisti procedono ad una prima fase di navigazione multidimensionale sui dati, formulando query ad hoc oppure utilizzando criteri di interrogazione standard, preconﬁgurati ed ottimizzati poich´e di frequente utilizzo. Con riferimento al contesto del Demand Analytics, sistemi di indicatori di performance permettono di identiﬁcare, nella terza fase di KPI analysis, • quali segmenti prodotto-mercato hanno raggiunto o superato gli obiettivi preﬁssati in sede di pianiﬁcazione; • quali segmenti hanno ottenuto prestazioni al di sotto dei valori target. La ﬁnalit` a dell’analisi dei Key Performance Indicators `e duplice: • sales rewarding (sales accounting): la forza vendita viene premiata a seconda del livello di raggiungimento degli obiettivi di vendita pianiﬁcati; nuovi obiettivi (sales target ) vengono deﬁniti e concordati con i sales manager, tenendo conto degli scostamenti rilevati nel corso del precedente ciclo di vendita;

6.2 KPI Analysis

205

• sales replanning: analizzando l’entit` a del mancato raggiungimento degli obiettivi di vendita, nonch´e i valori actual per la domanda commerciale per le varie famiglie di prodotti sui mercati di vendita, i piani di domanda (sales forecast, sales budget) vengono rideﬁniti o corretti per la parte futura dell’orizzonte di programmazione. Al termine di ogni ciclo di analisi e controllo dei KPI, il sistema di data reporting dei datawarehouse genera report sintetici di consuntivazione dei risultati di business, evidenziando le maggiori criticit` a, i segmenti prodotto-mercato particolarmente ineﬃcienti e quelli eccellenti. I report analitici basati sui KPI, generati nella fase di Demand Analytics, vengono in seguito interpretati nelle fasi di pianiﬁcazione • Demand Intelligence, per l’estrazione di conoscenze e regolarit`a dai dati storici, mediante tecniche di Data Mining; • Sales Forecasting, per la generazione di piani di domanda. 6.2.3 Classiﬁcazione dei KPI per il Demand Planning I Key Performance Indicator per la misura ed il controllo dei processi di Demand Planning sono classiﬁcabili in base a tre diverse logiche. Un primo proﬁlo di classiﬁcazione `e dato dalla modalit` a di deﬁnizione dei KPI, distinguibili in: • KPI semplici: misure direttamente rilevabili sul campo in fase consuntiva, i cui valori sono stati in precedenza elaborati mediante tecniche di stima in fase previsionale. Esempi in tal senso sono: domanda commerciale, prezzo di vendita, budget di domanda, sales target, percentuale di sconto sul prezzo, percentuali di splitting per quantit` a aggregate; • KPI composti : misure calcolate per composizione di KPI semplici. Un esempio di KPI composti `e dato dalle tipologie di fatturato derivabili da KPI semplici. Assegnati i KPI semplici domanda D(p, c, t), prezzo di vendita π(p, c, t), percentuale di sconto sul prezzo δ(p, c, t), spedizioni S(p, c, t), per un segmento prodotto mercato {p, c} nel tempo, si possono ottenere le seguenti misure composte: • fatturato a prezzo standard (standard revenue), calcolato sulla domanda: R(p, c, t) = π(p, c, t) · D(p, c, t) ; • fatturato a prezzo scontato (discounted revenue): R(p, c, t) = (1 − δ(p, c, t)) · π(p, c, t) · D(p, c, t) ; • fatturato a prezzo standard (standard revenue), calcolato sulle spedizioni2 : R(p, c, t) = π(p, c, t) · S(p, c, t) . 2

In generale, per ciascun periodo t la domanda di mercato `e sempre superiore o uguale alle quantit` a eﬀettivamente spedite e consegnate al cliente ﬁnale.

206

6 Demand Analytics: analisi statistica e KPI

Assegnati i KPI semplici domanda D(p, c, t) e sales forecast F (p, c, t), si possono ottenere le seguenti misure composte: • errore assoluto di forecasting (forecast error ), calcolato sulla domanda storica: E(p, c, t) = D(p, c, t) − F (p, c, t) ; • errore percentuale di forecasting (percentage forecast error ), calcolato sulla domanda: P E(p, c, t) = 100 ·

E(p, c, t) D(p, c, t) − F (p, c, t) = 100 · . D(p, c, t) D(p, c, t)

Un secondo proﬁlo di classiﬁcazione `e dato dalla modalit` a di stima dei KPI ; per ciascun indicatore di prestazione, `e possibile deﬁnire tre misure distinte: • KPI target : valore obiettivo deciso in fase di pianiﬁcazione; • KPI forecast : valore stimato mediante metodi previsivi; • KPI actual : valore rilevato a consuntivo. Ad esempio, prendendo come riferimento la misura della domanda commerciale pianiﬁcata, stimata e misurata nei diversi istanti dell’orizzonte di programmazione, si identiﬁcano i seguenti valori: • sales target o sales budget: valore di domanda obiettivo B(p, c, t), da conseguire mediante le attivit` a di produzione, distribuzione e vendita; • sales forecast : valore futuro di domanda F (p, c, t), stimato mediante algoritmi di sales forecasting; • actual sales: valore eﬀettivo di domanda D(p, c, t), rilevato a consuntivo mediante misurazioni eﬀettuate presso i punti vendita. Le diﬀerenze fra il valore actual ed i valori target e forecast assumono le seguenti denominazioni: • forecast error (errore di previsione): E(p, c, t) = D(p, c, t) − F (p, c, t) ; • budget variance (scostamento di budget): ΔQ(p, c, t) = D(p, c, t) − B(p, c, t) . La ﬁgura 6.9 inquadra il ciclo di progettazione, misurazione e controllo dei KPI nei processi di Supply Chain Management. La ﬁgura 6.10 illustra i momenti logici di deﬁnizione dei valori target e forecast e quelli di rilevazione dei valori actual. Un terzo criterio di classiﬁcazione dei KPI per il Demand Planning `e dato dall’area funzionale di competenza (ﬁgura 6.11): • KPI per l’analisi di forecast accuracy; • KPI per la valutazione economica delle vendite (sales analysis); • KPI per la valutazione del customer service.

6.2 KPI Analysis

207

SUPPLY CHAIN EXECUTION

definzione KPI FORECAST KPI BUDGET

misura KPI ACTUAL

SUPPLY CHAIN STRATEGY

SUPPLY CHAIN PLANNING SUPPLY CHAIN NETWORK DESIGN

GAP (KPI) ANALYSIS: actual vs. forecast actual vs. budget

SUPPLY CHAIN ANALYTICS

GAP (KPI) SOLVING: re-forecasting re-budgeting

Figura 6.9. Progettazione, misurazione, controllo e correzione dei KPI progettazione valori TARGET progettazione valori FORECAST

DEMAND INTELLIGENCE SALES FORECASTING

ESECUZIONE

ciclo attivo ciclo passivo misurazione valori ACTUAL

DEMAND INTELLIGENCE

DATA WAREHOUSING

presentazione KPI viste sintetiche valutazione scostamenti alert su eccezioni

inserimento valori ACTUAL

KPI REPORTING

DATA BROWSING

misurazione KPI calcolo scostamenti ACTUAL vs. TARGET ACTUAL vs. FORECAST

DEMAND ANALYTICS

KPI ANALYSIS

interrogazioni e navigazione su : sales ACTUAL sales TARGET sales FORECAST

Figura 6.10. Progettazione dei valori “target”/“forecast”, misura dei valori “actual”

L’analisi di forecast accuracy `e rimandata al capitolo 11, relativo alla valutazione dei modelli di sales forecasting. Le analisi di sales revenue e customer service sono aﬀrontate nei successivi paragraﬁ di questo capitolo.

actual sales actual price actual KPI (customer service) sales forecast

forecast accuracy

DEMAND ANALYTICS KPI ANALYSIS

demand plan

sales performances customer service performances

target price sales target target KPI (customer service)

CUSTOMER SERVICE ANALYSIS

SALES ANALYSIS

FORECAST ANALYSIS

Figura 6.11. Aree funzionali dei KPI per il Demand Planning

208

6 Demand Analytics: analisi statistica e KPI DEMAND PLANNING KEY PERFORMANCE INDICATORS

FORECAST ACCURACY

KPI SEMPLICI

KPI COMPOSTI

SALES ANALYSIS

KPI SEMPLICI

KPI COMPOSTI

CUSTOMER SERVICE

KPI SEMPLICI

KPI COMPOSTI

Variazione puntuale assoluta Variazione puntuale relativa Lag temporale Valore cumulato Valore cumulato rolling Media mobile Period to Date / Period to Go Performance relative Range di performance

Variazione puntuale assoluta Variazione puntuale relativa Lag temporale Valore cumulato Valore cumulato rolling Media mobile Period to Date / Period to Go Performance relative Range di performance

Variazione puntuale assoluta Variazione puntuale relativa Lag temporale Valore cumulato Valore cumulato rolling Media mobile Period to Date / Period to Go Performance relative Range di performance

ACTUAL KPI TARGET KPI FORECAST KPI

ACTUAL KPI TARGET KPI FORECAST KPI

ACTUAL KPI TARGET KPI FORECAST KPI

Figura 6.12. Proﬁli di classiﬁcazione dei KPI per il Demand Planning

La ﬁgura 6.12 schematizza i tre proﬁli di classiﬁcazione per la KPI analysis. Le metriche derivabili per ciascun KPI, semplice o composto (nella parte inferiore della ﬁgura), sono deﬁnite ed esempliﬁcate nel paragrafo successivo.

6.2.4 KPI derivati per la domanda Esistono svariati modi per misurare un KPI semplice o per combinare un insieme di misure al ﬁne di costruire KPI composti. Come osservato in precedenza, il fatturato R(p, c, t), l’errore di forecast E(p, c, t) e la varianza di budget Δ(p, c, t) rappresentano KPI composti, nella cui formulazione algebrica sono stati inclusi il prezzo, il sales target e la previsione di vendita. In questo paragrafo si illustrano alcuni metodi per costruire un sistema di KPI analysis attorno ad una misura di prestazione semplice, la domanda commerciale D(p, c, t) rilevata sui segmenti prodotti-mercato, lungo l’orizzonte storico di periodi t = 1, . . . , T . Anche per i KPI composti `e utilizzabile il sistema di metodi di costruzione proposto in questo paragrafo. Un KPI derivato si costruisce applicando un insieme di operatori algebrici ad un KPI semplice. Ad esempio, la media semplice per la domanda, calcolata sui T periodi dell’orizzonte storico, rappresenta un esempio intuitivo di KPI derivato.

6.2 KPI Analysis

209

In generale, tutti i KPI calcolati nella prima sezione del capitolo per l’analisi statistica delle serie storiche (analisi univariata, analisi bivariata) sono classiﬁcabili come KPI derivati. Vengono illustrati in questo paragrafo altri tipi di KPI, di natura algebrica non statistica, utili per la costruzione di cruscotti analitici di KPI derivati. A conclusione della rassegna dei KPI derivati, la tabella 6.2 illustra un esempio numerico di calcolo su una serie storica di domanda. Variazione puntuale La variazione puntuale (o variazione unitaria) `e un KPI derivato che identiﬁca lo scarto temporale di domanda ed `e deﬁnito dalla diﬀerenza fra il valore di domanda in un generico periodo t e nel periodo immediatamente precedente, a diversi livelli gerarchici di aggregazione temporale dei dati: • variazione puntuale assoluta: ΔA (p, c, t) = D(p, c, t) − D(p, c, t − 1) ; • variazione puntuale percentuale: ΔP (p, c, t) = 100 ·

D(p, c, t) − D(p, c, t − 1) . D(p, c, t − 1)

L’incremento o decremento percentuale unitario di domanda indica la variazione subita dalla domanda nel tempo: `e possibile costruire una serie storica di variazioni puntuali percentuali, al ﬁne di fornire ai demand planner indicazioni sull’andamento tendenziale (trend) della domanda nel tempo. La serie delle diﬀerenze prime dei valori di domanda `e utilizzata anche nei modelli matematici di scomposizione delle serie storiche, analizzati nel capitolo 10, in quanto rappresenta una metodologia di isolamento della componente di trend. Lag temporale La variazione temporale pu` o anche essere espressa con riferimento ad intervalli temporali ﬁssi, di ampiezza τ , mediante confronto fra i valori di domanda al generico periodo “corrente” t ed in corrispondenza del periodo t – τ . Lo shift temporale τ (lag) pu` o esprimere, ad esempio, la lunghezza standard (passo) del ciclo stagionale di vendita dei prodotti: il parametro di distanza temporale τ vale • • • • •

τ τ τ τ τ

= 12, nel caso di stagionalit` a annuale e livello di analisi temporale mese; = 52, nel caso di stagionalit` a annuale e livello di analisi temporale settimana; = 1, nel caso di stagionalit` a annuale e livello di analisi temporale anno; = 2, nel caso di stagionalit` a annuale e livello di analisi temporale semestre; = 365, nel caso di stagionalit` a annuale e livello di analisi temporale giorno.

La variazione temporale con lag τ `e deﬁnita come: • variazione puntuale assoluta: ΔA (p, c, t, τ ) = D(p, c, t) − D(p, c, t − τ ) ;

210

6 Demand Analytics: analisi statistica e KPI

• variazione puntuale percentuale: ΔP (p, c, t, τ ) = 100 ·

D(p, c, t) − D(p, c, t − τ ) . D(p, c, t − τ )

Il confronto stagionale fra periodi “omologhi” (mesi di Gennaio, terze settimane di ciascun anno, ecc.) permette di valutare l’entit` a di variazione della domanda fra un ciclo di vendita ed il successivo. Valore cumulato Il valore cumulato della domanda, calcolato in corrispondenza di un periodo generico t, `e dato dalla somma dei valori di domanda disponibili dal primo periodo t = 1 ﬁno a quello corrente: CU MD (p, c, t) =

t

D(p, c, τ ) .

τ=1

o essere quindi confrontato con Il valore cumulato di domanda eﬀettiva CUM D pu` il valore cumulato di budget CUM B o di previsione CUM F , per analizzare l’entit` a delle variazioni di domanda rispetto agli obiettivi ed alla migliore stima eﬀettuata in fase di Sales Forecasting. Nella formula precedente la domanda cumulata `e misurata secondo un’estensione temporale variabile, in quanto l’intervallo di estremi [1, t] che ne costituisce la base di calcolo `e variabile al variare dell’istante “corrente” t. Il valore cumulato pu` o essere espresso anche su una base temporale costante, di ampiezza ω, in modalit` a rolling, andando cos`ı a formare una serie storica di valori cumulati al generico istante t, per t = 1, . . . , T . Il valore di domanda cumulato rolling `e dato da: R CU MD (p, c, t, ω) =

t

D(p, c, τ ) .

τ=t−ω+1

Media mobile La media mobile (moving average) della domanda, calcolata in corrispondenza di un periodo generico t, `e deﬁnita dalla media rolling dei valori di domanda disponibili dal periodo t − ω ﬁno al periodo corrente t: t 1 D(p, c, τ ) . M AD (p, c, t, ω) = · ω τ=t−ω+1

La base temporale di calcolo della media mobile ha ampiezza costante pari a ω. La media mobile rappresenta una tecnica, molto semplice ed approssimativa, utilizzabile nei processi di sales cleaning e sales forecasting.

6.2 KPI Analysis

211

Period to Date, Period to Go Qualora il calcolo del valore cumulato venga operato su una precisa base temporale di riferimento, di estensione deﬁnita e costante (ad esempio, l’anno corrente (year to date, year to go), il mese corrente, il trimestre corrente) di estremi temporali tM IN e tM AX , `e possibile calcolare il valore cumulato di domanda: • dal primo al periodo corrente della base temporale di riferimento: period to date PTD; • dal periodo corrente all’ultimo della base temporale: period to go PTG. Il valore di domanda cumulata period to date `e dato da: t

P T DD (p, c, t, tM IN ) =

D(p, c, τ ) .

τ=tM IN

Il valore di domanda cumulata period to go `e dato da: P T GD (p, c, t, tM AX ) =

tM AX

D(p, c, τ ) .

τ=t+1

Vale la relazione: P T DD (p, c, t, tM IN ) + P T GD (p, c, t, tM AX ) =

tM AX

D(p, c, τ ) .

τ=tM IN

Valori percentuali per i KPI period to date e period to go sono esprimibili nelle forme: P T DD (p, c, t, tM IN ) ; %P T DD (p, c, t, tM IN ) = tM AX D(p, c, τ ) τ=tM IN

%P T GD (p, c, t, tM AX ) =

P T GD (p, c, t, tM AX ) . tM AX D(p, c, τ ) τ=tM IN

La percentuale di period to date esprime la quota di domanda che si `e gi`a manifestata ﬁno all’istante corrente t, all’interno della base temporale di calcolo; essa pu` o essere confrontata con i valori di period to date di budget, per valutare l’entit` a degli scostamenti fra target ed actual alla data corrente. Ad esempio, se si veriﬁca la relazione P T DD (p, c, t, tM IN ) =

t

D(p, c, τ ) < P T DF (p, c, t, tM IN )

τ=tM IN

=

t τ=tM IN

F (p, c, τ )

212

6 Demand Analytics: analisi statistica e KPI

si rende necessario rivedere le stime previsionali di domanda dall’istante successivo t + 1 all’istante ﬁnale tM AX dell’intervallo temporale di riferimento. Di conseguenza, il sales forecast totale per il periodo di riferimento corrente `e dato da: tM t AX ∗ (p, c, t) = F (p, c, τ ) + F ∗(p, c, τ ) , Ftotale τ=tM IN

τ=t+1

essendo F ∗ (p, c, t) la revisione operata sul sales forecast nei restanti periodi dell’orizzonte temporale, essendo t l’istante corrente di separazione fra passato e futuro (time now ). Performance relative fra prodotti e mercati Le prestazioni relative al KPI domanda possono anche focalizzarsi sull’analisi dei risultati conseguenti all’interno di gruppi omogenei di entit` a, quali ad esempio: • singole SKU all’interno di famiglie di prodotti; • singoli store nell’ambito di zone di mercato; • canali distributivi gestiti dal medesimo sales account. Ad esempio, il prodotto p∗ che ha conseguito il volume di vendita maggiore (best in class), nell’ambito della famiglia F di prodotti cui appartiene, all’interno del mercato c e nel periodo temporale t, `e calcolabile come D(p, c, t) p∗ |DREL(p∗ , c, t, F ) = max DREL (p, c, t, F ) = max p∈F p∈F D(f, c, t) f∈F

essendo DREL (p, c, t, F ) la domanda relativa del prodotto p, rapportata al totale della domanda per tutti i prodotti della famiglia F . La somma delle domande relative per ciascun prodotto p di una famiglia F assume, per deﬁnizione, valore unitario. Analoghi indicatori di performance per la domanda possono essere calcolati: • con riferimento ai clienti di un certo gruppo o ai periodi in un certo intervallo; • identiﬁcando la peggior performance (worst in class) di domanda; • con riferimento a singole coppie di entit` a (due prodotti o due mercati distinti). Range di performance Un KPI semplice o composto pu`o essere valutato determinando la sua collocazione all’interno di range di performance predeﬁniti. Un range di merito `e deﬁnito tramite un intervallo di estremi inferiore e superiore; l’unione degli intervalli disgiunti in cui sono stati segmentati i valori assumibili da un KPI forma lo spazio numerico di variabilit` a ed ammissibilit`a per il KPI stesso. Ad esempio, si possono formare quattro fasce di merito per l’indicatore di domanda D(p, c, t), deﬁnito il triplice livello gerarchico per le dimensioni principali {prodotto, mercato, tempo}: D(p, c, t) < D1∗ ; D1∗ ≤ D(p, c, t) ≤ D2∗ ;

6.2 KPI Analysis

213

D2∗ < D(p, c, t) ≤ D3∗ ; D(p, c, t) > D3∗ . Avendo classiﬁcato ciascun termine D(p, c, t) nel corrispondente range di appartenenza, `e possibile formulare interrogazioni per determinare, ad esempio, quante coppie prodotto-mercato hanno subito, nell’istante passato t, una domanda compresa in un certo intervallo di valori estremi presettati dai demand planner e dai sales manager, nella fase di pianiﬁcazione dei sales target e degli obiettivi di vendita per i singoli venditori. Esempio In tabella 6.2 `e riportato un esempio di calcolo dei KPI derivati illustrati in questo paragrafo, facendo riferimento ai 12 valori disponibili per la serie storica posizionata alla riga domanda della tabella. 6.2.5 Sales Analysis L’analisi delle vendite prende in considerazione le seguenti misure semplici: • • • •

domanda storica (actual demand), misurata in unit` a ﬁsiche: D(p, c, t); budget di vendita (sales budget), misurato in unit` a ﬁsiche: B(p, c, t); prezzo storico di vendita (actual price): πD (p, c, t); prezzo pianiﬁcato di vendita (budget price): πB (p, c, t).

KPI misurati in quantit` a I KPI composti e derivati per l’analisi delle vendite, misurati in unit` a ﬁsiche (di tipo logistico-produttivo), sono i seguenti: • scostamento di budget in quantit` a: ΔQ(p, c, t) = D(p, c, t) − B(p, c, t) ; • scostamento assoluto di budget in quantit` a: ΔQ(p, c, t) = D(p, c, t) − B(p, c, t) ; • scostamento percentuale di budget in quantit`a, rapportato alla domanda: ΔQPD (p, c, t) = 100 ·

ΔQ(p, c, t) D(p, c, t) − B(p, c, t) = 100 · ; D(p, c, t) D(p, c, t)

• scostamento percentuale di budget in quantit`a, rapportato al budget: ΔQPB (p, c, t) = 100 ·

D(p, c, t) − B(p, c, t) ΔQ(p, c, t) = 100 · ; B(p, c, t) B(p, c, t)

• qualsiasi altro KPI derivato, assoluto o percentuale, ottenuto utilizzando operatori algebrici di tipo cumulato, medie mobili, period to date, period to go, ecc..

214

6 Demand Analytics: analisi statistica e KPI Tabella 6.2. Esempio numerico di calcolo dei KPI derivati per la domanda 2

3

4

domanda 12 43 variazione puntuale 31 variazione percenuale 258 lag temporale (lag=3) lag temporale (lag=6) cumulato 12 55 cumulato (3 periodi) 12 43 media mobile (3 periodi) Period to Date PTD 12 55 Period to Go PTG 443 400 PTD + PTG 455 455 Period to Date Percentuale 3 12 Period to Go Percentuale 97 88 range > 100 0 0 range = [50–100] 0 0 range < 50 1 1

1

23 −20 −47

44 21 91 32

78 78 26 78 377 455 17 83 0 0 1

122 110 37 122 333 455 27 73 0 0 1

5

6

7

8

76 23 11 54 32 −53 −12 43 73 −70 −52 391 33 0 −33 −22 −1 11 198 221 232 286 143 143 110 88 48 48 37 29 198 221 232 286 257 234 223 169 455 455 455 455 44 49 51 63 56 51 49 37 0 0 0 0 1 0 0 1 0 1 1 0

9 10 39 -15 -28 16 16 325 104 35 325 130 455 71 29 0 0 1

48 9 23 37 4 373 141 47 373 82 455 82 18 0 0 1

11

12

44 −4 −8 −10 −32 417 131 44 417 38 455 92 8 0 0 1

38 −6 −14 −1 15 455 130 43 455 0 455 100 0 0 0 1

KPI misurati a valore I KPI composti e derivati per l’analisi delle vendite, misurati in unit` a monetarie, sono: • scostamento di budget a valore, a prezzi preventivi: ΔRB (p, c, t) = πB (p, c, t) · D(p, c, t) − πB (p, c, t) · B(p, c, t) = = πB (p, c, t) · ΔQ(p, c, t) ; • scostamento di budget a valore, a prezzi consuntivi: ΔRD (p, c, t) = πD (p, c, t) · D(p, c, t) − πD (p, c, t) · B(p, c, t) = = πD (p, c, t) · ΔQ(p, c, t) ; • scostamento totale di budget, valorizzato con i prezzi appropriati: ΔRtotale (p, c, t) = πD (p, c, t) · D(p, c, t) − πB (p, c, t) · B(p, c, t) .

Esempio In tabella 6.3 `e riportato un esempio di calcolo dei KPI ﬁsici derivati per l’analisi delle vendite, facendo riferimento ai 12 valori disponibili per le serie posizionate alle righe domanda e budget della tabella.

6.2 KPI Analysis

215

Tabella 6.3. Esempio numerico di calcolo dei KPI ﬁsici derivati per la sales analysis

Domanda budget delle vendite scostamento in quantit` a scostamento assoluto in quantit` a scostamento percentuale su domanda scostamento percentuale su budget

Domanda budget delle vendite scostamento in quantit` a scostamento assoluto in quantit` a scostamento percentuale su domanda scostamento percentuale su budget

1

2

3

4

5

6

12 15 −3 3 −25 −20

43 45 −2 2 −5 −4

23 30 −7 7 −30 −23

44 50 −6 6 −14 −12

76 70 6 6 8 9

23 30 −7 7 −30 −23

12 38 30 8 8 21 27

totali 455 480 −25 121 n.c. n.c.

7 11 20 −9 9 −82 −45

8 54 20 34 34 63 170

9 39 60 −21 21 −54 −35

10 48 60 −12 12 −25 −20

11 44 50 −6 6 −14 −12

Si osservi che lo scostamento assoluto totale `e superiore allo scostamento standard, in quanto somma di quantit` a sempre positive, date dal valore assoluto della diﬀerenza fra actual sales e sales budget. In tabella 6.4 `e riportato un esempio di calcolo dei KPI monetari derivati per l’analisi delle vendite, facendo riferimento ai 12 valori disponibili per le serie storiche posizionate alle righe domanda e budget della tabella, avendo anche a disposizione le serie temporali dei prezzi di budget ed eﬀettivi. Analisi del mix di vendita L’analisi delle vendite pu` o essere condotta anche a livello di famiglia di prodotti o famiglia di mercati, per valutare l’impatto di variazioni nel mix di vendita rispetto alle percentuali di composizione dell’assortimento, pianiﬁcate nella corso della deﬁnizione del sales budget. Il mix di prodotti esposti negli scaﬀali dei negozi pu` o variare nel tempo, per tipologia di cliente, a seconda del tasso di riassortimento della gamma commerciale. Nella deﬁnizione del mix di assortimento dei prodotti da spedire lungo i canali logistici ﬁno ai punti vendita, `e spesso necessario garantire il rispetto di percentuali di mix assegnate, progettate per garantire un adeguato bilanciamento nelle vendite delle singole SKU appartenenti a famiglie, linee o gruppi di prodotti. Nel caso speciﬁco della dimensione prodotto, oltre alle rilevazioni di domanda e prezzo, `e necessario calcolare anche indicatori correlati al mix di vendita: • • • •

quantit` a totale di vendita actual per la famiglia di prodotti considerata; quantit` a totale di vendita target per la famiglia di prodotti considerata; percentuale di mix di vendita consuntivo per i prodotti della famiglia; percentuale di mix di vendita preventivo per i prodotti della famiglia;

216

6 Demand Analytics: analisi statistica e KPI Tabella 6.4. Esempio di calcolo dei KPI monetari derivati per la sales analysis

Domanda budget delle vendite scostamento in quantit` a prezzo consuntivo prezzo di budget scostamento di budget a prezzi preventivi scostamento di budget a prezzi consuntivi scostamento totale

1 12 15 −3 10 10 −30 −30 −30

2 43 45 −2 11 10 −20 −22 23

3 23 30 −7 12 10 −70 −84 −24

4 44 50 −6 12 10 −60 −72 28

5 76 70 6 12 10 60 72 212

6 23 30 −7 13 10 −70 −91 −1

Domanda budget delle vendite scostamento in quantit` a prezzo consuntivo prezzo di budget scostamento di budget a prezzi preventivi scostamento di budget a prezzi consuntivi scostamento totale

7 11 20 −9 12 15 −135 −108 −168

8 54 20 34 14 15 510 476 456

9 39 60 −21 13 15 −315 −273 −393

10 48 60 −12 14 15 −180 −168 −228

11 44 50 −6 15 15 −90 −90 −90

12 38 30 8 15 15 120 120 120

misurando i diversi KPI derivati a parit` a di coppia mercato-tempo {c, t}. L’istante temporale t pu` o rappresentare, a sua volta, un aggregato temporale, ad esempio un semestre oppure l’intero esercizio contabile di durata annuale. Le quantit` a totali aggregate a livello della famiglia F di prodotti si ottengono mediante le formule seguenti, rispettivamente per i casi di totale actual e totale budget : Dtot (F, c, t) = D(p, c, t) ; Btot (F, c, t) = B(p, c, t) . p∈F

p∈F

Le percentuali di mix di vendita dei prodotti p = 1, . . . , P all’interno della famiglia F si ottengono rapportando i valori puntuali per i prodotti ai totali per famiglia: D(p, c, t) ; Dperc (p, c, t) = 100 · D(f, c, t)

B(p, c, t) Bperc (p, c, t) = 100 · . B(f, c, t)

f∈F

f∈F

Si deﬁniscono i seguenti KPI derivati per l’analisi degli scostamenti fra valori actual e valori budget 3 : • fatturato di budget, calcolato a valori di domanda target, percentuali di domanda target e prezzi di vendita target: RB(p, c, t) = πB (p, c, t) · Bperc (p, c, t) · Btot (F, c, t) ; 3

La modellazione seguente trae spunto da [2] Azzone.

6.2 KPI Analysis

217

• fatturato a mix pianiﬁcato e prezzi standard, calcolato a valori di domanda actual, percentuali di domanda target e prezzi di vendita target: RFB (p, c, t) = πB (p, c, t) · Bperc (p, c, t) · Dtot (F, c, t) ; • fatturato a mix eﬀettivo e prezzi standard, calcolato a valori di domanda actual, percentuali di domanda actual e prezzi di vendita target: RFD (p, c, t) = πB (p, c, t) · Dperc (p, c, t) · Dtot (F, c, t) ; • fatturato eﬀettivo, calcolato a valori di domanda actual, percentuali di domanda actual e prezzi di vendita actual: RD(p, c, t) = πD (p, c, t) · Dperc (p, c, t) · Dtot (F, c, t) . Si eseguono quindi i seguenti confronti fra le grandezze sopra deﬁnite. ` data dalla diﬀerenza fra fatturato a mix pianiﬁcato e Variazione di volume. E prezzi standard e fatturato di budget : δV OLU M E = RFB (p, c, t) − RB(p, c, t) = = πB (p, c, t) · Bperc (p, c, t) · {Dtot (F, c, t) − Btot (F, c, t)} . Lo scostamento di volume misura l’impatto sul fatturato nel segmento mercatotempo {c, t} derivante da una variazione complessiva di domanda a livello della famiglia F , lasciando inalterate la composizione di mix fra prodotti (domanda relativa actual e budget di mix coincidono) ed il prezzo di vendita di budget, coincidente con quello eﬀettivo. La responsabilit`a delle variazioni totali di volume viene solitamente attribuita alla funzione Vendite. ` data dalla diﬀerenza fra fatturato a mix eﬀettivo e prezzi Variazione di mix. E standard e fatturato a mix pianiﬁcato e prezzi standard: δM IX = RFD (p, c, t) − RFB (p, c, t) = = πB (p, c, t) · Dtot (F, c, t) · {Dperc (p, c, t) − Bperc (p, c, t)} . Lo scostamento di mix valuta l’impatto sul fatturato derivante da una variazione di mix, rispetto a quanto deﬁnito in sede di redazione del sales budget, a livello dei singoli prodotti p della famiglia F , lasciando inalterate la domanda totale per famiglia (domanda totale actual e budget coincidono) ed il prezzo di vendita di budget, coincidente con quello eﬀettivo. La responsabilit` a delle variazioni relative di mix viene solitamente attribuita alle funzioni Vendite e Marketing, rispettivamente gestori del sostenimento delle vendite dei prodotti presso i centri di consegna e dell’assortimento della gamma, pilotabile mediante la progettazione di speciﬁche azioni promozionali rivolte a singoli item all’interno di una famiglia commerciale.

218

6 Demand Analytics: analisi statistica e KPI

` data dalla diﬀerenza fra fatturato a prezzi actual e Variazione di prezzo. E fatturato a mix eﬀettivo e prezzi standard: δP REZZO = RD(p, c, t) − RFD (p, c, t) = = Dperc (p, c, t) · Dtot (F, c, t) · {πD (p, c, t) − πB (p, c, t)} . Lo scostamento di prezzo valuta l’impatto sul fatturato derivante da una variazione nel prezzo di vendita del prodotto p, rispetto a quanto deﬁnito in sede di redazione del sales budget, lasciando inalterate la domanda totale per famiglia (domanda totale actual e budget coincidono) e la composizione percentuale del mix di vendita dei prodotti all’interno della famiglia, coincidente fra target mix e actual mix. La responsabilit` a delle variazioni di prezzo viene usualmente ascritta alla funzione Marketing, che ha in carico la determinazione dei prezzi dei singoli prodotti, adeguati al contenuto tecnologico ed alla modalit` a di presentazione commerciale. Sommando le tre tipologie di variazione nelle vendite si ottiene: δV OLU M E + δM IX + δP REZZO = RD(p, c, t) − RB(p, c, t) = ΔRtotale (p, c, t) = = {RFB (p, c, t) − RB(p, c, t)}+ +{RFD (p, c, t) − RFB (p, c, t)} + {RD(p, c, t) − RFD (p, c, t)} , grandezza equivalente alla diﬀerenza fra fatturato a mix, domanda totale e prezzi eﬀettivi e fatturato a mix, domanda totale e prezzi consuntivi, indicata utilizzando la notazione ΔRtotale (p, c, t) = πD (p, c, t) · D(p, c, t) − πB (p, c, t) · B(p, c, t) , ricordando le formule che legano le grandezze D, Dperc , Dtot , B, Bperc , Btot . Ad esempio: D(p, c, t) =

1 · Dperc (p, c, t) · Dtot (F, c, t) . 100

6.2.6 Customer Service Analysis: eﬃcacia ed eﬃcienza Il servizio al cliente (customer service) identiﬁca l’insieme delle attivit` a e dei processi operativi del ciclo attivo che le funzioni operative dell’azienda devono eseguire in modo eﬃcace per aumentare il livello di soddisfazione del cliente (customer satisfaction), in aggiunta alla semplice fornitura dei prodotti presso i punti di contatto con il cliente. Se la consegna ﬁsica del prodotto presso il punto vendita (o direttamente al cliente ﬁnale nel caso dei clienti industriali) rappresenta il tradizionale processo transazionale di vendita del prodotto, attraverso la predisposizione di servizi aggiuntivi (gestione del ciclo di vita dell’ordine, confezionamento, assistenza post-vendita) `e possibile arricchire l’oﬀerta commerciale globalmente erogata al cliente, al ﬁne di accrescere il grado di fedelt` a verso i prodotti commercializzati dall’azienda.

6.2 KPI Analysis

219

L’operativit` a e le prestazioni del sistema logistico-produttivo-distributivo di un’azienda possono essere misurate secondo due diﬀerenti punti di vista: 1. ottica esterna (eﬃcacia del servizio al cliente): misura delle prestazioni dei processi esecutivi transazionali verso il cliente, dal punto di vista della qualit` a del servizio erogato dal sistema logistico al cliente; 2. ottica interna (eﬃcienza nello svolgimento delle operations logistico-produttive): misura delle prestazioni dei processi produttivi e distributivi internamente realizzati dagli operatori dei cicli attivo e passivo, con l’obiettivo di consegnare ai clienti i prodotti nelle giuste quantit` a, nelle condizioni qualitative concordate, alla data di consegna pattuita, nelle giuste condizioni di imballaggio e trasporto. L’analisi di eﬃcacia esterna dei processi logistici vuole misurare le performance operative fornite al mercato, stimando il valore del servizio erogato al cliente; l’analisi di eﬃcienza interna valuta la redditivit` a dei processi di acquisto, produzione, stoccaggio e distribuzione, analizzando l’ammontare delle risorse interne assorbite per realizzare e distribuire i prodotti ﬁniti. L’eﬃcacia esterna si misura rapportando il livello di output eﬀettivo conseguito (KPI actual ) al livello di output obiettivo (KPI target ). Ad esempio, su un insieme di 100 ordini pervenuti in un dato istante temporale, si vuole misurare la quotaparte N di tali ordini servita on time (KPI puntualit` a di consegna); in questo caso il valore target del KPI `e pari a 100/100 = 1, il valore eﬀettivo `e pari a N/100, generalmente inferiore a 1. L’eﬃcienza interna si misura invece rapportando output ed input eﬀettivamente utilizzati per espletare un processo di tipo manifatturiero (produzione dei prodotti ﬁniti e controllo di qualit` a, acquisto delle materie prime) o di tipo distributivo (stoccaggio e conservazione dei prodotti ﬁniti, consegna al cliente attraverso la ﬂotta di trasporto). Ad esempio, • la resa di produttivit` a di una fase produttiva pu` o essere misurata calcolando il rapporto, su un’opportuna base temporale, fra il numero di prodotti ﬁniti conformi ed il numero totale di prodotti ﬁniti realizzati (somma dei prodotti ﬁniti conformi e scartati); • la resa di produttivit` a di una fase logistica `e misurabile rapportando il numero di unit` a prodotto ﬁnito spedite, nell’unit` a di tempo, al numero di veicoli utilizzati nel trasporto. Anche nel caso della valutazione del customer service, l’analisi degli scostamenti avviene, come di consueto, attraverso: • la progettazione di sistemi integrati di KPI per la misura dei processi operativi; • la deﬁnizione di valori obiettivo (KPI target ) per ciascuna componente del servizio al cliente; • la misura dei valori eﬀettivi dei KPI monitorati in corso d’opera (KPI actual ); • la valutazione degli scostamenti, attraverso strumenti OLAP di navigazione sui dati relativi al servizio al cliente, misurando i KPI composti e derivati per la

220

6 Demand Analytics: analisi statistica e KPI

valutazione delle performance; • l’implementazione di azioni correttive rivolte ad incrementare la qualit` a del servizio al cliente. 6.2.7 Customer Service Analysis: componenti Con riferimento ai processi operativi di Demand Planning, il servizio al cliente pu` o essere misurato in relazione alle attivit` a esecutive di gestione delle vendite, scomponibili in tre aree operative: la gestione degli ordini (order management), la distribuzione dei prodotti (product delivery), il servizio post-vendita. Gestione degli ordini La progettazione di un sistema di KPI per l’analisi delle prestazioni delle attivit` a SCE per la gestione degli ordini riguarda i seguenti aspetti del processo operativo, collocabili sequenzialmente lungo le fasi del ciclo di vita dell’ordine: • supporto tecnico per la corretta selezione del prodotto o del mix di prodotti desiderato; • preparazione dell’ordine (inserimento delle righe d’ordine, negoziazione della data di consegna e delle modalit` a di trasferimento logistico del prodotto al cliente); • modalit` a di soddisfacimento dell’ordine (prelievo immediato del prodotto da scorta o da scaﬀale, consegna diﬀerita in seguito a produzione ﬁsica del prodotto); • gestione dello stato di avanzamento dell’ordine (informazioni periodiche al cliente circa l’evoluzione della commessa); • gestione degli imprevisti (ritardi di consegna, rilavorazione di parte della commessa). Distribuzione dei prodotti Le prestazioni relative alla consegna dei prodotti al cliente si misurano secondo diversi proﬁli di analisi, per ciascuno dei quali `e possibile redigere un sistema integrato di KPI : • tempo di consegna del prodotto al cliente (evasione dell’ordine); • ﬂessibilit` a nel riassortimento di un ordine, in corso d’opera, in seguito a modiﬁche nella sua composizione inoltrate tardivamente dal cliente; • eﬃcacia nelle consegne (accuratezza, puntualit` a e frequenza di consegna). Servizio post-vendita La misura del servizio di assistenza post-vendita erogato al cliente, a valle della consegna formale del prodotto, si esplica secondo le seguenti direttrici: • eﬃcienza nell’assistenza tecnica per la riparazione o la sostituzione del prodotto in caso di alterazione nelle modalit` a di funzionamento (gestione dei solleciti, gestione dei reclami e dei contenziosi legali);

6.2 KPI Analysis

221

• eﬃcienza nel recupero dei prodotti obsoleti, in fase di sostituzione con nuovi prodotti tecnologicamente e/o funzionalmente pi` u evoluti; • supporto marketing al cliente nel ciclo di vita del prodotto, attraverso la preparazione di piani di assistenza tecnica, training nell’utilizzo del prodotto, supporto in fase di dismissione. Per ciascuna delle dimensioni di analisi identiﬁcate per il livello di servizio al cliente, l’azienda deve identiﬁcare: • il valore attuale (actual value) della performance erogata al cliente; • il valore obiettivo (target value) da raggiungere nel breve-medio termine; • il valore eccellente (best in class value) nel contesto competitivo, erogato dall’azienda competitor “migliore” per quella componente del servizio. Un attento bilanciamento fra valore target e valore best in class permette all’azienda di progettare adeguatamente il proprio posizionamento lungo le dimensioni del customer service. La ﬁgura 6.13 illustra le dimensioni del livello di servizio ed i posizionamenti actual, target e best in class. 6.2.8 Customer Service Analysis: fasi operative del ciclo attivo Il ciclo di vita di un ordine cliente `e composto da fasi sequenziali, codiﬁcabili con precisione, standardizzabili ed eseguibili durante le fasi ripetitive del ciclo attivo di Supply Chain Execution. Esistono tre tipologie di fasi esecutive per il ciclo attivo di gestione dell’ordine cliente: gestione della transazione, preparazione dell’ordine, consegna del prodotto. La somma dei tempi di esecuzione delle diverse fasi di gestione dell’ordine deﬁnisce il tempo di consegna al cliente, intervallo temporale avente: • come istante iniziale, il momento della ricezione dell’ordine da parte dell’azienda; • come istante ﬁnale, il momento della consegna del prodotto “chiavi in mano” al cliente. Gestione della transazione Questa fase riguarda le attivit` a operative e contabili di acquisizione dell’ordine da parte del cliente, che inoltra la propria richiesta di acquisto • direttamente recandosi presso il punto vendita (clienti consumer ); • attraverso modalit` a di comunicazione interaziendale, quali telefono, fax, posta elettronica, siti web con pagine dedicate al processo di order entry (clienti industriali). La gestione della transazione `e internamente scomponibile nelle seguenti fasi: 1. ricevimento della richiesta di acquisto da parte del cliente; 2. introduzione dei dati nel sistema ERP: per ciascuna riga d’ordine si inseriscono la quantit` a richiesta per la relativa SKU, la data di consegna, la modalit` a e la localit` a di consegna;

222

6 Demand Analytics: analisi statistica e KPI GESTIONE DEGLI ORDINI

DISTRIBUZIONE DEI PRODOTTI

LIVELLO CORRENTE KPI AZIENDA BEST IN CLASS

SERVIZIO POST-VENDITA

LIVELLO CORRENTE KPI PER L'AZIENDA LIVELLO TARGET KPI PER L'AZIENDA

Figura 6.13. Analisi di posizionamento per i KPI del servizio al cliente

3. veriﬁca preliminare della disponibilit` a del prodotto a scorta, tramite algoritmi ATP (Available to Promise) presenti nei sistemi decisionali APS ; 4. conferma o negoziazione dell’ordine: determinazione della data di consegna da promettere al cliente per ciascuna riga d’ordine; 5. inserimento dell’ordine cliente acquisito nel sistema di gestione della produzione e dei materiali MPS /MRP/DRP, per la pianiﬁcazione di medio-breve termine. Preparazione dell’ordine Una volta inoltrate le caratteristiche dell’ordine acquisito ai sistemi ERP ed ai sistemi elettronici di gestione dei magazzini, si procede alla composizione ﬁsica dell’ordine, predisponendo le unit` a di carico e spedizione dei prodotti ﬁniti al cliente, attraverso le seguenti fasi: 1. prelievo dei materiali da magazzino, tramite analisi della picking list, nelle quantit` a e nel mix richiesto dalle righe d’ordine; 2. gestione delle urgenze in caso di indisponibilit` a del prodotto all’atto del prelievo dal magazzino di stoccaggio; 3. consolidamento dell’ordine mediante composizione delle righe d’ordine: packaging dei prodotti ﬁniti in conformit` a a quanto indicato nell’ordine, preparazione delle unit` a di carico (pallettizzazione dei prodotti); 4. preparazione dei documenti di spedizione e consegna al cliente ﬁnale. Consegna del prodotto Al termine delle fasi di allestimento dell’ordine cliente all’interno del magazzino prodotti ﬁniti, oppure presso i depositi intermedi centrali o periferici dislocati lungo la rete logistico-distributiva, i prodotti vengono spediti al cliente, applicando le fasi sequenziali:

6.2 KPI Analysis

223

1. caricamento dei mezzi di trasporto; 2. identiﬁcazione del percorso di consegna, diretto o indiretto, lungo depositi intermedi e centri logistici intermodali; 3. consegna al cliente presso la localit`a concordata; 4. certiﬁcazione da parte del cliente della consegna dei prodotti ﬁniti, conformemente alle speciﬁche scritte nell’ordine. 6.2.9 Customer Service Analysis: KPI In questo paragrafo viene proposto un sistema di KPI di misura delle prestazioni dei processi correlati al servizio al cliente, focalizzando l’attenzione prevalentemente sui clienti industriali. Si deﬁniscono i seguenti KPI semplici, calcolati su un’opportuna base temporale di riferimento, da comporre successivamente per la deﬁnizione di KPI derivati utilizzabili nella KPI analysis di customer service: • N ORD IN : numero di ordini ricevuti (ciascuno formato da un insieme di righe d’ordine); • N ORD OU T : numero totale di ordini evasi; • N ORD OU T ST OCK : numero di ordini completamente soddisfatti mediante prelievo immediato del prodotto ﬁnito da stock; • N LIN IN : numero di righe d’ordine ricevute (appartenenti ad ordini diversi); • N LIN OU T : numero totale di linee d’ordine evase; • N LIN OU T ST OCK : numero di righe d’ordine completamente soddisfatte mediante prelievo immediato del prodotto ﬁnito dal magazzino prodotti ﬁniti, localizzato presso il plant produttivo o presso un deposito logistico; • VALUE IN : valore economico degli ordini ricevuti; • VALUE OU T : valore economico degli ordini evasi; • QIN p : quantit` a totale del prodotto p richiesta, durante un deﬁnito intervallo temporale (distribuita su pi` u ordini distinti); a totale del prodotto p servita nel medesimo intervallo; • QOU T p : quantit` • QOU T ST OCK p : quantit` a di prodotto servita immediatamente da scorta; • Qchanged p : quantit` a del prodotto p variate su esplicita richiesta del cliente (variazione di quantit` a, di mix per gli articoli consegnati); • N SHIP: numero di consegne distinte eﬀettuate per ciascun ordine; • N ORD on time : numero di ordini evasi on time oppure in anticipo; • TDELAY (j): numero di periodi di ritardo di consegna di un ordine (misurato su ciascun ordine j); • N ORD out quality : numero di ordini consegnati in modo non conforme (per mancanza di imballaggi adeguati, per quantit` a incomplete, per mix di prodotti non corretto). Nel seguito del paragrafo si elencano i principali KPI derivati per l’analisi del servizio al cliente, declinabili dalle prime due dimensioni di analisi: gestione degli ordini e distribuzione dei prodotti, come evidenziato in ﬁgura 6.144 , la quale mostra 4

Per quanto concerne l’analisi del servizio post-vendita, si rimanda a testi specialistici dell’argomento. Due esempi di KPI per tale dimensione del servizio al cliente sono dati

224

6 Demand Analytics: analisi statistica e KPI ON TIME DELIVERY GESTIONE DEGLI ORDINI

DISTRIBUZIONE DEI PRODOTTI

MIX ASSORTMENT

SHIPMENT ACCURACY

PRODUCT DELIVERY RATE ORDER FULFILMENT STOCK AVAILABILITY

SERVIZIO POST-VENDITA

LIVELLO CORRENTE KPI PER L'AZIENDA LIVELLO TARGET KPI PER L'AZIENDA

Figura 6.14. KPI map per il servizio al cliente

un esempio di KPI map multidimensionale per l’analisi del servizio al cliente, in cui vengono dettagliati i diversi KPI, per ciascuno dei quali sono misurati i valori actual e target. Order Fill Rate Il KPI order ﬁll rate (o order satisfaction rate) rappresenta la percentuale di ordini soddisfatti nell’arco temporale di riferimento: OF R = 100 ·

N ORDOU T . N ORDIN

Questo KPI prescinde dalla modalit` a di soddisfacimento degli ordini serviti e chiusi (mediante prelievo da stock, mediante lancio di lotti in produzione, mediante replenishment logistico lungo i depositi della rete). Gli ordini persi (lost orders) si sono rivelati tali in quanto: • il cliente non ha accettato, in fase di order entry, le condizioni logistiche o commerciali proposte dall’azienda; • l’azienda non ha accettato le condizioni imposte dal cliente, in quanto ritenute non redditizie e suﬃcientemente proﬁttevoli, oppure perch´e la fornitura si sarebbe rivelata troppo complessa e rischiosa nella deﬁnizione, nell’allestimento o nella consegna; • il cliente non ha accettato la mancanza di disponibilit` a a scorta del prodotto (consegna immediata mediante prelievo da stock), non consentendo all’azienda la possibilit` a di consegnare le merci con un lead time positivo (generazione di stockout ). dal numero di prodotti difettosi resi, rispetto al numero totale di prodotti consegnati (misurati in quantit` a, righe d’ordine, a valore), dal numero di reclami nell’unit` a di tempo, dalla frequenza di danneggiamento ed inutilizzabilit` a dei prodotti.

6.2 KPI Analysis

225

Il KPI derivato per la misura degli ordini persi `e ricavabile come complemento ad uno del KPI order ﬁll rate:

N ORDLOST N ORDOU T = 100 · LO = 100 · 1 − , N ORDIN N ORDIN essendo N ORD LOST il numero di ordini riﬁutati, dal produttore o dal cliente, nell’orizzonte temporale di riferimento. Il grado di soddisfacimento degli ordini pu` o anche essere espresso: • in termini di righe d’ordine servite, rispetto al totale (order line ﬁll rate): LF R = 100 ·

N LINOU T ; N LININ

• in termini di quantit` a servite per un prodotto ﬁnito p o per una famiglia di prodotti F , rispetto al totale (order quantity ﬁll rate)5 : QF Rp = 100 ·

QOU T p ; QIN p

QF RF =

QOU T p 100 · ; card{F } QIN p p∈F

• in termini di valore economico associato alle righe d’ordine rispetto al totale (order value ﬁll rate): V F R = 100 ·

V ALU EOU T . V ALU EIN

La misura relativa alle quantit` a di domanda servite QFR p rappresenta una proxy per valutare l’accuratezza nella deﬁnizione dei piani di sales forecast e di sales budget : al denominatore del rapporto QFR p `e necessario inserire, a parit`a di intervallo temporale di riferimento, la previsione di vendita per il prodotto p, nel primo caso, ed il suo budget di vendita, nel secondo. Shipment accuracy L’accuratezza di una consegna di prodotti al cliente misura la completezza e la precisione con cui l’ordine viene soddisfatto, in quanto contenente il mix di prodotti richiesto, nelle relative quantit` a, con il packaging e la documentazione di corredo idonei. A fronte di una possibile causa di non conformit` a di un ordine, si deﬁnisce il seguente KPI per misurare la percentuale di ordini conformi alle richieste del cliente (shipment accuracy o perfect order fulﬁlment):

N ORDout quality P OF = 100 1 − . N ORDOU T 5

Il livello di servizio, misurato tramite l’order quantity satisfaction rate per una famiglia F di prodotti, a parit` a di mercato servito e di base temporale di calcolo, si determina come media aritmetica dei livelli di servizio per i singoli prodotti p appartenenti alla famiglia F . Questa considerazione `e valida, in generale, per tutte le metriche di performance per la KPI analysis di customer service.

226

6 Demand Analytics: analisi statistica e KPI

Questo KPI pu` o essere disaggregato in componenti elementari, derivando altri KPI che valutano l’inaccuratezza dovuta a quantit` a di consegna non conformi, alla qualit` a dei prodotti non conforme, al packaging non standard. Disponibilit` a dei prodotti a scorta Rappresenta la percentuale di ordini soddisfatti immediatamente da scorta (stock availability rate), senza ricorrere alla richiesta di produzione del prodotto ﬁnito o di approvvigionamento esterno attraverso terzisti: SAR1 = 100 ·

N ORDOU T ST OCK ; N ORDIN

SAR2 = 100 ·

N ORDOU T ST OCK . N ORDOU T

Il grado di indisponibilit` a dei prodotti a scorta (stock unavailability rate) si misura, in modo intuitivo, mediante il calcolo del complemento ad uno per i KPI proposti. Analoghi KPI possono essere formulati qualora si voglia usare come metro di calcolo il numero di righe d’ordine o le quantit` a di prodotto servite immediatamente “dal pronto”. Ad esempio: SAR3 = 100 ·

N LINOU T ST OCK ; N LININ

SAR4 = 100 ·

QOU T ST OCK QIN p

p

.

Puntualit` a nella consegna dei prodotti I KPI relativi alla puntualit` a di consegna delle merci deﬁniscono la capacit` a del produttore di rispettare i termini temporali di consegna concordati con il cliente in sede di negoziazione dell’ordine. Per ciascun ordine il cliente pu` o applicare: • penalit` a di consegna, proporzionali ai periodi di ritardo nella fornitura oppure ﬁssi; • premi per anticipata consegna, qualora sia percepita come un importante differenziale di servizio la possibilit` a di ricevere anticipatamente il prodotto richiesto. In caso contrario, l’anticipo di consegna per taluni prodotti presenti in un ordine non compensa le penalit` a eventualmente applicate per ritardata consegna di altri prodotti del medesimo ordine. Un ordine pu` o essere consegnato in modo frazionato, per singole righe d’ordine, oppure intero, completo nella composizione di mix. I pi` u comuni KPI per il monitoraggio della puntualit` a di consegna sono: • on time delivery e late delivery: OT D = 100 ·

N ORDon time ; N ORDOU T

LD = 100 − OT D ;

• ritardo medio di consegna per ordini consegnati oltre la due date (mean time on delay): TDELAY (j) MTD =

j

N ORDOU T − N ORDon time

;

6.2 KPI Analysis

227

• ritardo massimo di consegna di un ordine (max lateness): Lmax = max{TDELAY (j)} . j

Il KPI late delivery LD pu` o anche essere utilizzato per valutare il numero di ordini consegnati in ritardo (backlog orders), N ORD late , per concessione del cliente:

N ORDlate N ORDon time . = 100 · LD = 100 · 1 − N ORDOU T N ORDOU T Flessibilit` a di mix La ﬂessibilit` a di mix rappresenta la disponibilit` a del fornitore di prodotti a variare, su richiesta del cliente, il mix di prodotti che formano le righe di un singolo ordine, modiﬁcando le quantit` a da consegnare. Un indicatore di performance che misura la ﬂessibilit` a dell’azienda a modiﬁcare un mix produttivo gi` a ordinato ed in corso di preparazione `e dato dal mix change rate: M CRp = 100 ·

Qchanged p , QOU T p

per un generico prodotto p appartenente ad una famiglia commerciale F . Eseguendo la media aritmetica sui mix change rate dei prodotti della stessa famiglia, si ottiene il grado di ﬂessibilit` a a variazioni di mix per i prodotti della famiglia. Frequenza di consegna dei prodotti Il KPI semplice N SHIP, indicante il numero medio di consegne distinte eﬀettuate per ciascun ordine (product delivery rate), deﬁnisce la frequenza di consegna dei prodotti al cliente: all’aumentare del numero di consegne distinte, aumenta il livello di ﬂessibilit` a e reattivit` a dimostrato dal distributore. La possibilit` a, da parte del cliente, di poter ordinare con elevata frequenza piccole quantit` a di prodotto, all’interno del medesimo ordine complessivo, consente di detenere bassi livelli di giacenza presso i punti vendita, a scapito di un aumento dei costi di spedizione, trasporto ed allestimento degli ordini da parte del fornitore; nel caso di prodotti deperibili, ricevere frequentemente il prodotto consente al cliente di gestirne la ridotta shelf life attraverso acquisti di entit` a inferiore, cadenzati nel tempo, a seconda dell’andamento delle giacenze rilevate presso i punti vendita. Il numero di consegne distinte pu` o essere trasformato in un KPI derivato, rapportandolo al numero totale di ordini acquisiti ed evasi in un’assegnata ﬁnestra temporale: N SHIP P DR = 100 · . N ORDOU T

7 Demand Intelligence: clustering

Introduzione – Tipologie di attributi per il clustering – Applicazioni di clustering per il Data Mining – Applicazioni di clustering per il Demand Planning – Analisi degli attributi – Calcolo della distanza fra osservazioni – Misure di prestazione per il clustering – Algoritmo delle K-medie – Algoritmo di agglomerazione – Esempio di applicazione: new product forecasting

7.1 Introduzione Il clustering `e una tecnica di Data Mining di tipo non supervisionato, nel senso che non esiste un attributo target il cui valore debba essere stimato, in modalit` a predittiva. Clustering signiﬁca collocare “oggetti” (prodotti, segmenti prodotto-mercato, ecc.) all’interno di raggruppamenti omogenei, detti cluster, sulla base di criteri di valutazione delle similarit`a fra tali elementi, mettendo in correlazione i valori assunti da un insieme di attributi che li descrivono e ne caratterizzano la struttura conoscitiva. Ad esempio, si possono formare cluster basati sullo studio delle caratteristiche di vendita dei prodotti (fatturato, margini, costi), oppure sulle loro caratteristiche morfologiche (colore, forma, peso) o, pi` u in generale, qualitative. Il raggruppamento ﬁnale di elementi all’interno di un numero ﬁnito di cluster deve godere della seguente propriet` a: • gli elementi all’interno dello stesso cluster hanno elevata similitudine nei valori assunti dagli attributi qualiﬁcanti analizzati; • gli elementi appartenenti a cluster diﬀerenti presentano caratteristiche signiﬁcativamente diﬀormi nei valori degli attributi usati per eﬀettuare il clustering. L’analisi di clustering deve fornire risultati non banali, interpretabili a posteriori in modo qualitativo dagli analisti di Demand Planning. Ad esempio, uno studio di clustering condotto su un insieme di prodotti, utilizzando come unico attributo categorico di indagine il colore assunto da ciascun item, fornisce il risultato banale ed intuitivo di raggruppare i prodotti per identit` a di colore, formando i cluster Ck , k = 1, . . . , K, contenenti rispettivamente i prodotti di colore rosso, verde, giallo, ecc. Meno intuitive e scontate appaiono le analisi di clustering basate su:

Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

230

7 Demand Intelligence: clustering

• un singolo attributo numerico, continuo o discreto; • una molteplicit` a di attributi di diﬀerente natura (categorici, numerici continui, numerici discreti, ordinali), ciascuno dei quali pu` o pesare in modo uniforme o diﬀerenziale nel processo di ripartizione degli elementi in cluster. Le analisi di clustering vengono tipicamente svolte nelle fasi di Demand Intelligence, dai demand planner specializzati nell’utilizzo dei modelli matematici di Data Mining e Business Intelligence. Raggruppare prodotti, clienti, segmenti prodottomercato in cluster fornisce ausilio ai decisori nei processi di Marketing Intelligence e Sales Forecasting: • lo studio delle caratteristiche di omogeneit`a dei prodotti/mercati all’interno del medesimo cluster fornisce informazioni utili e non banali ai responsabili di marketing, al ﬁne di progettare promozioni o campagne di vendita focalizzate su uno speciﬁco gruppo di clienti/consumatori target: acquirenti aventi caratteristiche di acquisto simili risponderanno probabilmente in modo analogo ad una campagna di marketing appositamente caratterizzata; • l’analisi dei pattern storici di domanda per i segmenti prodotto-mercato appartenenti allo stesso cluster aiuta a comprendere a posteriori talune caratteristiche occorse nel passato, nel corso di speciﬁche promozioni o all’interno di particolari stagioni di vendita. Inoltre, un nuovo segmento prodotto-mercato di cui non esiste, per deﬁnizione, una serie storica delle vendite, pu` o essere collocato all’interno di un certo cluster, i cui membri presentano analoghe caratteristiche qualitative negli attributi oggetto del clustering: l’appartenenza del nuovo prodotto ad un cluster di prodotti gi` a nel mix commerciale aiuta a deﬁnire il piano previsionale per il nuovo prodotto, basandosi su analogie e correlazioni con la serie storica “media” degli altri prodotti inseriti nello stesso cluster.

7.2 Tipologie di attributi per il clustering 7.2.1 Matrice degli attributi All’interno delle dimensioni e delle gerarchie di aggregazione di un sistema multidimensionale basato sui cubi OLAP esistono due macrocategorie di attributi (anche detti feature): • attributi descrittivi, associati alle entit`a dal sistema ERP (attributi di prodotto: colore, forma, peso, taglia, ecc.; attributi di mercato: canale, importanza, magazzino, ecc.); • attributi di sintesi, calcolati mediante aggregazione gerarchica di indicatori quantitativi (fatturato totale per cliente per anno, numero di ordini per prodotto per semestre, ecc.). Gli attributi che caratterizzano un prodotto, un mercato, un segmento prodottomercato appartengono alle seguenti classi : attributi numerici continui, numerici

7.2 Tipologie di attributi per il clustering

231

discreti, categorici ordinali, categorici nominali. In generale, il mix di attributi che viene preso in considerazione per le analisi di clustering `e eterogeneo rispetto alle classi di base evidenziate, analizzate in dettaglio nei paragraﬁ successivi. Infatti, `e possibile rappresentare ciascun elemento da clusterizzare tramite: • un identiﬁcativo univoco (codice prodotto, mercato, segmento); • una sequenza di valori disponibili per gli attributi selezionati. Il dataset in input ai modelli di clustering `e quindi formato da un insieme di m elementi distinti da clusterizzare, per ciascuno dei quali sono noti i valori assunti da n attributi descrittivi. Il dataset `e modellizzabile tramite una matrice degli attributi F avente m righe ed n colonne, il cui generico elemento xij rappresenta il valore dell’attributo j-esimo (j = 1, . . . , n) in corrispondenza dell’elemento i-esimo (i = 1, . . . , m) da clusterizzare: ⎤ ⎡ x11 x12 . . . x1n ⎢ x21 x22 . . . x2n ⎥ ⎥ [F ] = ⎢ ⎣ . . . . . . xij . . . ⎦ . xm1 xm2 . . . xmn Il generico elemento i-esimo presenta, all’interno della matrice F , un insieme di n attributi, i cui valori sono espressi tramite il vettore n-dimensionale: x i = {xi1 xi2 xi3 . . . xij . . . xin} . Il generico attributo j-esimo da analizzare presenta, all’interno della matrice F , un insieme di m valori numerici, espressi tramite il vettore m-dimensionale: f j = {x1j x2j x3j . . . xij . . . xmj } . In ﬁgura 7.1 `e riportato l’esempio di un dataset avente m = 10 righe, rappresentanti segmenti prodotto-mercato, e n = 5 attributi (fatturato, importanza, prezzo del prodotto, numero di varianti di prodotto, presenza di promozioni nell’ultimo trimestre). 7.2.2 Attributi numerici continui Tali attributi sono deﬁniti ed istanziati da valori numerici che variano con continuit` a all’interno dell’insieme dei numeri reali. Grandezze economiche e valori di vendita sono descrivibili tramite attributi numerici continui; ad esempio: • • • •

il fatturato di un segmento prodotto-mercato nell’unit` a di tempo; il prezzo o il costo unitario di prodotto, all’interno di una stagione di vendita; la serie storica delle vendite di un segmento prodotto-mercato; il piano di sales forecast per un segmento prodotto-mercato.

Le comuni metriche della geometria analitica caratterizzano la nozione di distanza o diﬀormit` a fra le osservazioni registrate per due oggetti da inserire in cluster. Dati

232

7 Demand Intelligence: clustering Tabella 7.1. Esempio di dataset di 10 elementi, caratterizzati da 5 attributi

segmento

fatturato

importanza

prezzo

numero varianti

promozioni (s`ı=1, no=0)

P1 − C1 P1 − C2 P1 − C3 P2 − C1 P2 − C2 P2 − C3 P3 − C1 P3 − C2 P4 − C1 P4 − C2

1000 1200 100 1320 2000 2200 3020 1000 1600 1770

media bassa bassa media alta alta alta media media alta

19.99$ 14.99$ 9.99$ 39.99$ 19.99$ 19.99$ 14.99$ 9.99$ 29.99$ 29.99$

4 3 3 3 4 7 1 1 2 1

1 0 0 0 1 1 1 1 0 1

k$ k$ k$ k$ k$ k$ k$ k$ k$ k$

due prodotti P1 e P2 , i cui prezzi unitari sono rispettivamente 13.99$ e 25.49$, la distanza misurabile per l’attributo prezzo in corrispondenza dei due prodotti `e pari, in valore assoluto, a 11.50$.

7.2.3 Attributi numerici discreti Tali attributi sono deﬁniti tramite un insieme di valori discreti, non necessariamente interi, di dimensione ﬁnita o inﬁnita. Tali insiemi sono caratterizzati mediante tre classi: • l’insieme dei numerici naturali {0, 1, 2, . . . , n, . . . } caratterizzante gli attributi numerici interi positivi; • l’insieme booleano {0; 1} caratterizzante gli attributi binari; • insiemi generici contenenti un numero ﬁnito di valori numerici (domini ); ad esempio, i punti prezzo di un mix di prodotti presenti in un punto vendita nel settore dell’abbigliamento {9.99; 14.99; 19.99; 24.99}. Se per gli attributi interi (positivi o negativi) e per gli insiemi discreti `e possibile utilizzare le metriche della geometria analitica, per calcolare le distanze fra i valori discriminanti l’appartenenza di taluni prodotti in taluni cluster, nel caso degli attributi discreti occorre usare alcuni accorgimenti speciﬁci. Esempi di attributi numerici discreti sono dati da: • il numero di varianti o versioni all’interno di una famiglia di prodotti; • il sistema di prezzi standard di un prodotto venduto in diversi mercati; • la presenza o meno di una promozione in un periodo, per un segmento prodottomercato, piuttosto che di una generica caratteristica (con = 1; senza = 0); • la caratterizzazione di un prodotto “nuovo”, cio`e di recente introduzione nei mercati, all’interno di un mix (s`ı = 1; no = 0).

7.2 Tipologie di attributi per il clustering

233

7.2.4 Attributi categorici ordinali Tali attributi, i cui valori sono di tipo alfanumerico, possono essere ordinati progressivamente lungo una scala numerica, mediante un insieme di valori numerici interi equidistanti, arbitrariamente deﬁnibili. Gli insiemi di deﬁnizione di tali attributi contengono un numero ﬁnito di possibili valori; ad esempio: • il range colorimetrico di una famiglia di prodotti, qualora sia possibile ordinare numericamente i colori sulla base della loro gradazione, misurata attraverso indicatori di tipo ﬁsico: {bianco, giallo, rosa, arancione, . . . , nero}; • le taglie di un vestito {S, M, L, XL, XXL}; • il mese/settimana/giorno di vendita di un prodotto presso un punto vendita; ad esempio, per i mesi: {gen – feb – mar – apr – . . . – nov – dic}; • le classi di appartenenza o di importanza di un insieme di prodotti o clienti: {A, B, C}, {alto, medio, basso}, {prima scelta, seconda scelta}; • attributi anagraﬁci discreti, quali il livello di scolarit` a {elementari, medie, superiori, universit` a, master}, la fascia di et` a {bambino, ragazzo, giovane, adulto, anziano}. Associando una scala di valori numerici interi positivi ai valori degli attributi categorici ordinali, come ad esempio: • {A, B, C} = {1, 2, 3}; • {bambino, ragazzo, giovane, adulto, anziano} = {1, 2, 3, 4, 5} `e possibile valutare la distanza fra tali attributi, in corrispondenza di diversi oggetti da clusterizzare, mediante metriche geometriche, previa standardizzazione dei valori interi sequenzialmente assegnati a ciascun valore categorico degli attributi ordinali. 7.2.5 Attributi categorici nominali Tali attributi, di tipo alfabetico, deﬁniscono qualitativamente le caratteristiche di un prodotto o di un mercato; essi non sono ordinabili secondo una sequenza numerica progressiva. Gli insiemi di deﬁnizione di tali attributi contengono un numero ﬁnito di possibili valori. Generalmente, gli attributi nominali sono deﬁniti dalle entit` a di aggregazione gerarchica per segmenti prodotto-mercato, secondo i criteri di navigazione di Demand Analytics sui cubi multidimensionali OLAP. Esempi di attributi categorici ordinali sono dati da: • la citt` a o la regione di ubicazione di un mercato: {Milano, Roma, Siena, . . . }; • la famiglia di appartenenza di un item del mix commerciale; • il colore di un prodotto1 , la sua forma o la materia prima principale da cui `e composto. 1

Nell’ipotesi che il range colorimetrico di intensit` a dei colori assunti dai prodotti non sia numericamente discretizzabile, riconducendo tale attributo alla tipologia di attributo categorico ordinale.

234

7 Demand Intelligence: clustering

7.2.6 Selezione di attributi e di entit` a Le tipologie di attributi descritte nei paragraﬁ precedenti sono riscontrabili negli attributi di prodotto, mercato, tempo, contenuti all’interno dei datawarehouse e dei datamart dipartimentali. Ciascun attributo dev’essere identiﬁcato nelle appropriate tabelle delle dimensioni o nelle tabelle dei fatti del datawarehouse, quindi dev’essere tipizzato e rappresentato all’interno della matrice F degli attributi; mediante questo procedimento ricorsivo si selezionano gli n attributi oggetto dell’indagine di clustering. La ﬁgura 7.1 schematizza il processo di identiﬁcazione e catalogazione degli attributi. Come si osserva dalla ﬁgura, precedentemente alla selezione delle feature occorre identiﬁcare ed estrarre le entit` a da impiegare per l’addestramento del modello di clustering, cio`e per la formazione dei cluster sulla base di quanto prescritto dall’algoritmo adottato; tali entit` a formano le m righe della matrice degli attributi. Identificazione entità (segmenti prodotto-mercato)

Identificazione attributi descrittivi

Identificazione attributi sintetici

Classificazione attributi

Costruzione matrice degli attributi

F = { xij } Figura 7.1. Selezione delle entit` a e degli attributi per il clustering

Sulla base dei segmenti prodotto-mercato oggetto di studio, gli analisti di Demand Intelligence eseguono un primo ﬁltro sugli attributi rilevanti, signiﬁcativi per l’analisi di clustering. 7.2.7 Discretizzazione di attributi numerici La discretizzazione di un attributo numerico continuo prevede la deﬁnizione di una serie di intervalli numerici, solitamente di uguale ampiezza, per l’appartenenza dei

7.3 Applicazioni di clustering per il Data Mining

235

valori continui assunti dall’attributo stesso. All’interno di ciascun intervallo viene collocato un numero variabile di valori reali assunti dall’attributo. Assegnate m osservazioni in un dataset (indice i = 1, . . . , m) ed un attributo numerico continuo j (ad esempio: il fatturato per cliente e per anno), i cui valori sono variabili con continuit` a nell’intervallo [0; maxi {xij }], `e possibile discretizzare tale attributo mediante la formazione di due tipologie di classi discrete: classi equiampie, classi equinumerose. Intervalli di uguale ampiezza Deﬁnito il numero S di suddivisioni equiampie (cio`e di uguale estensione lungo l’asse dei numeri reali) per l’intervallo di ampiezza complessiva [0; maxi {xij }], si pu` o calcolare: • l’ampiezza di ciascuna suddivisione: maxi {xij }/S; • l’ampiezza dell’intervallo di prima suddivisione: Δ1 = [0; maxi {xij }/S]; • l’ampiezza dell’intervallo di ultima suddivisione: ΔS = (S − 1) · max{xij }/S; max{xij } . i

i

Ad esempio, se S = 4 e maxi{xij } = 1000, ciascun intervallo di discretizzazione per l’attributo j `e ampio 250 unit` a. Il valore 27, assunto dall’attributo in corrispondenza dell’osservazione i-esima, appartiene al primo intervallo, il valore 350 al secondo, ecc. Il numero di valori numerici appartenenti ad un intervallo equiampio non `e costante; ciascuna occorrenza numerica per l’attributo j appartiene ad uno ed un solo intervallo. Intervalli di uguale numerosit` a Deﬁnito il numero S di suddivisioni equinumerose (cio`e contenenti lo stesso numero di osservazioni) per l’intervallo di ampiezza complessiva [0 ; maxi{xij }], assegnato un insieme m di osservazioni da clusterizzare, `e possibile • calcolare il numero di elementi contenuti in ciascuno degli S intervalli, pari a inf{m/S} oppure a sup{m/S}; • associare a ciascun intervallo gli elementi di competenza, procedendo in ordine crescente sui valori assunti dagli attributi, per ciascuna osservazione. Ad esempio, se S = 4 e m = 11, si ha: sup{m/S} = sup{11/4} = 3: ciascun intervallo di discretizzazione per l’attributo j contiene al massimo 3 elementi. Dati i valori numerici disponibili {12, 22, 36, 37, 39, 44, 44, 44, 48, 55, 56} per le 11 osservazioni, i primi tre valori appartengono al primo intervallo, i successivi tre {37, 39, 44} al secondo, i successivi tre {44, 44, 48} al terzo, inﬁne gli ultimi due valori {55, 56} sono collocati nel quarto ed ultimo intervallo.

7.3 Applicazioni di clustering per il Data Mining La suddivisione di segmenti prodotto-mercato in cluster internamente omogenei `e di supporto alle analisi conoscitive di Demand Intelligence ed alla formulazione dei

236

7 Demand Intelligence: clustering

piani di domanda (Sales Forecast, Marketing Plan), per meglio conoscere le caratteristiche d’acquisto dei clienti in relazione alla gamma commercializzata presso i punti vendita, al ﬁne di incrementare l’eﬃcacia dei piani di domanda generati nel corso dei processi gestionali di Sales & Operations Planning. Oltre alla ﬁnalit` a conoscitiva nell’ambito delle funzioni Marketing, esistono due possibili utilizzi dei metodi di clustering come fase “preliminare” di processi articolati e sequenziali di Demand Intelligence: l’analisi degli outlier e la caratterizzazione per i modelli di classiﬁcazione. Analisi degli outlier. L’applicazione di un metodo di clustering ad un insieme di elementi da raggruppare permette di evidenziare la presenza di outlier all’interno del dataset di osservazioni disponibili. Un outlier rappresenta un elemento (segmento prodotto-mercato), i cui valori per gli attributi analizzati risultano eccessivamente distanti dai valori propri degli altri elementi appartenenti ai diversi cluster: un outlier dev’essere isolato e rimosso (eventualmente corretto numericamente), evitandone l’associazione ad un qualsiasi cluster, pena lo spostamento delle coordinate del punto baricentrale del cluster (centroide) ed il peggioramento della qualit` a dei risultati ottenuti, in termini di interpretabilit` a dei raggruppamenti formati. Se si stabilisce come condizione d’appartenenza di un elemento x ad un cluster Ck il numero minimo di altri elementi che l’elemento x deve avere all’interno di un cerchio di diametro d assegnato, allora un elemento outlier y non soddisfacente a tale requisito per nessuno dei cluster esistenti viene isolato e non assegnato a nessun cluster, quindi analizzato ed eventualmente modiﬁcato, per reintegrarlo poi all’interno di un cluster. Preparazione dei dati per modelli di classiﬁcazione. Un’analisi di clustering pu` o servire come preparazione preliminare dei dati, da fornire raggruppati in cluster come input a modelli di classiﬁcazione, il cui obiettivo `e l’assegnazione di un valore ad un attributo categorico target, sulla base dello studio delle correlazioni esistenti all’interno di un insieme di attributi esplicativi (o descrittivi), i cui valori sono noti nelle osservazioni disponibili per gli elementi prodotto, mercato, segmenti prodotto-mercato. La ripartizione di segmenti prodotto-mercato in un numero limitato di cluster internamente omogenei permette di accorpare entit` a che presentano caratteristiche numeriche simili in corrispondenza di un insieme di attributi; per ciascun gruppo di segmenti, gli algoritmi di classiﬁcazione determinano appropriate regole di classiﬁcazione (deterministiche o probabilistiche), di tipo if-then e gerarchicamente strutturate, al ﬁne di stimare il valore di un attributo target per ciascun elemento oggetto di classiﬁcazione. Se l’insieme di dati disponibili `e stato preventivamente partizionato in un insieme di cluster omogenei, • le regole di classiﬁcazione vengono generate e specializzate per ogni cluster; • la qualit` a dei risultati della classiﬁcazione beneﬁcia della regolarit` a (omogeneit` a) dei dati presenti in ogni cluster, in quanto le regole e gli alberi di classiﬁcazione che ne derivano sono pi` u facilmente interpretabili e giustiﬁcabili.

7.4 Applicazioni di clustering per il Demand Planning

237

7.4 Applicazioni di clustering per il Demand Planning Gli ambiti di Demand Planning in cui `e utile applicare le tecniche e gli algoritmi di clustering sono molteplici, prendendo sempre come riferimento per le analisi segmenti prodotto-mercato distinti, piuttosto che singoli prodotti (aggregati a livello globale sui mercati, eventualmente ripartiti per warehouse logistico) o singoli mercati (aggregati a livello globale sui prodotti, eventualmente ripartiti per canale di distribuzione). Alcune indagini basate sul clustering sono di supporto alla preparazione delle attivit` a promozionali e degli eventi di marketing (nella fase di Marketing Intelligence), altre oﬀrono ausilio nella preparazione del piano previsionale (nella fase di Sales Forecasting). Forecasting di nuovi prodotti Un’analisi di clustering condotta su attributi categorici di prodotto, quali ad esempio il colore, la forma, il materiale, i clienti target2 e la fascia di prezzo, permette di formare cluster di prodotti simili, all’interno di un sistema multidimensionale in cui le dimensioni sono costituite dai singoli attributi analizzati. Una volta formate le famiglie di prodotti, `e possibile utilizzare le informazioni contenute nei cluster nel modo seguente: 1. si esaminano le curve storiche di vendita per i prodotti collocati all’interno del medesimo cluster; 2. si determinano le curve medie su tutti i prodotti del cluster, le curve ottimistiche (best case, valori massimi) e pessimistiche (worst case, valori minimi), le curve pesate (attribuendo pesi opportuni a singoli prodotti particolarmente importanti all’interno del mix commerciale o del raggruppamento formato); 3. si inseriscono nuovi prodotti, di cui non si dispone di dati storici sulle vendite, all’interno dei cluster, utilizzando come discriminanti i valori degli attributi disponibili per tali nuovi prodotti, attributi precedentemente considerati per generare i cluster con i prodotti storici3 ; 4. si assegna a ciascuno dei nuovi prodotti clusterizzati una curva storica ﬁttizia, selezionata fra quelle dei prodotti appartenenti allo stesso cluster. Ad esempio, si associa a ciascun nuovo prodotto la curva ottenuta come media aritmetica dei valori delle curve storiche di ciascun prodotto del cluster. In tal modo, `e possibile applicare i modelli e gli algoritmi di Sales Forecasting per la generazione dei piani statistici di domanda anche in presenza di nuovi prodotti. 2 3

Tale attributo `e di tipo categorico nominale; ad esempio, possibili valori sono: {uomo, donna, ragazzo, ragazza, bambino, bambina}; {lusso, sportivi, . . . }. Ad esempio, dopo aver deﬁnito i cluster sulla base delle caratteristiche qualitative (attributi categorici) dei prodotti storici, un nuovo prodotto entrante viene assegnato al cluster il cui punto baricentrale (n-dimensionale) si trova alla minima distanza dal vettore degli attributi categorici di tale prodotto. Altrimenti, l’associazione nuovo prodotto – cluster pu` o essere fatta selezionando il prodotto storico (appartenente al a n-dimensionale con il nuovo cluster Ck ) che singolarmente presenta maggiore similarit` prodotto entrante.

238

7 Demand Intelligence: clustering

I primi due passi nella procedura considerata riguardano la fase analitica dei risultati del clustering sui prodotti storici, i successivi due rappresentano una doppia fase predittiva: dapprima, l’assegnazione del nuovo prodotto al miglior cluster, quindi il calcolo del sales forecast per il nuovo prodotto, in seguito all’attribuzione di una curva storica. Analisi economica Una modalit` a frequente di formazione dei cluster riguarda la valutazione di attributi numerici, solitamente continui, relativi alle vendite storiche dei segmenti prodotto-mercato, al ﬁne di ricavare raggruppamenti di prodotti “alto-vendenti”, “medio-vendenti”, “basso-vendenti” (classi di fatturato), imponendo ad esempio come parametro di input per l’algoritmo di clustering la formazione di esattamente K = 3 cluster. Ai ﬁni delle analisi economiche di redditivit` a dei prodotti, svolte nella fase di Demand Analytics, gli attributi numerici considerati per ciascuno degli m segmenti da clusterizzare possono essere, ad esempio: • il fatturato medio per trimestre, negli ultimi quattro trimestri storici4 , espresso in unit` a di misura monetarie; • le vendite storiche per segmento, per ciascuno degli ultimi quattro trimestri storici, aggregate per trimestre ed espresse in unit`a di misura ﬁsiche; • il costo unitario dei prodotti; • il numero di punti vendita dislocati sul territorio, a parit` a di segmento. L’analisi di fatturato derivante dai risultati del clustering applicato a segmenti prodotto-mercato fornisce agli analisti di Demand Intelligence conoscenze aggiuntive di elevato valore, rispetto alle informazioni standard proposte dai report di Demand Analytics. Con riferimento alle vendite di un certo prodotto su un insieme di mercati, le ﬁgure 7.2 e 7.3 mostrano, rispettivamente: • analisi OLAP: proﬁlo delle vendite negli ultimi 12 mesi, suddivisi per regione; • clustering: proﬁlo delle vendite per tipologia di clienti suddivisi in base all’et` a. L’analisi di clustering che d` a luogo ai risultati riportati in ﬁgura 7.3 analizza gli attributi delle entit` a disaggregate clienti (anzich´e le entit`a aggregate regioni, intese come raggruppamento gerarchico di clienti ), quali il numero di acquisti eﬀettuati nell’ultimo anno ed il relativo valore monetario, l’et` a degli acquirenti, la localit` a di residenza, ecc. L’analisi della ﬁgura 7.2 evidenzia le vendite per singola regione, mostrando un proﬁlo piuttosto regolare di crescita nel tempo, uniforme sulle diverse regioni. La ﬁgura 7.3, output dell’analisi di clustering, evidenzia invece andamenti meno regolari delle vendite, espresse con riferimento alle fasce di et` a dei clienti. Dall’analisi di tale ﬁgura si osserva che pi` u della met`a del fatturato deriva da clienti di et`a superiore ai 50 anni, raggruppati all’interno di uno stesso cluster, al termine 4

Si tratta in questo caso di reperire i dati di quattro attributi numerici continui, per l’ultimo anno contabile: fatturato Q1, fatturato Q2, fatturato Q3, fatturato Q4.

7.4 Applicazioni di clustering per il Demand Planning

239

VENDITE PER REGIONE 900 800 700 regione A regione B

600 500

regione C

400

regione D regione E

300 200 100 0 1

2

3

4

5

6

7

8

9

10

11

12

MESI 2007

Figura 7.2. Vendite di un prodotto, suddivise per regione

dell’analisi svolta su un insieme di feature signiﬁcative (fra cui, per l’appunto, l’et` a degli acquirenti). Il risultato ottenuto in ﬁgura 7.3 dall’analisi di clustering pu` o essere non banale n´e intuitivo, oﬀrendo spunti interessanti per gli utenti di Marketing Intelligence, propensi ad esempio ad incentivare le vendite presso fasce di et` a a basso fatturato, attraverso l’impiego di promozioni e campagne di marketing mirate.

VENDITE PER CLIENTI (FASCE ETA') 1400 1200 1000 [20-25 ANNI] 800

[26-34 ANNI]

600

[35-50 ANNI] [OLTRE 50 ANNI]

400 200 0 1

2

3

4

5

6

7

8

9

10

11

12

MESI 2007

Figura 7.3. Vendite di un prodotto, suddivise per fasce di et` a dei clienti

Store clustering L’analisi dei punti vendita viene svolta per determinare la similarit` a degli store, ubicati nelle diverse regioni in cui un’azienda di distribuzione retail opera, in relazione al mix di prodotti disponibili a scaﬀale. Assegnato un insieme di m negozi da

240

7 Demand Intelligence: clustering

clusterizzare, per ciascuno di essi sono note le vendite degli n prodotti della gamma commerciale, rilevate negli ultimi t trimestri: il numero degli attributi numerici continui disponibili per il clustering degli m punti vendita `e quindi pari a nt. Il raggruppamento degli store per similarit` a di mix di vendita `e utile per i decisori di S&OP per: • valutare il mix commerciale pi` u opportuno per i singoli store (quali nuovi prodotti introdurre, quali rimuovere); • valutare azioni promozionali localizzate sugli store di uno stesso cluster, al ﬁne di sostenere ed incrementare le vendite di prodotti basso-vendenti, proponendo ad esempio abbinamenti ed oﬀerte di acquisto in coppia con prodotti altovendenti; • deﬁnire le attivit` a operative di riassortimento giornaliero o settimanale dei punti vendita (piani di distribuzione dei prodotti e reintegro delle giacenze). Pattern di vendita Attraverso le analisi di clustering `e possibile raggruppare segmenti prodottomercato in base alla similarit`a numerica dei pattern storici di vendita. Una serie storica di vendita `e deﬁnita tramite una sequenza di valori di domanda, positivi o nulli, equidistanziati nel tempo in quanto misurati ad intervalli temporali regolari. I valori disponibili per una serie storica si estendono per l’intera durata dell’orizzonte temporale in cui i consuntivi di domanda sono stati raccolti: ad esempio, i bucket storici possono coprire gli ultimi cinque anni, con granularit` a mensile o settimanale. Si deﬁnisce D(p, c, t) il generico valore di domanda misurato nella serie storica, con riferimento al prodotto p, al mercato c, al periodo t. I pattern di vendita degli m segmenti prodotto-mercato disponibili nel dataset vengono messi a confronto, bucket per bucket, valutando le distanze fra i valori omologhi di periodo; le serie storiche da confrontare devono avere la stessa estensione temporale nel passato. In ﬁgura 7.2 viene mostrato un esempio di due serie storiche, relative ai segmenti {P1 , C1 } e {P1 , C2 }, temporalmente estese per 12 mesi: per ciascun bucket si calcola la distanza fra i valori numerici attraverso il valore assoluto della diﬀerenza. Lo scostamento complessivo fra le serie storiche dei segmenti {P1 , C1 } e {P1 , C2 } `e semplicemente dato dalla somma delle diﬀerenze, estesa ai 12 mesi di rilevazione, pari a 350 unit` a di prodotto. Il clustering dei pattern di vendita porta a raggruppare segmenti aventi curve storiche di vendita simili fra loro, in termini di diﬀerenze contenute e forme tem-

Tabella 7.2. Serie storiche su 12 mesi per due segmenti prodotto-mercato segmento

1

2

3

4

5

6

7

8

9

10

11

12

P1 – C1 P1 – C2 diﬀerenza

35 30 5

30 60 30

10 70 60

25 65 40

25 70 45

10 65 55

30 35 5

45 45 0

30 60 30

25 70 45

45 40 5

25 55 30

7.5 Analisi degli attributi

241

porali simili (curve ad S, curve periodiche stagionali, curve di trend crescente a stagionalit` a ridotta, curve di ciclo di vita, ecc.). Il beneﬁcio di questa tipologia di clusterizzazione `e duplice: • da un lato, `e possibile costruire librerie di pattern di vendita tipici, da proporre ai responsabili di Marketing e Vendite come “campioni”, utilizzabili nella deﬁnizione dei pattern di sales forecast per prodotti sostitutivi o nuovi, a parziale o totale rimpiazzo di prodotti obsoleti o basso-vendenti; • dall’altro, i cluster identiﬁcano segmenti prodotto-mercato che, presumibilmente, manifesteranno comportamenti e risposte simili nei confronti di azioni promozionali.

7.5 Analisi degli attributi 7.5.1 Metodi di trasformazione degli attributi Gli algoritmi ed i modelli matematici di clustering hanno l’obiettivo di formare raggruppamenti omogenei di entit` a prodotto-mercato, analizzando i valori numerici degli attributi presenti nel dataset associati a tali entit` a. Gli attributi estratti dalle tabelle del datawarehouse vengono sottoposti a due tipologie di trasformazioni formali, prima di poter essere utilizzati come input in ingresso agli algoritmi di clustering; la trasformazione dei valori avviene con la ﬁnalit` a di: • ﬁltrare valori anomali negli attributi, dovuti alla presenza di dati non corretti nelle tabelle di provenienza; • aumentare il livello di signiﬁcativit` a statistica dei valori presenti, riducendo valori outlier5 ; • ridurre il numero di attributi distinti da imporre in input al modello di clustering, selezionando solo quelli maggiormente signiﬁcativi. La prima trasformazione formale, detta ﬁltraggio degli attributi, riguarda la correzione di valori anomali e la rettiﬁca di valori outlier. La seconda trasformazione, detta riduzione degli attributi, opera una selezione di un sottoinsieme di attributi signiﬁcativi e non correlati fra loro, riducendo il numero di attributi da utilizzare come dimensioni di analisi nel clustering. Ad esempio, due attributi numerici consolidati quali il fatturato R e la quantit` a venduta Q presso i segmenti prodotto-mercato risultano correlati tramite la relazione lineare R = pQ, mediante il coeﬃciente p esprimente il prezzo dei prodotti. Nell’ipotesi che, assegnato un segmento prodotto-mercato, il prezzo p di vendita del 5

Qualora la fase di riduzione degli outlier non venga implementata come preliminare all’esecuzione dell’algoritmo di clustering, ` e tuttavia possibile identiﬁcare (senza trasformare) gli outlier anche durante l’applicazione degli step ricorsivi di clustering: un outlier pu` o essere automaticamente isolato dall’algoritmo, dichiarato non appartenente ad alcun cluster.

242

7 Demand Intelligence: clustering

prodotto rimanga costante nel tempo, la precedente relazione che lega fatturato e quantit` a venduta, disaggregata temporalmente (Rt = pQt ), mette in correlazione lineare positiva i due attributi: ad un incremento percentuale x della quantit` a corrisponde linearmente un incremento percentuale px per il fatturato. Una delle due variabili di analisi per il clustering deve quindi essere rimossa, in quanto ridondante, non ulteriormente esplicativa rispetto alla prima. Le due fasi di ﬁltraggio e riduzione degli attributi devono essere poste necessariamente in cascata: sui valori iniziali estratti dal datawarehouse, depurati da anomalie logiche o matematiche, `e quindi possibile operare confronti numerici fra coppie di attributi, al ﬁne di eliminare attributi in forte correlazione con altri. 7.5.2 Filtraggio degli attributi Tre sottofasi sono previste per le fasi di ﬁltraggio degli attributi. Come ricordato, queste trasformazioni sono preliminari alle analisi “incrociate” fra attributi, orientate alla riduzione del numero di attributi in ingresso agli algoritmi di clustering. Diverse tecniche logico-matematiche sono utilizzate per il ﬁltraggio degli attributi, in relazione alla loro tipologia: la rimozione, la sostituzione, la standardizzazione, la normalizzazione. La ﬁgura 7.4 mostra la sequenza delle fasi di ﬁltraggio degli attributi.

Analisi valori nulli

Outlier detection per attributi numerici

Standardizzazione attributi categorici ordinali

Standardizzazione attributi numerici

Report attributi trasformati

Figura 7.4. Filtraggio degli attributi

Analisi dei valori nulli Assegnata un’entit` a prodotto/mercato i-esima ed un attributo j-esimo, se un valore xij `e assente (nullo), possono essere previsti tre possibili linee di azione: • rimozione: l’intera entit` a i-esima viene rimossa (corrispondente ad un record avente n attributi) dal dataset dei segmenti prodotto-mercato da clusterizzare;

7.5 Analisi degli attributi

243

• sostituzione automatica: i valori mancanti per xij vengono sostituiti automaticamente dalle rispettive mode6 ; • sostituzione manuale: i valori mancanti per xij sono analizzati singolarmente dagli utenti in report speciﬁci, per inserire manualmente i valori corretti. Standardizzazione degli attributi categorici ordinali Gli attributi categorici ordinali subiscono la seguente trasformazione. Deﬁnito l’insieme dei possibili V valori stringa assumibili dall’attributo ordinale (esempio: V = 3 → {alto, medio, basso}), assegnando valori numerici interi progressivi ai diversi valori alfabetici degli attributi ordinali (esempio: basso = 1, medio = 2, alto = 3), ciascun valore di un attributo ordinale xij subisce il seguente procedimento di standardizzazione: xij − 1 x∗ij = V −1 Nell’esempio precedente: basso = 0/2 = 0; medio = 1/2 = 0, 5; alto = 2/2 = 1. Outlier detection per gli attributi numerici Nel caso in cui vi sia un attributo numerico, l’analisi di outlier detection prevede il calcolo dell’intervallo di conﬁdenza per identiﬁcare e rimuovere gli outlier, cio`e le entit` a che presentano valori anomali per tale attributo. Dati gli m valori disponibili per il generico attributo j (j = 1, . . . , n), deﬁniti dal vettore colonna {x1j x2j x3j . . . xij . . . xmj }, si calcolano la media μj , la deviazione standard campionaria σj e l’intervallo di conﬁdenza al 99.8% per i valori di tale attributo: m (x − μj )2 m i=1 ij 1 ; [μj − 3σj ; μj + 3σj ] . xij ; σj = μj = m i=1 m−1 Le entit` a per le quali i valori dell’attributo j cadono al di fuori dell’intervallo di conﬁdenza sono considerati outlier e possono essere: • rimosse dal dataset; • integrate assegnando all’attributo j i valori di soglia (lower bound LBj ; upper bound U Bj ) prescritti nell’intervallo di conﬁdenza: LBj = μj − 3σj ;

U Bj = μj + 3σj ;

x∗ij = LBj se xij < LBj ; x∗ij = U Bj se xij > U Bj . Un opportuno report viene fornito all’utente per identiﬁcare i record trasformati mediante l’analisi di outlier detection. 6

L’utilizzo della moda (valore avente frequenza massima all’interno della distribuzione di probabilit` a dei valori assunti da un attributo) `e valido anche per attributi non numerici.

244

7 Demand Intelligence: clustering

Standardizzazione degli attributi numerici Anche nel caso degli attributi numerici continui o discreti (non booleani) pu` o rivelarsi utile il ricorso alla preventiva standardizzazione dei valori numerici, in modo tale che tutti gli attributi numerici utilizzati per il calcolo delle distanze negli algoritmi di clustering assumano lo stesso peso numerico. Ad esempio, sarebbe improprio confrontare, nel calcolo delle distanze fra osservazioni, un attributo quale il numero di varianti di un prodotto (attributo numerico intero con range limitato di valori {1, 2, 3, . . .}) con un altro attributo, quale il fatturato per segmento prodotto-mercato e per semestre (attributo numerico continuo con range di valori appartenente all’insieme dei numeri reali positivi, con valori tipici dell’ordine delle migliaia o dei milioni di euro). Pertanto, qualora sussistano signiﬁcative diﬀerenze di scala nei valori assunti da diﬀerenti attributi numerici utilizzati nel clustering, `e necessario operare una standardizzazione dei valori utilizzando una delle seguenti metodologie: • scalatura: viene eﬀettuato un cambiamento di scala rispetto ai valori originari, mediante la trasformazione xij x∗ij = S , 10 dove il coeﬃciente di scala S rappresenta un numero intero positivo, speciﬁco per ciascun tipo di attributo, avente la funzione di ricondurre i valori numerici all’interno del range [0; 1]; • standardizzazione tramite z-indice: i valori originari degli attributi numerici sono normalizzati mediante la trasformazione lineare z-indice x∗ij =

xij − μj . σj

Se i valori numerici dell’attributo seguono una distribuzione statistica gaussiana, il range di valori normalizzati spazia, con probabilit` a 99.8%, fra gli estremi −3 e 3. 7.5.3 Riduzione degli attributi Le metodologie di riduzione degli attributi (feature reduction o feature selection) hanno l’obiettivo di diminuire il numero di attributi distinti da fornire in ingresso alle metodologie di Data Mining, quali la classiﬁcazione, la regressione lineare, il clustering. Gli attributi descrittivi/sintetici delle entit`a prodotto-mercato possono risultare in correlazione fra loro, nel senso che l’andamento temporale di un attributo pu` o essere legato all’andamento di altri da relazioni algebriche. La presenza congiunta di gruppi di attributi in correlazione (o collinearit` a ) fra loro rischia di compromettere la qualit` a dei risultati delle analisi di Data Mining svolte nei processi di Demand Intelligence. Se due attributi w e j risultano collineari fra loro, sono correlati linearmente, statisticamente non indipendenti; ci` o agisce negativamente come fattore di perturbazione:

7.5 Analisi degli attributi

245

• nell’analisi di signiﬁcativit` a e del potere esplicativo degli attributi verso le entit` a da raggruppare in cluster (nelle analisi di clustering); • nella deﬁnizione delle variabili signiﬁcative per i modelli di regressione lineare multipla (nel caso di sales forecasting basato su regressione lineare); • nella costruzione degli alberi di classiﬁcazione e nella deﬁnizione di regole basate sui valori assunti dagli attributi in input (nei modelli di classiﬁcazione). In questo paragrafo vengono proposti alcuni metodi matematici per identiﬁcare le correlazioni esistenti fra coppie o gruppi di attributi. La struttura generale dell’algoritmo feature reduction `e illustrata in ﬁgura 7.5.

Costruzione matrice delle corrispondenze

Definizione parametri di controllo

Analisi di multicollinearità

Coefficiente di correlazione lineare Indice di Cramer

Features significative

Figura 7.5. Algoritmo di riduzione degli attributi

Si dispone inizialmente di m entit` a da clusterizzare e di n attributi disponibili all’interno del dataset. L’algoritmo si compone delle seguenti fasi: 1. impostazione della matrice delle corrispondenze a coppie (feature to feature), per studiare le correlazioni esistenti fra coppie di attributi, a seconda della loro tipologia base di appartenenza; 2. deﬁnizione dei valori soglia per i parametri di controllo dell’algoritmo (coeﬃciente di correlazione lineare, indice di Cramer ); 3. analisi di correlazione degli attributi a coppie, utilizzando speciﬁche metodologie a seconda della tipologia di attributi incrociati; 4. selezione dell’insieme di feature signiﬁcative, di cardinalit` a n∗ < n. Fase 1: costruzione della matrice delle corrispondenze La matrice delle corrispondenze fra coppie di attributi, di dimensione n×n, prevede l’identiﬁcazione di quali metodologie adottare per ciascuna coppia di attributi da analizzare, al ﬁne di valutare la loro presunta collinearit` a. Il generico elemento della matrice `e rappresentabile come attributo j vs. attributo w → metodologia X. Sono previsti nella matrice i seguenti possibili incroci fra coppie di attributi (j, w):

246

7 Demand Intelligence: clustering

• j = numerico; w = numerico: analisi outlier + coeﬃciente di correlazione lineare; • j = numerico; w = categorico ordinale: analisi outlier + coeﬃciente di correlazione lineare (previa standardizzazione dell’attributo w); • j = categorico ordinale; w = categorico ordinale: coeﬃciente di correlazione lineare (previa standardizzazione attributi j e w); • j = categorico ordinale; w = categorico nominale: indice di Cramer (senza standardizzare l’attributo j); • j = categorico nominale; w = categorico nominale: indice di Cramer; • j = categorico nominale; w = numerico: indice di Cramer (previa discretizzazione dell’attributo numerico w). L’analisi degli outlier che compare all’interno di alcuni incroci fra tipologie di attributi prende come input i risultati numerici dei precedenti processi di trasformazione e ﬁltraggio dei dati (illustrati nel paragrafo 7.5.2).

Fase 2: deﬁnizione dei parametri di controllo In questa fase vengono impostati i valori di soglia (valori massimi, upper bound) per i parametri in input alle metodologie di analisi della multicollinearit` a fra gli attributi: • coeﬃciente di correlazione lineare massimo rmax , per l’analisi di correlazione lineare; • valore soglia per l’indice di Cramer IC max , per l’analisi di attributi categorici nominali.

Fase 3: applicazione delle metodologie di analisi della multicollinearit` a La matrice delle corrispondenze, deﬁnita in fase 1, indica la tipologia di analisi da svolgere per ciascuna coppia di attributi. L’analisi numerica riguarda tutti i casi in cui almeno un attributo sia numerico ed il secondo non sia nominale. L’analisi di frequenza include tutti i casi in cui almeno un attributo sia categorico nominale. Calcolo del coeﬃciente di correlazione lineare. Dati i valori di due attributi numerici j e w, deﬁniti rispettivamente dai vettori colonna {x1j x2j x3j . . . xij . . . xmj } e {x1w x2w x3w . . . xiw . . . xmw } per le m osservazioni prodotto-mercato presenti nel dataset, si calcola il coeﬃciente di correlazione lineare rjw fra gli attributi j e w, deﬁnito dalla formula: m

rjw =

(xiw − μw )(xij − μj )

i=1 m

i=1

(xiw − μw )2 ·

m i=1

, (xij − μj )2

7.5 Analisi degli attributi

247

essendo μw e μj le medie dei valori numerici degli attributi j e w: 1 xiw ; m i=1 m

μw =

1 xij . m i=1 m

μj =

Il generico valore rjw `e compreso fra gli estremi −1 e 1. In particolare, • se rjw = 0, c’`e assenza di correlazione fra gli attributi j e w; • se rjw = 14, c’`e completa correlazione positiva; • se rjw = −1, c’`e completa correlazione negativa. Il coeﬃciente rjw viene quindi confrontato con il valore soglia predeﬁnito rmax . Se si veriﬁca la condizione |rjw | ≥ |rmax |, gli attributi numerici j e w sono suﬃcientemente correlati fra loro; uno dei due deve quindi essere rimosso dal dataset, nella successiva fase 4 della procedura di feature selection. Calcolo dell’indice di Cramer. Dati i valori di due attributi j e w (di cui almeno uno `e di tipo categorico nominale), deﬁniti rispettivamente dai vettori colonna {x1j x2j x3j . . . xij . . . xmj } e {x1w x2w x3w . . . xiw . . . xmw }, deﬁniti VJ e VW gli insiemi contenenti i possibili valori non ripetuti assunti da j e w, siano J = card{VJ } e W = card{VW }. Si deﬁnisce la matrice delle frequenze relative Φ, di dimensione J × W , il cui generico elemento yab indica il numero di volte in cui gli attributi j e w hanno assunto rispettivamente i valori a e b: yab = card {i = 1, . . . , m|xij = a ∪ xiw = b} ; ⎤ ⎡ y11 y12 . . . y1W ⎢ y21 y22 . . . y2W ⎥ ⎥ Φ=⎢ ⎣ . . . . . . yab . . . ⎦ . yJ1 yJ2 . . . yJW Deﬁnite le somme parziali per riga e per colonna della matrice Φ, di cui si riportano le formule per la generica riga a-esima e per la generica colonna b-esima: ya• =

W

yab ;

b=1

y•b =

J

yab ,

a=1

sapendo che il dataset contiene m record da analizzare, vale la relazione: W J b=1 a=1

yab = m .

248

7 Demand Intelligence: clustering

Si deﬁnisce indice di Cramer IC jw relativo alla coppia di attributi categorici j e w la seguente quantit` a7 : W 2 J yab −1 a=1 b=1 ya• ·y•b ICjw = min{J − 1; W − 1} Il generico valore del coeﬃciente IC jw `e compreso fra 0 e 1: • se IC jw = 0, c’`e assenza di correlazione fra gli attributi j e w; • se IC jw = 1, c’`e completa correlazione fra gli attributi j e w. Il coeﬃciente IC jw viene quindi confrontato con il valore soglia predeﬁnito IC max . Se si veriﬁca la condizione ICjw ≥ ICmax , gli attributi j e w sono signiﬁcativamente correlati fra loro; uno dei due deve quindi essere rimosso dal dataset, nella successiva fase 4 della procedura di feature selection. Fase 4: selezione delle feature signiﬁcative Con l’obiettivo di ridurre il numero di attributi descrittivi o sintetici, inizialmente pari ad n, eliminando quelli fortemente collineari, si costruisce la matrice di correlazione C = {cjw }, di dimensioni n × n, il cui generico valore cjw deﬁnisce il grado di correlazione fra gli attributi j e w, espresso in termini di coeﬃciente di correlazione lineare o di indice di Cramer, a seconda della natura degli attributij e w: ⎤ ⎡ 1 c12 . . . c1n ⎢ c21 1 . . . c2n ⎥ ⎥ [C ] = ⎢ ⎣ . . . . . . cjw . . . ⎦ . cn1 cn2 . . . 1 Esiste ovviamente correlazione totale fra due attributi j e w tali che j = w. Ogni valore cjw `e confrontato con il rispettivo valore soglia, rmax oppure IC max , a seconda della tipologia di incrocio fra gli attributi j e w. Si costruisce la matrice di incidenza Z = {zjw }, il cui generico termine booleano zjw `e deﬁnito come segue: 1 |cjw | > |rmax | ∨ cjw > ICmax zjw = 0 altrimenti Sommando gli elementi della matrice Z per riga, ﬁssato cio`e un attributoj, si ottiene il numero di volte Cj in cui l’attributo j `e multicorrelato ad altri attributi w (a meno della ovvia correlazione totale con se stesso): Cj =

n

zjw − 1 .

w=1 7

Come evidenziato in fase 1, se uno dei due attributi `e numerico (e l’altro `e necessariamente categorico nominale), questo viene preventivamente discretizzato, al ﬁne di poter applicare la procedura di calcolo dell’indice di Cramer.

7.6 Calcolo della distanza fra osservazioni

249

Gli n valori Cj (j = 1, . . . , n) che complessivamente si ottengono per gli n attributi sono ordinati in modo decrescente. Per ottenere l’insieme minimo di attributi non collineari, quindi indipendenti, `e possibile procedere nel modo seguente: 1. si eliminano dapprima gli attributi j tali che Cj ≥ 2, correlati almeno con altri due attributi; 2. si eliminano quindi, per ciascuna coppia (k, w) tale che Cj = 1 e Cw = 1, uno dei due attributi j e w. Il primo intervento di rimozione pu` o essere reso parametrico tramite un opportuno coeﬃciente di soglia Cmin : Cj ≥ Cmin , comunque prossimo a +2. Il risultato della fase 4 porta alla selezione di n* ≤ n attributi fra loro non collineari. Ad esempio, dato l’insieme originario {f1 , f2 , f3 , . . . , fn} di n attributi, i cui valori sono disponibili per un dataset di cardinalit` a m, l’insieme delle feature signiﬁcative `e dato dalle cinque seguenti: {f2 , f5 , f7 , f13 , f18 }.

7.6 Calcolo della distanza fra osservazioni 7.6.1 Parametri di input per il clustering Il generico modello di clustering `e strutturato secondo i seguenti elementi di input: • `e assegnato un insieme di entit` a da raggruppare in cluster: m segmenti prodotto-mercato, aggregati secondo opportuni criteri lungo l’asse temporale; • `e assegnato un insieme di n∗ attributi di diversa natura, preventivamente trasformati numericamente e selezionati (gli n∗ attributi sono indipendenti statisticamente); a • `e assegnata la matrice delle distanze D (xi , xs ) = {dis } fra due generiche entit` (i, s) da clusterizzare; la matrice D `e di dimensione m × m (i, s = 1, . . . m); • `e assegnato il numero K di cluster da costruire. La modalit` a di calcolo della distanza fra coppie di entit` a da clusterizzare dipende dalla natura degli attributi disponibili nel dataset. Deﬁniti gli elementi costituitivi di un modello di clustering, occorre selezionare la tipologia di algoritmo da utilizzare per il raggruppamento delle entit` a. In questo capitolo vengono presentate due procedure di clustering: l’algoritmo delle K-medie e l’algoritmo di agglomerazione. L’output dell’esecuzione di un algoritmo di clustering `e rappresentato dal contenuto dei cluster. Dovendo ad esempio clusterizzare m = 12 entit` a prodotto in K = 3 cluster (C1 , C2 , C3 ), un possibile risultato dei raggruppamenti operati `e il seguente: • C1 = {prod 1, prod 5, prod 7, prod 12}; • C2 = {prod 2, prod 3, prod 8}; • C3 = {prod 4, prod 6, prod 9, prod 10, prod 11}.

250

7 Demand Intelligence: clustering

La ﬁgura 7.6 rappresenta graﬁcamente il raggruppamento delle m = 12 entit` a in K = 3 cluster, nello spazio bidimensionale relativo a due attributi f1 e f2 .

cluster C3

feature f2

cluster C1 cluster C2 feature f1 Figura 7.6. Rappresentazione graﬁca del clustering bidimensionale

7.6.2 Metriche per il calcolo delle distanze Le entit` a da collocare in cluster presentano un insieme di n* attributi che ne caratterizzano le propriet` a descrittive e sintetiche. La generica entit` a i-esima `e rappresentabile da un vettore riga n*-dimensionale: x i = {xi1 xi2 xi3 . . . xij . . . xin∗ } , dove ciascun attributo presenta una speciﬁca tipologia. Ad esempio, due entit` a presentano le caratteristiche deﬁnite dai seguenti vettori di dimensione n∗ = 6: • Entit` a 1 (x1 ): [prodotto 1, mercato 1] = {1500, rosso, C, XL, 0, alfa}; • Entit` a 2 (x2 ): [prodotto 3, mercato 2] = {2340, giallo, B, XL, 1, null }; con riferimento ai sei attributi fatturato (f1 ), colore (f2 ), classe (f3 ), taglia (f4 ), presenza gadget (f5 ), categoria (f6 ). Assegnate due segmenti (i, s), sia disj la distanza fra tali entit` a, con riferimento all’attributo j-esimo. La matrice delle distanze D(xi , xs ) = {dis} fra due entit` a (i, s) deﬁnisce la loro distanza complessiva, calcolata su tutti gli n* attributi ritenuti signiﬁcativi: ⎤ ⎡ 1 d12 . . . d1m ⎢ d21 1 . . . d2m ⎥ ⎥ [D] = ⎢ ⎣ . . . . . . dis . . . ⎦ , dm1 dm2 . . . 1 dis = f(dis1 , dis2, dis3, . . . , disj , . . . , disn∗) .

7.6 Calcolo della distanza fra osservazioni

251

La distanza di un’entit` a rispetto a se stessa `e ovviamente nulla. Considerando l’esempio precedente delle due entit` a, si ha: d121 = f(1500; 2340); d122 = f(rosso;giallo); d123 = f(C; B); ecc. A partire dalla matrice degli attributi F , il cui generico elemento xij rappresenta il valore assunto dall’attributo j-esimo (j = 1, . . . , n∗ ) per l’entit` a osservata i-esima (i = 1, . . . , m), `e possibile calcolare la distanza n∗ -dimensionale fra due entit` a (i, s), mediante la formula di somma pesata delle distanze per ciascun attributo disj : n∗ ϕisj · disj dis =

j=1 n∗

ϕisj

j=1

essendo: • φisj = {0; 1} un indicatore booleano; valgono le relazioni: φisj = 0, se xij = null or xsj = null ; φisj = 1, altrimenti; • disj = f(xij ; xsj ) la distanza fra le entit` a (i, s), misurata considerando unicamente l’attributo j-esimo. La ﬁgura 7.7 mostra graﬁcamente i concetti espressi, nel caso di due attributi numerici (f1 , f2 ) e due entit` a (i, s).

s

feature f2

dis

dis2

i

dis1 feature f1 Figura 7.7. Rappresentazione graﬁca delle distanze fra due entit` a nel piano

A seconda della natura dell’attributo j, si hanno le seguenti formulazioni di distanza disj : • attributo numerico continuo, numerico discreto standardizzato o categorico ordinale standardizzato: |xij − xsj | ; disj = maxw {xwj } • attributo numerico binario oppure attributo categorico nominale: disj = 0, se xij = xsj ; disj = 1, se xij = xsj .

252

7 Demand Intelligence: clustering

Nell’esempio numerico relativo alle entit`a Entit` a 1 (x1 ) e Entit` a 2 (x2 ), si ha: • d121 =

|1500−2340| max{1500,2340} |0−0,5| max{0;0,5;1} =

= 0, 359; d122 = 1 (rosso = giallo);

• d123 = 0[, 05, essendo C = 0/2 = 0; B = 1/2 = 0,05; A = 2/2 = 1; • d124 = 0 (XL = XL); d125 = 1 (1 = 0); φ126 • d126 = 0 (x26 = null ). La distanza complessiva fra le due entit` a x1 e x2 `e quindi pari a: 6

d12 =

ϕ12j · d12j

j=1 6

= ϕ12j

d121 + d122 + d123 + d124 + d125 = 5

j=1

=

0, 359 + 1 + 0, 5 + 0 + 1 = 0, 572 . 5

Con riferimento al concetto di media aritmetica per i valori di attributi, si adottano le seguenti convenzioni (dato il generico attributo j-esimo): • per gli attributi numerici continui, numerici binari, categorici ordinali standardizzati, si utilizza la media aritmetica dei valori numerici: 1 μj = xij ; m i=1 m

• per gli attributi categorici nominali si considera la moda (valore pi` u frequente), stante l’impossibilit` a di convertire i valori alfabetici di tali attributi in equivalenti valori numerici8 . 7.6.3 Soft Clustering Le metriche di calcolo delle distanze, presentate nel paragrafo precedente, permettono di collocare deterministicamente ciascuna entit` a da clusterizzare all’interno di un solo cluster: gli insiemi di entit` a formanti i cluster sono fra loro disgiunti. A questo approccio di raggruppamento deterministico (noto come hard clustering), si contrappone una modalit` a alternativa di attribuzione probabilistica delle entit` a ai cluster, detta soft clustering: un’entit` a x `e assegnata ad un cluster Ck con probabilit` a p(x,Ck ). Ciascun cluster viene inizializzato mediante una distribuzione di probabilit` a relativa ai valori assunti da un generico attributo j, solitamente di tipo categorico nominale; ad esempio, si consideri il colore di un prodotto, avente cinque 8

Ad esempio, considerato l’attributo colore, che assume i seguenti valori, per m = 10 osservazioni: {rosso, giallo, nero, bianco, rosso, rosso, verde, giallo, rosso, nero}, la sua moda `e rosso, la cui frequenza relativa `e pari a 4/10 = 0,4, superiore ad esempio alla frequenza relativa del colore nero, pari a 2/10 = 0,2.

7.7 Misure di prestazione per il clustering

253

possibili valori alternativi {bianco, giallo, rosso, verde, blu}. Supponendo di voler generare K = 5 cluster, ciascun cluster viene inizializzato assegnando casualmente una distribuzione di probabilit` a sui valori assunti dall’attributo j; in ﬁgura 7.3 `e riportato un esempio, con riferimento all’attributo colore. Tabella 7.3. Distribuzioni di probabilit` a nei cluster per l’attributo “colore”

bianco giallo rosso verde blu

cluster C 1 20% 30% 10% 30% 10%

cluster C 2 5% 35% 10% 25% 25%

cluster C 3 0% 25% 45% 0% 30%

cluster C 4 20% 20% 20% 20% 20%

cluster C 5 5% 5% 30% 20% 40%

La probabilit` a che un’entit` a oggetto di clustering, il cui attributo colore assume valore giallo, appartenga al cluster C1 `e pari a 0,3. La somma delle probabilit` a di occorrenza dei singoli valori di un attributo j su un cluster Ck `e pari a 1, per ciascun cluster k = 1, . . . , K. Con riferimento al calcolo delle distanze fra entit` a n*-dimensionali, si `e visto che, nel caso di attributi categorici nominali, la misura di distanza fra valori appartenenti a due entit` a distinte vale 0 o 1, a seconda che i due valori considerati siano uguali (giallo vs. giallo) o diversi (giallo vs. rosso). Nel caso del clustering probabilistico, la distanza di un’entit` a da un’altra (o di un’entit` a da un cluster) `e data dal complemento ad 1 della probabilit` a di appartenenza dell’entit` a al cluster: d(x, Ck ) = 1 − p(x, Ck ) . Tale metrica probabilistica di distanza `e facilmente integrabile nella formula generale di calcolo delle distanze dis fra due entit` a (i, s), nel clustering deterministico, presentata nel paragrafo precedente. Ad esempio, la distanza dell’entit`a x, avente rosso come valore dell’attributo colore, dai cinque cluster presenti in ﬁgura 7.3, `e pari a: • • • • •

cluster cluster cluster cluster cluster

C1 : C2 : C3 : C4 : C5 :

p(x,C1) p(x,C2) p(x,C3) p(x,C4) p(x,C5)

= = = = =

1 1 1 1 1

– – – – –

0,1 = 0,9; 0,1 = 0,9; 0,45 = 0,55; 0,2 = 0,8; 0,3 = 0,7.

7.7 Misure di prestazione per il clustering Con riferimento alle possibili clusterizzazioni generabili attraverso gli algoritmi delle K-medie, dei K-medoidi, di agglomerazione e di suddivisione (due dei quali sono

254

7 Demand Intelligence: clustering

presentati nei paragraﬁ successivi), ciascun risultato di clustering C viene valutato, in termini di eﬃcienza di raggruppamento, utilizzando il seguente indicatore di performance “composto”, il cui valore si cerca di massimizzare: dis Cα ,Cβ

ηC =

Cα

xi ∈ Cα xs ∈ Cβ

dis

.

xi ∈ Cα xs ∈ Cα

I cluster (Cα , Cβ ) rappresentano la generica coppia di raggruppamenti generati all’interno del dataset contenente m entit` a, su un totale di K cluster complessivamente riempiti: C = {C1 , C2 , . . . , Cα, Cβ , . . . , Ck , . . . , CK }. Il numeratore della frazione `e deﬁnito separazione, il denominatore `e deﬁnito coesione del clustering C generato. La separazione misura la distanza “esterna” fra elementi appartenenti a clua ster diﬀerenti (Cα , Cβ ). Le sommatorie al numeratore coinvolgono coppie di entit` (i, s) sempre appartenenti a cluster diﬀerenti (l’entit`a i appartiene a Cα , l’entit` a s appartiene a Cβ ), e sono estese a tutte le possibili coppie di cluster (Cα , Cβ ), con (α, β) = 1, . . . , K. La separazione intercluster `e un indicatore di performance da massimizzare: due cluster distinti sono tanto migliori, quanto maggiore `e la distanza fra coppie di elementi, uno dei quali appartiene al primo cluster, l’altro al secondo. La coesione misura la distanza “interna” fra entit` a appartenenti al medesimo cluster Cα , per tutti i K cluster generati dall’algoritmo utilizzato. La sommatoria `e estesa a coppie di elementi (i, s) appartenenti al medesimo cluster; tale sommatoria interna `e svolta per tutti i cluster Cα , con α = 1, . . . , K, componenti la partizione complessivamente generata. La coesione intracluster `e un indicatore di performance da minimizzare: tanto pi` u vicini sono collocati gli elementi appartenenti ad un cluster, tanto minore `e la sua coesione, tanto pi` u omogenei sono gli elementi ad esso assegnati, dal punto di vista della similarit` a nei valori assunti dagli attributi omologhi.

7.8 Algoritmo delle K-medie 7.8.1 Struttura dell’algoritmo Dato un insieme di m entit` a caratterizzate da un insieme di n* attributi rilevanti: {xi1 xi2 xi3 . . . xij . . . xin∗};

i = 1, . . . , m ,

deﬁnito un cluster Ck (k = 1, . . . , K) ed identiﬁcati i punti che vi appartengono, `e possibile associare al cluster generato un “punto medio” (centroide) che ne sintetizza le caratteristiche. Il centroide, che non necessariamente corrisponde ad un’entit` a reale inserita nel cluster, `e rappresentato da un vettore n*-dimensionale,

7.8 Algoritmo delle K-medie

255

la cui coordinata, in corrispondenza dell’attributo/asse j-esimo, `e calcolata nel modo seguente: xij i∈Ck ∗ : xj (Ck ) = card{Ck } la somma dei valori dell’attributo j-esimo, estesa a tutte le entit`a appartenenti al k-esimo cluster, `e rapportata al numero di entit` a associate al cluster, quindi alla sua cardinalit` a9. Il centroide del k-esimo cluster `e identiﬁcato dal vettore n*-dimensionale x∗ (Ck ) = {x∗1 (Ck ), x∗2 (Ck ), . . . , x∗j (Ck ), . . . , x∗n∗(Ck )} . Assegnato un numero complessivo di K di cluster da generare, l’algoritmo delle K-medie si compone delle seguenti fasi: • Fase A: inizializzazione dei cluster Selezione casuale di K entit` a (o selezione “intelligente”), con K < m. Le coordinate delle K entit` a (ciascun “punto” `e rappresentato da un vettore n*dimensionale) costituiscono, per deﬁnizione iniziale, i centroidi dei rispettivi K cluster. • Fase B: formazione dei cluster Assegnazione di ciascuna entit` a i-esima, al cluster Ck (k = 1, . . . , K) avente centroide la cui distanza dall’entit` a considerata `e minore (minimizzazione della distanza delle entit` a dai centroidi)10 : xi ∈ Ck |d(xi; x∗ (Ck )) = min{d(xi ; x∗(Cz ))} ; z

z = 1, . . . , K .

• Fase C: condizione di arresto dell’algoritmo Se nessuna entit` a viene riassegnata ad un cluster diﬀerente rispetto al cluster di appartenenza (alla ﬁne della precedente Fase B), l’algoritmo termina; altrimenti si procede con la Fase D. • Fase D: calcolo dei centroidi dei cluster Vengono calcolati i nuovi valori dei centroidi dei K cluster “attivi”, formati nella Fase B, come media dei valori degli attributi delle entit` a che appartengono ai singoli cluster. Ritorno alla Fase B. In Fase A, K entit` a vengono arbitrariamente associate ai K cluster teorici da formare. Conseguentemente, le m−K entit` a rimanenti vengono associate al cluster k (xi ∈ Ck ) che rende minima la distanza fra ciascuna entit` a ed il centroide del 9

10

Si ricorda che, nel caso di un attributo categorico nominale j, la componente j-esima delle coordinate del centroide del cluster Ck `e data dalla relativa moda, calcolata sui valori di tale attributo non numerico, per le entit` a appartenenti al cluster stesso. Le K entit` a arbitrariamente assegnate in Fase A ai K cluster, per inizializzare l’algoritmo, non subiscono cambiamento di cluster nel passaggio dalla Fase A alla Fase B.

256

7 Demand Intelligence: clustering

cluster. L’algoritmo delle K-medie procede quindi per iterazioni successive, a valle di ogni assegnazione cluster-entit` a, eseguendo la coppia di operazioni: 1. calcolo delle coordinate dei nuovi centroidi, come media dei valori degli attributi per le entit` a appartenenti al cluster; 2. riassegnazione delle entit` a precedentemente associate a cluster diﬀerenti o al medesimo cluster di cui all’iterazione precedente. Quando si veriﬁca che nessuna assegnazione cluster-entit` a ha subito riallocazioni fra due iterazioni successive, signiﬁca che i raggruppamenti di entit` a sui K cluster sono stabili, non ulteriormente modiﬁcabili. Questa condizione causa la terminazione dell’algoritmo. 7.8.2 Esempio numerico Un semplice esempio monodimensionale facilita la comprensione del funzionamento dell’algoritmo delle K-medie. Sono assegnate 20 entit`a (segmenti prodottomercato) caratterizzate da un unico attributo, il fatturato derivante dalle vendite nell’ultimo trimestre. I valori di fatturato sono riportati in ﬁgura 7.4. Si vogliono costruire K = 4 cluster. Inizialmente vengono selezionate casualmente quattro entit` a, indicate con il simbolo (*) in ﬁgura 7.4, per formare i quattro cluster A, B, C e D, le cui coordinate dei centroidi sono inizialmente xA = 1500, xB = 1400, xC = 2330, xD = 1000. Tabella 7.4. Valori dell’attributo “fatturato” per m = 20 entit` a entit` a

fatt.

entit` a

fatt.

entit` a

fatt.

entit` a

fatt.

e1 (*) e2 e3 e4 e5

1500 2300 130 2000 2800

e6 (*) e7 e8 e9 e10

1400 1320 220 2120 830

e11 e12 (*) e13 e14 e15

250 2330 1000 1210 670

e16 e17 e18 (*) e19 e20

1520 1980 1000 1250 1950

In fase di inizializzazione (Fase A) l’algoritmo opera le assegnazioni riportate in ﬁgura 7.5. Ad esempio, l’osservazione e17 (valore 1980) `e assegnata al cluster C, poich´e: |x17 − xC | = |1980 − 2330| = 350 = = min{|x17 − xA | ; |x17 − xB | ; |x17 − xC | ; |x17 − xD |} = = min{|1980 − 1500| ; |1980 − 1400| ; |1980 − 2330| ; |1980 − 1000|} = = min{480; 580; 350; 980} . Terminata la fase di inizializzazione, si procede al calcolo dei nuovi centroidi per i quattro cluster. Risulta: xA = 1510, xB = 1295, xC = 2212, xD = 586

7.8 Algoritmo delle K-medie

257

Tabella 7.5. Esempio numerico: inizializzazione dei cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 (*) e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 (*) e7 e8 e9 e10

1400 1320 220 2120 830

B B D C D

entit` a e11 e12 (*) e13 e14 e15

fatturato 250 2330 1000 1210 670

CL D C D B D

entit` a e16 e17 e18 (*) e19 e20

fatturato 1520 1980 1000 1250 1950

CL A C D B C

(arrotondati all’intero superiore). Ad esempio: xC = (x2 + x4 + x5 + x9 + x12 + x17 + x20 )/7 = = (2300 + 2000 + 2800 + 2120 + 2330 + 1980 + 1950)/7 = 2212 . Si esegue una nuova assegnazione delle 20 osservazioni ai quattro cluster, basandosi sulle nuove distanze rispetto ai nuovi centroidi. I risultati di questa riassegnazione sono riportati in ﬁgura 7.6. Le osservazioni che hanno cambiato cluster di appartenenza sono poste in evidenza, in questa e nelle successive tabelle dell’esempio numerico. Le osservazioni e13 e e18 sono state riassegnate al cluster B, rimuovendole dal cluster D cui erano state assegnate allo step precedente (in ﬁgura 7.6 i rispettivi cluster sono indicati in grassetto e corsivo). Si procede nuovamente al calcolo dei nuovi centroidi per i quattro cluster. Risulta: xA = 1510, xB = 1197, xC = 2212, xD = 420; si pu` o osservare che i centroidi dei cluster A e C non sono variati, rispetto allo step precedente, in quanto due entit` a sono state riassegnate dal cluster D al cluster B, senza quindi modiﬁcare la composizione originaria dei cluster A e C. La nuova assegnazione ai cluster, derivante dai nuovi centroidi, `e riportata in ﬁgura 7.7. Le due osservazioni e6 e e10 sono state riassegnate, rispettivamente al cluster A ed al cluster B, rimuovendole dal cluster B e dal cluster D. La composizione del cluster C non `e altres`ı variata: questa osservazione qualitativa trova riscontro nel ricalcolo dei centroidi dei quattro cluster: xA = 1474, xB = 1102, xC = 2212, xD = 318 (il valore del centroide xC non `e infatti cambiato). Poich´e due osservazioni sono state riallocate, si procede ad una nuova clusterizzazione delle 20 osservazioni. I risultati sono posti in ﬁgura 7.8.

258

7 Demand Intelligence: clustering Tabella 7.6. Esempio numerico: prima assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

Entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

B B D C D

entit` a e11 e12 e13 e14 e15

fatturato 250 2330 1000 1210 670

CL D C B B D

Entit` a e16 e17 e18 e19 e20

fatturato 1520 1980 1000 1250 1950

CL A C B B C

Tabella 7.7. Esempio numerico: seconda assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

A B D C B

entit` a

fatturato

CL

entit` a

fatturato

CL

e11 e12 e13 e14 e15

250 2330 1000 1210 670

D C B B D

e16 e17 e18 e19 e20

1520 1980 1000 1250 1950

A C B B C

Al termine della terza riassegnazione delle entit` a ai cluster, la sola osservazione e7 `e stata riassegnata al cluster A, rispetto al precedente cluster B cui apparteneva. Nulla `e dunque variato all’interno dei cluster C e D, come conferma il ricalcolo delle coordinate dei nuovi centroidi: xA = 1435, xB = 1058, xC = 2212, xD = 318. Si procede quindi alla successiva riallocazione delle entit` a nei quattro cluster; i risultati sono riportati in ﬁgura 7.9. Al termine della quarta riassegnazione delle entit` a ai cluster, la sola osservazione e19 `e stata riassegnata al cluster A, rispetto al precedente cluster B. Nulla `e dunque mutato all’interno dei cluster C e D, come conferma il ricalcolo delle coordinate dei nuovi centroidi: xA = 1398, xB = 1010, xC = 2212, xD = 318.

7.8 Algoritmo delle K-medie

259

Tabella 7.8. Esempio numerico: terza assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

A A D C B

entit` a e11 e12 e13 e14 e15

fatturato 250 2330 1000 1210 670

CL D C B B D

entit` a e16 e17 e18 e19 e20

fatturato 1520 1980 1000 1250 1950

CL A C B B C

Tabella 7.9. Esempio numerico: quarta assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

A A D C B

entit` a

fatturato

CL

entit` a

fatturato

CL

e11 e12 e13 e14 e15

250 2330 1000 1210 670

D C B B D

e16 e17 e18 e19 e20

1520 1980 1000 1250 1950

A C B A C

Si procede quindi alla successiva riallocazione delle entit` a nei quattro cluster; i risultati sono riportati in ﬁgura 7.10. Al termine della quinta riassegnazione delle entit` a ai cluster, le due osservazioni e14 e e15 sono state riassegnate rispettivamente al cluster A ed al cluster B, rispetto ai precedenti cluster B e D cui appartenevano. Nulla `e dunque variato all’interno del cluster C, come si pu`o osservare dal ricalcolo delle coordinate dei nuovi centroidi: xA = 1368, xB = 875, xC = 2212, xD = 200. Si procede quindi alla successiva riallocazione delle entit` a nei quattro cluster; i risultati sono riportati in ﬁgura 7.11.

260

7 Demand Intelligence: clustering

Tabella 7.10. Esempio numerico: quinta assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

A A D C B

entit` a e11 e12 e13 e14 e15

fatturato 250 2330 1000 1210 670

CL D C B A B

entit` a e16 e17 e18 e19 e20

fatturato 1520 1980 1000 1250 1950

CL A C B A C

Tabella 7.11. Esempio numerico: sesta assegnazione delle osservazioni ai cluster entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

A C D C C

e6 e7 e8 e9 e10

1400 1320 220 2120 830

A A D C B

entit` a

fatturato

CL

entit` a

fatturato

CL

e11 e12 e13 e14 e15

250 2330 1000 1210 670

D C B A B

e16 e17 e18 e19 e20

1520 1980 1000 1250 1950

A C B A C

I risultati contenuti nelle tabelle 7.10 e 7.11 sono identici: in seguito alla sesta riallocazione delle 20 entit` a prodotto-mercato ai quattro cluster, nessuna entit` a ha subito spostamento. Pertanto l’algoritmo delle K-medie si arresta; l’assegnazione ﬁnale fra cluster ed entit` a `e riportata in tabella 7.11. La ﬁgura 7.8 riporta le 20 osservazioni (in ascissa) ripartite nei cluster ﬁnali di appartenenza; le quattro classi di fatturato (in ordinata) sono cos`ı ripartite: • • • •

cluster cluster cluster cluster

D: da 0 a 250: entit` a e3 , e8 , e11 ; B: da 251 a 1000: entit` a e10 , e13 , e15 , e18 ; A: da 1001 a 1520: entit` a e1 , e6 , e7 , e14 , e16 , e19 ; C: da 1521 a 2800: entit` a e2 , e4 , e5 , e9 , e12 , e17 , e20 .

7.8 Algoritmo delle K-medie 3000

2800

2500

2300

2000 1500 1000

261

1320

1210 1000

830

500 130

0 1

2

3

4

6

7

8

9

670 450

1250 1000

250

220 5

1980 1780

1400

1500

2330

2120

2000

10 11 12 13 14 15 16 17 18 19 20

Figura 7.8. Esempio numerico: ripartizione ﬁnale nei quattro cluster

7.8.3 Estensioni dell’algoritmo base L’algoritmo delle K-medie “base” pu`o essere parametrizzato imponendo: • un numero variabile di cluster, da determinare in modo ottimale da parte dell’algoritmo stesso. Il numero K di cluster non `e ﬁssato a-priori, ma varia all’interno di un range ﬁnito [Kmin ; Kmax ]: l’algoritmo viene lanciato (Kmax –Kmin + 1) volte, ponendo rispettivamente K = Kmin ; Kmin +1; . . . ; Kmax −1; Kmax . Per ciascuno dei (Kmax –Kmin + 1) lanci, viene calcolato un indicatore sintetico di performance, per la misura della qualit` a del clustering generato. Il raggruppamento che ha fornito l’indicatore con valore migliore (in corrispondenza di un numero di cluster pari a K*) viene utilizzato come output ﬁnale dell’algoritmo delle K-medie; • criteri alternativi per la selezione causale di K entit` a da associare ai cluster, in corrispondenza della Fase A di inizializzazione dell’algoritmo. Con riferimento al problema della scelta preliminare delle K entit` a da assegnare ai cluster durante la Fase A dell’algoritmo delle K-medie “base”, assegnato un numero K di cluster da generare (K ﬁsso o variabile), viene proposto un metodo euristico semplice. Si procede come segue: • si sceglie un attributo j(j = 1, . . . , n∗), rappresentante una dimensione (asse) dello spazio n*-dimensionale; • si divide l’intervallo | maxi{xij }–mini {xij }|, con i = 1, . . . , m, in K parti uguali; • per ciascuna delle K parti generate, si seleziona il punto medio, lungo la dimensione j; ad esempio, il punto medio dell’intervallo di estremi |maxi {xij } − mini {xij }| 0; K (primo fra i K intervalli di suddivisione) `e dato, lungo l’asse j, dal valore |maxi {xij } − mini {xij }| ; 2K

262

7 Demand Intelligence: clustering

• per tutti gli altri n∗ − 1 attributi j ∗ diversi dal j-esimo inizialmente scelto, si identiﬁca come coordinata dei centroidi iniziali il punto medio dell’intervallo avente ampiezza pari a | maxi {xij∗}–mini {xij∗}|. In generale, `e anche possibile utilizzare generatori di numeri casuali per la scelta iniziale delle K entit` a che fungono da centroidi dei cluster. Risulta opportuno eﬀettuare diverse inizializzazioni dei cluster, mediante utilizzo di semi diversi per l’estrazione di numeri casuali, e confrontare i diﬀerenti clustering realizzati dall’algoritmo delle K-medie, quindi selezionare la conﬁgurazione che ottimizza il valore di una misura di prestazione per il clustering. 7.8.4 Parametrizzazione L’algoritmo delle K-medie pu` o essere specializzato fornendo in ingresso un opportuno set di parametri, nel seguito presentati. Numero di cluster. Il numero di cluster K (parametro 1) deﬁnisce a priori quanti raggruppamenti omogenei di entit` a si vogliono ottenere. Numero minimo/massimo di cluster. Il numero minimo/massimo di cluster K (parametri 2 e 3) deﬁniscono l’ambito di variabilit` a del numero di cluster generabili dall’algoritmo, secondo quanto espresso nel paragrafo precedente. Il numero ottimale di cluster deve essere contenuto entro i limiti minimo e massimi prescritti da tali parametri. Supporto minimo. Il supporto minimo SUPP min (parametro 4) di ciascun cluster deﬁnisce il numero minimo di elementi che devono essere in esso contenuti al ﬁne di rendere statisticamente signiﬁcativo ciascun raggruppamento. Un cluster contenente un numero inferiore di entit` a viene eliminato, riassegnando le entit`a in esso contenute ad altri cluster, aumentandone quindi la dimensione e riducendo il numero K inizialmente ﬁssato per la quantit` a di cluster di cui si vuole disporre. Criterio di arresto. Il criterio di arresto (o di convergenza) (parametro 5) serve a deﬁnire la condizione logico-matematica in base alla quale l’algoritmo delle Kmedie si arresta. Ad esempio, `e possibile ﬁssare il numero minimo di entit` a Nmin che devono subire cambiamento di cluster, durante il ricalcolo delle coordinate dei centroidi ed il tentativo di riallocazione, aﬃnch´e una iterazione sia considerata “valida”. In questo caso, se si pone Nmin = 10 e si ha, in corrispondenza di una generica iterazione, cambiamento di cluster per N = 7 entit` a, l’algoritmo esegue comunque la riassegnazione, quindi si arresta senza ricalcolare le coordinate dei nuovi centroidi. Un altro esempio di condizione di arresto `e dato dal numero massimo di iteo svolgere, prima di interrompersi forzatamenrazioni Nmax che l’algoritmo pu` te, indipendentemente dal fatto che l’ultima iterazione (Nmax -esima) comporti la riassegnazione di alcune entit`a a nuovi cluster. Criteri di arresto possono inﬁne essere deﬁniti in relazione alle misure di prestazione per l’analisi della qualit` a dei cluster. Ad esempio, l’algoritmo si arresta

7.9 Algoritmo di agglomerazione

263

quando i K cluster generati presentano un valore complessivo di coesione inferiore o uguale ad un valore soglia CSmin predeﬁnito. Numero massimo di attributi. Il numero massimo di attributi Nmax (parametro 6) serve per ridurre la complessit`a di calcolo all’interno dell’algoritmo di clustering. Un numero eccessivo di attributi da valutare per il calcolo della distanza fra coppie di entit` a comporta il peggioramento delle prestazioni di calcolo da parte dell’algoritmo, nonch´e la possibilit` a di ottenere cluster di bassa qualit` a. Ci`o `e dovuto alla potenziale presenza di gruppi di attributi aﬀetti da multicollinearit` a, ridondanti ai ﬁni dell’eﬃcacia del clustering. Le metodologie di feature selection, precedentemente esposte nel capitolo, oﬀrono supporto nella selezione dei soli attributi indipendenti e signiﬁcativi. Nel caso in cui il numero n di attributi sia superiore alla soglia Nmax , l’algoritmo delle K-medie invoca automaticamente l’algoritmo di riduzione del numero di attributi. Numero massimo di valori per attributo. Il numero massimo di valori per ciascun attributo V max (parametro 7) serve, ancora una volta, per ridurre la complessit`a computazionale dell’algoritmo. Questo parametro viene applicato unicamente ad attributi numerici discreti (il cui dominio ha cardinalit` a ﬁnita), categorici ordinali e categorici nominali. Qualora il numero di valori distinti ammissibili presenti nel dataset superi, per un certo attributo, il valore massimo consentito, u frequenti, riscontrati esplorando le m l’algoritmo seleziona i primi Vmax valori pi` osservazioni disponibili nel dataset.

7.9 Algoritmo di agglomerazione 7.9.1 Struttura dell’algoritmo Dato un insieme di m entit` a, caratterizzate da un insieme di n* attributi rilevanti: {xi1 xi2 xi3 . . . xij . . . xin∗} ;

i = 1, . . . , m ,

assegnato un numero K di cluster da generare, si deﬁnisce distanza fra due cluster Cα e Cβ (α, β = 1, . . . , K) la distanza fra i centroidi : d(Cα ; Cβ ) = d(x∗ (Cα ); x∗ (Cβ )) , ricordando l’espressione vettoriale n*-dimensionale che deﬁnisce le coordinate del generico centroide del k-esimo cluster: x∗ (Ck ) = {x∗1 (Ck ), x∗2 (Ck ), . . . , x∗j (Ck ), . . . , x∗n∗(Ck )} . Due cluster Cα e Cβ risultano maggiormente diﬀormi quanto maggiore `e la distanza fra i relativi centroidi e, implicitamente, quanto migliore `e la ripartizione di entit` a dissimili nei valori degli attributi su cluster diversi.

264

7 Demand Intelligence: clustering

Esistono diverse metriche per valutare la distanza fra gli elementi appartenenti a due cluster Cα e Cβ distinti. Oltre alla distanza fra i centroidi dei due cluster, `e anche possibile valutare la distanza media fra tutte le coppie di entit` a appartenenti l’una al primo cluster, l’altra al secondo: dis d(Cα ; Cβ ) =

i∈Cα s∈Cβ

card{Cα} · card{Cβ }

.

L’algoritmo di agglomerazione opera secondo una logica bottom-up, avendo l’obiettivo di costruire cluster mediante inserimento progressivo e gerarchico di entit` a, partendo da cluster unitari. L’algoritmo si sviluppa secondo le seguenti fasi: • Fase A: identiﬁcazione dei cluster unitari Ciascuna entit` a da clusterizzare rappresenta un cluster singolo, di cardinalit` a unitaria. In totale sono quindi presenti m cluster (m K); le distanze fra centroidi sono automaticamente deﬁnite dalle distanze dis fra coppie di entit` a (i, s). Il contatore Z del numero di cluster attualmente presenti viene inizializzato al valore Z = m. • Fase B: agglomerazione dei cluster Si calcola la distanza minima fra i cluster esistenti. I due cluster α e β aventi distanza d(Cα ; Cβ ) minima vengono accorpati, dando luogo ad un nuovo cluster C γ = C α ∪ Cβ . • Fase C: ricalcolo delle distanze fra cluster Si calcola la distanza del nuovo cluster Cγ , spazialmente identiﬁcato dalle coordinate del suo centroide x∗ (Cγ ), rispetto agli altri cluster ﬁno ad ora generati: d(Cγ ; Cz ) = d(x∗(Cγ ); x∗ (Cz )) ;

∀z = 1, . . . , K|z = γ .

Si aggiorna il valore del contatore Z, decrementandolo di una unit` a, in seguito alla fusione di due cluster: Z := Z − 1. • Fase D: condizione di arresto Se Z > K, si ritorna alla Fase B. Se invece Z = K, l’algoritmo si arresta, avendo formato esattamente i K cluster richiesti. Se non `e presente alcun criterio di arresto nell’algoritmo di agglomerazione, esso termina formando un unico cluster, di cardinalit` a m, contenente tutte le entit` a inizialmente formanti m cluster unitari. 7.9.2 Esempio numerico Con riferimento all’esempio numerico riportato in ﬁgura 7.4 e riproposto, per continuit` a espositiva, anche nella seguente ﬁgura 7.12, si considerino m = 20 entit` a da raggruppare in K = 4 cluster. All’inizio sono presenti 20 cluster di dimensione unitaria, pari al numero delle m entit` a da raggruppare.

7.9 Algoritmo di agglomerazione

265

Tabella 7.12. Esempio numerico di applicazione dell’algoritmo di agglomerazione entit` a

fatt.

entit` a

fatt.

entit` a

fatt.

entit` a

fatt.

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

e6 e7 e8 e9 e10

1400 1320 220 2120 830

e11 e12 e13 e14 e15

250 2330 1000 1210 670

e16 e17 e18 e19 e20

1520 1980 1000 1250 1950

Le iterazioni svolte dall’algoritmo di agglomerazione sono di seguito riportate. Step 1. Fusione delle entit` a e13 e e18 , aventi distanza minima: |1000 − 1000| = 0. Step 2. Fusione delle entit` a e1 e e16 , aventi distanza minima: |1500 − 1520| = 20. Step 3. Fusione delle entit` a e17 e e20 , aventi distanza minima: |1980 − 1950| = 30. Step 4. Fusione delle entit` a e8 e e11 , aventi distanza minima: |220 − 250| = 30. Step 5. Fusione delle entit` a e2 e e12 , aventi distanza minima: |2300 − 2330| = 30. Step 6. Fusione delle entit` a e4 e e17 20 , aventi distanza minima11: |2000 − 1965| = 35. Step 7. Fusione delle entit` a e14 e e19 , aventi distanza minima: |1210 − 1250| = 40. Step 8. Fusione delle entit` a e6 e e7 , aventi distanza minima: |1400 − 1320| = 80. Step 9. Fusione delle entit` a e3 e e8 11 , aventi distanza minima: |130 − 235| = 105. Step 10. Fusione delle entit` a e6 7 e e14 19 , aventi distanza minima: |1360 − 1230| = 130. Step 11. Fusione delle entit` a e4 17 20 e e9 , aventi distanza minima: |1982 − 2120| = 138. Step 12. Fusione delle entit` a e10 e e15 , aventi distanza minima: |830 − 670| = 160. Step 13. Fusione delle entit` a e1 16 e e6 7 14 19 , aventi distanza minima: |1510 − 1295| = 215. Step 14. Fusione delle entit` a e10 15 e e13 18 , aventi distanza minima: |1000 − 750| = 250. Step 15. Fusione delle entit` a e2 12 e e4 9 17 20 , aventi distanza minima: |2315 − 2051| = 264. 11

Il valore x17−20 = 1965 del centroide del cluster e17−20 si ottiene come media aritmetica dei due centroidi x17 = 1980 e x20 = 1950.

266

7 Demand Intelligence: clustering

Step 16. Fusione delle entit` a e1 6 7 14 16 19 e e10 13 15 18 , aventi distanza minima: |1403 − 875| = 528. Al termine del sedicesimo step l’algoritmo si arresta, in quanto sono stati formati esattamente K = 4 cluster, riportati in tabella 7.13: • • • •

cluster cluster cluster cluster

CA : {e1 , e6 , e7 , e10 , e13 , e14 , e15 , e16 , e18 , e19 }; CB : {e2 , e4 , e9 , e12 , e17 , e20 }; CC : {e3 , e8 , e11 }; CD : {e5 }.

Tabella 7.13. Esempio numerico: risultati ﬁnali per l’algoritmo di agglomerazione entit` a

fatturato

CL

entit` a

fatturato

CL

e1 e2 e3 e4 e5

1500 2300 130 2000 2800

CA CB CC CB CD

e6 e7 e8 e9 e10

1400 1320 220 2120 830

CA CA CC CB CA

entit` a

fatturato

CL

entit` a

fatturato

CL

e11 e12 e13 e14 e15

250 2330 1000 1210 670

CC CB CA CA CA

e16 e17 e18 e19 e20

1520 1980 1000 1250 1950

CA CB CA CA CB

Da un’analisi visiva della ﬁgura 7.13, la ripartizione riportata sembra ragionevole, coerente con i valori numerici per l’attributo fatturato per le m = 20 entit` a oggetto di clustering. Si osservi che il cluster CD presenta un solo elemento (e5 , valore 2800), il cui valore `e notevolmente distante rispetto a tutti gli altri valori dei centroidi dei cluster progressivamente formatisi nel corso dei sedici step delo, in eﬀetti, essere considerato un outlier, l’algoritmo. Il valore per l’entit` a e5 pu` ben identiﬁcato ed isolato dall’algoritmo. Da un’analisi comparativa fra i risultati dell’algoritmo delle K-medie (paragrafo 7.8.2, ﬁgura 7.11) e dell’algoritmo di agglomerazione, entrambi applicati con K = 4, si pu` o osservare che: • il cluster CC : {e3 , e8 , e11 } `e identico al cluster D generato dall’algoritmo delle K-medie; • il cluster CA : {e1 , e6 , e7 , e10 , e13 , e14 , e15 , e16 , e18 , e19 }, generato dall’algoritmo di agglomerazione `e l’unione dei cluster A e B generati dall’algoritmo delle K-medie;

7.10 Esempio di applicazione: new product forecasting

267

• il cluster CB : {e2 , e4 , e9 , e12 , e17 , e20 } contiene il cluster C generato dall’algoritmo delle K-medie, il quale a sua volta include l’entit` a outlier e5 , isolata nel cluster unitario CD dall’algoritmo di agglomerazione. 7.9.3 Estensioni dell’algoritmo base L’algoritmo di agglomerazione “base” pu`o essere parametrizzato imponendo un range ﬁnito di esplorazione del numero di cluster [Kmin ; Kmax ]: l’algoritmo viene lanciato una sola volta, ponendo il contatore Z pari ai valori Kmax ; Kmax − 1; Kmax −2; . . . ; Kmin +1; Kmin in Fase D. Pi` u precisamente, le condizioni di arresto dell’algoritmo sono progressivamente date da: Z = Kmax ;

Z = Kmax − 1; Z = Kmax − 2; . . . ;

Z = Kmin + 1;

Z = Kmin .

Al raggiungimento, ad esempio, della prima condizione di uscita in Fase D (Z = Kmax ), i Kmax cluster generati vengono salvati. L’algoritmo procede quindi a generare un nuovo clustering, in cui il numero di cluster generati `e pari a Kmax −1 (si esegue cio`e un’altra iterazione completa dell’algoritmo: Fasi B, C, D). I nuovi Kmax − 1 cluster generati vengono nuovamente salvati. Si procede in questo modo, ﬁnch`e si raggiunge la condizione di arresto Z = Kmin . Per ciascuna delle (Kmax –Kmin + 1) clusterizzazioni eseguite, viene calcolato un indicatore sintetico di performance, per valutare la qualit` a del clustering complessivamente generato. Il tentativo che fornisce l’indicatore con valore “migliore”, in corrispondenza di un numero di cluster esattamente pari a K = K*, viene utilizzato come output ﬁnale dell’algoritmo di agglomerazione. A diﬀerenza dell’algoritmo delle K-medie, l’algoritmo di agglomerazione non necessita di una selezione iniziale di K entit` a, nell’insieme delle m entit` a disponibili, per formare K cluster iniziali.

7.10 Esempio di applicazione: new product forecasting A conclusione dell’analisi dei principali algoritmi per il clustering (K-medie, agglomerazione), si riporta un esempio di applicazione dei risultati del clustering al caso di previsione delle vendite per nuovi prodotti. Deﬁniti K cluster complessivamente contenenti le m entit` a disponibili, avendo utilizzato un opportuno algoritmo di clustering, si deﬁnisce l’analogia formale che intercorre fra: • una nuova entit` a enew (nuovo prodotto, mercato, segmento prodotto-mercato), caratterizzata da un vettore di n* attributi {xnew,1 xnew,2 . . . xnew,k . . . xnew,n∗}; • le m entit` a esistenti (prodotti standard) gi` a clusterizzate, per le quali `e noto il vettore n*-dimensionale degli attributi descrittivi e/o sintetici. L’approccio utilizzato si basa sulla similarit` a nei valori degli attributi fra le diverse entit` a. Ciascuna entit` a clusterizzata deﬁnisce un segmento prodotto-mercato di cui

268

7 Demand Intelligence: clustering

si conosce la serie storica di domanda (baseline storica D(t)), avente valori disponibili nel passato, misurati dai sistemi transazionali di rilevazione delle vendite. L’obiettivo consiste nel costruire una curva di domanda storica “ﬁttizia” per il nuovo prodotto enew , che, per deﬁnizione, non possiede valori storici di domanda, al ﬁne di poter applicare a tale curva i metodi statistici di Sales Forecasting per la previsione delle vendite. Tale approccio metodologico `e chiamato analogy forecasting: previsione basata sulla similarit` a fra prodotti a diﬀerenti stadi nel ciclo di vita, in cui il nuovo prodotto `e percepito dai clienti come parzialmente o totalmente sostitutivo rispetto al prodotto maturo, il quale si trova in uno stadio avanzato del proprio ciclo di vita. o ereditare la curva di domanda D(t): In alternativa, la nuova entit` a enew pu` • dall’entit` a i-esima pi` u simile (geometricamente pi` u vicina), cio`e: ei | mini {di,new}. Pertanto si ottiene la domanda storica per l’entit` a enew mediante la relazione seguente: D(enew , t) = D(ei , t) , per tutti i periodi t appartenenti all’intervallo di disponibilit` a dei dati; • dall’insieme delle entit` a appartenenti al cluster Cα , il cui centroide presenta attributi il cui valore `e pi` u simile a quelli relativi alla nuova entit` a enew : α| minα {d(Cα , enew )}. Si ricava quindi la domanda storica per l’entit` a enew come media dei valori storici relativi alle entit` a ei appartenenti al cluster Cα , per ciascun valore t relativo all’orizzonte di disponibilit` a dei dati: D(ei , t) i∈Cα D(enew , t) = . card {Cα }

8 Demand Intelligence: regole associative

Regole associative – Regole associative sequenziali

8.1 Regole associative 8.1.1 Market Basket Analysis: prodotti acquistati Le regole associative rappresentano una tecnica di Data Mining per l’apprendimento non supervisionato, avente l’obiettivo di identiﬁcare regolarit` a e pattern di oggetti che ricorrono con frequenza all’interno di un insieme di transazioni, solitamente di tipo commerciale, registrate in seguito a speciﬁche azioni dei clienti, quali l’acquisto di gruppi di prodotti presso i punti vendita della grande distribuzione oppure l’accesso sequenziale a siti web di trading on-line, per consultazione di cataloghi ed eventuale acquisto di beni. Una transazione commerciale relativa alla spesa dei consumatori presso i punti vendita `e deﬁnibile tramite una lista di articoli acquistati dallo stesso cliente nell’ambito di una stessa visita, registrati attraverso lo scontrino ﬁscale che identiﬁca i prodotti acquistati e la data. L’elenco dei beni acquistati `e memorizzato all’interno dei database transazionali propri dei sistemi informativi delle aziende commerciali che gestiscono i punti vendita; per ciascuna transazione che corrisponde ad un pagamento vengono registrati: • l’elenco dei prodotti acquistati e la relativa numerosit` a; • il prezzo di vendita; • l’identiﬁcativo del cliente, nel caso quest’ultimo sia in possesso di una carta fedelt` a o eﬀettui il pagamento tramite carta di credito; • l’importo complessivo associato alla transazione; • la modalit` a di pagamento. Periodicamente, le numerose transazioni giornaliere rilevate presso i punti di contatto, ﬁsici o telematici, con il cliente ﬁnale vengono trasferite in modo permanente nei data warehouse analitici, per svolgere le analisi di Data Mining applicando gli algoritmi delle regole associative, al ﬁne di identiﬁcare comportamenti di acquisto comuni a campioni statisticamente signiﬁcativi di acquirenti; tali regolarit` a di acquisto sono esprimibili tramite regole probabilistiche, quali ad esempio: Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

270

8 Demand Intelligence: regole associative

1. se un cliente acquista il prodotto X, acquista anche il prodotto Y con probabilit` a p1 nella medesima transazione; 2. tre prodotti {A, B, C} sono acquistati congiuntamente con probabilit` a p2 ; 3. un cliente residente nel Nord Italia, di et` a superiore a 35 anni, sposato, che acquista congiuntamente il paniere di prodotti {A, B, C}, acquister`a anche il paniere di prodotti {D, E} con probabilit` a p3 ; 4. un cliente che ha acquistato, nel corso della transazione tr1 , il prodotto P riacquister` a il medesimo prodotto almeno una volta nelle successive due transazioni, con probabilit` a p4 . L’analisi delle transazioni commerciali dei clienti presso i centri di vendita `e denominata market basket analysis, analisi del “carrello della spesa”; lo studio dei comportamenti che inducono gli acquirenti ad acquistare frequentemente e congiuntamente, nella medesima transazione o in transazioni successive, determinati panieri di prodotti, `e di ausilio alle analisi di Demand Intelligence delle funzioni Marketing e Vendite, in quanto permette di: • studiare e giustiﬁcare qualitativamente le correlazioni quantitative che inducono all’acquisto di taluni prodotti, condizionatamente al precedente acquisto di altri (pattern analysis); • valutare a priori il potenziale eﬀetto di attivit` a promozionali operate su insiemi di prodotti correlati positivamente fra loro (cross-selling); • valutare a priori gli eﬀetti derivanti dall’introduzione di nuovi prodotti o di promozioni su prodotti correlati negativamente fra loro (cannibalizzazione); • progettare la miglior collocazione degli articoli sugli scaﬀali dei negozi, al ﬁne di orientare spazialmente il consumatore all’acquisto congiunto di insiemi di prodotti disposti nello stesso settore (store layout planning); • analizzare gli eﬀetti indotti dalla rimozione dal mercato di prodotti obsoleti, alla ﬁne del proprio ciclo di vita (product lifecycle management); • organizzare eﬃcientemente le operazioni di periodico riassortimento dei punti vendita e di localizzazione delle scorte di prodotti ﬁniti presso i nodi intermedi della rete logistico-distributiva (stock replenishment ). L’analisi dei pattern di acquisto ricorrenti fornisce quindi un insieme di informazioni e conoscenze in input alla fase di Marketing Intelligence, utili alla formulazione di eﬃcaci piani di marketing da sovrapporre al sales forecast statistico. Queste analisi possono essere svolte, a seconda dei casi, dai responsabili del Marketing delle catene di punti vendita, oppure dalle funzioni di Marketing delle aziende produttrici dei prodotti ﬁniti, le quali negoziano con i gestori dei punti vendita la concessione di opportune metrature dei lineari degli scaﬀali. Le regole signiﬁcative estratte dall’analisi dei pattern di panieri all’interno delle transazioni commerciali possono essere banali (semplici, in quanto naturalmente intuibili), non banali (non immediatamente intellegibili, “nascoste” all’interno dei database che hanno registrato le vendite), giustiﬁcabili razionalmente o meno. Soltanto le regole non banali e facilmente comprensibili aumentano la conoscenza degli utenti di Marketing, basandosi sulla quale `e possibile implementare azioni promozionali di vario

8.1 Regole associative

271

tipo. Una regola associativa non banale pu` o trovare giustiﬁcazione come conseguenza di: • azioni esogene: variazioni dei gusti dei consumatori, trend e ricorrenze particolari, eﬀetto moda, azioni dei competitor; • azioni endogene: azioni promozionali svolte nel passato, tali da aver indotto i consumatori a preferire l’acquisto di particolari panieri di prodotti, introduzione di nuovi prodotti che ne hanno cannibalizzati altri. 8.1.2 Caratteristiche degli itemset Un itemset `e un insieme di oggetti, quali prodotti ﬁniti o pagine di siti web, contenuti all’interno di una stessa transazione commerciale. Nella market basket analysis, un itemset `e un sottoinsieme di una lista completa di N articoli commerciali presenti sugli scaﬀali dei punti vendita. Nella navigazione sui siti web commerciali delle aziende di produzione e distribuzione, gli itemset deﬁniscono sottoinsiemi di pagine pubblicitarie visitate dai clienti, su un totale di N , visionate secondo speciﬁche sequenze e percorsi di accesso. Se invece si considerano le caratteristiche dei clienti possessori di carte di credito o carte fedelt` a, un itemset `e un insieme di caratteristiche, in prevalenza di tipo anagraﬁco, quali il genere, l’et` a, il comune di residenza, lo stato civile, ecc. Per le ﬁnalit` a delle analisi di Demand Intelligence, ai singoli clienti delle aziende produttive e distributive si associano transazioni di acquisto, ciascuna contenente un itemset di prodotti acquistati, nonch´e un identiﬁcativo univoco. Un insieme di m transazioni commerciali raccolte in un datawarehouse analitico `e deﬁnito dataset di dimensione m. Ad esempio, data una lista ordinata di N = 8 prodotti: {P1 , P2 , P3 , P4 , P5, P6 , P7 , P8 } presenti in una pagina del catalogo commerciale di un punto vendita1 , si supponga che siano state registrate le seguenti transazioni, riportate in tabella 8.1. Gli elementi che costituiscono un itemset rappresentano istanze di attributi di tipo: • numerico binario, indicante la presenza di un prodotto in un itemset: se un cliente acquista il prodotto P1 , allora {P1 = 1}, altrimenti {P1 = 0}; • numerico intero, indicante la quantit` a acquistata per ciascun articolo2: se un cliente acquista 3 unit`a del prodotto P1 , allora {P1 = 3}; 1 2

Ad esempio: P1 = succo di arancia, P2 = succo di limone, P3 = aranciata gassata, P4 = acqua naturale, P5 = acqua gassata, P6 = latte, P7 = merendine, P8 = biscotti. Nel caso di attributi numerici continui, indicanti quantit` a non intere di acquisto (ad esempio: 1,75 kg di formaggio), `e opportuno procedere ad una discretizzazione dei valori continui, trasformando la natura dell’attributo quantitativo stesso, prima di fornire le sue occorrenze (registrate nelle transazioni e discretizzate) in input agli algoritmi di generazione delle regole associative.

272

8 Demand Intelligence: regole associative

• categorico, indicante il valore assunto da uno speciﬁco dato anagraﬁco: genere di un cliente {maschio, femmina}, et`a {10, 21, . . ., 99}, citt` a di residenza {Milano, Roma, Venezia, . . . }. Nel caso della presenza di prodotti in un paniere corrispondente ad una transazione commerciale, l’itemset deﬁnisce la presenza dei soli prodotti acquistati: ad esempio, la transazione trA) deﬁnita in tabella 8.1 `e rappresentabile come sequenza: {P1 = 1, P2 = 1, P3 = 1, P4 = 0, P5 = 0, P6 = 0, P7 = 0, P8 = 0} .

Tabella 8.1. Transazioni d’acquisto di prodotti da parte dei clienti transazione tr(A) tr(B) tr(C) tr(D) tr(E) tr(F) tr(G) tr(H) tr(I) tr(L) tr(M) tr(N)

cliente C1 C2 C3 C4 C1 C2 C5 C3 C6 C4 C2 C2

itemset associato alla transazione {P1 , P2 , P3 } {P1 , P2 , P3 , P4 } {P1 , P4 , P5 , P8 } {P6 , P7 , P8 } {P1 , P3 , P4 , P5 , P6 } {P1 , P2 , P3 , P8 } {P1 , P2 , P8 } {P2 , P3 } {P1 , P2 , P3 } {P3 , P4 , P5 , P6 } {P1 , P2 , P8 } {P4 , P8 }

Le tipologie di attributi che caratterizzano i dati di un itemset sono rappresentabili attraverso una matrice delle transazioni, avente M righe (una per ciascuna transazione) ed N colonne (una per ogni attributo). La matrice in tabella 8.2 completa l’esempio delle 12 transazioni di acquisto contenute nella tabella 8.1, aggiungendo gli attributi anagraﬁci citt` a, et` a, genere ai clienti C1 , C2 , C3 , C4 , C5 , C6 . Un itemset possiede le seguenti caratteristiche distintive: multidimensionalit` a, simmetria, dimensione, supporto. Multidimensionalit` a La multidimensionalit` a deﬁnisce il numero di assi gerarchici che caratterizzano gli oggetti presenti in uno stesso itemset, rilevati nelle diverse transazioni. Con riferimento alla tabella 8.2 contenente 12 transazioni commerciali, una regola di acquisto espressa nel modo seguente {P1 = 1 ∩ P2 = 1} → {P3 = 1} ; p = pa `e di tipo monodimensionale, nel senso che coinvolge solamente la dimensione prodotto nelle gerarchie multidimensionali basate sui cubi OLAP.

8.1 Regole associative

273

Tabella 8.2. Prodotti acquistati dai clienti e relativi dati anagraﬁci tr(id)

cliente

citt` a

et` a

genere

P1

P2

P3

tr(A) tr(B) tr(C) tr(D) tr(E) tr(F) tr(G) tr(H) tr(I) tr(L) tr(M) tr(N)

C1 C2 C3 C4 C1 C2 C5 C3 C6 C4 C2 C2

MI RM VE MI MI RM PD VE TO MI RM RM

23 34 66 19 23 34 35 66 64 19 34 34

U D D U U D U D D D D D

1 1 1

1 1

1 1

1 1 1 1

1 1 1 1

1

1

1 1 1 1 1

P4

P5

1 1

1

1

1

P6

P7

P8

1 1

1

1 1 1 1

1

1

1

1

1 1

Al contrario, una regola associativa deﬁnita nel modo seguente {P1 = 1 ∩ P2 = 1 ∩ citt` a = RM ∩ genere = ‘donna’} → {P6 = 1} ; p = pb `e deﬁnita sulle tre dimensioni prodotto, citt` a, genere, quindi `e di tipo multidimensionale. Aﬃnch´e un itemset sia matematicamente trattabile dagli algoritmi di identiﬁcazione delle regole associative, `e necessario ricondurre i diversi attributi categorici e numerici discreti non binari ad attributi numerici binari, trasformando ciascuna istanza (esempio: Milano, Roma, . . . ) di ciascun attributo non binario (esempio: citt` a ) in un nuovo attributo binario, che assume valore unitario, nel caso si veriﬁchi la speciﬁca istanza all’interno di una generica transazione. Ad esempio, l’attributo genere = {uomo, donna} viene trasformato nei due attributi ´ implicito rilevare che in nessuna transazione binari genere uomo e genere donna. E `e possibile che si veriﬁchi la contemporanea presenza di valori unitari per diversi attributi binari “derivati”; pi` u precisamente, ciascun attributo non binario di partenza, contenente n occorrenze distinte, viene trasformato in n attributi binari (ciascuno avente due soli valori booleani possibili), di cui esattamente uno assume, in ogni transazione, valore unitario. Simmetria Un itemset pu`o contenere attributi binari simmetrici o asimmetrici. La presenza di un prodotto P in un itemset, indicante l’avvenuto acquisto di tale prodotto da parte di un cliente, rappresenta un esempio di attributo binario asimmetrico: per costruire regole associative signiﬁcative relative al prodotto P `e interessante conoscerne la frequenza (presenza: valore booleano pari a 1) nei record delle transazioni commerciali. Un esempio di simmetria di un attributo binario `e relativo al caso in cui si voglia rilevare, in ciascuna transazione commerciale, il possesso di una carta fedelt` a da parte dell’acquirente: sono parimenti importanti sia regole associative che coinvolgano comportamenti di acquisto di clienti in possesso di carte

274

8 Demand Intelligence: regole associative

fedelt` a, sia regole che manifestino regolarit`a di scelta in utenti che non eﬀettuano la “raccolta punti” attraverso la registrazione della ﬁdelity card, in corrispondenza di ogni transazione di spesa. Nel caso di attributi asimmetrici per regole associative di presenza/assenza di prodotti acquistati in itemset (market basket analysis), pu` o talvolta rivelarsi utile valutare anche l’assenza di prodotti all’interno dei panieri, per studiare eﬀetti di cannibalizzazione fra prodotti promozionati e non promozionati. Ad esempio, si possono derivare regole associative alternative, quali le due seguenti: [R1] {P1 = 1 ∩ promo P1 = 0 ∩ promo P2 = 0} → {P2 = 1} ; p = 60% ; [R2] {P1 = 1 ∩ promo P1 = 1 ∩ promo P2 = 0} → {P2 = 1} ; p = 25% ; interpretabili nel modo seguente: quando il prodotto P1 (succo di arancia) `e in promozione, la probabilit` a di acquisto contemporaneo di P2 (succo di limone), condizionato all’acquisto di P1 , scende dal 60% (prodotto P1 non in promozione) al 25%. Dimensione La dimensione di un itemset rappresenta il numero D degli elementi in esso contenuti. Pi` u precisamente, nel caso di itemset con soli attributi binari asimmetrici, la somma dei valori unitari assunti da ciascun attributo booleano presente nel singolo itemset ne deﬁnisce la dimensione. Ad esempio, l’itemset I0 I 0 = {P1 , P2, P3 } = = {P1 = 1, P2 = 1, P3 = 1, P4 = 0, P5 = 0, P6 = 0, P7 = 0, P8 = 0} ha dimensione pari a 3 (si deﬁnisce anche 3-itemset ). Dato un paniere di N prodotti Pj (j = 1, . . . , N ), identiﬁcato dalla presenza di un attributo asimmetrico per ciascun prodotto, si deﬁnisce la variabile booleana xij per indicare la presenza del prodotto Pj nella transazione tr(i): Pj ∈ tr(i) → xij = 1. La dimensione D(i) dell’itemset Ii , all’interno della transazione tr(i), `e deﬁnita come: N D(i) = xij . j=1

Nel caso di itemset con soli attributi simmetrici, la dimensione D coincide con il numero di attributi N . Supporto Il supporto di un itemset `e rappresentato dalla frequenza relativa con cui gli oggetti in esso contenuti compaiono congiuntamente nelle transazioni presenti nel datawarehouse di riferimento per l’applicazione delle regole associative. Deﬁnito m il numero totale di transazioni disponibili nell’arco temporale di riferimento, deﬁnito K(Ii ) il numero totale di volte in cui l’itemset Ii risulta presente in alcune delle m transazioni, il supporto dell’itemset Ii `e deﬁnito tramite la formula: SUPP(Ii ) =

K(Ii ) . m

8.1 Regole associative

275

Per valori molto elevati di m, quindi in corrispondenza di database di grandi dimensioni, contenenti GigaByte o TeraByte di transazioni, il supporto di un itemset Ii approssima la probabilit` a che in una nuova transazione, appena tracciata all’interno dei database operativi ERP, sia presente l’itemset Ii . Il supporto di un 1-itemset `e semplicemente dato dalla percentuale di transazioni in cui compare il singolo prodotto P associato all’itemset. Con riferimento alla tabella 8.2, il 3-itemset I 0 = {P1 , P2, P3 } `e contenuto quattro volte, all’interno delle transazioni tr(A), tr(B), tr(F ), tr(I); il suo supporto `e pari a 4/12 = 0,333, in presenza di m = 12 transazioni registrate. Viceversa, il 1-itemset {P7 } `e presente una sola volta nel database, all’interno della transazione tr(D): il suo supporto `e quindi pari a 1/12 = 0,083. Data la diversa consistenza numerica dei supporti nei due esempi del 3-itemset e del 1-itemset, risulta maggiormente interessante individuare la presenza di regole associative signiﬁcative che coinvolgano i tre prodotti nell’itemset I0 , opportunamente combinati fra loro secondo relazioni logiche di causa/eﬀetto, piuttosto che studiare le eventuali correlazioni esistenti fra il prodotto P7 e gli altri N – 1 presenti nel catalogo commerciale, data la scarsa rilevanza statistica del prodotto P7 , raramente acquistato all’interno delle m = 12 transazioni presenti nel dataset. Diviene quindi opportuno ﬁltrare gli itemset non frequenti, non generando per essi le regole associative, attraverso la deﬁnizione di un valore di soglia per il supporto (minimum threshold support) SUPPmin : soltanto gli itemset Ii aventi supporto SUPP(Ii ) superiore al valore minimo possono concorrere alla formazione di regole causa/eﬀetto, non banali, giustiﬁcabili e signiﬁcative.

8.1.3 Caratteristiche delle regole Si deﬁnisce regola associativa probabilistica un’implicazione logica che mette in relazione: 1. 2. 3. 4.

una proposizione antecedente ANT ; una proposizione conseguente CONS ; attraverso una relazione logica di tipo if/then: ANT → CONS ; con una deﬁnita probabilit` a di occorrenza p.

Se si veriﬁca l’antecedente ANT, si veriﬁca anche il conseguente CONS, con probabilit` a di occorrenza pari a p. Ad esempio: • antecedente: un cliente acquista i prodotti {P1 , P2, P3 } (primo itemset); • conseguente: un cliente acquista i prodotti {P4 , P5 , P6 } (secondo itemset). Alle regole associative possono essere associate le seguenti caratteristiche, espresse come parametri: supporto, conﬁdenza, importanza. Supporto Il supporto di una regola associativa [R]: {Iα → Iβ }, formata da un itemset Iα antecedente e da un itemset Iβ conseguente, `e deﬁnito come il rapporto fra:

276

8 Demand Intelligence: regole associative

• il numero di transazioni in cui i due itemset Iα e Iβ sono contemporaneamente presenti: K(Iα ∪ Iβ ); • il numero totale m di transazioni presenti nel dataset; SUPP(Iα → Iβ ) =

K(Iα ∪ Iβ ) . m

Si osservi, dalla deﬁnizione di supporto, che tale quantit` a non dipende dalla direzione logica della regola (quale antecedente, quale conseguente). Inoltre, il supporto di una regola [R], coinvolgente un itemset antecedente ed un itemset conseguente, coincide con il supporto dell’unione dei due itemset. In formule: SUPP (Iα → Iβ ) = SUPP (Iβ → Iα ) = SUPP (Iα ∪ Iβ ) . Anche per il supporto relativo alle regole valgono le stesse considerazioni espresse per il supporto associato agli itemset: si ricercano, tramite algoritmi deterministici esplorativi, regole dotate di un adeguato supporto statistico, cio`e regole che coinvolgano itemset frequenti nel dataset oggetto di analisi. Con riferimento alla tabella 8.2, il supporto della regola [R1 ]: {P1 → P2 } (se viene acquistato il prodotto P1 , allora viene acquistato anche il prodotto P2 ), `e pari a 6/12 = 0,5, in quanto la coppia di prodotti {P1 , P2 } `e presente nelle sei transazioni tr(A), tr(B), tr(F ), tr(G), tr(I), tr(M ). Conﬁdenza La conﬁdenza di una regola associativa esprime la probabilit` a che l’itemset conseguente Iβ di una regola si veriﬁchi, sapendo che si `e veriﬁcato l’itemset antecedente Iα all’interno della medesima transazione. La conﬁdenza si esprime attraverso il rapporto fra: • il numero di transazioni in cui i due itemset Iα e Iβ sono contemporaneamente presenti: K(Iα ∪ Iβ ); • il numero di transazioni in cui `e presente l’itemset antecedente Iα : K(Iα ) (indipendentemente dalla presenza o assenza del conseguente Iβ ); CONF(Iα → Iβ ) = prob(Iβ |Iα ) =

K(Iα ∪ Iβ ) . K(Iα )

Una regola associativa [R]: {Iα → Iβ } `e statisticamente signiﬁcativa in quanto rapportata a tutte le transazioni in cui `e presente l’antecedente; se la contemporanea presenza di antecedente e conseguente `e frequente in transazioni contenenti l’antecedente, allora il valore della conﬁdenza della regola aumenta, rappresentando una proxy della probabilit` a di occorrenza futura di tale regola R in transazioni contenenti il paniere di prodotti associati all’itemset antecedente. Se il supporto di una regola associativa serve a valutarne la rilevanza statistica, la conﬁdenza rappresenta una misura della signiﬁcativit` a statistica dell’implicazione logica che lega antecedente e conseguente.

8.1 Regole associative

277

La conﬁdenza rappresenta un parametro discriminante per la selezione delle regole associative; esso `e di tipo asimmetrico, a diﬀerenza della simmetria del supporto per itemset e regole associative: CONF (Iα → Iβ ) = prob (Iβ |Iα ) = CONF (Iβ → Iα ) = prob (Iα |Iβ ) . Si possono ﬁltrare le regole non signiﬁcative, attraverso la deﬁnizione di un valore di soglia per la conﬁdenza (minimum threshold conﬁdence) CONFmin : soltanto le regole R aventi conﬁdenza CONF (R) superiore al valore minimo vengono selezionate per la successiva analisi da parte dei demand planner nelle fasi di Demand Intelligence, al ﬁne di valutare qualitativamente se tali regole siano non banali e giustiﬁcabili. Con riferimento alla tabella 8.2, la conﬁdenza della regola [R1 ]: {P1 → P2 } `e pari a 6/8 = 0,75, in quanto: • la coppia di prodotti {P1 , P2 } `e presente nelle sei transazioni tr(A), tr(B), tr(F ), tr(G), tr(I), tr(M ); • il singolo prodotto {P1 } `e presente nelle otto transazioni tr(A), tr(B), tr(C), tr(E), tr(F ), tr(G), tr(I), tr(M ). La conﬁdenza della regola opposta [R2 ]: {P2 → P1 } `e invece superiore, pari a 6/7 = 0,857, in quanto: • la coppia di prodotti {P1 , P2 } `e presente nelle sei transazioni tr(A), tr(B), tr(F ), tr(G), tr(I), tr(M )); • il singolo prodotto {P2 } `e presente nelle sette transazioni tr(A), tr(B), tr(F ), tr(G), tr(H), tr(I), tr(M ). Importanza L’importanza di una regola associativa [R]: {Iα → Iβ } `e deﬁnita dal rapporto fra: • la conﬁdenza della regola: CONF(Iα → Iβ ); • il supporto dell’itemset conseguente Iβ all’interno del dataset: SUPP(Iβ ). In formule, l’importanza (lift, score) di una regola `e data da: IMP (Iα → Iβ ) =

CONF (Iα → Iβ ) K(Iα ∪ Iβ ) . = K(I ) SUPP (Iβ ) K(Iα ) · mβ

Il valore dell’importanza di una regola pu` o essere: • superiore all’unit` a, se CONF (Iα → Iβ ) > SUPP(Iβ ); • inferiore all’unit` a, se CONF (Iα → Iβ ) < SUPP(Iβ ). Nel primo caso, esiste correlazione positiva fra antecedente e conseguente della regola [R]: {Iα → Iβ }: la regola R `e maggiormente esplicativa rispetto al solo conseguente, nel senso che tale regola esprime pi` u eﬃcacemente la probabilit` a che il conseguente Iβ sia contenuto in una generica transazione, rispetto alla semplice frequenza di occorrenza di Iβ deﬁnita dal termine K(Iβ ).

278

8 Demand Intelligence: regole associative

Viceversa, se l’importanza della regola [R]: {Iα → Iβ } risulta inferiore ad 1, tale regola non dev’essere considerata come statisticamente attendibile, in quanto `e meno eﬃcace nel prevedere la probabilit` a che il conseguente Iβ sia contenuto in una transazione futura, rispetto alla frequenza relativa del solo conseguente3 . Esempio Un esempio pu` o aiutare a comprendere il concetto di importanza o lift di una regola. Si consideri un itemset contenente 2000 transazioni di vendita, in cui `e presente anche il prodotto P , all’interno di 1700 transazioni. Per ciascuna transazione, `e nota la citt` a di residenza del cliente. Dall’analisi del dataset di dimensione m = 2000, contenente rilevazioni eﬀettuate presso i punti vendita di una catena commerciale presente unicamente nelle citt`a della Lombardia, `e risultato che: • 800 clienti sono residenti a Milano; • 600 clienti residenti a Milano hanno acquistato il prodotto P . La regola associativa [R] = {cliente residente a Milano → compra il prodotto P} ha un supporto S1 = 600/2000 = 30% ed una conﬁdenza C = 600/800 = 75%, per ipotesi rispettivamente superiori ai valori soglia di supporto minimo e conﬁdenza minima preassegnati. Una siﬀatta regola verrebbe quindi selezionata come frequente e statisticamente signiﬁcativa da un algoritmo di ricerca delle regole associative. Tuttavia, `e anche possibile osservare che il solo prodotto P `e presente in una percentuale di transazioni pari al supporto S2 = 1700/2000 = 85%, quindi `e un prodotto assai frequentemente richiesto, indipendentemente da ragioni “antecedenti” legate alla provenienza geograﬁca dei clienti. L’importanza della regola [R] `e data da I = 0,75/0,85 = 0,882, inferiore al valore unitario. Tale regola `e dunque fuorviante, perch´e sembra suggerire, se analizzata in modo isolato ed avulso dal contesto, che il prodotto P `e pi` u frequentemente acquistato dai clienti residenti a Milano; in realt` a, una percentuale superiore di clienti, calcolata su tutta la regione Lombardia, acquista il prodotto P , a prescindere dalla localit` a di residenza. 8.1.4 Principio Apriori Le regole associative vengono estratte dai dataset di grandi dimensioni memorizzati nei sistemi analitici di database multidimensionali. Aﬃnch´e una regola risulti utile per le analisi di Demand Intelligence e per la deﬁnizione dei piani di Marketing Intelligence, `e necessario che si veriﬁchino tre condizioni: • il supporto degli itemset presenti nell’antecedente e nel conseguente della regola siano superiori ad un valore soglia SUPP min , in modo da risultare presenti in un campione statisticamente signiﬁcativo nelle m transazioni del dataset; 3

Una deﬁnizione alternativa di importanza di una regola `e data dalla diﬀerenza fra la conﬁdenza della regola ed il supporto dell’itemset conseguente. In questo caso, la regola `e maggiormente esplicativa rispetto al solo conseguente se la sua importanza ` e maggiore di zero.

8.1 Regole associative

279

• la conﬁdenza della regola sia superiore ad un valore soglia CONF min , in modo da garantire, con una probabilit` a minima, l’attendibilit` a statistica della regola nelle transazioni esaminate; • l’importanza della regola sia superiore ad 1, cos`ı da garantirne l’eﬀettivo potere esplicativo, rispetto alla sola presenza del conseguente nelle transazioni. Una regola R che soddisfa almeno le condizioni di supporto minimo e conﬁdenza minima si dice regola associativa forte. Le regole associative coinvolgono itemset di diverse dimensioni, dagli 1-itemset agli N -itemset, essendo N il massimo numero di oggetti distinti. Il numero di possibili regole associative estraibili da un insieme di N oggetti cresce esponenzialmente con la dimensione dell’insieme stesso; questa evidenza rende problematica, sotto il proﬁlo del calcolo computazionale, la generazione esplicita, enumerativa ed esaustiva di tutte le possibili regole associative, pur in presenza di vincoli di supporto e conﬁdenza minimi, come in precedenza descritto. Risulta intuitivo osservare che le regole forti sono composte da itemset frequenti, sia nella proposizione antecedente, sia nella conseguente, nella struttura delle regole. Il seguente enunciato `e determinante per generare in modo computazionalmente eﬃciente itemset frequenti, aventi cio`e supporto superiore alla soglia minima SUPP min . Principio Apriori. Se un k-itemset `e frequente, allora qualsiasi suo sottoinsieme (w-itemset, con w < k) `e, a sua volta, frequente. Il principio Apriori deﬁnisce un criterio di valutazione degli itemset frequenti: se un insieme di cardinalit` a k ha un supporto superiore alla soglia minima SUPPmin , ne consegue che tutti gli itemset di cardinalit` a inferiore, estraibili dal k-itemset frequente, hanno implicitamente garantito il rispetto del vincolo di supporto minimo. Se invece un k-itemset non `e frequente, nulla si pu` o inferire circa la frequenza degli itemset di cardinalit` a inferiore da esso generabili. Dato un insieme di N prodotti a catalogo, `e possibile creare un numero massimo di itemset pari a 2N − 1, crescente esponenzialmente con il numero di oggetti. Dato, ad esempio, il 4-itemset {P1 , P2, P3 , P4 } associato alla transazione tr(B) presente in tabella 8.2, da esso si possono estrarre 14 = (24 − 2) itemset di cardinalit` a inferiore: • quattro 3-itemset: {P1 , P2 , P3 }; {P1 , P3 , P4 }; {P2 , P3, P4 }; {P1 , P2 , P4 }; • sei 2-itemset: {P1 , P2 }; {P1 , P3}; {P1 , P4}; {P2 , P3 }; {P2 , P4 }; {P3 , P4 }; • quattro 1-itemset: {P1 }; {P2 }; {P3 }; {P4 }. Se il principio Apriori garantisce la relazione logica k-itemset I `e frequente → qualsiasi w-itemset, contenuto in I, `e frequente, `e possibile invertire tale relazione, negando antecedente e conseguente, formulando la seguente: w-itemset I `e non frequente → qualsiasi k-itemset, contenente I, `e non frequente.

280

8 Demand Intelligence: regole associative

Dato un itemset Iw non frequente di cardinalit` a w, qualsiasi k-itemset Ik ottenibile da Iw , aggiungendo elementi a quelli presenti in Iw (k > w), `e non frequente, in quanto: SUPP (Ik ) =

K(Ik ) K(Iw ) < SUPP (Iw ) = < SUPPmin . m m

Ci`o `e conseguenza dell’evidenza empirica: la probabilit` a di trovare, nelle m transazioni contenute in un dataset, un itemset di cardinalit` a k > w `e inferiore o uguale alla probabilit` a di trovare un w-itemset di dimensione inferiore a k. L’algoritmo derivato dal principio Apriori, illustrato nei due paragraﬁ seguenti, permette di eliminare automaticamente, “a priori”, tutti gli itemset di cardinalit` a superiore a quella di ciascun itemset non frequente, senza doverli esplicitamente generare e senza doverne calcolare il supporto. L’algoritmo Apriori, proposto da Agrawal e Srikant nel 1994, rappresenta una tecnica molto eﬃciente, dal punto di vista elaborativo, per la generazione di regole associative forti. Esso `e composto da due fasi, strettamente sequenziali: 1. fase 1 : generazione degli itemset frequenti; 2. fase 2 : generazione delle regole associative forti. Alle due fasi dell’algoritmo `e possibile aggiungere la veriﬁca di importanza delle regole forti generate dagli itemset frequenti, secondo lo schema riportato in ﬁgura 8.1.

supporto minimo

FASE 1 GENERAZIONE ITEMSET FREQUENTI

itemset frequenti

datawarehouse (transazioni)

FASE 2 ESTRAZIONE REGOLE FORTI

confidenza minima

regole forti

importanza maggiore di 1

FASE 3 VERIFICA IMPORTANZA REGOLE FORTI

datamart (Marketing Intelligence) regole forti significative

Figura 8.1. Algoritmo Apriori (fasi 1 e 2) e veriﬁca di importanza (fase 3)

8.1 Regole associative

281

8.1.5 Algoritmo Apriori: generazione degli itemset frequenti La fase 1 dell’algoritmo Apriori si occupa della generazione di tutti gli itemset frequenti da un insieme di m transazioni contenenti al massimo N prodotti, cio`e dei k-itemset, k = 1, . . . , N , il cui supporto `e superiore alla soglia minima SUPPmin , deﬁnita in fase di parametrizzazione dell’algoritmo. A partire da tutti gli 1-itemset (i singoli prodotti del catalogo) estraibili dalle m transazioni nel dataset, l’algoritmo calcola per ciascuno il supporto e lo confronta con il supporto minimo, eliminando gli itemset unitari non frequenti. A fronte dei soli 1-itemset frequenti, l’algoritmo genera, sulla base del principio Apriori, tutti i possibili 2-itemset derivabili da ciascun 1-itemset; per ciascuno di essi viene calcolato il supporto. I 2-itemset non frequenti vengono eliminati; da quelli frequenti di cardinalit` a 2, si procede quindi alla generazione ed alla valutazione dei 3-itemset frequenti. Si prosegue in modo iterativo, arrestandosi non appena si giunge alla k-esima iterazione, in corrispondenza della quale tutti i kitemset generati dai (k − 1)-itemset frequenti risultano non frequenti4 . Dal punto di vista teorico, qualora l’intero insieme di N prodotti formasse un N -itemset frequente, l’algoritmo Apriori verrebbe eseguito per un numero totale di N + 1 step: durante lo step N , viene generato il N -itemset; durante lo step N + 1 l’algoritmo termina, perch´e non esistono pi` u elementi selezionabili dal paniere, per formare un (N + 1)-itemset. La ﬁgura 8.2 mostra lo schema a blocchi per la fase 1 dell’algoritmo Apriori. LF e LNF rappresentano, rispettivamente, le liste temporanee di inserimento di k-itemset frequenti e non frequenti. Esempio Con riferimento all’esempio numerico in tabella 8.1, sia SUPPmin = 30%. Viene dapprima calcolata la frequenza degli 1-itemset, riportata in tabella 8.3, al primo step della fase 1 dell’algoritmo Apriori. Tabella 8.3. Supporto degli 1-itemset 1-itemset {P1 } {P2 } {P3 } {P4 } {P5 } {P6 } {P7 } {P8 } 4

supporto 1-itemset 8/12 = 67% 8/12 = 67% 7/12 = 58% 5/12 = 42% 3/12 = 25% 3/12 = 25% 1/12 = 8% 6/12 = 50%

supporto minimo frequente frequente frequente frequente non frequente non frequente non frequente frequente

In tale circostanza, non si procede ulteriormente alla generazione dei (k + 1)-itemset, secondo quanto espresso dal principio Apriori.

282

8 Demand Intelligence: regole associative START

k=1

Generazione di tutti i k-itemset (costruzione lista L(k) da lista LF(k-1))

NO

k = N+1 ?

k = k+1

Selezionare il prossimo k-itemset dalla lista L(k)

NO SI Lista L(k) vuota?

SI SI

Lista LF(k) vuota?

END

NO

SUPP(k) > SUPPmin

SI Inserire il k-itemset frequente nella lista LF(k)

NO Eliminare il k-itemset non frequente (inserire nella lista LNF(k))

Figura 8.2. Schema a blocchi dell’algoritmo Apriori – fase 1

Gli 1-itemset relativi ai prodotti P5 , P6 , P7 vengono eliminati, perch´e non frequenti. Al secondo step, vengono generati i 2-itemset, derivanti dall’unione dei soli 1itemset frequenti. Anche per i 2-itemset, viene calcolato il supporto, confrontato con il valore minimo. I risultati sono riportati in tabella 8.4. I soli 2-itemset frequenti sono {P1 , P2}, {P1 , P3 }, {P1 , P8 }, {P2 , P3 }. I 3-itemset estraibili da questi quattro 2-itemset sono riportati in tabella 8.5, con i relativi supporti. Per il principio Apriori, il 3-itemset {P2 , P4 , P8 } non `e stato generato, in quanto contiene il 2-itemset {P2 , P4}, non frequente. Il solo 3-itemset {P1 , P2, P3 } risulta essere frequente, poich`e il suo supporto, pari al 33%, `e superiore al supporto minimo SUPPmin = 30%. Da esso non sono generabili ulteriori itemset di dimensione 4, quindi la fase 1 dell’algoritmo Apriori termina. Ad esempio, il principio Apriori garantisce che: • il 4-itemset {P1 , P2, P3 , P4 } `e non frequente, perch´e contiene il 2-itemset {P1 , P4 }, non frequente e di dimensione inferiore; • il 4-itemset {P1 , P2, P3 , P8 } `e non frequente, perch´e contiene il 3-itemset {P1 , P2 , P8}, non frequente e di dimensione inferiore.

8.1 Regole associative

283

Tabella 8.4. Supporto dei 2-itemset 2-itemset

supporto 2-itemset

supporto minimo

{P1 , P2 } {P1 , P3 } {P1 , P4 } {P1 , P8 } {P2 , P3 } {P2 , P4 } {P2 , P8 } {P3 , P4 } {P3 , P8 } {P4 , P8 }

6/12 4/12 3/12 4/12 5/12 1/12 3/12 3/12 1/12 2/12

frequente frequente non frequente frequente frequente non frequente non frequente non frequente non frequente non frequente

= = = = = = = = = =

50% 33% 25% 33% 42% 8% 25% 25% 8% 17%

Tabella 8.5. Supporto dei 3-itemset 3-itemset {P1 , P2 , P3 } {P1 , P2 , P8 } {P1 , P3 , P8 } {P2 , P3 , P8 }

supporto 3-itemset 4/12 = 33% 3/12 = 25% 1/12 = 8% 1/12 = 8%

supporto minimo frequente non frequente non frequente non frequente

Tabella 8.6. k-itemset frequenti k-itemset {P1} {P2} {P3} {P4} {P8} {P1, P2 } {P1, P3 } {P1, P8 } {P2, P3 } {P1, P2 , P3 }

supporto k-itemset 8/12 = 67% 8/12 = 67% 7/12 = 58% 5/12 = 42% 6/12 = 50% 6/12 = 50% 4/12 = 33% 4/12 = 33% 5/12 = 42% 4/12 = 33%

supporto minimo frequente frequente frequente frequente frequente frequente frequente frequente frequente frequente

La tabella 8.6 elenca tutti gli itemset frequenti trovati al termine della fase 1. I 10 itemset frequenti generati a valle della fase 1 (5 itemset di dimensione 1, 4 itemset di dimensione 2, un itemset di dimensione 3) rappresentano l’input per la successiva fase 2 dell’algoritmo, insieme con le m = 12 transazioni del dataset di riferimento.

284

8 Demand Intelligence: regole associative

8.1.6 Algoritmo Apriori: generazione delle regole associative forti La fase 2 dell’algoritmo Apriori ha l’obiettivo di generare le regole associative forti, partendo dagli itemset frequenti determinati durante la fase 1, aventi dimensione k > 1, preventivamente inseriti in una lista L. Per ciascun k-itemset frequente, si procede alla generazione di tutte le possibili regole da esso estraibili, mediante combinazioni di oggetti (prodotti) che compongono l’antecedente ed il conseguente della regola. Ad esempio, dal 2-itemset {P1 , P2} si possono estrarre due regole: {P1 = 1} → {P2 = 1} ;

{P2 = 1} → {P1 = 1} .

Per ciascuna regola generata, i due itemset che compongono antecedente e conseguente sono frequenti (ad esempio, i due 1-itemset {P1 } e {P2 }), cos`ı come l’itemset che si ottiene dall’unione degli elementi di antecedente e conseguente (il 2-itemset {P1 , P2}). La fase 2 dell’algoritmo Apriori calcola la conﬁdenza per ciascuna regola associativa generata; solo le regole che soddisfano la condizione di conﬁdenza minima CONFmin vengono selezionate, inserite nella lista delle regole forti. La ﬁgura 8.3 illustra lo schema a blocchi della fase 2 dell’algoritmo Apriori. Le liste LRF (k) e LRNF (k) includono rispettivamente le regole forti e le regole deboli. Esempio Con riferimento all’esempio numerico in tabella 8.1, sia CONF min = 70%. La tabella 8.7 mostra: • nella prima colonna, tutte le regole generabili dai 10 itemset frequenti presenti nella tabella 8.6; • nella seconda colonna, la conﬁdenza calcolata per ciascuna regola; • nella terza colonna, il confronto con il valore soglia di conﬁdenza minima. Al termine dell’esecuzione della fase 2, le regole forti generate sono sette, evidenziate in tabella 8.7. Ad esempio, dal 3-itemset {P1 , P2, P3 } sono estraibili le sei regole visibili in corrispondenza delle ultime sei righe della tabella 8.7, delle quali soltanto due sono risultate forti. Ad esempio, il calcolo della conﬁdenza della regola {P2 = 1 ∩ P3 = 1} → {P1 = 1} `e stato eseguito nel modo seguente: CONF ({P2 = 1 ∩ P3 = 1} → {P1 = 1}) =

K(P1 ∪ P2 ∪ P3 ) 4 = = 0,8 . K(P2 ∪ P3 ) 5

Va sottolineato il fatto che le regole forti estratte dall’algoritmo Apriori devono essere analizzate dal punto di vista qualitativo, cio`e devono essere giustiﬁcate. Dall’esempio numerico, si osserva infatti che le due regole forti {P2 = 1} → {P3 = 1}

e

{P3 = 1} → {P2 = 1}

8.1 Regole associative

285

START

Selezionare il prossimo k-itemset frequente dalla lista L (k > 1)

SI Lista L vuota?

END

NO Generare tutte le regole estraibili dal k-itemset corrente (costruzione lista R(k))

Selezionare la prossima regola R dalla lista R(k)

CONF(k) > CONFmin

SI

NO

Inserire la regola R nella lista LRF(k)

Inserire la regola R nella lista LRNF(k)

SI

NO Lista R(k) vuota?

Figura 8.3. Schema a blocchi dell’algoritmo Apriori – fase 2

hanno la stessa conﬁdenza (72%), ma potrebbero essere fra loro in contraddizione: • se i due prodotti P2 e P3 sono realmente in forte correlazione fra loro, allora godono di una relazione perfettamente simmetrica: l’acquisto dell’uno induce all’acquisto dell’altro e viceversa; • altrimenti, una delle due regole `e falsa e pu` o portare alla generazione di errate decisioni nella fase di Marketing Intelligence.

286

8 Demand Intelligence: regole associative Tabella 8.7. Calcolo della conﬁdenza per le regole generate in fase 1 regola [R1 ] [R2 ] [R3 ] [R4 ] [R5 ] [R6 ] [R7 ] [R8 ] [R9 ] [R10 ] [R11 ] [R12 ] [R13 ] [R14 ]

{P1 {P2 {P1 {P3 {P1 {P8 {P2 {P3 {P1 {P2 {P2 {P1 {P3 {P1

= 1} → {P2 = 1} = 1} → {P1 = 1} = 1} → {P3 = 1} = 1} → {P1 = 1} = 1} → {P8 = 1} = 1} → {P1 = 1} = 1} → {P3 = 1} = 1} → {P2 = 1} = 1} → {P2 = 1 ∩ P3 = 1 ∩ P3 = 1} → {P1 = 1} → {P1 = 1 ∩ P3 = 1 ∩ P3 = 1} → {P2 = 1} → {P1 = 1 ∩ P2 = 1 ∩ P2 = 1} → {P3

= 1} = 1} = 1} = 1} = 1} = 1}

conﬁdenza regola 6/8 = 75% 6/7 = 86% 5/8 = 63% 5/7 = 72% 4/8 = 50% 4/6 = 67% 5/7 = 72% 5/7 = 72% 4/8 = 50% 4/5 = 80% 4/7 = 42% 4/5 = 80% 4/7 = 57% 4/6 = 67%

conﬁdenza minima forte forte debole forte debole debole forte forte debole forte debole forte debole debole

Qualora esistano coppie di regole forti simmetriche (ad esempio: {P1 = 1} → {P2 = 1} e {P2 = 1} → {P1 = 1}), `e opportuno scegliere solamente la regola a conﬁdenza maggiore, a patto di essere poi in grado di giustiﬁcarla qualitativamente. 8.1.7 Valutazione dell’importanza delle regole forti Al termine della fase 2 dell’algoritmo Apriori, risulta opportuno veriﬁcare che le regole associative forti abbiano valore di importanza superiore ad 1, al ﬁne di poterle considerare maggiormente esplicative rispetto alla sola presenza del conseguente, all’interno del dataset contenente le transazioni di vendita. Per le sole regole forti estratte dalla fase 2 dell’algoritmo Apriori viene calcolata l’importanza, mostrando i risultati del calcolo in tabella 8.8. Dall’analisi di tale tabella, si evince che tutte le sette regole forti precedentemente generate sono anche signiﬁcative, avendo tutte lift superiore a 1. A titolo di esempio, l’importanza della regola {P2 = 1 ∩ P3 = 1} → {P1 = 1} `e stata calcolata nel modo seguente: IMP ({P2 = 1 ∩ P3 = 1} → {P1 = 1}) = =

CONF ({P2 = 1 ∩ P3 = 1} → {P1 = 1}) = SUPP ({P1 = 1}) =

4 K(P1 ∪ P2 ∪ P3 ) = = 1,20 . 8 K(P1 ) 5· K(P2 ∪ P3 ) · 12 m

8.1 Regole associative

287

Tabella 8.8. Calcolo dell’importanza per le regole forti generate in fase 2 regola

conﬁdenza regola

importanza regola

[R1 ]

{P1 = 1} → {P2 = 1}

6/8 = 75%

[R2 ]

{P2 = 1} → {P1 = 1}

6/7 = 86%

[R4 ]

{P3 = 1} → {P1 = 1}

5/7 = 72%

[R7 ]

{P2 = 1} → {P3 = 1}

5/7 = 72%

[R8 ]

{P3 = 1} → {P2 = 1}

5/7 = 72%

[R10 ]

{P2 = 1 ∩ P3 = 1} → {P1 = 1}

4/5 = 80%

[R12 ]

{P1 = 1 ∩ P3 = 1} → {P2 = 1}

4/5 = 80%

(6/8) / (7/12) = 1,28 (6/7) / (8/12) = 1,28 (5/7) / (8/12) = 1,07 (5/7) / (7/12) = 1,22 (5/7) / (7/12) = 1,22 (4/5) / (8/12) = 1,20 (4/5) / (7/12) = 1,37

8.1.8 Parametrizzazione L’algoritmo Apriori pu` o essere specializzato in molteplici modi, fornendo in ingresso un opportuno set di parametri. Avendo gi` a discusso i parametri fondamentali supporto minimo, conﬁdenza minima e valutazione di importanza (parametro di tipo on/oﬀ ), in questo paragrafo si illustrano ulteriori parametri di input. Supporto massimo. Il supporto massimo SUPP max (parametro 1) pu` o essere utilizzato come upper bound per ﬁltrare itemset troppo frequenti, all’interno dei quali regole associative forti risultano essere di palese evidenza. Importanza minima. L’importanza minima IMP min (parametro 2) serve per ﬁltrare regole la cui importanza `e poco superiore al valore unitario, al ﬁne di discriminare marcatamente regole non suﬃcientemente signiﬁcative. Dimensione minima/massima. La dimensione minima Dmin e massima D max (parametri 3 e 4) degli itemset dai quali si vogliono estrarre regole associative serve, da un lato (dimensione massima), a contenere i tempi di elaborazione dell’algoritmo Apriori, dall’altro (dimensione minima), a ﬁltrare regole associative con pochi prodotti distribuiti fra antecedente e conseguente, essendo prevedibilmente tali regole piuttosto semplici ed intuitive: in questo caso, gli analisti di Demand Intelligence sono interessati allo studio delle correlazioni fra panieri numerosi di prodotti (o famiglie), piuttosto che fra singoli item. La presenza del parametro dimensione minima come lower bound non porta alcuna riduzione ai tempi di calcolo dell’algoritmo Apriori, in quanto gli itemset vengono sempre generati a partire dagli 1-itemset, incrementando progressivamente la dimensione k, in accordo al principio Apriori.

288

8 Demand Intelligence: regole associative

Massimo numero di itemset. Il massimo numero di itemset generabili Nmax (parametro 5) limita i tempi di calcolo, in quanto permette di arrestare il processo di generazione degli itemset frequenti durante la fase 1 dell’algoritmo Apriori. In alternativa, tale parametro pu` o essere inteso come numero massimo di itemset frequenti candidati all’estrazione di regole associative forti: dato un insieme di m transazioni ed un insieme di N prodotti a catalogo, supponendo di aver generato N ∗ > Nmax itemset frequenti, i primi Nmax itemset aventi supporto maggiore vengono selezionati per la generazione delle regole, i restanti N ∗ − Nmax vengono rimossi, in quanto meno promettenti ai ﬁni della scoperta di regole interessanti. ´ inoltre possibile settare taluni algoritmi commerciali Regole contraddittorie. E presenti nei software di Data Mining, facendo in modo che le regole contraddittorie (pur soddisfacenti i requisiti di supporto, conﬁdenza ed importanza minimi) siano isolate, per speciﬁche analisi qualitative da parte degli analisti di Demand Intelligence. Due casi si possono veriﬁcare in tal senso: 1. regole associative forti aventi lo stesso antecedente e diﬀerenti conseguenti; 2. regole associative forti scambiantesi antecedente e conseguente. Nel primo caso, particolarmente critica `e la presenza di regole associative con attributi categorici nel conseguente. Ad esempio, le due regole a superiore a 30 anni} [R1]{se acquista P1 , P2 , P3 congiuntamente} → {et` [R2 ]{se acquista P1 , P2 , P3 congiuntamente} → {et` a inferiore a 30 anni} sono evidentemente contraddittorie5 . Il secondo caso riguarda relazioni di acquisto congiunto di gruppi di prodotti, appartenenti a regole con antecedenti e conseguenti scambiati. Ad esempio, le due regole: a superiore a 30 anni}; p1 = 65% [R3]{se acquista P1 , P2 , P3 insieme} → {et` [R4 ]{se et` a inferiore a 30 anni} → {acquista P1 , P2 , P3 insieme}; p2 = 45% possono risultare contraddittorie, ma solo in apparenza. Un metodo semplice per eliminare contraddizioni nell’esplicabilit` a delle regole consiste nell’incrementare il parametro relativo alla conﬁdenza minima. 8.1.9 Rappresentazione dei risultati La ﬁgura 8.4 presenta una visione d’insieme riepilogativa per l’esempio numerico di applicazione dell’algoritmo Apriori per la generazione di regole associative, basato sulle m = 12 transazioni presenti in tabella 8.1. 5

` utile ricordare che l’attributo {et` E a } viene modellizzato, ai ﬁni del trattamento dei dati nell’algoritmo Apriori, nel modo seguente: le et` a anagraﬁche vengono dapprima u di 60, F3 : compresa fra discretizzate in fasce di appartenenza (F1 : meno di 30, F2 : pi` 30 e 60); per ciascuna fascia viene quindi generata una coppia di attributi numerici booleani (ad esempio: meno di 30 = {0,1}; piu di 30 = {0,1}) che vanno a formare l’insieme di “oggetti” presenti nelle transazioni e negli itemset.

8.1 Regole associative

transazione cliente tr(A) C1 tr(B) tr(C)

C2 C3

tr(D)

C4

tr(E)

C1

tr(F) tr(G)

C2 C5

tr(H)

C3

tr(I)

C6

tr(L)

C4

tr(M) tr(N)

C2 C2

itemset

{P1 , P2 , P3 } {P1 , P2 , P3 , P4 } {P1 , P4 , P5 , P8 } {P6 , P7 , P8 } {P1 , P3 , P4 , P5 , P6 } {P1 , P2 , P3 , P8 } {P1 , P2 , P8 } {P2 , P3 } {P1 , P2 , P3 } {P3 , P4 , P5 , P6 } {P1 , P2 , P8 } {P4 , P8 }

ESTRAZIONE REGOLE FORTI

regola

289

{P1 = 1} → {P2 = 1} {P2 = 1} → {P1 = 1} {P3 = 1} → {P1 = 1} {P2 = 1} → {P3 = 1} {P3 = 1} → {P2 = 1} {P2 = 1 ∩ P3 = 1} → {P1 = 1} {P1 = 1 ∩ P3 = 1} → {P2 = 1}

GENERAZIONE ITEMSET FREQUENTI

k-itemset

{P1 } {P2 } {P3 } {P4 } {P8 } {P1 , P2 } {P1 , P3 } {P1 , P8 } {P2 , P3 } {P1 , P2 ,P3 }

supporto k-itemset 8/12 = 67% 8/12 = 67% 7/12 = 58% 5/12 = 42% 6/12 = 50% 6/12 = 50% 4/12 = 33% 4/12 = 33% 5/12 = 42% 4/12 = 33%

confidenza 6/8 = 75% 6/7 = 86% 5/7 = 72%

importanza (6/8) / (7/12) = 1,28 (6/7) / (8/12) = 1,28 (5/7) / (8/12) = 1,07

5/7 = 72%

(5/7) / (7/12) = 1,22

5/7 = 72%

(5/7) / (7/12) = 1,22

4/5 = 80% 4/5 = 80%

(4/5) / (8/12) = 1,20 (4/5) / (7/12) = 1,37

Figura 8.4. Sintesi delle fasi dell’algoritmo Apriori (esempio numerico)

L’output generato dall’algoritmo Apriori, consistente nelle regole associative forti estratte dal dataset delle transazioni, pu`o essere analizzato secondo diverse prospettive di visualizzazione dei risultati: liste ordinate, alberi di densit` a, diagrammi di dipendenza. Liste ordinate. Gli itemset frequenti sono ordinabili secondo diversi criteri: • per dimensione crescente, imponendo eventualmente un ﬁltro che elimina gli itemset di dimensione inferiore ad una soglia minima; • per supporto decrescente, imponendo eventualmente un supporto minimo.

290

8 Demand Intelligence: regole associative

L’analista pu` o imporre ulteriori ﬁltri per selezionare soltanto itemset frequenti che contengano un certo prodotto o un sottoinsieme deﬁnito di prodotti. Le regole associative forti possono essere anch’esse ordinate secondo criteri: • per importanza decrescente; • per conﬁdenza decrescente; imponendo anche in questo caso ﬁltri di selezione con valori minimi dei parametri caratteristici delle regole. Condizioni di ﬁltro sul contenuto delle regole possono essere, ad esempio: • selezionare le regole forti contenenti un insieme di prodotti nell’antecedente o nel conseguente; • ordinare i prodotti per numero decrescente di presenze negli antecedenti. In quest’ultimo esempio, tale visualizzazione `e utile per identiﬁcare i prodotti che “guidano” maggiormente le vendite di altri, onde comprendere l’impatto derivante dall’eventuale riduzione delle loro vendite. Alberi di densit` a. Assegnato un set di parametri in input all’algoritmo Apriori (supporto, conﬁdenza ed importanza minimi), `e possibile rappresentare il corrispondente output attraverso un albero gerarchico formato da tre livelli: 1. primo livello: nodo unico indicante il modello ed il relativo set di parametri; 2. secondo livello: nodi rappresentanti gli itemset frequenti; 3. terzo livello: nodi rappresentanti le regole associative relative agli itemset. Da ciascun nodo itemset di secondo livello si origina una serie di nodi regola, in cui l’itemset frequente `e contenuto nell’antecedente o nel conseguente. La ﬁgura 8.5 fornisce un esempio di albero di densit` a, per l’esempio della tabella 8.16 . Per ciascun nodo itemset si calcola il numero di regole associative forti che da esso sono originate; rapportando tale valore al numero totale di regole generate dall’algoritmo Apriori, si ottiene una misura della densit` a di regole forti associate al singolo itemset. Ad esempio, la densit` a del 1-itemset {P1 } `e data da 5/7 = 0,72, essendo 5 il numero di regole che contengono tale itemset (singolarmente preso o contenuto in itemset di dimensione maggiore) nell’antecedente o nel conseguente, 7 il numero di regole forti ed importanti generate (tabella 8.8). Diagrammi di dipendenza. Un’ulteriore rappresentazione delle regole associative `e data dal diagramma di dipendenza: ciascun itemset `e rappresentato da un nodo; i diversi nodi itemset sono collegati da archi, rappresentanti le regole forti esistenti fra coppie di nodi; su ciascun arco `e riportato il valore della conﬁdenza della regola. La ﬁgura 8.6 mostra un esempio per il caso numerico riportato in tabella 8.1.

6

Per ragioni graﬁche, le regole contenenti gli 1-itemset {P2 } e {P3 } non sono state disegnate nella ﬁgura.

8.1 Regole associative

291

ALGORITMO APRIORI * SUPPORTO MINIMO * CONFIDENZA MINIMA * IMPORTANZA MINIMA

ITEMSET 1

ITEMSET 2

ITEMSET 3

ITEMSET 4

ITEMSET 5

{P1}

{P2}

{P3}

{P2;P3}

{P1;P3}

{P1 = 1} → {P2 = 1}

{P2 = 1 ∩ P3 = 1} → {P1 = 1}

{P1 = 1 ∩ P3 = 1} → {P2 = 1} {P3 = 1} → {P1 = 1}

{P1 = 1 ∩ P3 = 1} → {P2 = 1}

{P2 = 1} → {P1 = 1} {P2 = 1 ∩ P3 = 1} → {P1 = 1} Figura 8.5. Albero di densit` a (esempio numerico) ITEMSET 4

{P2;P3}

ITEMSET 1

{P1}

80%

ITEMSET 5 86%

75% 80%

{P1;P3}

ITEMSET 2

{P2} 72%

ITEMSET 3 72%

{P3}

Figura 8.6. Diagramma di dipendenza (esempio numerico)

8.1.10 Utilizzo predittivo delle regole associative Attraverso lo studio dei report relativi alle regole associative forti, `e possibile costruire algoritmi predittivi, al ﬁne di proporre a nuovi clienti l’acquisto congiunto di speciﬁci panieri di prodotti, sulla base delle indicazioni oﬀerte dai risultati dell’algoritmo Apriori applicato al dataset delle transazioni storiche, registrate negli ultimi mesi all’interno del datawarehouse. Nel seguito vengono proposti alcuni

292

8 Demand Intelligence: regole associative

esempi di applicazione delle regole associative a ﬁni previsionali, in relazione al contesto della market basket analysis. Diversiﬁcazione del mix di spesa (cross selling) Si vuole proporre ad un insieme di consumatori target attivi (segmento di mercato) un insieme di prodotti “aggiuntivi”, da acquistare cio`e in abbinamento ad un paniere di prodotti standard, tradizionalmente gradito al segmento di clienti analizzato. Facendo leva sui consumi abituali di clienti gi` a in portafoglio, si vuole stimolare in costoro l’acquisto di prodotti o servizi addizionali, in aggiunta ai prodotti pi` u frequentemente inclusi nel basket della spesa (azioni di cross selling). Il problema pu` o essere formulato in termini formali nel modo seguente: dato un itemset antecedente registrato frequentemente per i clienti di un certo segmento target, proporre il miglior itemset conseguente (o il miglior insieme di conseguenti), al ﬁne di massimizzare la probabilit` a che la campagna promozionale di acquisto addizionale risulti eﬃcace, cio`e induca eﬀettivamente i consumatori all’acquisto di ulteriori tipi di prodotti, inconsueti rispetto alle loro normali abitudini di spesa. ´ possibile costruire un semplice algoritmo per la previsione della migliore E campagna di marketing per gli acquisti congiunti. Assegnato un k-itemset ANT di cui si vuole predire il miglior conseguente CONS *: 1. selezionare tutte le regole associative che contengono l’itemset ANT come antecedente {ANT → CONS }; 2. [eventualmente selezionare regole che contengono un subset di dimensione w, contenuto nel k-itemset di partenza, qualora non esistano regole aventi tutti i k prodotti del k-itemset nell’antecedente ANT ]; 3. ordinare le regole associative identiﬁcate al passo precedente secondo due criteri di sorting alternativi: a. conﬁdenza decrescente; b. valori decrescenti del prodotto fra conﬁdenza ed importanza; 4. selezionare la migliore regola identiﬁcata, oppure il miglior insieme di regole, cio`e tali per cui la rispettiva conﬁdenza `e superiore ad una soglia minima preassegnata CONF min . Esempio. Si supponga di voler suggerire ad un segmento di consumatori l’acquisto di un singolo prodotto in aggiunta al paniere formato dal 2-itemset {P1 , P2 }. Si vuole determinare il miglior 1-itemset da associare come conseguente all’antecedente {P1 , P2}, secondo una speciﬁca regola associativa di cui si vuole identiﬁcare la conﬁdenza. Dall’analisi delle transazioni contenute nella tabella 8.1, si osserva che i prodotti del paniere {P1 , P2 } sono stati in passato venduti insieme ai prodotti P3 , P4 , P8 . La tabella 8.3 evidenzia come questi tre prodotti siano frequenti nel dataset considerato, essendo il supporto minimo ﬁssato alla soglia del 30% nel caso in esame. La tabella 8.9 mostra il calcolo della conﬁdenza delle regole associative aventi come itemset antecedente il 2-itemset {P1 , P2 }.

8.1 Regole associative

293

Tabella 8.9. Calcolo della conﬁdenza (diversiﬁcazione del mix di spesa) regola

conﬁdenza regola

conﬁdenza minima (70%)

{P1 = 1 ∩ P2 = 1} → {P3 = 1} {P1 = 1 ∩ P2 = 1} → {P4 = 1} {P1 = 1 ∩ P2 = 1} → {P8 = 1}

4/6 = 67% 1/6 = 17% 3/6 = 50%

debole debole debole

Fra le tre regole associative deboli, l’algoritmo cross-selling, precedentemente enunciato, prevede la selezione della regola {P1 = 1 ∩ P2 = 1} → {P3 = 1}: il miglior prodotto suggeribile ai consumatori, in abbinamento al paniere {P1 , P2}, `e il prodotto P3 . Si osservi che non `e indispensabile il fatto che l’itemset antecedente sia frequente; esso potrebbe essere stato in precedenza scartato dall’algoritmo Apriori, settato su una soglia piuttosto elevata di supporto minimo. Lo scopo dell’analisi di marketing potrebbe essere, nel caso speciﬁco, quello di incentivare acquisti alternativi (diversiﬁcazione del mix di prodotti acquistati) per particolari segmenti di consumatori aventi: • bassa numerosit` a individuale; • elevato budget di spesa (almeno secondo quanto emerso dall’analisi del dataset delle transazioni commerciali passate); • regole di acquisto non frequenti ma standard e facilmente identiﬁcabili (elevata conﬁdenza), pur avendo basso supporto. In tal caso, l’algoritmo Apriori viene lanciato una seconda volta, avendo ridotto il livello minimo di supporto per la selezione degli itemset frequenti. Inoltre, non `e necessario che la migliore regola {ANT → CONS *} abbia conﬁdenza elevata o al di sopra della conﬁdenza minima normalmente impostata per l’algoritmo Apriori7 . In eﬀetti, nell’algoritmo per la progettazione della migliore campagna di marketing, non si fa riferimento alla presenza di regole forti : l’obiettivo `e proprio quello di trovare regole non frequenti, assegnato il k-itemset antecedente, al ﬁne di incrementare il volume complessivo di acquisto dei clienti. Proposta di acquisto (catene di regole associative) Si supponga che per un certo insieme di clienti si sia veriﬁcata una regola associativa forte, del tipo {PA = 1} → {PB = 1}, caratterizzata cio`e da un legame semplice fra i due 1-itemset dell’antecedente e del conseguente. Si vuole determinare un insieme di prodotti aggiuntivi da proporre a clienti, i cui comportamenti di acquisto rispecchiano, con elevata conﬁdenza, la regola {PA = 1} → {PB = 1}. ´ possibile costruire un semplice algoritmo che consente di associare catene di E regole associative forti, mediante relazioni di “input/output”, in cui il conseguente di una regola “input” coincide con l’antecedente di una regola “output”, secondo 7

Ci` o accade eﬀettivamente nell’esempio numerico proposto.

294

8 Demand Intelligence: regole associative

il seguente schema: ({PA = 1} → {PB = 1}) ⇒ ({PB = 1} → {PC = 1}) ⇒ ⇒ ({PC = 1} → {PD = 1}) ⇒ . . . . Ad esempio, disponendo di una catena elementare di due regole, [R1 ] e [R2 ], ad elevato valore di conﬁdenza, ({PA = 1} → {PB = 1}) ⇒ ({PB = 1} → {PC = 1}) , `e possibile suggerire ai clienti target caratterizzati dalla regola forte {PA = 1} → {PB = 1} l’ulteriore acquisto del prodotto PC : tale prodotto, risultato gradito a clienti caratterizzati dalla regola forte {PB = 1} → {PC = 1}, potrebbe anche risultare interessante per gli utenti target ai quali si intende rivolgere un’azione di marketing. L’algoritmo di costruzione di catene di regole associative forti `e schematizzabile mediante i seguenti passi. Assegnata una regola forte [R]: {PA = 1} → {PB = 1}, 1. selezionare tutte le regole forti che presentano nell’antecedente il prodotto (o i prodotti) conseguente nella regola [R]; 2. ordinare le regole trovate per conﬁdenza decrescente (o per valori decrescenti del prodotto fra conﬁdenza ed importanza); 3. selezionare la regola a conﬁdenza maggiore o le regole che hanno conﬁdenza superiore ad un assegnato valore minimo. L’insieme dei prodotti che si trovano nei conseguenti delle regole associative forti identiﬁcate formano il paniere di prodotti da proporre al cliente, al ﬁne di suggerire una mirata diversiﬁcazione dei consumi. A diﬀerenza del metodo relativo alla deﬁnizione del miglior conseguente, illustrato nella sezione precedente di questo paragrafo, in questo caso `e opportuno che le regole associative, legate tramite catene logiche, siano forti: aﬃnch`e la regola {PB = 1} → {PC = 1} sia proponibile ad un target di clienti, i cui consumi sono caratterizzati dalla regola {PA = 1} → {PB = 1}, `e necessario che esista un panel di clienti che acquistino frequentemente il prodotto PC in seguito al preventivo acquisto del prodotto PB . 8.1.11 Utilizzo analitico delle regole associative Le regole associative forti possono essere studiate, in fase di Marketing Intelligence, per determinare su quali panieri di prodotti le azioni promozionali sono pi` u promettenti, al ﬁne di incrementare le vendite complessive presso i punti vendita, oppure sostenere le vendite di prodotti a bassa redditivit` a per l’azienda produttrice e/o distributrice. L’analisi delle regole associative si focalizza su due possibili fronti: analisi dell’antecedente, analisi del conseguente.

8.1 Regole associative

295

Analisi dell’antecedente di una regola Una regola associativa forte, di tipo {P → Q}, esprime una correlazione logica fra le vendite dei prodotti P nell’itemset antecedente e le vendite indotte sui prodotti Q associati all’itemset conseguente. L’analisi dei prodotti appartenenti all’itemset antecedente permette di valutare: 1. l’eﬀetto di una riduzione o cessazione delle vendite di tali prodotti (valutazione di rimozione di un prodotto dal mercato); 2. gli abbinamenti spaziali di prodotti correlati (store layout planning). Nel primo caso, la dismissione dal mercato dei prodotti P appartenenti all’itemset antecedente porta ad un calo di vendite dei prodotti Q dell’itemset conseguente, le quali sono inﬂuenzate: • da tutte le regole che hanno i prodotti Q nel conseguente (quindi anche quelle aventi i prodotti P nell’antecedente); • dalle vendite indipendenti dei prodotti Q, non correlate alle vendite di altri prodotti. Le analisi di Marketing Intelligence portano alla determinazione dell’impatto quantitativo della riduzione delle vendite dei prodotti P sulle vendite dei prodotti Q. La riduzione indotta delle vendite dei prodotti Q induce, a sua volta, la riduzione delle vendite, peraltro di entit` a minore, di prodotti R, legati ai primi da regole di tipo {Q → R}. Nel secondo caso, la valutazione di una regola di tipo {P → Q} ad elevate conﬁdenza ed importanza consente di apportare miglioramenti nel layout spaziale del punto vendita, formato dai lineari degli scaﬀali, organizzati sulla superﬁcie disponibile dell’ediﬁcio. I prodotti di tipo Q possono essere opportunamente ricollocati nel layout del punto vendita, avvicinandoli ai prodotti di tipo P , correlati nelle preferenze di acquisto dei consumatori. Analisi del conseguente di una regola L’analisi del conseguente itemset Q di una regola forte di tipo {P → Q} permette di operare le seguenti valutazioni: 1. quali strategie di vendita permettono di incrementare le vendite dei prodotti appartenenti all’itemset Q, su quali prodotti nell’itemset antecedente P ; 2. quali promozioni su insiemi di prodotti possono essere progettate, al ﬁne di sostenere indirettamente le vendite di prodotti Q, generalmente basso-vendenti. L’analisi dei prodotti conseguenti Q delle regole forti permette, ad esempio, di deﬁnire su quale mix di prodotti, alto-vendenti e basso-vendenti, preparare depliant contenenti buoni sconto. La preparazione di oﬀerte regalo, attraverso l’inclusione di gruppi di prodotti venduti congiuntamente (oﬀ pack/on pack) in confezioni, costituisce un esempio di analisi delle modalit` a di incremento delle vendite di prodotti basso-vendenti appartenenti ai conseguenti di regole associative forti: mediante l’abbinamento dei prodotti Q basso-vendenti ai prodotti P alto-vendenti, anche i consumatori che acquistano i prodotti P senza applicare implicitamente la regola

296

8 Demand Intelligence: regole associative

di acquisto {P → Q} potranno essere indotti, in futuro, ad incrementare l’acquisto dei prodotti Q, recentemente valutati in quanto presenti in confezioni regalo, promozionate in occasione di particolari festivit` a o ricorrenze. Focalizzando l’analisi su un prodotto Q basso-vendente, `e possibile identiﬁcare il miglior prodotto P da oﬀrire congiuntamente a Q, determinando la regola associativa forte di tipo {P → Q}, caratterizzata dal valore maggiore di conﬁdenza. Lo studio degli itemset conseguenti per un insieme di regole associative aiuta i responsabili di Marketing e Vendite a valutare l’entit` a di eﬀetti di cannibalizzazione fra prodotti sostitutivi. Supponendo di aver rilevato le seguenti due regole associative forti per i quattro prodotti PA , PB , PC e PD : {PA = 1} → {PB = 1} ,

{PC = 1} → {PD = 1} ;

nell’ipotesi che i prodotti PB e PD siano negativamente correlati nelle vendite, cio`e siano percepiti come totalmente o parzialmente sostitutivi dai clienti, `e possibile studiare gli eﬀetti indotti da promozioni sui prodotti PA e PC (non correlati fra loro da regole associative) sulle vendite dei prodotti negli itemset conseguenti. Ad esempio, una promozione operata sul prodotto PA , con l’esclusivo intento di incrementare le vendite di tale prodotto, induce una riduzione delle vendite del prodotto “cannibalizzato” PD , pur non essendo presenti regole associative forti in grado di correlare le vendite dei due prodotti PA e PD .

8.2 Regole associative sequenziali 8.2.1 Market Basket Analysis e Clickstream Analysis Le regole associative presentate nella sezione 8.1 di questo capitolo si riferiscono all’analisi del contenuto della spesa dei clienti presso i punti vendita: una transazione di acquisto `e formata da un insieme di N prodotti (itemset di dimensione N ), contemporaneamente presenti all’interno del carrello della spesa, indipendentemente dall’eﬀettiva sequenza con cui tali item sono stati introdotti nel carrello da parte del cliente. Le regole associative tradizionali mostrano relazioni frequentemente ricorrenti negli item che compongono le transazioni commerciali, nell’ipotesi che tali transazioni: • siano statisticamente indipendenti l’una dall’altra; • pur essendo univocamente associabili a speciﬁci clienti, non siano temporalmente correlate. Le regole associative sequenziali identiﬁcano legami temporali fra gli item che compongono una singola transazione di vendita o un insieme di transazioni sequenziali operate dal medesimo cliente. Esse si propongono di individuare sequenze temporali di acquisto frequenti, legate cio`e da relazioni causa/eﬀetto dipendenti dal tempo. Con riferimento alle tematiche di Demand Planning, gli ambiti di applicazione delle regole sequenziali sono principalmente due:

8.2 Regole associative sequenziali

297

• market basket analysis: studio delle sequenze temporali di acquisto di uno stesso cliente, in seguito all’emissione di una successione di scontrini/fatture di pagamento; • clickstream analysis: studio delle sequenze temporali di pagine web visitate da un navigatore in Internet, all’interno del portale web commerciale di un’azienda di produzione o distribuzione. Nel caso della market basket analysis, `e possibile mettere a confronto diverse transazioni successive per uno stesso cliente, in ciascuna delle quali `e presente una lista di prodotti commercializzati dai punti vendita. La tabella 8.10 mostra un esempio di sequenze di transazioni commerciali: sono identiﬁcabili sei transazioni, relative a tre clienti (C1 , C2, C3 ) e a cinque prodotti (P1 , P2 , P3, P4 , P5 ). Le tre transazioni relative al cliente C1 (tr (1), tr (3), tr (5)) sono ordinate temporalmente; da esse si evince che il cliente C1 acquista sempre il prodotto P4 , mentre il prodotto P1 `e acquistato in modo irregolare. Nel caso dell’analisi dei percorsi web di navigazione su un sito di commercio on line, le transazioni sono date dagli accessi alle pagine web. La tabella 8.11 mostra esempi di sequenze di navigazione per due utenti diversi (C1 e C2 ). L’inizio della navigazione `e comune ai due percorsi (seq(1) e seq(2)), ed avviene a partire dalla pagina 1 (homepage). Una regola associativa sequenziale R pu` o essere espressa nella seguente forma: un cliente acquista un prodotto P, dopo avere acquistato un prodotto Q, con probabilit` a di occorrenza p: l’acquisto precedente del prodotto Q, avvenuto in un istante temporale tQ , rappresenta l’antecedente della regola sequenziale R; il successivo acquisto del prodotto P , in un futuro istante tP > tQ , ne rappresenta il conseguente. L’obiettivo insito nella generazione delle regole associative sequenziali `e duplice: da un lato, si vogliono studiare i percorsi temporali di acquisto pi` u frequenti da parte dei consumatori, univocamente identiﬁcati tramite carte fedelt` a, al ﬁne di proporre adeguate azioni di marketing (ﬁnalit` a analitica); dall’altro, l’analisi dei Tabella 8.10. Sequenza di transazioni commerciali cliente

identiﬁcativo transazione

prodotto acquistato

cliente

identiﬁcativo transazione

prodotto acquistato

C1 C1 C1 C1 C2 C2 C2 C1 C1

tr (1) tr (1) tr (1) tr (1) tr (2) tr (2) tr (2) tr (3) tr (3)

P1 P2 P3 P4 P1 P4 P5 P2 P4

C3 C3 C1 C1 C1 C2 C2 C2 C2

tr (4) tr (4) tr (5) tr (5) tr (5) tr (6) tr (6) tr (6) tr (6)

P1 P3 P1 P3 P4 P1 P2 P4 P5

298

8 Demand Intelligence: regole associative Tabella 8.11. Sequenza di navigazione in un sito web commerciale

cliente

progressivo sequenza

pagina visitata

cliente

progressivo sequenza

pagina visitata

C1 C1 C1 C1 C1 C1 C1 C1

seq(1) seq(2) seq(3) seq(4) seq(5) seq(6) seq(7) seq(8)

pagina pagina pagina pagina pagina pagina pagina pagina

C2 C2 C2 C2 C2 C2

seq(1) seq(2) seq(3) seq(4) seq(5) seq(6)

pagina pagina pagina pagina pagina pagina

1 2 3 2 4 5 1 3

1 2 5 6 1 3

pattern permette di formulare previsioni circa successivi acquisti di prodotti, localizzati su gruppi di clienti di cui sono noti i comportamenti temporali di acquisto (ﬁnalit` a predittiva). Come viene illustrato in modo formale nei successivi paragraﬁ di questa sezione, la determinazione delle regole associative sequenziali si svolge secondo le seguenti fasi sequenziali: 1. determinazione dei percorsi di acquisto, mediante scansione del dataset delle transazioni commerciali; 2. raggruppamento di clienti in gruppi internamente omogenei, sulla base di similarit` a nei percorsi temporali di acquisto (clustering probabilistico); 3. previsione dei futuri comportamenti di acquisto per clienti gi` a acquisiti o per nuovi clienti. A ciascun pattern di acquisto si associa un valore di probabilit` a di occorrenza, dipendente dalla sequenza di prodotti acquistati (o di siti web visitati), decrescente al crescere della lunghezza della sequenza stessa. All’interno di un cluster di pattern `e raccolto un insieme di percorsi di acquisto che presentano similitudini nell’evoluzione temporale, ciascuno dei quali `e associabile ad un cliente presso un punto vendita. Assegnato un nuovo cliente, di cui si vuole predire il comportamento temporale di acquisto, si procede al suo inserimento in cluster di percorsi di acquisto nel modo seguente: 1. si rilevano i primi acquisti svolti presso il punto vendita; 2. si determina il miglior cluster all’interno del quale inserire il pattern di vendita del nuovo cliente; 3. note le caratteristiche del cluster di appartenenza, in termini di tipologia di percorsi tipici e relative probabilit` a di occorrenza, si calcolano previsivamente gli acquisti successivi di tale cliente, secondo un insieme di percorsi possibili ed alternativi, ciascuno caratterizzato da una probabilit` a di accadimento.

8.2 Regole associative sequenziali

299

8.2.2 Catene di Markov Sia i pattern di acquisto dei clienti presso un punto vendita, sia i percorsi di navigazione degli utenti presso i siti web di commercio elettronico sono modellizzabili come sequenze temporali. Una sequenza `e deﬁnita da un insieme di eventi discreti ordinati cronologicamente, quali l’acquisto di un singolo prodotto o l’apertura di una speciﬁca pagina web. La successione temporale di tali eventi (o transazioni) forma una catena di elementi, quali l’elenco delle pagine visitate o la lista dei prodotti acquistati; ciascun evento `e identiﬁcato da un marcatore temporale univoco. La modellazione delle regole associative temporali si basa sul concetto di catena di Markov. Una catena di Markov rappresenta una sequenza di stati che evolvono nel tempo attraverso transizioni. Ad una sequenza temporale markoviana si associano le seguenti propriet` a: • lunghezza: deﬁnisce il numero di stati che si succedono temporalmente nella catena. Ad esempio, la sequenza ordinata di prodotti {P1 , P2 , P3 } ha lunghezza pari a 3 ed `e formata dagli stati P1 , P2 e P3 , manifestatisi in corrispondenza degli istanti t1 , t2 e t3 ; • numero di stati : deﬁnisce il numero massimo di elementi distinti che possono formare una sequenza, eventualmente ripetuti al suo interno. Ad esempio, i tre prodotti della sequenza {P1 , P2, P3 } appartengono ad un insieme di N prodotti commercializzati all’interno di un punto vendita; • ordine: deﬁnisce la lunghezza della memoria della sequenza temporale, formata da m possibili stati ed avente una lunghezza L. Una sequenza di ordine n `e caratterizzata dalla seguente propriet` a: la transizione verso uno stato dipende soltanto dagli ultimi n stati precedentemente “visitati” dalla catena di Markov. In una sequenza del primo ordine, lo stato corrente dipende solamente da quello immediatamente precedente. La sequenza di pagine web visitate da un navigatore in Internet, cos`ı come la sequenza di acquisto di un cliente in un insieme di transazioni, rappresenta una catena di Markov, • la cui lunghezza L dipende dal numero di transazioni/visite eﬀettuate; • il cui numero totale di stati m dipende dall’insieme dei prodotti presenti a catalogo, o dal totale delle pagine web visitabili all’interno di un sito per il commercio on line. Una catena di Markov `e dunque schematizzabile come una sequenza di m stati distinti possibili, di lunghezza L variabile per ciascun gruppo di transazioni commerciali, di ordine n. 8.2.3 Matrice Stati – Transizioni Per ciascun cliente presente nel database delle transazioni `e possibile costruire una sequenza di acquisti, unendo le diverse transizioni che si sono susseguite nel tem-

300

8 Demand Intelligence: regole associative

po. Ad esempio, con riferimento alla tabella 8.10, al cliente C1 sono associabili le transazioni tr (1), tr (3) e tr(5), le quali formano un’unica sequenza di acquisti. Ripetendo questo procedimento elementare per tutti i clienti, misurando le loro transazioni commerciali in un orizzonte temporale di riferimento, `e possibile costruire un insieme di catene temporali, ciascuna avente una lunghezza L, all’interno della quale si possono trovare alcuni degli m prodotti (stati) disponibili a catalogo, ordinati temporalmente, anche ripetuti in caso di acquisti successivi dei medesimi prodotti. La tabella 8.12 mostra un esempio di costruzione delle sequenze temporali di acquisto, per i tre clienti C1 , C2 , C3 . Tabella 8.12. Sequenze di acquisto per transazioni successive cliente C1 C2 C3

sequenza di acquisti {P1 , P2 , P3, P4 } → {P2 , P4 } → {P1 , P3 , P4 } {P1 , P4 , P5} → {P1, P2 , P4 , P5 } {P1 , P3 }

Assegnato un insieme di possibili stati (m = 5 nell’esempio numerico), disponendo di un insieme di T catene temporali (T = 3 nell’esempio numerico) di lunghezza diﬀerente, `e possibile costruire la matrice M Stati – Transizioni associata a tale distribuzione di sequenze. Tale matrice quadrata `e formata da m righe ed m colonne, una per ciascuno stato ammissibile; il generico elemento pij della matrice indica la probabilit` a di transizione dallo stato (prodotto) i-esimo (xi ) allo stato (prodotto) j-esimo (xj ): esso rappresenta la probabilit` a di occorrenza dell’evento xj , condizionata alla precedente occorrenza dell’evento xi , manifestatosi nell’istante temporale precedente: pij = prob (xj |xi) = prob ({xi = 1} → {xj = 1}) . La matrice M assume quindi la forma seguente: ⎡ p11 p12 . . . ⎢ p21 p22 . . . [M ] = [pij ] = ⎢ ⎣ ... ... ... pm1 pm2 . . .

⎤ p1m p2m ⎥ ⎥. ... ⎦ pmm

La probabilit` a condizionata pij `e deﬁnita dal rapporto fra la numerosit` a N (xi → xj ) delle coppie di stati aventi: • l’evento xi come antecedente; • l’evento xj come conseguente; e la numerosit` a N (xi ) delle coppie di stati aventi l’evento xi come antecedente, a prescindere dalla caratterizzazione del conseguente; in formule: pij =

N (xi → xj ) . N (xi)

8.2 Regole associative sequenziali

301

Assegnato uno stato origine (xi), noti tutti i possibili stati destinazione (xj ; j = 1, . . . , m), vale la relazione: m

pij =

j=1

m

prob (xj |xi) = 1 .

j=1

In tale relazione, indicante che la somma per riga degli elementi di una matrice di transizione `e pari a 1, vengono anche inclusi come stati destinazione: • lo stato i-esimo di partenza (in questo caso: j = i); • lo stato ﬁnale “nullo”, nel senso che una transizione, originatasi dallo stato origine i-esimo, pu` o non evolvere verso alcuno stato di destinazione. Ad esempio, se si analizzano le tre sequenze temporali {P1 , P2 , P3 }, {P1 , P2 , P4 }, {P1 , P4, P3 }, si osserva che in due casi su tre si registra la transizione {P1 , P2 } (dal prodotto P1 al prodotto P2 ), avente come origine il prodotto P1 , il quale compare come origine anche in una terza transizione, {P1 , P4 }. Pertanto in questo esempio la probabilit` a di occorrenza della sequenza {P1 , P2} `e pari a p12 = 2/3 = 0,66. Inoltre, p11 = 0/3 = 0, p13 = 0/3 = 0, p14 = 1/3 = 0,33, p1∗ = 0/3 = 0 (in nessuna sequenza il prodotto P1 ﬁgura in ultima posizione). Le probabilit` a p11 , p12 , p13 , p14 , p1∗, deﬁniscono tutte le possibili transizioni uscenti dallo stato origine P1 . Questa procedura di calcolo delle probabilit` a di transizione pij viene eseguita esaminando tutte le T sequenze di transazioni commerciali disponibili nel dataset di analisi. La ﬁgura 8.7 mostra un esempio di catena di Markov a quattro stati (i quattro prodotti P1 , P2 , P3 , P4 ), di ordine 1, includendo i due stati aggiuntivi “nulli” inizio e ﬁne; in ﬁgura sono state evidenziate, mediante frecce, le transizioni uscenti dallo stato relativo al prodotto P1 . Le matrici Stati – Transizioni sono asimmetriche; gli elementi sulla diagonale principale sono generalmente non nulli. 8.2.4 Probabilit` a delle sequenze temporali Assegnata una catena di Markov ad m stati, di ordine 1, con la relativa matrice Stati – Transizioni M , `e possibile calcolare la probabilit` a che una certa sequenza x di eventi si veriﬁchi all’interno di tale catena. La probabilit` a che la sequenza x di lunghezza L si presenti `e data dal prodotto delle probabilit` a condizionate delle singole coppie di stati, ordinate dallo stato inizio ﬁno all’ultimo stato veriﬁcatosi: pM (x) = prob ({x1 = 1} → {x2 = 1} → {x3 = 1} → . . . → {xL = 1} |M ) = =

L

prob (xj |xj−1) =

j=1

= prob (xL |xL−1 ) · prob (xL−1 |xL−2) · . . . · prob (x2 |x1 ) · prob (x1 |x0 ), essendo prob(x1 |x0 ) la probabilit` a di transizione dallo stato inizio a quello x1 .

302

8 Demand Intelligence: regole associative p11

{P1} {inizio}

p12

{P2}

p14

{P4}

p13

p1*

{fine}

{P3}

Figura 8.7. Catena di Markov con m = 4 stati, di ordine 1

Tale valore di probabilit` a dipende dalla catena di Markov, descritta dalla matrice M , che evidenzia le probabilit` a elementari di transizione. La probabilit` a di occorrenza di una sequenza diminuisce all’aumentare della sua lunghezza L, in quanto ciascun termine moltiplicativo di probabilit` a `e, al pi` u, uguale a 1. La presenza a condizionate relative a coppie di transinella formula di pM (x) delle probabilit` zioni (j − 1; j) testimonia il fatto che la catena di Markov considerata `e di ordine unitario8. Una matrice Stati – Transizioni pu` o essere utilizzata con ﬁnalit` a predittiva: assegnata la catena di Markov descritta dalla matrice M , disponendo di una sequenza parziale di eventi (una serie di acquisti consecutivi di un cliente), `e possibile predire i successivi stati della catena, cio`e i prodotti che verranno presumibilmente acquistati dal cliente, la cui “storia” di acquisti `e descritta dalla sequenza parziale. Essendo la catena di ordine 1, conoscendo l’ultima transazione i-esima di acquisto del cliente, `e possibile calcolare le probabilit`a di occorrenza della successiva transazione, che avverr` a all’istante t1 : pij , per ogni j = 1, . . . , m. Iterativamente, si pu` o inoltre procedere al calcolo delle probabilit` a di occorrenza di transazioni successive, che potranno veriﬁcarsi in corrispondenza degli istanti temporali t2 , t3 , . . . , tn . Ad esempio, la probabilit` a di occorrenza della sequenza x = {i → j → k}, partendo dall’ultima transazione misurata i, si calcola mediante il prodotto di due probabilit` a condizionate: pM (x) = prob ({xj = 1} → {xk = 1} | {xi = 1}) = prob (xk |xj ) · prob (xj |xi ).

8

Si omette, per semplicit` a, la trattazione relativa a catene di Markov di ordine superiore a 1. Gli esempi applicativi descritti nel caso del Demand Planning (market basket analysis, clickstream analysis) giustiﬁcano nella pratica il ricorso a catene markoviane di ordine unitario.

8.2 Regole associative sequenziali

303

8.2.5 Clustering delle sequenze temporali Nel paragrafo precedente `e stato illustrato il comportamento probabilistico delle sequenze temporali appartenenti ad un certo insieme di sequenze storiche, corrispondenti a serie di transazioni commerciali presso i punti vendita o di percorsi web di navigazione. L’insieme dei dati disponibili `e stato utilizzato per formare una catena di Markov di ordine 1, descritta dalle probabilit` a di transizione della matrice Stati – Transizioni. Tuttavia, i pattern di transazioni temporali presentano forti eterogeneit` a nel loro contenuto informativo, in quanto: • presentano lunghezze generalmente diﬀerenti; • il numero di sequenze di acquisto teoricamente costruibili, disponendo di un insieme di m stati che possono anche comparire ripetuti pi` u volte in una stessa sequenza, cresce esponenzialmente con il numero di stati distinti. All’aumentare del numero m di stati distinti e del numero di transazioni disponibili, le singole probabilit` a di occorrenza a posteriori pij , caratterizzanti la matrice Stati – Transizioni, assumono valori molto bassi, talvolta prossimi allo zero, rendendo diﬃcoltosa qualsiasi interpretazione statistica delle sequenze di acquisto dei clienti. Sulla base di tali considerazioni, `e opportuno procedere ad un’attivit` a di raggruppamento (clustering) delle sequenze temporali in insiemi omogenei, nei quali le singole sequenze presentano marcate caratteristiche di similarit`a. Ad esempio, il risultato dell’applicazione di un algoritmo di soft clustering (clustering probabilistico) alle sequenze temporali di acquisto dei prodotti in un supermercato permette di deﬁnire percorsi tipici relativi alle bevande, piuttosto che ai prodotti freschi, ai prodotti a lunga conservazione, ecc. Analogamente, nel caso della navigazione nei siti web delle aziende logistico-produttive del settore retail, `e possibile individuare, come output del clustering, sequenze di navigazione tipiche dei prodotti di abbigliamento, dei prodotti per il bricolage, dei prodotti per l’intrattenimento domestico (libri, dvd, ecc.). Come ricordato nel capitolo 7 dedicato ai metodi di clusterizzazione di oggetti, il clustering probabilistico associa elementi distinti (prodotti, segmenti prodottomercato, sequenze temporali) ai diversi cluster secondo una certa distribuzione di probabilit` a. Nel caso delle regole associative sequenziali, a ciascun cluster appartiene un insieme di sequenze temporali di acquisto, di lunghezza e composizione diﬀerenti; assegnato un cluster C ed un insieme di sequenze ad esso associate, `e determinabile univocamente la matrice M (C) Stati – Transizioni del cluster. Assegnata una nuova sequenza x, nell’ipotesi di associare tale sequenza al cluster C, la probabilit` a di occorrenza di tale sequenza `e data dal valore pM (x), calcolato secondo la nota formula pM (x) = p(x|C) =

L

prob (xj |xj−1 ) ,

j=1

che esprime il prodotto delle probabilit` a condizionate delle coppie di stati origine e destinazione facenti parte della sequenza x, di lunghezza L, secondo i legami deﬁniti dalla matrice M (C).

304

8 Demand Intelligence: regole associative

8.2.6 Algoritmo per il clustering delle sequenze temporali Assegnato un insieme di T sequenze di transazioni, `e possibile associare tali elementi ai diversi cluster secondo il seguente algoritmo, i cui capisaldi ricalcano la struttura dell’algoritmo delle k-medie, illustrato nel paragrafo 7.8. Step 0. Inizialmente vengono deﬁniti K cluster Ck , k = 1, . . . , K, essendo K un parametro di settaggio dell’algoritmo. I K cluster sono inizializzati deﬁnendo K matrici Stati– Transizioni M (Ck ) di dimensione m · m, determinando in modo casuale le probabilit` a di occorrenza pij , per ogni coppia di stati origine (i) e destinazione (j) nell’ambito degli m stati esistenti9 . Nello step iniziale di conﬁgurazione dei K cluster, a ciascuno viene associato un peso w(k) uniforme, ad esempio: w(Ck ) = 1/K. I singoli pesi hanno valore di probabilit` a marginale di occorrenza di ciascun cluster. Disponendo di T sequenze di transazioni commerciali, ciascuna sequenza viene associata a ciascun cluster, secondo la seguente procedura. Step 1. Una generica sequenza x appartenente al dataset, se assegnata al cluster a p(x|Ck ), calcolata sulla base delle probabilit` a di Ck si veriﬁca con probabilit` occorrenza pij della matrice M (Ck ) associata al cluster Ck . Attraverso la formula di Bayes, `e possibile calcolare la probabilit` a che la sequenza x appartenga al kesimo cluster Ck , cio`e la probabilit` a del cluster Ck condizionata al veriﬁcarsi della sequenza x: p(x|Ck ) · p(Ck ) p(Ck |x) = K , p(x|Cs) · p(Cs ) s=1

a di occorrenza del k-esimo cluster. Si `e posto inizialessendo p(Ck ) la probabilit` mente: 1 p(Ck ) = w(Ck ) = , ∀k = 1, . . . , K . K Pertanto `e possibile aﬀermare, a valle dello step 1 dell’algoritmo, che la sequenza x appartiene al cluster Ck con probabilit` a p(Ck |x), per ogni cluster k = 1, . . . , K. Una sequenza x pu` o dirsi deterministicamente assegnabile al cluster w, se si veriﬁca la seguente condizione di probabilit` a massima: x ∈ Cw tale che p(Cw |x) = maxk=1,...,K {p(Ck |x)} . Step 2. Una volta assegnate le sequenze x a tutti i K cluster, le K matrici Stati – Transizioni M (Ck ) = [pij (Ck )] vengono ricalcolate, ricavando gli elementi pij della generica matrice M (Ck ) secondo la seguente formula, relativa al cluster Ck : T

pij (Ck ) =

Nt (xi → xj ) · p(Ck |t)

t=1 T

. Nt (xi ) · p(Ck |t)

t=1 9

Il parametro m rappresenta, ad esempio, la dimensione del mix di prodotti commercializzati presso un punto vendita.

8.2 Regole associative sequenziali

305

Il termine Nt (xi → xj ) rappresenta il numero di volte in cui la coppia ordinata di elementi xi → xj compare nella t-esima sequenza, per t = 1, . . . , T ; il termine Nt (xi ) identiﬁca invece la frequenza dell’elemento xi nella sequenza t, a prescindere dall’elemento seguente nella catena. Nella formula per il calcolo della probabilit` a di occorrenza pij (Ck ), ciascuna sequenza t `e pesata mediante la probabilit` a di appartenenza al k-esimo cluster, p(Ck |t). Step 3. Calcolate le nuove matrici Stati – Transizioni per i K cluster, le T sequenze disponibili vengono nuovamente assegnate ai K cluster, secondo quanto indicato nello step 1 dell’algoritmo. Le nuove probabilit` a p(Ck |x) vengono ricalcolate, per ciascuna sequenza x e per ogni cluster k. Per ciascuna sequenza x viene inoltre identiﬁcata la nuova probabilit` a massima di appartenenza ad un cluster. Se, da una generica iterazione (calcolo delle K matrici M (Ck )) alla successiva, nessuna sequenza x si trova associata ad un cluster di probabilit` a massima diverso da quello dell’iterazione precedente, l’algoritmo termina: la suddivisione delle T sequenze sui K cluster `e stabile, non ulteriormente modiﬁcabile. L’output dell’algoritmo di clustering delle sequenze temporali `e costituito da: • K cluster, ciascuno contenente un deﬁnito gruppo di sequenze storiche; • K matrici di transizione M (Ck ). La suddivisione in cluster delle T sequenze storiche disponibili nel dataset delle transazioni commerciali viene utilizzata con ﬁnalit`a predittive. Una nuova sequenza x, di lunghezza L, misurata all’istante corrente, viene assegnata ai K cluster con probabilit` a p(Ck |x). Sapendo che lo stato L-esimo della sequenza x ha assunto valore i, il successivo stato (L + 1)-esimo viene calcolato: • dapprima, determinando il cluster w di probabilit` a massima per la sequenza x; • quindi, calcolando le diverse probabilit` a pij (Cw ), per ogni j = 1, . . . , m, all’interno del cluster Cw . La complessit`a di calcolo dell’algoritmo presentato cresce proporzionalmente con il numero m degli stati esistenti, con la lunghezza media L0 delle T sequenze disponibili, con il numero K di cluster che si vogliono ottenere, secondo l’ordine di grandezza o(KTL0 + L0 m2 ). 8.2.7 Parametrizzazione L’algoritmo di clustering delle sequenze temporali pu` o essere specializzato fornendo in ingresso un opportuno set di parametri, nel seguito presentati. Numero di cluster. Il numero di cluster K (parametro 1) deﬁnisce a priori quanti raggruppamenti di sequenze temporali si vogliono ottenere. Supporto minimo. Il supporto minimo SUPP min (parametro 2) di ciascun cluster deﬁnisce il numero minimo di elementi che devono essere in esso contenuti al ﬁne di rendere statisticamente signiﬁcativo ciascun raggruppamento. Infatti, un insieme di cluster di dimensioni ridotte rende diﬃcile, talvolta inattendibile,

306

8 Demand Intelligence: regole associative

la comprensione qualitativa del contenuto dei singoli raggruppamenti. Nel caso esista, a valle della soluzione dell’algoritmo non vincolata da supporto minimo, almeno un cluster Cw contenente un numero di elementi inferiore al supporto minimo, i cluster non soddisfacenti la condizione di supporto minimo possono essere “rideﬁniti” in uno dei due modi seguenti: • possono essere fusi fra loro, per formare cluster di dimensione aggregata superiore al supporto minimo; • ciascun elemento di tali cluster viene assegnato forzatamente ad un altro cluster gi` a esistente, di dimensione superiore alla soglia di supporto minimo, seguendo uno schema di probabilit` a condizionate p(Cw |x) decrescenti. Lunghezza massima delle sequenze. La lunghezza massima delle sequenze Lmax (parametro 3) serve per ﬁltrare sequenze composte da un numero eccessivo di elementi, con l’obiettivo di ridurre lo sforzo computazionale dell’algoritmo, crescente linearmente con la lunghezza media delle sequenze disponibili. Eventualmente, `e possibile troncare a sinistra le sequenze di lunghezza L > Lmax , rimuovendo gli elementi meno recenti. Massimo numero di stati. Il massimo numero di stati mmax (parametro 4) serve per ridurre la complessit`a computazionale delle matrici Stati – Transizioni dei K cluster, ad ogni iterazione dell’algoritmo, proporzionale al quadrato del numero dei possibili stati assumibili da ogni elemento della sequenza temporale. Qualora il numero eﬀettivo di stati sia superiore alla soglia mmax , `e necessario procedere alla loro riduzione, rimuovendo gli stati meno frequentemente occorsi all’interno delle T sequenze disponibili nel dataset. 8.2.8 Rappresentazione dei risultati Esistono alcune modalit` a di rappresentazione dei risultati di un algoritmo di clustering delle sequenze di transizione: gli alberi gerarchici, i proﬁli dei cluster, i diagrammi di transizione, le tabelle di frequenza, le tabelle di comparazione. Alberi gerarchici. I cluster di sequenze possono avere una rappresentazione ad albero gerarchico, in cui: • il nodo origine (livello 0) di primo livello deﬁnisce il modello di clustering delle sequenze (dataset utilizzato, parametri di input). A tale nodo si associa anche la matrice Stati – Transizioni globale per il modello, cio`e calcolata in base a tutti gli elementi disponibili nel dataset (prima dell’avvio dello step 0 dell’algoritmo); • i nodi di primo livello deﬁniscono la composizione dei K cluster, elencando le sequenze associate a ciascuno di essi; • i nodi di secondo livello rappresentano le K matrici Stati – Transizioni associate ai cluster, quindi le distribuzioni delle probabilit` a fra coppie di stati. Proﬁli dei cluster. Per ciascun cluster viene creato un istogramma contenente le sequenze in esso presenti, ordinate per frequenza decrescente lungo l’asse delle

8.2 Regole associative sequenziali

307

ascisse. Ciascuna sequenza indica verticalmente, dal basso verso l’alto, gli elementi componenti (ad esempio, l’ordine di acquisto dei prodotti). Di ciascun elemento nelle sequenze dello speciﬁco cluster viene indicata la frequenza relativa. Diagrammi di transizione. I diagrammi di transizione forniscono una rappresentazione delle catene di Markov, come quella schematizzata in ﬁgura 8.7. Per ciascun cluster, i singoli stati rappresentano i nodi del grafo di transizione; gli archi direzionali di collegamento fra nodi esprimono le probabilit` a di transizione fra stati origine e stati destinazione. Ciascun nodo ha inoltre associato il valore di probabilit` a di inizio della transazione (primo prodotto acquistato in una sequenza, prima pagina web acceduta dai navigatori). Il background dei nodi assume una tonalit` a colorimetrica diﬀerente, a seconda della frequenza con cui lo stato ad esso associato `e presente nelle catene temporali appartenenti allo speciﬁco cluster. Tabelle di frequenza, Assegnato un cluster, ciascuna coppia valida di stati origine e destinazione viene presentata sulle righe di una tabella, mostrando la frequenza relativa di occorrenza della combinazione all’interno del cluster. Le coppie di stati sono tipicamente ordinate per frequenza decrescente. Ad esempio, il 75% delle sequenze del cluster C1 contiene la coppia di prodotti nella sequenza {P1 → P2 }. Tabelle di comparazione. Coppie di cluster possono essere messe a confronto, accostando le rispettive tabelle di frequenza: per ciascuna coppia di stati presente in almeno una sequenza appartenente ad (almeno) un cluster, si confrontano le relative probabilit` a di occorrenza. Ad esempio, la coppia di elementi {P1 → P2 } compare con probabilit` a 40% nel cluster C2 e con probabilit` a 15% nel cluster C3 . Diversi criteri di sorting e di ﬁltraggio sono disponibili per analizzare i dati numerici della comparazione fra coppie di cluster.

9 Demand Intelligence: classiﬁcazione

Introduzione alla classiﬁcazione – Applicazioni di classiﬁcazione per il Demand Planning – Analisi dei dati per la classiﬁcazione – Misure di prestazione per la classiﬁcazione – Classiﬁcatori bayesiani naive – Classiﬁcatori ad albero

9.1 Introduzione alla classiﬁcazione 9.1.1 Deﬁnizione del problema La classiﬁcazione `e una tecnica di Data Mining di tipo supervisionato, nel senso che esiste un attributo target, di tipo categorico, il cui valore dev’essere stimato, in modalit` a predittiva. Classiﬁcare un’entit` a prodotto, un’entit` a mercato o un segmento prodotto-mercato signiﬁca assegnare un valore deﬁnito ad un attributo target che descrive le caratteristiche ed il comportamento futuro di tale entit` a, avendo analizzato i valori noti di attributi descrittivi o sintetici ad essa associati. L’obiettivo delle analisi di classiﬁcazione consiste nel determinare regole e criteri matematici che associno in modo automatico una classe previsionale (valore dell’attributo target incognito) ad entit` a prodotto-mercato, al ﬁne di prevederne il comportamento in relazione ad azioni di Demand Planning. Analizzando un dataset di elementi prodotto-mercato, contenuto nei sistemi di datawarehouse aziendali o nei datamart dipartimentali, di cui si conoscono a priori: • i valori degli attributi descrittivi/sintetici; • il valore della variabile predittiva (attributo target); `e possibile formulare regole logico-matematiche e modelli di associazione fra le variabili in input e la variabile predittiva di output, al ﬁne di ricavare la classe target per la variabile predittiva in funzione dei valori assunti dalle variabili descrittive/sintetiche. Le regole di classiﬁcazione hanno una duplice valenza: • valenza interpretativa: studiare le relazioni logiche e probabilistiche che correlano le osservazioni degli attributi in input all’attributo da classiﬁcare; • valenza predittiva: predire il valore della classe target per nuove entit` a, cui corrispondono nuovi valori osservati per gli attributi in input. Le analisi di classiﬁcazione risultano quindi di interesse ed utilit` a conoscitiva per gli analisti e gli utenti di Demand Intelligence, i quali si propongono di Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

310

9 Demand Intelligence: classiﬁcazione

• studiare i potenziali eﬀetti di campagne ed attivit` a promozionali rivolte alla ﬁdelizzazione dei clienti, all’incentivazione nell’acquisto di speciﬁci prodotti in speciﬁci mercati o canali di vendita; • classiﬁcare i clienti sulla base di indicatori di fatturato, volumi di vendita, ecc. Ad esempio, l’analisi dei comportamenti di acquisto manifestati nel passato dai clienti, in relazione all’adesione a campagne promozionali, permette di stimare la probabilit` a che tali clienti siano favorevoli ad azioni di introduzione di nuovi prodotti sul mercato, oppure ad incrementare il volume di acquisto di tali prodotti promozionati.

9.1.2 Formulazione matematica In un problema di classiﬁcazione `e assegnata una serie di attributi esplicativi in ingresso ed una variabile target. L’obiettivo consiste nel predire il valore dell’attributo oggetto della classiﬁcazione, sulla base dei valori assunti dal set di attributi in input. Gli attributi esplicativi disponibili in input ai modelli di classiﬁcazione • costituiscono un insieme di cardinalit` a n; • appartengono a diﬀerenti tipologie: numerici continui, numerici discreti, categorici ordinali; • possono essere di tipo descrittivo (propriet` a intrinseche e qualitative di prodotti o mercati) o sintetico (aggregazioni numeriche sul tempo e/o per famiglie di prodotti-mercati di indicatori di performance); • presentano valori disponibili su m osservazioni (segmenti prodotto-mercato), gi` a classiﬁcate in precedenza in modo “automatico”, in seguito ad applicazione di altre tecniche di classiﬁcazione, oppure in modo “manuale”, basandosi cio`e su criteri soggettivi propri dei singoli decisori. In generale, `e opportuno che le variabili esplicative numeriche continue subiscano preliminarmente una trasformazione di discretizzazione dei valori in range (equiampi oppure equinumerosi), al ﬁne di poter essere meglio interpretate dal classiﬁcatore1 . L’attributo target output della classiﬁcazione, detto anche variabile predittiva, • `e necessariamente di tipo categorico; • possiede un numero ﬁnito di valori assumibili (nel caso di due soli valori booleani, si deﬁnisce la classiﬁcazione di tipo binario); • `e noto in corrispondenza delle m osservazioni disponibili nel dataset; non `e invece noto per le future entit` a prodotto-mercato oggetto di classiﬁcazione; 1

Ad esempio, i valori 1200 e 1235 per la variabile numerica continua fatturato possono essere assimilati al valore 1200, oppure inclusi in una fascia bassa [0; 2000], se, ad esempio, i valori di fatturato variano all’interno dell’intervallo [0; 10000], per quanto concerne le osservazioni disponibili nel dataset.

9.1 Introduzione alla classiﬁcazione

311

• `e legato agli attributi esplicativi da relazioni di tipo probabilistico o di tipo logico (regole di classiﬁcazione), non formalizzabili tramite sistemi di equazioni algebriche. La modellazione dei dati disponibili si declina, dal punto di vista formale, in modo analogo al caso di modelli non supervisionati per il clustering: • il dataset `e modellizzabile tramite la matrice degli attributi F avente m righe ed n + 1 colonne, il cui generico elemento xij rappresenta il valore dell’attributo jesimo (j = 1, . . . , n + 1) in corrispondenza dell’elemento i-esimo (i = 1, . . . , m) da classiﬁcare, oppure gi` a classiﬁcato; l’attributo (n + 14-esimo rappresenta la variabile target (indicata simbolicamente con la notazione yi ): ⎡ ⎤ x12 . . . x1n y1 x11 ⎢ x21 x22 . . . x2n y2 ⎥ ⎥; [F ] = ⎢ ⎣ ... ... xij ... yi ⎦ xm1 xm2 . . . xmn ym • il singolo elemento i-esimo presenta, all’interno della matrice F , un insieme di n+1 attributi, i cui valori sono espressi tramite il seguente vettore (n + 1)-dimensionale: x i = {xi1 xi2 xi3 . . . xij . . . xin yi } ; • l’attributo categorico oggetto di classiﬁcazione presenta, all’interno della matrice F , un insieme di m valori numerici, espressi tramite il seguente vettore m-dimensionale: f n+1 = {y1 y2 y3 . . . yi . . . ym } . In fase di analisi degli n attributi esplicativi, `e necessario identiﬁcare le variabili: • potenzialmente giustiﬁcative dei valori assunti dalla variabile target, quindi sottoponibili all’analisi del modello di classiﬁcazione; • non multicollineari rispetto ad altre presenti nel dataset. L’eliminazione di variabili esplicative non indipendenti (collineari ad altre) viene eﬀettuata con i metodi di feature selection esposti per i modelli non supervisionati di clustering al paragrafo 7.5.3. Per ipotesi, le m caratterizzazioni della variabile predittiva y sono note, in corrispondenza del dataset contenente le entit` a in precedenza classiﬁcate. Tale dataset pu` o essere suddiviso in due parti disgiunte: training set e test set, rispettivamente di cardinalit` a mA e mB . stante la relazione mA + mB = m. Training set. Alcune osservazioni sono utilizzate per addestrare il modello di classiﬁcazione, cio`e fungono da esempi utilizzati per caratterizzare il legame funzionale fra le n variabili esplicative e la variabile predittiva categorica. Sulla base delle occorrenze empiriche delle mA osservazioni presenti nel training set, il classiﬁcatore (deterministico o probabilistico) identiﬁca ed esplicita le relazioni nascoste intercorrenti fra le due tipologie di variabili. All’aumentare della dimensione del training set, aumenta la signiﬁcativit` a delle regole di classiﬁcazione generate.

312

9 Demand Intelligence: classiﬁcazione

Test set. Dopo aver formulato un modello logico-matematico per la classiﬁcazione dell’attributo target in dipendenza dai valori assunti dalle variabili esplicative, le regole ottenute vengono testate sulla seconda porzione del dataset, di cardinalit` a mB . Il modello di classiﬁcazione predice il valore y della variabile target per le osservazioni del test set, i cui valori eﬀettivi y* sono noti a priori. La diﬀerenza fra il valore eﬀettivo e la predizione fornisce un indicatore di performance circa l’accuratezza predittiva del classiﬁcatore. In generale, `e opportuno che almeno il 50%–70% delle osservazioni presenti nel dataset appartengano al set di training, per l’apprendimento supervisionato del classiﬁcatore. Una volta certiﬁcata l’accuratezza predittiva di ciascun classiﬁcatore alternativo disponibile (ad esempio: un classiﬁcatore bayesiano, un gruppo di classiﬁcatori ad albero, un classiﬁcatore neurale), validandone la capacit` a di classiﬁcazione sui dati del test set, si procede alla scelta del miglior classiﬁcatore, da applicare sui dati del forecast set, cio`e sulle future entit` a prodotto-mercato da classiﬁcare. Formalmente, esiste un’analogia concettuale fra i modelli di classiﬁcazione ed i modelli di regressione 2 : entrambi si rivolgono alla predizione di una variabile target incognita, attraverso l’analisi delle relazioni che essa ha avuto nel passato con un insieme di variabili in input, sulla base di un dataset contenente casi in precedenza classiﬁcati. Per quanto concerne i modelli e le tecniche di regressione: • la variabile target da predire `e di tipo numerico continuo non negativo; • gli n attributi esplicativi sono anch’essi di tipo numerico continuo; • la relazione che lega variabile predittiva e variabili esplicative `e di tipo algebrico, ad esempio di tipo lineare (retta di regressione: y = ax + b).

9.2 Applicazioni di classiﬁcazione per il Demand Planning Le analisi di classiﬁcazione per il Demand Planning si rivolgono a diversi segmenti della ﬁliera logistico-produttiva: • lato produttore: classiﬁcazione dei comportamenti di acquisto dei clienti della ﬁliera, quindi dei soggetti della grande distribuzione, della distribuzione al dettaglio, in taluni casi ﬁno ai clienti ﬁnali3 ; • lato distributore: classiﬁcazione dei comportamenti di acquisto dei consumatori presso i punti vendita. Seguono alcuni esempi di applicazioni dei modelli di classiﬁcazione con ﬁnalit` a previsionale, per il supporto alla formulazione dei piani di domanda nei processi di Sales & Operations Planning. 2 3

I modelli di regressione lineare sono presentati nel capitolo 14. Qualora i prodotti del soggetto produttore siano distribuiti anche tramite vendita diretta al cliente ﬁnale.

9.2 Applicazioni di classiﬁcazione per il Demand Planning

313

Classi di fatturato per i clienti Si supponga di voler classiﬁcare i clienti sulla base del volume o del valore delle vendite passate all’interno delle tre classi {y1 = alto; y2 = medio; y3 = basso} di un attributo categorico target y. L’attributo y `e stato precedentemente ricavato discretizzando un attributo numerico continuo, relativo al fatturato eﬀettivo per le m osservazioni presenti nel dataset storico: ciascuna delle tre classi target corrisponde ad un range numerico di fatturato. Le variabili esplicative che caratterizzano l’appartenenza di un cliente ad una data classe di fatturato, per il prossimo periodo (ad esempio, l’anno t) sono: • valore di fatturato maturato nell’anno t−1 (su un assegnato paniere di prodotti acquistati); • valore di fatturato maturato nell’anno t − 2; • numero di articoli acquistati nell’anno t − 1; • numero di reclami presentati nell’anno t − 1; • esistenza di relazioni di partnership commerciale o tecnologica con il cliente4 ; • percentuale di adesioni a campagne promozionali proposte nell’anno t − 1; • zona geograﬁca o importanza commerciale della localizzazione del cliente; • modalit` a di consegna dei prodotti al cliente; • importanza dichiarata per il livello di servizio erogato {1, 2, 3, . . .}. A seconda dei risultati proposti dall’analisi di classiﬁcazione sul fatturato target dei clienti, le funzioni Marketing e Vendite ricevono un’indicazione tendenziale del valore degli acquisti potenziali del cliente nel corso del successivo anno t. La classe di fatturato stimata per ciascun cliente `e di supporto all’elaborazione dei piani di domanda, in particolare in presenza di relazioni commerciali di tipo B2B fra aziende della ﬁliera logistico-produttiva. Adesione alle campagne promozionali Si vogliono classiﬁcare i clienti ﬁnali che acquistano i prodotti di un’azienda presso i punti vendita, dal punto di vista della probabilit` a che costoro aderiscano ad una oﬀerta promozionale di sconto sul prezzo di un nuovo prodotto P0 di prossima introduzione, acquistandone una determinata quantit` a nelle prime settimane dal lancio uﬃciale. La potenziale accettazione della promozione da parte del cliente viene modellizzata tramite una variabile booleana contenente le classi {y1 = accetta (1); y2 = non accetta (0)}. Come osservato all’inizio del paragrafo, il cliente pu` o essere sia il singolo consumatore ﬁnale, quanto il gestore del punto vendita, all’interno del quale si vogliono acquistare ed allestire spazi espositivi per la promozione del nuovo prodotto. La variabili esplicative considerate nel modello di classiﬁcazione sono: • acquisto del nuovo prodotto P1 introdotto nell’ultimo anno {0;1}; • acquisto del nuovo prodotto P2 introdotto nell’ultimo anno {0;1}, parzialmente sostitutivo rispetto al prodotto P1 ; • volume di acquisto di altri prodotti nell’ultimo anno; 4

Si tratta di una variabile esplicativa booleana (0 = no; 1 = s`ı).

314

9 Demand Intelligence: classiﬁcazione

adesione all’ultima campagna del prodotto P3 nell’ultimo semestre5 ; volume espositivo del negozio allocato nell’ultimo anno al nuovo prodotto P1 ; zona geograﬁca in cui si colloca il punto vendita; tipologia di canale logistico utilizzata (grande distribuzione, insegna indipendente, ecc.); • numero di rivenditori concorrenti presenti nella medesima zona geograﬁca.

• • • •

Le prime due variabili esplicative, relative agli acquisti dei prodotti P1 e P2 , potrebbero risultare in qualche misura correlate; `e necessaria un’analisi preliminare di correlazione, al ﬁne di valutarne l’intensit` a numerica ed eventualmente rimuovere una delle due variabili dal dataset in ingresso al modello di classiﬁcazione. I prodotti citati (P1 , P2 , P3 ) sono posti in relazione con il nuovo prodotto P0 . Le osservazioni storiche collezionate nel dataset si riferiscono all’introduzione di altri nuovi prodotti P4 , P5, . . . , in relazione alle vendite di altri prodotti storici P6 , P7 , P8, . . . , parzialmente o totalmente sostituiti dai nuovi prodotti. Previsione di vendita per nuovi prodotti Tramite analisi di classiﬁcazione `e possibile valutare l’impatto commerciale di un nuovo prodotto P0 , di prossima introduzione presso un determinato gruppo di clienti. Il volume potenziale di acquisto per l’anno t (primo periodo dell’orizzonte previsionale) pu` o essere collocato all’interno di una delle tre classi {y1 = alto; y2 = medio; y3 = basso} di un attributo categorico target y. Le variabili in ingresso che guidano il classiﬁcatore nella determinazione della classe target per ciascun cliente sono le seguenti: • caratteristiche qualitative identiﬁcative del nuovo prodotto: variabili descrittive categoriche nominali quali colore, forma, peso, utente target, famiglia gerarchica, classe merceologica; • tipologia di prodotto da lanciare sul mercato (sostitutivo (1) vs. innovativo (0)); • presenza di campagne pubblicitarie televisive {0;1} associate al lancio del nuovo prodotto; • presenza di altri media di comunicazione utilizzati in passato6 ; • eﬀort pubblicitario sostenuto nel passato {alto, medio, basso}; • intensit` a della campagna promozionale nel primo anno di lancio del nuovo prodotto (stima per il prodotto P0 , utilizzo di dati storici per i “nuovi” prodotti lanciati nel passato); • numero di periodi di lunghezza del ciclo di vita del nuovo prodotto (stima per P0 , utilizzo di dati storici per altri prodotti). Come nel caso di cui all’esempio precedente, le m osservazioni storiche si riferiscono a casi passati di introduzione di nuovi prodotti. 5 6

Questa variabile esplicativa binaria (0 = no; 1 = s`ı) pu` o essere ovviamente replicata per altri prodotti e/o in altri semestri. Si tratta di una variabile categorica nominale, avente valori {quotidiani, periodici, radio, Web, . . . }, oppure di una variabile booleana altri media{0; 1}.

9.2 Applicazioni di classiﬁcazione per il Demand Planning

315

Store classiﬁcation I punti vendita di un’azienda della ﬁliera logistico-distributiva possono essere classiﬁcati in classi di merito {A, B, C}, tenendo conto di parametri e criteri di valutazione quali: • • • • •

il fatturato di periodo, misurato lungo un opportuno orizzonte temporale; la localizzazione geograﬁca (centro o periferia di una citt` a, ad esempio); numero di prodotti esposti sugli scaﬀali o in vetrina; spazio espositivo disponibile; livello di servizio erogato ai clienti, misurato lungo un opportuno orizzonte temporale; • percentuale di resi o invenduti. Una classiﬁcazione basata sui suddetti parametri `e utile per categorizzare negozi, store, outlet, punti vendita d’imminente apertura, sulla base del fatturato atteso e sulle stime di altri parametri di customer service, conoscendo i dati tecnici di riferimento (estensione, layout, collocazione geograﬁca). Sulla base della conoscenza della classe target per ciascun negozio, `e quindi possibile deﬁnire: • i livelli di scorta di sicurezza da detenere presso il punto vendita; • le politiche di riassortimento della gamma, tramite rifornimenti periodici dai magazzini centrali o zonali; • le politiche di deﬁnizione del mix espositivo (store layout planning). Questionari di valutazione del servizio al cliente Tramite analisi di classiﬁcazione `e possibile valutare la propensione di un cliente (nuovo o esistente) all’acquisto dei prodotti del mix espositivo presso il punto vendita gestito da una certa azienda, la quale commissiona lo studio di classiﬁcazione, al ﬁne di valutare il livello di soddisfazione del cliente, che eﬀettua usualmente la propria spesa recandosi al punto vendita. La variabile target da stimare `e data dalla soddisfazione del cliente, esprimibile mediante le seguenti alternative: • variabile booleana {non soddisfatto = 0; soddisfatto = 1}; • variabile numerica discreta esprimente la classe di soddisfazione {0, 1, . . . , 10}; • variabile booleana indicante se il cliente ha incrementato o decrementato il volume di acquisti presso il punto vendita nel periodo t, successivo alla compilazione del questionario, rispetto al volume registrato in corrispondenza del periodo t − 1. Le variabili esplicative sono deﬁnite dalle domande in cui si articola il questionario di gradimento del livello di servizio erogato; le possibili alternative di risposta, in numero ﬁnito ed aventi un codice identiﬁcativo univoco, rappresentano le realizzazioni storiche delle corrispondenti variabili esplicative, di tipo numerico discreto. Esempi di driver del livello di servizio presso il punto vendita sono dati da: assortimento del mix di prodotti sugli scaﬀali, rapporto qualit` a/prezzo, disponibilit` a dei prodotti a scaﬀale, facilit` a di reperimento dei prodotti sugli scaﬀali, disponibi-

316

9 Demand Intelligence: classiﬁcazione

lit` a del personale in caso di reclami o informazioni all’interno del punto vendita, puntualit` a delle consegne nel caso di servizio di consegna della spesa a domicilio.

9.3 Analisi dei dati per la classiﬁcazione 9.3.1 Introduzione Prima di procedere all’applicazione di un algoritmo di classiﬁcazione per determinare un insieme di regole idonee a classiﬁcare nuove entit` a in ingresso, attribuendo un valore all’attributo target categorico, `e utile procedere all’analisi dei dati disponibili all’interno del dataset, contenente m osservazioni gi`a classiﬁcate, i relativi valori degli n attributi esplicativi ed i valori per l’attributo target y. Le ﬁnalit` a di questa analisi numerica sono molteplici: 1. evidenziare irregolarit`a nei dati, dovute ad errato caricamento dai sistemi transazionali ai sistemi di data warehousing (ad esempio, occorre gestire i record contenenti campi mancanti, in corrispondenza di qualche attributo esplicativo); 2. generare report sintetici, al ﬁne di evidenziare la distribuzione percentuale dei valori degli attributi esplicativi rispetto all’attributo target; 3. discriminare quali osservazioni storiche devono essere utilizzate nel training set e quali devono appartenere al test set, impiegabili come veriﬁca della qualit` a del modello di classiﬁcazione generato. La tabella 9.1 riporta un esempio di dataset contenente m = 25 segmenti prodottomercato gi`a classiﬁcati, cio`e aventi un assegnato valore dell’attributo target classe di fatturato, variabile categorica ordinale che pu` o assumere i tre valori {y1 = alto; y2 = medio; y3 = basso}. Esistono inoltre 5 nuovi segmenti da classiﬁcare, caratterizzati dalla presenza del nuovo prodotto P6 da collocare all’interno dei mercati C1 , C2 , C3 , C4 , C5 . Le 25 osservazioni disponibili si riferiscono all’impatto sul fatturato avutosi nel passato, in seguito alla vendita dei nuovi prodotti P1 , P2 , P3 , P4 , P5 promozionati nei periodi precedenti, per i quali `e stata registrata nella variabile target classe di fatturato la fascia di collocazione del fatturato nel primo semestre di vendita. In seguito all’implementazione di azioni promozionali, si `e potuta misurare l’eﬃcacia di tali interventi di marketing sul fatturato eﬀettivo rilevato dopo i primi 6 mesi di vita dei prodotti. Si vuol determinare un modello di classiﬁcazione in grado di prevedere la classe di fatturato per nuovi prodotti (ad esempio, per il prodotto P6 ), che in futuro saranno collocati presso i cinque mercati C1 , C2 , C3 , C4 , C5 . Da una prima analisi qualitativa degli analisti di Demand Intelligence, sono stati estratti sei attributi descrittivi, per ipotesi indipendenti fra loro, idonei a fornire la base dati numerica per l’apprendimento supervisionato del modello di classiﬁcazione: • colore del prodotto (ritenuto interessante come driver per misurare il gradimento, o “eﬀetto moda”, sugli acquirenti); • tipo di prodotto nuovo (sostitutivo (1) o innovativo (0)); • prezzo del prodotto (o fascia di prezzo), opportunamente discretizzato;

9.3 Analisi dei dati per la classiﬁcazione

317

• presenza di campagne pubblicitarie condotte su canali televisivi (s`ı (1), no (0)); • numero di varianti vendute per il nuovo prodotto nello speciﬁco mercato; • intensit` a della campagna di marketing associata al nuovo prodotto (misurata ad esempio sul budget concesso per l’advertising)7 . 9.3.2 Report per l’analisi numerica Diversi report possono essere generati per supportare il decisore nei processi conoscitivi di Demand Intelligence, per visualizzare la distribuzione dei dati fra attributi esplicativi ed attributo target. Tale indagine `e utile per meglio condurre e tarare i modelli di classiﬁcazione per la determinazione delle regole di correlazione fra attributi. I report che si possono estrarre dal dataset sono: frequenza relativa degli attributi, frequenza degli attributi per classi target, proﬁlo degli attributi esplicativi. I report sono customizzati sui dati dell’esempio numerico di cui alla tabella 9.1. Frequenza relativa degli attributi Per ciascun attributo, esplicativo o target, si calcola la frequenza dei valori assunti all’interno del dataset contenente le osservazioni disponibili. Dato un attributo j (j = 1, . . . , n + 1), la frequenza relativa del suo valore vjw `e data dal rapporto fra: • il numero di osservazioni che contengono il valore vjw per l’attributo j: xij = vwj (i = 1, . . . , m); • il numero totale di osservazioni, pari alla cardinalit` a m del dataset, inclusivo di training set e test set. In formule, la frequenza pwj del valore vwj (w = 1, . . . , Wj ) per l’attributo j vale: 1 · card{i = 1, . . . , m | xij = vwj } . m Vale la seguente relazione: assegnato un attributo j, la somma delle probabilit` a estese a tutti i possibili valori dell’attributo j (all’interno dell’insieme vwj ), calcolata su tutte le m osservazioni storiche nel dataset, assume valore unitario: pwj = prob(xij = vwj ) =

Wj m

prob(xij = vwj ) = 1 .

i=1 w=1

All’aumentare della dimensione m del dataset contenente i dati storici, la frequenza a gi` a classiﬁcapwj di occorrenza del valore w per l’attributo j all’interno di m entit` te approssima la probabilit` a che, in una nuova entit` a da classiﬁcare (appartenente al forecast set ), l’attributo j assuma il valore w. 7

Tale variabile esplicativa, inizialmente di tipo numerico continuo, ` e stata trasformata in categorica ordinale, avendo predeﬁnito tre classi di budget pubblicitario (alto, medio, basso), all’interno delle quali collocare i valori numerici pari all’eﬀettivo esborso erogato nel passato per il marekting dei prodotti P1 , P2 , P3 , P4 , P5 . Per il nuovo prodotto P6, oggetto di classiﬁcazione, si esegue una stima del budget concesso sui diversi mercati C1 , C2 , C3 , C4 , C5 .

318

9 Demand Intelligence: classiﬁcazione

Tabella 9.1. Esempio numerico per l’applicazione degli algoritmi di classiﬁcazione segmento

colore

tipo

P1 P1 P1 P1 P1 P2 P2 P2 P2 P2 P3 P3 P3 P3 P3 P4 P4 P4 P4 P4 P5 P5 P5 P5 P5 P6 P6 P6 P6 P6

rosso rosso rosso rosso rosso verde verde verde verde verde giallo giallo giallo giallo giallo rosso rosso rosso rosso rosso verde verde verde verde verde giallo giallo giallo giallo giallo

1 1 0 1 1 1 0 0 1 1 0 1 1 0 1 1 0 1 0 0 1 1 1 0 1 1 1 0 0 0

– – – – – – – – – – – – – – – – – – – – – – – – – – – – – –

C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 C1 C2 C3 C4 C5

prezzo 19.99 14.99 9.99 14.99 14.99 29.99 29.99 29.99 14.99 19.99 14.99 9.99 14.99 14.99 19.99 29.99 29.99 29.99 19.99 29.99 19.99 19.99 19.99 19.99 14.99 29.99 29.99 29.99 19.99 19.99

promo TV

numero varianti

1 1 0 0 0 1 1 1 0 0 0 1 1 0 1 1 1 0 0 1 1 1 0 1 0 1 1 0 1 0

4 3 3 2 2 3 4 2 2 2 2 2 4 4 4 2 3 3 3 3 3 3 4 3 3 2 3 2 3 2

intensit` a campagna

fatturato

alta alta bassa alta bassa bassa media alta bassa media alta media media alta alta alta media bassa bassa alta bassa alta alta media alta media media media alta alta

alto alto medio medio medio basso medio alto basso basso alto alto basso basso medio medio basso basso basso alto medio medio alto alto alto ? ? ? ? ?

9.3 Analisi dei dati per la classiﬁcazione

319

In tabella 9.2 sono presenti i risultati del calcolo per l’esempio numerico. Ad esempio, la frequenza del valore rosso per l’attributo colore `e pari al 40% = 10/25, essendo presenti nel dataset due prodotti (P1 e P4 ) aventi tale colore, ciascuno replicato sui cinque mercati C1 , C2 , C3 , C4 , C5 . Le frequenze relative associate alle tre classi target {alto, medio, basso}, dette anche probabilit` a a priori del target, sono date da: 1 9 • p1y = prob (yi = alto) = m · card{i = 1, . . . , m | yi = alto} = 25 = 0,36 1 8 • p2y = prob (yi = medio) = m · card{i = 1, . . . , m | yi = medio} = 25 = 0,32 1 8 • p3y = prob (yi = basso) = m · card{i = 1, . . . , m | yi = basso} = 25 = 0,32

Tabella 9.2. Frequenze relative per gli attributi dell’esempio numerico Attributo Colore Colore Colore Tipo Tipo Prezzo Prezzo Prezzo Prezzo promo TV promo TV Num. Varianti Num. Varianti Num. Varianti intensit` a promo intensit` a promo intensit` a promo classe di fatturato classe di fatturato classe di fatturato

tipo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo esplicativo target target target

valore rosso verde giallo 0 1 9.99$ 14.99$ 19.99$ 29.99$ 0 1 2 3 4 alta media bassa alto medio basso

frequenza 10/25 10/25 5/25 9/25 16/25 2/25 8/25 8/25 7/25 11/25 14/25 8/25 11/25 6/25 12/25 6/25 7/25 9/25 8/25 8/25

Proﬁlo degli attributi esplicativi Per ciascun attributo esplicativo `e possibile visualizzare graﬁcamente la distribuzione dei suoi valori ammissibili sui diversi valori dell’attributo target. La costruzione del diagramma dei proﬁli prevede di collocare: • gli attributi esplicativi sulle righe; • i valori assunti dall’attributo target sulle colonne.

320

9 Demand Intelligence: classiﬁcazione

In ciascuna cella del diagramma si rappresenta la distribuzione numerica dei valori assunti dall’attributo esplicativo, a parit` a di valore selezionato (colonna) per l’attributo target. La tabella 9.3 mostra un esempio di proﬁlo degli attributi per i due attributi esplicativi colore e prezzo. Tale tabella pu` o ulteriormente essere customizzata per produrre report derivati, ad esempio sotto forma di percentuali di frequenza, ricorrendo anche a rappresentazioni graﬁche pi` u intuitive ed intellegibili da parte degli utenti di Demand Intelligence (istogrammi, correlogrammi). Frequenza relativa degli attributi per classe target Il terzo report presenta la frequenza di occorrenza dei possibili valori di ciascun attributo categorico, ripartita sui possibili valori dell’attributo target. Dato un attributo non target j (j = 1, . . . , n), la frequenza relativa del suo valore vjw , condizionata alla presenza del valore y = y∗ per l’attributo target, `e data dal rapporto fra: • il numero di osservazioni che contengono, allo stesso tempo, il valore vjw per l’attributo j ed il valore y* per l’attributo target; • il numero di osservazioni del dataset contenenti il valore y* per l’attributo target. Tabella 9.3. Proﬁlo di due attributi esplicativi per l’esempio numerico attributo

stati

colore

rosso verde giallo 9.99$ 14.99$ 19.99$ 29.99$

prezzo

popolazione 10 10 5 2 8 8 7

valore = alto 3 4 2 1 3 3 2

valore = medio 4 3 1 1 2 3 2

valore = basso 3 3 2 0 3 2 3

In formule, la frequenza condizionata del valore vwj (w = 1, . . . , Wj ) per l’attributo non target j `e data da: prob(xij = vwj | y = y∗) =

card{i = 1, . . . , m | xij = vwj ∪ y = y∗} . card{i = 1, . . . , m | y = y∗}

Vale la seguente relazione, per ogni valore y* assumibile dall’attributo target y: Wj m

prob(xij = vwj | y = y∗) = 1 .

i=1 w=1

All’aumentare della dimensione m del dataset contenente i dati storici, la frequenza di occorrenza del valore w per l’attributo esplicativo j, condizionata al

9.4 Misure di prestazione per la classiﬁcazione

321

veriﬁcarsi del valore y* per l’attributo target (all’interno di m entit` a gi` a classiﬁcate) approssima la probabilit` a che, in una nuova entit` a da classiﬁcare, si veriﬁchino contemporaneamente le relazioni y = y* e xij = vwj . Il valore prob(xij = vwj | y = y∗) precedentemente calcolato prende il nome di probabilit` a (di un attributo esplicativo) condizionata al target. La tabella 9.4 riporta i valori delle probabilit` a condizionate per i diversi valori assunti dagli attributi esplicativi.

9.4 Misure di prestazione per la classiﬁcazione 9.4.1 Schema generale dei modelli di classiﬁcazione Un modello di classiﬁcazione assegna un valore ammissibile per l’attributo target di ciascuna entit` a da classiﬁcare, conoscendo i valori degli attributi esplicativi per le entit` a in ingresso. A posteriori, `e possibile misurare il valore eﬀettivo assunto dalla variabile target (ad esempio: il fatturato a consuntivo, opportunamente discretizzato per ciascuna coppia prodotto-mercato, calcolato sul prossimo esercizio contabile) e confrontarlo con la predizione operata dal classiﬁcatore adottato (ad esempio: il fatturato stimato per il prossimo esercizio contabile). Il valore stimato per la variabile categorica target pu` o: • coincidere con il valore eﬀettivo (la stima si rivela accurata al 100%); • diﬀerire dal valore eﬀettivo (la stima si rivela totalmente inaccurata). Nei modelli supervisionati di classiﬁcazione non `e signiﬁcativo misurare la distanza fra valore stimato e valore eﬀettivo, a diﬀerenza di quanto accade nei modelli supervisionati di sales forecasting e di regressione, o nei modelli non supervisionati di clustering. Un classiﬁcatore `e “migliore” di un altro, se il numero complessivo di classiﬁcazioni da esso eseguite correttamente `e superiore al numero di assegnazioni esatte operate dal secondo classiﬁcatore. Metriche di performance devono essere deﬁnite per valutare la classiﬁcation accuracy, cio`e l’accuratezza che il classiﬁcatore scelto ha nell’assegnare la classe target a nuove istanze prodotto-mercato. L’accuratezza di un classiﬁcatore deve essere valutata esclusivamente all’interno del test set, avente cardinalit`a mB < m, essendo m la dimensione del dataset storico. Lo schema generale di esecuzione dei modelli e degli algoritmi di classiﬁcazione prevede lo sviluppo delle seguenti fasi (riportate in ﬁgura 9.1). Analisi dei dati. Le osservazioni gi`a classiﬁcate, presenti nel dataset storico, vengono analizzate dal punto di vista quantitativo, mediante il supporto dei report tabellari presentati nella precedente sezione 9.3, con l’obiettivo di: • rimuovere outlier, dati mancanti o valori la cui frequenza di occorrenza `e inferiore ad una soglia minima pmin ;

322

9 Demand Intelligence: classiﬁcazione Tabella 9.4. Probabilit` a condizionate alle classi per gli attributi dell’esempio

attributo

valore

target

Freq.

attributo

valore

target

Freq.

colore

rosso

0

verde

promo TV

1

colore

giallo

3/9 4/8 3/8 4/9 3/8 3/8 2/9

promo TV

colore

alto medio basso alto medio basso alto

num. varianti

2

alto medio basso alto medio basso alto

3/9 3/8 5/8 6/9 5/8 3/8 3/9

0

medio basso alto

1/8 2/8 4/9

3

medio basso alto

3/8 2/8 4/9

1

medio basso alto

2/8 3/8 5/9

4

medio basso alto

3/8 4/8 2/9

9.99$

medio basso alto

6/8 5/8 1/9

alta

medio basso alto

2/8 2/8 7/9

14.99$

medio basso alto

1/8 0/8 = 0 3/9

media

medio basso alto

4/8 1/8 2/9

19.99$

medio basso alto

2/8 3/8 3/9

bassa

medio basso alto

medio basso alto medio basso

3/8 2/8 2/9 2/8 3/8

1/8 3/8 0/9 =0 3/8 4/8

tipo

tipo

prezzo

prezzo

prezzo

prezzo

29.99$

num. varianti

num. varianti

intensit` a promo

intensit` a promo

intensit` a promo

medio basso

9.4 Misure di prestazione per la classiﬁcazione

323

• selezionare gli n attributi esplicativi signiﬁcativi, indipendenti e non multicollineari, da proporre in ingresso al modello di classiﬁcazione. Ripartizione dei dati. I dati presenti nel dataset contenente m osservazioni storiche, gi` a classiﬁcate nel passato mediante: • metodologie empiriche “manuali” (best practices aziendali, per esempio); • altri classiﬁcatori “automatici”; vengono ripartiti in due insiemi disgiunti8: a gi` a classiﬁcate utilizzate per • training set : di cardianalit` a mA , contiene le entit` l’addestramento del classiﬁcatore; • test set : di cardianalit` a mB , contiene le entit` a gi` a classiﬁcate utilizzate per la valutazione dell’accuratezza predittiva del classiﬁcatore. Al momento della deﬁnizione degli insiemi di training e di test, pu` o anche essere disponibile un insieme di entit` a non ancora classiﬁcate, di cui sono noti i valori degli n attributi esplicativi: tali entit` a formano il forecast set. Non appena il modello di classiﬁcazione viene deﬁnito e certiﬁcato, mediante valutazione di accuratezza sul test set, pu` o essere applicato per predire la classe dell’attributo categorico target delle osservazioni di forecast set. Training del modello di classiﬁcazione. A seconda delle diﬀerenti metodologie applicate per la classiﬁcazione, il classiﬁcatore C viene addestrato sui dati disponibili nel training set. Attraverso l’analisi dei legami intercorrenti fra i valori noti degli attributi esplicativi ed i valori noti per l’attributo target, valutati sulle mA osservazioni disponibili per il training, il classiﬁcatore formula il modello di classiﬁcazione basato, in alternativa: • su regole di classiﬁcazione (di tipo if /then/else); • su valori numerici di probabilit` a di assegnazione di entit` a alle classi target corrispondenti ai diversi valori categorici dell’attributo target. Diversi classiﬁcatori C1 , C2, . . ., possono essere addestrati, mediante algoritmi diﬀerenti, sul medesimo training set. Valutazione del modello di classiﬁcazione. Al termine della fase di elaborazione del modello di classiﬁcazione C sui dati del training set, il modello formulato viene validato mediante la predizione della classe target per le entit` a appartenenti al test set. Per ciascuna entit` a inserita nel set di testing: • l’algoritmo di classiﬁcazione procede all’assegnazione delle classi target; • un’opportuna metrica di performance analizza la qualit` a dei risultati, valutando se le classi sono state correttamente assegnate. Una volta eseguita l’analisi degli errori di classiﬁcazione per il classiﬁcatore C sulle mB osservazioni del test set, una misura sintetica di accuratezza predittiva assegna un valore di merito AC al classiﬁcatore stesso. 8

Gi` a deﬁniti nel paragrafo 9.1.2.

324

9 Demand Intelligence: classiﬁcazione

ANALISI DEI DATI

DATASET DETERMINAZIONE TRAINING SET / TEST SET TRAINING SET

ELABORAZIONE MODELLO DI CLASSIFICAZIONE VALIDAZIONE MODELLO DI CLASSIFICAZIONE

MODELLO C1

MODELLO C2

MODELLO C3

TEST SET

SCELTA MODELLO DI CLASSIFICAZIONE

MODELLO C*

APPLICAZIONE MODELLO DI CLASSIFICAZIONE

FORECAST SET

entità classificate

Figura 9.1. Schema logico dei modelli di classiﬁcazione

Scelta del modello di classiﬁcazione. Tra i modelli di classiﬁcazione generati mediante addestramento sul training set e validazione sul test set, viene selezionato quello che ha ottenuto accuratezza AC maggiore. Applicazione del modello di classiﬁcazione. Il modello di classiﬁcazione selezionato viene applicato in modalit` a predittiva alle entit` a prodotto-mercato da classiﬁcare: alcuni record sono gi` a disponibili nel forecast set, altri verranno generati in periodi futuri dell’orizzonte temporale di pianiﬁcazione. Manutenzione del modello di classiﬁcazione. Periodicamente, il modello di classiﬁcazione C viene sottoposto a revisione, ad esempio eseguendone una nuova taratura parametrica su un nuovo dataset di entit` a gi` a classiﬁcate. In seguito al riaddestramento del modello, pu`o accadere che: • le regole di classiﬁcazione e le stime probabilistiche delle probabilit` a di appartenenza alle classi subiscano signiﬁcative modiﬁche; • altri modelli di classiﬁcazione risultino essere maggiormente accurati, qualora testati su un nuovo dataset di osservazioni storiche. In questi casi, dev’essere nuovamente eseguita una comparazione fra modelli alternativi di classiﬁcazione.

9.4 Misure di prestazione per la classiﬁcazione

325

9.4.2 Classiﬁcation Accuracy Data un’entit` a i-esima da classiﬁcare, siano yi e yiC rispettivamente il valore a posteriori dell’attributo target ed il valore assegnato dal classiﬁcatore C, utilizzato in modalit` a predittiva sul forecast set. Si deﬁnisce funzione di perdita (loss L) relativa alla i-esima entit`a da classiﬁcare la seguente quantit` a 0 se yi = yiC L(yi , yiC ) = ; 1 se yi = yiC una classiﬁcazione errata in corrispondenza della i-esima entit`a, cio`e l’attribuzione all’entit` a i-esima di una classe non corretta, comporta una perdita unitaria, dando luogo ad una accuratezza locale nulla. L’accuratezza di un classiﬁcatore viene valutata all’interno dell’intero test a da classiﬁcare, i cui valori per l’attributo target sono set, contenente mB entit` comunque noti a priori. L’errore di classiﬁcazione E C complessivo di un classiﬁcatore C `e deﬁnito come la somma delle funzioni di perdita estese alle mB osservazioni del test set: EC =

mB 1 L(yi , yiC ) . mB i=1

Un errore di classiﬁcazione unitario implica che tutte le osservazioni del test set sono state classiﬁcate in modo non corretto, cio`e il classiﬁcatore possiede un’accua ratezza nulla. Si deﬁnisce pertanto classiﬁcation accuracy AC la seguente quantit` associata ad un classiﬁcatore C: AC = 1 − EC = 1 −

mB 1 L(yi , yiC ) . mB i=1

Il classiﬁcatore selezionato all’interno di un insieme di classiﬁcatori C1 , C2 , . . . , Ck `e quello avente accuratezza predittiva massima: k = 1, . . . , K | ACk = max{ACw } . w

L’accuratezza dei modelli di classiﬁcazione dipende in modo particolare dalla modalit` a di costruzione dei set di training e di test. Il modello di classiﬁcazione forma la propria intelligenza esplorando i dati nel training set, certiﬁcando la propria ` possibile costruire i due subset del dataset di qualit` a interna sul set di testing. E cardinalit` a m secondo due principali modalit` a: a componenti il training set sono estratte casual• metodo holdout : le mA entit` mente (con distribuzione discreta uniforme sul totale degli m elementi del dataset); per diﬀerenza si determinano gli mB elementi formanti il test set; • metodo dei campionamenti casuali ripetuti : si esegue il metodo holdout un numero ﬁnito W di volte, rigenerando ad ogni iterazione i due set di training e

326

9 Demand Intelligence: classiﬁcazione

di test mediante estrazione di numeri casuali uniformemente distribuiti nell’intervallo [1, m]. Ad ogni iterazione w-esima, l’accuratezza AC (w) del modello di classiﬁcazione ottenuto viene misurata sui dati del test set. Al termine delle iterazioni, l’accuratezza del classiﬁcatore `e data dalla media aritmetica delle accuratezze registrate in corrispondenza di ciascuna rigenerazione dei due subset: AC =

W 1 AC (w) . W w=1

9.4.3 Analisi dell’errore di classiﬁcazione Esistono misure di accuratezza che non si limitano a valutare il numero di classiﬁcazioni eseguite correttamente, come nel caso della misura di classiﬁcation accua racy AC , ma analizzano la tipologia di errore commesso, nell’ipotesi che la gravit` di una misclassiﬁcazione sia asimmetrica rispetto ai valori assunti dall’attributo target. Ad esempio, se la predizione mediante algoritmi di classiﬁcazione viene effettuata per stimare la probabilit`a che un cliente inoltri un reclamo, in seguito all’acquisto di un prodotto difettoso o non conforme nel packaging, l’importanza dell’eﬀettivo inoltro di un reclamo (valore 1 per la corrispondente variabile target booleana) `e signiﬁcativamente maggiore rispetto all’importanza che l’acquirente sia soddisfatto dell’acquisto compiuto (valore 0 per l’attributo booleano). Se il 3% dei clienti mediamente inoltra un reclamo al punto vendita (calcolato ad esempio su base annua), allora un classiﬁcatore deterministico che contiene l’unica regola banale “il cliente non inoltra alcun reclamo” presenta un’elevata accuratezza del 97%, ma non `e in alcun modo in grado di prevedere la presenza di futuri reclami da parte dei consumatori, vera motivazione che conduce alla messa a punto di un modello di classiﬁcazione. Nell’esempio proposto, la predizione del valore 0 risulta pi` u importante rispetto alla corretta predizione del valore 1. Con riferimento ad un attributo categorico target di tipo booleano, all’interno del test set (di cardinalit` a mB ) il classiﬁcatore produce i seguenti risultati: • • • •

N11 : N00 : N10 : N01 :

numero numero numero numero

di di di di

previsioni previsioni previsioni previsioni

yC yC yC yC

=1 =0 =1 =0

vere (y = 1); vere (y = 0); false (y = 0); false (y = 1).

Vale la relazione: N11 + N00 + N10 + N01 = mB . Con riferimento ad un attributo target booleano, la classiﬁcation accuracy del modello di classiﬁcazione C, deﬁnita nel paragrafo precedente, `e pari a:

AC =

N11 + N00 . N11 + N00 + N10 + N01

9.5 Classiﬁcatori bayesiani naive

327

La percentuale di classiﬁcazioni yC = 0 accurate (cio`e tali che y = yC = 0) `e pari a: N00 , AC (y = 0) = N00 + N10 anche detta percentuale di osservazioni vere negative. Con riferimento a tale indicatore di performance per la classiﬁcazione, l’accuratezza del classiﬁcatore “il cliente non inoltra alcun reclamo”, relativo all’esempio precedente, `e pari a zero. Analogamente, si deﬁnisce percentuale di osservazioni vere positive la seguente formula: N11 . AC (y = 1) = N11 + N01 La precisione PC di un classiﬁcatore C `e deﬁnibile alternativamente come: • percentuale di entit` a “negative” classiﬁcate correttamente yC = 0: PC (y = 0) =

N00 ; N00 + N01

• percentuale di entit` a “positive” classiﬁcate correttamente yC = 1: PC (y = 1) =

N11 . N11 + N10

9.5 Classiﬁcatori bayesiani naive 9.5.1 Calcolo delle probabilit` a condizionate Il classiﬁcatore bayesiano naive opera una classiﬁcazione di tipo probabilistico sulle entit` a alle quali associare un valore dell’attributo categorico target. Assegnata una osservazione da classiﬁcare x i = {xi1 xi2 xi3 . . . xij . . . xin yi } , di cui sono noti i valori xij degli n attributi esplicativi ed `e incognito il valore yi dell’attributo target, l’obiettivo del classiﬁcatore bayesiano naive consiste nel calcolare i valori delle probabilit` a delle classi target condizionate agli attributi esplicativi, per ciascun valore distinto assumibile dall’attributo target9 . In altri termini, assegnato il vettore (n + 1)-dimensionale x i per la i-esima entit`a appartenente al forecast set, si vuole caratterizzare quantitativamente la distribuzione delle probabilit` a prob (y | x i ) che l’entit` a x i considerata abbia classe target y, • sapendo che il suo vettore degli attributi esplicativi `e noto e dato da x i , • al variare dei possibili valori assumibili dall’attributo target y. 9

Nella trattazione del classiﬁcatore bayesiano naive, cos`ı come per quanto concerne la classiﬁcazione ad albero, si omette la speciﬁcazione dell’indice C (ad esempio: yC ) relativo al modello di classiﬁcazione localmente utilizzato.

328

9 Demand Intelligence: classiﬁcazione

Assegnati i possibili V valori {y1 , y2 , y3 , . . . , yv , . . . , yV } per l’attributo target, si vogliono stimare le probabilit` a a posteriori prob (y1 | x i ), prob (y2 | x i ), . . . , prob (yv | x i ), . . . , prob (yV | x i ), legate dalla relazione V

prob(y = yv | xi) = 1 .

v=1

Attraverso il teorema di Bayes, `e possibile mettere in relazione: • le probabilit` a a posteriori prob (yv | x i) che si veriﬁchi una classe target, assegnati i valori degli attributi esplicativi; • le probabilit` a a priori prob(yv ) che la variabile target assuma valore y = yv , a prescindere dai valori assunti dagli attributi esplicativi; • le probabilit` a condizionate alle classi target prob(x i | yv ), cio`e la stima del veriﬁcarsi di un vettore n-dimensionale di attributi esplicativi condizionato alla realizzazione della variabile target y = yC . La formula di Bayes esprime una modalit`a di calcolo delle probabilit` a a posteriori, con riferimento all’entit` a da classiﬁcare x i : prob(y = yv | xi ) =

prob(xi | y = yv ) · prob(y = yv ) V

.

prob(xi | y = yw ) · prob(y = yw )

w=1

Per il teorema delle probabilit` a totali, deﬁnito dalla relazione prob(xi ) =

V

prob(xi | y = yw ) · prob(y = yw ) ,

w=1

l’espressione al denominatore nella formula di Bayes `e indipendente dai valori yv assumibili dalla classe target. Di conseguenza, nell’ottica di calcolare i valori numerici della distribuzione a posteriori prob (yv | x i ), il termine prob (x i ) pu` o essere rimosso in quanto costante ed indipendente dai valori yv . La distribuzione prob (yv | x i ) si determina quindi valutando i prodotti fra le probabilit` a a priori delle classi target e le probabilit` a degli attributi esplicativi condizionati alle classi assumibili dall’attributo target. Seguendo l’approccio del classiﬁcatore bayesiano naive, a partire dalla conoscenza della distribuzione prob (yv | x i), l’entit` a x i oggetto di classiﬁcazione viene assegnata alla classe yv che identiﬁca il valore massimo della distribuzione stessa: y = yv | prob(y = yv | xi) = max{prob(y = yw | xi )} = w

= max{prob(xi | y = yw ) · prob(y = yw )} . w

9.5.2 Indipendenza degli attributivi esplicativi condizionati alle classi Sulla base del teorema di Bayes, `e stato precedentemente osservato che le probabilit` a a posteriori sono proporzionali al prodotto fra le probabilit` a a priori delle classi target e le probabilit`a degli attributi esplicativi condizionate alle classi.

9.5 Classiﬁcatori bayesiani naive

329

Il calcolo della probabilit` a a posteriori prob(yv | x i ), per ciascuna n-upla di attributi esplicativi in ingresso (vettore x i ), implica quindi il calcolo del prodotto prob(xi | y = yv ) · prob(y = yv ) , per ciascun valore assumibile yv (v = 1, . . . , V ) dall’attributo target. Le probabilit` a a priori delle classi target (prob (y = yv )) si calcolano valutando la frequenza con cui i valori yv dell’attributo target compaiono nelle mA osservazioni contenute nel training set: prob(y = yv ) =

1 · card{i = 1, . . . , mA | y = yv } . mA

Le probabilit` a degli attributi esplicativi condizionati alle classi si calcolano facendo la seguente ipotesi sempliﬁcativa, propria dei classiﬁcatori bayesiani naive: gli n attributi esplicativi, condizionati alle classi, sono indipendenti fra loro. Pertanto, il a formale: termine prob(xi | y = yv ), meglio esplicitabile tramite la seguente identit` prob(xi | y = yv ) ≡ prob(xi1 = x∗i1 ∪ . . . ∪ xij = x∗ij ∪ . . . ∪ xin = x∗in | y = yv ), `e scomponibile nel prodotto delle probabilit` a di occorrenza dei singoli attributi esplicativi condizionati ai valori dell’attributo target: prob(xi | y = yv ) ≡

n

prob(xij = x∗ij | y = yv ) .

j=1

Il singolo termine della produttoria rappresenta la probabilit` a che, in corrispondenza dell’entit` a i-esima, l’attributo j-esimo assuma valore x*ij , condizionatamente al valore yv assunto dall’attributo target y. Nel caso in cui l’attributo esplicativo j-esimo (j = 1, . . . , n) sia di tipo categorico o numerico discreto, tale valore si calcola mediante il seguente rapporto: • al numeratore si calcola il numero di entit` a, appartenenti al training set, per le quali valgono contemporaneamente le relazioni: y = yv ∪ xij = x∗ij ; • al denominatore si calcola il numero di entit` a, appartenenti al training set, per le quali l’attributo target assume il valore y = yv ; in formule: prob(xij = x∗ij | y = yv ) =

card{i = 1, . . . , mA | xij = x∗ij ∪ y = yv } . card{i = 1, . . . , mA | y = yv }

Nel caso in cui l’attributo esplicativo j-esimo sia invece di tipo numerico continuo, il valore della probabilit` a condizionata alle classi target si calcola ipotizzando che i valori continui assunti dall’attributo esplicativo seguano una distribuzione continua di probabilit` a, ad esempio di tipo normale, esponenziale negativo, uniforme. In quest’ultimo caso, ad esempio, vale la seguente relazione:

330

9 Demand Intelligence: classiﬁcazione

prob(xij = x∗ij | y = yv ) = =

1 , max{xij | i = 1, . . . , mA ∪ y = yv } − min{xij | i = 1, . . . , mA ∪ y = yv }

calcolata con riferimento alle sole osservazioni appartenenti al training set, indipendente dal valore puntuale x∗ij dell’attributo. Attraverso i metodi della statistica matematica, `e opportuno certiﬁcare preliminarmente che i valori numerici continui dell’attributo j-esimo seguano eﬀettivamente una certa distribuzione di probabilit` a continua, avente forma algebrica nota e parametri (media, varianza, minimo, massimo) calcolabili facilmente dalla distribuzione empirica dei dati all’interno del training set. 9.5.3 Esempio numerico Con riferimento all’esempio numerico relativo al dataset contenente m = 25 osservazioni presentate in tabella 9.1, si vuol determinare la classe target per le entit` a relative al nuovo prodotto P6 , riportate di seguito in tabella 9.5. Tabella 9.5. Entit` a prodotto-mercato da classiﬁcare nell’esempio numerico segmento

colore

tipo

prezzo

promo TV

numero varianti

intensit` a campagna

fatturato

P6 P6 P6 P6 P6

giallo giallo giallo giallo giallo

1 1 0 0 0

29.99$ 29.99$ 29.99$ 19.99$ 19.99$

1 1 0 1 0

2 3 2 3 2

media media media alta alta

? ? ? ? ?

– – – – –

C1 C2 C3 C4 C5

Con riferimento al primo segmento prodotto-mercato {P6 −C1 }, la n-upla di attributi esplicativi `e data da {giallo, 1, 29.99$, 1, 2, media}. La probabilit` a a posteriori dei tre possibili valori target {alto, medio, basso}, assegnati gli attributi esplicativi, `e data dalle espressioni: prob {y = alto | {P6 − C1 }}; prob {y = medio | {P6 − C1 }}; prob {y = basso | {P6 − C1 }}, calcolate nel modo seguente, facendo riferimento ai dati numerici presenti in tabella 9.4, relativi alle probabilit` a degli attributi esplicativi condizionati ai valori assunti dalle classi target: • prob {y = alto | {P6 − C1 }} = prob {y = alto} · prob {colore = giallo | y = alto} · prob{tipo = 1 | y = alto} · prob{prezzo = 29.99$ | y = alto} · prob {promo TV = 1 | y = alto} · a = media | y = alto} = prob {num varianti = 2 | y = alto} · prob{intensit` 9 2 5 2 6 3 2 · · · · · · = 4,87 · 10−4 ; = 25 9 9 9 9 9 9

9.6 Classiﬁcatori ad albero

331

• prob{y = medio | {P6 − C1 }} = prob{y = medio} · prob{colore = giallo | y = medio} · prob{tipo = 1 | y = medio} · prob{prezzo = 29.99$ | y = medio} · prob{promo TV = 1 | y = medio} · prob{num varianti = 2 | y = medio} · prob{intensit` a = media | y = medio} = 8 1 6 2 5 3 1 = · · · · · · = 2,19 · 10−4 ; 25 8 8 8 8 8 8 • prob{y = basso | {P6 − C1 }} = prob{y = basso} · prob{colore = giallo | y = basso} · prob{tipo = 1 | y = basso} · prob{prezzo = 29.99$ | y = basso} · prob{promo TV = 1 | y = basso} · prob{num varianti = 2 | y = basso} · prob{intensit` a = media | y = basso} = 8 2 5 3 3 2 3 · · · · · · = 6,59 · 10−4 . = 25 8 8 8 8 8 8 Fra i tre valori ottenuti prob{y = alto | {P6 − C1 }}, prob{y = medio | {P6 − C1 }}, prob{y = basso | {P6 − C1 }}, viene scelto il valore maggiore (6,59 · 10−4); pertanto la classe assegnata all’entit` a {P6 − C1 } `e y = basso. In modo analogo si procede al calcolo delle altre quattro entit` a da classiﬁcare, elencate in tabella 9.5.

9.6 Classiﬁcatori ad albero 9.6.1 Propriet` a degli alberi di classiﬁcazione I classiﬁcatori ad albero sono algoritmi euristici ricorsivi che suddividono le osservazioni contenute all’interno del training set in gruppi disgiunti, avendo l’obiettivo di massimizzare il grado di omogeneit` a delle entit` a associate a ciascun gruppo, in relazione al valore della classe target assunto dalle diverse entit` a. Un albero rappresenta una struttura gerarchica formata dai seguenti elementi: • nodi : sono le strutture che contengono le entit` a gi` a classiﬁcate appartenenti al training set; ciascun nodo `e etichettato tramite un codice identiﬁcativo; • archi : rappresentano gli elementi di collegamento gerarchico fra nodi, i quali sono correlati da relazioni di tipo padre-ﬁglio; • livelli: identiﬁcano la profondit` a dell’albero, cio`e il numero di volte in cui nodi padre (di livello gerarchico superiore) vengono esplosi in nodi ﬁglio (di livello gerarchico inferiore), partendo dal nodo origine (di livello 0, contenente tutte le mA osservazioni del training set) ﬁno ai nodi foglia appartenenti all’ultimo livello gerarchico, non ulteriormente suddivisi in nodi di livello inferiore. La scomposizione di un nodo di livello gerarchico L in un insieme di W nodi ﬁgli al livello gerarchico inferiore L + 1 `e caratterizzata dalla seguente propriet` a: deﬁniti nL il numero di entit` a appartenenti al nodo di livello L, nw il numero di entit` a appartenenti al w-esimo nodo di livello L + 1 originato dal nodo padre di livello L (w = 1, . . . , W ), la somma delle cardinalit` a dei nodi ﬁgli generati al livello L + 1

332

9 Demand Intelligence: classiﬁcazione

`e pari alla cardinalit` a del nodo padre di livello L: W

nw = n L .

w=1

Ad esempio, assegnato il nodo padre contenente i prodotti {P1 P2 P3 P4 P5 P6 P7 }, una possibile suddivisione di tale nodo `e data dalla generazione di tre nodi ﬁgli, rispettivamente contenenti le entit` a {P1 P2 P3 }, {P4 P7 }, {P5 P6 }, come illustrato in ﬁgura 9.2. {P1 P2 P3 P4 P5 P6 P7}

livello L

livello L+1 {P1 P2 P3}

{P4 P7}

{P5 P6}

Figura 9.2. Esempio di ripartizione di un nodo padre in tre nodi ﬁgli

9.6.2 Alberi di classiﬁcazione a priori Gli algoritmi di classiﬁcazione si propongono di desumere a posteriori regole di classiﬁcazione sulla base dell’analisi degli attributi esplicativi contenuti nelle mA osservazioni del training set, nell’ipotesi di aver gi` a classiﬁcato in precedenza tali entit` a, • mediante altri modelli di classiﬁcazione (ad esempio, classiﬁcatori bayesiani); • mediante regole informali, implicite, dettate da best practices aziendali. Quest’ultimo caso `e piuttosto frequente nelle aziende che non adottano metodologie e modelli matematici di Data Mining nelle fasi analitiche di Demand Intelligence. Sulla base di regole e pratiche aziendali deﬁnite a priori, i decisori di Demand Planning costruiscono alberi di classiﬁcazione multilivello. Assegnati ad esempio i tre attributi • livello di fatturato = {alto, medio, basso, molto basso}; • percentuale di resi (attributo numerico continuo non negativo); • zona geograﬁca = {1, 2, 3, 4, 5}; un insieme di regole di classiﬁcazione formulate basandosi su criteri ed esperienze aziendali a priori `e il seguente:

9.6 Classiﬁcatori ad albero

1. 2. 3. 4. 5.

if if if if if

livello livello livello livello livello

di di di di di

fatturato fatturato fatturato fatturato fatturato

= = = = =

333

{alto} and percentuale di resi < {10%} → classe A; {alto} and percentuale di resi ≥ {10%} → classe B; {medio} or {basso} and zona = {1} → classe B; {medio} or {basso} and zona != {1} → classe C; {molto basso} → classe C.

La ﬁgura 9.3 mostra lo schema dell’albero di classiﬁcazione dell’esempio.

TRAINING SET

FATTURATO ALTO

FATTURATO MOLTO BASSO

FATTURATO MEDIO

FATTURATO BASSO

C PERC. RESI INFERIORE AL 10%

A

PERC. RESI SUPERIORE AL 10%

B

B

C

ZONA 1 ZONA 2

C

C

C

ZONA 3

ZONA 4

ZONA 5

B

C

C

C

ZONA 1 ZONA 2 ZONA 3 ZONA 4

C

ZONA 5

Figura 9.3. Albero di classiﬁcazione a priori

I difetti logici delle classiﬁcazioni a priori basate sulle best practices aziendali sono: • insuﬃciente generalizzazione delle regole rispetto ai dati storici disponibili; • scarsa accuratezza predittiva delle regole di classiﬁcazione verso le nuove osservazioni che si presentano nel futuro. Ci`o `e dovuto al fatto che la classiﬁcazione a priori viene solitamente eﬀettuata con semplici analisi qualitative o semi-quantitative sui dati disponibili, ad esempio basandosi solamente sulle corrispondenze fra l’attributo target (la classe di merito, nell’esempio) ed un limitato insieme di attributi esplicativi ritenuti signiﬁcativi (talvolta il solo fatturato del punto vendita, ad esempio). In altri casi, la classiﬁcazione `e del tutto empirica e si basa sulla sola esperienza di business dei decisori. Lo studio delle interrelazioni fra l’attributo target e l’insieme delle variabili esplicative permette di operare classiﬁcazioni dotate di maggiore classiﬁcation accuracy, in quanto: • viene svolta una preliminare analisi di indipendenza e correlazione fra l’insieme delle variabili esplicative, al termine della quale si seleziona un subset di attributi esplicativi indipendenti e signiﬁcativi, rimuovendo attributi che presentano multicollinearit` a; • la classiﬁcazione opera su un numero generalmente maggiore di attributi esplicativi indipendenti, rispetto a quanto possibile con le semplici analisi numeriche di correlazione che si svolgono usualmente su fogli elettronici di calcolo.

334

9 Demand Intelligence: classiﬁcazione

9.6.3 Struttura degli algoritmi per la classiﬁcazione ad albero Un algoritmo di classiﬁcazione ad albero si propone di generare un insieme di regole di separazione degli elementi contenuti in nodi padre di livello gerarchico superiore, fortemente eterogenei rispetto alla distribuzione dei valori dell’attributo target, con l’obiettivo di collocare tali entit` a del training set all’interno di nodi ﬁgli di livello gerarchico inferiore, cercando in questo modo di garantire una maggiore omogeneit` a di distribuzione dei valori dell’attributo target all’interno dei nodi ﬁgli, rispetto all’iniziale eterogeneit` a misurata nei nodi padre. I criteri di separazione delle entit` a contenute in un nodo padre sono funzione dei valori assunti dalle variabili esplicative che descrivono le osservazioni stesse. Ad esempio, una semplice regola di separazione basata su un attributo esplicativo di tipo booleano {0, 1} porta alla suddivisione delle mA osservazioni del training set in due nodi disgiunti, di livello gerarchico 1, contenenti rispettivamente: a aventi valore dell’attributo booleano pari a 1; • nodo 1.1 : mA1 entit` • nodo 1.2 : mA0 entit` a aventi valore dell’attributo booleano pari a 0; valendo la relazione: mA1 + mA0 = mA . In corrispondenza del livello gerarchico “corrente” (livello L) di un albero di classiﬁcazione in corso di sviluppo, un algoritmo di classiﬁcazione cerca di suddividere i nodi padre in insiemi disgiunti di nodi ﬁglio (livello L + 1), internamente dotati di maggiore omogeneit`a, relativamente al valore dell’attributo target. La suddivisione viene operata esplorando lo spazio delle regole di separazione, ciascuna delle quali: • coinvolge attributi esplicativi associati alle osservazioni del training set; • opera una partizione del nodo padre in un numero variabile di nodi ﬁgli, la cui qualit` a `e valutabile mediante una metrica di disomogeneit` a delle osservazioni ripartite nei nodi ﬁgli, rispetto alle osservazioni inizialmente contenute nel nodo padre. Al termine dell’esplorazione esaustiva di tutte le regole di separazione, viene scelta quella che minimizza il grado di disomogeneit` a delle suddivisioni eseguite al livello gerarchico inferiore. Nella transizione da un livello gerarchico dell’albero al successivo, se un nodo padre presenta un insieme di entit` a suﬃcientemente omogenee al proprio interno, non viene ulteriormente suddiviso: il raggruppamento precedentemente operato `e considerato idoneo, dal punto di vista della similarit` a della classe target assunta dalle entit` a ivi contenute, con riferimento ad una condizione di arresto. Un algoritmo di classiﬁcazione ad albero `e quindi composto dalle seguenti fasi : 1. fase 1: inizializzazione dell’albero: al livello gerarchico top (livello 0) esiste un unico nodo origine, contenente l’intero training set di cardinalit` a mA : l’insieme delle entit` a classiﬁcate `e caratterizzato dal valore massimo della misura di eterogeneit`a scelta per la valutazione della qualit` a delle suddivisioni; 2. fase 2: analisi del nodo origine (padre): tutte le possibili regole di separazione generabili in corrispondenza del nodo origine vengono esplicitate e valutate, con riferimento alla metrica di disomogeneit` a prescelta applicata all’insieme

9.6 Classiﬁcatori ad albero

335

dei nodi ﬁgli generati al livello immediatamente inferiore (livello 1); viene selezionata la migliore regola di separazione, cio`e tale da minimizzare il valore della funzione di disomogeneit` a dei nodi ﬁgli, e si procede alla suddivisione del nodo origine in W1 nodi ﬁgli al livello 1. Lo schema logico caratteristico della fase 2 viene applicato a qualsiasi nodo padre ancora aperto, al livello gerarchico L, procedendo alla generazione di W2 nodi ﬁgli al livello gerarchico L + 1; 3. fase 3: valutazione dei nodi ﬁgli: a ciascuno dei nodi ﬁgli generati al livello inferiore viene applicata una condizione di arresto della suddivisione in ulteriori nodi ﬁgli: se il test di interruzione della ramiﬁcazione `e superato, il nodo correntemente esaminato viene chiuso, altrimenti viene etichettato come nodo padre, quindi ulteriormente esplorato mediante nuove regole di separazione, come descritto nella fase 2. Ad un nodo chiuso, contenente un certo numero di osservazioni del training set, viene assegnata la classe target appartenente alla maggioranza delle entit` a; 4. fase 4 : terminazione dell’algoritmo: se tutti i nodi del livello corrente L vengono chiusi in quanto soddisfacenti un’opportuna condizione di arresto, l’algoritmo di classiﬁcazione viene interrotto. Tutti i nodi del livello L vengono chiusi, assegnando a ciascun nodo il valore dell’attributo categorico target assunto dal maggior numero di entit` a in esso contenute. La ﬁgura 9.4 mostra un esempio di albero generato in seguito all’applicazione di un algoritmo di classiﬁcazione, con l’obiettivo di classiﬁcare 14 prodotti Pi appartenenti al training set, inizialmente collocato nel nodo padre di livello 0. REGOLA A

livello 0

livello 1

{P1 P2 P3 P4 P5 P6 P7} {P8 P9 P10 P11 P12 P13 P14} REGOLA C

REGOLA B

{P1 P2 P3 P4}

{ P7 P8 P9 P10 P11 P12 P13 P14} {P5 P6} REGOLA D

livello 2 {P1 P2}

{P4}

{P3}

{P8 P11} {P7 P10} {P9}

livello 3 {P12} {P13 P14}

Figura 9.4. Albero di classiﬁcazione

In corrispondenza di un livello gerarchico L esistono WL nodi, originati tramite suddivisione di nodi padre esistenti al livello superiore L − 1. Per ciascuno dei WL nodi si veriﬁca uno solo dei seguenti casi, certiﬁcati da una condizione di arresto: • il nodo dev’essere chiuso, in quanto contenente un ridotto numero di entit` a, oppure perch´e presenta un elevato grado di omogeneit` a delle entit` a in esso contenute rispetto all’attributo target;

336

9 Demand Intelligence: classiﬁcazione

• il nodo dev’essere ulteriormente esplorato e suddiviso in WL+1 partizioni disgiunte, al livello gerarchico L + 1, in quanto le entit` a in esso contenute presentano un grado di disomogeneit` a eccessivamente elevato. Il livello gerarchico L* che presenta unicamente nodi chiusi deﬁnisce la profondit` a ﬁnale dell’albero di classiﬁcazione, contenente quindi L∗ + 1 livelli. 9.6.4 Regole di separazione La suddivisione di un nodo padre di livello L in un insieme di nodi ﬁgli al livello L + 1 viene operata attraverso una regola di separazione coinvolgente uno o pi` u attributi esplicativi caratterizzanti le osservazioni classiﬁcate contenute nel nodo padre. Le regole di separazione dei nodi padre nei nodi ﬁgli si dividono in due classi: regole univariate e regole multivariate. Le prime sono pi` u semplici, di maggiore utilizzo nei software commerciali, meno accurate dal punto di vista della disomogeneit`a interna delle entit` a di ciascun nodo ﬁglio. Le regole di classiﬁcazione risultano dalla combinazione di pi` u regole di separazione di profondit` a gerarchica progressivamente inferiore, legate da concatenazioni logiche di tipo and. Regole di separazione univariate Una regola di separazione univariata coinvolge un solo attributo esplicativo j(j = 1, . . . , n), i cui valori all’interno del training set sono deﬁniti dal vettore colonna f j = {x1j x2j x3j . . . xij . . . xmA ,j } . Un generico attributo esplicativo f j pu` o assumere un insieme, ﬁnito o inﬁnito, di possibili valori distinti. A seconda della tipologia di attributo esplicativo considerato, si hanno diversi tipi di regole di separazione. Attributi categorici nominali. Le regole assumono la forma funzionale fj = {fjk } (k = 1, . . . , Kj ): l’attributo esplicativo j-esimo viene istanziato su tutti i possibili Kj valori distinti. Ad esempio, se k = {rosso, bianco, giallo}, la regola di separazione assume la forma RsCN := [fj = {rosso}; fj = {bianco}; fj = {giallo}] . Attributi categorici ordinali. Analogamente al caso degli attributi categorici nominali, le regole di separazione basate su attributi categorici ordinali ripartiscono le osservazioni del nodo padre in sottoinsiemi disgiunti di livello inferiore, ciascuno dei quali contiene entit` a aventi lo stesso valore discreto dell’attributo ordinale. Ad esempio, se k = {1, 2, 3, 4, 5} = {molto basso, basso, medio, alto, moltoalto}, la regola di separazione assume la forma RsCO := [fj = {1}; fj = {2}; fj = {3}; fj = {4}; fj = {5}] .

9.6 Classiﬁcatori ad albero

337

Attributi numerici booleani. La regola di separazione per attributi booleani, logicamente riconducibili al caso degli attributi categorici ordinali, `e doppia ed ha la seguente forma RsNB := [fj = {0}; fj = {1}] . Attributi numerici continui. Lo spazio dei numeri reali (solitamente non negativi), che caratterizza un attributo numerico continuo, viene suddiviso in un numero ﬁnito di intervalli disgiunti di tipo LB ≤ fj ≤ U B , essendo LB (lower bound) e UB (upper bound) gli estremi inferiore e superiore del generico intervallo. La suddivisione in intervalli viene eseguita considerando i valori xij assunti dall’attributo numerico esplicativo j-esimo all’interno delle entit`a classiﬁcate nel training set. Ad esempio, deﬁniti fj min = min{xij }; fj max = max{xij } ; i = 1, . . . , mA ; i

i

ed assegnata una suddivisione di un nodo padre in W intervalli, le regole di separazione per l’attributo fj numerico continuo assumono la forma: RsNC := [fj min ≤ fj < fj1 ; . . . ; fj(W −2) ≤ fj < fj(W −1) ; fj(W −1) ≤ fj < fj max ]. Diversi tentativi possono essere eseguiti dall’algoritmo di classiﬁcazione ad albero per identiﬁcare la partizione del nodo padre in W intervalli, all’interno dei quali si collocano entit` a omogenee per valore di attributo target, imponendo il vincolo che gli estremi sinistro e destro di ciascun intervallo siano valori eﬀettivamente assunti dall’attributo numerico continuo per le osservazioni del training set. Regole di separazione multivariate Una regola di separazione multivariata coinvolge un subset di attributi esplicativi j(j = 1, . . . , Kj ), utilizzati per ripartire le osservazioni di un nodo padre in due nodi ﬁgli distinti, i cui valori degli attributi esplicativi soddisfano rispettivamente le due disequazioni: R∗s := [ψ(f1 , f2 , . . . , fj , . . . , fn) ≤ γ; ψ(f1 , f2 , . . . , fj , . . . , fn) > γ] . La funzione che lega i valori degli attributi esplicativi, purch`e di tipo numerico o categorico ordinale, pu` o essere ipotizzata di tipo lineare: ψ(f1 , f2 , . . . , fj , . . . , fn ) = α1 f1 + α2 f2 + . . . + αj fj + . . . + αn fn . I pesi αj della combinazione lineare dei valori degli attributi esplicativi ed il valore soglia γ sono determinabili in modo euristico oppure risolvendo un problema di ottimizzazione. Le regole di separazione univariate risultano di pi` u facile interpretabilit` a rispetto alle pi` u complesse regole multivariate, a fronte di una minore accuratezza

338

9 Demand Intelligence: classiﬁcazione

nella ripartizione eﬀettuata. Nello spazio n-dimensionale degli attributi esplicativi, la ripartizione operata dalle regole univariate `e di tipo parallelo, mentre le suddivisioni proprie delle regole multivariate sono di tipo diagonale. Il parallelismo `e riferito ad un sistema di assi cartesiani ortogonali n-dimensionale, mediante il quale `e possibile descrivere l’insieme degli attributi esplicativi. La ﬁgura 9.5 mostra due esempi di ripartizione delle entit` a del training set, classiﬁcate in merito al valore di un attributo target booleano (cerchi bianchi = {0}; cerchi neri = {1}), nel caso in cui vi siano due attributi esplicativi f1 e f2 (n = 2); nella parte sinistra, `e presente una classiﬁcazione secondo una regola univariata, nella parte destra, una classiﬁcazione diagonale.

f1 > f *

f2

f2

f1

f1 + f2 > f *

f1

Figura 9.5. Regole di separazione univariate e multivariate: esempio bidimensionale

9.6.5 Regole di classiﬁcazione Una regola di classiﬁcazione si ottiene concatenando un insieme di regole di separazione, attraverso l’esplorazione top-down dell’albero di classiﬁcazione, precedentemente ottenuto applicando un classiﬁcatore ad albero, suddividendo il nodo origine di livello 0 (training set) in una gerarchia di nodi di livelli inferiori. La forma logica assunta da una regola di classiﬁcazione `e la seguente: RC := Rsλ ≡ {Rs1 and Rs2 and . . . and Rsλ and . . .} . λ

Una regola di classiﬁcazione `e quindi formata dall’unione delle regole di separazione che vengono sequenzialmente “attraversate” percorrendo un albero di classiﬁcazione dal nodo origine, attraverso i vari livelli di profondit` a dell’albero stesso, ﬁno a raggiungere un qualsiasi nodo chiuso, indipendentemente dal suo livello gerarchico di appartenenza (non necessariamente coincidente con il livello L*). Ad esempio, la seguente regola di classiﬁcazione: RC = {un segmento prodotto-mercato, in cui il prezzo del prodotto `e pari a 29.99$, nel quale `e stata eﬀettuata una campagna di marketing di intensit` a

9.6 Classiﬁcatori ad albero

339

elevata senza ricorrere all’utilizzo di spot pubblicitari, presenta un fatturato medio} `e composta sequenzialmente dalle seguenti regole di separazione relative agli attributi esplicativi, legate da relazioni logiche di tipo {if − and if − and if − . . . }: • prezzo del prodotto = {29.99$} (attributo numerico discreto); • intensit` a della campagna di marketing = {alta} (attributo categorico ordinale); • promozione TV = {0} (attributo numerico booleano). La regola di separazione relativa al prezzo del prodotto si incontra, ad esempio, come discriminante al livello 1 dell’albero; la regola relativa all’intensit` a della campagna di marketing `e generata al secondo livello gerarchico; inﬁne, la regola di separazione concernente la presenza di spot pubblicitari in televisione appartiene al terzo livello di profondit` a dell’albero, caratterizzando uno speciﬁco nodo w di tale livello. Le entit` a appartenenti al nodo w non vengono ulteriormente ripartite in nodi ﬁgli di livello inferiore, in quanto presentanti un livello di omogeneit` a interna superiore ad una soglia minima, stabilita in fase di progettazione dei criteri di arresto degli algoritmi basati sui classiﬁcatori ad albero. La maggioranza delle osservazioni appartenenti al nodo w presenta valore medio per l’attributo target fatturato, valore che viene assegnato come etichetta al nodo, successivamente chiuso per i suddetti motivi di soddisfacimento di un criterio di arresto dell’esplorazione gerarchica. Negli alberi di classiﬁcazione che utilizzano regole di separazione univariate, una nuova entit` a oggetto di classiﬁcazione viene etichettata nel modo seguente: le regole di separazione dell’albero vengono percorse dal nodo origine verso i livelli inferiori, assegnando progressivamente e temporaneamente le entit` a ai nodi caratterizzati dalla regola di separazione “corrente”, che coincide con il valore dell’attributo esplicativo assunto dalle entit` a e caratteristico della regola “corrente”, ﬁno ad incontrare un nodo chiuso, la cui classe target viene deﬁnitivamente assegnata all’attributo categorico da predire. Ad esempio, supponendo che la regola di separazione del livello corrente L sia deﬁnita dal valore assunto dall’attributo esplicativo categorico nominale j = {rosso, verde, giallo}, una nuova entit` a da classiﬁcare, il cui valore dell’attributo colore `e j = {rosso}, viene temporaneamente assegnata al nodo L1 , contenente entit` a classiﬁcate di colore rosso, anzich`e ai nodi L2 ed L3 , contenenti rispettivamente entit` a di colore verde e giallo. La ﬁgura 9.6 mostra due esempi di generazione di regole di classiﬁcazione (indicate come RC (1) e RC (2)), con riferimento all’esempio illustrato in ﬁgura 9.3. 9.6.6 Metriche di disomogeneit` a dei nodi Ciascun nodo generato nello sviluppo di un albero di classiﬁcazione si caratterizza per una deﬁnita composizione di valori per l’attributo categorico target. Un attributo target y possiede un numero ﬁnito K di valori distinti {y1 y2 . . . yk . . . yK }. Per ciascun nodo generato da una regola di separazione `e nota la percentuale φk di entit` a aventi come valore della classe target il generico elemento del dominio di-

340

9 Demand Intelligence: classiﬁcazione TRAINING SET

FATTURATO ALTO

FATTURATO MOLTO BASSO

FATTURATO MEDIO

FATTURATO BASSO

C PERC. RESI INFERIORE AL 10%

A

PERC. RESI SUPERIORE AL 10%

B

B

C

ZONA 1 ZONA 2

C

C

C

ZONA 3

ZONA 4

ZONA 5

B

C

C

C

ZONA 1 ZONA 2 ZONA 3 ZONA 4

C

ZONA 5

RC(1): if fatturato = {alto} and perc.resi < 10% then classe = {A} RC(2): if fatturato = {medio} and zona = {3} then classe = {C}

Figura 9.6. Formazione di regole di classiﬁcazione da regole di separazione

screto yk . Le percentuali di elementi aventi un’assegnata classe target rispecchiano l’esaustivit` a dei possibili valori assumibili, tramite la relazione: K

ϕk = 1 .

k=1

Il grado di omogeneit` a di ciascuna partizione generata dalle regole di separazione lungo i vari livelli dell’albero pu` o essere misurata tramite opportune metriche. La disomogeneit` a rispetto ai valori dell’attributo target, valutata in corrispondenza di un generico nodo, `e minima, se tutte le osservazioni in esso contenute presentano il medesimo valore della classe target, massima, se i K valori distinti assumibili dall’attributo target sono uniformemente distribuiti fra le entit` a classiﬁcate, ciascuno con frequenza 1/K. Le principali metriche di eterogeneit` a (o impurit` a) dei nodi sono nel seguito descritte; nella formulazione matematica sono presenti le percentuali φk di osservazioni classiﬁcate con il valore yk , per ogni k = 1, . . . , K. Indice di misclassiﬁcazione Tale indice misura la percentuale di entit` a di un nodo w cui sono stati assegnati valori yk la cui frequenza interna non `e massima: M (w) = 1 − max {ϕk } . k=1,...,K

Le entit`a di un nodo etichettato mediante la classe yk dall’algoritmo di classiﬁcazione ad albero, le quali non hanno assunto tale classe in seguito ad una precedente classiﬁcazione, risultano essere state assegnate in modo errato, a posteriori, al nodo di etichetta yk . Come evidenziato in precedenza, il criterio di majority voting assegna sempre ad un nodo il valore yk dell’attributo target, tale che: φk = maxl {φl }. Se tutte le osservazioni del nodo w appartengono alla stessa classe, si ha: M (w) = 0 (disomogeneit` a minima). Se invece le entit` a classiﬁcate sono unifor-

9.6 Classiﬁcatori ad albero

341

memente distribuite sui K valori assumibili dall’attributo target, si ha: M (w) = (K − 1)/K (disomogeneit` a massima). Indice di Gini Tale indice `e deﬁnito tramite la formula seguente, riferita al generico nodo w: G(w) = 1 −

K

ϕ2k .

k=1

Se tutte le osservazioni del nodo w appartengono alla stessa classe, si ha: G(w) = 0 (disomogeneit` a minima). In caso di distribuzione uniforme delle entit` a del nodo w rispetto ai K valori appartenenti al dominio dell’attributo target, l’indice di Gini vale G(w) = (K − 1)/K = M (w). Entropia L’entropia di un nodo w fornisce una misura del disordine nella distribuzione della classe target rispetto alle entit`a in essa contenute, mediante la relazione S(w) = −

K

ϕk log2 ϕk ,

k=1

deﬁnendo pari a 0 l’entropia rispetto ad una classe target, la cui frequenza `e nulla all’interno del nodo considerato. Se tutte le osservazioni del nodo w appartengono alla stessa classe target, si ha: S(w) = 0 (disomogeneit` a minima). In caso di distribuzione uniforme delle entit` a del nodo w rispetto ai K valori appartenenti al dominio dell’attributo target, l’entropia del nodo vale S(w) = log2 K. Con riferimento ad un attributo target booleano {0,1}, i tre indici di impurit` a degli elementi contenuti nel nodo w valgono: • misclassiﬁcazione: M (w) = 0, se tutte le entit`a contenute in w assumono valore 0 oppure valore 1; M (w) = 0,5, in caso di distribuzione uniforme (50% dei valori target pari a 0); • Gini : G(w) = 0, se tutte le entit`a assumono valore 0 oppure valore 1; G(w) = 0,5, in caso di distribuzione uniforme; • entropia: S(w) = 0, se tutte le entit` a assumono valore 0 oppure valore 1; S(w) = 1, in caso di distribuzione uniforme. 9.6.7 Sviluppo dei nodi dell’albero Attraverso l’utilizzo di una metrica di disomogeneit` a applicata • al nodo padre di livello gerarchico L in corso di ripartizione; • all’insieme dei nodi ﬁgli di livello L + 1, generati partizionando il nodo padre mediante una regola di separazione; `e possibile determinare la migliore regola di separazione (univariata o multivariata) in grado di ripartire la porzione di osservazioni del training set appartenenti al nodo

342

9 Demand Intelligence: classiﬁcazione

padre in nodi ﬁgli internamente omogenei rispetto alla distribuzione dei valori della classe target. Con riferimento al caso pi` u semplice relativo alle regole univariate e ad un generico nodo padre w, per ciascun attributo esplicativo j = 1, . . . , n contenuto nel dataset si applica la corrispondente regola di separazione, secondo le modalit` a logiche illustrate nel paragrafo 9.6.4. L’applicazione di una regola di separazione Rs , basata su un certo attributo esplicativo, genera una partizione del nodo padre in due o pi` u nodi ﬁgli (indice del nodo ﬁglio: w = 1, . . . , W ); alla partizione ottenuta viene applicata una opportuna metrica di disomogeneit` a (misclassiﬁcazione, Gini, Entropia) per valutarne la qualit` a: • rispetto alla disomogeneit` a iniziale del nodo padre; • rispetto alle suddivisioni generate mediante regole univariate attinenti ad altri attributi esplicativi. La discriminazione fra regole di separazione univariate basate su diversi attributi esplicativi non dipende dalla qualit` a iniziale delle entit` a associate al nodo padre. Al termine dell’analisi comparativa fra tutte le possibili regole univariate alternative nel passaggio dal livello L al livello L + 1, viene scelta quella che presenta il valore minore dell’indice di disomogeneit` a prescelto, quindi il maggiore guadagno di informazione rispetto al raggruppamento iniziale del nodo padre. La qualit` a di una ripartizione di un nodo padre, ottenibile mediante una regola di separazione R s , viene calcolata come media pesata delle qualit`a interne ai singoli nodi discendenti, dove il peso di ciascun nodo ﬁglio `e dato dalla percentuale di entit` a ad esso assegnate, caratterizzate quindi dallo stesso valore dell’attributo esplicativo presente nella regola di separazione applicata. Deﬁniti NL0 ed NL1 , NL2 , . . . , NLw , . . . , NLW rispettivamente il numero di entit` a appartenenti al nodo padre di livello L ed il numero delle entit` a NLw associate ai nodi w (w = 1, . . . , W ) di livello L + 1 dalla regola di ripartizione basata sull’attributo j (regola Rsj ), scelto un indice di disomogeneit` a (ad esempio, l’indice di misclassiﬁcazione M (w)), • la disomogeneit` a del nodo padre `e data da M (0); • la disomogeneit` a complessiva dei W nodi di livello L + 1 `e data dalla formula Mj (w1 , w2 , . . . , wW ) =

W NLw · Mj (w) , NL0 w=1

essendo Mj (w) il valore dell’indice di disomogeneit` a localmente interno al singolo nodo w discendente. Nella transizione dal nodo padre di livello L ai W nodi ﬁgli di livello inferiore L + 1, viene in conclusione scelta la regola Rsj∗ che minimizza il valore dell’indice di disomogeneit` a in corrispondenza dei nodi ﬁgli; in altri termini, la migliore regola di separazione relativa all’attributo esplicativo j* `e tale che Mj ∗ (w1 , w2 , . . . , wW ) = min {Mj (w1 , w2 , . . . , wWj )} , j=1,...,n

9.6 Classiﬁcatori ad albero

343

essendo Wj il numero di nodi ﬁgli generati dalla regola univariata associata all’attributo j. Un nodo w dell’albero, al generico livello L, non viene ulteriormente sviluppato tramite applicazione di una nuova regola di separazione se, in corrispondenza della composizione delle entit`a in esso contenute, si veriﬁca una delle seguenti condizioni di arresto della ramiﬁcazione: • numero minimo di entit` a : il numero delle osservazioni classiﬁcate nel nodo w `e inferiore ad un livello minimo Nmin , tale da non rendere signiﬁcativa un’ulteriore ripartizione delle poche osservazioni in nodi ﬁgli di cardinalit` a inferiore; • uniformit` a dei valori dell’attributo target: il valore della metrica di disomogeneit` a utilizzata, calcolata in corrispondenza del nodo w, `e inferiore ad un valore a incrementale della minimo Mmin che garantisce un livello adeguato nella qualit` ripartizione dal nodo padre ai nodi ﬁgli. 9.6.8 Esempio di applicazione Utilizzando i valori degli attributi esplicativi delle m = 25 osservazioni classiﬁcate, presenti nel training set dell’esempio numerico riportato in tabella 9.1, in questo paragrafo viene presentato il calcolo per l’esplosione del nodo origine di livello 0 in un insieme di nodi ﬁgli di livello 1. La metrica utilizzata per la valutazione del guadagno di informazione `e l’indice di misclassiﬁcazione Mj , applicato ai nodi di livello 1, in corrispondenza dei 6 attributi esplicativi colore, tipo, prezzo, promo TV, numero varianti, intensit` a campagna. Analisi del nodo padre Si calcola innanzitutto il livello di impurit` a del nodo padre, internamente composto da tutte le m = 25 entit` a del training set. Le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} sono date rispettivamente da 9/25, 8/25, 8/25. La metrica di misclassiﬁcazione M (w) = 1 − max {ϕk } k=1,...,K

applicata al nodo padre di livello 0, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mnodo

padre (0)

= 1 − max

=1−

9 8 8 ; ; 25 25 25

max

{ϕk } =

k=alto,medio,basso

=1−

9 16 = = 0,64 . 25 25

Secondo l’indice di misclassiﬁcazione calcolato, il 64% delle entit`a contenute nel nodo padre (16 su 25) risulterebbe classiﬁcato in modo errato, cio`e in modo diﬀorme rispetto alla classe target {alto}, cui appartiene la maggioranza delle osservazioni

344

9 Demand Intelligence: classiﬁcazione

classiﬁcate, se l’analisi si limitasse al livello 0 dell’albero. Tale valore di disomogeneit` a dev’essere migliorato, in seguito all’esplosione del nodo padre nei nodi ﬁgli, mediante l’analisi delle partizioni ottenibili considerando, uno alla volta, i singoli attributi esplicativi indipendenti che caratterizzano le entit` a del training set. Attributo colore Con riferimento all’attributo colore, caratterizzato dai valori nominali {rosso, verde, giallo}, dal nodo padre relativo alle m = 25 entit` a del training set si ripartono, al livello 1 dell’albero, i tre nodi {rosso}, {verde}, {giallo}. La tabella 9.6 riporta le numerosit`a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei tre nodi ﬁgli, internamente omogenee per valore dell’attributo esplicativo colore 10. Tabella 9.6. Ripartizione dell’attributo target nei nodi ﬁgli, per colore fatturato alto medio basso totale

colore = rosso numero frequenza 3 3/10 4 4/10 (*) 3 3/10 10 10/25

colore = verde numero frequenza 4 4/10 (*) 3 3/10 3 3/10 10 10/25

colore = giallo numero frequenza 2 2/5 (*) 1 1/5 2 2/5 (*) 5 5/25

La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {rosso, verde, giallo}, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mcolore (rosso, verde, giallo) =

=

3 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

10 10 5 15 4 4 2 + + = · 1− · 1− · 1− = 0,6 . 25 10 25 10 25 5 25

Attributo tipo Con riferimento all’attributo tipo, caratterizzato dai valori booleani {0, 1}, dal nodo padre relativo alle m = 25 entit` a del training set si ripartono, al primo livello dell’albero, i due nodi {0}, {1}. La tabella 9.7 riporta le numerosit` a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei due nodi ﬁgli, internamente omogenee per valore dell’attributo esplicativo tipo. 10

Il simbolo graﬁco (*) indica la frequenza maggiore, per ciascun valore dell’attributo target fatturato.

9.6 Classiﬁcatori ad albero

345

Tabella 9.7. Ripartizione dell’attributo target nei nodi ﬁgli, per tipo fatturato alto medio basso totale

tipo = 0 numero 4 2 3 9

frequenza 4/9 (*) 2/9 3/9 9/25

tipo = 1 numero 5 6 5 16

Frequenza 5/16 6/16 (*) 5/16 16/25

La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {0, 1}, per i valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mtipo (0,1) =

2 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

9 16 15 4 6 = + = · 1− · 1− = 0,6 . 25 9 25 16 25 Attributo prezzo Con riferimento all’attributo prezzo, caratterizzato dai valori numerici discreti {9.99, 14.99, 19.99, 29.99}, dal nodo padre relativo alle m = 25 entit` a del training set si ripartono i quattro nodi {9.99}, {14.99}, {19.99}, {29.99}. La tabella 9.8 riporta le numerosit` a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei quattro nodi ﬁgli, internamente omogenee per valore dell’attributo esplicativo prezzo. La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {9.99, 14.99, 19.99, 29.99}, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mprezzo (9.99, 14.99, 19.99, 29.99) =

=

4 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

8 8 7 15 1 3 3 3 2 + + + = · 1− · 1− · 1− · 1− = 0,6 . 25 2 25 8 25 8 25 7 25

Attributo promo TV Con riferimento all’attributo promo TV, caratterizzato dai valori booleani {0, 1}, dal nodo padre relativo alle m = 25 entit` a del training set si ripartono, al primo livello dell’albero, i due nodi {0}, {1}. La tabella 9.9 riporta le numerosit` a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei due nodi ﬁgli, in relazione all’attributo esplicativo promo TV.

346

9 Demand Intelligence: classiﬁcazione Tabella 9.8. Ripartizione dell’attributo target nei nodi ﬁgli, per prezzo prezzo = 9.99 numero frequenza 1 1/2 (*) 1 1/2 (*) 0 0/2 2 2/25

fatturato alto medio basso totale

prezzo = 19.99 numero frequenza 3 3/8 (*) 3 3/8 (*) 2 2/8 8 8/25

fatturato alto medio basso totale

prezzo = 14.99 numero Frequenza 3 3/8 (*) 2 2/8 3 3/8 (*) 8 8/25 prezzo = 29.99 numero 2 2 3 7

Frequenza 2/7 2/7 3/7 (*) 7/25

Tabella 9.9. Ripartizione dell’attributo target nei nodi ﬁgli per promo TV promo TV = 0 numero frequenza

fatturato alto medio basso totale

3 3 5 11

3/11 3/11 5/11 (*) 11/25

promo TV = 1 numero frequenza 6 5 3 14

6/14 (*) 5/14 3/14 14/25

La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {0,1}, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mpromo

T V (0,1)

=

2 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

14 14 5 6 11 + = · 1− · 1− = 0,56 . = 25 11 25 14 25 Attributo numero varianti Con riferimento all’attributo numero delle varianti di prodotto, caratterizzato dai valori interi {2, 3, 4}, dal nodo padre relativo alle m = 25 entit` a del training set si ripartono, al primo livello dell’albero, i tre nodi {2}, {3}, {4}. La tabella 9.10 riporta le numerosit` a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei tre nodi ﬁgli, in relazione all’attributo esplicativo numero varianti.

9.6 Classiﬁcatori ad albero

347

Tabella 9.10. Ripartizione dell’attributo target nei nodi ﬁgli, per varianti varianti = 2 numero frequenza 3 3/8 (*) 3 3/8 (*) 2 2/8 8 8/25

fatturato alto medio basso totale

varianti = 3 numero frequenza 4 4/11 (*) 3 3/11 4 4/11 (*) 11 11/25

varianti = 4 numero frequenza 2 2/6 (*) 2 2/6 (*) 2 2/6 (*) 6 6/25

La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {2, 3, 4}, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore: Mnum v (2, 3, 4) =

3 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

11 6 16 3 4 2 8 + + = · 1− · 1− · 1− = 0,64 . = 25 8 25 11 25 6 25

Attributo intensit` a campagna Con riferimento all’attributo intensit` a della campagna promozionale, caratterizzato dai valori nominali {alta, media, bassa}, dal nodo padre relativo alle m = 25 entit` a appartenenti al training set si ripartono, al primo livello dell’albero, i tre nodi {alta}, {media}, {bassa}. La tabella 9.11 riporta le numerosit` a e le frequenze dei valori dell’attributo target fatturato {alto, medio, basso} rispetto alle entit` a distribuite nei tre nodi ﬁgli, in relazione all’attributo esplicativo intensit` a campagna. Tabella 9.11. Ripartizione dell’attributo target nei nodi ﬁgli, per intensit` a fatturato alto medio basso totale

intensit` a = alta numero frequenza 7 7/12 (*) 4 4/12 1 1/12 12 12/25

intensit` a = media numero frequenza 2 2/6 1 1/6 3 3/6 (*) 6 6/25

intensit` a = bassa numero frequenza 0 0/7 = 0 3 3/7 4 4/7 (*) 7 7/25

La metrica di misclassiﬁcazione M (w) applicata ai nodi ﬁgli w = {alta, media, bassa}, in corrispondenza dei valori della classe target k = {alto, medio, basso} delle entit` a ivi collocate, assume il seguente valore:

348

9 Demand Intelligence: classiﬁcazione

Mlivello

campagna (alta, media, bassa)

=

3 NLw · (1 − max {ϕk | w}) = k=alto,medio,basso NL0 w=1

6 7 11 7 3 4 12 + + = · 1− · 1− · 1− = 0,44 . = 25 12 25 6 25 7 25

=

Scelta della partizione La tabella 9.12 riporta la sintesi dei risultati del calcolo dell’indice di misclassiﬁcazione per il nodo padre e per i nodi ﬁgli generati, nell’esempio numerico, mediante regole di separazione basate su valori assunti dai 6 attributi esplicativi colore, tipo, prezzo, promo TV, numero varianti, intensit` a campagna, per le entit` a appartenenti al training set. Tabella 9.12. Indice di misclassiﬁcazione per le suddivisioni nell’esempio

indice M(w)

nodo padre 0,64

Colore

tipo

prezzo

0,60

0,60

0,60

promo TV 0,56

numero varianti 0,64

intensit` a campagna 0,44

Dai risultati in tabella 9.12 si pu` o osservare che: • la partizione operata secondo l’attributo esplicativo numero varianti non migliora la qualit` a della classiﬁcazione (pari a 0,64), rispetto al raggruppamento iniziale delle entit` a nel nodo padre; • il maggior incremento nel guadagno di informazione si ottiene ripartendo il nodo padre nei tre nodi discendenti di primo livello mediante una regola di separazione basata sull’attributo intensit` a campagna (si passa da una misclassiﬁcazione di 0,64 al valore 0,44), come riportato anche in ﬁgura 9.7. La regola di separazione scelta per ramiﬁcare il nodo padre di livello 0 `e dunque relativa all’attributo esplicativo intensit` a campagna, che genera tre nodi ﬁgli, contenenti rispettivamente 12, 6 e 7 entit` a classiﬁcate, come riportato in ﬁgura 9.7: il primo elemento di qualsiasi regola di classiﬁcazione relativa all’esempio numerico `e dato dalla condizione logica: intensit` a campagna = {alta}, {media}, {bassa} . Nell’ipotesi che i parametri relativi alle condizioni di arresto delle suddivisioni siano: • numero minimo di elementi in un nodo: 4; • misclassiﬁcazione minima per gli elementi contenuti in un nodo: 0, 3;

9.6 Classiﬁcatori ad albero

349

livello = 0 M(0) = 0,64 intensità campagna = alta livello = 1 M(0) = 0,44 12/25

{P1 - C1} ; {P1 - C2} ; {P1 - C4} ; {P2 - C3} ; {P3 - C1} ; {P3 - C4} ; {P3 - C5} ; {P4 - C1} ; {P4 - C5} ; {P5 - C2} ; {P5 - C3} ; {P5 - C5} .

intensità campagna = bassa

intensità campagna = media 6/25

7/25

{P2 - C2} ; {P2 - C5} ; {P3 - C2} ; {P3 - C3} ; {P4 - C2} ; {P5 - C4} .

{P1 - C3} ; {P1 - C5} ; {P2 - C1} ; {P2 - C4} ; {P4 - C3} ; {P4 - C4} ; {P5 - C1} .

Figura 9.7. Esplosione di primo livello dell’albero nell’esempio numerico

`e necessario continuare la ripartizione dei nodi di livello 1, esplorando nuove regole di separazione relative ai restanti 5 attributi esplicativi colore, tipo, prezzo, promo TV, numero varianti.

Parte III

Modelli e algoritmi di Sales Forecasting

10 Time Series Analysis

Introduzione alla Time Series Analysis – Sales cleaning – Scomposizione delle serie storiche

10.1 Introduzione alla Time Series Analysis 10.1.1 Deﬁnizione di serie storica Una serie storica rappresenta una sequenza temporale di valori numerici osservati nel passato in corrispondenza di una variabile misurabile, ad esempio la domanda commerciale; i valori risultano campionati ad intervalli di tempo equidistanti, secondo una opportuna cadenza granulare, quale ad esempio il giorno, la settimana o il mese, e misurati secondo unit`a di misura di tipo ﬁsico (unit` a di produzione o di spedizione) o di tipo monetario (unit` a commerciali). Le serie storiche di domanda, per i diversi segmenti prodotto-mercato, vengono periodicamente rilevate dai sistemi di raccolta delle transazioni commerciali presso i punti vendita, quindi trasmesse ai sistemi APS (Advanced Planning & Scheduling) per la deﬁnizione del piano previsionale di domanda (sales forecast) attraverso algoritmi matematici, ed ai sistemi di data warehousing per la storicizzazione dei valori occorsi nel passato, al ﬁne di procedere alle analisi statistiche delle serie di domanda ed al calcolo delle metriche di prestazione (KPI ). Assegnata una coppia prodotto-mercato {p, c}, la serie storica della domanda che ad essa corrisponde viene indicata con la notazione D(p, c, t), essendo t l’indice del tempo, cadenzato secondo un’opportuna granularit` a lungo l’intervallo di disponibilit` a dei dati storici t = 1, . . . , T (time series interval ). La notazione evidenziata prescinde dal livello d’aggregazione multidimensionale dei dati di domanda: • il prodotto pu` o rappresentare una singola SKU, una famiglia, una linea commerciale, oppure un raggruppamento basato su un determinato attributo (colore, forma, ecc.); • il mercato pu` o essere tipizzato per singolo punto vendita o cliente industriale, per zona geograﬁca, per area di vendita, per centro di distribuzione preposto al servizio di consegna ad un gruppo di store, per rappresentante di vendita (sales representative) che gestisce un gruppo di clienti; • la dimensione tempo `e discretizzabile nei singoli giorni di vendita degli esercizi commerciali, raggruppati in settimane, quindicine, mesi, trimestri o anni. Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

354

10 Time Series Analysis

Ulteriori dimensioni di analisi possono essere aggiunte alla tripla prodotto-mercatotempo, quali il canale logistico, lo stabilimento produttivo, il tipo di promozione commerciale. In questo capitolo dedicato all’analisi delle serie storiche, si prescinde dalla multidimensionalit` a della domanda per attributi non appartenenti alla dimensione temporale. La domanda commerciale viene quindi identiﬁcata secondo la notazione sempliﬁcata Dt := D(p, c, t), omettendo il riferimento alle coppie prodotto-mercato dove non strettamente necessario. I modelli estrapolativi di previsione (time series forecasting) analizzano le caratteristiche delle serie storiche di domanda Dt e le proiettano nel futuro per generare la previsione statistica Ft, detta sales forecast. La forma generale delle previsioni formulate mediante modelli di analisi delle componenti regolari delle serie storiche `e la seguente: Ft = f(Dt , Dt−1, Dt−2, . . . , Dt−T ) . La ﬁgura 10.1 mostra un esempio di serie storica di domanda per la coppia {p, c}, caratterizzata da 24 valori settimanali disponibili (pari a due stagioni complete di vendita): {D1 , D2 , D3 , D4 , . . . , Dt , . . . , D24 } = {20, 28, 32, 49, . . ., 32}.

Serie storica di domanda 100 90 80 70 60 50 40 30 20 10 0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

domanda 20 28 32 49 56 32 49 59 50 53 70 26 20 29 5 66 51 79 43 45 32 40 88 32

Figura 10.1. Serie storica di domanda (dati disponibili su 24 settimane)

10.1.2 Livelli di disponibilit` a e calcolo della domanda Per semplicit`a concettuale, nei modelli di time series analysis e sales forecasting si pu` o supporre che i dati di domanda siano disponibili ai livelli di massima disaggregazione per le dimensioni prodotto e mercato, per il semplice motivo che le previsioni di vendita devono sempre essere fruite, analizzate ed implementate da parte di utenti che operano ai livelli bottom delle gerarchie multidimensionali. Pi` u precisamente, `e possibile distinguere tre livelli di analisi dei dati di domanda.

10.1 Introduzione alla Time Series Analysis

355

Livello di massima granularit` a della domanda storica. Rappresenta il livello multidimensionale di raccolta e caricamento dei dati nei sistemi APS e nei sistemi di datamart per le analisi di Demand Planning. Solitamente i dati storici sono misurati sul campo ai livelli bottom per i segmenti prodotto-mercato (ad esempio, SKU -store); il livello minimo di disaggregazione temporale pu` o invece variare a seconda dei contesti produttivi: ad esempio, si passa dal singolo giorno per i prodotti alimentari freschi alle settimane o ai mesi per i prodotti industriali di largo consumo. La granularit` a dei dati di domanda storica dipende anche dalla modalit` a di generazione del piano di domanda: • nei modelli di sales forecasting, i dati presentano una signiﬁcativa disaggregazione verso i livelli bottom, essendo il sales forecast un piano di tipo operativo, frequentemente soggetto a revisioni nel tempo; • nei modelli di sales budgeting, driver economici di costo e marginalit` a guidano la progettazione del piano di domanda, presentando pertanto i dati a livelli intermedi di aggregazione (ad esempio: famiglia di prodotto, zona geograﬁca, mese). Livello di calcolo del piano di domanda. Rappresenta il livello multidimensionale di elaborazione numerica del sales forecast, non necessariamente coincidente con il livello di disponibilit` a in ingresso della serie storica di domanda. Per ragioni di natura statistica, spesso si rivela utile aggregare temporalmente i dati storici, solitamente disponibili a livello giornaliero o settimanale, per ottenere una previsione statistica ad accuratezza maggiore, in quanto i dati aggregati lungo la dimensione tempo risultano pi` u facilmente intelligibili ed interpretabili dagli algoritmi di scomposizione delle serie storiche, il cui obiettivo `e la generazione di un sales forecast ottenuto da scomposizione e proiezione nel futuro delle componenti elementari della serie storica di partenza. I dati disponibili nei sistemi APS sono quindi preaggregati, prima di generare il forecast statistico. Livello di massima granularit` a del piano di domanda. Rappresenta il livello multidimensionale di massima granularit` a del piano di domanda. A tale livello gli utenti analizzano ed implementano il piano, attraverso le azioni di marketing e di presenza sui mercati locali da parte dei venditori di area; il livello operativo deﬁnisce anche il dettaglio dei piani di produzione e distribuzione di Sales & Operations Planning. Solitamente, i livelli di disponibilit` a della domanda storica e dei piani di Demand Planning sono coincidenti. Il sales forecast statistico pu`o essere stato generato: • ai medesimi livelli di disponibilit`a ﬁnale del piano di domanda (tipicamente livelli bottom sulle dimensioni prodotto e mercato), senza preaggregare la serie storica disponibile; • a livelli di calcolo superiori rispetto a quelli di fruizione operativa del piano di domanda; in questo caso, l’utilizzo di un’appropriata base di splitting porta alla ripartizione dei valori di sales forecast aggregati sui valori puntuali ai livelli bottom.

356

10 Time Series Analysis

In quest’ultimo caso, la previsione futura viene ripartita ai livelli disaggregati utilizzando come base di splitting una fra le seguenti alternative tipiche: • domanda storica del ciclo di vendita precedente; ad esempio: la previsione generata a livello mensile per l’anno 2008 viene splittata nelle settimane utilizzando lo storico di vendita di periodi omologhi, valutati l’anno precedente; la previsione statistica per il mese di Febbraio 2008 (quantit` a pari a 100 per un segmento prodotto-mercato) viene splittata proporzionalmente alle vendite nelle quattro settimane di Febbraio 2007 (pari rispettivamente a 12 (W1 0208 ), 45 (W2 0208 ), 87 (W3 0208 ) e 39 (W4 0208 )); • pattern di vendita tipici dei singoli periodi ; ad esempio: nella prima settimana di ogni mese, indipendentemente dal valore di previsione aggregato a livello mensile, viene venduto il 30% della quantit` a mensile, secondo il pattern {30%, 20%, 25%, 25%}; • importanza relativa dei singoli periodi : fenomeni di stagionalit` a, di tipo promozionale o di natura contabile (ﬁne periodo, ﬁne esercizio) forniscono ulteriori criteri di disaggregazione temporale del sales forecast generato a livelli consolidati. La ﬁgura 10.2 riporta un esempio schematico dei livelli di disponibilit` a dei dati storici e di calcolo delle previsioni di vendita. paese

linea

regione

gruppo

sottogruppo

famiglia

gruppo colore

città

colore

zona

SKU

livello di disponibilità dei dati di domanda

classe

anno

canale distributivo

mese

sales rep

settimana

giorno

store

livello di calcolo del piano di domanda

Figura 10.2. Livelli di disponibilit` a della domanda e di calcolo del sales forecast

10.1.3 Obiettivi della Time Series Analysis L’analisi delle serie storiche (time series analysis) rappresenta un insieme di metodologie statistiche e modelli matematici aventi l’obiettivo di studiare le caratteristiche quantitative delle serie storiche di domanda, disponibili al massimo livello di disaggregazione per i diversi segmenti prodotto-mercato.

10.1 Introduzione alla Time Series Analysis

357

La ﬁnalit` a dell’indagine sui valori assunti da una serie storica `e duplice: • identiﬁcazione di outlier : attraverso metodi statistici di ﬁltraggio, si vogliono rimuovere valori anomali dalla serie storica (outlier ), aventi caratteristiche di non ricorrenza, bassa frequenza di accadimento, intensit` a numerica molto discosta dal valor medio della serie; • analisi delle componenti: eﬀettuata la rimozione degli outlier, i metodi di analisi delle serie storiche si propongono di identiﬁcare ed isolare le componenti regolari all’interno delle serie di domanda, quali la stagionalit` a, il trend, la ciclicit`a ed il valor medio. L’identiﬁcazione dei valori anomali rappresenta una procedura di sales cleaning orientata al ﬁltraggio delle serie storiche, nel senso della depurazione dai valori non regolari: essa si rende necessaria al ﬁne di preparare le serie storiche, per poter essere trattate dai modelli matematici di sales forecasting. Da una serie storica che presenta fenomeni di irregolarit` a non rimossi si ottiene un sales forecast di bassa accuratezza, in quanto i modelli di sales forecasting interpretano gli outlier come fenomeni regolari e ricorrenti: dai dati storici di bassa qualit` a si ottiene un piano di domanda scarsamente accurato, per il principio garbage in garbage out. La rimozione di valori irregolari delle serie storiche rappresenta un’attivit` a di ausilio ai processi di Demand Intelligence, in quanto gli outlier vengono analizzati, interpretati e giustiﬁcati dai demand planner ed archiviati nei datawarehouse. L’analisi delle componenti regolari di una serie storica presenta un duplice vantaggio per gli analisti di Demand Planning: 1. lo studio delle componenti regolari di una serie accresce la conoscenza dei fenomeni di vendita analizzati; nelle fasi di Demand Intelligence e Marketing Intelligence, la conoscenza dei pattern tipici di domanda permette di progettare piani di marketing e strategie promozionali mirate; 2. l’isolamento delle componenti di regolarit` a delle serie storiche rappresenta il principale input per i modelli estrapolativi di sales forecasting basati sulla scomposizione delle serie nelle componenti principali; attraverso la proiezione delle componenti nel futuro e la loro ricomposizione, tali metodi generano la previsione statistica della domanda.

10.1.4 Componenti delle serie storiche continue Le serie storiche possono essere inizialmente distinte in due macroclassi, in relazione alla presenza di valori pari a zero, interposti all’interno di valori positivi di domanda: • serie continue: la presenza di valori nulli `e estremamente ridotta, quasi assente; • serie sporadiche: esiste una percentuale rilevante di valori nulli all’interno della serie storica, almeno pari al 20–30% del totale sull’orizzonte storico. Le serie sporadiche sono diﬃcili da trattare da parte degli algoritmi estrapolativi per la previsione della domanda, poich´e in esse `e arduo riscontrare fenomeni di

358

10 Time Series Analysis

regolarit` a e componenti che si ripetono nel tempo con signiﬁcativa periodicit` a. Le serie intermittenti caratterizzano prodotti ordinati dai clienti in modo non frequente, senza un’evidente regolarit`a temporale fra ordini consecutivi, in quantit` a molto variabili e ﬂuttuanti rispetto al valor medio. Le serie continue rappresentano invece la categoria maggiormente analizzata, per la quale sono stati messi a punto numerosi modelli matematici di sales forecasting. All’interno di una serie storica di tipo continuo, depurata dagli outlier, si possono distinguere le seguenti quattro componenti principali. Stagionalit` a. Rappresenta la componente della serie storica derivante dalle ﬂuttuazioni cicliche di vendita, aventi periodicit` a regolare di lunghezza pari alla durata del ciclo commerciale di vendita e consumo dei prodotti. Tali ﬂuttuazioni periodiche regolari descrivono le naturali stagioni di vendita che caratterizzano i prodotti ed i relativi cicli di consumo da parte dei clienti. Esempi di fenomeni di stagionalit`a sono dati da: • settore alimentare: cicli di vendita dei prodotti freschi “di stagione”, prodotti alimentari venduti in corrispondenza di festivit` a e ricorrenze periodiche; • settore dell’abbigliamento: stagioni/collezioni di vendita dei prodotti di moda; • altri settori : cicli periodici di vendita indotti tramite la preparazione di promozioni e campagne di marketing ricorrenti con cadenza stagionale (ad esempio, sconti su beni di largo consumo, nei settori consumer packaged goods, fast moving consumer goods, nel settore dei prodotti per la domotica, promozioni “back to school ”). Trend. La componente di trend evidenzia l’andamento temporale tendenziale della serie storica nel medio-lungo termine. La tendenza di una serie storica pu`o essere di tipo crescente o decrescente, secondo funzioni di tipo lineare, polinomiale o esponenziale. Depurata della presenza dei cicli stagionali di vendita, la componente di tendenza della serie mostra gli incrementi o i decrementi nelle vendite: • fra periodi di tempo consecutivi (incremento puntuale); • fra periodi “omologhi”, cio`e intervallati da un ciclo stagionale (incremento stagionale). Ciclicit` a. La componente ciclica evidenzia periodicit` a di lungo periodo nelle serie storiche, dovute a fenomeni macroeconomici (periodi congiunturali di crescita, periodi di recessione e calo nei consumi) che si manifestano ciclicamente, la cui intensit` a oscillatoria ha durata di alcuni anni. Dal punto di vista numerico, la ciclicit`a segue un andamento periodico analogo alla stagionalit` a; la diﬀerenza risulta nel passo della stagionalit` a, dell’ordine dei mesi (al pi` u un anno) nel caso delle stagioni di vendita, dell’ordine degli anni per i cicli di lungo periodo. Componente casuale. Rappresenta il rumore della serie storica, cio`e la componente di domanda non prevedibile, data dalla ﬂuttuazione casuale dei valori di domanda attorno al valor medio della serie. La ﬂuttuazione random viene rilevata dopo aver rimosso le tre componenti regolari dalla serie storica, avendo cio`e isolato la domanda media, priva di fenomeni di crescita o ciclicit` a. Il rumore casuale non

10.1 Introduzione alla Time Series Analysis

359

`e statisticamente prevedibile; tuttavia, qualora la sua entit` a risulti numericamente rilevante, `e possibile applicare modelli di regressione lineare, testando diverse variabili indipendenti sulla serie storica formata dalla sola componente casuale, al ﬁne di correlarne l’andamento a variabili di input misurabili, di cui `e nota anche la previsione per i valori futuri. Le ﬁgure 10.3, 10.4, 10.5, mostrano rispettivamente le componenti di trend, stagionalit` a e componente casuale per una serie storica. Dal punto di vista dimensionale, nell’ipotesi di una scomposizione moltiplicativa per la serie storica: • la componente di trend si misura nelle stesse unit` a della serie storica (unit` a di vendita); • la curva periodica di stagionalit` a `e adimensionale ed oscilla attorno al valore 1; • la componente casuale rappresenta la ﬂuttuazione attorno al valor medio della serie, posto al livello di domanda pari a 0: valori negativi rappresentano quindi scostamenti inferiori alla media. 10.1.5 Tipologie di serie storiche Deﬁnite le quattro componenti in cui `e possibile scomporre una serie storica continua di domanda, `e possibile classiﬁcare le serie storiche per tipologia, sulla base dell’eventuale presenza di una o pi` u componenti regolari. La classiﬁcazione `e riportata in tabella 10.1, basata sui due assi principali relativi alla presenza delle componenti di stagionalit` a e di trend. Preliminare alla classiﬁcazione basata sulla presenza di stagionalit` a vi `e la distinzione fra serie sporadiche e serie continue. Tabella 10.1. Classiﬁcazione delle serie storiche di domanda presenza di trend assenza di trend trend lineare sporadica

continua

intermittente

stazionaria

stagionale

stazionaria

non stagionale

stazionaria

stagionale

stazionaria

trend non lineare

crescente / decrescente crescente / decrescente

crescente / decrescente crescente / decrescente

crescente / decrescente crescente / decrescente

crescente / decrescente crescente / decrescente

Per ciascun incrocio della matrice di classiﬁcazione delle serie storiche si ottiene una tipologia base di serie storica; le serie non stazionarie possono presentare trend crescente o decrescente, approssimabile tramite un’opportuna funzione matematica.

360

10 Time Series Analysis Componente di trend 120 100 80 60 40 20 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.3. Componente di tendenza di una serie storica

Componente di stagionalità 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.4. Componente di stagionalit` a di una serie storica

Componente casuale 8,0 6,0 4,0 2,0 0,0 -2,0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

-4,0 -6,0 -8,0

Figura 10.5. Componente casuale (rumore) di una serie storica

10.1 Introduzione alla Time Series Analysis

361

La ﬁgura 10.3 rappresenta un esempio di serie storica continua non stagionale, caratterizzata da trend lineare crescente. La ﬁgura 10.4 pu` o essere assimilata ad una serie continua stagionale e stazionaria, avendo preventivamente moltiplicato i coeﬃcienti di stagionalit`a per il valor medio della serie storica. La serie storica in ﬁgura 10.1 risulta meno facilmente interpretabile: in essa si pu` o riconoscere una debole componente di tendenza lineare, ma non `e possibile fare particolari inferenze circa la stagionalit` a, da veriﬁcare mediante opportuni test. La componente casuale di una serie storica, quale quella raﬃgurata in ﬁgura 10.5, rappresenta in modo naturale una serie continua priva di trend e stagionalit` a. Nel seguito sono riportati altri esempi di serie storiche: • ﬁgura 10.6 : serie di tipo stagionale, avente lunghezza della stagione pari a 6 periodi, caratterizzata da trend lineare crescente; 120 100 80 60 40 20 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.6. Serie storica continua stagionale con trend lineare crescente

• ﬁgura 10.7 : serie sporadica stazionaria, caratteristica di prodotti ordinati poco frequentemente ed in volumi irregolari (ad esempio: parti di ricambio nel settore automobilistico, farmaci per malattie rare, beni di lusso); 120 100 80 60 40 20 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.7. Serie storica sporadica non stagionale n´e aﬀetta da trend

362

10 Time Series Analysis

• ﬁgura 10.8 : serie sporadica stagionale stazionaria, caratteristica di prodotti venduti in singole stagioni di vendita periodiche (ad esempio: prodotti per l’abbigliamento estivo, prodotti di alta moda);

60 50 40 30 20 10 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.8. Serie storica sporadica stagionale stazionaria

• ﬁgura 10.9 : serie continua non stagionale crescente in modo parabolico.

700 600 500 400 300 200 100 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.9. Serie storica continua non stagionale parabolicamente crescente

10.2 Sales cleaning 10.2.1 Processo di sales cleaning Assegnata una serie storica continua di valori di domanda nell’orizzonte di disponibilit` a dei dati storici t = 1, . . . , T , prima di calcolare il piano futuro di domanda `e necessario procedere ad una duplice analisi sequenziale di: • identiﬁcazione e rimozione dei valori anomali (outlier detection e outlier cleaning);

10.2 Sales cleaning

363

• isolamento ed analisi delle componenti regolari della serie. Le due attivit` a, svolte dai demand planner nell’ambito dei processi di Demand Analytics e Sales Forecasting, sono strettamente sequenziali: dapprima si procede alla pulizia statistica di valori anomali, quindi si determinano le componenti regolari di trend, stagionalit` a e ciclicit`a. Qualora si agisca nel senso opposto, l’analisi della serie storica risulterebbe compromessa, a causa della presenza di valori abnormi interpretati come eventi regolari e caratteristici della serie studiata. I valori anomali presenti in una serie storica sono dati da quantit` a molto elevate (peak), nettamente superiori al valor medio della serie, o da quantit` a molto ridotte (valley); gli outlier possono derivare da: • vendite “spot” di entit` a elevata, dovute ad ordini straordinari diﬃcilmente ripetibili nel futuro; • mancate vendite occorse in taluni periodi di stockout, in cui la domanda non `e stata soddisfatta per mancanza di materiali presso i punti vendita; • attivit` a promozionali, di diversa durata, esplicitamente progettate dalla funzione Marketing nel passato su speciﬁci segmenti prodotto-mercato. Solitamente si esegue una distinzione base fra tipologie di outlier: • outlier prevedibili: dovuti alla presenza di campagne di marketing progettate ed implementate nei periodi storici, i cui eﬀetti (valori actual ) si misurano in fase di Sales Cleaning; • outlier non prevedibili: per diﬀerenza, qualsiasi altro evento commerciale rilevato nei bucket storici, di intensit` a positiva o negativa per la redditivit` a aziendale, non pianiﬁcato in sede di S&OP. Nel caso della presenza di attivit` a di marketing, si suppone che la domanda commerciale di periodo sia composta da due determinanti additive: • domanda regolare: quantit` a di vendita dovuta all’acquisto di prodotti non promozionati da parte dei clienti, i quali manifestano la volont` a di acquisto indipendentemente dalla presenza di promozioni sui prodotti di interesse; • eventi promozionali : quantit` a di vendita dovuta alla presenza di un evento di marketing; essa rappresenta il delta aggiuntivo di incremento nelle vendite di un prodotto in promozione, esplicita conseguenza dell’implementazione della campagna di marketing. Ciascun bucket storico pu` o essere “etichettato” in quanto periodo di promozione o periodo generico, in cui non si sono veriﬁcati eventi di marketing; la conoscenza dei periodi di promozione `e nota, per ciascun segmento, nei database di Marketing Intelligence. Nei periodi del primo tipo, l’obiettivo del sales cleaning `e misurare l’intensit` a delle promozioni, al ﬁne di valutare gli scostamenti rispetto al target; nel secondo caso, il focus `e sulla rimozione di valori abnormi, al ﬁne di preparare la baseline storica per i successivi processi di Sales Forecasting. La procedura di outlier cleaning di una serie storica prevede due fasi sequenziali: outlier detection e promotion analysis. In ciascuna di esse viene applicato

364

10 Time Series Analysis

un opportuno algoritmo di sales cleaning. Al termine delle due fasi, si ottiene la demand baseline da fornire in input ai modelli matematici di Sales Forecasting. Outlier detection. La serie storica di partenza viene accorciata, considerando solamente i periodi storici non soggetti ad attivit` a promozionali, ponendoli uno vicino all’altro in una scala temporale ﬁttizia. Un algoritmo di sales cleaning viene applicato a tale serie storica, al ﬁne di identiﬁcare e pulire gli outlier non dovuti ad attivit` a di marketing. I periodi di promozione non vengono considerati in questa prima fase, per non confondere l’algoritmo di sales cleaning nell’identiﬁcare correttamente le anomalie di tipo statistico, non frequenti ed esterne ad un apposito range di tolleranza, centrato attorno alla media della serie storica. Promotion analysis. La serie storica di partenza viene nuovamente trasformata nel modo seguente: • i bucket contenenti promozioni vengono mantenuti inalterati; • i valori di domanda in corrispondenza dei bucket generici vengono sostituiti con i valori puliti mediante algoritmi di sales cleaning, a parit` a di bucket. La nuova serie storica presenta quindi periodi generici regolari e periodi promozionali. Si procede nuovamente all’applicazione di un algoritmo di pulizia delle serie storiche, e si impone che i soli valori per i bucket promozionati vengano regolarizzati secondo opportuni modelli di calcolo. La diﬀerenza fra la baseline statistica e la serie storica di partenza identiﬁca il delta promozionale, cio`e l’impatto netto della promozione sulla baseline di domanda non dipendente da promozioni. La ﬁgura 10.10 inquadra il processo di sales cleaning nel quadro generale delle attivit` a di Sales Forecasting e Marketing Intelligence. Il delta promozionale estratto dalla serie storica di domanda viene archiviato nel database di Marke-

SALES CLEANING serie storica

OUTLIER CLEANING

DATAMART DEMAND PLANNING

PROMOTION CLEANING

DATABASE PROMOZIONI

baseline storica MARKETING PLAN SALES FORECASTING forecast baseline PROMOTION PLANNING delta promo

demand plan sales budget CONSENSUS BASED FORECASTING

VENDOR PLAN

sales forecast EXPERT PLAN

Figura 10.10. Inquadramento del processo di sales cleaning

10.2 Sales cleaning

365

ting Intelligence, per essere eventualmente riutilizzato in futuro, in occasione della progettazione di nuove promozioni su speciﬁci segmenti prodotto-mercato. 10.2.2 Algoritmo generale di sales cleaning Il processo di sales cleaning si articola in alcune fasi procedurali, inquadrabili all’interno della doppia iterazione di outlier detection e promotion analysis. Le modalit` a di sales cleaning sono estremamente variabili a seconda dei contesti di business e delle best practices adottate; tuttavia `e possibile deﬁnire uno schema logico di inquadramento comune ai modelli di pulizia statistica delle serie storiche di domanda. Un algoritmo generale di sales cleaning per le serie continue `e composto dalle seguenti fasi: 1. 2. 3. 4. 5. 6.

identiﬁcazione dei periodi da analizzare; deﬁnizione dei parametri di calcolo delle procedure di sales cleaning; rimozione delle componenti di stagionalit`a e trend dalla serie originaria; certiﬁcazione di outlier per i valori da pulire; rimozione di outlier tramite algoritmi di sales cleaning; aggiunta delle componenti di stagionalit` a e trend alla serie storica rettiﬁcata.

Identiﬁcazione dei periodi di analisi. La prima fase della sequenza riguarda l’identiﬁcazione dei periodi storici potenzialmente da nettiﬁcare, secondo le modalit` a outlier detection e promotion analysis in precedenza illustrate. Pertanto, la sequenza a sei fasi di un generico algoritmo di sales cleaning viene applicata due volte, nel caso in cui l’azienda operi attivit`a promozionali su taluni segmenti1 . I periodi di ciascuna iterazione dell’algoritmo appartengono ad insiemi distinti. Deﬁnizione dei parametri di calcolo. A seconda dell’algoritmo speciﬁco di sales cleaning utilizzato (ad esempio, intervallo di conﬁdenza o media mobile), occorre deﬁnire il set di parametri necessari alla sua corretta esecuzione (ad esempio, i livelli soglia nel caso di pulizia mediante il metodo dell’intervallo di conﬁdenza). Rimozione delle componenti di stagionalit` a e trend. Prima di procedere all’analisi degli outlier, `e necessario rimuovere dalla serie storica di vendita (actual sales) le componenti di stagionalit`a (de-stagionalizzazione) e di tendenza (de-trendizzazione), le quali possono confondere l’algoritmo di sales cleaning utilizzato. Risulta infatti indispensabile distinguere, per esempio: • un picco di domanda dovuto ad un valore molto elevato in periodi di bassa domanda; • un picco di domanda dovuto alla presenza congiunta di trend crescente e valore massimo di stagionalit` a. Entrambi i casi suesposti sono concettualmente idonei ad identiﬁcare, ad esempio, il valore massimo di una serie storica. Rimuovendo tendenza e cicli stagionali 1

In caso contrario, `e suﬃciente applicare una sola “passata” di sales cleaning per rimuovere gli outlier statistici.

366

10 Time Series Analysis

dalla serie, risultano isolati (a meno della componente ciclica di lungo periodo, per semplicit`a trascurabile in prima approssimazione): • la componente stazionaria e non prevedibile statisticamente della serie storica, ﬂuttuante casualmente attorno al valor medio; • eventuali outlier, distribuiti in modo casuale lungo l’asse dei bucket. Certiﬁcazione di outlier. Un valore potenzialmente impuro deve essere certiﬁcato come outlier, prima di poter essere ripulito dalla serie storica originaria. Ad esempio, se un valore originario cade al di fuori di un range di ammissibilit` a, esso viene rettiﬁcato, altrimenti permane inalterato nella baseline storica. In fase di deﬁnizione dei parametri di calcolo, deve essere impostata la condizione matematica di outlier. Rimozione di outlier. Una volta certiﬁcata la presenza di un valore anomalo in una serie storica continua, destagionalizzata e detrendizzata, si procede alla sua rettiﬁca o rimozione, applicando le formule di calcolo degli algoritmi di sales cleaning. Nei paragraﬁ seguenti vengono presentati due algoritmi di sales cleaning, la media mobile ed il metodo dell’intervallo di conﬁdenza. Aggiunta delle componenti di stagionalit` a e trend. Una volta che un generico valore storico `e stato rettiﬁcato, ad esso vengono riapplicate le componenti di trend e stagionalit` a, al ﬁne di ottenere la baseline di domanda, regolarizzata ed utilizzabile dagli algoritmi di sales forecasting. Si osservi che, qualora un bucket presenti valore di domanda non outlier, la procedura sequenziale non ha alcun eﬀetto di trasformazione sul valore originario della serie storica. La rimozione delle componenti di trend e stagionalit` a pu` o essere eseguita secondo due modalit` a principali: rimozione moltiplicativa o rimozione additiva. La diﬀerenza fra le due procedure riguarda la modalit` a di composizione delle componenti regolari per formare una serie storica, mediante moltiplicazione o addizione delle singole componenti; essa `e illustrata nella successiva sezione del capitolo, dedicata alle metodologie di scomposizione delle serie storiche. Per il momento, `e suﬃciente comprendere la tipologia base di trasformazione cui `e soggetta la serie storica. Rimozione moltiplicativa. La serie storica di domanda Dt viene divisa per le componenti di trend Tt e stagionalit` a St : Dt∗ =

Dt . Tt · St

Una volta che un valore outlier Dt∗ `e stato corretto mediante pulizia statistica, ottenendo un nuovo valore DtC , quest’ultimo viene moltiplicato per le componenti precedentemente rimosse, ottenendo il valore ﬁnale di sales baseline: SBt = DtC · Tt · St . Rimozione additiva. Alla serie storica di domanda Dt vengono sottratte le componenti di trend Tt e stagionalit` aSt, in modo linearmente additivo:

10.2 Sales cleaning

367

Dt∗ = Dt − (Tt + St ) . Una volta che il valore outlier Dt∗ `e stato corretto mediante sales cleaning, ottenendo un nuovo valore DtC , a quest’ultimo vengono addizionate le componenti precedentemente rimosse, ottenendo il valore ﬁnale di sales baseline: SBt = DtC + Tt + St . La ﬁgura 10.11 schematizza la procedura generale comune agli algoritmi di sales cleaning per serie storiche continue. 10.2.3 Intervallo di conﬁdenza Come gi`a illustrato nel capitolo dedicato all’analisi statistica della domanda, l’intervallo di conﬁdenza per una serie storica prevede il calcolo preliminare della media e della deviazione standard della distribuzione di domanda.

IMPOSTAZIONE PARAMETRI DI CALCOLO

OUTLIER DETECTION

IDENTIFICAZIONE PERIODI DI INDAGINE

PROMOTION ANALYSIS

serie storica RIMOZIONE COMPONENTI STAGIONALITA' / TREND

INTERVALLO DI CONFIDENZA delta promozioni

PROMOTION PLANNING

SALES CLEANING

MEDIA MOBILE SMORZAMENTO ESPONENZIALE

SALES FORECASTING

baseline storica

RIPRISTINO COMPONENTI STAGIONALITA' / TREND

Figura 10.11. Flusso logico di un algoritmo di sales cleaning

Assegnata una distribuzione storica di domanda Dt estesa su T periodi storici, avendo calcolato la media μD e la deviazione standard σD della serie, l’intervallo di conﬁdenza al α% `e deﬁnito tramite gli estremi inferiore (lower bound LB D ) e superiore (upper bound UB D ): LBD = μD − kα · σD ;

U BD = μD + kα · σD ,

essendo kα il percentile di ordine α della distribuzione normale standard N (0;1). L’intervallo di conﬁdenza che ne deriva: [μD − kα · σD ; μD + kα · σD ]

368

10 Time Series Analysis

`e simmetrico attorno alla media ed ha ampiezza 2kα · σD ; esso pu`o essere utilizzato come intervallo di discriminazione per certiﬁcare se un valore di domanda Dt costituisce outlier o meno. Il metodo di sales cleaning basato sul calcolo dell’intervallo di conﬁdenza si applica in senso cronologico, per tutti i bucket t = 1, . . . , T della serie di domanda nell’orizzonte storico, partendo dal periodo pi` u remoto ﬁno al pi` u recente. In corrispondenza del generico valore di domanda Dt in corrispondenza del bucket t, l’algoritmo deﬁnisce contemporaneamente: • la modalit` a di certiﬁcazione dell’eventuale valore outlier; • la modalit` a di rimozione del valore outlier. Condizione di outlier. Un valore storico di domanda viene considerato outlier se cade all’esterno dell’intervallo di conﬁdenza, calcolato al α% sui valori μD e σD . Un valore che cade internamente all’intervallo rimane inalterato. Rimozione di outlier. Un valore certiﬁcato outlier pu`o essere rettiﬁcato mediante una delle seguenti condizioni: • istanziato ad uno dei valori minimo LB D o massimo UB D , qualora il valore di domanda pretrattato Dt∗ sia inferiore o superiore ai valori estremi dell’intervallo di conﬁdenza: Dt∗ := μD − kα · σD oppure Dt∗ := μD + kα · σD ; • posto uguale al valor medio della serie storica: Dt∗ := μD . Il metodo basato sull’intervallo di conﬁdenza prevede due varianti base: modello statico e modello dinamico. Modello statico. Sia il test di outlier detection sia l’applicazione della formula di rettiﬁca degli outlier sono calcolati in modo statico, all’inizio dell’applicazione dell’algoritmo, basandosi sui valori di media μD e deviazione standard σD calcolati sull’intera serie storica composta da T periodi. Questa modalit` a di calcolo dei parametri dell’intervallo di conﬁdenza `e molto semplice, in quanto tutti i valori della serie storica (actual sales) sono immediatamente disponibili. Esso risulta tuttavia miope, in quanto il calcolo dei parametri viene eﬀettuato senza considerare la numerosit` a e l’intensit` a degli outlier eventualmente presenti, i quali hanno un eﬀetto distorcente nel calcolo di μD e σD . Seguendo questo approccio, i limiti di conﬁdenza LB D e UB D assumono valori indipendenti dal tempo, e rappresentano rette parallele all’asse temporale, in un diagramma cartesiano quale quello mostrato in ﬁgura 10.12, dove sono stati evidenziati gli outlier della serie storica di ﬁgura 10.1 (supposta gi` a destagionalizzata e detrendizzata). Per la serie storica di ﬁgura 10.1, si ha: μD = 43,92 e σD = 19,34. Costruendo un intervallo di conﬁdenza al α = 95%, si ottiene: [μD − k0,95 · σD ; μD + k0,95 · σD ] = = [43,92 − 1,96 · 19,34; 43,92 + 1,96 · 19,34] , prob (Dt ∈ [μD − 1,96 · σD ; μD + 1,96 · σD ] ; t ≤ T ) ∼ = 0,95 ,

10.2 Sales cleaning

369

100 90 80 70 60 50 40 30 20 10 0 1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.12. Intervallo di conﬁdenza per una serie storica

essendo l’intervallo di conﬁdenza caratterizzato dagli estremi LB D = 6,00 (retta inferiore) e UBD = 81,82 (retta superiore). I valori della serie storica in corrispondenza dei bucket t = 15 e t = 23, rispettivamente pari a D15 = 5 e D23 = 88, vengono rettiﬁcati ai valori LBD e UBD , dopo essere stati riconosciuti outlier in quanto esterni all’intervallo di conﬁdenza. L’incapacit` a del modello statico di “apprendere” dall’evoluzione del processo di sales cleaning, cio`e dal fatto che la serie storica ﬁno all’istante corrente t risulta priva di outlier in quanto gi` a rettiﬁcati nelle fasi precedenti, pu` o essere attenuata utilizzando, per il calcolo della media μD e della deviazione standard σD , la media troncata, • escludendo ad esempio i valori minimo e massimo della serie storica; oppure • escludendo in partenza i valori di domanda che cadono al di fuori di un intervallo di conﬁdenza al 99% (calcolato su tutti i valori della serie). Modello dinamico. La versione “dinamica” dell’algoritmo di sales cleaning basato su intervallo di conﬁdenza prevede la valutazione dei valori di media e deviazione standard in modo progressivo, lineare con l’avanzare del tempo, ricalcolando i valori dei parametri μD e σD in corrispondenza di ogni bucket t = 1, . . . , T . La media e la deviazione standard della domanda vengono calcolati, al generico istante t, considerando solo i primi t − 1 periodi storici gi` a rettiﬁcati: all’aumentare del progressivo di bucket temporale da t = 1 ﬁno a t = T , la qualit` a dei parametri dinamici in ingresso all’algoritmo migliora, in quanto si veriﬁca un processo di autoapprendimento da parte della procedura di calcolo di μD e σD , che tiene conto in misura crescente dei valori rettiﬁcati della serie storica. In corrispondenza del valore di domanda Dt candidato ad essere outlier all’istante t, il range di conﬁdenza di estremi LB D (t) e UBD (t) `e calcolato tenendo conto di media e deviazione standard degli ultimi t − 1 periodi della serie storica eventualmente rettiﬁcati nei passi precedenti: il modello accresce la propria conoscenza circa la serie storica oggetto di analisi, migliorando la propria capacit` a di identiﬁcare e correggere gli outlier. Secondo questo approccio:

370

10 Time Series Analysis

• gli estremi inferiore e superiore dell’intervallo di conﬁdenza risultano spezzate sul diagramma domanda-tempo; • gli estremi dell’intervallo di conﬁdenza assumono la seguente forma funzionale tempovariante: LBD (t) := μD (t) − kα · σD (t) ;

U BD (t) := μD (t) + kα · σD (t) .

Varianti del modello dinamico prevedono di considerare: • la lunghezza costante per l’intervallo di calcolo di media e deviazione standard, ad esempio limitandosi a considerare gli ultimi τ periodi rispetto al periodo corrente t, essendo τ un parametro ﬁsso predeterminato; • l’inizializzazione di media e deviazione standard, per t = 1, con i valori costanti μD e σD calcolati mediante l’approccio statico (anzich´e mediante il valore puntuale di domanda nel primo bucket Dt , avente varianza nulla), onde evitare che l’algoritmo risenta in misura eccessiva della presenza di outlier nei periodi iniziali della serie storica. Le logiche di rettiﬁca di outlier permangono inalterate, indipendentemente dalla modalit` a di calcolo, statica o dinamica, dell’intervallo di conﬁdenza. 10.2.4 Media mobile Un algoritmo di sales cleaning, pi` u semplice ed impreciso rispetto al metodo dell’intervallo di conﬁdenza, `e dato dalla media mobile (moving average, MA), uno dei pi` u comuni modelli matematici utilizzati nell’ambito del sales forecasting. Anche l’algoritmo media mobile considera la serie dei valori di domanda per valutare l’entit` a della modiﬁca del valore corrente Dt , precedentemente certiﬁcato outlier. Mentre l’algoritmo dell’intervallo di conﬁdenza considera due valori sintetici (media e deviazione standard) relativi alla storia delle vendite di un segmento prodotto-mercato, la media mobile considera i valori di domanda degli ultimi τ periodi rispetto al periodo corrente t, e ne esegue una media aritmetica per calcolare l’entit` a del cleaning per il valore corrente Dt . La condizione di outlier pu` o essere espressa in analogia al metodo dell’intervallo di conﬁdenza: un valore di domanda Dt `e outlier se cade al di fuori della banda di conﬁdenza, funzione dei parametri media e deviazione standard della distribuzione di domanda. La metodologia di rimozione degli outlier si esprime invece tramite la deﬁnizione della media mobile a τ periodi, per la serie storica di domanda Dt : M At (τ ) =

t−1 1 Dϑ . · τ ϑ=t−τ

Gli ultimi τ valori di domanda, escluso il valore corrente Dt , vengono mediati uniformemente, attraverso la media aritmetica dei rispettivi valori.

10.2 Sales cleaning

371

La serie storica MAt rappresenta una nuova serie di valori, diﬀerenti dalla serie originaria. L’algoritmo media mobile viene applicato al problema del sales cleaning nel modo seguente: al generico bucket t, qualora identiﬁcato come outlier, viene applicato il valore MA t , calcolato sulla base degli ultimi τ valori di domanda, indipendentemente dal fatto che gli ultimi τ valori siano stati precedentemente rettiﬁcati dal medesimo algoritmo. In alternativa, il calcolo della media mobile come algoritmo di sales cleaning pu` o includere, nel computo degli ultimi τ valori di domanda, anche il valore corrente Dt in corso di pulizia statistica: M At(τ ) =

1 · τ

t

Dϑ .

ϑ=t−τ+1

La ﬁgura 10.13 evidenzia, per la serie storica di ﬁgura 10.1, l’applicazione della media mobile a τ = 3 periodi secondo i due diﬀerenti approcci: • bucket corrente escluso: spezzata i cui punti sono contrassegnati da quadrati; • bucket corrente incluso: spezzata i cui punti sono contrassegnati da triangoli. L’ipotesi implicita nei graﬁci di ﬁgura 10.13 `e che tutti i periodi della serie storica (i cui punti sono contrassegnati da rombi) siano da rettiﬁcare essendo outlier. Ad esempio, il valore di media mobile per il periodo t = 4 (Dt = 49) `e stato calcolato come segue: • bucket corrente escluso: (20 + 28 + 32)/3 = 26,7; • bucket corrente incluso: (28 + 32 + 49)/3 = 36,3. Dalla ﬁgura 10.13 si pu` o osservare che: • la qualit` a di sales cleaning propria della media mobile `e complessivamente bassa, fortemente dipendente dal numero τ di valori inclusi nel calcolo dei termini MAt ;

100 90 80 70 60 50 40 30 20 10 0

Serie storica MA (bucket escluso) MA (bucket incluso)

1

3

5

7

9

11

13

15

17

19

21

23

Figura 10.13. Medie mobili applicate nel passato ad una serie storica

372

10 Time Series Analysis

• i primi τ = 3 valori non sono disponibili, cio`e non sono calcolabili dall’algoritmo; • l’algoritmo media mobile presenta un naturale sfasamento temporale di un periodo nel calcolo dei valori di sales cleaning, dipendente intrinsecamente dalla ` possibile ovviare a questo inconveniente, modalit` a di calcolo degli outlier. E visibile in ﬁgura 10.13 in corrispondenza dei bucket t = 12, 13, 14, 19, 20, 21, giustapponendo il valore calcolato in corrispondenza del generico bucket t sul bucket precedente t−1; il valore di sales cleaning per il bucket corrente t risulta quindi essere: t+1 1 Dt∗ = M At+1 (τ ) = · Dϑ . τ ϑ=t−τ+2

La ﬁgura 10.14 mostra l’eﬀetto del calcolo della media mobile sulla serie storica di cui alla ﬁgura 10.1, in corrispondenza di τ = 4 e τ = 9 periodi: la serie relativa al parametro τ = 9 risulta maggiormente smorzata, appiattita attorno al valor medio della serie storica Dt ; in questo caso, la profondit` a di sales cleaning risulta eccessiva, comportando una notevole perdita di informazione rispetto ai valori originali della serie. In generale, al crescere del parametro τ per la media mobile semplice: • aumenta la profondit` a di sales cleaning, ottenendo un consistente smorzamento di picchi ed innalzamento di valli; • la serie storica di output presenta valori pi` u prossimi al valor medio; • si evidenzia la componente di tendenza per la serie storica di partenza, come illustrato nella sezione relativa ai modelli di scomposizione delle serie storiche. Oltre alla famiglia di metodi moving average, con le relative varianti, anche i metodi di smorzamento esponenziale semplice (single exponential smoothing ) possono essere applicati al problema del sales cleaning. Tale famiglia di modelli matematici viene presentata nel capitolo 12, relativo ai metodi di sales forecasting.

100 90 80 70 60 50 40 30 20 10 0

Serie storica MA 4 periodi MA 9 periodi

1

3

5

7

9

11

13

15

17

19

21

23

Figura 10.14. Medie mobili applicate in corrispondenza dei valori τ = 4 e τ = 9

10.2 Sales cleaning

373

10.2.5 Valutazione delle promozioni commerciali Un caso applicativo relativo all’analisi di sales cleaning sulle serie storiche di domanda riguarda la valutazione dell’eﬃcacia delle promozioni di vendita (Promotion Eﬀectivness) progettate e realizzate nel passato dal dipartimento di Marketing e Vendite, in corrispondenza di alcuni segmenti prodotto-mercato. Nell’ambito dei processi di Demand Planning, la deﬁnizione del piano generale di domanda (demand plan) avviene mediante una successione di fasi, in cui vengono predisposti piani “locali”, fra i quali `e possibile senz’altro identiﬁcare tre componenti: • il piano previsionale di domanda (sales forecast Ft); • il piano delle attivit` a promozionali di marketing (promotion plan Δt ); • gli ordini cliente (customer orders Ot ). La relazione che lega le tre componenti al piano di budget (sales budget SBt ) `e, in prima approssimazione, la seguente: SBt = Ft + Δt + Ot , prescindendo cio`e dalle logiche locali collaborative e dalle best practices proprie di ciascuna azienda nella deﬁnizione del piano non vincolato di domanda, antecedente alla deﬁnizione del piano vincolato di domanda (demand plan), fattibile secondo i vincoli del sistema logistico-produttivo della Supply Chain Network. o essere espresso in due forme alternative: Il delta promozionale Δt pu` • incremento assoluto rispetto alla baseline di sales forecast; • incremento percentuale, calcolato sul sales forecast: Δt = αt · Ft, essendo αt la percentuale di incremento delle vendite dovuta all’immissione di quantit` a aggiuntive promozionali. Supponendo di accorpare, per semplicit` a, il termine Ot relativo agli ordini cliente gi` a acquisiti nel termine di sales forecast Ft , si pu` o supporre concettualmente che la domanda di budget sia formata da due componenti: • esogena: relativa alla volont` a di acquisto manifestata dai clienti, attraverso gli ordini dei clienti industriali ed il volume complessivo acquistato dai consumatori presso i punti vendita, componente stimata tramite le previsioni di vendita; • endogena: determinata dalle azioni di marketing pianiﬁcate dall’azienda. L’analisi di sales cleaning si rivela utile per identiﬁcare l’impatto eﬀettivo delle promozioni implementate nel passato, confrontando: • la quantit` a di prodotti intenzionalmente immessa sul mercato dall’azienda (delta promozionale Δt ), in seguito alla deﬁnizione del Marketing Plan; • la quantit` a di prodotti eﬀettivamente acquistati dai clienti in quanto soggetti ad attivit` a di promozione.

374

10 Time Series Analysis

La relazione previsionale che deﬁnisce il sales budget SBt = Ft +Δt+Ot , in cui sales forecast e delta promozionale sono oggetto di stima da parte dei demand planner, deve essere confrontata con la seguente, relativa alle serie di vendita (actual sales Dt ): Dt = DtC + ΔA t , essendo Dt la domanda commerciale, DtC la baseline storica depurata dagli outlier e dalle promozioni, ΔA a di promozione (actual promo t l’eﬀetto netto dell’attivit` sales). La qualit` a complessiva del piano di domanda `e misurata dal raﬀronto fra vendite stimate, in fase di redazione del budget delle vendite, e domanda eﬀettiva. Il KPI principale `e deﬁnito come sales accuracy: SAt = 100 ·

SB t − Dt . Dt

La valutazione complessiva delle vendite pu` o essere suddivisa in • analisi delle performance di sales forecasting; • analisi delle performance di promotion planning. L’analisi di accuratezza del sales forecast, aﬀrontata nel capitolo 11, prevede il confronto fra sales forecast Ft e sales baseline DtC : la metrica principale di valutazione della qualit` a puntuale `e data, per un generico bucket storico t, dalla forecast accuracy: F t − DtC . F At = 100 · DtC L’analisi di eﬃcacia commerciale delle promozioni `e invece attuata mediante il confronto fra il delta promozionale Δt (promo target ) e l’impatto eﬀettivo delle promozioni sul mercato ΔA a aggiuntive t (promo actual ), in termini di quantit` acquistate consapevolmente dai clienti. La promotion accuracy deﬁnisce l’accuratezza nella pianiﬁcazione delle promozioni e la precisione nel deﬁnire le quantit` a aggiuntive immesse sul mercato; tale KPI pu` o essere misurato tramite la formula: P At = 100 ·

Δ t − ΔA t . ΔA t

Il rendimento percentuale di una promozione (promotion eﬀectivness), calcolato come complemento ad 1 del rapporto fra quantit` a rettiﬁcate mediante sales a totali vendute a consuntivo Dt (actual cleaning DtC (sales baseline) e quantit` sales):

DtC P Et = 100 · 1 − , Dt evidenzia la redditivit` a addizionale di una promozione. Il rendimento percentuale a posteriori pu` o essere confrontato con l’eﬃcacia pianiﬁcata di una promozione, uguale al complemento ad 1 del rapporto fra quantit` a previsionali indipendenti dalla campagna di marketing Ft (sales forecast) e

10.3 Scomposizione delle serie storiche

375

quantit` a totali vendute di budget SBt (sales budget):

Ft P Tt = 100 · 1 − . SBt Un rendimento eﬀettivo superiore o uguale rispetto al target PT t evidenzia buona capacit`a di pianiﬁcare le attivit` a promozionali sui segmenti prodotto-mercato.

10.3 Scomposizione delle serie storiche 10.3.1 Scomposizione moltiplicativa La seconda ﬁnalit` a dei modelli di time series analysis riguarda l’estrazione delle componenti principali da una serie storica di domanda, precedentemente ripulita dagli outlier statistici e dalle eventuali promozioni realizzate nel passato. L’analisi delle componenti di una serie storica aiuta i decisori di Demand Planning a studiare ed interpretare le caratteristiche quantitative e qualitative della domanda commerciale, al ﬁne di predisporre interventi di mercato rivolti al sostenimento delle vendite. La conoscenza delle singole componenti `e indispensabile, qualora si voglia generare il piano statistico di domanda riaggregando gli elementi di base di una serie storica, dati da trend, stagionalit` a e ciclicit`a. Esistono due macroclassi di metodologie per l’estrazione delle componenti di una serie storica: modelli moltiplicativi, trattati in questo paragrafo, e modelli additivi, aﬀrontati in quello successivo. L’obiettivo dei modelli di scomposizione delle serie storiche `e quello di determinare le seguenti componenti in una serie storica continua e regolare: • • • •

componente componente componente componente

di tendenza (per ipotesi, di tipo lineare) Tt ; di stagionalit` a St ; ciclica di lungo periodo Ct; erratica, relativa alle ﬂuttuazioni casuali attorno alla media Mt .

Il modello moltiplicativo assume per la serie originale Dt una formulazione matematica del tipo: Dt = St · Tt · Ct · Mt . La sola componente di trend Tt presenta, dal punto di vista metrologico, le stesse dimensioni della domanda commerciale Dt . Le fasi dell’algoritmo di scomposizione moltiplicativa per una serie continua e regolare Dt , estesa nell’intervallo t = 1, . . . , T , sono le seguenti: 1. identiﬁcazione della componente congiunta di trend e ciclicit` a: Tt · Ct ; 2. identiﬁcazione della componente congiunta di stagionalit` a ed oscillazione casuale attorno alla media: St · Mt ; 3. isolamento della componente di stagionalit` a St ; 4. destagionalizzazione della serie storica originale Dt ; 5. isolamento della componente di tendenza Tt ;

376

10 Time Series Analysis

6. isolamento della componente di ciclicit` a Ct ; 7. isolamento della componente di ﬂuttuazione casuale Mt . Le componenti disaggregate possono quindi essere riassemblate per generare il piano previsionale di domanda, mediante proiezione nel futuro delle componenti elementari. Fase 1: identiﬁcazione congiunta di trend e ciclicit` a Per ottenere la componente congiunta moltiplicativa di trend e ciclicit` a, pari a Tt · Ct , si possono utilizzare due metodologie distinte: media mobile centrata e metodo delle diﬀerenze prime. Media mobile centrata. Si applica l’algoritmo di media mobile centrata (centered moving average, CMA) alla serie storica originale Dt , ponendo come valore di ampiezza della media centrale la lunghezza τ = L del ciclo stagionale di vendita. Questo algoritmo rappresenta una variante della media mobile semplice, tale per cui i valori inclusi nella media aritmetica sono equamente distribuiti a destra e a sinistra del valore corrente t-esimo della serie storica: la media risulta quindi centrata attorno al valore di domanda Dt in corso di analisi. Formalmente, il calcolo della media centrata di semiampiezza τ /2 avviene utilizzando la formula: CM At(τ ) =

1 · τ +1

t+τ/2

Dϑ ,

ϑ=t−τ/2

nell’ipotesi che il valore τ /2 sia intero. La media centrata `e eseguita su un totale di τ + 1 valori: τ /2 valori a sinistra, τ /2 valori a destra, inﬁne il valore centrale Dt . Nel caso in cui l’ampiezza di smorzamento τ risulti un numero pari (ad esempio: τ = 12 mesi o 52 settimane per stagionalit`a annuali), si utilizza la seguente espressione: Dt+τ/2 + Dt+(τ/2)−1 + . . . + Dt−(τ/2)+1 + 2τ Dt+(τ/2)−1 + Dt+(τ/2)−2 + . . . + Dt−τ/2 , + 2τ ottenuta ricorrendo ad una procedura di esecuzione di due medie mobili. La ﬁgura 10.15 mostra l’applicazione della media centrale alla serie storica di ﬁgura 10.1, con passo di stagionalit` a pari a L = 6 periodi (i punti della media mobile centrata sono contrassegnati graﬁcamente da un quadrato). La componente congiunta di trend e ciclicit` a si determina quindi tramite la relazione: Tt · Ct := CM At (τ = L) , CM At (τ ) =

per ciascun periodo della serie storica originale Dt . Nella serie intermedia, ottenuta tramite media centrale, sono state rimosse la componente di stagionalit` a e le ﬂuttuazioni irregolari casuali attorno al valor medio. Esistono diverse procedure per calcolare i valori estremi della media centrale,

10.3 Scomposizione delle serie storiche

377

100 90 80 70 60 50 40 30 20 10 0 1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Figura 10.15. Applicazione della media centrale di passo L = 6 ad una serie storica

ai bordi sinistro e destro della serie storica Tt ·Ct, non calcolabili tramite la formula standard CMA; si rimanda ai testi specialistici l’approfondimento di tale aspetto. Diﬀerenze prime. Questo metodo, di semplice applicazione, determina la componente congiunta moltiplicativa Tt · Ct attraverso il calcolo delle diﬀerenze prime fra valori consecutivi della serie storica originaria; una diﬀerenza del primo ordine `e pari alla diﬀerenza fra la domanda storica del periodo corrente Dt e la domanda del periodo precedente Dt−1 . In formule: Tt · Ct := Dt − Dt−1 .

Fase 2: identiﬁcazione congiunta di stagionalit` a ed erraticit` a La componente congiunta di stagionalit` a St e rumore casuale attorno al valor medio Mt si ottiene, nel modello di scomposizione moltiplicativa, eseguendo il rapporto fra la serie originale di domanda Dt ed il prodotto fra le componenti moltiplicative di trend e ciclicit` a: St · Mt :=

Dt Dt = , Tt · Ct CM At(L)

oppure St · Mt :=

Dt Dt = . Tt · Ct Dt − Dt−1

Fase 3: isolamento della componente di stagionalit` a La componente di stagionalit` a St , depurata dal rumore di domanda, viene calcolata eseguendo la media aritmetica dei valori della componente congiunta St · Mt per periodi di tempo omologhi rispetto alla lunghezza del ciclo stagionale di vendita. Ad esempio, i mesi di Gennaio vengono mediati tra loro, nel caso in cui la granularit` a temporale di analisi sia mensile ed il ciclo di vendita annuale; analogo discorso vale per le seconde settimane di ogni trimestre, nel caso di stagionalit`a pari a 12 o 13 settimane. Per ciascun bucket del ciclo stagionale l = 1, . . . , L (ciascun mese in un anno, ciascuna settimana in un semestre, ecc.) viene isolata la componente

378

10 Time Series Analysis

stagionale Sl :

Sl :=

St · Mt

t∈K(l)

card{K(l)}

,

essendo K(l) l’insieme che contiene i periodi omologhi di tipo l (ad esempio: Gennaio 2004, Gennaio 2005, Gennaio 2006, ecc.). I coeﬃcienti Sl rappresentano valori adimensionali, oscillanti attorno al valore 1, e deﬁniscono la percentuale di vendite al di sopra o al di sotto della media nel corso delle stagioni di vendita analizzate nella serie storica: • un valore mensile di stagionalit` a Sl = 1 indica che le vendite del singolo mese l sono in linea con il valor medio calcolato sui periodi di un insieme di stagioni; • un valore mensile di stagionalit`a Sl = 1,4 indica che le vendite del mese l sono superiori del 40% rispetto alla media stagionale; • un valore mensile di stagionalit`a Sl = 0,9 indica che le vendite del mese l sono inferiori del 10% rispetto alla media stagionale. Vale la relazione: Sl = Sl+L , per ogni periodo omologo l = 1, . . . , L. Fase 4: destagionalizzazione della serie storica La rimozione della componente stagionale dalla serie storica di partenza Dt avviene eseguendo il rapporto fra la serie Dt e la componente stagionale isolata in fase 3, ottenendo la serie storica destagionalizzata: DSt :=

Dt = Tt · Ct · Mt , Sl (t)

essendo Sl (t) il coeﬃciente stagionale del periodo t, di classel. Fase 5: isolamento della componente di trend La componente di trend Tt, supposta di tipo lineare, viene ottenuta interpolando i valori della serie storica destagionalizzata DS t (output della fase 4 del metodo moltiplicativo) con il tempo t = 1, . . . , T , ovvero applicando un modello di regressione lineare semplice, avente: • la serie storica destagionalizzata DS t come variabile dipendente di output; • la sequenza temporale t = 1, 2, 3, . . . , T come variabile indipendente in input. Si ottiene l’espressione lineare per la componente di tendenza Tt := a · t + b , funzione del tempo t e dei coeﬃcienti a e b della retta di regressione, stimati mediante il metodo dei minimi quadrati. Tale relazione viene applicata nel passato come approssimazione della componente di trend, il quale si suppone continuare anche nei bucket futuri, oggetto di indagine da parte dei modelli di sales forecasting.

10.3 Scomposizione delle serie storiche

379

Fase 6: isolamento della componente ciclica di lungo periodo La componente di ciclicit` a di lungo periodo Ct viene ottenuta rapportando i valori di domanda ottenuti mediante il calcolo della media mobile centrata, relativi alla componente congiunta di trend e ciclicit`a, alla retta di regressione esplicativa della sola componente di tendenza: Ct :=

Tt · Ct CM At(L) = . Tt a·t+b

Come nel caso dei coeﬃcienti di stagionalit`a St , anche la componente ciclica di lungo periodo `e espressa mediante valori adimensionali Ct , dimensionalmente ottenuti dal rapporto fra due tendenze calcolate in modo diﬀerente. Fase 7: isolamento della componente di ﬂuttuazione casuale L’ultimo step dell’algoritmo di scomposizione moltiplicativa di una serie Dt prevede la determinazione della componente erratica Mt della serie originaria, ﬂuttuante in modo non prevedibile attorno al valor medio. Dopo aver destagionalizzato e detrendizzato la serie storica originaria, ottenendo la nuova serie adimensionale DSTt :=

Dt Dt = , Sl (t) · Tt Sl (t) · (a · t + b)

si determina la componente erratica Mt applicando la seguente formula: Mt = m · DSTt :=

m · Dt , Sl (t) · Tt

essendo m la media aritmetica di tutti i valori della serie storica iniziale Dt , calcolata su tutti i periodi storici t = 1, . . . , T . Attraverso la conoscenza delle componenti di stagionalit` a e trend di una serie storica, `e possibile compiere alcune analisi di Demand Analytics. Ad esempio, `e possibile: • calcolare l’incremento o il decremento percentuale delle vendite di periodo mediante rapporto fra due componenti di trend contigue: ΔDt = 100 ·

Tt − Tt−1 ; Tt−1

• calcolare la variazione percentuale nelle vendite fra due periodi omologhi per stagionalit` a, collocati distanti un ciclo stagionale di lunghezza L sull’asse dei bucket: Tt − Tt−L ; ΔDt (L) = 100 · Tt−L • deﬁnire proﬁli di vendita stagionali mediante isolamento della componente stagionale di domanda. Se, ad esempio, L = 12, dal ciclo di vendita annuale discretizzato su base mensile si ricavano 12 valori {S1 , S2 , S3 , . . . , S12 }, normalizzati ad 1, da utilizzare come serie percentuale di stagionalit` a, da applicare su

380

10 Time Series Analysis

una quantit` a complessiva di budget B0 , deﬁnita per una stagione di vendita su un determinato segmento prodotto-mercato, ottenendo i quantitativi mensili di vendita (sales forecast Ft) attraverso la relazione: Ft = B0 · Sl (t) , per tutti i periodi dell’orizzonte di previsione t = T + 1, T + 2, . . . . 10.3.2 Scomposizione additiva Il modello additivo di scomposizione di una serie storica continua e regolare assume per la serie originale Dt una formulazione matematica del tipo: Dt = St + Tt + Ct + Mt , nella quale i diversi contributi regolari della domanda sono sommati linearmente. Tutte le componenti presentano, dal punto di vista metrologico, le stesse dimensioni della domanda commerciale Dt . Le fasi dell’algoritmo di scomposizione additiva per una serie storica Dt , estesa nell’intervallo t = 1, . . . , T , sono le seguenti: 1. identiﬁcazione della componente congiunta di trend e ciclicit` a: Tt + Ct ; 2. identiﬁcazione della componente congiunta di stagionalit` a ed oscillazione casuale attorno alla media: St + Mt ; 3. isolamento della componente di stagionalit` a St ; 4. isolamento della componente di ﬂuttuazione casuale Mt . Il metodo della media mobile centrata CMAt (L) `e utilizzabile per il calcolo della componente congiunta additiva di trend e ciclicit` a, con passo di stagionalit`a L pari alla lunghezza del ciclo stagionale della serie. La componente congiunta additiva di stagionalit` a e rumore casuale si determina per diﬀerenza, nota la componente Tt + Ct : St + Mt = Dt − (Tt + Ct ) . Le componenti periodiche di stagionalit` a, in numero pari ad L, si determinano mediando aritmeticamente i valori St + Mt su periodi omologhi: ( St + Mt ) Sl :=

t∈K(l)

card{K(l)}

,

essendo K(l) l’insieme che contiene i periodi omologhi di tipo l (ad esempio: Gennaio 2004, Gennaio 2005, Gennaio 2006, ecc.). Inﬁne, la componente erratica Mt viene nuovamente isolata per diﬀerenza di componenti regolari note: Mt = Dt − (Tt + Ct + St ) .

11 Valutazione dei modelli di Sales Forecasting

Accuratezza previsionale – Metriche per l’accuratezza previsionale metriche di forecast accuracy

– Utilizzo delle

11.1 Accuratezza previsionale 11.1.1 Valutazione dei modelli di sales forecasting I modelli di sales forecasting hanno l’obiettivo di generare la previsione statistica della domanda commerciale per i segmenti prodotto-mercato nell’orizzonte temporale di pianiﬁcazione. La generazione del sales forecast avviene attraverso l’analisi delle curve storiche di domanda, disponibili nell’intervallo temporale di ampiezza T contenente i valori passati rilevati presso i punti vendita: attraverso l’analisi delle componenti regolari della domanda per le serie storiche continue o l’analisi della sporadicit` a delle serie irregolari, i modelli matematici estrapolano i valori futuri di domanda previsionale come proiezione delle regolarit` a identiﬁcate nel passato. L’identiﬁcazione delle componenti di stagionalit` a, tendenza, ciclicit` a permette agli algoritmi di sales forecasting di generare previsioni future, nell’ipotesi che quanto avvenuto nel passato possa, in qualche misura, ripetersi nel futuro. Esistono numerosi modelli per il time series forecasting, sviluppati in ambito accademico o industriale, adatti a modellare le previsioni di domanda per serie storiche connotate da speciﬁche caratteristiche morfologiche; ad esempio, modelli molto accurati per serie continue e regolari si rivelano altamente inaccurati se applicati a serie intermittenti, caratterizzate da una signiﬁcativa incidenza di valori a domanda nulla, sparsi irregolarmente lungo i bucket dell’orizzonte storico. Ciascun modello di sales forecasting applicato ad una serie storica di domanda Dt determina uno speciﬁco valore di accuratezza previsionale (forecast accuracy), che pu` o essere confrontato: • con i valori di accuratezza registrati in corrispondenza di altri modelli di sales forecasting; • con i valori di accuratezza ottenibili utilizzando metodi empirici, qualitativi e sempliﬁcativi per la generazione del sales forecast; • con le performance ottenute su altri segmenti prodotto-mercato dai medesimi modelli; Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

382

11 Valutazione dei modelli di Sales Forecasting

• con le performance ottenute da aziende competitor “best in class”, in relazione a prodotti simili, appartenenti allo stesso paniere di consumo. 11.1.2 Intervalli di analisi e previsione L’accuratezza previsionale misura lo scostamento fra valori di domanda previsti statisticamente e valori eﬀettivi, misurati a consuntivo e disponibili nei datawarehouse di Demand Planning. Con riferimento ad uno speciﬁco segmento, avendo a disposizione la serie storica di domanda Dt lungo i periodi dell’orizzonte storico t = 1, . . . , T , `e possibile stimare per ciascun bucket l’errore puntuale di previsione, dato dalla diﬀerenza algebrica fra domanda eﬀettiva (actual sales Dt ) e previsione a1 formulata (sales forecast Ft ): si deﬁnisce quindi forecast error la quantit` Et = Dt − Ft . Tale diﬀerenza risulta positiva in caso di sottostima della domanda eﬀettiva (underforecasting), negativa nel caso in cui la previsione risulti superiore alle vendite reali (overforecasting); l’errore di previsione puntuale risulta nullo e minimo nel caso di perfetta predizione, in cui si veriﬁca la relazione: Dt = Ft . L’errore di previsione commesso da un modello matematico di sales forecasting deve essere misurato in modo complessivo e globale sull’intera serie storica di domanda, fornendo un valore sintetico di inaccuratezza identiﬁcativo di ciascuna coppia segmento-modello. Per determinare la misura di inaccuratezza richiesta, gli algoritmi di sales forecasting valutano l’errore di previsione all’interno di uno speciﬁco intervallo temporale di test, incluso nell’orizzonte dei dati storici misurati. L’orizzonte di analisi e previsione della domanda viene suddiviso in tre intervalli disgiunti: intervallo di training, intervallo di test, intervallo di previsione. Intervallo di training L’intervallo di training rappresenta il primo dei tre intervalli, in ordine cronologico, di estensione pari a TA , utilizzato dai modelli per l’apprendimento delle caratteristiche di regolarit` a delle serie di domanda. L’intervallo di training deﬁnisce il set minimo di dati necessario per il calcolo dei parametri di funzionamento interno degli algoritmi; la sua entit` a `e variabile, a seconda della tipologia di modello utilizzato. Due esempi: • il modello di media mobile semplice, applicabile sia nell’ambito del sales cleaning che per la generazione del piano di domanda, se implementato a τ periodi necessita di almeno τ valori disponibili nel passato, in modo da poter calcolare la predizione oppure il sales cleaning per i successivi periodi τ + 1, τ + 2, ecc. 1

Anche in questo capitolo si omette, nella notazione formale relativa a domanda e previsioni di vendita, il riferimento ai segmenti prodotto-mercato {p,c}: ad esempio la domanda puntuale D(p,c,t) viene semplicemente indicata tramite la notazione Dt .

11.1 Accuratezza previsionale

383

Per poter calcolare la media semplice a tre periodi nei bucket t = 4, 5, 6, . . . , occorre avere a disposizione i primi tre valori storici di domanda D1 , D2 e D3 : in questo caso l’ampiezza dell’intervallo di training `e pari a TA = 3 periodi, indipendentemente dal numero complessivo di periodi storici disponibili nel datawarehouse; • i modelli di smorzamento esponenziale e di scomposizione di serie storiche applicati al sales forecasting devono interpretare eventuali fenomeni ciclici di stagionalit` a di vendita; pertanto, sono necessari due cicli completi, ciascuno di ampiezza L (ad esempio, 12 mesi o 52 settimane per stagionalit` a annuale, quindi 24 e 104 bucket disponibili per il training, rispettivamente), aﬃnch`e tali algoritmi si addestrino a generare il sales forecast, a partire dal bucket t = 25 (granularit` a mensile) o t = 105 (granularit` a settimanale). All’aumentare dell’estensione dell’intervallo di training cresce il livello di apprendimento dell’algoritmo, avendo a disposizione un numero maggiore di valori sui quali settare in modo ottimale i parametri di funzionamento; mediante l’analisi di un campione superiore di dati storici disponibile, gli algoritmi colgono in modo pi` u accurato le regolarit` a di tendenza e stagionalit`a e sono in grado di proiettarli meglio nel futuro. Intervallo di test L’intervallo di test, detto anche intervallo di ﬁtting, rappresenta il secondo dei tre intervalli, in ordine cronologico, di estensione pari a T − TA , collocato successivamente all’intervallo di training. Tale intervallo, interamente appartenente all’orizzonte dei dati storici, viene impiegato per la valutazione dell’accuratezza predittiva dei modelli di sales forecasting. In altri termini, si suppone che il periodo corrente (time now, primo periodo di predizione) cada in corrispondenza del periodo TA + 1, primo periodo dell’intervallo di test, e si esegue la previsione per tutti i bucket relativi al test set (TA +1, TA +2, . . . , T ) ed all’intervallo di previsione (T + 1, T + 2, . . .). La valutazione di accuratezza dei modelli di sales forecasting `e eseguita in corrispondenza dell’intervallo di test, comparando: • i valori storici della domanda Dt , noti anche all’interno del test set; • i valori Ft calcolati dagli algoritmi internamente a tale intervallo; e determinando misure sintetiche di forecast accuracy, consolidando i valori puntuali degli errori misurati su tutti i T − TA bucket del test set. Come impostazione di base, i modelli di sales forecasting, basandosi sui soli valori numerici di domanda del training set, generano la previsione per tutti i periodi del test set, senza tener conto del fatto che, all’avanzare dei periodi di test, aumentano i valori di domanda disponibili: i valori storici del test set non sono, in generale, considerati per il riaddestramento dinamico degli algoritmi. Intervallo di previsione L’intervallo di previsione rappresenta il terzo ed ultimo intervallo, in ordine cronologico, in cui gli algoritmi generano l’eﬀettiva stima futura della domanda com-

384

11 Valutazione dei modelli di Sales Forecasting

merciale. La lunghezza dell’orizzonte di predizione e la granularit` a temporale della previsione sono estremamente variabili, a seconda dei contesti industriali. Ad esempio: • nel comparto dei prodotti alimentari freschi, il sales forecast viene generato su un orizzonte di 5-10 giorni, con granularit` a giornaliera, in dipendenza dalle condizioni climatiche e meteorologiche; talvolta, il sales forecast viene generato anche due volte al giorno, sincronizzato con i rifornimenti operati dai centri della distribuzione organizzata verso i punti vendita ed i supermercati; • nel settore dell’abbigliamento, l’orizzonte di previsione `e condizionato dalla lunghezza della stagione di vendita dei prodotti di moda, variabile da 10 settimane a 6 mesi, a seconda delle politiche di marketing delle aziende del comparto fashion; • nei settori dei beni di largo consumo non deperibili, l’orizzonte di previsione varia da qualche settimana ad un anno, ﬁno ad arrivare a 18 mesi di estensione. Solitamente, l’estensione dell’orizzonte di previsione `e pi` u contenuta nelle applicazioni di medio-breve termine, che utilizzano le serie storiche di vendita per formulare predizioni nel breve periodo, rispetto al calcolo della previsione su aggregati di prodotti, mercati e periodi, avente valenza di pianiﬁcazione di medio-lungo periodo ed orientata al dimensionamento delle risorse logistico-produttive all’interno della ﬁliera. Talvolta il sales forecast viene calcolato secondo due modalit`a: • a bucket giornaliero o settimanale, per i periodi pi` u prossimi all’istante attuale T + 1, al massimo livello di dettaglio su articoli e punti vendita; • a bucket settimanale o mensile, talvolta trimestrale, per i periodi pi` u lontani nell’orizzonte di previsione, in cui la visibilit` a sul comportamento dei mercati `e pi` u ridotta. Il sales forecast di medio-lungo termine, calcolato per famiglie di prodotti e gruppi di mercati, pu` o eventualmente essere splittato ai livelli bottom delle gerarchie multidimensionali, per riconciliarlo con il sales forecast di breve periodo. All’interno dell’intervallo di previsione, i primi τ periodi futuri (T +1, T +2, . . . , T + τ ) possono non subire alcuna modiﬁca nell’applicazione del piano di domanda, rispetto alla precedente edizione di sales forecast, essendo considerati bucket frozen, cio`e non modiﬁcabili in quanto sono gi` a state predisposte le successive fasi di validazione del piano di domanda (marketing intelligence, consensus based forecasting) e di negoziazione con le funzioni logistico-produttive, per ottenere il demand plan fattibile e sostenibile mediante azioni commerciali. Nonostante una nuova realizzazione di sales forecast si possa rivelare pi` u accurata di quella precedente, nella quale il bucket T rappresentava il time now, i valori di previsione nei periodi frozen non vengono ridiscussi, per le ragioni operative e procedurali precedentemente trattate.

11.1 Accuratezza previsionale

385

11.1.3 Deﬁnizione e modalit` a di calcolo della forecast accuracy L’accuratezza previsionale dei modelli di sales forecasting viene calcolata per tutti i periodi dell’intervallo di test, di ampiezza T − TA . Per ciascun bucket interno al test set viene calcolato l’errore puntuale di previsione, utilizzando una metrica f(Et ) funzionalmente dipendente dal forecast error Et = Dt −Ft ; al termine di tale procedura iterativa, l’errore puntuale di previsione, misurato su tutti i bucket di test, viene consolidato, utilizzando una funzione dell’errore totale di stimaf(Etot ). L’accuratezza di previsione di un modello di sales forecast `e intrinsecamente legata all’errore totale di stima compiuto simulando la previsione futura lungo i periodi dell’intervallo di test: la forecast accuracy FA `e deﬁnita, percentualmente, come il complemento ad 1 dell’errore totale di previsione, calcolato secondo un’opportuna metrica di errore: F A = 1 − f(Etot ) . Fra le misure di forecast error, si utilizzano per la deﬁnizione dell’accuratezza predittiva in prevalenza quelle deﬁnite in termini percentuali sui valori della domanda storica. Ad esempio, commettere un errore percentuale del 15% nella generazione del piano previsionale su un segmento prodotto-mercato lungo i periodi del test set signiﬁca produrre un sales forecast d’accuratezza pari all’85%. Esistono due modalit` a per il calcolo della forecast accuracy dei modelli di sales forecasting: intervallo di tempo variabile o intervallo di tempo ﬁsso. Intervallo temporale variabile La lunghezza dell’intervallo di test `e deﬁnita in modo variabile, a seconda della quantit` a di dati storici disponibili, e viene calcolata nel modo seguente: assegnata la lunghezza dell’orizzonte storico complessivo, identiﬁcata dal volume di dati di domanda archiviati nel datamart di Demand Planning, si determina la minima estensione dell’intervallo di training2 , coerentemente con la tipologia di modello matematico impiegata per la previsione. La diﬀerenza fra ampiezza dell’orizzonte storico e dell’intervallo minimo di training determina l’estensione temporale massima dell’intervallo di test, il quale pu` o comunque essere ridotto, assegnando alcuni periodi TA + 1, TA + 2, . . . al training set. Intervallo temporale ﬁsso La lunghezza dell’intervallo di test `e ﬁssata a priori (ﬁxed time window ), considerando, ad esempio, l’estensione temporale del sales forecast di breve periodo. Se il periodo previsionale di calcolo della domanda commerciale si limita ai primi τ periodi dell’orizzonte di pianiﬁcazione, anche l’accuratezza predittiva `e valutata, all’interno del test set, su un numero limitato di τ periodi. Si possono implementare diverse logiche alternative di valorizzazione della forecast accuracy secondo tale approccio ad intervallo ﬁsso: 2

Come gi` a ricordato, tale estensione `e pari, ad esempio, ad almeno due cicli stagionali di domanda, per serie storiche continue, regolari ed aﬀette da stagionalit` a.

386

11 Valutazione dei modelli di Sales Forecasting

1. si considerano i primi τ periodi dell’intervallo di test per il calcolo dell’accuratezza, quindi in corrispondenza dei bucket TA + 1, TA + 2, . . . , TA + τ : si vuole valutare la capacit` a di stima dei modelli sui primi periodi dell’orizzonte futuro ﬁttizio (logica operativa di breve termine); 2. si considerano gli ultimi τ periodi dell’intervallo di test, in corrispondenza dei bucket T − τ, T − τ + 1, . . . , T : si focalizza l’analisi sulla capacit`a di stima dei periodi pi` u recenti, in cui si sono registrate le variazioni di domanda ritenute maggiormente esplicative nei confronti dell’andamento futuro delle vendite; 3. l’accuratezza viene calcolata secondo una modalit`a rolling, per tutti i bucket t appartenenti al test set, tali che t < T − τ . In altri termini, al generico istante t interno all’intervallo di test, tutti i t − 1 bucket storici precedenti sono inclusi nell’analisi della serie storica e l’accuratezza previsionale viene misurata sui successivi τ periodi, sempre interni al test set. Le diverse misure locali di accuratezza cos`ı ottenute vengono mediate tra loro aritmeticamente, onde ottenere un unico valore sintetico di accuratezza, confrontabile fra i diversi algoritmi di previsione adottati.

11.1.4 Analisi della forecast accuracy L’accuratezza predittiva pu` o essere calcolata: • a livello di singola coppia prodotto-mercato; • su un insieme di entit` a prodotto-mercato appartenenti agli stessi raggruppamenti funzionali o logistici; • su entit` a consolidate, quali famiglie di prodotti, zone di mercato, aggregazioni temporali, nel caso in cui la previsione commerciale sia calcolata a tali livelli. Si rivela spesso utile confrontare la bont` a previsionale del medesimo algoritmo di sales forecasting calcolato contemporaneamente: • su tutte le entit`a puntuali appartenenti alla medesima famiglia merceologica; • sull’entit` a padre, legata gerarchicamente alle entit` a puntuali di livello inferiore. Possono essere espresse le seguenti considerazioni circa la variabilit` a dell’accuratezza predittiva: • la forecast accuracy aumenta quanto maggiore `e il livello di aggregazione delle entit` a prodotto, mercato e tempo lungo gli assi gerarchici; • la signiﬁcativit` a delle previsioni pu` o essere molto bassa qualora siano calcolate a livelli gerarchici “troppo” elevati; ad esempio, una previsione formulata a livello di brand (aggregato di linee/famiglie di prodotti), continente (aggregato di nazioni/regioni/citt` a), anno (aggregato di trimestri/mesi/settimane) pu` o risultare scarsamente utilizzabile per la deﬁnizione dei piani operativi di domanda di breve periodo. Esiste dunque un trade-oﬀ, per quanto espresso in questo punto e nel precedente, nella scelta del livello ottimo di calcolo delle previsioni di domanda, per ciascuna dimensione di analisi;

11.2 Metriche per l’accuratezza previsionale

387

• la forecast accuracy diminuisce con il progredire del tempo, lungo l’orizzonte di pianiﬁcazione, cio`e quanto maggiore `e la distanza fra il periodo corrente di formulazione del piano previsionale (time now ) ed il periodo su cui si vuole calcolare la stima della domanda: l’incertezza previsiva nel lungo periodo deriva in modo naturale dalla limitata visibilit` a dell’azienda nel valutare le preferenze di clienti e consumatori, le azioni dei competitor, l’introduzione di nuove regolamentazioni legislative, ecc.

11.2 Metriche per l’accuratezza previsionale 11.2.1 Classiﬁcazione delle misure di forecast error Le misure di valutazione del forecast error si classiﬁcano in: • misure puntuali di errore, calcolate in corrispondenza di singoli bucket appartenenti al test set; • misure globali di errore, calcolate in modo sintetico sull’orizzonte di test. Trasversalmente a tale classiﬁcazione, una misura di forecast error pu`o essere, dal punto di vista metrologico: • assoluta: misura la diﬀerenza fra sales forecast e actual sales in termini reali e quantitativi, nelle unit` a di misura tipiche della domanda commerciale; • relativa: la diﬀerenza fra stima e valore eﬀettivo viene calcolata in termini percentuali, rapportata alla domanda eﬀettivamente registrata per ciascun periodo storico. Le misure globali sono distinguibili, a loro volta, in: • misure di distorsione: valutano l’entit` a dell’errore di previsione ed il suo segno, per discriminare i casi di overforecasting da quelli di underforecasting; • misure di dispersione: valutano l’entit` a dell’errore di previsione in valore assoluto (considerando lo scarto fra domanda reale e predizione con il medesimo segno), evitando fenomeni di compensazione fra errori puntuali di segno diﬀerente, all’atto di consolidare tali valori per il calcolo del forecast error. Attraverso la selezione di un opportuno sistema di KPI per la misura del forecast error si vuole determinare, per ciascun segmento prodotto-mercato di cui si vuole generare la previsione di vendita, l’algoritmo che minimizza l’errore totale di previsione, misurato su tutti i T − TA bucket dell’intervallo di test dei modelli. Assegnato un set Z di algoritmi alternativi di sales forecasting, scelta una metrica sintetica di misura dell’errore, genericamente indicata mediante la notazione f(Etot ), si vuole determinare il modello matematico di previsione tale da rendere minimo l’errore totale di previsione, pari a fz (Etot ) per ciascun algoritmo z appartenente all’insieme Z: z ∈ Z|fz (Etot ) = min{fλ (Etot )} . λ∈Z

388

11 Valutazione dei modelli di Sales Forecasting

11.2.2 Ambiti di utilizzo delle misure di forecast error Le misure di valutazione dell’errore di previsione vengono utilizzate in diversi ambiti, con l’obiettivo generale di ottenere la migliore previsione di domanda per ciascun segmento prodotto-mercato oggetto di analisi. Best-ﬁt parametrico I modelli di sales forecasting appartengono a diﬀerenti classi o famiglie omogenee; per citare alcuni esempi: metodi basati sulla media mobile, metodi di smorzamento esponenziale, modelli di Holt-Winters, modelli per serie storiche sporadiche, modelli di scomposizione delle serie storiche regolari. Selezionata una famiglia di algoritmi (ad esempio, Holt-Winters), si procede alla scelta dei parametri “ottimali” di funzionamento interno, speciﬁci per ciascuna famiglia di metodi matematici; l’ottimalit` a dei valori parametrici consiste nell’individuazione dell’insieme di valori, uno per ciascun parametro, tali da massimizzare l’accuratezza previsiva della famiglia di metodi prescelta, testandone la qualit` a predittiva sui periodi del test set. Ad esempio, nel caso della famiglia di algoritmi Holt-Winters, si procede alla scelta dei parametri α, β e γ, compresi nell’intervallo [0;1], tali da minimizzare un’opportuna metrica di errore sintetica. La procedura descritta prende il nome di best-ﬁt parametrico: si cerca cio`e la migliore combinazione di parametri numerici degli algoritmi che si adatta nel modo migliore alla serie storica, tenuto conto del contemporaneo addestramento dell’algoritmo nei periodi del training set. Best-ﬁt algoritmico Una volta che tutti gli algoritmi (o comunque il subset di metodi selezionati per un determinato gruppo di prodotti/mercati) sono stati ottimizzati internamente, `e necessario procedere alla selezione della miglior famiglia di metodi, da applicare al segmento prodotto-mercato corrente, al ﬁne di generare il piano previsionale avente accuratezza massima. Ad esempio, si vuole scegliere quale fra i seguenti metodi validi per la previsione di serie storiche continue e regolari: • Holt-Winters additivo o moltiplicativo (internamente ottimizzati); • scomposizione additiva o moltiplicativa (internamente ottimizzati); sia il pi` u idoneo nel calcolo del sales forecast per le diverse coppie prodottomercato. Anche nel caso del best-ﬁt algoritmico, viene scelto l’algoritmo che minimizza una prescelta metrica di errore, valutata in modo consolidato per tutti i periodi del test set. Valutazione puntuale dell’errore In modo dinamico nel tempo, ogniqualvolta un nuovo valore storico di domanda diviene disponibile in quanto misurato sul campo, si procede all’analisi puntuale dell’errore di forecasting, comparando il pi` u recente valore actual Dt con la sua ultima previsione registrata Ft. Qualora l’errore puntuale di previsione risulti particolarmente elevato, `e necessario procedere, alternativamente:

11.2 Metriche per l’accuratezza previsionale

389

• ad una nuova taratura dei parametri interni propri della famiglia di modelli di sales forecast utilizzati; • al cambiamento di tipologia di modello predittivo utilizzato, in quanto le caratteristiche di regolarit` a della serie storica risultano modiﬁcate nel tempo, in maniera tale da rendere non pi` u giustiﬁcabile l’adozione della stessa famiglia prescelta alcuni periodi precedenti, quando la domanda presentava talune regolarit` a statistiche non pi` u suﬀragate dai recenti valori actual monitorati. Forecasting Value Added La valutazione puntuale dell’errore viene anche eseguita confrontando: • il valore actual sales Dt ultimo registrato; • la previsione sales forecast Ft generata, in modo indipendente, da ciascun analista di Demand Planning, nel corso dei processi per la generazione dei piani non vincolato e vincolato di domanda. Si vuole stimare il “valore aggiunto” alla forecast accuracy dato dall’intervento di ciascun decisore proveniente dalle funzioni di Marketing, Vendite, Logistica e Produzione, in modo incrementale rispetto alla previsione inizialmente generata in modo automatico tramite i modelli matematici di sales forecasting. 11.2.3 Misure puntuali di errore Le misure puntuali di errore valutano lo scostamento fra actual sales e sales forecast per ciascun periodo dell’intervallo di test, localmente ai singoli bucket storici. Dalla metrica puntuale base deﬁnita dal forecast error Et = Dt − Ft derivano le seguenti misure locali di errore. Absolute Error Si deﬁnisce errore assoluto locale il valore assoluto della diﬀerenza fra actual sales e sales forecast : AEt = |Et | = |Dt − Ft| . L’attenzione `e focalizzata sull’entit` a numerica dell’errore puntuale di stima, rispetto al suo segno, ben evidenziato dalla metrica base Et . Squared Error Si deﬁnisce errore quadratico locale il quadrato della diﬀerenza fra actual sales e sales forecast : SEt = Et2 = (Dt − Ft )2 . Questa metrica di errore penalizza errori di entit` a rilevante, rispetto ad errori commessi per valori molto bassi, dell’ordine di qualche unit` a o sottomultipli di unit` a ﬁsiche di prodotto. La sostanziale dipendenza dalle unit` a di misura dei diversi segmenti prodotto-mercato rende diﬃcoltoso comparare errori quadratici relativi a diversi segmenti, valorizzati mediante unit` a di vendita diﬀerenti.

390

11 Valutazione dei modelli di Sales Forecasting

Percentage Error L’errore percentuale locale `e dato dal rapporto fra la diﬀerenza di domanda reale e previsione statistica e la domanda stessa; l’errore di previsione Et viene rapportato dimensionalmente al valore della domanda: P Et = 100 ·

Et Dt − Ft = 100 · . Dt Dt

Tale coeﬃciente di errore, essendo adimesionale quindi indipendente dalle unit` a di misura relative con cui viene usualmente valorizzata la domanda, pu` o essere agevolmente confrontato con gli errori percentuali valutati in corrispondenza di altri segmenti prodotto-mercato, usualmente misurati mediante diﬀerenti unit` a di misura, di prodotto e di tipo monetario. Questa caratteristica `e comune a tutte le metriche di errore basate su rapporti di quantit` a di domanda prevista e reale. 11.2.4 Misure di distorsione Le misure globali di distorsione analizzano lo scostamento fra actual sales e sales forecast calcolandolo per tutti i periodi appartenenti all’intervallo di test. Esse misurano, in termini medi, l’entit` a della sottostima o della sovrastima della domanda. I valori registrati per i diversi bucket storici sono sommati tenendo conto del segno dell’errore, in eccesso oppure in difetto nella stima della domanda eﬀettiva. Errori di segno diﬀerente si compensano nelle sommatorie, inducendo a ritenere erroneamente che il sales forecast generato risulti accurato. Ad esempio, assegnati due periodi storici del test set aventi domanda eﬀettiva costante pari a 10 unit` a di vendita, un algoritmo che genera una previsione pari a 5 e 15 per i due periodi in esame commette un errore medio nullo (stima di domanda perfetta ad errore totale minimo), poich´e le diﬀerenze di sottostima e sovrastima compiute nei due periodi, entrambe pari a 5 unit` a, si compensano perfettamente. Cumulative Forecast Error L’errore totale di previsione cumulato alla data corrente `e deﬁnito dalla somma degli errori puntuali di forecasting, calcolati dal primo periodo dell’intervallo di test al periodo corrente t: CF Et =

t ϑ=TA +1

Eϑ =

t

(Dϑ − Fϑ ) .

ϑ=TA +1

A seconda del segno di tale metrica globale, misurabile localmente su ciascun bucket storico, si valuta la tendenza dell’errore commesso, nel senso della sovrastima o sottostima della domanda (errore di direzione, o bias). Ad esempio, se CFEt > 0, il modello predittivo tende a sottostimare la domanda sui segmenti commerciali, in quanto la domanda eﬀettiva risulta mediamente superiore alla previsione locale di periodo.

11.2 Metriche per l’accuratezza previsionale

391

Mean Error L’errore medio di previsione (mean error o BIAS ) `e deﬁnito come media aritmetica degli errori locali di previsione, estesa su tutti i periodi dell’orizzonte di test: ME =

T T 1 1 · Et = · (Dt − Ft) , T − TA T − TA t=TA +1

t=TA +1

ed ha la stessa dimensione metrologica della domanda3. Due algoritmi di sales forecasting z1 e z2 , che generano la previsione di domanda nel test set rispettivamente pari a {10 10 10 10 10 10} e {0 20 0 20 0 20} presentano la medesima accuratezza predittiva nei confronti della serie storica di valori {10 10 10 10 10 10}, in quanto in entrambi i casi l’errore medio `e nullo. La metrica dell’errore medio non `e quindi in grado di cogliere il perfect forecast generato dal modello z1 , accurato al 100%, rispetto al metodo z2 , il quale commette un errore percentuale di stima pari al 100% (con segno) per ciascun bucket. L’errore medio di stima della serie storica {10 10 10 10 10 10} mediante un algoritmo che genera la previsione {10 12 14 13 11 18} `e pari a −18/3 = −6 unit` a di vendita; da una semplice analisi visiva dei valori di sales forecast, si evince che il modello ha un bias negativo, tendendo a sovrastimare la domanda eﬀettiva. Mean Percentage Error L’errore percentuale medio di previsione `e deﬁnito come media aritmetica degli errori percentuali locali di previsione (percentage error ), estesa su tutti i periodi dell’orizzonte di test: MP E =

T T 100 100 · P Et = · T − TA T − TA t=TA +1

t=TA +1

Dt − Ft . Dt

I singoli errori percentuali con segno vengono pesati uniformemente, per ottenere il valor medio dell’errore percentuale sull’intero intervallo di test. Permane nella metrica MPE il difetto di compensazione degli errori aventi segno diﬀerente, riscontrato per il Mean Error. 11.2.5 Misure di dispersione Anche le misure globali di dispersione analizzano lo scostamento fra actual sales e sales forecast calcolandolo per tutti i periodi appartenenti all’intervallo di test. A diﬀerenza delle metriche di distorsione, in questo caso i valori di domanda sono privati del segno algebrico, evitando eﬀetti di compensazione fra periodi di sovrastima e sottostima della domanda, valutando, a seconda dei casi, il valore assoluto 3

Per semplicit` a di notazione, nell’acronimo di identiﬁcazione delle metriche globali di errore si omette di speciﬁcare, laddove non strettamente richiesto, il riferimento temporale sul quale `e stato eﬀettuato il calcolo. Ad esempio, la notazione ME per l’errore medio sottintende l’arco temporale di valutazione di tale metrica, dal bucket TA + 1 all’ultimo periodo storico T .

392

11 Valutazione dei modelli di Sales Forecasting

dell’errore locale di previsione o la sua seconda potenza. La dispersione misura la distanza dei valori di previsione e di domanda rispetto al loro valor medio; i due modelli z1 e z2 , generanti i sales forecast {10 10 10 10 10 10} e {0 20 0 20 0 20} per la serie storica {10 10 10 10 10 10}, presentano lo stesso errore medio, mentre la loro dispersione attorno al valor medio (pari a 10 unit` a di vendita per periodo) `e signiﬁcativamente diﬀerente: nulla nel primo caso, elevata nel secondo. In generale, le misure di dispersione sono pi` u frequentemente utilizzate per il calcolo del forecast error. A parit` a di modelli che presentano valori analoghi di distorsione, viene scelto quello che presenta valore minimo in corrispondenza di un’assegnata metrica di dispersione, al ﬁne di minimizzare la variabilit` a e l’instabilit` a dell’errore di previsione attorno al suo valor medio. Mean Absolute Deviation La deviazione media assoluta `e deﬁnita come la media aritmetica dei valori assoluti dell’errore puntuale di previsione (absolute error ), calcolata su tutti i periodi dell’orizzonte di test: M AD =

1 · T − TA

T t=TA +1

AEt =

T 1 · |Dt − Ft | . T − TA t=TA +1

Gli errori con segno non si compensano, come invece si veriﬁca per la media semplice degli errori. Gli algoritmi z1 e z2 commettono errori medi assoluti di predizione pari, rispettivamente, a 0 e 10 · 6/6 = 10 unit` a. La deviazione media assoluta ha la stessa dimensione metrologica della domanda e pesa uniformemente errori di entit` a elevata o ridotta, rendendo diﬃcile il confronto con errori rilevati per segmenti prodotto-mercato valorizzati in unit` a di misura diﬀerenti. Mean Absolute Percentage Error La deviazione media percentuale, o errore medio percentuale assoluto, si calcola mediando aritmeticamente gli errori percentuali locali assoluti, per tutti i periodi dell’orizzonte di test: M AP E =

T T 100 100 · |P Et | = · T − TA T − TA t=TA +1

t=TA +1

|Dt − Ft | . Dt

Tale metrica `e frequentemente utilizzata nella comparazione di modelli alternativi di sales forecasting, in quanto “ingloba” nella sua forma funzionale i beneﬁci precedentemente riscontrati per altre misure globali di errore: • non compensa errori di segno opposto; • `e indipendente dalle unit` a di misura per i prodotti-mercati; • `e di facile interpretazione: il signiﬁcato di un errore di stima del 15% viene immediatamente “compreso” dagli analisti di Demand Planning, nel linguaggio comune colloquiale.

11.2 Metriche per l’accuratezza previsionale

393

Con riferimento alla modalit` a di calcolo del forecast error basata sull’intervallo temporale ﬁsso 4 , `e possibile calcolare il mean absolute percentage error su un numero limitato di periodi, ad esempio gli ultimi τ periodi storici, utilizzando una misura di MAPE period to date: P T D M AP ET (τ ) =

1 · τ

T t=T −τ+1

|Dt − Ft | . Dt

L’accuratezza predittiva di un modello di sales forecasting Z, calcolata utilizzando l’errore medio percentuale assoluto, `e data da complemento a 100 della metrica MAPE : F AZ = 100 − M AP EZ , calcolata sull’intero intervallo di test oppure su una sua porzione limitata. Sum of Squared Errors La somma degli errori quadratici `e la somma degli errori di previsione locali, elevati al quadrato, estesa a tutti i periodi dell’orizzonte di test: SSE =

T t=TA +1

SEt =

T

2

(Dt − Ft ) .

t=TA +1

Mean Squared Error L’errore quadratico medio `e dato dal rapporto fra la somma degli errori quadratici calcolati lungo l’intervallo di test ed il numero di bucket in esso presenti: M SE =

T 1 SSE 2 = · (Dt − Ft) . T − TA T − TA t=TA +1

In altri termini, viene eseguita la media aritmetica degli errori di forecast elevati al quadrato. Questa metrica penalizza gli errori di stima elevati in valore assoluto, a causa del fattore di potenza 2 utilizzato per “pesare” i diversi contributi di forecast error relativi ai singoli bucket del test set. Segmenti prodotto-mercato diversi risultano diﬃcilmente comparabili tramite la metrica MSE, a causa dell’elevamento al quadrato di valori espressi secondo diﬀerenti unit` a di misura. Standard Deviation Error La deviazione standard dell’errore (anche detta Root Mean Squared Error, RMSE ) `e semplicemente deﬁnita estraendo la radice quadrata dall’errore quadratico medio: T √ 1 SDE := M SE = · (Dt − Ft )2 T − TA t=TA +1

4

Illustrata nel paragrafo 11.1.3.

394

11 Valutazione dei modelli di Sales Forecasting

ed ha la stessa dimensione metrologica della domanda, quindi presenta un utilizzo pi` u pratico rispetto al MSE. Errore di Durbin-Watson La metrica di forecast error proposta da Durbin e Watson `e funzione dell’errore quadratico secondo la seguente espressione, valutata lungo l’intervallo di test: T

DW =

t=TA +2

(Et − Et−1 )2 .

T t=TA +2

Et2

Il criterio di Durbin-Watson serve per valutare la correlazione temporale seriale del primo ordine fra errori successivi di domanda; l’obiettivo consiste nel valutare se il modello di sales forecasting presenta un errore sistematico di sovrastima o sottostima della domanda reale, avente un determinato andamento regolare al progredire del tempo all’interno dell’intervallo di veriﬁca. I valori assumibili dalla metrica DW si collocano nell’intervallo [0;4]: • se DW ∼ 2, non esiste correlazione seriale progressiva fra errori di previsione; • se DW < 2, si ha una correlazione positiva fra gli errori, aventi sistematicamente lo stesso segno, in misura pi` u o meno marcato, a seconda della prossimit`a del valore DW a 0; • se DW > 2, si `e in presenza di correlazione negativa fra errori, aventi progressivamente segno alterno al progredire del tempo. L’intensit` a di tale correlazione negativa cresce quanto pi` u prossimo al valore 4 `e l’indicatore di Durbin-Watson. Tracking Signal Una misura della distorsione dei modelli di sales forecasting, concettualmente analoga alla metrica di Durbin-Watson, `e il tracking signal. La metrica di errore del segnale di tracking `e deﬁnita, per ciascun periodo t dell’orizzonte di test, dal rapporto fra l’errore cumulato di previsione CFEt al bucket corrente t e la somma degli absolute error AEt , calcolata ﬁno al periodo corrente: t

T St =

CF Et = t AEt

ϑ=TA +1

ϑ=TA +1 t ϑ=TA +1

(Dϑ − Fϑ ) . |Dϑ − Fϑ |

Tale indicatore misura la tendenza degli algoritmi a generare previsioni in underforecasting o in overforecasting; i valori assumibili sono inclusi nel range [−1; 1]: • TS = 0: un algoritmo che presenta segnale di tracking nullo `e totalmente non distorto, nel senso che gli errori si compensano perfettamente: il modello previsionale formula in ugual misura predizioni in sottostima ed in sovrastima della domanda eﬀettiva;

11.2 Metriche per l’accuratezza previsionale

395

• TS ∼ −1: il modello usato per formulare previsioni risulta distorto per difetto, nel senso che le previsioni generate risultano sistematicamente al di sotto dei valori eﬀettivi di domanda, generando un errore cumulativo di previsione negativo: CFEt < 0 (numeratore del rapporto di deﬁnizione del segnale di tracking); • TS ∼ 1: il modello matematico in fase di testing risulta distorto per eccesso, in quanto le previsioni generate sono sistematicamente al di sopra dei valori consuntivi di domanda, producendo un errore cumulativo di previsione positivo: CFEt > 0. Il segnale di tracking pu` o essere utilizzato per valutare l’accuratezza dei modelli di sales forecast, ogniqualvolta un nuovo valore di actual sales Dt (depurato mediante metodi di sales cleaning) si rende disponibile. All’istante corrente t, viene calcolato il nuovo valore di tracking TSt: • se il valore misurato risulta interno ad un range di accettazione, il modello di sales forecasting utilizzato possiede ancora un’adeguata capacit` a predittiva per il segmento prodotto-mercato analizzato; • in caso contrario (se TSt > TSmax ), si procede ad una revisione dei valori dei parametri interni di funzionamento del modello o, se del caso, alla sua sostituzione con un nuovo algoritmo di sales forecasting.

11.2.6 Esempio applicativo Viene riportato in tabella 11.1 un esempio di calcolo degli errori puntuali di previsione per la serie storica di 10 valori {5, 66, 51, 79, 43, 45, 32, 40, 88, 32}, stimata mediante un modello di sales forecasting che ha originato la serie previsiva {7, 54, 54, 77, 45, 51, 25, 49, 85, 38} nell’intervallo di test. Le misure aggregate di errore assumono i seguenti valori: ME = −0,4; MAD = 5,2; MPE = −5,9%; MAPE = 15,1%; MSE = 37,6; SDE = 6,1; DW = 3,0.

Tabella 11.1. Esempio di calcolo delle metriche puntuali di forecast error Dt Ft Et AEt PEt CFEt SEt TSt

1

2

3

4

5

6

7

8

9

10

5 7 −2 2 −40 −2 4 −1,0

66 54 12 12 18 10 144 0,7

51 54 −3 3 −6 7 9 0,4

79 77 2 2 3 9 4 0,5

43 45 −2 2 −5 7 4 0,3

45 51 −6 6 −13 1 36 0,0

32 25 7 7 22 8 49 0,2

40 49 −9 9 −22 −1 81 0,0

88 85 3 3 3 2 9 0,0

32 38 −6 6 −18 −4 36 −0,1

396

11 Valutazione dei modelli di Sales Forecasting 100 80 60 40 20 0 -20

1

2

3

4

5

6

7

8

9

10

domanda

5

66

51

79

43

45

32

40

88

32

forecast

7

54

54

77

45

51

25

49

85

38

errore

-2

12

-3

2

-2

-6

7

-9

3

-6

Figura 11.1. Curve di domanda, previsione ed errore per l’esempio numerico

La ﬁgura 11.1 riporta l’andamento temporale della domanda storica Dt , della previsione di vendita Ft e dell’errore puntuale Et . Si pu` o osservare graﬁcamente che il modello di sales forecasting compie errori di stima di segno alterno, non avendo derive sistematiche di sovrastima o sottostima della domanda, come `e anche evidenziato dai valori prossimi a zero per il segnale di tracking TSt , calcolato in tabella 11.1 per i 10 bucket dell’intervallo di test.

11.3 Utilizzo delle metriche di forecast accuracy 11.3.1 Monitoraggio degli errori di previsione Per ciascun segmento prodotto-mercato per il quale viene calcolato ordinariamente il piano previsionale di domanda, `e utile predisporre un cruscotto di misure di errore, strutturato come nell’esempio presentato in tabella 11.2. Tabella 11.2. Esempio di cruscotto per il monitoraggio del forecast error time now = week 1 – Aprile 2008 t = 1 – week 3 – Maggio 2002 TA = week 4 – Settembre 2004

segmenti prodottomercato target error P1 – C1 P1 – C2 P2 – C1 P2 – C2

ME ME* ME1 ME2 ME3 ME4

MPE MPE* MPE1 MPE2 MPE3 MPE4

MAD MAD* MAD1 MAD2 MAD3 MAD4

MAPE MAPE* MAPE1 MAPE2 MAPE3 MAPE4

MSE MSE* MSE1 MSE2 MSE3 MSE4

TS TS* TS1 TS2 TS3 TS4

DW DW* DW1 DW2 DW3 DW4

11.3 Utilizzo delle metriche di forecast accuracy

397

Nella tabella 11.2 sulle righe si trovano le combinazioni prodotto-mercato oggetto di previsione; la riga target error evidenzia la soglia target per i valori delle metriche di forecast error riportate nelle colonne della tabella. Il monitoraggio delle previsioni di domanda, eseguito mediante il controllo dell’inaccuratezza predittiva per le diverse coppie prodotto-mercato, avviene secondo possibili logiche alternative: in corrispondenza della disponibilit` a di un nuovo valore di domanda Dt • si controlla che l’errore sintetico di previsione, misurato nell’intervallo di test, non ecceda il valore target di allarme (massimo errore ammesso), per i soli prodotti di classe A, ritenuti prioritari sulla base di uno speciﬁco indicatore di performance (redditivit` a, fatturato, marginalit` a, ecc.); • attraverso la predisposizione di uno speciﬁco report, il sistema di sales forecasting dei sistemi APS segnala le combinazioni il cui errore di predizione `e risultato superiore al target consentito. Le eccezioni derivanti da elevati valori di inaccuratezza previsionale vengono: • corrette manualmente dai demand planner (forecasting by exception); • analizzate dagli esperti aziendali e regolarizzate attraverso negoziazioni di consensus based forecasting. Qualora un segmento prodotto-mercato risulti caratterizzato da un errore di forecast al di sopra della soglia massima tollerata, `e possibile impostare un metodo di selezione automatica di (in alternativa): • una nuova famiglia di modelli matematici di sales forecasting, determinata tramite il ricalcolo completo dei parametri ottimi per ciascuna famiglia, da applicare ai periodi successivi nell’orizzonte di previsione; • la seconda famiglia che ha registrato l’errore di previsione minore, nel ranking dei modelli matematici precedentemente generato in fase di best-ﬁt algoritmico (cio`e prima di registrare il valore eccessivo per la metrica di errore dell’algoritmo “primo classiﬁcato” nell’ottimizzazione di best-ﬁt ). La presenza di una molteplicit` a di metriche alternative di forecast error non deve portare a concludere che tali misure risultino tutte “concordi” nel quantiﬁcare la qualit` a delle previsioni di domanda. Assegnati due algoritmi z1 e z2 , `e possibile che si veriﬁchino casi di ranking diﬀorme fra metriche di errore diﬀerenti: ad esempio, • la metrica A assegna un miglior valore di forecast accuracy al modello z1 ; • la metrica B seleziona automaticamente il modello z2 , ritenuto pi` u accurato. Per ovviare a tale inevitabile inconveniente, `e possibile costruire misure di errore “aggregate” ed univoche, uniﬁcando mediante media ponderata diversi KPI per la valutazione del forecast error. Misure di errore composte W (Etot ) sono costruibili

398

11 Valutazione dei modelli di Sales Forecasting

attraverso la seguente formula: W (Etot ) =

αk · fk (Etot ) ,

k∈K

nella quale i coeﬃcienti moltiplicativi αk rappresentano i pesi delle diverse metriche di errore fk (Etot ) appartenenti all’insieme K di indicatori di errori usualmente calcolati dagli applicativi APS. Ad esempio, una metrica di errore composta pu`o essere deﬁnita come: W (Etot ) = 0,2 · MAD + 0,8 · SDE . Occorre porre particolare cautela, nella deﬁnizione delle metriche di errore composte, riguardo a: • deﬁnizione dei pesi αk di ponderazione delle singole metriche elementari; • omogeneizzazione delle unit`a di misura dei diversi errori standard. Ad esempio, non risulta corretto sommare linearmente un indicatore assoluto (come il MAD) ad un indicatore percentuale (come il MAPE ) o ad una metrica di tipo quadratico (come il MSE ). 11.3.2 Forecast Benchmarking Le misure di valutazione dell’accuratezza previsionale dei modelli di sales forecasting sono utilizzabili per confrontare l’incremento di forecast accuracy apportato da un algoritmo matematico complesso e soﬁsticato, rispetto ad alcuni casi base facilmente ottenibili. Se l’utilizzo del modello matematico genera un decremento dell’errore di previsione, allora `e corretto impiegare tale algoritmo in quanto portatore di “valore aggiunto”, monitorando la taratura dei valori ottimali per i parametri interni di funzionamento. Assegnato un algoritmo Z di previsione statistica ed una serie storica di valori di domanda Dt , si procede inizialmente al calcolo di un cruscotto di metriche di forecast error per valutare le prestazioni di stima di Z. Ad esempio, si supponga noto il valore dell’errore assoluto percentuale medio MAPEZ , calcolato su tutti i bucket del test set, e di altre misure, quali MADZ e MSEZ . Naive Forecasting Il pi` u semplice metodo per generare una previsione di domanda Ft, nota una serie storica di valori Dt , consiste nel predire le vendite del prossimo bucket (il periodo corrente t) uguagliandone la stima Ft all’ultimo valore di serie storica, disponibile in corrispondenza del bucket T := t − 1. Tale semplice e grossolano metodo prende il nome di Naive Forecasting, e risulta privo di fondamenti matematici ma permeato da buon senso pratico (“la storia si ripete”, “le vendite di domani saranno uguali a quelle di oggi”); la previsione viene calcolata esclusivamente per primo periodo futuro t, in modo miope, senza alcuna indicazione sui periodi successivi: Ft = DT ≡ Dt−1 .

11.3 Utilizzo delle metriche di forecast accuracy

399

Nota la predizione formulata dal semplicistico metodo naive, `e possibile comparare il MAPE calcolato tramite tale metodo (MAPEN ), per tutti i periodi del test set, con il MAPE del pi` u accurato modello di sales forecasting Z messo a punto in fase di training. Si deﬁnisce naive forecast accuracy benchmarck relativo al modello Z la seguente metrica: M AP EZ N F AB(Z) = . M AP EN Se si veriﬁca che tale metrica di benchmarking `e superiore ad 1, l’errore commesso dal soﬁsticato modello Z `e superiore all’inaccuratezza dimostrata dal modello naive: non `e quindi opportuno procedere alla taratura del metodo Z, impiegando tempo e risorse di calcolo per monitorarne i valori di tracking signal, errore di Durbin-Watson, ecc. Viceversa, in caso di valore inferiore all’unit` a per la metrica NFAB, tale KPI misura l’incremento di potere predittivo manifestato dal modello Z. Valori di poco inferiori ad 1 portano comunque a ritenere limitata l’eﬃcacia predittiva dell’algoritmo Z, propendendo per un suo graduale abbandono. La seguente metrica locale di errore (naive benchmarking error ) rapporta l’errore di predizione puntuale generato dall’algoritmo Z all’errore rilevato, nel medesimo bucket t, dal metodo naive: N BE(Z) =

|Ft (Z) − Dt | . |Ft (N ) − Dt |

Inﬁne, la metrica aggregata di Theil (Thiel’s U-error ) misura la qualit` a del sales forecast generato dal modello Z, sull’intero orizzonte di test, in relazione al modello naive: T T 2 2 Ft (Z)−Dt Ft (Z)−Dt D D t−1 t−1 t=TA +2 t=TA +2 U = 2 = 2 . T T Ft (N)−Dt Dt−1 −Dt t=TA +2

Dt−1

t=TA +2

Dt−1

Best In Class Forecasting In alternativa, le metriche di forecast accuracy misurate per il miglior modello predittivo Z possono essere confrontate: • con le previsioni formulate in modo qualitativo dai decisori esperti di business, nel corso delle riunioni formali di consensus based forecasting; • con i valori di accuratezza registrati dai competitor “best in class” su analoghi segmenti prodotto-mercato. Si deﬁnisce best in class forecast accuracy benchmarck relativo al modello Z la metrica: MAPEZ FABBIC (Z) = , MAPEBIC

400

11 Valutazione dei modelli di Sales Forecasting

formalmente analoga alla formulazione relativa al caso del modello naive. Se si veriﬁca che tale metrica di benchmarking `e prossima ad 1, lievemente superiore, l’errore commesso dal modello tende ad eccellere, in quanto molto vicino al campione di benchmarking registrato per la speciﬁca combinazione prodotto-mercato. Lo scostamento percentuale MAPEZ − MAPEBIC , qualora positivo, fornisce un driver per valutare la distanza fra le attuali performance erogate dal modello Z ed il valore target cui si vuole tendere. In generale, `e possibile aﬀermare che valori di MAPE contenuti entro la fascia 10-15% possono essere considerati ragionevoli valori obiettivo, nella deﬁnizione dei livelli target della forecast accuracy dei modelli di sales forecasting. Forecasting Value Added sui demand planner Componendo i due approcci basati sul confronto del sales forecast Ft con: • la previsione generata da metodi molto semplici, quali il modello naive, la media aritmetica o la media mobile; • la miglior previsione per il segmento prodotto-mercato generata nel passato in azienda oppure da aziende competitor best in class; `e possibile certiﬁcare l’accuratezza predittiva dei diversi demand planner preposti alla formulazione delle previsioni della domanda commerciale. Ciascun soggetto decisionale deﬁnisce una propria stima della domanda, periodo per periodo, per i diversi segmenti di analisi. Con riferimento ad uno stesso segmento di domanda, un insieme di j = 1, . . . , n demand planner genera un diﬀerente sales forecast Ft (j), caratterizzato da un’accuratezza predittiva pari a FA(j). Secondo quanto indicato dalla metodologia di analisi del valore aggiunto nei processi di Sales Forecasting (Forecasting Value Added, FVA), tali valori di accuratezza possono essere: • ordinati in modo crescente per identiﬁcare il miglior decisore per il segmento prodotto-mercato analizzato, da premiare mediante sistemi di incentivazione proporzionali all’entit` a della forecast accuracy; • distinti in due classi: accuratezze inferiori e superiori rispetto al valore di forecast accuracy ottenibile impiegando un metodo naive; • distinti in due classi: accuratezze che distano pi` u o meno una soglia percentuale massima dal valore di forecast accuracy best in class. Ad esempio, la seguente classiﬁcazione basata su ranking di forecast accuracy: MAPE1 < MAPE2 < . . . < MAPEN < . . . < MAPEj < . . . < MAPEn discrimina i demand planner sulla base della loro qualit` a predittiva rispetto all’errore percentuale assoluto medio rilevato in corrispondenza del metodo naive, MAPEN . Il decisore che ha ottenuto la migliore predizione della domanda viene chiamato pubblicamente ad illustrare le metodologie, i modelli matematici e le conoscenze ambientali informative utilizzate nell’ottenimento del best forecast : la condivisione

11.3 Utilizzo delle metriche di forecast accuracy

401

di idee ed informazioni incrementa l’eﬃcacia del processo decisionale multilivello, tipico delle attivit` a di consenus based forecasting. Forecasting Value Added sui processi di Demand Planning Una seconda modalit` a operativa di applicazione della metodologia FVA riguarda la valutazione del valore predittivo aggiunto da ciascuna fase dei processi di Demand Intelligence, Sales Forecasting e Marketing Intelligence, nel corso dei processi di deﬁnizione, diﬀusione, negoziazione ed approvazione ﬁnale del piano non vincolato di domanda (sales budget). Si vuole studiare la qualit` a interna dei processi di • • • •

analisi quantitativa della domanda (sales cleaning, time series analysis); generazione statistica delle previsioni di vendita (time series forecasting); deﬁnizione delle campagne di marketing (marketing intelligence); deﬁnizione dei volumi di vendita basati su metodi qualitativi di brainstorming (metodo delphi, opinione di esperti, ecc.); • negoziazione e raﬃnamenti progressivi del piano di domanda, in seguito alla sequenza di riunioni formali fra demand planner e funzioni aziendali; orientati al comune obiettivo di generare previsioni ad elevata accuratezza. Per ciascuna fase del processo di Demand Planning si genera una previsione di domanda, a volte intermedia ed incompleta, per la quale `e possibile calcolare, a posteriori, il valore di forecast accuracy. Il valore aggiunto di ciascuna fase alla qualit` a della stima di domanda pu` o essere, alternativamente, • positivo, nel senso che incrementa l’accuratezza predittiva, aggiungendo conoscenze locali ed elementi utili a fornire stime pi` u precise di domanda; • negativo, nel senso di deteriorare il valore aggiunto al sales forecast dai processi localizzati a monte nel workﬂow procedurale di Demand Planning. Dati due processi consecutivi j e j + 1 di Demand Planning, l’accuratezza previsionale derivante dall’applicazione di conoscenza del secondo processo sui risultati del primo `e modellizzabile tramite la semplice relazione: F Aj+1 = F Aj + Δj+1 , in cui il diﬀerenziale di accuratezza Δj+1 apportato dal processo j +1 pu` o essere di segno positivo (forecast value added), negativo (deterioramento delle previsioni di vendita) o nullo (indiﬀerenza, basata ad esempio sulla conferma del sales forecast precedente). L’indagine FVA sui processi paralleli o sequenziali di Sales Forecasting e Marketing Intelligence aiuta il management ad identiﬁcare fasi, attivit` a e gruppi di lavoro che portano informazioni utili ed aﬃdabili alla generazione della domanda futura, rispetto ai demand planner che, all’interno di altri processi, non aggiungono valore alla qualit` a delle previsioni: la consapevolezza dei limiti di alcuni gruppi o fasi `e di supporto per il management di Demand Planning, al ﬁne di istituire processi eﬃcaci con decisori motivati e competenti.

402

11 Valutazione dei modelli di Sales Forecasting

11.3.3 Scelta del livello di calcolo del Sales Forecast Un problema frequentemente incontrato dai demand planner consiste nella scelta dei livelli “ottimali” di calcolo della previsione statistica della domanda, avendo a disposizione diversi livelli gerarchici multidimensionali di consolidamento dei dati storici, lungo gli assi di prodotto, mercato, tempo, canale distributivo. Con riferimento all’asse dei prodotti, si supponga di aver precalcolato: • la previsione statistica con il miglior algoritmo Z(p) in corrispondenza di ciascun prodotto ﬁnito p appartenente alla famiglia di prodotti F , quindi collocato al livello bottom nell’asse gerarchico dei prodotti5 ; • le corrispondenti metriche di errore (ad esempio, il MAPE ) associate alle previsioni di vendita per ciascun prodotto appartenente alla famiglia F , calcolate nell’arco temporale coperto dall’intervallo storico di test; • la previsione con il miglior algoritmo Z(F ) per la famiglia aggregata F ; • le corrispondenti metriche di errore (ad esempio, il MAPE ) associate alle previsioni di vendita del prodotto padre F . Dovendo discriminare quale sia il livello di calcolo del forecast, sull’asse dei prodotti, che d` a luogo alla previsione pi` u accurata per l’orizzonte di pianiﬁcazione, scegliendo uno solo fra il livello bottom (prodotti ﬁniti p) ed il livello immediatamente superiore (famiglia di prodotti F ), si procede in uno dei modi alternativi nel seguito elencati, il primo dei quali risulta meno preciso del secondo. Bottom forecast accuracy Il sales forecast Ft(F ) calcolato a livello aggregato per il prodotto padre F viene splittato sui prodotti ﬁgli p = 1, . . . , nF , a parit` a di coppia mercato-tempo, per i diversi valori t inclusi nell’intervallo [TA ; T ] caratteristico del test set, utilizzando una opportuna base di ripartizione. Vale la relazione di congruenza fra il sales forecast aggregato Ft(F ) e le previsioni per i singoli prodotti Ft(p), per tutti i periodi dell’orizzonte di previsione: Ft (p) . Ft (F ) = p∈F

Per ciascun prodotto ﬁnito p si calcola il valore di una metrica di errore (ad esempio, il MAPE ), eseguendo il confronto, prodotto per prodotto (livello bottom), fra: • l’errore di forecast ottenuto calcolando la previsione a livello disaggregato secondo la dimensione prodotto: MAPEbottom (p), per ciascun prodotto ﬁnito; • l’errore di forecast ottenuto calcolando la previsione aggregata sul padre F , avendo quindi splittato i valori aggregati Ft(F ) sui ﬁgli p, disponendo di un valore di errore per ogni prodotto ﬁnito: MAPEtop (p). 5

Si supponga la dimensione mercato suﬃcientemente aggregata (al limite: al livello top, calcolando una previsione di vendita dei prodotti indipendente dai mercati). Analogo discorso per il livello temporale di calcolo. Lo schema di analisi presentato in questo paragrafo `e ovviamente replicabile per le dimensioni mercato e tempo.

11.3 Utilizzo delle metriche di forecast accuracy

403

Ciascun prodotto ﬁnito p viene valutato comparando le due metriche di errore assoluto percentuale medio, calcolando la diﬀerenza bottom accuracy BA(p): BA(p) = MAPE bottom (p) − MAPEtop (p) . Se il numero di prodotti ﬁniti tali che BA(p) > 0 (accuratezza a livello bottom superiore all’accuratezza conseguita dopo l’operazione di splitting top-down) `e superiore a quello dei prodotti caratterizzati dalla relazione BA(p) < 0, allora viene registrato come uﬃciale il sales forecast generato a livello aggregato sulla famiglia F , quindi splittato sui prodotti ﬁgli p. In caso contrario, `e pi` u opportuno conservare la previsione calcolata a livello disaggregato per i singoli prodotti. Questa metodologia `e fortemente condizionata dalla scelta della base di ripartizione della previsione aggregata Ft(F ) verso i singoli prodotti ﬁniti. Top forecast accuracy Secondo questo approccio, il livello migliore di calcolo del sales forecast viene scelto confrontando: • la metrica di errore calcolata sulla previsione a livello aggregato, eﬀettuata per la famiglia F (MAPEF ); • una metrica di errore equivalente e consolidata a livello aggregato, che sintetizzi i valori degli errori puntuali calcolati per i singoli prodotti p (MAPEp ). La metrica equivalente viene calcolata, per il livello aggregato, eseguendo la media pesata degli errori locali di previsione sui singoli prodotti MAPEp , ponderando i valori di MAPE mediante le percentuali di incidenza della domanda dei singoli prodotti ﬁniti sulla famiglia F , quindi attraverso i rapporti {Dp /DF }, per ciascun articolo p. Il valore di MAPE equivalente aggregato per la famiglia F si calcola con la formula: Dp A MAPEF = MAPE p · = DF =

p∈F

1 T t=TA +1

· Dt (p)

p∈F

p∈F

T t=TA +1

|Dt (p) − Ft (p)| Dt (p)

·

T

Dt (p)

.

t=TA +1

Si procede inﬁne al confronto fra errore di previsione calcolata a livello aggregato sulla famiglia F (MAPEF ) ed errore equivalente di previsione sui prodotti ﬁgli p, consolidato a livello aggregato (A MAPEF ). Fra i due errori, viene selezionato quello avente valore minore, ed il conseguente approccio di previsione della domanda viene implementato.

12 Time Series Forecasting

Introduzione al Time Series Forecasting – Medie mobili – Smorzamento esponenziale – Modello di Holt-Winters – Modello Time Series Decomposition – Combinazione di modelli di Sales Forecasting – Intervallo di conﬁdenza per il Sales Forecast – Deﬁnizione del piano non vincolato di domanda

12.1 Introduzione al Time Series Forecasting 12.1.1 Generazione del Sales Forecast La previsione della domanda commerciale viene generata mediante l’impiego di modelli matematici di Sales Forecasting, i quali analizzano i valori disponibili delle vendite realizzate nel passato, interpretano i fenomeni di regolarit` a nella domanda e proiettano le componenti delle serie storiche nel futuro, dando luogo al piano previsionale di domanda, integrato dalle analisi di marketing e dai ﬂussi di lavoro di tipo collaborativo basati sulla negoziazione consensuale del sales budget. Ricevendo in ingresso i valori delle serie storiche di domanda Dt (actual sales) negli intervalli di training e di test, gli algoritmi ed i metodi di sales forecasting ricavano la proiezione futura delle vendite Ft (sales forecast), in funzione dell’andamento della domanda registrato nel passato per ciascun segmento prodotto-mercato. La qualit` a predittiva dei modelli di time series forecasting `e misurata attraverso il calcolo degli errori di previsione in corrispondenza dell’intervallo di testing, avendo precedentemente addestrato i modelli sull’analisi dei valori storici disponibili nell’intervallo di training. Il modello che si rivela maggiormente accurato nella previsione della domanda di una coppia prodotto-mercato viene adottato per la generazione della previsione nel futuro orizzonte di pianiﬁcazione delle attivit` a di Sales & Operations Planning. Al procedere del tempo, nuovi valori storici si aggiungono alla domanda commerciale; i modelli di sales forecasting subiscono periodico riaddestramento e veriﬁca di validit` a includendo tali nuovi valori nella serie storica: la qualit` a predittiva di ciascun modello alternativo viene costantemente revisionata; quando questa si deteriora, conseguenza della diminuzione della forecast accuracy, i modelli devono essere ritarati.

Milanato D: Demand Planning – Processi, metodologie e modelli matematici per la c Springer-Verlag Italia 2008, Milano gestione della domanda commerciale.

406

12 Time Series Forecasting

12.1.2 Fasi del processo di Sales Forecasting Assegnata una serie storica di domanda Dt per un segmento prodotto-mercato, le fasi che conducono alla formulazione della previsione futura rappresentano una sequenza ciclica di operazioni da compiere, in relazione al settaggio parametrico dei modelli ed alla valutazione della loro accuratezza predittiva. Le fasi del processo di Sales Forecasting sono le seguenti: 1. analisi delle caratteristiche quantitative della serie storica; 2. selezione delle famiglie di algoritmi candidate a generare la previsione futura; 3. best-ﬁt parametrico per la determinazione dei valori ottimali per i parametri degli algoritmi di sales forecasting selezionati; 4. best-ﬁt algoritmico per la selezione del modello ottimale; 5. generazione del sales forecast utilizzando l’algoritmo migliore selezionato; 6. valutazione del forecast error in presenza di nuovi valori storici; 7. aggiornamento dei parametri degli algoritmi (ritorno ai punti 1, 2 e 3). Il ﬂusso logico del processo di Sales Forecasting `e illustrato in ﬁgura 12.1.

TIME SERIES ANALYSIS

SELEZIONE ALGORITMI

NO

ANALISI FORECAST ERROR

BEST-FIT PARAMETRICO

OK? SI

GENERAZIONE SALES FORECAST

BEST-FIT ALGORITMICO

Figura 12.1. Fasi del processo di generazione della previsione della domanda

Time Series Analysis. La serie storica di domanda viene innanzitutto depurata dai valori outlier, mediante l’impiego di metodi di sales cleaning, quindi studiata per identiﬁcarne le caratteristiche quantitative peculiari, quali la tipologia (continuativa o sporadica), le componenti di regolarit` a (stagionalit` a, trend, ciclicit` a), gli indicatori principali relativi alla distribuzione dei valori (media, varianza, . . . ). Selezione degli algoritmi. A seconda dei risultati determinati in sede di analisi quantitativa della serie storica, un insieme di algoritmi candidati alla generazione del sales forecast viene selezionata: ad esempio, i modelli di Poisson e Croston vengono scelti nel caso in cui la serie registri un comportamento sporadico intermittente.

12.1 Introduzione al Time Series Forecasting

407

Best-ﬁt parametrico. Gli algoritmi precedentemente selezionati vengono addestrati sui valori disponibili per la serie storica nell’intervallo di training: i valori dei parametri numerici propri di ciascun algoritmo vengono tarati, in modo da minimizzare l’errore di previsione che si ottiene lanciando l’algoritmo per predire i valori di domanda storica appartenenti al test set. Viene selezionata la combinazione di parametri, per ciascun algoritmo, che minimizza una determinata metrica di errore, calcolata in modo aggregato sui periodi dell’intervallo di veriﬁca. Best-ﬁt algoritmico. Gli algoritmi internamente ottimizzati vengono messi a confronto per selezionare quello che oﬀre la migliore accuratezza predittiva, limitatamente ai valori storici nell’ambito dell’intervallo di test. A seguito di questa “ottimizzazione esterna” fra algoritmi alternativi, internamente ben parametrizzati, l’algoritmo che ha generato il minor forecast error viene selezionato, supponendo essere il miglior predittore anche per la stima dei valori di domanda futuri. Generazione del sales forecast. Il miglior algoritmo di sales forecasting, selezionato separatamente per ciascun segmento prodotto-mercato, viene applicato: • lungo l’orizzonte di pianiﬁcazione della domanda, per la generazione del piano previsionale; • lungo l’orizzonte di test, per calcolare e memorizzare l’errore di previsione compiuto nei periodi passati. Valutazione del forecast error. Nel momento in cui si rendono disponibili i valori pi` u recenti di actual sales (al limite, la domanda del periodo precedente t − 1), viene misurato lo scostamento fra l’ultima predizione eﬀettuata dal miglior algoritmo ed il corrispondente valore di domanda rilevato presso i punti vendita. Si possono veriﬁcare due casi: 1. il forecast error, misurato all’istante corrente t attraverso un cruscotto di misure di errore, `e superiore ad un valore soglia massimo ammesso: la serie storica della domanda viene riprocessata interamente (time series analysis, selezione degli algoritmi, best-ﬁt). In questo caso il sistema pu` o selezionare come migliore un diﬀerente algoritmo ed un corrispondente nuovo set di parametri ottimi da applicare alla serie storica, per generare una nuova previsione statistica per i bucket t + 1, t + 2, . . . , per l’intero orizzonte di pianiﬁcazione; 2. il forecast error risulta contenuto entro il valore di allarme che segnala una previsione poco accurata: l’algoritmo continua a risultare valido per la generazione della previsione per la speciﬁca coppia prodotto-mercato. Senza modiﬁcare i valori dei parametri interni, il modello matematico viene riutilizzato per generare una nuova previsione statistica per i bucket t + 1, t + 2, . . . . Trasversalmente al ﬂusso logico suesposto, occorre osservare che: • qualora esista un periodo congelato di domanda (ad esempio, i prossimi tre periodi t + 1, t + 2, t + 3), il nuovo piano di sales forecast, generato con il medesimo modello utilizzato nel precedente ciclo di sales forecasting o con un

408

12 Time Series Forecasting

nuovo algoritmo riparametrizzato, non viene rimesso in discussione per i bucket del frozen period; • la logica di settaggio degli algoritmi `e comunque applicabile ogniqualvolta viene generata una nuova edizione del piano previsionale di domanda: a prescidere dalla qualit` a predittiva dimostrata nel recente passato dai vari algoritmi sui segmenti prodotto-mercato, ad ogni nuova generazione del sales forecast l’intero ciclo di time series analysis, selezione di algoritmi, best-ﬁt viene ripercorso. L’approccio di rigenerazione completa del piano di sales forecast (refresh) presenta lo svantaggio di essere computazionalmente pi` u oneroso, rispetto al caso di rigenerazione per eccezione (update) in seguito ad insuﬃciente accuratezza predittiva dei modelli. Tuttavia, la rigenerazione completa del piano di domanda, in corrispondenza di ogni nuovo bucket time now, rappresenta, dal punto di vista formale, il miglior approccio utilizzabile: infatti, un algoritmo rivelatosi il migliore per predire la domanda nei bucket t + 1, t + 2, t + 3, . . . , disponendo all’istante corrente t dei T valori storici t = 1, . . . , T , non necessariamente risulta ottimo anche per la futura predizione della domanda nei bucket t + 2, t + 3, t + 4, . . . , disponendo all’istante corrente t + 1 dei T valori storici t = 2, . . . , T + 1. Aggiornamento dei modelli. A seconda degli approcci alternativi utilizzati per il riaddestramento dei modelli al procedere del tempo (modalit` a refresh o update), i parametri dei modelli vengono ritarati, secondo lo schema del best-ﬁt parametrico, e le nuove serie storiche aggiornate vengono rianalizzate e depurate dagli outlier, mediante l’impiego di tecniche di time series analysis. 12.1.3 Classiﬁcazione dei modelli di Time Series Forecasting I modelli statistici di previsione della domanda commerciale possono essere classiﬁcati secondo diversi proﬁli di inquadramento. Caratteristica comune a tutti i modelli per il Time Series Forecasting `e l’assunzione implicita che la storia passata della domanda sia in qualche misura esplicativa del comportamento futuro dei clienti, che manifesteranno la loro tendenza all’acquisto dei prodotti dell’azienda secondo proﬁli di domanda analoghi a quelli rilevati nel passato. Attraverso la propria capacit` a di estrapolazione, i modelli di sales forecasting proiettano nel futuro le componenti regolari di domanda rilevate dall’analisi delle serie storiche presenti nei datawarehouse di Demand Planning. Tipologia di domanda commerciale Una prima modalit` a di raggruppamento dei modelli per il Sales Forecasting `e data dalla tipologia di serie storica che caratterizza i singoli segmenti prodotto-mercato. A seconda che le serie di domanda siano continue o sporadiche (il relativo driver di analisi `e deﬁnito dalla densit` a di zeri presenti nella serie), i modelli matematici si classiﬁcano in: • modelli per serie continue (a domanda regolare): medie mobili, smorzamenti esponenziali, modello di Holt-Winters, scomposizione delle serie, modelli autoregressivi, regressione lineare;

12.1 Introduzione al Time Series Forecasting

409

• modelli per serie sporadiche (a domanda irregolare): modello di Croston, modello di Poisson, modello di Syntetos-Boylan. Tipologia di prodotti Un secondo modo per classiﬁcare i modelli di Sales Forecasting `e dato dal livello di maturit` a dei singoli prodotti ﬁniti oggetto di previsione. Vengono distinti modelli per: • prodotti a domanda continua nel tempo (anche se caratterizzata da cadenza irregolare): questa classe include tutti i modelli di cui al criterio di classiﬁcazione precedente; • prodotti di nuova introduzione: modelli basati su analogia, curve di regressione logistica, applicazione di pattern percentuali, modelli di sales budgeting (approcci elementari di ripartizione di quantit` a di domanda aggregate su livelli gerarchici di prodotto, mercato, tempo). Tipologia di variabili Un terzo proﬁlo di classiﬁcazione dei modelli di Sales Forecasting `e dato dalla modalit` a di calcolo della previsione, con particolare riferimento alla tipologia di input considerato dai modelli matematici: • input dipendente (domanda commerciale come variabile interna): modelli estrapolativi di Time Series Forecasting1 ; • input indipendente (fattori esogeni o endogeni, considerati variabili indipendenti): modelli esplicativi di regressione lineare. Nei modelli di regressione, fattori esterni controllati dall’azienda come driver di business oppure subiti a causa dell’interazione con l’ambiente esterno vengono utilizzati come variabili “indipendenti” (rispetto alla domanda commerciale) esplicative dell’andamento temporale delle vendite. Nei modelli estrapolativi, la variabile interna `e, per deﬁnizione, la domanda commerciale stessa, quale rilevata a consuntivo nei passati periodi di vendita. Struttura dei modelli matematici La quarta ed ultima modalit` a di classiﬁcazione degli algoritmi si riferisce alla loro struttura matematica costituitiva, attraverso la quale i modelli generano la previsione statistica della domanda, ed alla tipologia di componenti regolari delle serie storiche prese in considerazione dagli stessi. Secondo tale proﬁlo, utilizzato come schema di presentazione dei contenuti in questo capitolo e nel successivo, gli algoritmi di Sales Forecasting si dividono in: • modelli a media mobile: solo i pi` u recenti valori di serie storica sono considerati, in modo uniforme o mediante un sistema di pesi esterni; tali modelli ﬁltrano le componenti stagionali e di tendenza, proponendo una previsione basata sul valor medio della serie storica; 1

Quindi tutti i modelli dei due gruppi di classiﬁcazione per tipologia di domanda commerciale.

410

12 Time Series Forecasting

• modelli di smorzamento esponenziale: tutti i valori di domanda storica sono analizzati per il calcolo del sales forecast, pesati in modo esponenzialmente decrescente procedendo a ritroso nel tempo; • modelli Holt-Winters: si tratta di metodi di smorzamento esponenziale che tengono conto di fenomeni di tendenza lineare e stagionalit` a nell’analisi delle serie storiche; • modelli di scomposizione: le componenti regolari della domanda, identiﬁcate ed isolate mediante modelli di Time Series Analysis, vengono ricomposte e proiettate nel futuro per generare la previsione; • modelli per serie sporadiche: i modelli di Poisson e Croston studiano le caratteristiche delle serie storiche intermittenti e fortemente irregolari dal punto di vista probabilistico, cercando di prevedere il valore numerico della prima futura occorrenza non nulla di domanda e l’intervallo temporale di interarrivo fra due richieste di acquisto non nulle consecutive; • modelli per il new product forecasting: si tratta di metodi e tecniche empiriche che si propongono di valorizzare la previsione della domanda di prodotti di recente introduzione, i quali non presentano, per deﬁnizione, valori storici di vendita. Esistono principalmente due approcci perseguibili mediante l’impiego di tali metodologie: prevedere nuovi prodotti creando uno storico di domanda ﬁttizio, ispirato alle serie di vendita di altri prodotti, similari o in corso di sostituzione con quelli nuovi; applicare curve standard di vendita per proﬁlare temporalmente quantit` a aggregate di sales budget. Nelle sezioni successive del capitolo si procede alla disamina delle principali metodologie di Sales Forecasting per serie storiche continue e regolari. Il capitolo successivo `e dedicato alla previsione per serie storiche che presentano andamento irregolare nel tempo, estendendo l’analisi anche al caso dell’introduzione di nuovi prodotti sui mercati di vendita. 12.1.4 Domanda oggetto di previsione Nei sistemi complessi di Supply Chain Management, le aziende industriali e commerciali si pongono spesso il problema di cosa sia eﬀettivamente la “domanda commerciale” che si manifesta presso i segmenti prodotto-mercato, nel senso di decidere quale variabile di business debba essere considerata come domanda nella rilevazione delle serie storiche di valori disponibili dai punti vendita, verso i sistemi APS ed i database per storicizzare i dati residenti presso i datawarehouse. La domanda dei clienti ﬁnali `e vista secondo prospettive e livelli di visibilit` a diﬀerenti, a seconda che il soggetto che deve eseguire la previsione sia • il produttore industriale di prodotti ﬁniti, che serve i clienti industriali, i distributori dei canali logistici di collegamento al consumatore ﬁnale e, talvolta, gestisce in proprio una parte dei punti vendita di contatto col cliente; • il distributore logistico di prodotti ﬁniti che gestisce il riapprovvigionamento di una rete di depositi centrali e periferici, ricevendo in input i prodotti dai produttori e rivendendoli ai consumatori locali.

12.1 Introduzione al Time Series Forecasting

411

I punti di rilevazione della “domanda” da parte dei soggetti interessati sono molteplici e concorrono tutti a deﬁnizioni possibili ed alternative del concetto di “domanda”: 1. domanda del cliente ﬁnale, liberamente espressa come volont`a implicita di acquisto dei prodotti ﬁniti presso i punti vendita, in dipendenza da fattori di acquisto quali il bisogno eﬀettivo del prodotto, la presenza di promozioni presso il punto vendita, la qualit` a percepita del livello di customer service; 2. vendite registrate presso i punti ﬁnali di contatto con il cliente (domanda di sell-out misurati mediante i sistemi POS /EDI ), come manifestazione esplicita delle transazioni di acquisto; 3. ordini di riapprovvigionamento ricevuti dai gestori dei depositi intermedi, inoltrati dai gestori dei punti vendita (domanda di sell-in); 4. spedizioni reali eﬀettuate dai distributori verso i punti vendita, per soddisfare la domanda di sell-in; 5. ordini confermati e consegnati ai clienti attraverso la spedizione dei prodotti; 6. ordini di riapprovvigionamento ricevuti dai gestori dei depositi di fabbrica, inoltrati dai gestori dei depositi intermedi (dati di sell-in nella transizione produttore/distributore); 7. documenti di pagamento (processi di fatturazione) emessi dai fornitori (produttori, distributori) verso i clienti. In generale, i volumi transazionali eﬀettivamente registrati diminuiscono procedendo da valle verso monte lungo la Supply Chain Network: la volont` a di acquisto dei clienti ﬁnali pu` o non essere soddisfatta a causa della mancanza dei prodotti a scaﬀale o per la presenza di prodotti di aziende competitor, meglio visibili e promozionati; il distributore pu` o non essere in grado di servire on time taluni ordini di reintegro presso i punti vendita, a causa di indisponibilit` a di giacenza di materiali presso i depositi locali; il produttore pu` o accettare solo alcuni ordini di replenishment nella rete logistica, per mancanza di prodotti ﬁniti presso i magazzini di fabbrica, per imprevisti occorsi nelle attivit` a di produzione, per difettosit` a riscontrata a posteriori in alcuni lotti spediti al distributore. La domanda commerciale che `e opportuno considerare nei modelli di sales cleaning e sales forecasting, come serie storica di eventi di acquisto occorsi nel passato, deve essere composta nel modo seguente, attraverso le componenti: • sales: vendite eﬀettuate nel periodo corrente presso i punti vendita (domanda soddisfatta correttamente e completamente nel periodo corrispondente, rispettando la data di consegna esplicitamente o implicitamente pattuita col cliente); • lost demand: domanda persa in quanto non soddisfatta n´e on time n´e successivamente: l’azienda ricevente non si dichiara in grado di poter servire l’ordine, oppure la consegna viene riﬁutata poich´e non conforme o eﬀettuata in ritardo; in altri casi, il potenziale cliente non accetta le condizioni di consegna proposte dal fornitore, durante i processi negoziali che avvengono all’atto del primo

412

12 Time Series Forecasting

ricevimento dell’ordine, talvolta condotti con l’ausilio di metodologie available to promise o capable to promise; • backlog demand: domanda diﬀerita, cio`e servita in ritardo con il consenso del cliente, previo pagamento di penali per ritardata consegna (invio di quantit` a aggiuntive, sconti sul prezzo di vendita). La domanda eﬀettiva misurata nel generico periodo t non deve quindi considerare le sole transazioni di vendita certiﬁcate dai sistemi di fatturazione; la domanda di periodo Dt da prendere in considerazione nell’analisi delle serie storiche `e dunque formata dalle tre componenti Dt = SALESt + LOSTt + BACKLOGt , relative alle vendite, alla domanda persa ed a quella servita in ritardo. Il backlog demand per il periodo t rappresenta la somma delle vendite registrate in periodi futuri, ma imputabili pi` u correttamente al periodo corrente t: BACKLOGt = SALESϑ . ϑ>t

Le quantit` a vendute traslate all’indietro nel tempo, in quanto backlog per il periodo corrente t, non devono essere ovviamente computate due volte, sia nel periodo corrente che in quello di eﬀettivo pagamento della transazione commerciale. Le quantit` a spedite presso i diversi nodi della rete logistica non rappresentano adeguati driver di rilevazione a posteriori delle quantit` a vendute: includere solo tale componente nel calcolo della domanda commerciale porta alla sottostima della stessa, in quanto non vengono erroneamente presi in considerazione gli ordini riﬁutati dal cliente o dall’azienda ricevente.

12.2 Medie mobili 12.2.1 Naive forecasting e media aritmetica La classe dei modelli di media mobile rappresenta l’insieme di algoritmi pi` u semplici ed imprecisi mediante i quali generare previsioni di vendita future. Senza possedere soﬁsticate conoscenze statistiche di analisi delle serie storiche, i due metodi pi` u semplici immaginabili per prevedere la domanda per il prossimo periodo t + 1 (indicando convenzionalmente con t il bucket time now ) sono il naive forecasting e la media aritmetica. Naive Forecasting Il primo modello `e stato presentato nel capitolo relativo alla valutazione degli algoritmi di sales forecasting. Il forecasting di tipo naive prevede la generazione della previsione di domanda per il solo periodo t + 1, senza dare alcuna indicazione sull’entit` a delle vendite nei periodi successivi. La previsione Ft+1 per il primo periodo futuro `e data dal valore della domanda nell’ultimo periodo storico T , per

12.2 Medie mobili

413

ipotesi operativa supposto coincidente con il periodo corrente t: Ft+1 = Dt , basato sul criterio elementare di interpretazione secondo il quale la domanda veriﬁcatasi “ieri” si veriﬁcher` a anche “domani” con la medesima intensit` a. Come evidenziato nel capitolo relativo alle metriche di errore per il Sales Forecasting, metodi soﬁsticati per la previsione della domanda possono essere confrontati con la limitata qualit` a predittiva del modello naive: `e opportuno investire risorse per la taratura di modelli complessi, quali i metodi Holt-Winters o i modelli di scomposizione delle serie storiche, solo se i risultati ottenuti in termini di accuratezza predittiva risultano signiﬁcativamente superiori a quelli ottenibili con la semplice applicazione del metodo naive. Media aritmetica La previsione Ft+1 per il primo periodo futuro `e data dalla media aritmetica di tutti i T valori di domanda presenti nei bucket storici: Ft+1 =

T 1 Dt + Dt−1 + Dt−2 + . . . + D2 + D1 · . Dϑ = T T ϑ=1

Il metodo elementare della media aritmetica non `e in grado di formulare previsioni per i successivi periodi t + 2, t + 3, . . . . Le componenti di tendenza e stagionalit`a vengono annullate dal calcolo della media, che pesa uniformemente tutti i periodi storici. Per migliorare l’accuratezza predittiva di questo metodo eccessivamente semplicistico, si pu` o dapprima replicare il valore di domanda prevista Ft+1 per tutti i bucket dell’orizzonte previsionale, quindi modulare il proﬁlo costante Ft+1 = Ft+2 = Ft+3 = . . . mediante • pattern stagionali tipici di domanda, espressi in misura precentuale tramite valori adimensionali centrati attorno al valore 12 ; • incrementi o decrementi di trend, isolati mediante metodi di scomposizione delle serie di domanda. 12.2.2 Media mobile semplice La media mobile semplice (simple moving average) `e stata presentata come metodo non particolarmente soﬁsticato di sales cleaning, per la rettiﬁcazione dei valori outlier riscontrati nell’analisi delle serie storiche. Tale algoritmo pu` o anche essere utilizzato per predire il volume di vendite di un assegnato segmento prodotto-mercato per il primo bucket futuro t+1 dell’orizzonte di pianiﬁcazione, nel caso di domanda stazionaria attorno al valor medio, in cui non sono riscontrabili componenti di stagionalit` a, trend, quanto piuttosto il solo 2

Ad esempio, un valore di stagionalit` a moltiplicativa pari a 0,8 indica che la domanda di periodo `e inferiore del 20% rispetto al valor medio calcolato pesando uniformemente tutti i periodi di una singola stagione di vendita.

414

12 Time Series Forecasting

rumore casuale imprevedibile. La previsione viene calcolata come media aritmetica degli ultimi τ periodi storici: t 1 Dt + Dt−1 + Dt−2 + . . . + Dt−τ+1 Ft+1 ≡ M At+1 (τ ) = · . Dϑ = τ τ ϑ=t−τ+1

La media mobile semplice considera in egual misura le ultime τ rilevazioni della domanda reale, ritenute pi` u attendibili rispetto a quelle meno recenti, completamente rimosse dal calcolo della previsione. Fenomeni di tendenza o stagionalit` a non vengono considerati dal modello di media mobile semplice: nel caso di domanda fortemente stagionale e/o soggetta a trend marcato, si sconsiglia l’utilizzo di tale metodo. Eventualmente, il singolo valore di sales forecast ottenibile Ft+1 pu` o essere proiettato su tutti i periodi futuri di previsione; detta Q l’estensione temporale dell’intervallo di pianiﬁcazione della domanda, la quantit` a Q · Ft+1 fornisce un’approssimazione del volume medio di domanda che l’azienda dovr` a sostenere, con adeguati interventi logistico-produttivi, nel medio periodo; i valori puntuali della domanda futura di periodo ﬂuttuano attorno alla media, seguendo i proﬁli tipici di trend e stagionalit` a non rilevati dall’algoritmo della media mobile. L’unico parametro da settare nel modello simple moving average `e l’intervallo temporale τ relativo al numero di periodi storici da considerare; la media si deﬁnisce “mobile” in quanto il numero di valori mediati `e mantenuto costante, a prescindere dalla progressiva collocazione temporale del bucket corrente t. Se, ad esempio, τ = 4: • la previsione per il mese t + 1 di Giugno 2008 media i valori di domanda registrati nei mesi di Febbraio, Marzo, Aprile e Maggio 2008; • il valore storico rettiﬁcato dal processo di sales cleaning per il mese di Agosto 2006 si ottiene come media aritmetica dei valori storici di domanda rilevati nei mesi di Aprile, Maggio, Giugno e Luglio 2006. Il calcolo della domanda per i periodi previsionali successivi al primo pu` o essere eseguito seguendo alcuni approcci alternativi: 1. si pone semplicemente Ft+k = Ft+1 , per ciascun periodo k > 1 dell’orizzonte di previsione della domanda; questo approccio si rivela suﬃcientemente accurato se la domanda storica `e stabile attorno al suo valor medio, con ﬂuttuazioni casuali molto modeste ed assenza di trend e stagionalit` a; 2. si proietta il valore Ft+1 per ciascun periodo k > 1 dell’orizzonte di previsione, rimodulando i valori futuri, applicando coeﬃcienti additivi o moltiplicativi di trend e stagionalit` a, secondo quanto illustrato per il modello media aritmetica; 3. si esegue una media mobile autoregressiva per i periodi futuri successivi all’istante t + 1. L’algoritmo di media mobile autoregressiva (autoregressive moving average) funziona nel modo seguente: • per tutti i periodi storici tali che t > τ (intervallo minimo di training per la media mobile a τ periodi) e per il periodo futuro t + 1, la modalit` a di calcolo `e identica alla media mobile semplice;

12.2 Medie mobili

415

• per i futuri periodi successivi t + 2, t + 3, . . . , la media aritmetica sugli ultimi τ periodi considera i valori di domanda reale Dt ﬁno a t = T ed i valori di previsione Ft calcolati in precedenza dalla media mobile per i bucket successivi a T. Ad esempio, la previsione di domanda per il bucket t + 5 calcolata mediante una media mobile autoregressiva a τ = 8 periodi si ottiene attraverso la formula: Ft+5 =

1 · (Ft+4 + Ft+3 + Ft+2 + Ft+1 + Dt + Dt−1 + Dt−2 + Dt−3 ) . 8

All’aumentare dell’ampiezza temporale τ di calcolo della media mobile semplice, aumenta il livello di smorzamento della previsione, nel senso dell’attenuazione del valore previsionale Ft+1 rispetto ad eventuali outlier Dt non ripuliti, ancora presenti nella serie storica di domanda. Valori ridotti assegnati al parametro τ riservano maggiore importanza alle quantit` a storiche di domanda rilevate nei periodi pi` u recenti, rendendo maggiormente reattiva (o “nervosa”) la previsione, rispetto a valori anomali presenti nei bucket recenti. Queste considerazioni qualitative derivano dal fatto che, all’aumentare del numero di valori inclusi in una media aritmetica, il peso di ciascuno di essi, costante e pari a 1/τ , diminuisce antilinearmente, attribuendo sempre minore importanza a ciascun valore. Il best-ﬁt parametrico consiste, per l’algoritmo media mobile, nel determinare il valore dell’unico parametro τ in corrispondenza del quale un’opportuna metrica di errore assume valore minimo nell’intervallo di test: τ ∈ {1, 2, . . . , T }|fτ (Etot ) = min{fk (Etot )} , k

essendo fk (Etot ) il valore di una metrica di errore f registrata in corrispondenza del parametro k assegnato alla media mobile semplice. Come casi particolari della media mobile per il calcolo del valore Ft+1 , • il modello naive forecasting equivale ad una media mobile semplice ad un periodo (τ = 1); • la media aritmetica su tutti i valori storici corrisponde ad una media mobile a T periodi (τ = T ), somma delle estensioni degli intervalli di training e di test; • la media mobile centrata viene calcolata ponendo il valore di domanda Dt in corso di pulizia nel punto medio della sommatoria estesa ai bucket storici, la cui semiampiezza di calcolo `e pari a τ /2. Essa rappresenta quindi una particolare tipologia di media mobile semplice, in cui l’intervallo di calcolo delle medie `e stato opportunamente traslato in avanti, coprendo τ /2 periodi a destra rispetto al bucket corrente t.

416

12 Time Series Forecasting

12.2.3 Media mobile pesata La media mobile pesata (weighted moving average) pesa gli ultimi τ periodi storici in modo non uniforme, ricorrendo ad un sistema di pesi wt assegnati esternamente: Ft+1 ≡ W M At+1 (τ ) =

1 · τ

t

wϑ Dϑ =

ϑ=t−τ+1

wt Dt + wt−1Dt−1 + wt−2 Dt−2 + . . . + wt−τ+1 Dt−τ+1 . τ Il sistema dei pesi pu`o essere opportunamente modulato dagli analisti di sales forecasting per privilegiare alcuni bucket di domanda storica, in quanto ritenuti maggiormente esplicativi nei confronti delle vendite future. =

12.3 Smorzamento esponenziale 12.3.1 Smorzamento esponenziale semplice I modelli di smorzamento esponenziale (exponential smoothing) rappresentano una classe di metodi per la previsione della domanda e per il sales cleaning concettualmente simili agli algoritmi basati sulla media mobile, in quanto: • la sola componente media di domanda viene presa in considerazione, ﬁltrando le altre componenti regolari; • `e disponibile la previsione per il solo primo periodo futuro t + 1. A diﬀerenza dei modelli della famiglia moving average, i metodi appartenenti alla classe di smorzamento esponenziale non si limitano a considerare un ristretto numero di valori di domanda, quanto piuttosto l’intero set di dati storici disponibili all’interno degli intervalli di training e di test. Ai valori di domanda storica viene assegnato un peso decrescente in modo esponenziale, giustiﬁcando tale modellazione con il fatto che i valori pi` u recenti di domanda assumono maggior importanza rispetto a valori pi` u arretrati, meno rappresentativi delle condizioni operative di funzionamento attuale dei mercati, nei diversi segmenti prodotto-cliente. Il metodo pi` u comunemente utilizzato `e il modello di Brown (1956), noto come smorzamento esponenziale semplice. Tale metodo genera la previsione Ft+1 per il bucket t + 1 in modo ricorsivo, considerando due componenti: • la domanda disponibile nell’ultimo periodo storico Dt ; • l’ultima previsione Ft generata, all’istante t − 1, per il periodo t; utilizzando la seguente formulazione: Ft+1 = α · Dt + (1 − α) · Ft , essendo α un coeﬃciente di ponderazione e smorzamento dei due termini di domanda e sales forecast relativi al periodo t. Al crescere del peso α aumenta l’importanza

12.3 Smorzamento esponenziale

417

attribuita dal modello all’ultimo valore storico di domanda, cio`e la reattivit` a della previsione nei confronti di variazioni repentine nelle vendite. La formula del modello di smorzamento semplice pu`o essere sviluppata, esprimendo il termine di previsione Ft in funzione della domanda storica del periodo t − 1: Ft+1 = α · Dt + (1 − α) · Ft = α · Dt + (1 − α) · {α · Dt−1 + (1 − α) · Ft−1 } . Procedendo a ritroso nel tempo secondo questa logica di sviluppo backward della formula di smorzamento semplice, si ottiene una relazione di dipendenza della previsione di domanda Ft+1 per il primo bucket futuro t + 1 funzione dei soli valori di domanda rilevati nei periodi storici: Ft+1 = α · Dt + α(1 − α) · Dt−1 + α(1 − α)2 · Dt−2 + α(1 − α)3 · Dt−3 + . . . . L’espressione esplicita sopra presentata pu` o essere sinteticamente espressa tramite la sommatoria dei valori di domanda lungo l’intero orizzonte dei valori storici, smorzati mediante un sistema di pesi decrescenti in modo esponenziale: Ft+1 = α ·

T −1

(1 − α)k · Dt−k .

k=0

La distribuzione geometrica dei pesi `e tale da garantire la normalizzazione ad 1 degli smorzamenti, al tendere virtualmente ad inﬁnito del numero di periodi storici disponibili nel datawarehouse di Demand Planning: T −1 k lim α · (1 − α) = 1. T →∞

k=0

Da questa relazione si pu` o osservare che la deﬁnizione di valori del parametro α prossimi a zero attribuisce peso all’incirca uniforme a tutti i T bucket storici consia derati nel calcolo della previsione Ft+1 . L’assegnazione di valori prossimi all’unit` per α conferma la migliore capacit` a del modello di adattarsi alle variazioni casuali nei valori pi` u recenti della domanda. Il modello di Brown pu` o essere utilizzato, analogamente al caso dei modelli di media mobile, sia per il calcolo della previsione di domanda Ft+1 sia per il ﬁltraggio statistico delle serie storiche nel corso dei processi di sales cleaning. Nel caso di utilizzo in modalit`a predittiva, restano valide le considerazioni espresse nel caso dei modelli di media mobile, circa l’estensione della previsione Ft+1 ai bucket successivi a t + 1. Se α = 1, il modello di smorzamento esponenziale semplice si riduce al metodo naive, in cui Ft+1 = Dt , analogamente alla media mobile semplice ad un periodo. Anche il modello di smorzamento semplice pu`o essere applicato in modalit` a autoregressiva, per periodi futuri successivi al primo bucket t + 1. Il best-ﬁt parametrico consiste, per l’algoritmo single exponential smoothing, nel determinare il valore dell’unico parametro α, nell’intervallo [0;1], in corrispondenza

418

12 Time Series Forecasting

del quale un’opportuna metrica di errore assume valore minimo nell’intervallo di test per la serie storica esaminata: α|0 ≤ α ≤ 1 ∪ fα (Etot ) = min{fk (Etot )} , k

essendo fk (Etot ) il valore di una metrica di errore f registrata in corrispondenza del parametro k assegnato al coeﬃciente di smorzamento per il modello di Brown. 12.3.2 Esempio applicativo In questo paragrafo viene operato un confronto numerico fra i seguenti modelli: • media mobile a τ = 3 periodi (spezzata i cui punti sono raﬃgurati mediante quadrati in ﬁgura 12.2); • media mobile a τ = 9 periodi (spezzata i cui punti sono raﬃgurati mediante triangoli); • smorzamento esponenziale singolo, con parametro α = 0,7 (spezzata i cui punti sono raﬃgurati mediante cerchi); in relazione alla serie storica riportata alla riga domanda nella ﬁgura 12.2, i cui punti a forma romboidale sono collegati da una spezzata a tratto pi` u marcato. La previsione viene calcolata analizzando gli ultimi due anni di storia delle vendite (t = 1, 2, . . . , 23, 24), generando la stima della domanda per l’anno successivo (12 bucket mensili), a partire dal bucket t = 25. I metodi presentati sono in grado di calcolare la previsione solo per il primo bucket futuro, pari a 53, 53 e 44 per i tre metodi3 . Per i periodi successivi `e possibile prolungare la previsione lasciandola inalterata rispetto al valore F25 , secondo la modalit` a Ft+k = Ft+1 per ogni k > 1, essendo t il bucket corrente. Si osservi come la profondit` a di sales cleaning operata dalla media mobile a 9 periodi sia superiore a quella relativa alla media calcolata su 3 periodi rolling. La ﬁgura 12.2 evidenzia implicitamente la presenza degli intervalli di training per la media mobile a tre periodi (i primi tre bucket, necessari per calcolare la previsione per il periodo t = 4), quella a nove periodi (i primi nove bucket) e per lo smorzamento esponenziale semplice (il primo periodo).

12.4 Modello di Holt-Winters 12.4.1 Modello di Holt Il modello di Holt-Winters `e il metodo pi` u conosciuto ed applicato per calcolare la previsione di domanda per serie storiche continue, caratterizzate dalla presenza di componenti di trend e stagionalit` a. Se le serie storiche in input risultano 3

I valori presentati in tutte le ﬁgure di questo paragrafo sono stati arrotondati all’intero superiore, per comodit` a di visualizzazione graﬁca.

12.4 Modello di Holt-Winters 100 90 80 70 60 50 40 30 20 10 0

419

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

20

28

32

49

56

32

49

59

50

53

70

26

20

29

5

66

51

79

43

45

32

40

88

32

27

36

46

46

46

47

53

54

58

50

39

25

18

33

41

65

58

56

40

39

53

53

Media mobile (9)

20

26

30

43

52

38

46

55

42

45

50

49

46

43

40

42

41

44

43

40

41

43

50

53

Smorz. espon. (0,7)

20

26

30

43

52

38

46

55

52

53

65

38

25

28

12

50

51

70

51

47

36

39

73

44

Domanda Media mobile (3)

25

Figura 12.2. Applicazione di media mobile e smorzamento esponenziale

suﬃcientemente regolari, il sales forecast ottenibile impiegando tale algoritmo ricorsivo risulta essere di qualit` a elevata. Tale modello considera tre componenti di regolarit` a all’interno di una serie storica continua: 1. componente media: gi` a considerata nel modello di Brown con il parametro α; 2. componente tendenziale: inclusa nel modello di Holt (1957) (parametro β); 3. componente stagionale: inclusa nel modello di Winters (1960) (parametro γ). L’intensit` a di smorzamento dei tre coeﬃcienti numerici, inclusi nell’intervallo [0;1], segue logiche analoghe a quanto esposto nel modello di smorzamento esponenziale semplice. Ad esempio: • valori di β prossimi all’unit` a indicano una signiﬁcativa presenza di trend lineare, crescente o decrescente nel tempo; • valori di γ prossimi all’unit` a indicano una rilevante presenza della componente di stagionalit` a nelle vendite, oscillante con regolarit` a periodica nel tempo. Il modello di Holt, anche detto smorzamento esponenziale doppio (double exponential smoothing) considera le componenti di media e tendenza nell’analizzare le caratteristiche quantitative di una serie storica: non `e pertanto applicabile a serie storiche aﬀette da ciclicit`a stagionale, a meno di non destagionalizzarle preventivamente mediante i metodi di Time Series Decomposition, illustrati nel capitolo 10.

Modellazione delle componenti di domanda Le componenti di media e trend sono stimate separatamente secondo le seguenti formule ricorsive, concettualmente analoghe alla relazione del modello di Brown: • componente media Mt : Mt = α · Dt + (1 − α) · (Mt−1 + Tt−1 ); • componente di tendenza lineare Tt : Tt = β · (Mt − Mt−1 ) + (1 − β) · Tt−1 .

420

12 Time Series Forecasting

La componente media smorzata al periodo corrente t (time now, periodo immediatamente precedente al primo bucket di previsione) risulta linearmente proporzionale, tramite il coeﬃciente adimensionale α, alla domanda storica del medesimo periodo ed alla componente media Mt−1, calcolata nel bucket precedente t−1 ed incrementata additivamente della componente tendenziale Tt−1 rilevata nel periodo t − 1. La componente tendenziale smorzata al periodo corrente t `e linearmente proporzionale, tramite il coeﬃciente adimensionale β, alla diﬀerenza dei valori medi consecutivi di domanda nei bucket corrente e precedente ed alla componente di trend Tt−1 , calcolata nel bucket precedente t − 1. La diﬀerenza Mt − Mt−1 indica la variazione con segno della domanda media fra due periodi storici consecutivi. Le due formule di calcolo di media e trend smorzati si applicano in senso cronologico, partendo dal primo bucket storico t = 1 e procedendo in avanti, ﬁno a raggiungere l’ultimo periodo passato T , avendo assegnato convenzionalmente quantit` a iniziali per i valori di domanda media M0 e di trend T0 . Utilizzo predittivo del modello La previsione di domanda Ft+k per i bucket futuri t + k, k = 1, 2, 3, . . . , si ottiene mediante la seguente relazione di applicazione della media smorzata, corretta con il termine di tendenza lineare: Ft+k = Mt + k · Tt , essendo Mt e Tt valori calcolati al termine dell’ultimo periodo storico T = t, in modo ricorsivo partendo dal primo valore di domanda disponibile nella serie a storica. Dal punto di vista metrologico, le quantit` a Mt e Tt hanno la stessa unit` di misura della domanda commerciale (unit`a logistiche di vendita, unit` a monetarie, ecc.). L’equazione di previsione del modello di Holt rappresenta geometricamente una funzione lineare nel parametro temporale k, essendo • Tt il coeﬃciente angolare costante di tendenza lineare; • Mt l’intercetta costante della retta sull’asse delle ordinate, in corrispondenza del bucket corrente t (k = 0). Ad esempio, la formula Ft+k = 100 + 6 · k genera previsioni di domanda pari a 106, 112, 118, 124, . . ., per i bucket t + 1, t + 2, t + 3, t + 4, . . . , distribuite perfettamente su una retta di parametri 100 (intercetta) e 6 (coeﬃciente angolare), evidenziante un tasso costante di crescita della domanda pari a 6 unit` a di vendita per periodo. In eﬀetti, la componente tendenziale smorzata Tt identiﬁca l’incremento o decremento puntuale di domanda fra due bucket consecutivi, essendo tale componente pari alla derivata prima calcolata sulla predizione di domanda Ft+k rispetto agli istanti temporali k. Dall’interpretazione geometrica illustrata, `e immediato constatare che in una retta di previsione della domanda non esiste la componente ﬂuttuante in modo periodico che caratterizza la regolarit` a stagionale di una serie storica.

12.4 Modello di Holt-Winters

421

12.4.2 Modello di Holt a tendenza smorzata Il modello di Holt pu` o essere modiﬁcato al ﬁne di includere nella previsione della domanda la presenza di una componente di tendenza non lineare, non registrata nel corso dell’analisi della serie storica. Sebbene i parametri di lancio iniziale del modello Mt e Tt siano stati determinati facendo uso di relazioni ricorsive di tipo lineare nei coeﬃcienti α e β, la tendenza futura della domanda di un segmento prodotto-mercato pu` o divenire non linearmente crescente o decrescente per le seguenti plausibili motivazioni, legate ai cicli di vita dei prodotti ﬁniti presso i clienti: • il prodotto si trova in una fase di crescita contenuta, verso l’imminente stabilizzazione (maturit` a del prodotto) ed il successivo declino (tendenza negativa); • alla domanda base del prodotto per ciascun periodo di previsione, data dalla media Mt non dipendente dal contatore k progressivo dei bucket futuri, si aggiunge un pattern di vendita non lineare, modellato attorno all’incremento costante di vendita Tt , di durata largamente inferiore rispetto all’intero orizzonte di pianiﬁcazione, dovuto ad esempio alla presenza di un evento promozionale. La funzione predittiva generale del modello di Holt Ft+k = Mt + k · Tt pu` o essere modiﬁcata nel modo seguente, generando la nuova classe di modelli esponenziali a tendenza smorzata: Ft+k = Mt + δk · Tt , essendo δk la serie dei coeﬃcienti di riduzione o incremento della componente di tendenza lineare Tt . Ad esempio, se il pattern di smorzamento non lineare della domanda futura `e costituito dalla serie δk = {0,2; 0,5; 0,3; 1,2}, i valori di sales forecast generati per i periodi t + 1, t + 2, t + 3, t + 4 sono dati da: • • • •

istante istante istante istante

t + 1: t + 2: t + 3: t + 4:

Ft+1 Ft+2 Ft+3 Ft+4

= Mt + 0,2 · Tt ; = Mt + 0,5 · Tt ; = Mt + 0,3 · Tt ; = Mt + 1,2 · Tt .

Mediante il modello di Holt a tendenza smorzata `e possibile applicare qualsiasi tipo di pattern percentuale non lineare di domanda, disponibile nei database di Marketing Intelligence, a serie continue non aﬀette da ciclicit` a stagionale. Ad esempio, le curve tipiche di speciﬁche categorie di prodotti possono derivare da pattern promozionali applicati nel passato ad eventi di marketing: in questo caso di modellazione, o essere assimilata alla baseline statistica • la componente media costante Mt pu` di sales forecast, eventualmente generata con altri modelli, quale ad esempio lo smorzamento esponenziale semplice in regime di stazionariet`a della domanda; • la componente variabile di trend non lineare δk · Tt `e assimilabile al delta promozionale, derivante dalle quantit` a aggiuntive immesse sul mercato in seguito

422

12 Time Series Forecasting

alla progettazione della campagna di marketing4 . o essere La formula pi` u generale di smorzamento di tendenza Ft+k = Mt +δk · Tt pu` modiﬁcata utilizzando: • nel caso di trend decrescente non lineare, un unico coeﬃciente costante di smorzamento δ, il cui valore `e compreso nell’intervallo (0;1); in tal caso la nuova formula di previsione a trend ridotto `e data da: Ft+k = Mt + δ k · Tt , nella quale lo smorzamento progressivo dei valori di domanda al crescere del tempo viene ottenuto mediante elevamento a potenza di ordine intero k del coeﬃciente costante δ. Se, ad esempio, δ = 0,5, i coeﬃcienti di smorzamento risultano pari a δ 1 = 0,5, δ 2 = 0,25, δ3 = 0,125, . . . ; • nel caso di trend crescente non lineare, una serie di coeﬃcienti variabili di smorzamento δk , il cui valore `e compreso nell’intervallo (0;1), da applicare cumulativamente come correzione dei valori di trend Tt, al crescente del tempo nell’orizzonte di previsione; in tal caso la nuova formula di previsione a trend pi` u che lineare `e la seguente: Ft+k = Mt + Tt ·

k

δϑ ,

ϑ=1

in cui i coeﬃcienti si sommano progressivamente. Se, ad esempio, δ1 = 0,5, δ2 = 0,2, δ3 = 0,1, . . . , allora i valori di sales forecast sono pari a Ft+1 = Mt + 0,5 · Tt ,

Ft+2 = Mt + 0,7 · Tt ,

Ft+3 = Mt + 0,8 · Tt .

In generale, a seconda delle tre varianti utilizzate per lo smorzamento non lineare di tendenza, le componenti di media e tendenza del modello di Holt (versione base) si modiﬁcano come segue: Mt = α · Dt + (1 − α) · (Mt−1 + Tt−1 ) · δt ,

Tt = β · (Mt − Mt−1 ) + (1 − β) · Tt−1 · δt ,

avendo introdotto i coeﬃcienti δt come ulteriore smorzamento delle rispettive componenti calcolate progressivamente per ogni periodo t = 1, . . . , T . 12.4.3 Modello moltiplicativo di Winters Il modello di Winters, noto anche come smorzamento esponenziale triplo (triple exponential smoothing) aggiunge alle componenti media (modello di Brown) e tendenziale (modello di Holt) la componente regolare di ciclicit`a dovuta alle stagioni di vendita. 4

Proseguendo nell’analogia formale del Promotion Planning, alcune percentuali di promozione presenti nel pattern di valori δk possono assumere valore negativo, in ragione del fatto che nei periodi di pre- e post- promozione le vendite degli articoli promozionati sono soggette a riduzioni, derivanti dalla consapevolezza degli acquirenti circa la presenza, imminente o appena conclusa, della campagna promozionale.

12.4 Modello di Holt-Winters

423

Modellazione delle componenti di domanda Le componenti di media, trend e stagionalit` a sono stimate secondo le seguenti formule ricorsive: t • componente media Mt : Mt = α · SD + (1 − α) · (Mt−1 + Tt−1 ) ; t−L • componente di tendenza lineare Tt : Tt = β · (Mt − Mt−1 ) + (1 − β) · Tt−1 ; Dt + (1 − γ) · St−L . • componente stagionale St : St = γ · M t

La componente media smorzata al periodo corrente t (time now ) risulta linearmente proporzionale, tramite il coeﬃciente adimensionale α, alla domanda storica del medesimo periodo, destagionalizzata mediante il coeﬃciente adimensionale St−L , ed alla componente media Mt−1 , calcolata nel bucket precedente t − 1, ed incrementata additivamente della componente tendenziale Tt−1 rilevata nel medesimo periodo. La componente tendenziale smorzata al periodo corrente t `e linearmente proporzionale, tramite il coeﬃciente adimensionale β, alla diﬀerenza dei valori medi consecutivi di domanda nei bucket corrente e precedente ed alla componente di trend Tt−1 , calcolata nel bucket precedente t−1, in perfetta analogia con il modello di Holt. Inﬁne, la componente stagionale smorzata al periodo corrente t `e linearmente proporzionale, tramite il coeﬃciente adimensionale γ, alla domanda storica Dt del medesimo periodo divisa per la componente media di periodo Mt , ed alla componente stagionale St−L , calcolata nel bucket t − L, distante dal bucket corrente un intero ciclo stagionale di lunghezza L (ad esempio: L = 12 mesi o 52 settimane per stagionalit` a annuali). Per ipotesi, la lunghezza L del ciclo stagionale di domanda, espressa nelle opportune unit` a di misura temporali, `e un parametro noto del modello di Winters. Le tre formule di calcolo di media, trend e stagionalit` a smorzati si applicano in senso cronologico, partendo dal primo bucket storico t = 1 e procedendo in avanti, ﬁno a raggiungere l’ultimo periodo passato T , avendo assegnato convenzionalmente quantit` a iniziali per i valori di domanda media M0 e trend T0 . Dall’analisi delle formule ricorsive per il calcolo dei valori ricorsivi Mt , Tt e St , si osserva che: • la quantit` a Dt /St−L rappresenta la domanda di periodo depurata dalla componente stagionale che ne altera il valore rispetto al valor medio della domanda destagionalizzata e detrendizzata; • la quantit` a Dt /Mt rappresenta la componente corrente non smorzata del coefﬁciente di stagionalit` a per il periodo t, per il cui ottenimento la domanda di periodo `e stata divisa per il valore medio Mt . La successiva applicazione dei coeﬃcienti stagionali St ai valori medi Mt in modalit` a previsiva genera la modulazione della domanda futura media rispetto ai pattern periodici propri dei cicli stagionali di vendita. Utilizzo predittivo del modello La previsione di domanda Ft+k per i bucket futuri t + k, k = 1, 2, 3, . . . , si ottiene mediante la seguente relazione di applicazione della media smorzata Mt , corretta

424

12 Time Series Forecasting

additivamente con il termine di tendenza lineare Tt e moltiplicativamente con il termine di stagionalit` a St : Ft+k = (Mt + k · Tt ) · St+k−L , essendo Mt , Tt e St−L valori calcolati al termine dell’ultimo periodo storico T = t, in modo ricorsivo partendo dal primo valore disponibile nella serie storica. Dal punto di vista metrologico, le quantit` a Mt e Tt continuano ad avere la stessa unit` a di misura della domanda, mentre i coeﬃcienti di stagionalit` a sono valori adimensionali. Dal punto di vista strutturale, il modello matematico presentato, noto anche come modello moltiplicativo congiunto di Holt-Winters, rappresenta: 1. la componente di tendenza Tt in modo additivo (modello di Holt); 2. la componente di stagionalit`a St in modo moltiplicativo (modello di Winters). La combinazione delle componenti di tendenza e stagionalit` a, unitamente alle modalit` a di scomposizione additiva e moltiplicativa, consente di generare altri modelli di time series forecasting concettualmente analoghi al modello Holt-Winters, diﬀerenti nella formulazione matematica. I coeﬃcienti moltiplicativi e adimensionali di stagionalit` a St−L , St−2L, St−3L, . . . , riferiti a bucket omologhi equidistanti un ciclo stagionale, non sono uguali fra loro, come prescritto dalla formula ricorsiva per il calcolo dei termini St . Il modello completo presentato in questo paragrafo `e compatibile con la modellazione relativa al modello di Holt a tendenza smorzata, presentato nel paragrafo precedente: la serie di tendenza non lineare espressa tramite i coeﬃcienti adimensionali δk si sostituisce al termine temporale k, linearmente crescente lungo l’orizzonte di pianiﬁcazione. Condizione necessaria e suﬃciente aﬃnch´e il modello di Holt-Winters sia correttamente applicabile a serie storiche continue e regolari, aﬀette da tendenza lineare e stagionalit` a, `e disporre di almeno 2L periodi di domanda nella serie storica di vendita nell’intervallo di training dell’algoritmo, pari cio`e a due cicli completi di vendita: questo vincolo risulta essere: • necessario, altrimenti il modello non `e in grado di generare i coeﬃcienti stagionaliSt−L, determinati dal confronto fra coppie di valori di domanda Dt equidistanti un ciclo di vendita di lunghezza L; • suﬃciente, in quanto il modello pu` o essere utilizzato in modalit`a predittiva anche non disponendo di ulteriori valori di domanda storica, all’interno dell’intervallo di test5 . 5

La condizione di suﬃcienza `e valida soltanto nel caso in cui il modello sia gi` a stato parametrizzato mediante una terna di valori assegnati ai coeﬃcienti di media (α), tendenza (β) e stagionalit` a (γ). La ricerca dei valori ottimali per tali parametri, obiettivo del best-ﬁt parametrico, `e invece condizionata dalla presenza di un numero signiﬁcativo di valori di domanda all’interno dell’intervallo di test.

12.4 Modello di Holt-Winters

425

12.4.4 Inizializzazione del modello di Holt-Winters Le tre relazioni ricorsive che caratterizzano la formulazione del modello matematico di Holt-Winters devono essere inizializzate, per poter essere calcolate in modo ricorsivo a partire dal primo bucket dell’orizzonte storico t = 1, in corrispondenza del quale assumono la seguente forma funzionale: 1 • componente media: M1 = α · SD + (1 − α) · (M0 + T0 ); 1−L • componente di tendenza lineare: T1 = β · (M1 − M0 ) + (1 − β) · T0 ; D1 • componente stagionale: S1 = γ · M + (1 − γ) · S1−L . 1

Occorre determinare i valori iniziali dei parametri M0 , T0 ed un intero ciclo di valori di stagionalit` a St , avendo a disposizione i valori della serie di domanda negli intervalli di training e di test. Si procede utilizzando le formule seguenti, calcolate nell’ordine presentato: 1. valore iniziale della componente di tendenza lineare: si esegue la diﬀerenza fra i valori medi di domanda Dt per i primi due cicli stagionali e la si divide per la lunghezza temporale L di una stagione: 2L L 1 1 1 T0 = · · Dt − · Dt ; L L L t=1 t=L+1

2. valore iniziale della componente media: si calcola come somma fra la domanda media del secondo ciclo stagionale e la componente iniziale di tendenza moltiplicata per un semiciclo stagionale: M0 =

2L 1 L Dt + · T0 ; · L 2 t=L+1

3. valore iniziale dei periodi omologhi in un ciclo per la componente stagionale: per ciascun periodo l = 1, . . . , L del ciclo periodico di vendita si calcola un coeﬃciente moltiplicativo di stagionalit` a S0l , nel modo seguente: si rapportano dapprima le domande di due periodi omologhi l successivi (ad esempio, i mesi di Luglio appartenenti rispettivamente al primo ed al secondo ciclo storico di vendita (c = 1 e c = 2), gli anni 2005 e 2006) alle rispettive medie di ciclo; questi due valori vengono quindi mediati aritmeticamente: ⎛ ⎞ S0,l =

1 2

⎜ D (c = 1) Dl (c = 2) ⎟ ⎜ l ⎟ ·⎜ + ⎟. L 2L ⎝1 ⎠ 1 · Dt · Dt L L t=1

t=L+1

Dalla modalit` a di calcolo dei valori iniziali delle componenti di media, trend e stagionalit` a si comprende ulteriormente la necessit`a di dover disporre di un volume di dati storici di domanda almeno pari a due cicli completi di stagionalit` a.

426

12 Time Series Forecasting

12.4.5 Best-ﬁt parametrico per il modello di Holt-Winters Il modello di Holt-Winters prevede la taratura dei coeﬃcienti di importanza relativa delle componenti regolari di media, tendenza e stagionalit` a, rispettivamente modellizzate dai parametri α, β e γ. Il best-ﬁt parametrico per la deﬁnizione dei valori ottimali di tali parametri di input richiede di minimizzare l’errore di previsione registrato lungo tutti i periodi del test set, dopo che l’algoritmo ha terminato la fase di addestramento nei periodi caratterizzanti l’intervallo di training della serie storica. I periodi storici dell’intervallo di addestramento servono al modello di HoltWinters per calcolare i valori iniziali delle componenti di domanda, rispettivamente date dai terminiMt, Tt e St , in corrispondenza del periodo TA , ultimo bucket appartenente al training set. I periodi storici dell’intervallo di ﬁtting servono al modello per valutare la qualit` a predittiva di terne alternative di valori {α, β, γ} per i parametri di importanza relativa delle tre componenti regolari della serie storica continua. Il best-ﬁt parametrico consiste, nel caso del modello di Holt-Winters, nella scelta della terna ottimale di valori {α∗ , β ∗ , γ∗ }, tali da rendere minima un’assegnata metrica di errore, valutata nei bucket del test set. Utilizzando, ad esempio, come misura di forecast error l’errore quadratico medio MSE (funzione quadratica continua nell’errore di previsione), il problema di minimizzazione pu` o essere formulato come segue: determinare i coeﬃcienti ottimi {α∗ , β∗ , γ ∗ }, compresi nell’intervallo [0;1], tali da rendere minima la funzione: # T $ 1 2 min {M SEα,β,γ } = · min (Dt − Ft,α,β,γ ) . α,β,γ T − TA α,β,γ t=TA +1

Al termine del procedimento di settaggio dei coeﬃcienti ottimali, il modello viene utilizzato per calcolare con i parametri {α∗ , β∗ , γ ∗ } i valori iniziali Mt , Tt e St , in corrispondenza dell’ultimo bucket storico t = T , da impiegare nell’equazione predittiva Ft+k = (Mt + k · Tt ) · St+k−L per il calcolo del sales forecast. Poich´e il problema della determinazione dei coeﬃcienti ottimali {α∗ , β∗ , γ ∗ } non `e di agevole soluzione matematica in dipendenza della metrica di errore utilizzata, la ricerca di tali parametri avviene secondo approcci empirici alternativi, i quali non garantiscono necessariamente il raggiungimento dei valori ottimi, quanto piuttosto di soluzioni mediamente buone. Self Adapting Forecasting Technique Gli intervalli reali continui di variabilit` a dei parametri {α∗ , β ∗ , γ∗ } vengono discretizzati campionando ad intervalli regolari valori numerici per i parametri stessi. Ad esempio, se il delta di campionamento `e pari a Δ = 0,1, i seguenti valori dei coeﬃcienti {α∗ , β ∗ , γ ∗ } vengono generati: {0,1; 0,2; 0,3; . . . ; 0,9; 1} (dieci valori per ciascun parametro). In generale, la metodologia SAFT prevede di ﬁssare: • un valore minimo per ciascuno dei tre parametri {αmin , βmin , γmin }; • un valore per l’intervallo di campionamento Δ, eventualmente variabile per ciascun parametro.

12.4 Modello di Holt-Winters

427

Il metodo best-ﬁt parametrico basato sulla tecnica SAFT 6 di discretizzazione a griglia calcola l’errore di previsione all’interno del test set, simulando in modo esaustivo la previsione di domanda in corrispondenza di tutte le possibili combinazioni discrete di terne {α∗ , β ∗ , γ ∗ } estraibili dalla griglia formata dai valori campionati (in numero pari a 103 = 1000 nell’esempio con passo di campionamento pari a 0,1), quali ad esempio {α = 0,1; β = 0,1; γ = 0,1}; {α = 0,1; β = 0,1; γ = 0,2}; {α = 0,1; β = 0,1; γ = 0,3}; . . .; {α = 0,1; β = 0,2; γ = 0,1}; {α = 0,1; β = 0,2; γ = 0,2}; . . . , applicando ricorsivamente le formule: αj+1 = αj + Δα ;

βj+1 = βj + Δβ ;

γj+1 = γj + Δγ ,

inizializzate tramite le assegnazioni: α0 = αmin , β0 = βmin , γ0 = γmin . Le relazioni incrementali si arrestano quando i coeﬃcienti superano il valore unitario, uscendo dal range di ammissibilit` a. Assegnati i parametri {αmin , βmin , γmin } e Δ come prescritto dal metodo SAFT, una volta determinati i valori ottimi {α∗ ,