Introduzione

            Si può predire il futuro? Molti dicono di no altri credono che sia possibile solo tramite poteri ultraterreni, altri ancora pensano invece che il futuro non sia altro che il passato riveduto e corretto. Quest’ultima convinzione induce quindi a pensare che analizzando quello che è stato si può conoscere ciò che sarà. Non serve essere veggenti o avere particolari capacità “divine”, ma basta uno strumento concreto che riesca ad astrarre conoscenza da informazioni reali sulla base della quale indurne della nuova. A partire da questa idea in tempi relativamente recenti si è sviluppata una nuova disciplina che va sotto il nome di Data Mining e che concettualmente serve ad ampliare la conoscenza su cui basare le proprie decisioni.
            Nel progetto descritto in questa relazione sono state applicate le tecniche di Data Mining nella realizzazione di un sistema predittivo, che sia in grado di fornire una previsione sulla vittoria del campionato di calcio di seria A italiana 2006/2007. In particolare, la tecnica utilizzata viene chiamata “Modellazione predittiva” che consiste nell’apprendimento da esempi. Prerequisito necessario per l’applicazione di questa tecnica è quello di essere in possesso di un insieme di istanze
 <x, f(x)>, dove x sono gli esempi a disposizione ed f(x) la rispettiva classificazione. Ogni esempio serve ad allenare una funzione h sconosciuta che approssimi nel modo migliore possibile f(x). L’insieme delle istanze di esempio è organizzato, per convenzione e per comodità, in un formato tabellare in cui ogni riga rappresenta un esempio classificato ed ogni colonna un suo attributo. Con il termine attributo intendiamo una specifica caratteristica dell’esempio. Il processo di apprendimento dell’ipotesi h è illustrato nella seguente figura.

image

La semantica che tale figura esprime è molto intuitiva: dall’ambiente esterno si ricevono gli esempi che costituiscono la nostra tabella (dataset) che è divisa in esempi di training ed esempi di test. La parte dei dati destinati all’apprendimento è quella relativa al training, dal quale si costruisce un modello di classificazione le cui prestazioni sono misurate fornendogli in input gli esempi di test.
Per prestazioni intendiamo la capacità di classificare in modo corretto gli esempi.
Un lavoro simile a quello introdotto è stato realizzato da due studenti di Informatica dell’American University in Sharjah che hanno cercato di predire la vittoria dell’ultimo mondiale (Germania 2006). L’approccio utilizzato in tale ambito è stato quello di raccogliere dati su tutte le squadre partecipanti al mondiale e predire il risultato di ogni singola partita fino ad arrivare alla finale. Tale approccio è stato possibile grazie al non elevato numero di partite che un mondiale prevede, nel caso in esame però si è rilevato troppo oneroso rispetto all’utilità di informazione che avrebbe potuto fornire, in quanto predire ogni partita su un totale di 380 è improponibile. Inoltre, per effettuare la previsione sono previsti dati aggiornati al periodo in cui ogni partita si svolge. In un mondiale, che ha durata di circa un mese, tale situazione può esser trascurata, al contrario in un campionato di calcio della durata di circa dieci mesi, tali dati con un simile approccio sono fondamentali e ciò dimostra la scarsa validità nel caso in esame. Partendo dalle indicazioni emerse da queste considerazioni è stato costruito un dataset seguendo una strada diversa. Sono stati raccolti, in un’unica tabella, tutti i dati di ogni singola squadra ad inizio stagione insieme alla rispettiva posizione di classifica a fine anno.