Data Mining e Scoperta di Conoscenza


Programma del Corso

Argomenti:

CONTENUTI:
Il corso è suddiviso in due parti. Nella prima parte, si analizzerà
il problema della modellazione predittiva dei dati. sotto vari punti di vista:
Apprendimento automatico/Intelligenza artificiale, Statistica e basi di dati.
Nella seconda parte del corso, verrà studiato il problema della modellazione predittiva dei dati.
Verranno analizzate tecniche di segmentazione e di sommarizzazione.
Le esercitazioni potranno prevedere la sperimentazione delle tecniche di analisi su alcune
sorgenti di dati, utilizzando dei tool appropriati.

0. LA SCOPERTA DI CONOSCENZA NELLE BASI DI DATI [4 ore lezione, 2 ore esercitazione].
Motivazioni, applicazioni. Il processo di KDD. Cenni di data warehousing:
Selezione, consolidamento e preprocessamento dei dati. Il problema della dimensionalità.


1. INTRODUZIONE ALLA MODELLAZIONE PREDITTIVA [13 ore lezione, 6 ore esercitazione].
Dal Machine Learning al Knowledge Discovery: apprendimento di concetti; lo spazio
di ricerca e l’influenza induttiva. Alberi di decisione. Dall’intelligenza artificiale
al knowledge discovery: reti neurali. Funzioni di base radiale; Classificazione Nearest-Neighbor;
Support Vector Machines. Dalla statistica al Knowledge discovery: stime di distribuzioni
multivariate (Mixture models), classificatori bayesiani. Dalle basi di dati
al Knowledge Discovery: Scalabilità. Meta-Classificatori (Stacking, bagging, Boosting).
Predizione numerica: alberi di regressione.


2. INTRODUZIONE ALLA MODELLAZIONE DESCRITTIVA [12 ore lezione, 5 ore esercitazione].
Segmentazione di dati: Tipi di dato e misure di dissimilarità; tecniche di clustering
partizionale e gerarchico. Clustering probabilistico. Aspetti avanzati nel clustering.
Sommarizzazione dei dati: patterns frequenti e regole associative. Calcolo di associazioni
booleane: l’algoritmo apriori. Varianti: multidimensionalità; regole quantitative;
regole associative con vincoli. Aspetti temporali nel calcolo di patterns frequenti:
pattern sequenziali. Cenni sull’analisi di serie temporali.


3. ASPETTI AVANZATI [4h lezione].
Algoritmi genetici. Teorie induttive e apprendimento del primo ordine. Text Mining, Web Mining.

 

Libri di testo:

TM = Tom Mitchell. 1997. Machine Learning. McGraw Hill.

WF = Ian Witten and Eibe Frank. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco, CA: Morgan Kaufmann.

HK = Data Mining Techniques, J. Han and M. Kamber. Morgan-Kaufman, 2000.

MS = Principles of Data Mining, D. Hand, H. Mannila, P. Smyth. MIT Press, 2001.

HA = Neural Networks, S. Haykin. Prentice Hall, 1999.

PY = Data Preparation for Data Mining, D. Pyle, Morgan-Kaufman, 1999.