 |
Data Mining e Scoperta di
Conoscenza
|
Programma del Corso
Argomenti:
CONTENUTI:
Il corso è suddiviso in due parti. Nella prima parte, si analizzerà
il problema della modellazione predittiva dei dati. sotto vari punti
di vista:
Apprendimento automatico/Intelligenza artificiale, Statistica e basi
di dati.
Nella seconda parte del corso, verrà studiato il problema della
modellazione predittiva dei dati.
Verranno analizzate tecniche di segmentazione e di sommarizzazione.
Le esercitazioni potranno prevedere la sperimentazione delle
tecniche di analisi su alcune
sorgenti di dati, utilizzando dei tool appropriati.
0. LA SCOPERTA DI CONOSCENZA NELLE BASI DI
DATI [4 ore lezione, 2 ore esercitazione].
Motivazioni, applicazioni. Il processo di KDD. Cenni di data
warehousing:
Selezione, consolidamento e preprocessamento dei dati. Il problema
della dimensionalità.
1. INTRODUZIONE ALLA MODELLAZIONE PREDITTIVA
[13 ore lezione, 6 ore esercitazione].
Dal Machine Learning al Knowledge Discovery: apprendimento di
concetti; lo spazio
di ricerca e l’influenza induttiva. Alberi di decisione.
Dall’intelligenza artificiale
al knowledge discovery: reti neurali. Funzioni di base radiale;
Classificazione Nearest-Neighbor;
Support Vector Machines. Dalla statistica al Knowledge discovery:
stime di distribuzioni
multivariate (Mixture models), classificatori bayesiani. Dalle basi
di dati
al Knowledge Discovery: Scalabilità. Meta-Classificatori (Stacking,
bagging, Boosting).
Predizione numerica: alberi di regressione.
2. INTRODUZIONE ALLA MODELLAZIONE DESCRITTIVA
[12 ore lezione, 5 ore esercitazione].
Segmentazione di dati: Tipi di dato e misure di dissimilarità;
tecniche di clustering
partizionale e gerarchico. Clustering probabilistico. Aspetti
avanzati nel clustering.
Sommarizzazione dei dati: patterns frequenti e regole associative.
Calcolo di associazioni
booleane: l’algoritmo apriori. Varianti: multidimensionalità; regole
quantitative;
regole associative con vincoli. Aspetti temporali nel calcolo di
patterns frequenti:
pattern sequenziali. Cenni sull’analisi di serie temporali.
3. ASPETTI AVANZATI [4h lezione].
Algoritmi genetici. Teorie induttive e apprendimento del primo
ordine. Text Mining, Web Mining.
|
Libri di testo:
TM = Tom Mitchell. 1997. Machine Learning. McGraw Hill.
WF = Ian Witten and Eibe Frank. 2000. Data Mining: Practical Machine
Learning Tools and Techniques with Java Implementations. San Francisco,
CA: Morgan Kaufmann.
HK = Data Mining Techniques, J. Han and M. Kamber.
Morgan-Kaufman, 2000.
MS = Principles of Data Mining, D. Hand, H. Mannila, P.
Smyth. MIT Press, 2001.
HA = Neural Networks, S. Haykin. Prentice Hall, 1999.
PY = Data Preparation for Data Mining, D. Pyle,
Morgan-Kaufman, 1999.