Data Mining e Scoperta di Conoscenza

Informazioni generali sui progetti/seminari

Progetti

1. Il gruppo deve preparare un rapporto di circa 10 pagine in cui

a. Viene descritto analiticamente l’algoritmo che hai implementato.

b. Le parti essenziali del codice Java che utilizzato sono commentate, e l’intero codice è messo in appendice

c. Gli esperimenti effettuati sono commentati quantitativamente e qualitativamente e illustrati graficamente.

2. Ogni componente del gruppo deve preparare delle slides Powerpoint (non più di 10 slides) in cui riassume gli esiti del progetto e il suo contributo allo studio effettuato.

La valutazione verrà effettuata secondo due criteri:

La validità delle soluzioni proposte. In pratica, si valuterà se e come sono stati affrontati i problemi relativi all'implementazione degli algoritmi, e l'adeguatezza dell'analisi dei dati.
Lo stile della presentazione. In pratica, se la presentazione è chiara e coincisa, e se riassume adeguatamente i contributi di ogni singolo componente del progetto.

Seminari

Un buon seminario (20 slides circa) dovrebbe riassumere il problema affrontato dal lavoro in oggetto, e la soluzione proposta (in particolare, illustrandola su un esempio giocattolo). Il seminario dovrebbe discutere i punti di forza e di debolezza del lavoro e suggerire delle direzioni per possibili miglioramenti.
Per facilitare il lavoro, di seguito sono elencate alcune domande a cui si dovrebbe rispondere nel corso del seminario.

Qual'è il problema affontato?
Qual'è l'impatto del lavoro? Quali sono le implicazioni pratiche e/o teoriche?
Quanto i problemi affrontati differiscono da quelli della letteratura? I lavori correlati sono adeguatamente presi in considerazione?
Qual'è la soluzione proposta dagli autori al problema?
Qual'è il contributo principale del lavoro? Ci sono contributi minori da evidenziare?
Quali sono i punti di forza e di debolezza del lavoro?
Ci sono delle scorrettezze/assunzioni non realistiche nel lavoro?
Ci sono margini per migliorare il contributo esposto nel lavoro? Come?

La presentazione verrà valutata in base a due criteri:

La comprensione del problema e della soluzione proposta. In pratica, si valuterà se e come sono stati identificati gli elementi fondamentali del lavoro e quanto i commenti al lavoro sono critici/costruttivi.
Lo stile della presentazione. In pratica, se la presentazione è chiara e coincisa, e se risponde alle domande sopra elencate.

Assegnamenti:

Numero	Argomenti	Persone	Materiale
0	Neural Network per l’ottimizzazione del Maximum Likelihood	Fabrizio Lo Scudo
1	Implementazione e confronto su UCI di CART, CHAID e C4.5	Sanso Antonio	Dataset UCI
2	Neural Networks for face recognition
3	Neural Networks for handwriting recognition	Molinaro Christian, Petrone Antonello	A. Faalborg, "Neural Networks for handwriting recognition".
4	Bayesian Classification for Spam Detection	Cozza Vittoria, Jose Gamez	T. Fawcett, "In vivo Spam Filtering". Archivio 1. Archivio 2. Archivio 3. TextToArff.java
5	Image segmentation using EM and Mixture Models
6	Implementazione dell’algoritmo ROCK		Dataset UCI
7	Implementazione estensione EM per Mixture di Markov Models
8	Implementazione DBScan	Ghion Luca, Genova Marco, Guarascio Massimo	Dataset UCI
9	Implementazione FPGrowth in Weka		Dataset UCI
10	KDD Cup for ClickStream Data
11	Miglioramento delle tecniche Nearest Neighbor utilizzando l’indicizzatore MTree	Abritta Achillle, Bueti Giuseppe, Dimasi Antonella	P. Ciaccia, M. Patella, P. Zezula, "M-Tree: An efficient Access Method for Similarity Search in Metric Spaces". Dataset UCI
12	Class association rules per la classificazione	Napoli Gesuino, Savino Donato	B.Liu and others, "Integrating Classification and Association Rule Mining" Dataset UCI
13	K-Nearest Neighbor technique per la stima di valori mancanti	Volpentesta Nadja, Francesco Vincenzo	Dataset UCI O. Troyanskaya and others, "Missing Value estimation for Microarray Data". T. Hellem, and others, "Accurate estimation of missing values in microarray data". Microarray Data.
14	Clustering di Microarray Data	De Francesco Erika	P. Waddel and others, "Cluster Inference Methods and Graphical Models Evaluated on NCI60 Microarray Gene Expression Data" Microarray Data

Seminari:

Numero	Argomenti	Persone
1	Clustering di Dati categorici	Ponti Giovanni
2	Clustering di dati numerici	Todaro Katia
3	Graph Mining	Gullo Francesco
4	Evolutionary Data Mining	Andrea Terlizzi