Data Mining e Scoperta di Conoscenza


Informazioni generali sui progetti/seminari

Progetti

1.      Il gruppo deve preparare un rapporto di circa 10 pagine in cui

a.       Viene descritto analiticamente l’algoritmo che hai implementato.

b.      Le parti essenziali del codice Java che utilizzato sono commentate, e l’intero codice è messo in appendice

c.       Gli esperimenti effettuati sono commentati quantitativamente e qualitativamente e illustrati graficamente.

2.      Ogni componente del gruppo deve preparare delle slides Powerpoint (non più di 10 slides) in cui riassume gli esiti del progetto e il suo contributo allo studio effettuato.

La valutazione verrà effettuata secondo due criteri:

 

Seminari

Un buon seminario (20 slides circa) dovrebbe riassumere il problema affrontato dal lavoro in oggetto, e la soluzione proposta (in particolare, illustrandola su un esempio giocattolo). Il seminario dovrebbe discutere i punti di forza e di debolezza del lavoro e suggerire delle direzioni per possibili miglioramenti.
Per facilitare il lavoro, di seguito sono elencate alcune domande a cui si dovrebbe rispondere nel corso del seminario.

  1. Qual'è il problema affontato?
  2. Qual'è l'impatto del lavoro? Quali sono le implicazioni pratiche e/o teoriche?
  3. Quanto i problemi affrontati differiscono da quelli della letteratura? I lavori correlati sono adeguatamente presi in considerazione?
  4. Qual'è la soluzione proposta dagli autori al problema?
  5. Qual'è il contributo principale del lavoro? Ci sono contributi minori da evidenziare?
  6. Quali sono i punti di forza e di debolezza del lavoro?
  7. Ci sono delle scorrettezze/assunzioni non realistiche nel lavoro?
  8. Ci sono margini per migliorare il contributo esposto nel lavoro? Come?

La presentazione verrà valutata in base a due criteri:

 

Assegnamenti:

Numero Argomenti Persone Materiale
0 Neural Network per l’ottimizzazione del Maximum Likelihood Fabrizio Lo Scudo  
1 Implementazione e confronto su UCI di CART, CHAID e C4.5 Sanso Antonio Dataset UCI
2 Neural Networks for face recognition    
3 Neural Networks for handwriting recognition Molinaro Christian, Petrone Antonello A. Faalborg, "Neural Networks for handwriting recognition".
4 Bayesian Classification for Spam Detection Cozza Vittoria, Jose Gamez T. Fawcett, "In vivo Spam Filtering".
Archivio 1.
Archivio 2.
Archivio 3.
TextToArff.java
5 Image segmentation using EM and Mixture Models    
6 Implementazione dell’algoritmo ROCK   Dataset UCI
7 Implementazione estensione EM per Mixture di Markov Models    
8 Implementazione DBScan Ghion Luca, Genova Marco, Guarascio Massimo Dataset UCI
9 Implementazione FPGrowth in Weka   Dataset UCI
10 KDD Cup for ClickStream Data    
11 Miglioramento delle tecniche Nearest Neighbor utilizzando l’indicizzatore MTree Abritta Achillle, Bueti Giuseppe, Dimasi Antonella

P. Ciaccia, M. Patella, P. Zezula, "M-Tree: An efficient Access Method for Similarity Search in Metric Spaces".
Dataset UCI

12 Class association rules per la classificazione Napoli Gesuino, Savino Donato B.Liu and others, "Integrating Classification and Association Rule Mining"
Dataset UCI
13 K-Nearest Neighbor technique per la stima di valori mancanti Volpentesta Nadja, Francesco Vincenzo Dataset UCI
O. Troyanskaya and others, "Missing Value estimation for Microarray Data".
T. Hellem, and others, "Accurate estimation of missing values in microarray data".
Microarray Data.
14 Clustering di Microarray Data De Francesco Erika P. Waddel and others, "Cluster Inference Methods and Graphical Models Evaluated on NCI60 Microarray Gene Expression Data"

Microarray Data

Seminari:

Numero Argomenti Persone Materiale
1 Clustering di Dati categorici Ponti Giovanni  
2 Clustering di dati numerici Todaro Katia  
3 Graph Mining Gullo Francesco  
4 Evolutionary Data Mining Andrea Terlizzi