Vai al contenuto principale
Coronavirus: aggiornamenti per la comunità universitaria / Coronavirus: updates for UniTo Community
Oggetto:
Oggetto:

Data Mining e Analisi Multivariata 2

Oggetto:

Data Mining and Multivariate Analysis 2

Oggetto:

Anno accademico 2018/2019

Codice dell'attività didattica
ECM0028
Docenti
Luigi Di Caro (Titolare del corso)
Dr. Claudio Schifanella (Titolare del corso)
Insegnamento integrato
Corso di studi
Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]
Anno
3° anno
Tipologia
Caratterizzante
Crediti/Valenza
6
SSD dell'attività didattica
SECS-S/01 - statistica
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Fortemente consigliata/Recommended
Tipologia d'esame
Scritto
Prerequisiti
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

Questo corso è un'introduzione ai concetti di data mining, machine learning e big data analytics. Tratteremo i principali metodi di data mining di clustering, classificazione e pattern mining, insieme a strumenti pratici per la loro esecuzione.

This course is an introduction to concepts of data mining, machine learning and big data analytics. We will cover the key data mining methods of clustering, classification and pattern mining are illustrated, together with practical tools for their execution.

 

Oggetto:

Risultati dell'apprendimento attesi

L'obiettivo del corso è fornire un'introduzione semplice ma completa al data mining. Alla fine del corso gli studenti saranno in grado di:

- Scegliere i giusti algoritmi per i problemi di data science
- Dimostrare la conoscenza delle tecniche di analisi dei dati statistici utilizzate nel processo decisionale
- Applicare i principi della Data Science all'analisi di problemi su larga scala
- Implementare e utilizzare software di data mining per risolvere problemi reali

 

The aim of the course is to provide a basic but comprehensive introduction to data mining. By the end of the course students will be able to

  • Choose the right algorithms for data science problems

  • Demonstrate knowledge of statistical data analysis techniques used in decision making

  • Apply principles of Data Science to the analysis of large-scale problems

  • Implement and use data mining software to solve real-world problems

Oggetto:

Modalità di insegnamento

Lezioni frontali e pratiche

Frontal lectures and hands-on classes

Oggetto:

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene mediante un esame orale in cui lo studente è chiamato a rispondere ad alcuni quesiti di carattere teorico e pratico.

The assessment of learning takes place through an oral examination in which the student is called to answer some questions of a theoretical and practical nature.

Oggetto:

Programma

1. Introduzione al corso. Introduzione al data mining e al processo di scoperta della conoscenza. Esempi di domini applicativi. Tipi di dati e formati.

2. Tipi di apprendimento (ad es. Apprendimento supervisionato, non supervisionato, semi-supervisionato, rinforzato). Attività di data mining (ad es. Classificazione, regressione, stima della probabilità, clustering). Analisi esplorativa dei dati e comprensione dei dati. Spiegazione e predizione.

3. Metodi unsupervised

   3.1 Pre-processing e feature engineering. Selezione delle funzionalità. Riduzione della dimensionalità. Analisi semantica latente.

   3.2 Clustering. Tassonomia dei concetti di clustering: basati sulla distanza (separazione, centroidi, contiguità), basati sulla densità, partizionali e gerarchici. Metodi per il clustering basato sul centroide (k-means), clustering gerarchico, clustering basato sulla densità (DBSCAN).

   3.3 Introduzione al mining di articoli frequenti. Applicazioni per trovare le regole di associazione. Algoritmi di livello, apriori. Introduzione ai sistemi di raccomandazione.

4. Metodi supervisionati

   4.1 Modelli di regressione e classificazione: regressione lineare e logistica, K-Nearest Neighbours, Decision Trees, Random forest.
   4.2 Generalizzazione, sovralimentazione e underfitting. Convalida incrociata. Valutazione e confronto del modello.

  1. Introduction to the course.  Introduction to data mining and knowledge discovering process. Examples of application domains. Data types and formats.

  2. Types of learning (e.g., supervised, unsupervised, semi-supervised, reinforcement learning). Data mining tasks (e.g., classification, regression, probability estimation, clustering). Exploratory data analysis and data understanding. Explanation vs. prediction.

  3. Unsupervised methods

    1. Preprocessing and feature engineering. Features selection. Dimensionality reduction. Latent Semantic Analysis.

    2. Clustering. Taxonomy of clustering concepts: distance-based (separation, centroids, contiguity), density-based, partitional vs. hierarchical. Methods for centroid-based clustering (k-means), hierarchical clustering, density-based clustering (DBSCAN).

    3. Introduction to frequent itemset mining. Applications for finding association rules. Level-wise algorithms, apriori. Introduction to recommender systems.

  4. Supervised methods

    1. Regression and classification models: linear and logistic regression, K-Nearest Neighbors, Decision Trees, Random forest.

    2. Generalization, overfitting and underfitting. Cross-validation. Model evaluation and comparison.

Testi consigliati e bibliografia

Oggetto:

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, AddisonWesley, 2006.

  • Approfondimenti ed integrazioni indicati dal docente

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, AddisonWesley, 2006.

  • Insights and additions indicated by the teacher




Oggetto:

Note

Orario Lezioni

Oggetto:

Altre informazioni

http://www.didattica-est.unito.it/do/home.pl/View?doc=home_appelli.html
Oggetto:
Ultimo aggiornamento: 17/01/2019 15:25
Location: https://www.didattica-est.unito.it/robots.html
Non cliccare qui!