Data Mining e Analisi Multivariata 2

Oggetto:

Data Mining e Analisi Multivariata 2

Oggetto:

Data Mining and Multivariate Analysis 2

Oggetto:

Anno accademico 2018/2019

Codice dell'attività didattica

ECM0028

Docenti

Luigi Di Caro (Titolare del corso)
Dr. Claudio Schifanella (Titolare del corso)

Insegnamento integrato

Data Mining e Analisi Multivariata (ECM0027)

Corso di studi

Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]

Anno

3° anno

Tipologia

Caratterizzante

Crediti/Valenza

SSD dell'attività didattica

SECS-S/01 - statistica

Modalità di erogazione

Tradizionale

Lingua di insegnamento

Italiano

Modalità di frequenza

Fortemente consigliata/Recommended

Tipologia d'esame

Scritto

Prerequisiti

Italiano
English

Oggetto:

Questo corso è un'introduzione ai concetti di data mining, machine learning e big data analytics. Tratteremo i principali metodi di data mining di clustering, classificazione e pattern mining, insieme a strumenti pratici per la loro esecuzione.

This course is an introduction to concepts of data mining, machine learning and big data analytics. We will cover the key data mining methods of clustering, classification and pattern mining are illustrated, together with practical tools for their execution.

Oggetto:

Risultati dell'apprendimento attesi

Italiano
English

L'obiettivo del corso è fornire un'introduzione semplice ma completa al data mining. Alla fine del corso gli studenti saranno in grado di:

- Scegliere i giusti algoritmi per i problemi di data science
- Dimostrare la conoscenza delle tecniche di analisi dei dati statistici utilizzate nel processo decisionale
- Applicare i principi della Data Science all'analisi di problemi su larga scala
- Implementare e utilizzare software di data mining per risolvere problemi reali

The aim of the course is to provide a basic but comprehensive introduction to data mining. By the end of the course students will be able to

Choose the right algorithms for data science problems
Demonstrate knowledge of statistical data analysis techniques used in decision making
Apply principles of Data Science to the analysis of large-scale problems
Implement and use data mining software to solve real-world problems

Oggetto:

Modalità di insegnamento

Italiano
English

Lezioni frontali e pratiche

Frontal lectures and hands-on classes

Oggetto:

Modalità di verifica dell'apprendimento

Italiano
English

La verifica dell'apprendimento avviene mediante un esame orale in cui lo studente è chiamato a rispondere ad alcuni quesiti di carattere teorico e pratico.

The assessment of learning takes place through an oral examination in which the student is called to answer some questions of a theoretical and practical nature.

Oggetto:

Programma

Italiano
English

1. Introduzione al corso. Introduzione al data mining e al processo di scoperta della conoscenza. Esempi di domini applicativi. Tipi di dati e formati.

2. Tipi di apprendimento (ad es. Apprendimento supervisionato, non supervisionato, semi-supervisionato, rinforzato). Attività di data mining (ad es. Classificazione, regressione, stima della probabilità, clustering). Analisi esplorativa dei dati e comprensione dei dati. Spiegazione e predizione.

3. Metodi unsupervised

3.1 Pre-processing e feature engineering. Selezione delle funzionalità. Riduzione della dimensionalità. Analisi semantica latente.

3.2 Clustering. Tassonomia dei concetti di clustering: basati sulla distanza (separazione, centroidi, contiguità), basati sulla densità, partizionali e gerarchici. Metodi per il clustering basato sul centroide (k-means), clustering gerarchico, clustering basato sulla densità (DBSCAN).

3.3 Introduzione al mining di articoli frequenti. Applicazioni per trovare le regole di associazione. Algoritmi di livello, apriori. Introduzione ai sistemi di raccomandazione.

4. Metodi supervisionati

4.1 Modelli di regressione e classificazione: regressione lineare e logistica, K-Nearest Neighbours, Decision Trees, Random forest.
4.2 Generalizzazione, sovralimentazione e underfitting. Convalida incrociata. Valutazione e confronto del modello.

Introduction to the course. Introduction to data mining and knowledge discovering process. Examples of application domains. Data types and formats.
Types of learning (e.g., supervised, unsupervised, semi-supervised, reinforcement learning). Data mining tasks (e.g., classification, regression, probability estimation, clustering). Exploratory data analysis and data understanding. Explanation vs. prediction.
Unsupervised methods

Preprocessing and feature engineering. Features selection. Dimensionality reduction. Latent Semantic Analysis.
Clustering. Taxonomy of clustering concepts: distance-based (separation, centroids, contiguity), density-based, partitional vs. hierarchical. Methods for centroid-based clustering (k-means), hierarchical clustering, density-based clustering (DBSCAN).
Introduction to frequent itemset mining. Applications for finding association rules. Level-wise algorithms, apriori. Introduction to recommender systems.

Supervised methods

Regression and classification models: linear and logistic regression, K-Nearest Neighbors, Decision Trees, Random forest.
Generalization, overfitting and underfitting. Cross-validation. Model evaluation and comparison.

Descrizione