Vai al contenuto principale
Oggetto:
Oggetto:

Data mining e statistical learning

Oggetto:

Data mining and statistical learning

Oggetto:

Anno accademico 2019/2020

Codice dell'attività didattica
ECM0162
Docenti
Rosaria Ignaccolo (Titolare del corso)
Sara Fontanella (Titolare del corso)
Corso di studi
Laurea magistrale in Metodi statistici ed economici per le decisioni - a Torino [0402M21]
Anno
2° anno
Tipologia
Caratterizzante
Crediti/Valenza
12
SSD dell'attività didattica
SECS-S/01 - statistica
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Fortemente consigliata/Recommended
Tipologia d'esame
Scritto
Prerequisiti
Conoscenze di algebra lineare, statistica inferenziale, modelli lineari.

Knowledge of linear algebra, inferential statistics, linear models.

Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

 Il corso si propone di introdurre metodi e modelli per estrarre informazioni rilevanti da grandi moli di dati, con particolare attenzione all'apprendimento statistico (statistical learning) sia in contesto predittivo che non (apprendimento supervisionato e non). Al fine di fornire le competenze per l'analisi e la modellazione di dati reali, le lezioni saranno integrate da esercitazioni in R svolte in aula informatica.

 The main objective of this course is to introduce methods and models to extract important information from big data, with particular reference to statistical learning in both predictive and non-predictive framework (supervised and unsupervised learning). In order to develop skills for analyzing and modelling real data, lectures will be complemented by practice using R in computer labs.

Oggetto:

Risultati dell'apprendimento attesi

 Conoscenza delle principali tecniche di data mining e apprendimento statistico. Abilità nell'utilizzo della conoscenza acquisita in questo e in precedenti corsi per trattare problemi applicativi, anche attraverso l'uso di specifiche librerie del software statistico R.
Comprensione critica delle caratteristiche, delle potenzialità e dei limiti delle tecniche trattate, in modo da saper valutare quali siano gli strumenti più adatti nelle specifiche situazioni da sottoporre ad analisi.

 Knowledge of main data mining and statistical learning techniques. Ability to use the knowledge acquired in this and previous courses to deal with real application problems, also by using specific packages of the statistical software R.
Critical understanding of features, potentials and limitations of treated techniques, in order to choose suitable tools in the specific situation to be analyzed.

Oggetto:

Modalità di insegnamento

Lezione frontale ed esercitazioni in aula informatica con utilizzo del software R.  

Lectures and practice in computer labs with R.

Oggetto:

Modalità di verifica dell'apprendimento

 

MODALITA’ DI VERIFICA ONLINE A SEGUITO DELL’EMERGENZA SANITARIA COVID-19

Gli esami della sessione estiva 2020 si svolgeranno in modalità online a distanza e prevedono un esame scritto con successivo orale (obbligatorio).

Data la complessità organizzativa degli appelli d'esame, si raccomanda di iscriversi con largo anticipo (ALMENO dieci giorni prima dell'appello) e di cancellarsi tempestivamente nel caso non si intenda più partecipare all'esame.

La prova scritta verrà sostenuta in collegamento WebEx (con webcam accesa) sulla piattaforma Moodle tramite la modalità “quiz”. Lo studente sarà chiamato a rispondere a domande aperte erogate sequenzialmente (il tempo disponibile per rispondere ad ogni domanda sarà comunicato via via), concernenti algoritmi, nonché grafici, output o codice R relativi all’analisi di dati reali.

La prova orale si terrà in collegamento WebEx (con webcam accesa) con un calendario da fissare evitando eventuali sovrapposizioni con altri esami.

Il voto finale per gli studenti “frequentanti” (che hanno consegnato le soluzioni degli esercizi in itinere) terrà conto della valutazione effettuata durante il corso (il voto dell’esame scritto con orale prende il posto del voto dello scritto completo pre-covid).

 

Modalità pre-Covid-19 NON prevista per la sessione estiva:

Esame scritto (riguardante sia la parte teorica che quella pratica) seguito da una prova orale facoltativa. Sono anche previste attività di valutazione formativa in itinere con esercizi da risolvere in gruppo utilizzando il software R.

 Written exam (about both the theory and practice) with optional oral examination. Moreover during the course there will be group exercises to solve by using R software.

Oggetto:

Programma

 Introduzione al data mining e allo statistical learning. Tecniche di visualizzazione dei dati.
Modelli parametrici e nonparametrici. Valutazione dell'accuratezza di un modello. Contrasto tra bontà di adattamento e complessità di un modello.
Regressione e Classificazione: richiami su regressione lineare, regressione logistica, analisi discriminante e K-nearest neighbors.
Metodi di ricampionamento: validazione incrociata e bootstrap.
Selezione di un modello lineare e regolarizzazione: selezione stepwise, ridge regression, principal components regression, partial least squares, LASSO.
Metodi non-lineari (regressione flessibile): regressione polinomiale, splines di regressione, splines di lisciamento, modelli additivi generalizzati.
Metodi basati su alberi di decisione: alberi di regressione e classificazione, Bagging, foreste casuali, Boosting.
Support Vector Machines: classificatore con margine massimale, classificatore di tipo Support Vector, Classificazione con margini di decisione nonlineari, SVM con più di due classi.
Apprendimento non supervisionato: regole di associazione, analisi delle componenti principali, metodi di raggruppamento.

 Introduction to data mining and statistical learning. Tools for Data Visualization (with ggplot2).
Parametric and nonparametric models. Assessing Model Accuracy. Trade-off between goodness-of-fit and model complexity.
Regression and Classification: review of linear regression, logistic regression, discriminant analysis, and K-nearest neighbors.
Resampling Methods: cross-validation and bootstrap.
Linear Model Selection and Regularization: stepwise selection, ridge regression, principal components regression, partial least squares, and lasso.
Non-linear methods (Flexible Regression): Polynomial Regression, Regression Splines, Smoothing Splines, Generalized Additive Models.
Tree-Based Methods: Regression and Classification Trees, Bagging, Random Forests, Boosting.
Support Vector Machines: Maximal Margin Classifier, Support Vector Classifiers, Classification with Non-linear Decision Boundaries, SVMs with More than Two Classes.
Unsupervised Learning: Association Rules, Principal Components Analysis, Clustering Methods.

Testi consigliati e bibliografia

Oggetto:

 Azzalini, Scarpa (2004) Analisi dei dati e data mining, Springer-Verlag
James, Witten, Hastie, Tibshirani (2013) An Introduction to Statistical Learning (with Applications in R), Springer-Verlag
Hastie, Tibshirani, Friedman (2009) The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag
Wickham (2016) ggplot2. Elegant Graphics for Data Analysis. 2nd Edition, Springer-Verlag
Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach . 3rd edition, Cambridge University Press

 Azzalini, Scarpa (2004) Analisi dei dati e data mining, Springer-Verlag
James, Witten, Hastie, Tibshirani (2013) An Introduction to Statistical Learning (with Applications in R), Springer-Verlag
Hastie, Tibshirani, Friedman (2009) The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag
Wickham (2016) ggplot2. Elegant Graphics for Data Analysis. 2nd Edition, Springer-Verlag
Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach . 3rd edition, Cambridge University Press



Oggetto:
Ultimo aggiornamento: 26/05/2020 11:41
Location: https://www.didattica-est.unito.it/robots.html
Non cliccare qui!