Vai al contenuto principale
Coronavirus: aggiornamenti per la comunità universitaria / Coronavirus: updates for UniTo Community
Oggetto:
Oggetto:

Data Mining (non attivo nell'a.a. 2020/2021)

Oggetto:

Data Mining

Oggetto:

Anno accademico 2020/2021

Codice dell'attività didattica
ECM0099
Corso di studi
Laurea magistrale in Scienze Statistiche, Economiche e Manageriali - a Torino [009504]
Anno
2° anno
Tipologia
Affine o integrativo
Crediti/Valenza
6
SSD dell'attività didattica
INF/01 - informatica
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Consigliata/Recommended
Tipologia d'esame
Scritto
Prerequisiti

Conoscenza di statistica inferenziale, modelli lineari e analisi multivariata.

Knowledge of inferential statistics, linear models and multivariate analysis.

Propedeutico a
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

Il corso si propone di introdurre metodi e modelli per estrarre informazioni rilevanti da grandi moli di dati, con particolare attenzione all’apprendimento statistico (statistical learning) in contesto predittivo. Al fine di fornire le competenze per l’analisi e la modellazione di dati reali, le lezioni saranno integrate da esercitazioni in R svolte in aula informatica.

 

The main objective of this course is to introduce methods and models to extract important information from big data, with particular reference to statistical learning in a predictive framework. In order to develop skills for analyzing and modelling real data, lectures will be complemented by practice using R in computer labs.

Oggetto:

Risultati dell'apprendimento attesi

Conoscenza delle principali tecniche di apprendimento statistico. Abilità nell’utilizzo della conoscenza acquisita in questo e in precedenti corsi per trattare problemi applicativi, anche attraverso l’uso di specifiche librerie del software statistico R.

Comprensione critica delle caratteristiche, delle potenzialità e dei limiti delle tecniche trattate, in modo da saper valutare quali siano gli strumenti più adatti nelle specifiche situazioni da sottoporre ad analisi.

 

Knowledge of main statistical learning techniques. Ability to use the knowledge acquired in this and previous courses to deal with real application problems, also by using specific packages of the statistical software R.

Critical understanding of features, potentials and limitations of treated techniques, in order to choose suitable tools in the specific situation to be analyzed.

Oggetto:

Modalità di insegnamento

Lezione frontale ed esercitazioni in aula informatica con utilizzo del software R.  

Lectures and practice in computer labs with R.

Oggetto:

Modalità di verifica dell'apprendimento

Esame scritto (riguardante sia la parte teorica che quella pratica) seguito da una prova orale facoltativa.

Written exam (about both the theory and practice) with optional oral examination.

Oggetto:

Programma



Introduzione al data mining e allo statistical learning. Tecniche di visualizzazione dei dati.

Modelli parametrici e nonparametrici. Valutazione dell’accuratezza di un modello. Contrasto tra bontà di adattamento e complessità di un modello.

Regressione e Classificazione: richiami su regressione lineare, regressione logistica, analisi discriminante e K-nearest neighbors.

Metodi di ricampionamento: validazione incrociata e bootstrap.

Selezione di un modello lineare e regolarizzazione: selezione stepwise, ridge regression, principal components regression, partial least squares, LASSO.

Metodi non-lineari (regressione flessibile): regressione polinomiale, splines di regressione, splines di lisciamento, modelli additivi generalizzati.

 

Introduction to data mining and statistical learning. Tools for Data Visualization.

Parametric and nonparametric models. Assessing Model Accuracy. Trade-off between goodness-of-fit and model complexity.

Regression and Classification: review of linear regression, logistic regression, discriminant analysis, and K-nearest neighbors.

Resampling Methods: cross-validation and bootstrap.

Linear Model Selection and Regularization: stepwise selection, ridge regression, principal components regression, partial least squares, and lasso.

Non-linear methods (Flexible Regression): Polynomial Regression, Regression Splines, Smoothing Splines, Generalized Additive Models.

Testi consigliati e bibliografia

Oggetto:

Azzalini, Scarpa (2004) Analisi dei dati e data mining, Springer-Verlag

James, Witten, Hastie, Tibshirani (2013) An Introduction to Statistical Learning (with Applications in R), Springer-Verlag

Hastie, Tibshirani, Friedman (2009) The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag

Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach . 3rd edition, Cambridge University Press



Azzalini, Scarpa (2004) Analisi dei dati e data mining, Springer-Verlag

James, Witten, Hastie, Tibshirani (2013) An Introduction to Statistical Learning (with Applications in R), Springer-Verlag

Hastie, Tibshirani, Friedman (2009) The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag

Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach . 3rd edition, Cambridge University Press




Oggetto:

Note

Corso non attivato nell'A. A. 2017/2018.

Oggetto:
Ultimo aggiornamento: 15/05/2020 23:13
Non cliccare qui!