- Oggetto:
- Oggetto:
Data mining e statistical learning
- Oggetto:
Data mining and statistical learning
- Oggetto:
Anno accademico 2020/2021
- Codice dell'attività didattica
- ECM0162
- Docenti
- Rosaria Ignaccolo (Titolare del corso)
Natalia Golini (Titolare del corso) - Corso di studi
- Laurea magistrale in Metodi statistici ed economici per le decisioni - a Torino [0402M21]
- Anno
- 2° anno
- Periodo didattico
- Primo semestre
- Tipologia
- Caratterizzante
- Crediti/Valenza
- 12
- SSD dell'attività didattica
- SECS-S/01 - statistica
- Modalità di erogazione
- Mista
- Lingua di insegnamento
- Italiano
- Modalità di frequenza
- Fortemente consigliata/Recommended
- Tipologia d'esame
- Scritto ed orale
- Prerequisiti
-
Conoscenze di algebra lineare, statistica inferenziale, modelli lineari, linguaggio R di base
Knowledge of linear algebra, inferential statistics, linear models, basic R language. - Propedeutico a
-
--
-- - Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
Il corso si propone di introdurre metodi e modelli per estrarre informazioni rilevanti da grandi moli di dati, con particolare attenzione all'apprendimento statistico (statistical learning) sia in contesto predittivo che non (apprendimento supervisionato e non). Al fine di fornire le competenze per l'analisi e la modellazione di dati reali, le lezioni saranno integrate da esercitazioni in R.The main objective of this course is to introduce methods and models to extract important information from big data, with particular reference to statistical learning in both predictive and non-predictive framework (supervised and unsupervised learning). In order to develop skills for analyzing and modelling real data, lectures will be complemented by practice using R.- Oggetto:
Risultati dell'apprendimento attesi
Conoscenza delle principali tecniche di data mining e apprendimento statistico. Abilità nell'utilizzo della conoscenza acquisita in questo e in precedenti corsi per trattare problemi applicativi, anche attraverso l'uso di specifiche librerie del software statistico R.
Comprensione critica delle caratteristiche, delle potenzialità e dei limiti delle tecniche trattate, in modo da saper valutare quali siano gli strumenti più adatti nelle specifiche situazioni da sottoporre ad analisi.Knowledge of main data mining and statistical learning techniques. Ability to use the knowledge acquired in this and previous courses to deal with real application problems, also by using specific packages of the statistical software R.
Critical understanding of features, potentials and limitations of treated techniques, in order to choose suitable tools in the specific situation to be analyzed.- Oggetto:
Modalità di insegnamento
L’insegnamento è strutturato in 72 ore di didattica (12 CFU), suddivise in lezioni da 2 ore in base al calendario accademico. La didattica, che si costituisce di lezioni teoriche e pratiche (con utilizzo del software R), è erogata in parte in presenza e in parte a distanza per via delle problematiche ed ordinanze relative al Coronavirus. I materiali dell’insegnamento saranno fruibili sulla pagina Moodle del corso. Verranno, inoltre, organizzati momenti d’interazione con gruppi di studenti online o, dove possibile, in presenza.
The course consists of 72 hours (12 CFU) of teaching, divided into classes of 2 hours according to the academic calendar. The teaching, which consists of theoretical and practical lessons (with R), is held in part in-person and in part online due to the Coronavirus emergency. All the teaching materials will be available on the Moodle page. Moreover, online (or face-to-face if possible) interaction sessions will be held with groups of students.
- Oggetto:
Modalità di verifica dell'apprendimento
Esame scritto seguito da una prova orale. Sono anche previste attività di valutazione formativa in itinere con esercizi da risolvere in gruppo utilizzando il software R.
Nella prova scritta lo studente sarà chiamato a rispondere a domande aperte concernenti algoritmi, nonché grafici, output o codice R relativi all’analisi di dati reali.
Se la prova scritta sarà svolta in remoto verrà sostenuta in collegamento WebEx (con webcam e microfono attivi) sulla piattaforma Moodle tramite la modalità “quiz”.
La prova orale è obbligatoria e per gli studenti che svolgeranno l’esame in remoto si terrà in collegamento WebEx (con webcam e microfono attivi).
Data la complessità organizzativa degli appelli d'esame, si raccomanda di iscriversi con largo anticipo (ALMENO dieci giorni prima dell'appello) e di cancellare la propria iscrizione tempestivamente nel caso non si intenda più partecipare all'esame.
Written exam with mandatory oral examination. Moreover during the course there will be group exercises to solve by using R software.
The written test contains open questions on algorithms, as well as plots, outputs or R code related to real data analysis.
If the written part takes place in remote online mode, it will be in connection with WebEx (with the webcam and microphone on) by Moodle Quiz.
The oral part is mandatory and it will be in connection with WebEx (with the webcam and microphone on) if the exam is hold in remote online mode.
Due to the complex logistics involved, please register for exams as early as possible (at least ten days before); and remember to unsubscribe ASAP if you changed your mind and do not want to try an exam anymore.
- Oggetto:
Attività di supporto
--
--
- Oggetto:
Programma
- Introduzione al data mining e allo statistical learning.
- Tecniche di visualizzazione dei dati (con ggplot2).
- Modelli parametrici e nonparametrici. Valutazione dell'accuratezza di un modello. Contrasto tra bontà di adattamento e complessità di un modello.
- Regressione e Classificazione: richiami su regressione lineare e regressione logistica; analisi discriminante e K-nearest neighbors.
- Metodi di ricampionamento: validazione incrociata e bootstrap.
- Selezione di un modello lineare e regolarizzazione: selezione stepwise, ridge regression, principal components regression, partial least squares, LASSO.
- Metodi non-lineari (regressione flessibile): regressione polinomiale, splines di regressione, splines di lisciamento, modelli additivi generalizzati.
- Metodi basati su alberi di decisione: alberi di regressione e classificazione, Bagging, foreste casuali, Boosting.
- Support Vector Machines: classificatore con margine massimale, classificatore di tipo Support Vector, Classificazione con margini di decisione nonlineari, SVM con più di due classi.
- Apprendimento non supervisionato: regole di associazione, analisi delle componenti principali, metodi di raggruppamento.
- Introduction to data mining and statistical learning.
- Tools for Data Visualization (with ggplot2).
- Parametric and nonparametric models. Assessing Model Accuracy. Trade-off between goodness-of-fit and model complexity.
- Regression and Classification: review of linear regression and logistic regression; discriminant analysis, and K-nearest neighbors.
- Resampling Methods: cross-validation and bootstrap.
- Linear Model Selection and Regularization: stepwise selection, ridge regression, principal components regression, partial least squares, and lasso.
- Non-linear methods (Flexible Regression): Polynomial Regression, Regression Splines, Smoothing Splines, Generalized Additive Models.
- Tree-Based Methods: Regression and Classification Trees, Bagging, Random Forests, Boosting.
- Support Vector Machines: Maximal Margin Classifier, Support Vector Classifiers, Classification with Non-linear Decision Boundaries, SVMs with More than Two Classes.
- Unsupervised Learning: Association Rules, Principal Components Analysis, Clustering Methods.
Testi consigliati e bibliografia
- Oggetto:
Azzalini, Scarpa (2004), Analisi dei dati e data mining, Springer-Verlag
James, Witten, Hastie, Tibshirani (2013), An Introduction to Statistical Learning (with Applications in R), Springer-Verlag
Hastie, Tibshirani, Friedman (2009), The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag
Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach. 3rd edition, Cambridge University Press
Wickham (2016), ggplot2. Elegant Graphics for Data Analysis. 2nd Edition, Springer-Verlag
Azzalini, Scarpa (2004), Analisi dei dati e data mining, Springer-Verlag
James, Witten, Hastie, Tibshirani (2013), An Introduction to Statistical Learning (with Applications in R), Springer-Verlag
Hastie, Tibshirani, Friedman (2009), The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag
Maindonald, Braun (2010) Data Analysis and Graphics Using R: An Example-Based Approach . 3rd edition, Cambridge University Press
Wickham (2016), ggplot2. Elegant Graphics for Data Analysis. 2nd Edition, Springer-Verlag
- Oggetto:
Note
Gli orari delle lezioni 2020/21 – primo semestre sono disponibili QUI.
Gli orari degli incontri in presenza del giovedi nel primo semestre 2020/21 saranno concordati con gli studenti.
In ogni caso la prima settimana di attività didattica si svolgerà interamente a distanza.
Lunedì 21 settembre alle ore 9.55 collegarsi alla stanza Webex:
https://unito.webex.com/meet/rosaria.ignaccolo
Le modalità di svolgimento dell'attività didattica potranno subire variazioni in base alle limitazioni imposte dalla crisi sanitaria in corso. In ogni caso è assicurata la possibilità di fruire delle lezioni anche in modalità a distanza.
The way the teaching activity is carried out may be subject to variations according to the evolution of the Covid-19 emergency. In any case, the distance learning is guaranteed.
- Oggetto: