- Oggetto:
- Oggetto:
Data mining e Analisi multivariata
- Oggetto:
Data mining and Multivariate analysis
- Oggetto:
Anno accademico 2024/2025
- Codice attività didattica
- ECM0196
- Docenti
- Natalia Golini (Titolare del corso)
Rosaria Ignaccolo (Titolare del corso) - Corso di studio
- Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]
- Anno
- 3° anno
- Periodo
- Annualità singola (A1)
- Tipologia
- Caratterizzante, Affine o integrativo
- Crediti/Valenza
- 12
- SSD attività didattica
- INF/01 - informatica
SECS-S/01 - statistica - Erogazione
- Tradizionale
- Lingua
- Italiano
- Frequenza
- Fortemente consigliata/Recommended
- Tipologia esame
- Scritto ed orale
- Prerequisiti
-
Buona conoscenza degli elementi di base di:
- analisi dei dati e probabilità: indipendenza statistica/stocastica vs connessione e misure della connessione;
- teoria statistica delle decisioni;
- analisi del modello di regressione lineare e lineare generalizzato;
- linguaggio R.
Good knowledge of basic elements of:
- data analysis and probability: stochastic independence/dependence and its measures;
- inferential statistics;
- linear regression model and generalized linear regression models;
- R language. - Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
L'insegnamento di Data Mining e Analisi Multivariata è finalizzato a fornire agli studenti e alle studentesse strumenti avanzati di analisi dei dati, attraverso cui estrapolare informazioni rilevanti da grandi dataset e guidare i collegati processi decisionali.
Obiettivi specifici dell'insegnamento sono:
- introdurre le tecniche di base del Data Mining e dell'Analisi Multivariata;
- sviluppare la capacità di scegliere il modello ottimale per analizzare i dati;
- discutere lo studio di alcune applicazioni reali.
The Data Mining and Multivariate Analysis course is addressed to give advanced data analysis instruments to extract relevant information from big datasets and guide decision processes.
Specific course objectives are:
- the introduction of main Data Mining and Multivariate Analysis techniques;
- the development of the capacity to select the optimal model for data analysis;
- the discussion of selected case studies.
- Oggetto:
Risultati dell'apprendimento attesi
Al termine dell'insegnamento lo/a studente/ssa avrà:
- conoscenza della terminologia scientifica e comprensione degli aspetti teorici e applicativi presentati durante le lezioni, contenuti nel libro di testo e nei materiali dell'insegnamento;
- conoscenza e capicità di comprensione applicata degli strumenti statistici e computazionali per il Data Mining e la Statistica Multivariata;
- autonomia di giudizio e conseguente possibilità di sviluppare considerazioni logiche e deduttive indispensabili per lavorare autonomamente nella ricerca, nella selezione e nello studio di dati con il supporto di strumenti di di Data Mining e Analisi Multivariata;
- abilità comunicative per divulgare in forma scritta e orale i risultati delle analisi condotte utilizzando metodi efficaci e lessico appropriato.
At the end of the course, students will have:
- knowledge of scientific terminology and understanding of the theoretical and applied aspects presented in the lectures, in the textbook and the course material;
- ability to apply knowledge and understanding of statistical and computational tools forData Mining and Multivariate Analysis;
- critical thinking and ability to work independently in the research, the selection and the study of data with the support of the Data Mining and Multivariate Analysis tools;
- communicative abilities to clearly describe and interpret results.
- Oggetto:
Programma
- Introduzione all'insegnamento.
- Data Mining vs Analisi Multivariata.
- Cenni di Market Basket Analysis.
- Elementi di algebra lineare.
- Matrice dei dati; matrice di covarianza; matrice di correlazione; le trasformazioni dei dati multidimensionali.
- Analisi delle Componenti Principali.
- Analisi delle Corrispondenze.
- Analisi Fattoriale (in breve).
- Distanze e Indici di Similarità.
- Analisi dei gruppi.
- Previsione di una variabile quantitativa: misure di performance.
- Richiami di regressione lineare multipla.
- Cenni di regressione flessibile e alberi di regressione.
- Introduction to the Course.
- Data Mining vs Multivariate Analysis.
- Notes on Market Basket Analysis.
- Elements of linear algebra.
- Data, covariance, and correlation matrix; transformations of multidimensional data.
- Principal Component Analysis.
- Correspondence Analysis.
- Notes on Factor Analysis.
- Distance and Similarity Measures.
- Cluster Analysis.
- Predicting quantitative feature: performance measures.
- Multiple linear regression.
- Overview on flexible regression and regression trees.
- Oggetto:
Modalità di insegnamento
L’insegnamento è strutturato in 80 ore di didattica (12 CFU), suddivise in lezioni da 2 ore in base al calendario accademico. La didattica, che si costituisce di lezioni teoriche e pratiche (con utilizzo del software R), è erogata in presenza.
I materiali dell’insegnamento saranno fruibili sulla pagina Moodle dell'insegnamento.
The course consists of 80 hours (12 CFU) of teaching, divided into classes of 2 hours according to the academic calendar. The teaching consists of theoretical and practical lessons (with R) and will be held in presence.
All the teaching materials will be available on the Moodle page.
- Oggetto:
Modalità di verifica dell'apprendimento
La verifica dell'apprendimento sarà volta a verificare:
- la conoscenza estensiva del programma dell'insegnamento di entrambi i moduli del corso di Data Mining e Analisi Multivariata;
- la capacità di interpretare l'applicazione proposta;
- la capacità di comunicare sinteticamente la natura e le proprietà degli strumenti utilizzati.
La verifica dell’apprendimento prevede in presenza:
- una prova scritta obbligatoria;
- una prova orale obbligatoria.
La prova scritta è un test che comprende domande a risposta multipla e domande a risposta aperta. Tramite queste ultime, si chiederà di commentare i risultati di un'analisi condotta in laboratorio su uno o più casi studio e il codice R sviluppato per produrla, e di rispondere ad alcune domande teoriche riguardanti gli strumenti utilizzati durante l'insegnamento.
Per superare la prova scritta è necessario raggiungere la sufficienza in entrambi i moduli e comunque raggiungere un punteggio pari a 18/30.
La prova orale prevede una prima "domanda di accertamento" sul voto preso nella prova scritta in ciascuno dei due moduli. In caso di risposta esaustiva il voto dello scritto è confermato. E' facoltà dello/a studente/essa decidere se proseguire l'orale nel tentativo di incrementare il punteggio raggiunto nella prova scritta. In tal caso verranno poste due domande, una per ciascun modulo, su un qualsiasi argomento affrontato durante l'insegnamento, e non vi è alcuna alcuna garanzia che il voto della prova scritta venga confermato.
The exam, held in presence, is aimed at verifying:
- the extensive knowledge of the course program of both modules of the main Data Mining and Multivariate Analysis course;
- the ability to interpret the proposed application;
- the ability to synthetically communicate the nature and properties of the tools used.
It consists of:
- mandatory written test;
- mandatory oral test.
The written part is a test consisting of multiple-choice questions and open questions. The latter include comments on the results and the R code used in one or more selected case studies, as well as theoretical questions about the tools used during the course.
In order to pass the written test, it is necessary to achieve sufficiency in both modules, and in any case, achieve at least a score of 18/30
The oral test includes a "confirmation question" on the score obtained with the written test. An exhaustive answer is necessary to confirm the grade of the written test. The student can decide whether to continue the oral test in an attempt to increase the score achieved in the written one, up to a maximum of three points. Then, two questions will be asked, on any topic dealt with during the course, and there is no guarantee that the grade of the written test will be confirmed.
Testi consigliati e bibliografia
- Oggetto:
- Libro
- Oggetto:
Analisi dei dati e data mining per le decisioni aziendali
Autori: Sergio Zani, Andrea Cerioli
Editore: Giuffrè
Data di Pubblicazione: 2007
EAN: 9788814204999
ISBN: 8814204993Mining of Massive Datasets
Jure Leskovec, Anand Rajaraman, Jeff Ullman
ONLINE VERSION: http://www.mmds.orgStatistica: Metodologie per le scienze economiche e sociali
Autori: Simone Borra, Agostino Di Ciaccio
Editore: McGraw-Hill Education
Data di Pubblicazione: 2014
ISBN: 8838667403J
ONLINE: Capitoli 18/19Analisi dei dati e data mining per le decisioni aziendali
Autori: Sergio Zani, Andrea Cerioli
Editore: Giuffrè
Data di Pubblicazione: 2007
EAN: 9788814204999
ISBN: 8814204993Mining of Massive Datasets
Jure Leskovec, Anand Rajaraman, Jeff Ullman
ONLINE VERSION: http://www.mmds.orgStatistica: Metodologie per le scienze economiche e sociali
Autori: Simone Borra, Agostino Di Ciaccio
Editore: McGraw-Hill Education
Data di Pubblicazione: 2014
ISBN: 8838667403J
ONLINE: Capitoli 18/19- Oggetto:
Note
Gli/le studenti/esse con DSA o disabilità, sono pregati/e di prendere visione delle modalità di supporto (https://www.unito.it/servizi/lo-studio/studenti-con-disabilita) e di accoglienza (https://www.unito.it/accoglienza-studenti-con-disabilita-e-dsa) di Ateneo, e in particolare delle procedure necessarie per il supporto in sede d’esame (https://www.unito.it/servizi/lo-studio/studenti-con-disabilita/supporto-
agli-studenti-con-disabilita-sostenere-gli-esami).- Oggetto:
Moduli didattici
- Analisi multivariata (ECM0196A)
- Data mining (ECM0196B)
- Oggetto:
Altre informazioni
http://www.didattica-est.unito.it/do/home.pl/View?doc=home_appelli.html- Registrazione
- Aperta
- Oggetto: