Vai al contenuto principale
Oggetto:
Oggetto:

Data Mining e Analisi Multivariata

Oggetto:

Data Mining and Multivariate Analysis

Oggetto:

Anno accademico 2020/2021

Codice dell'attività didattica
ECM0027
Docenti
Natalia Golini (Titolare del corso)
Cinzia Carota (Titolare del corso)
Corso di studi
Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]
Anno
3° anno
Periodo didattico
Da definire
Tipologia
Caratterizzante
Crediti/Valenza
12
SSD dell'attività didattica
SECS-S/01 - statistica
Modalità di erogazione
Mista
Lingua di insegnamento
Italiano
Modalità di frequenza
Fortemente consigliata/Recommended
Tipologia d'esame
Scritto ed orale
Prerequisiti

Buona conoscenza degli elementi di base di:
- analisi dei dati e probabilità;
- teoria statistica delle decisioni;
- analisi del modello di regressione lineare;
- linguaggio R.


Good knowledge of basic elements of:
- data analysis and probability;
- inferential statistics;
- linear regression model;
- R language.

Propedeutico a
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

L'insegnamento di Data Mining e Analisi Multivariata è finalizzato a fornire agli studenti strumenti avanzati di analisi dei dati, attraverso cui estrapolare informazioni rilevanti da grandi dataset e guidare i collegati processi decisionali.

Obiettivi specifici dell'insegnamento sono:

  • introdurre le tecniche di base del Data Mining e dell'Analisi Multivariata;
  • sviluppare la capacità di scegliere il modello ottimale per analizzare i dati;
  • discutere lo studio di alcune applicazioni reali.

The Data Mining and Multivariate Analysis course is addressed to give advanced data analysis instruments to extract relevant information from big dataset and to guide decision processes.

Specific course objectives are:

  • the introduction of main Data Mining and Multivariate Analysis techniques;
  • the development of the capacity to select the optimal model for data analysis;
  • the discussion of selected case studies.

 

Oggetto:

Risultati dell'apprendimento attesi

Al termine dell'insegnamento lo studente avrà:

  • conoscenza della terminologia scientifica e comprensione degli aspetti teorici e applicativi presentati durante le lezioni, contenuti nel libro di testo e nei materiali dell'insegnamento;
  • conoscenza e capicità di comprensione applicata degli strumenti statistici e computazionali per il Data Mining e la Statistica Multivariata;
  • autonomia di giudizio e conseguente possibilità di sviluppare considerazioni logiche e deduttive indispensabili per lavorare autonomamente nella ricerca, nella selezione e nello studio di dati con il supporto di strumenti di di Data Mining e Analisi Multivariata;
  • abilità comunicative per divulgare in forma scritta e orale i risultati delle analisi condotte utilizzando metodi efficaci e lessico appropriato.

 

At the end of the course students will have:

  • knowledge of scientific terminology and understanding of the theoretical and applied aspects presented in the lectures, in the textbook and in the course material;
  • ability to apply knowledge and understanding of statistical and computational tools forData Mining and Multivariate Analysis;
  • critical thinking and ability to work independently in the research, the selection and the study of data with the support of the Data Mining and Multivariate Analysis tools;
  • communicative abilities to clearly describe and interprete results. 

 

Oggetto:

Modalità di insegnamento

L’insegnamento è strutturato in 72 ore di didattica (12 CFU), suddivise in lezioni da 2 ore in base al calendario accademico. La didattica, che si costituisce di lezioni teoriche e pratiche, è erogata in parte in presenza e in parte a distanza per via delle problematiche ed ordinanze relative al Coronavirus. In entrambi i casi, le lezioni sono erogate in diretta streaming e/o registrate. Le lezioni registrate, insieme ai materiali dell’insegnamento, saranno fruibili sulla pagina Moodle dell’insegnamento. Verranno, inoltre, concordate giornate d’interazione con i gruppi online o, dove possibile, in presenza.

 

The course consists of 72 hours (12 CFU) of teaching, divided into classes of 2 hours according to the academic calendar. The teaching, which consists of theoretical and practical lessons, is held in part in-person and in part online due to the Coronavirus emergency. In both cases, the lessons are provided in live streaming and/or recorded. The recorded lessons, together with the teaching materials, will be available on the teaching Moodle page. Moreover, online (or face-to-face if possible) interaction sessions will be held with the groups.

Oggetto:

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento sarà volta a verificare:

  • la conoscenza estensiva del programma dell'insegnamento di entrambi i moduli del corso di Data Mining e Analisi Multivariata;
  • la capacità di interpretare l'applicazione proposta;
  • la capacità di comunicare sinteticamente la natura e le proprietà degli strumenti utilizzati. 

Essa prevede una prova scritta obbligatoria che si svolgerà sulla piattaforma Moodle e una prova orale facoltativa. Se la prova scritta sarà svolta in remoto allora la prova orale sarà obbligatoria e verrà sostenuta in collegamento WebEx (con wecam accesa).

La prova scritta è un Quiz su Moodle che comprende domande a risposta multipla e domande a risposta aperta. Tramite queste ultime, si chiederà di commentare i risultati di un'analisi condotta su uno o più casi studio e il codice R sviluppato per produrla, e di rispondere ad alcune domande teoriche riguardanti gli strumenti utilizzati durante l'insegnamento. La prova orale verterà su gli stessi argomenti della prova scritta. 

 
 
 

The exam is aimed at verifying:

  • the extensive knowledge of the course program of both moduls of main Data Mining and Multivariate Analysis course;
  • the ability to interpret the proposed application;
  • the ability to synthetically communicate the nature and properties of the tools used.

It consists of a mandatory written part on the Moodle platform and an optional oral part. If the written part takes place in remote online mode, the oral part is mandatory (in connection with WebEx, with the webcam on).  

The written test is a Moodle Quiz consisting of multiple-choice questions and open questions. The latter include comments on the results and the R code used in one or more selected case studies, as well as theoretical questions about the tools used during the course. In the oral test the student has to answer to few questions with a similar structure.

 

Oggetto:

Attività di supporto

Oggetto:

Programma

  • Introduzione all'insegnamento.
  • Tabelle di contingenza a più entrate.
  • Indipendenza stocastica mutua, congiunta e condizionale.
  • Distribuzione multinomiale e distribuzione di Poisson.
  • Modello log-lineare per lo studio delle relazioni tra variabili categoriche.
  • Data Mining vs Analisi Multivariata.
  • Il Data Mining e il processo di scoperta della conoscenza
  • Market Basket Analysis.
  • Elementi di algebra lineare.
  • Matrice dei dati; matrice di covarianza; matrice di correlazione; le trasformazioni dei dati multidimensionali.
  • Analisi delle Componenti Principali.
  • Analisi Fattoriale (in breve).
  • Analisi delle Corrispondenze. 
  • Distanze e Indici di Similarità.
  • Analisi dei gruppi.
  • Scaling Multidimensionale.

  • Introduction to the Course.
  • Multi-waty contingency tables.
  • Mutual, joint and conditional independence.
  • Multinomial and Poisson Distributions.
  • Log-linear models to analyze the association structure for categorical variables. 
  • Data Mining vs Multivariate Analysis.
  • Data Mining and knowledge discovering process.
  • Market Basket Analysis.
  • Elements of linear algebra.
  • Data, covariance, and correlation matrix; transformations of multidimensional data.
  • Principal Component Analysis. 
  • Notes on Factor Analysis.
  • Correspondence Analysis.
  • Distance and Similarity Measures.
  • Cluster Analysis.
  • Multidimensional Scaling.

 

Testi consigliati e bibliografia

Oggetto:

An introduction to generalized linear models,Autori: Dobson A.J. and Barnett A.G., Edizione:Third 

http://www.ru.ac.bd/wp-content/uploads/sites/25/2019/03/202_06_Dobson_An-Introduction-to-Generalized-Linear-Models-2008.pdf

Extending linear model with R, Autore: J Faraway, Edizione 2016. Disponibile in pdf nei materiali didattici.

Analisi dei dati e data mining per le decisioni aziendali 
Autori: Sergio Zani, Andrea Cerioli
Editore: Giuffrè
Data di Pubblicazione: 2007
EAN: 9788814204999
ISBN: 8814204993

Mining of Massive Datasets
Jure Leskovec, Anand Rajaraman, Jeff Ullman
ONLINE VERSION: http://www.mmds.org

 

An introduction to generalized linear models,Autori: Dobson A.J. and Barnett A.G., Edizione:Third 

http://www.ru.ac.bd/wp-content/uploads/sites/25/2019/03/202_06_Dobson_An-Introduction-to-Generalized-Linear-Models-2008.pdf

Extending linear model with R, Autore: J Faraway, Edizione 2016. Disponibile in pdf nei materiali didattici.

Analisi dei dati e data mining per le decisioni aziendali
Autori: Sergio Zani, Andrea Cerioli
Editore: Giuffrè
Data di Pubblicazione: 2007
EAN: 9788814204999
ISBN: 8814204993

 

Mining of Massive Datasets
Jure Leskovec, Anand Rajaraman, Jeff Ullman
ONLINE VERSION: http://www.mmds.org

 

 





Oggetto:

Note

Le modalità di svolgimento dell'attività didattica potranno subire variazioni in base alle limitazioni imposte dalla crisi sanitaria in corso. In ogni caso è assicurata la modalità a distanza per tutto l'anno accademico.

-----------

Le lezioni inizieranno a distanza.

-----------

Dal 22 febbraio all'8 marzo le lezioni della professoressa Cinzia Carota (per un totale di 3 cfu) si terranno in diretta streaming nell'orario Lu-Ma: 12-14 e Gio-Ve:10-12 nella webex room sotto indicata.

https://unito.webex.com/meet/cinzia.carota

I materiali didattici saranno reperibili nella pagina moodle del corso. 

-----------

Le lezioni della Prof.ssa Golini (9 CFU) si terranno a partire dal 15 marzo in diretta streaming nell'orario Lu-Ma: 12-14 e Gio-Ve:10-12 nella webex room sotto indicata:

https://unito.webex.com/meet/natalia.golini

I materiali didattici saranno reperibili nella pagina moodle del corso. 

-----------

 

Orario Lezioni

The way the teaching activity is carried out may be subject to variations according to the evolution of the Covid-19 emergency. In any case, the distance learning is guaranteed for the entire academic year.

Lessons: from February 22 to March 8 (prof. Cinzia Carota),  Mon-Tue: h. 12-14 and Thu-Fri:10-12) in her webex room:

https://unito.webex.com/meet/cinzia.carota

Teaching materials: see the Moodle page of the course. 

 

Oggetto:

Moduli didattici

Oggetto:

Altre informazioni

http://www.didattica-est.unito.it/do/home.pl/View?doc=home_appelli.html
Oggetto:
Ultimo aggiornamento: 08/03/2021 17:13
Location: https://www.didattica-est.unito.it/robots.html
Non cliccare qui!