Vai al contenuto principale
Oggetto:
Oggetto:

Data Mining e Analisi Multivariata 1

Oggetto:

Data Mining and Multivariate Analysis 1

Oggetto:

Anno accademico 2018/2019

Codice dell'attività didattica
ECM0029
Docente
Mauro Paolo Valorio (Titolare del corso)
Insegnamento integrato
Corso di studi
Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]
Anno
3° anno
Tipologia
Caratterizzante
Crediti/Valenza
6
SSD dell'attività didattica
SECS-S/01 - statistica
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Fortemente consigliata/Recommended
Tipologia d'esame
Scritto
Prerequisiti

Buona conoscenza degli elementi di base di:
- analisi dei dati e probabilità
- teoria statistica delle decisioni
- modelli di regressione lineare

Good knowledge of basic elements of:
- data analysis and probability
- inferential statistics
- linear regression model

Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

 Il corso è finalizzato a fornire agli studenti strumenti avanzati di analisi dei dati, attraverso cui estrapolare informazioni rilevanti da grandi dataset e guidare i collegati processi decisionali.

Obiettivi precipui del corso sono:

1  introdurre le tecniche di base di Analisi Multivariata;

2  sviluppare la capacità di effettuare analisi esplorative dei dati e  scegliere il modello ottimale per l'analisi;

3  presentare lo studio di alcune applicazioni reali.

The course is addressed to give advanced data analysis instruments to extract relevant information from big dataset and to guide decision processes.

Specific course objectives are:

1  the introduction of Multivariate Analysis techniques;

2  the development of the capacity to perform an explorating data analysys and to select the optimal model for it;

3  the analysis of selected case studies.

 

Oggetto:

Risultati dell'apprendimento attesi

Al termine del corso lo studente avrà:

Conoscenza della terminologia scientifica e comprensione degli aspetti teorici e applicativi presentati nel corso delle lezioni, contenuti nel libro di testo e nei materiali del corso.

Capacità di applicare conoscenza e comprensione degli strumenti statistici e computazionali per la statistica multivariata.

Autonomia di giudizio e conseguente possibilità di sviluppare considerazioni logiche e deduttive indispensabili per lavorare autonomamente nella ricerca, nella selezione e nello studio di dati con il supporto di strumenti di Analisi Multivariata.

Abilità comunicative per divulgare in forma scritta e orale i risultati delle analisi condotte utilizzando metodi efficaci e lessico appropriato.

At the end of the course students will have:

Knowledge of scientific terminology and understanding of the theoretical and applied aspects presented in the lectures, in the textbook and in the course material.

Ability to apply knowledge and understanding of statistical and computational tools for Multivariate Analysis.

Critical thinking and ability to work independently  in the research, the selection and the study of data with the support of the Multivariate Analysis tools.

Communicative abilities to clearly describe and interprete results. 

Oggetto:

Modalità di insegnamento

Lezioni frontali

Frontal lectures

Oggetto:

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene mediante un esame scritto in cui lo studente è chiamato a rispondere ad alcuni quesiti a risposta multipla, a commentare l'analisi di casi proposti dal docente e a rispondere ad alcune domande teoriche circa gli strumenti utilizzati. In questo modo si verificano:

-la conoscenza estensiva del programma del corso;

-la  capacità di interpretare l'applicazione proposta;

-la capacità di comunicare sinteticamente, in forma scritta,  la natura e le proprietà degli strumenti utilizzati. 

The final exam consists of  a written test including a series of multiple choice questions, the comment to the analysis of one or more selected cases and  theoretical questions about the applied statistical tools. This  is the way we  simultaneously check the student's ability to provide a  clear interpretation and comunication, in a written form, of the  theoretical tools underlying the proposed solution.  The objective of multiple choice questions is to evaluate the extent to which a student has covered all fundamental topics. 

Oggetto:

Programma

  1. Introduzione all'Analisi Multivariata
  2. Organizzazione dei dati
    1. Strutture: database E/R (tabelle e relazioni, inidci, primary key, foreign key, join), datawarehouse (dai sistemi proprietari all'alimentazione di un ambiente comune, lineage dei dati, navigazione di un modello E/R complesso, ricerca delle informazioni), datamart, BIG DATA (cenni)
    2. Utilizzo: arrivare alla matrice dei dati, dati quantitativi e dati qualitativi (omogeneità delle unità di misura, trattamento dei dati mancanti, binarizzazione)
  3. Analisi esplorativa dei dati
    1. Analisi univariata: indici più usati
    2. Analisi bivariata: covarianza, correlazione, indipendenza
    3. Analisi multivariata: dati quantitativi (matrice di varianza-covarianza, correlazione, correlazione parziale), dati qualitativi (frequenze assolute, relative e marginali, indipendenza, connessione, indici, matrice di confusione, odds ratio), ANOVA
    4. Riduzione delle dimensioni: PCA, analisi dei fattori
    5. Analisi discriminante
  4. Casi studio

  1. Introduction to the Multivariate Analysis
  2. Data organization
    1. Structures: database E/R (entities, relations, indexes, primary key, foreign key, join), datawarehouse (from legacy systems to a common database, data lineage, reading an E/R model, looking for informations), datamart, BIG DATA (hints)
    2. Application: build the matrix of data, quantitative and qualitative data (measurement units, missing data, dummy variables)
  3. Explorative data analysis
    1. Univariate analysis: common indexes
    2. Bivariate analysis: covariance, correlation, indipendence
    3. Multivariate analysis: quantitative data (variance-covariance matrix, correlation, partial correlation), quantitative data (frequences, absolute relative and marginal, indipendence, confusion matrix, odds ratio), ANOVA
    4. Dimensionality reduction: PCA, factor analysis
    5. Discriminant analysis
  4. Cases studies

 

Testi consigliati e bibliografia

Oggetto:

Data Mining: metodi informatici, statistici e applicazioni
Autore: Paolo Giudici
Edizione: seconda
Casa editrice: McGraw-Hill
ISBN: 9788838672125

Data Mining: metodi informatici, statistici e applicazioni
Autor: Paolo Giudici
Edition: second
Edit by: McGraw-Hill
ISBN: 9788838672125



Oggetto:

Note

Orario Lezioni

Oggetto:

Altre informazioni

http://www.didattica-est.unito.it/do/home.pl/View?doc=home_appelli.html
Oggetto:
Ultimo aggiornamento: 17/01/2019 15:25
Location: https://www.didattica-est.unito.it/robots.html
Non cliccare qui!