- Oggetto:
- Oggetto:
Data Mining e Analisi Multivariata 2
- Oggetto:
Data Mining and Multivariate Analysis 2
- Oggetto:
Anno accademico 2018/2019
- Codice dell'attività didattica
- ECM0028
- Docenti
- Luigi Di Caro (Titolare del corso)
Dr. Claudio Schifanella (Titolare del corso) - Insegnamento integrato
- Data Mining e Analisi Multivariata (ECM0027)
- Corso di studi
- Laurea in Economia e Statistica per le Organizzazioni - a Torino [0402L31]
- Anno
- 3° anno
- Tipologia
- Caratterizzante
- Crediti/Valenza
- 6
- SSD dell'attività didattica
- SECS-S/01 - statistica
- Modalità di erogazione
- Tradizionale
- Lingua di insegnamento
- Italiano
- Modalità di frequenza
- Fortemente consigliata/Recommended
- Tipologia d'esame
- Scritto
- Prerequisiti
-
-
- - Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
Questo corso è un'introduzione ai concetti di data mining, machine learning e big data analytics. Tratteremo i principali metodi di data mining di clustering, classificazione e pattern mining, insieme a strumenti pratici per la loro esecuzione.
This course is an introduction to concepts of data mining, machine learning and big data analytics. We will cover the key data mining methods of clustering, classification and pattern mining are illustrated, together with practical tools for their execution.
- Oggetto:
Risultati dell'apprendimento attesi
L'obiettivo del corso è fornire un'introduzione semplice ma completa al data mining. Alla fine del corso gli studenti saranno in grado di:
- Scegliere i giusti algoritmi per i problemi di data science
- Dimostrare la conoscenza delle tecniche di analisi dei dati statistici utilizzate nel processo decisionale
- Applicare i principi della Data Science all'analisi di problemi su larga scala
- Implementare e utilizzare software di data mining per risolvere problemi realiThe aim of the course is to provide a basic but comprehensive introduction to data mining. By the end of the course students will be able to
-
Choose the right algorithms for data science problems
-
Demonstrate knowledge of statistical data analysis techniques used in decision making
-
Apply principles of Data Science to the analysis of large-scale problems
-
Implement and use data mining software to solve real-world problems
-
- Oggetto:
Modalità di insegnamento
Lezioni frontali e pratiche
Frontal lectures and hands-on classes
- Oggetto:
Modalità di verifica dell'apprendimento
La verifica dell'apprendimento avviene mediante un esame orale in cui lo studente è chiamato a rispondere ad alcuni quesiti di carattere teorico e pratico.
The assessment of learning takes place through an oral examination in which the student is called to answer some questions of a theoretical and practical nature.
- Oggetto:
Programma
1. Introduzione al corso. Introduzione al data mining e al processo di scoperta della conoscenza. Esempi di domini applicativi. Tipi di dati e formati.
2. Tipi di apprendimento (ad es. Apprendimento supervisionato, non supervisionato, semi-supervisionato, rinforzato). Attività di data mining (ad es. Classificazione, regressione, stima della probabilità, clustering). Analisi esplorativa dei dati e comprensione dei dati. Spiegazione e predizione.
3. Metodi unsupervised
3.1 Pre-processing e feature engineering. Selezione delle funzionalità. Riduzione della dimensionalità. Analisi semantica latente.
3.2 Clustering. Tassonomia dei concetti di clustering: basati sulla distanza (separazione, centroidi, contiguità), basati sulla densità, partizionali e gerarchici. Metodi per il clustering basato sul centroide (k-means), clustering gerarchico, clustering basato sulla densità (DBSCAN).
3.3 Introduzione al mining di articoli frequenti. Applicazioni per trovare le regole di associazione. Algoritmi di livello, apriori. Introduzione ai sistemi di raccomandazione.
4. Metodi supervisionati
4.1 Modelli di regressione e classificazione: regressione lineare e logistica, K-Nearest Neighbours, Decision Trees, Random forest.
4.2 Generalizzazione, sovralimentazione e underfitting. Convalida incrociata. Valutazione e confronto del modello.-
Introduction to the course. Introduction to data mining and knowledge discovering process. Examples of application domains. Data types and formats.
-
Types of learning (e.g., supervised, unsupervised, semi-supervised, reinforcement learning). Data mining tasks (e.g., classification, regression, probability estimation, clustering). Exploratory data analysis and data understanding. Explanation vs. prediction.
-
Unsupervised methods
-
Preprocessing and feature engineering. Features selection. Dimensionality reduction. Latent Semantic Analysis.
-
Clustering. Taxonomy of clustering concepts: distance-based (separation, centroids, contiguity), density-based, partitional vs. hierarchical. Methods for centroid-based clustering (k-means), hierarchical clustering, density-based clustering (DBSCAN).
-
Introduction to frequent itemset mining. Applications for finding association rules. Level-wise algorithms, apriori. Introduction to recommender systems.
-
Supervised methods
-
Regression and classification models: linear and logistic regression, K-Nearest Neighbors, Decision Trees, Random forest.
-
Generalization, overfitting and underfitting. Cross-validation. Model evaluation and comparison.
-
Testi consigliati e bibliografia
- Oggetto:
-
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, AddisonWesley, 2006.
-
Approfondimenti ed integrazioni indicati dal docente
-
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, AddisonWesley, 2006.
-
Insights and additions indicated by the teacher
-
- Oggetto:
Note
- Oggetto:
Altre informazioni
http://www.didattica-est.unito.it/do/home.pl/View?doc=home_appelli.html- Oggetto: