Inglese
English
Conoscenza di base di probabilità e inferenza statistica: stima puntuale e per intervalli, verifica di ipotesi.
Basic knowledge of probability and statistical inference: point and interval estimation, hypothesis testing.
Il corso si articola in 22 lezioni tradizionali (da 2 ore ciascuna). Durante il corso verranno effettuate esercitazioni pratiche con l’utilizzo del programma R studio, liberamente disponibile all'indirizzo https://rstudio.com/. Gli studenti sono pertanto invitati a procurarsi un computer portatile su cui installare il programma e portarlo a lezione nelle ore di esercitazione.
The course consists of 22 lectures (2 hours each). During the course, practice sessions will take place, in which the software package R studio (freely available at https://rstudio.com/) will be used. Students are invited to get hold of a notebook on which to install the software and bring it to class for the practice sessions.
Al termine del corso gli studenti saranno in grado di comprendere l’approccio statistico/econometrico all’analisi dei dati nei suoi aspetti inferenziali e interpretativi.
Al termine del corso gli studenti saranno in grado di stimare, validare e interpretare modelli di regressione e classificazione a scopo previsivo, con particolare conoscenza delle problematiche inerenti l’applicazione di tali metodi a dataset di grandi dimensioni.
Il corso comprende una ricca parte applicativa nella quale gli studenti avranno modo di familiarizzare con semplici programmi software di media complessità utilizando un linguaggio specifico per l’econometria.
At the end of the course students will be able to understand the statistical/econometric approach to data analysis in its inferential and substantive aspects.
At the end of the course students will be able to estimate, validate and interpret regression and classification models for prediction, with special knowledge of the methodological issues related to their application to the high-dimensional setting.
The course includes software sessions, where students will have the opportunity to become familiar simple programs using a specially-tailored programming language.
1. Il modello di regressione lineare: la funzione di regressione; il modello di regressione lineare semplice, il modello di regressione lineare multipla, statistiche F e R².
2. Il modello di regressione lineare per dataset di grandi dimensioni: selezione del modello, criteri AIC e BIC, R² aggiustato, cross-validation; regolarizzazione con regression LASSO e ridge.
3. Problemi di classificazione: concetti base della teoria della classificazione; l’analisi discriminante; il modello logit; valutazione della performance del modello con curve ROC.
4.Metodi ad albero: metodi ad albero per la regressione; metodi ad albero per la classificazione.
5. Previsioni con serie storiche: grafici e caratteristiche delle serie storiche; metodi previsivi di base, analisi dei residui, errore di previsione; scomposizioni di serie storiche; cenni ai modelli previsivi.
6 Introduzione all’analisi quantitativa del testo: tokenizzazione, la statistica TF-IFD, il modello bag of words; visualizzazione del testo, word cloud.
1. Linear regression model: regression function; simple linear regression model; multiple linear regression model, F and R² statistics.
2. Linear regression in the high-dimensional setting: model selection, AIC and BIC criteria, adjusted R², cross-validation; regularization with LASSO and ridge regression.
3. Classification: basic classification theory; discriminant analysis; the logit model; evaluation of model performance with ROC curves.
4. Tree-based methods: regression trees; classification trees.
5. Introduction to forecasting: time series plot and time series patterns; benchmark methods, residual analysis, forecast error; time series decompositions; overview of more advanced forecast models.
6. Introduction to text analytics: tokenization, the TF-IDF statistic, the bag-of-words model; text visualization and word cloud.
L'esame consiste in due prove
(1) Lo studente dovrà consegnare un documento scritto dove si commentano i risultati della stima di un metodo scelto dal docente tra quelli studiati durante il corso, nell’ambito di un’applicazione economico/aziendale scelta dallo studente. L’elaborato viene poi discusso dal candidato durante la prova orale.
(2) Lo studente, in gruppo con 2/3 colleghi di corso, dovrà discutere oralmente i risultati di un confronto tra i metodi appresi nell’ambito di un’applicazione economico/aziendale scelta dal docente.
Per gli di studenti con disabilità/invalidità o disturbo specifico di apprendimento (DSA), che abbiano fatto debita richiesta di supporto per affrontare lo specifico esame di profitto all’Info Point Disabilità/DSA dell’Ateneo, le modalità di esame saranno adattate alla luce di quanto previsto dalle linee guida di Ateneo
(https://www.univpm.it/Entra/Accoglienza_diversamente_abili).
Nelle due prove gli studenti dovranno dimostrare di avere acquisito una solida conoscenza delle principali questioni statistiche/econometriche, principalmente legate all’aspetto pratico dell’analisi dei big data nel business.
Tramite lo svolgimento delle prove, gli studenti dovranno dimostrare di conoscere come gli strumenti di analisi trovino applicazione per la risoluzione di problematiche applicate a casi specifici.
Il voto finale verrà espresso in trentesimi. Lo studente supererà l'esame se otterrà almeno 18. È prevista l’assegnazione del massimo dei voti con lode (30 e lode).
Il voto finale è calcolato come media dei punteggi ottenuti (da 1 a 30) nelle due prove. La lode viene assegnata nel caso di esposizione particolarmente brillante.
The final test is includes two tasks
(1) A take-home written essay where the estimation results of an assigned method, among those presented during the course, are discussed relatively to a business problem chosen by the student. The essay is then discussed during the oral test.
(2) A presentation, in a 2/3 people team, where the results of a comparison between methods, among those object of the course, are discussed relatively to an assigned business application.
For students with disabilities or Specific Learning Disability (SLD) who have contacted the University Disability/SLD Info Point to request support for the specific curricular exam, please note that the way the exam is taken can be adapted in accordance with the University Guidelines (https://www.univpm.it/Entra/Accoglienza_diversamente_abili)
The two final tasks are meant to ascertain the student’s knowledge of the principles of statistics/econometrics, particularly regarding their their practical implications in analyzing big data for business. By correctly these tasks, students are expected to show their proficiency in applying econometric concepts and tools to real-life cases.
The final score is between 0 and 30. To pass the test, the minimum is 18/30. Possibly, a mention could be awarded to exceptionally good tests (30 e lode).
The final score is given by the average score obtained (from 1 to 30) with the two tasks. “30 e lode” will be awarded in case of excellent presentation.
James G., Witted D., Hastie R., Tibshirani R. Introduction to Statistical Learning (with Applications in R). Springer, 7th edition. Capitoli 2, 3, 4, 6, 8.
Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. Otexts, 2nd edition. Capitoli 1, 2, 3, 6.
James G., Witted D., Hastie R., Tibshirani R. Introduction to Statistical Learning (with Applications in R). Springer, 7th edition. Chapters 2, 3, 4, 6, 8.
Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. Otexts, 2nd edition. Chapters 1, 2, 3, 6.
SI
YES
Università Politecnica delle Marche
P.zza Roma 22, 60121 Ancona
Tel (+39) 071.220.1, Fax (+39) 071.220.2324
P.I. 00382520427