142SP - ANALISI DEI DATI 2025
Schema della sezione
-
-
Estratto dal volume D. Larose - DISCOVERING KNOWLEDGE IN DATA, Wiley
-
-
Tabella per il calcolo dell'ampiezza campionaria nel caso di un proporzione considerando varianza massima (=0.25).
Si noti che per una popolazione grande (all'aumentare di N) l'ampiezza campionaria è sostanzialmente identica (e dipende solo da livello di confidenza e margine di errore accettato per le stime). Si ricordi inoltre che in tali casi (N grande) la frazione di campionamento è in genere molto bassa.
-
Esempio utilizzato in aula
-
Dati scaricati dal github del Sole 24 ore in formato CSV separati da ","
-
-
-
Aperto: mercoledì, 18 marzo 2026, 00:00Termine consegna martedì, 24 marzo 2026, 14:00
-
Aperto: martedì, 7 aprile 2026, 00:00Termine consegna martedì, 14 aprile 2026, 15:00
Sul file excel pulito dei dati degli studenti dell'esercizio precedente selezionare una variabile quantitativa a piacere ed effettuare le seguenti operazioni:
- normalizzare la variabile scelta secondo il metodo min-max (aggiungere una colonna nel file excel con questi nuovi valori)
- standardizzare la medesima variabile (aggiungere una colonna nel file excel con questi nuovi valori)
- Confrontare le due trasformazioni dati e commentare le differenze (gli eventuali valori anomali sono gli stessi? qual è il valore medio delle due trasformazioni? e la deviazione standard?)
-
Aperto: domenica, 5 aprile 2026, 17:48Termine consegna lunedì, 11 maggio 2026, 23:59
Buongiorno,
Vi chiederei di caricare una scansione (meglio un file pdf) del foglio che utilizzerete per rispondere ai seguenti quesiti sull'output di R di un modello di regressione multiplo

Aggiungo il punto
f) interpretare i valori dei coefficienti che risultano significativi.
-
-
-
Scaricare la versione FREE
-
Il file riporta l'esempio di analisi descrittiva e step per interpretare il modello di regressione sui dati contenuti nelle slides del corso (file .R con commenti)
Per visualizzarlo aprire il file con RStudio o con un editor di testi
-
Script di R per l'algoritmo di clustering k-means (esempio riportato nelle slides analisi gruppi lievement modificato)
Oltre al calcolo delle k-medie nello script c'è:
- uso della funzione points e plot (per colorare i punti sulla base dei gruppi)
- l'uso del ciclo for
- il calcolo della distanza tra uniità statistiche e centroidi
-
Esempio di analisi dei gruppi per il dataframe Autovetture (che trovate nella sezione DATI del corso su moodle)
Contiene anche uno script da usare come suggerimento per la parte di analisi dei gruppi da inserire nel report
-
Il file riporta l'esempio di analisi i componenti principali svolto in aula sui dati UScrime (file .R con commenti)
-
-
Aperto: venerdì, 17 aprile 2026, 14:00Chiuso: mercoledì, 27 maggio 2026, 23:59
Quiz sugli argomenti che vanno fino alle slides 04 (eccetto quelle su data preparation) e includono parte del materiale su R (guardate la dispensa e/o il manuale di Iacus).
I punteggi saranno pesati sulla base del grado di fiducia che dichiarate prima della risposta alla domanda (minimo -6 se risposta sbagliata e massimo grado di fiducia ad un massimo di 3 se risposta corretta con massimo grado di fiducia).
Il quiz è composto da domande di varia natura, dura un massimo di 70 minuti e va completato in un'unica sessione. Ricordate che una volta avviato il quiz non si può tornare indietro sulle domande. Avviata una domanda occorre rispondere!
-
Aperto: venerdì, 17 aprile 2026, 14:00Chiuso: mercoledì, 27 maggio 2026, 23:59
Quiz sugli argomenti inclusi nelle slides sul campionamento, nel manuale dell'ISTAT e nel materiale addizionale caricato.
I punteggi saranno pesati sulla base del grado di fiducia che dichiarate prima della risposta alla domanda (minimo -6 se risposta sbagliata e massimo grado di fiducia ad un massimo di 6 se risposta corretta con massimo grado di fiducia).
Il quiz dura un massimo di 50 minuti e va completato in un'unica sessione. Non si può tornare indietro nelle domande.
-
Aperto: venerdì, 17 aprile 2026, 15:00Chiuso: mercoledì, 27 maggio 2026, 23:59
Quiz sugli argomenti inclusi nelle slides sul fonti dati e preprocessing e nel pdf data preporcessing (estratto dal volume di Larose) caricato nella sezione materiale di studio
I punteggi saranno pesati sulla base del grado di fiducia che dichiarate prima della risposta alla domanda (minimo -6 se risposta sbagliata e massimo grado di fiducia ad un massimo di 6 se risposta corretta con massimo grado di fiducia).
Il quiz dura un massimo di 45 minuti e va completato in un'unica sessione. Non si può tornare indietro nelle domande.
-
Aperto: venerdì, 15 maggio 2026, 16:00Chiuso: martedì, 2 giugno 2026, 15:59
Quiz su correlazione, regressione semplice e multipla. Gli argomenti riguardano sia le slides che il capitolo del libro di testo.
I punteggi saranno pesati sulla base del grado di fiducia che dichiarate prima della risposta alla domanda (minimo -6 se risposta sbagliata e massimo grado di fiducia ad un massimo di 6 se risposta corretta con massimo grado di fiducia).
Il quiz è composto da 20 domande di varia natura, dura un massimo di 60 minuti e va completato in un'unica sessione.
-
-
-
I file contengono descrizione, coodebook e matrice dati dell'indagine campionaria VOTER. La matrice dati è un file csv (comma-separated value), la funzione per caricarlo in R è read.csv("percorso_file", header=TRUE, sep=",").
Usate il file per esercitarvi alla redazione di un report (scegliete un "tema" e poche variabili per analizzarlo; ad esempio relazione tra scelte di voto e sessismo).
-
-
-
Aperto: martedì, 28 aprile 2026, 18:00Chiuso: mercoledì, 20 maggio 2026, 23:59