La presentazione dovrebbe includere quanto segue:
una descrizione dell’obiettivo del progetto;
un’analisi esplorativa dei dati, inclusa una possibile fase di pulizia dei dati;
selezione, descrizione ed eventualmente confronto dei modelli di apprendimento statistico adottati più adatti;
commenti sui risultati.
Nota che:
Per alcuni file di dati, probabilmente troverete alcune analisi in rete eseguite da altri. Potete guardarle e trarre un aiuto o un’ispirazione, ma cercate di trovare una chiave originale per l’analisi e per la presentazione e per la discussione dei risultati.
Ogni presentazione deve durare 25 minuti. Tutti i membri del gruppo devono essere a conoscenza di tutte le parti del progetto e prendere parte alla presentazione.
Siete liberi di scegliere il tipo di file per organizzare la vostra presentazione, ad esempio solo le slides, oppure un report (con Rmarkdown o con altri strumenti a scelta, anche powerpoint se preferite).
Non esitate a contattarci per qualsiasi problema.
‘College’ dataset: scaricabile qui: https://www.statlearning.com/resources-first-edition
e disponibile sul pacchetto ISLR2
, 777 righe e 18 colonne.
Contiene statistiche per un grande numero di college americani dal 1995.
Costruire modelli di regressione e machine learning per la variabile
risposta Apps
, il numero di domande ricevute. Quali sono le
variabili influenti? Qual è il metodo migliore per prevedere il numero
di applicazioni ricevute?
GRUPPO B
‘Costo’ dataset: fornito dai docenti su moodle,
24938 righe, 16 colonne. Il dataset contiene dati relativi ai costi di
manutenzione, relativi ad un totale di 24938 contratti di tipo RCA.
Costruire modelli e algoritmi di regressione per la variabile risposta
Costo Tot Pratica
, usando come potenziali covariate: il
preventivo dei chilometri, l’anzianità della vettura, l ’alimentazione,
e la regione di avvenimento della riparazione. (Le altre covariate
possono essere tranquillamente scartate). Capire quali e quante di
queste variabili esplicative spiegano il fenomeno e fare analisi
comparative tra i vari algoritmi.
GRUPPO D
‘Bank marketing’ dataset: https://www.kaggle.com/code/pkdarabi/marketing-campaign-patterns?select=bank_customers_train.csv.,
39188 righe, 21 colonne. Per migliorare l’efficacia delle future
campagne di marketing per un istituto finanziario, è necessario
analizzare i modelli della precedente campagna di marketing. In questo
modo, possiamo identificare le migliori strategie da implementare per
ottenere un maggiore successo nelle campagne future. Usare la variabile
y
(risposta positiva/negativa del cliente alla campagna)
come variabile risposta e usare modelli di classificazione/machine
learning per prevedere l’esito e capire quali variabili spieghino meglio
la probabilità di rispondere positivamente alla campagna.
GRUPPO H
‘Sales’ dataset: scaricabile qui: https://www.kaggle.com/code/aishwarya2210/prediction-of-sales-using-xgboost?select=Train.csv.,
8524 righe, 11 colonne. Un supermercato ha diversi punti vendita o
negozi in tutto il mondo e vuole che noi prevediamo le vendite che
possono aspettarsi. Usare la variabile Item_Outlet_Sales
come variabile risposta e costruire modelli di regressione/machine
learning, comparandoli tra loro. Quali variabili spiegano di più e
meglio le quantità vendute? (Attenzione: su Kaggle ci sono due dataset,
uno di train e uno di test. Potete tranquillamente utilizzare solamente
il primo, quello di train, creando poi voi le partizioni di train e test
a partire da questo).
GRUPPO G
‘Flight’ dataset: scaricabile qui: https://www.kaggle.com/code/varunsaikanuri/flight-fare-prediction-10-ml-models.,
300153 righe, 11 colonne. Il prezzo di un biglietto aereo è influenzato
da diversi fattori, come la durata del volo, i giorni rimanenti alla
partenza, l’orario di arrivo e di partenza, ecc. Le compagnie aeree
possono diminuire i costi nel momento in cui hanno bisogno di costruire
il mercato e quando i biglietti sono meno accessibili. Costruire modelli
di regressione/machine learning per la variabile price
e
spiegare quali variabili influenzino di più il prezzo del biglietto.
GRUPPO C
‘Marketing Campaign’ dataset: scaricabile qui https://www.kaggle.com/datasets/rodsaldanha/arketing-campaign,
2240 righe, 25 colonne. Un modello di apprendimento statistico può dare
una spinta significativa all’efficienza di una campagna di marketing sia
aumentando l’adesione alla campagna che riducendo le spese. L’obiettivo
è prevedere chi risponderà a un’offerta per un prodotto o servizio.
L’obiettivo principale è quello di addestrare un modello predittivo che
permetta all’azienda di massimizzare il profitto della successiva
campagna di marketing. La variabile risposta è Response
,
uguale a 1 se si è accettata un’ offerta promozionale nella precedente
campagna, e 0 altrimenti. Vi sono 5 variabili che rguardano l’aver
accettato l’offerta in 5 diverse occasioni. Potrebbe essere opportuno
creare una singola variabile che assuma il valore 1 se il cliente ha
accettato l’oferta in almeno una delle campagne.
GRUPPO F
‘Travel ticket cancellation’ dataset:
scaricabile qui https://www.kaggle.com/datasets/pkdarabi/classification-of-travel-purpose,
101017 righe e 22 colonne. L’obiettivo è quello di sviluppare un modello
che preveda se gli utenti annulleranno i loro biglietti, dove la
variabile riposta è Cancel
, 0 se non si cancella e 1 se si
cancella. Ogni cancellazione comporta una multa per il sito di
registrazione dei biglietti da parte della compagnia aerea. Pertanto, è
fondamentale identificare i biglietti che hanno probabilità di essere
annullati, consentendo una gestione efficace del rischio di
cancellazione all’interno dell’azienda. Vi sono oltre 20 possibili
variabili che possono esser utilizzate per costuire l’algoritmo di
classificazione (alcune si noti che sono inutili come il numero
identificativo del biglietto).
GRUPPO A
‘Churn’ dataset: fornito dai docenti su moodle,
9969 righe, > 20 colonne. Il dataset contiene informazioni
sull’abbandono dei clienti di una data compagnia assicurativa. La
variabile risposta è churn
, variabile binaria che è uguale
a 1 se il cliente ha abbandonato la compagnia, e 0 se invece non l’ha
abbandonata. Costruire algoritmi di classificazione per la previsione
dell’abbandono comparandoli in base alle performance predittive studiate
in classe e studiare quali covariate influenzino di più e come la scelta
dei clienti.
GRUPPO E