usc=read.table("Esercizio2Dati.txt",header=T)

View(usc)

#Si stimi un modello di regressione in R è la variabile di risposta
#e vi sia tra la variabili indipendenti obbligatoriamente la variabile S
#(dummy per indicare stato del Sud o Nord) e almeno altre 3 variabili quantitative.


#possibile modello
usc.fit1 = lm(R ~ S+Ex0+X+Age+W+Ed+U2, data=usc)

############################################################################################
# a) che distribuzione ha la variabile R? (usare un istogramma)

hist(usc$R)

#lievemente asimmetrica a destra (pochi stati con alto tasso di criminalita)

############################################################################################
# b) come sono in mediana i residui del modello?

summary(usc.fit1)

#Residuals:
#    Min      1Q  Median      3Q     Max 
#-38.961 -10.358  -1.545  10.068  53.598 

# La mediana  dei resiudi dovrebbe essere  molto vicina allo 0. In questo caso non ha un valore molto distante da esso (anche rispetto agli altri valori della distribuzione dei residui).

############################################################################################
# c) Commentare la bontà di adattamento del modello stimato

# Adjusted R-squared:  0.7038 (il modello spiega circa il 70% della variabilita di R quindi mostra un buon adattamento)

############################################################################################
# d) Commentare il risultato del testo di nullità congiunta dei coefficienti

#  F-statistic: 16.61 on 7 and 39 DF,  p-value: 6.283e-10

# il test  ha un p-value molto inferiore a 0,05 pertanto rifiutiamo l'ipotesi di nullità congiunta dei coeff
# Il modello proposto spiega la variabile Y meglio di quello baseline (con la sola intercetta)

############################################################################################
# e) commentare la significatività dei singoli coefficienti

# Tutti significativamente diversi da 0 eccetto S.
# W e U2 sono al limite e va bene non considerarli significativi.
# Le variabili da commentare sono Ex0, X, Age, Ed

############################################################################################
# f) commentare i risultati del modello interpretando i valori dei coefficienti significativi 

# il coefficiente di Ex0 è 1.06104, ossia per ogni dollaro (pro-capite) aggiuntivo il tasso di criminalità aumenta di 1.2331 punti

# il coefficiente di X (numero di famiglie su 1000 che guadagnano meno di metà del reddito
#mediano (dello stato)) è 0.6349 ossia per un aumento unitario di tale indicatore R aumenta di 0.6349

#ecc. ecc. in generale sono tutte positivamente legate al tasso di criminalita (piu crescono piu R aumenta)