--- title: "Manipulating and visualizing data - hmw" author: "Matilde Trevisani" date: "`r Sys.Date()`" output: rmdformats::downcute: self_contained: true default_style: "light" downcute_theme: "default" --- https://rmarkdown.rstudio.com/ ```{r setup, include=FALSE} ## Global options knitr::opts_chunk$set(cache = FALSE, include = F) ``` ```{r include=T, message = F, warning = F, echo = F} library(dplyr) library(magrittr) library(ggplot2) library(skimr) ``` Il pacchetto `faraway` ha un dataset chiamato `worldcup`. Carica questo dataset. ```{r} library(faraway) ``` Utilizza l' `help` per sapere di più sui dati e utilizza alcune funzioni base come `str`, `head`, etc. per conoscere un po' i dati. - Qual è il tipo delle variabili incluse nel dataset? - Ci sono valori mancanti? ```{r include = T, results='markup'} ``` 1. Crea un grafico per analizzare la relazione tra la quantità di tempo che il giocatore ha giocato nella Coppa del Mondo e il numero di passaggi effettuati dal giocatore. ```{r include = T, fig.show='asis'} ``` 2. Si valuti se e come migliorare il grafico qualora apparissero regioni addensate di punti. (Suggerimento: si usi opportunamente `geom_hex` o `geom_rug`; per `geom_hex` bisogna installare la libreria `hexbin`). ```{r include=T} ``` 3. Si ripeta il grafico al punto 1, ma mostrando anche (come terza variabile) la posizione del giocatore. Si interpreti e commenti il grafico ottenuto. ```{r include = T} ``` 4. Si crei un grafico di dispersione del numero di tiri (asse `x`) rispetto al numero di contrasti (asse `y`) **solo** per i giocatori di una delle quattro squadre che hanno raggiunto le semifinali (Spain, Netherlands, Germany, Uruguay). Usa il colore per mostrare la posizione del giocatore e la forma per mostrare la squadra del giocatore. (Suggerimento: utilizza del codice dplyr per pulire i dati prima di pianificare questa operazione.)
Per una sfida extra, prova anche ad aggiungere il nome di ciascun giocatore sopra ogni punto. ```{r include=T} worldcup %>% #tibble::rownames_to_column(var = "Name") %>% mutate(Name = rownames(worldcup)) %>% filter(Team %in% c("Spain", "Netherlands", "Germany", "Uruguay")) %>% ggplot(aes(x = Shots, y = Tackles, color = Position, shape = Team)) + geom_point() + geom_text(aes(label = Name), size = 2.5) ``` 5. Si ripeta il grafico al punto 1., ma mostrando anche se il giocatore faceva parte o meno di una delle prime 4 squadre. (Suggerimento: utilizza un codice dplyr prima di realizzare il grafico.) ```{r include=T} worldcup %>% mutate(top_4 = Team %in% c("Spain", "Netherlands", "Germany", "Uruguay")) %>% ggplot() + geom_point(aes(x = Time, y = Passes, color = top_4)) ```