---
title: "Manipulating and visualizing data - hmw"
author: "Matilde Trevisani"
date: "`r Sys.Date()`"
output:
rmdformats::downcute:
self_contained: true
default_style: "light"
downcute_theme: "default"
---
https://rmarkdown.rstudio.com/
```{r setup, include=FALSE}
## Global options
knitr::opts_chunk$set(cache = FALSE, include = F)
```
```{r include=T, message = F, warning = F, echo = F}
library(dplyr)
library(magrittr)
library(ggplot2)
library(skimr)
```
Il pacchetto `faraway` ha un dataset chiamato `worldcup`. Carica questo dataset.
```{r}
library(faraway)
```
Utilizza l' `help` per sapere di più sui dati e utilizza alcune funzioni base come `str`, `head`, etc. per conoscere un po' i dati.
- Qual è il tipo delle variabili incluse nel dataset?
- Ci sono valori mancanti?
```{r include = T, results='markup'}
```
1. Crea un grafico per analizzare la relazione tra la quantità di tempo che il giocatore ha giocato nella Coppa del Mondo e il numero di passaggi effettuati dal giocatore.
```{r include = T, fig.show='asis'}
```
2. Si valuti se e come migliorare il grafico qualora apparissero regioni addensate di punti.
(Suggerimento: si usi opportunamente `geom_hex` o `geom_rug`; per `geom_hex` bisogna installare la libreria `hexbin`).
```{r include=T}
```
3. Si ripeta il grafico al punto 1, ma mostrando anche (come terza variabile) la posizione del giocatore.
Si interpreti e commenti il grafico ottenuto.
```{r include = T}
```
4. Si crei un grafico di dispersione del numero di tiri (asse `x`) rispetto al numero di contrasti (asse `y`) **solo** per i giocatori di una delle quattro squadre che hanno raggiunto le semifinali (Spain, Netherlands, Germany, Uruguay). Usa il colore per mostrare la posizione del giocatore e la forma per mostrare la squadra del giocatore. (Suggerimento: utilizza del codice dplyr per pulire i dati prima di pianificare questa operazione.)
Per una sfida extra, prova anche ad aggiungere il nome di ciascun giocatore sopra ogni punto.
```{r include=T}
worldcup %>%
#tibble::rownames_to_column(var = "Name") %>%
mutate(Name = rownames(worldcup)) %>%
filter(Team %in% c("Spain", "Netherlands", "Germany", "Uruguay")) %>%
ggplot(aes(x = Shots, y = Tackles, color = Position, shape = Team)) +
geom_point() +
geom_text(aes(label = Name),
size = 2.5)
```
5. Si ripeta il grafico al punto 1., ma mostrando anche se il giocatore faceva parte o meno di una delle prime 4 squadre. (Suggerimento: utilizza un codice dplyr prima di realizzare il grafico.)
```{r include=T}
worldcup %>%
mutate(top_4 = Team %in% c("Spain", "Netherlands", "Germany", "Uruguay")) %>%
ggplot() +
geom_point(aes(x = Time, y = Passes,
color = top_4))
```