2014-10-27

Gráfico Q-Q en R

Title El gráfico Q-Q ayuda a comparar gráficamente dos distribuciones. La Q viene de quantile en inglés, cuantil en español, pues comparamos los cuantiles de dos distribuciones. En esta entrada, compararemos nuestros datos con los valores teóricos de una distribución normal estándar. Si la distribución de nuestros datos es normal, el gráfico será aproximadamente una línea recta.

Funciones en R

La función qqnorm genera un gráfico Q-Q que compara los cuantiles de nuestros datos (sample quantiles) con los cuantiles teóricos (theoretical quantiles) de la distribución normal estándar, N(0, 1).

La función qqline superpone una línea que nos ayuda a evaluar la relación lineal de las dos distribuciones. Esta línea, que por defecto cruza los puntos del primer (0,25) y el tercer cuartil (0,75), es una aproximación robusta de los valores esperados de nuestros datos si siguieran una distribución normal estándar. Si los datos se alejan de esta línea, especialmente cerca del centro, nos sugeriría que nuestros datos no se distribuyen normalmente.

Muestra aleatoria normal

set.seed(2001)
serie <- rnorm(100)
qqnorm(serie)
qqline(serie)
En el Q-Q gráfico anterior, los datos aleatorios generados siguiendo una distribución normal estándar (rnorm) están en el eje vertical y los cuantiles teóricos de la distribución normal en el eje horizontal. La linealidad de los puntos sugiere que los datos se distribuyen normalmente.

Veamos dos ejemplos más con datos incluidos dentro del paquete datasets, cargado por defecto en R.

Rivers

qqnorm(rivers) 
qqline(rivers)
En el gráfico anterior se observa como los puntos se alejan de la recta, especialmente a la derecha del gráfico. La distribución presenta una asimetría positiva, la cola a la derecha de la media es más larga que la izquierda.

Trees volume

qqnorm(trees$Volume)
qqline(trees$Volume)
.

En el gráfico anterior también se observa como los puntos se alejan de la recta, especialmente a la derecha del gráfico. La distribución presenta una asimetría positiva, la cola a la derecha de la media es más larga que la izquierda. Y también se observa un segundo pico pero más pequeño que el principal.

Referencias

No hay comentarios:

Publicar un comentario

Nube de datos