Problema
Deseamos calcular estadísticas descriptivas a nuestros datos.
Solución
Vamos a ver algunas de las fórmulas que hemos visto de manera dispersa en otras entradas.
# Para una sola variable
summary(iris$Sepal.Length)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.300 5.100 5.800 5.843 6.400 7.900
# Para una tabla (data frame)
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Resumen con los 5 números de Tukey empleados en los diagramas de caja: mínimo, bigote inferior, mediana, bigote superior, máximo
# Para una variable solamente
fivenum(iris$Sepal.Width)
[1] 2.0 2.8 3.0 3.3 4.4
boxplot.stats(iris$Sepal.Width)
$stats
[1] 2.2 2.8 3.0 3.3 4.0
$n
[1] 150
$conf
[1] 2.935497 3.064503
$out
[1] 4.4 4.1 4.2 2.0
Podemos acceder a los elementos de la lista anterior, con el símbolo $ seguido del elemento de la lista:
$stats - vector con los 5 números de Tukey.
$n - número de observaciones.
$conf - intervalo de confianza para la media.
$out- los valores de los valores atípicos (outliers).
Con el paquete psych
install.packages("psych")
require("psych")
describe(iris)
vars n mean sd median trimmed mad
Sepal.Length 1 150 5.84 0.83 5.80 5.81 1.04
Sepal.Width 2 150 3.06 0.44 3.00 3.04 0.44
Petal.Length 3 150 3.76 1.77 4.35 3.76 1.85
Petal.Width 4 150 1.20 0.76 1.30 1.18 1.04
Species* 5 150 NaN NA NA NaN NA
min max range skew kurtosis se
Sepal.Length 4.3 7.9 3.6 0.31 -0.61 0.07
Sepal.Width 2.0 4.4 2.4 0.31 0.14 0.04
Petal.Length 1.0 6.9 5.9 -0.27 -1.42 0.14
Petal.Width 0.1 2.5 2.4 -0.10 -1.36 0.06
Species* Inf -Inf -Inf NA NA NA
describeBy(iris, group = iris$Species)
group: setosa
vars n mean sd median trimmed mad
Sepal.Length 1 50 5.01 0.35 5.0 5.00 0.30
Sepal.Width 2 50 3.43 0.38 3.4 3.42 0.37
Petal.Length 3 50 1.46 0.17 1.5 1.46 0.15
Petal.Width 4 50 0.25 0.11 0.2 0.24 0.00
Species* 5 50 NaN NA NA NaN NA
min max range skew kurtosis se
Sepal.Length 4.3 5.8 1.5 0.11 -0.45 0.05
Sepal.Width 2.3 4.4 2.1 0.04 0.60 0.05
Petal.Length 1.0 1.9 0.9 0.10 0.65 0.02
Petal.Width 0.1 0.6 0.5 1.18 1.26 0.01
Species* Inf -Inf -Inf NA NA NA
---------------------------------------
group: versicolor
vars n mean sd median trimmed mad
Sepal.Length 1 50 5.94 0.52 5.90 5.94 0.52
Sepal.Width 2 50 2.77 0.31 2.80 2.78 0.30
Petal.Length 3 50 4.26 0.47 4.35 4.29 0.52
Petal.Width 4 50 1.33 0.20 1.30 1.32 0.22
Species* 5 50 NaN NA NA NaN NA
min max range skew kurtosis se
Sepal.Length 4.9 7.0 2.1 0.10 -0.69 0.07
Sepal.Width 2.0 3.4 1.4 -0.34 -0.55 0.04
Petal.Length 3.0 5.1 2.1 -0.57 -0.19 0.07
Petal.Width 1.0 1.8 0.8 -0.03 -0.59 0.03
Species* Inf -Inf -Inf NA NA NA
---------------------------------------
group: virginica
vars n mean sd median trimmed mad
Sepal.Length 1 50 6.59 0.64 6.50 6.57 0.59
Sepal.Width 2 50 2.97 0.32 3.00 2.96 0.30
Petal.Length 3 50 5.55 0.55 5.55 5.51 0.67
Petal.Width 4 50 2.03 0.27 2.00 2.03 0.30
Species* 5 50 NaN NA NA NaN NA
min max range skew kurtosis se
Sepal.Length 4.9 7.9 3.0 0.11 -0.20 0.09
Sepal.Width 2.2 3.8 1.6 0.34 0.38 0.05
Petal.Length 4.5 6.9 2.4 0.52 -0.37 0.08
Petal.Width 1.4 2.5 1.1 -0.12 -0.75 0.04
Species* Inf -Inf -Inf NA NA NA
Referencias
No hay comentarios:
Publicar un comentario