2018-03-31

Mostrar las primeras y últimas n filas de un data frame en R

Problema

Deseamos mostrar simultáneamente las primeras n y últimas n filas de una matriz o data frame. Es decir, combinar las funciones head y tail.

Solución

La función headTail del paquete psych nos permite visualizar simultáneamente las n primeras filas (head) y las últimas n filas (tail).

  1. Opciones por defecto
  2. Por defecto headTail muestra las 4 primeras y últimas filas del objeto separadas por puntos.

    library(psych)
    headTail(ToothGrowth)
    
         len supp dose
    1    4.2   VC  0.5
    2   11.5   VC  0.5
    3    7.3   VC  0.5
    4    5.8   VC  0.5
    ...  ...   ...
    57  26.4   OJ    2
    58  27.3   OJ    2
    59  29.4   OJ    2
    60    23   OJ    2
    
  3. Más opciones
  4. La función headTail nos permite controlar el número de filas de la parte superior e inferior, la separación entre ambas, las columnas a mostrar y redondear el número dígitos. Veamos algunos ejemplos:

    #Primeras y últimas dos filas sin separación
    headTail(ToothGrowth, top = 2, bottom = 2, ellipsis = FALSE)
    
        len supp dose
    1   4.2   VC  0.5
    2  11.5   VC  0.5
    59 29.4   OJ  2.0
    60 23.0   OJ  2.0
    
    #Primeras y últimas tres filas, las columnas 4 y 5, con separación y sin decimales.
    headTail(iris, top = 3, bottom = 3, digits = 0 , from = 4, to = 5)
    
       Petal.Width   Species
    1             0    setosa
    2             0    setosa
    3             0    setosa
    ...         ...      
    148           2 virginica
    149           2 virginica
    150           2 virginica
    

Entradas relacionadas

2018-03-29

Traducir celdas en hojas de cálculo de Google

Problema

Deseamos traducir rápidamente un rango de celdas en hojas de cálculo de Google.

Solución

  1. Utilizamos la función GOOGLETRANSLATE. Consta de 3 argumentos: texto a traducir, idioma de origen e idioma de destino. Solamente el primero es obligatorio.
  2. En nuestro ejemplo:

    =GOOGLETRANSLATE(A2,"en","es")
    
  3. Arrastramos hacia abajo el cuadro azul en la esquina inferior derecha.

Resultado

Notas

  1. Si queremos detectar automáticamente los idiomas podemos utilizar el argumento "auto" en lugar de los argumentos de idiomas. Esto es especialmene útil si nuestras celdas mezclan varios idiomas.
  2. =GOOGLETRANSLATE(A2,"auto", "es")
    
    o bien
    =GOOGLETRANSLATE(A3,DETECTLANGUAGE(A3), "es")
    
  3. Si estamos traduciéndo al inglés, no necesitamos indicar ni argumento de origen ni de destino, simplemente:

  4. =GOOGLETRANSLATE(A3, "auto")
    
    o tan solo:
    =GOOGLETRANSLATE(A3)
    

Entradas relacionadas

En una próxima entrada trataremos en detalle las transformaciones de formato ancho a largo y viceversa. Un tema ya tratado anteriormente, directa o indirectamente, en las siguientes entradas:

2018-03-26

Gráficos de 'Credit Card Default Data' en ggplot2

Problema

Queremos crear con ggplot2 los siguientes dos gráficos del libro 'An Introduction to Statistical Learning'. Nos servirá para practicar algunos conceptos de ggplot2.

Solución

  1. Gráfico 1: diagrama de dispersión.
  2. Al contrario que en el libro, representamos todos los puntos (10.000). Para evitar un gráfico sobrecargado de puntos —overplotting— añadimos transparencia a los mismos con el argumento alpha. Adicionalmente, cambiamos la forma de los puntos con el argumento shape (el 1 es un círculo y el 2 una cruz). Finalmente, en lugar de dejar un panel de fondo totalmente blanco, dejo líneas de cuadrícula grises (theme_bw) para identificar mejor la ubicación de los puntos.

    library(ISLR)
    library(ggplot2)
    
    ggplot(data = Default, aes(x = balance, y = income)) +
      geom_point(aes(color = default, shape = default),
                 alpha = .5,
                 size = 2) +
      scale_shape_manual(values = c(1, 3)) +
      scale_colour_manual(values = c("royalblue", "orangered")) +
      scale_x_continuous(breaks = seq(0, 2500, 500)) +
      theme_bw()
    
  3. Gráfico 2: diagramas de caja.
  4. Como queremos representar en un único panel dos gráficos, uno para balance y otro para income, necesitamos transformar el data frame de formato ancho a largo con la función melt del paquete reshape2. Posteriormente, usamos face_wrap para generar los dos gráficos e indicamos las escalas de los ejes free para que se adapten automáticamente para cada gráfico.

    library(reshape2)  
    ggplot(data = melt(Default), aes(x = default, y = value)) +
      stat_boxplot(geom = 'errorbar', width = 0.5) +
      geom_boxplot(aes(fill = default)) +
      facet_wrap(~ variable, scales = "free") +
      scale_fill_manual(values = c("Dodgerblue", "orangered"))
    
    • De formato ancho a largo.
    • Dentro de facet_wrap usamos variable pues es el nombre de la columna clave (key) que recoge el nombre de las dos columnas: balance e income.

      melt(Default)[c(1:5, 19996:20000), ]
      
      Using default, student as id variables
            default student variable      value
      1          No      No  balance   729.5265
      2          No     Yes  balance   817.1804
      3          No      No  balance  1073.5492
      4          No      No  balance   529.2506
      5          No      No  balance   785.6559
      19996      No      No   income 52992.3789
      19997      No      No   income 19660.7218
      19998      No      No   income 58636.1570
      19999      No      No   income 36669.1124
      20000      No     Yes   income 16862.9523
      

Entradas relacionadas

En una próxima entrada trataremos en detalle las transformaciones de formato ancho a largo y viceversa. Un tema ya tratado anteriormente, directa o indirectamente, en las siguientes entradas:

2018-03-19

Insertar fila de tolales en una tabla de Excel

Problema

En Excel, queremos resumir rápidamente una tabla añadiendo una fila total en la última fila, pudiendo elegir entre diferentes funciones para cada columna.

Solución

  1. Partimos de un rango de datos
  2. Hacemos clic en cualquier celda y presionamos Ctrl+T
  3. La tabla se habrá formateado automáticamente y mostrará un autofiltro.

  4. En Herramientas de tabla, Diseño seleccionamos la casilla de verificación de la Fila de totales.
  5. Una fila Total se habrá insertado en la última fila de la tabla.
  6. Para cada columna podemos elegir entre diferentes funciones para resumir los datos. Como se puede apreciar en la barra de fórmulas Excel utiliza la función subtotales, por defecto la suma: =SUBTOTALES(109,[Año 3])

Resultados

Entradas relacionadas

2018-03-15

Mapa de calor en forma de calendario en R

Problema

Queremos representar una serie temporal como un mapa de calor en forma de calendario.

Solución

Ejecutamos el código de Paul Bleicher para crear la función calendarHeat. Hacemos alguna edición menor para poner el título y los días de la semana en castellano.

# Creamos una serie temporal aleatoria para tres años.
library(dplyr)
set.seed(2015)
df <-
  data.frame(fechas = sample(seq(
    as.Date('2017-01-01'),
    as.Date('2019-12-31'),
    by = "day"
  ), 1000))
df <- df %>% mutate(sesiones = floor(runif(nrow(.), 1, 101)) )
# Creamos dos gráficos con dos paletas de colores diferentes.
calendarHeat(df$fechas, df$sesiones, varname = "Sesiones")
calendarHeat(df$fechas, df$sesiones, varname = "Sesiones", ncolors = 99, color = "r2b" )

Resultados

Entradas relacionadas

2018-03-13

Generar un mapa de calor por días y horas con ggplot2

Problema

Queremos crear un mapa de calor, con teselas coloreadas en función de la frecuencia en ggplot2.

Solución

library(dplyr)
library(lubridate)
library(ggplot2)

# Generamos fechas aleatorias
set.seed(2015)
df <-
  data.frame(fechas = sample(seq(
    as.POSIXct('2018/01/01', tz = "CET"),
    as.POSIXct('2018/12/31', tz = "CET"),
    by = "sec"
  ), 1000))

# Manipulamos el data frame 
# 1. Cambiamos el nombre de los días de la semana
# 2. Agrupamos por horas y días
df %>%
  mutate(Días = factor(
    weekdays(fechas),
    levels = rev(
      c(
        "Monday",
        "Tuesday",
        "Wednesday",
        "Thursday",
        "Friday",
        "Saturday",
        "Sunday"
      )
    ),
    labels = c(
      "Domingo",
      "Sábado",
      "Viernes",
      "Jueves",
      "Miércoles",
      "Martes",
      "Lunes"
    )
  )) %>%
  group_by(Horas = hour(fechas), Días) %>%
  summarise(Sesiones = n()) %>%
# Creamos el gráfico
  ggplot(aes(Horas, Días)) +
  geom_tile(aes(fill = Sesiones), colour = "white") +
  scale_fill_distiller(palette = "YlGnBu", direction = 1) +
  scale_x_continuous(breaks = 0:23) +
  theme_minimal() +
  theme(
    legend.position = "bottom",
    legend.key.width = unit(2, "cm"),
    panel.grid = element_blank()
  ) +
  coord_equal()

Resultado

Referencias

2018-03-11

Generar fechas aleatorias entre dos momentos en el tiempo con R

Problema

Deseamos generar un vector con fechas aleatorias entre dos momentos en el tiempo.

Solución

  • Opción 1: fechas
  • Con la función seq generamos una secuencia de fechas en incrementos de un día entre los dos momentos en el tiempo . Y posteriormente seleccioamos aleatoriamente 10.

    set.seed(1984)
    sample(seq(as.Date('2015-01-01'), as.Date('2017-01-01'), by = "day"), 10)
    
  • Opción 2: fechas, horas, minutos y segundos.
  • Si necesitamos, además de las fechas, generar horas, minutos y segundos aleatorios, usamos as.POSIXct, y cambiamos el incremento especificando segundos (by = "sec") en la secuencia.

    set.seed(1984)
    sample(seq(as.POSIXct('2015-01-01'), as.POSIXct('2017-01-01'), by = "sec"), 10)
    

Resultados

  • Opción 1
  • [1] "2016-04-27" "2015-11-16" "2015-09-30" "2015-08-30" "2016-06-20"
    [6] "2016-09-19" "2015-01-24" "2015-11-21" "2016-08-23" "2015-06-05"
    
  • Opción 2
  • [1] "2016-04-26 15:04:13 CEST" "2015-11-16 10:17:23 CET" 
     [3] "2015-09-30 22:50:41 CEST" "2015-08-30 23:17:49 CEST"
     [5] "2016-06-23 04:49:01 CEST" "2016-09-22 14:37:58 CEST"
     [7] "2015-01-24 17:04:13 CET"  "2015-11-24 07:13:42 CET" 
     [9] "2016-08-29 16:13:13 CEST" "2015-06-06 21:29:18 CEST"
    

    Referencias

    Nube de datos