2017-08-31

Eliminar los niveles no usados de un factor en R

Problema

Cuando filtramos un data frame que contiene un factor, y creamos por ejemplo una tabla de contingencia, R nos muestra también aquellos niveles del factor no usados.

df <- data.frame(name = c("a", "a", "a", "b", "b", "c", "c", "c", "c"), x = 1:9)
library(dplyr)
aa <-  df %>%
  group_by(name) %>%
  filter(n() < 4) %>% 
  droplevels()
table(aa$name)
En este ejemplo muestra c, cuando queremos que muestre solamente a y b.

# Resultado
a b c 
3 2 0
# Resultado deseado
a b 
3 2

Solución

Usamos la función droplevels o factor.

table(droplevels(aa$name))
table(factor(aa$name))
O como estamos empleando el paquete dplyr.

aa <-  df %>%
  group_by(name) %>%
  filter(n() < 4) %>% 
  droplevels()
table(aa$name)

# Mejor aún:
df %>%
  group_by(name) %>%
  filter(n() < 4) %>% 
  droplevels() %>% 
  {table(.$name)}

Entradas relacionadas

Referencias

2017-08-16

Cómo comparar varias distribuciones de frecuencias con ggplot2

Problema

Como vimos anteriormente con ggplot2 podemos crear un histograma fácilmente.

library(ggplot2)
ggplot(diamonds, aes(price)) +
  geom_histogram(binwidth = 500)
Pero si queremos comparar por calidad de tallado (quality of the cut), podríamos:
  • Filtrar por tipo de tallado

  • library(dplyr)
    ggplot(filter(diamonds, cut == "Ideal"), aes(price)) +
      geom_histogram(binwidth = 500)
    

  • Apilar por tipo de tallado

  • ggplot(diamonds, aes(price, fill = cut)) +
      geom_histogram(binwidth = 500)
    
  • Sin apilar aplicando transparencia
  • 
    ggplot(diamonds, aes(price, fill = cut)) +
    +     geom_histogram(binwidth = 500, position = "identity", alpha = 0.2)
    

Solución

Una alternativa más clara es utilizar la función geom_freqpoly que muestra líneas en lugar de barras para representar las frecuencias. Cuando se solapan es más sencillo interpretar líneas que barras.

ggplot(diamonds, aes(price, colour = cut)) +
  geom_freqpoly(binwidth = 500)
Si deseamos representar solamente un tipo de tallado:

ggplot(filter(diamonds, cut == "Ideal"), aes(price, colour = cut)) + geom_freqpoly(binwidth = 500)

Referencias

2017-08-14

Reemplazar múltiples palabras simultáneamente con Notepad++

Problema

Queremos reemplazar múltiples palabras simultáneamente con Notepad++ dentro de la función buscar y reemplazar. En este ejemplo deseamos reemplazar las siguientes 4 cadenas de texto a la izquierda de la flecha por las de la derecha.

Beaker -> Felix
Pants -> Ace
Quijote -> Quesada
3 -> 5551
Beaker
Quijote
Pants
Smarty
Beaker
Pants
Quijote
Smarty
3

Solución

En Find what: introducimos cada cadena de texto entre paréntesis y separada por |:

(Beaker)|(Smarty)|(Quijote)
En Replace with introducimos cada cadena de texto entre paréntesis, precedida de ? y del número del orden de la sustitución(entre corchetes en el caso de que reemplacemos un número):

(?1Felix)(?2Ace)(?3Quesada)(?{4}5551)
Nos aseguramos de que está marcada la opción Regular expression. Situamos el cursor al inicio del documento y presionamos Replace All.

Resultado

Felix
Quesada
Pants
Ace
Felix
Pants
Quesada
Ace
5551

Entradas relacionadas

2017-08-03

Añadir un cuadro de texto a un gráfico en R

Problema

Queremos añadir un cuadro de texto a un gráfico en R. A continuación, podemos ver una primera solución, pero el código es demasiado verboso y alambicado.

# Un gráfico
plot(x = runif(1000), y = runif(1000), type = "p", pch = 16, col = "#40404050")

## Parámetros para el texto
myText <- "some Text"
posCoordsVec <- c(0.5, 0.5)
cex <- 2

# Rectángulo
textHeight <- graphics::strheight(myText, cex = cex)
textWidth <- graphics::strwidth(myText, cex = cex)
pad <- textHeight*0.3
rect(xleft = posCoordsVec[1] - textWidth/2 - pad, 
        ybottom = posCoordsVec[2] - textHeight/2 - pad, 
        xright = posCoordsVec[1] + textWidth/2 + pad, 
        ytop = posCoordsVec[2] + textHeight/2 + pad,
        col = "lightblue", border = NA)

# Ubicación del texto
text(posCoordsVec[1], posCoordsVec[2], myText, cex = cex)

Solución

  • Base graphics
  • Empleamos la función legend, con el mismo color en los bordes y relleno que en la solución inicial, y ajustamos el texto en el interior con el argumento adj.

    plot(x = runif(1000), y = runif(1000), type = "p", pch = 16, col = "#40404050")
    legend(0.4, 0.5, "Some text", box.col = "lightblue", bg = "lightblue", adj = 0.2)
    
  • ggpplot2
  • Con ggplot2 usamos la función geom_label. A diferencia de legend en base graphcis, el texto se centra automáticamente dentro del cuadro, con label.size = NA eliminamos los bordes

    library(ggplot2)
    df <- data.frame(x = runif(1000), y = runif(1000))
    ggplot(data = df, aes(x = x , y = y))+ 
      geom_point(alpha = 0.2)+
      geom_label(aes(x = 0.5, y = 0.5, label = "Some text"), 
                 fill = "lightblue", label.size = NA, size = 5)
    

Referencias

Nube de datos