Mostrando entradas con la etiqueta gsub. Mostrar todas las entradas
Mostrando entradas con la etiqueta gsub. Mostrar todas las entradas

2020-03-16

Variaciones diarias de acciones o índices en R


Problema

Queremos crear un mapa de calor en forma de calendario con las variaciones diarias de acciones o índices en R.

Solución

  1. Ejecutamos el código de Paul Bleicher para crear la función calendarHeat. Editamos el código fuente para modificar la paleta de colores si fuera necesario.
  2. Extraemos los datos usando la función getSymbols.
  3. Calculamos las variaciones diarias.
  4. Creamos el gráfico de las series temporales.
Un par de ejemplos:

  1. Dow Jones, emulando la paleta usada por Mike Bostock here. Los días del índice son verde cuando suben y rosas cuando bajan. Los varaciones están calculadas en porcentaje.
  2. library(tidyverse)
    library(tidyquant)
    # Dow Jones
    symb <- getSymbols(Symbols = "^DJI", QQQ = 'yahoo', auto.assign = FALSE)
    n <- gsub("^.*\\.", "", names(symb))
    symb <- as.data.frame(symb)
    colnames(symb) <- n
    symb$date <- rownames(symb)
    rownames(symb) <- NULL
    df <- symb %>%
      mutate(date = as.Date(date),
             pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
      filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31') # o filter(!is.na(pct_vol), date >= '2011-01-01', date <= '2015-12-31')
    calendarHeat(
      df$date,
      df$pct_vol,
      varname = "Dow Jones Industrial Average",
      ncolors = 50,
      color = "g2p"
    )
    
  3. S&P500, usando otra paleta de azul a rojo. Los varaciones están calculadas en porcentaje.
  4. symb <- getSymbols(Symbols = "^GSPC", QQQ = 'yahoo', auto.assign = FALSE)
    n <- gsub("^.*\\.", "", names(symb))
    symb <- as.data.frame(symb)
    colnames(symb) <- n
    symb$date <- rownames(symb)
    rownames(symb) <- NULL
    df <- symb %>%
      mutate(date = as.Date(date),
             pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
      filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31')
    calendarHeat(
      df$date,
      df$pct_vol,
      varname = "S&P 500",
      ncolors = 50,
      color = "b2r"
    )
    

Resultados

En los siguentes gráficos, las últimas variaciones diarias desencadenadas por la pandemia del coronavirus (COVID-19) hacen que el resto de días aparezcan muy pálidos en comparación.

Entradas relacionadas

Daily changes of stocks in R


Problem

We want to create a calendar heatmap with the daily changes of stocks or indexes in R.

Solution

  1. We run the calendarHeat function created by Paul Bleicher to display calendar heatmaps. Editing the palettes in source code if needed.
  2. We extract the stock or index data using getSymbols.
  3. We calculate the daily changes.
  4. We plot the time series.
Let's see a couple of examples:

  1. Dow Jones, emulating the palette used by Mike Bostock here. Days the index went up are green, and down are pink. The changes are in percentages.
  2. library(tidyverse)
    library(tidyquant)
    # Dow Jones
    symb <- getSymbols(Symbols = "^DJI", QQQ = 'yahoo', auto.assign = FALSE)
    n <- gsub("^.*\\.", "", names(symb))
    symb <- as.data.frame(symb)
    colnames(symb) <- n
    symb$date <- rownames(symb)
    rownames(symb) <- NULL
    df <- symb %>%
      mutate(date = as.Date(date),
             pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
      filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31') # or filter(!is.na(pct_vol), date >= '2011-01-01', date <= '2015-12-31')
    calendarHeat(
      df$date,
      df$pct_vol,
      varname = "Dow Jones Industrial Average",
      ncolors = 50,
      color = "g2p"
    )
    
  3. S&P500, using another palette from blue to red. The changes are in percentages.
  4. symb <- getSymbols(Symbols = "^GSPC", QQQ = 'yahoo', auto.assign = FALSE)
    n <- gsub("^.*\\.", "", names(symb))
    symb <- as.data.frame(symb)
    colnames(symb) <- n
    symb$date <- rownames(symb)
    rownames(symb) <- NULL
    df <- symb %>%
      mutate(date = as.Date(date),
             pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
      filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31')
    calendarHeat(
      df$date,
      df$pct_vol,
      varname = "S&P 500",
      ncolors = 50,
      color = "b2r"
    )
    

Results

In the next two plots, because of the large daily variations in the last days due to the coronavirus pandemic (COVID-19), the rest of the days are very pale in comparison.

Related posts

2017-06-04

Eliminar separador de miles de una columna en R

Problema

Queremos eliminar el separador de miles del siguiente data frame

    a          b
1   1 16,244,600
2   2  8,227,103
3   3  5,959,718
4   4  3,428,131
5   5  2,612,878
6   6  2,471,784
7   7  2,252,664
8   8  2,014,775
9   9  2,014,670
10 10  1,841,710

  • Datos originales
  • structure(list(a = 1:10, b = structure(c(2L, 10L, 9L, 8L, 7L, 
    6L, 5L, 4L, 3L, 1L), .Label = c("1,841,710", "16,244,600", "2,014,670", 
    "2,014,775", "2,252,664", "2,471,784", "2,612,878", "3,428,131", 
    "5,959,718", "8,227,103"), class = "factor")), .Names = c("a", 
    "b"), class = "data.frame", row.names = c(NA, -10L))
    

    Solución

    Empleamos la función gsub para encontrar y reemplazar la coma, y as.numeric para converir la columna en número.

    data$b <- as.numeric(gsub(",", "", data$b))
    data
    
        a        b
    1   1 16244600
    2   2  8227103
    3   3  5959718
    4   4  3428131
    5   5  2612878
    6   6  2471784
    7   7  2252664
    8   8  2014775
    9   9  2014670
    10 10  1841710
    

    Entradas relacionadas

    Referencias

    2017-02-06

    Dividir y guardar como ficheros subconjuntos de un data frame con R


    Problema

    Queremos guardar cada subconjunto de un data frame como un fichero de texto en el directorio de trabajo. En este ejemplo, utilizamos el conjunto de datos iris y crearemos un fichero CSV por cada una de las especies de la columna Species: setosa, versicolor, y virginica.

    head(iris)
    
      Sepal.Length Sepal.Width Petal.Length Petal.Width Species
    1          5.1         3.5          1.4         0.2  setosa
    2          4.9         3.0          1.4         0.2  setosa
    3          4.7         3.2          1.3         0.2  setosa
    4          4.6         3.1          1.5         0.2  setosa
    5          5.0         3.6          1.4         0.2  setosa
    6          5.4         3.9          1.7         0.4  setosa
    
    

    Solución

    Utilizamos el siguiente bucle para filtrar el data frame y creas los ficheros.

    for (name in levels(iris$Species)) {
      # Filtramos el data frame y seleccionamos las columnas
      tmp <- subset(iris, select = -Species, Species == name)
      # Crea un nuevo fichero por cada especie
      fn <- paste(gsub(" ", "", name), ".csv", sep = "")
      # Por cada especie, guarda un CSV en el directorio de trabajo
      write.csv(tmp, fn, row.names = FALSE)
    } 

    Resultado

    En el directorio de trabajo, se habrán guardo los ficheros correspondientes.

    2016-10-17

    Substituir un elemento de una cadena de texto en R

    Title

    Problema

    Dada una cadena de texto queremos substituir el elemento 'T' por 'U'.

    v <- c("GATGGAACTTGACTACGTAAATT")
    # Si importamos un fichero que contiene la cadena de texto
    v <- readLines("rosalind_rna.txt")
    

    Solución

    Paquete base

    gsub("T", "U", v)
    
    [1] "GAUGGAACUUGACUACGUAAAUU"
    

    Referencias

    2016-02-26

    Project Euler - Problema 8 en R

    Title Continuamos con los problemas planteados en Project Euler.

    Problema

    The four adjacent digits in the 1000-digit number that have the greatest product are 9 × 9 × 8 × 9 = 5832.

    73167176531330624919225119674426574742355349194934
    96983520312774506326239578318016984801869478851843
    85861560789112949495459501737958331952853208805511
    12540698747158523863050715693290963295227443043557
    66896648950445244523161731856403098711121722383113
    62229893423380308135336276614282806444486645238749
    30358907296290491560440772390713810515859307960866
    70172427121883998797908792274921901699720888093776
    65727333001053367881220235421809751254540594752243
    52584907711670556013604839586446706324415722155397
    53697817977846174064955149290862569321978468622482
    83972241375657056057490261407972968652414535100474
    82166370484403199890008895243450658541227588666881
    16427171479924442928230863465674813919123162824586
    17866458359124566529476545682848912883142607690042
    24219022671055626321111109370544217506941658960408
    07198403850962455444362981230987879927244284909188
    84580156166097919133875499200524063689912560717606
    05886116467109405077541002256983155200055935729725
    71636269561882670428252483600823257530420752963450
    
    Find the thirteen adjacent digits in the 1000-digit number that have the greatest product. What is the value of this product?

    Los 4 dígitos adyacentes en este número de 1.000 dígitos que tiene el producto más alto son: 9 × 9 × 8 × 9 = 5832.
    Encuentra los 13 dígitos adyacentes en este número de 1.000 dígitos que tienen el producto más alto. ¿Cuál es el valor de ese producto?

    Solución

    Añadimos la cadena de texto mediante la función paste.

    x <- paste("73167176531330624919225119674426574742355349194934
                96983520312774506326239578318016984801869478851843
                85861560789112949495459501737958331952853208805511
                12540698747158523863050715693290963295227443043557
                66896648950445244523161731856403098711121722383113
                62229893423380308135336276614282806444486645238749
                30358907296290491560440772390713810515859307960866
                70172427121883998797908792274921901699720888093776
                65727333001053367881220235421809751254540594752243
                52584907711670556013604839586446706324415722155397
                53697817977846174064955149290862569321978468622482
                83972241375657056057490261407972968652414535100474
                82166370484403199890008895243450658541227588666881
                16427171479924442928230863465674813919123162824586
                17866458359124566529476545682848912883142607690042
                24219022671055626321111109370544217506941658960408
                07198403850962455444362981230987879927244284909188
                84580156166097919133875499200524063689912560717606
                05886116467109405077541002256983155200055935729725
                71636269561882670428252483600823257530420752963450")
    x <- gsub("\n", "", x)
    x <- as.numeric(strsplit(x, "")[[1]])
    product <- 0
    for (i in 1:1000) {
      product <- c(product, prod(x[i:(i + 12)]))
    }
    max(product, na.rm = TRUE) 
    
    [1] 23514624000
    

    Notas

    Primero eliminamos de la cadena de texto los saltos de línea. Después convertimos la cadena de texto en un vector de 1.000 elementos. Finalmente creamos un bucle que guarda en el vector product los productos de los sucesivos 13 números adyacentes. Extraemos el máximo elemento del mismo.

    Referencias

    2016-01-21

    Dividir un vector en intervalos separados por ceros

    Title

    Problema

    Tenemos el siguiente vector.

    111 00 111 -1-1-1 000 11
    
    Y deseamos dividirlo en intervalos separados por los ceros.

    111 
    111 -1-1-1 
    11
    

    Solución

    x <- c("111 00 111 -1-1-1 000 11")
    x <- gsub(" ", "", x , fixed = TRUE)
    x <- unlist(strsplit(x, split="0+"))
    x
    
    [1] "111"       "111-1-1-1" "11"  
    
    O bien.

    split(x , 1:3)
    $`1`
    [1] "111"
    
    $`2`
    [1] "111-1-1-1"
    
    $`3`
    [1] "11"
    

    Referencias

    Nube de datos