Nube de datos: gsub

Mostrando entradas con la etiqueta gsub. Mostrar todas las entradas

2020-03-16

Variaciones diarias de acciones o índices en R

Problema

Queremos crear un mapa de calor en forma de calendario con las variaciones diarias de acciones o índices en R.

Solución

Ejecutamos el código de Paul Bleicher para crear la función calendarHeat. Editamos el código fuente para modificar la paleta de colores si fuera necesario.
Extraemos los datos usando la función getSymbols.
Calculamos las variaciones diarias.
Creamos el gráfico de las series temporales.

Un par de ejemplos:

Dow Jones, emulando la paleta usada por Mike Bostock here. Los días del índice son verde cuando suben y rosas cuando bajan. Los varaciones están calculadas en porcentaje.

library(tidyverse)
library(tidyquant)
# Dow Jones
symb <- getSymbols(Symbols = "^DJI", QQQ = 'yahoo', auto.assign = FALSE)
n <- gsub("^.*\\.", "", names(symb))
symb <- as.data.frame(symb)
colnames(symb) <- n
symb$date <- rownames(symb)
rownames(symb) <- NULL
df <- symb %>%
  mutate(date = as.Date(date),
         pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
  filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31') # o filter(!is.na(pct_vol), date >= '2011-01-01', date <= '2015-12-31')
calendarHeat(
  df$date,
  df$pct_vol,
  varname = "Dow Jones Industrial Average",
  ncolors = 50,
  color = "g2p"
)

S&P500, usando otra paleta de azul a rojo. Los varaciones están calculadas en porcentaje.

symb <- getSymbols(Symbols = "^GSPC", QQQ = 'yahoo', auto.assign = FALSE)
n <- gsub("^.*\\.", "", names(symb))
symb <- as.data.frame(symb)
colnames(symb) <- n
symb$date <- rownames(symb)
rownames(symb) <- NULL
df <- symb %>%
  mutate(date = as.Date(date),
         pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
  filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31')
calendarHeat(
  df$date,
  df$pct_vol,
  varname = "S&P 500",
  ncolors = 50,
  color = "b2r"
)

Resultados

En los siguentes gráficos, las últimas variaciones diarias desencadenadas por la pandemia del coronavirus (COVID-19) hacen que el resto de días aparezcan muy pálidos en comparación.

Entradas relacionadas

Daily changes of stocks in R

Problem

We want to create a calendar heatmap with the daily changes of stocks or indexes in R.

Solution

We run the calendarHeat function created by Paul Bleicher to display calendar heatmaps. Editing the palettes in source code if needed.
We extract the stock or index data using getSymbols.
We calculate the daily changes.
We plot the time series.

Let's see a couple of examples:

Dow Jones, emulating the palette used by Mike Bostock here. Days the index went up are green, and down are pink. The changes are in percentages.

library(tidyverse)
library(tidyquant)
# Dow Jones
symb <- getSymbols(Symbols = "^DJI", QQQ = 'yahoo', auto.assign = FALSE)
n <- gsub("^.*\\.", "", names(symb))
symb <- as.data.frame(symb)
colnames(symb) <- n
symb$date <- rownames(symb)
rownames(symb) <- NULL
df <- symb %>%
  mutate(date = as.Date(date),
         pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
  filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31') # or filter(!is.na(pct_vol), date >= '2011-01-01', date <= '2015-12-31')
calendarHeat(
  df$date,
  df$pct_vol,
  varname = "Dow Jones Industrial Average",
  ncolors = 50,
  color = "g2p"
)

S&P500, using another palette from blue to red. The changes are in percentages.

symb <- getSymbols(Symbols = "^GSPC", QQQ = 'yahoo', auto.assign = FALSE)
n <- gsub("^.*\\.", "", names(symb))
symb <- as.data.frame(symb)
colnames(symb) <- n
symb$date <- rownames(symb)
rownames(symb) <- NULL
df <- symb %>%
  mutate(date = as.Date(date),
         pct_vol = round(100 * (Adjusted / lag(Adjusted) - 1), 2)) %>%
  filter(!is.na(pct_vol), date >= '2016-01-01', date <= '2020-12-31')
calendarHeat(
  df$date,
  df$pct_vol,
  varname = "S&P 500",
  ncolors = 50,
  color = "b2r"
)

Results

In the next two plots, because of the large daily variations in the last days due to the coronavirus pandemic (COVID-19), the rest of the days are very pale in comparison.

2017-06-04

Eliminar separador de miles de una columna en R

Problema

Queremos eliminar el separador de miles del siguiente data frame

    a          b
1   1 16,244,600
2   2  8,227,103
3   3  5,959,718
4   4  3,428,131
5   5  2,612,878
6   6  2,471,784
7   7  2,252,664
8   8  2,014,775
9   9  2,014,670
10 10  1,841,710

Datos originales

structure(list(a = 1:10, b = structure(c(2L, 10L, 9L, 8L, 7L, 
6L, 5L, 4L, 3L, 1L), .Label = c("1,841,710", "16,244,600", "2,014,670", 
"2,014,775", "2,252,664", "2,471,784", "2,612,878", "3,428,131", 
"5,959,718", "8,227,103"), class = "factor")), .Names = c("a", 
"b"), class = "data.frame", row.names = c(NA, -10L))

Solución

Empleamos la función gsub para encontrar y reemplazar la coma, y as.numeric para converir la columna en número.

data$b <- as.numeric(gsub(",", "", data$b))
data

    a        b
1   1 16244600
2   2  8227103
3   3  5959718
4   4  3428131
5   5  2612878
6   6  2471784
7   7  2252664
8   8  2014775
9   9  2014670
10 10  1841710

Entradas relacionadas

Referencias

stackoveflow

2017-02-06

Dividir y guardar como ficheros subconjuntos de un data frame con R

Problema

Queremos guardar cada subconjunto de un data frame como un fichero de texto en el directorio de trabajo. En este ejemplo, utilizamos el conjunto de datos iris y crearemos un fichero CSV por cada una de las especies de la columna Species: setosa, versicolor, y virginica.

head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

Solución

Utilizamos el siguiente bucle para filtrar el data frame y creas los ficheros.

for (name in levels(iris$Species)) {
  # Filtramos el data frame y seleccionamos las columnas
  tmp <- subset(iris, select = -Species, Species == name)
  # Crea un nuevo fichero por cada especie
  fn <- paste(gsub(" ", "", name), ".csv", sep = "")
  # Por cada especie, guarda un CSV en el directorio de trabajo
  write.csv(tmp, fn, row.names = FALSE)
}

Resultado

En el directorio de trabajo, se habrán guardo los ficheros correspondientes.

2016-10-17

Substituir un elemento de una cadena de texto en R

Title

Problema

Dada una cadena de texto queremos substituir el elemento 'T' por 'U'.

v <- c("GATGGAACTTGACTACGTAAATT")
# Si importamos un fichero que contiene la cadena de texto
v <- readLines("rosalind_rna.txt")

Solución

Paquete base

gsub("T", "U", v)

[1] "GAUGGAACUUGACUACGUAAAUU"

Referencias

2016-02-26

Project Euler - Problema 8 en R

Title Continuamos con los problemas planteados en Project Euler.

Problema

The four adjacent digits in the 1000-digit number that have the greatest product are 9 × 9 × 8 × 9 = 5832.

73167176531330624919225119674426574742355349194934
96983520312774506326239578318016984801869478851843
85861560789112949495459501737958331952853208805511
12540698747158523863050715693290963295227443043557
66896648950445244523161731856403098711121722383113
62229893423380308135336276614282806444486645238749
30358907296290491560440772390713810515859307960866
70172427121883998797908792274921901699720888093776
65727333001053367881220235421809751254540594752243
52584907711670556013604839586446706324415722155397
53697817977846174064955149290862569321978468622482
83972241375657056057490261407972968652414535100474
82166370484403199890008895243450658541227588666881
16427171479924442928230863465674813919123162824586
17866458359124566529476545682848912883142607690042
24219022671055626321111109370544217506941658960408
07198403850962455444362981230987879927244284909188
84580156166097919133875499200524063689912560717606
05886116467109405077541002256983155200055935729725
71636269561882670428252483600823257530420752963450

Find the thirteen adjacent digits in the 1000-digit number that have the greatest product. What is the value of this product?

Los 4 dígitos adyacentes en este número de 1.000 dígitos que tiene el producto más alto son: 9 × 9 × 8 × 9 = 5832.
Encuentra los 13 dígitos adyacentes en este número de 1.000 dígitos que tienen el producto más alto. ¿Cuál es el valor de ese producto?

Solución

Añadimos la cadena de texto mediante la función paste.

x <- paste("73167176531330624919225119674426574742355349194934
            96983520312774506326239578318016984801869478851843
            85861560789112949495459501737958331952853208805511
            12540698747158523863050715693290963295227443043557
            66896648950445244523161731856403098711121722383113
            62229893423380308135336276614282806444486645238749
            30358907296290491560440772390713810515859307960866
            70172427121883998797908792274921901699720888093776
            65727333001053367881220235421809751254540594752243
            52584907711670556013604839586446706324415722155397
            53697817977846174064955149290862569321978468622482
            83972241375657056057490261407972968652414535100474
            82166370484403199890008895243450658541227588666881
            16427171479924442928230863465674813919123162824586
            17866458359124566529476545682848912883142607690042
            24219022671055626321111109370544217506941658960408
            07198403850962455444362981230987879927244284909188
            84580156166097919133875499200524063689912560717606
            05886116467109405077541002256983155200055935729725
            71636269561882670428252483600823257530420752963450")
x <- gsub("\n", "", x)
x <- as.numeric(strsplit(x, "")[[1]])
product <- 0
for (i in 1:1000) {
  product <- c(product, prod(x[i:(i + 12)]))
}
max(product, na.rm = TRUE)

[1] 23514624000

Notas

Primero eliminamos de la cadena de texto los saltos de línea. Después convertimos la cadena de texto en un vector de 1.000 elementos. Finalmente creamos un bucle que guarda en el vector product los productos de los sucesivos 13 números adyacentes. Extraemos el máximo elemento del mismo.

Referencias

2016-01-21

Dividir un vector en intervalos separados por ceros

Title

Problema

Tenemos el siguiente vector.

111 00 111 -1-1-1 000 11

Y deseamos dividirlo en intervalos separados por los ceros.

111 
111 -1-1-1 
11

Solución

x <- c("111 00 111 -1-1-1 000 11")
x <- gsub(" ", "", x , fixed = TRUE)
x <- unlist(strsplit(x, split="0+"))
x

[1] "111"       "111-1-1-1" "11"

O bien.

split(x , 1:3)

$`1`
[1] "111"

$`2`
[1] "111-1-1-1"

$`3`
[1] "11"

Referencias

stackoverflow

2020-03-16

Problema

Solución

Resultados

Entradas relacionadas

Problem

Solution

Results

Related posts

2017-06-04

Problema

Solución

Entradas relacionadas

Referencias

2017-02-06

Problema

Solución

Resultado

2016-10-17

Problema

Solución

Referencias

2016-02-26

Problema

Solución

Notas

Referencias

2016-01-21

Problema

Solución

Referencias