2015-12-09

Cómo obtener (scrape) el presupuesto de una película IMDd con rvest

Title

Problema

Deseamos extraer con R el presupuesto de una película de la IMDb. Como ejemplo utilizaremos la película The Lego Movie.

Solución

  1. Instalamos y empleamos el SelectorGadget para elegir el css selector adecuado del elemento que deseamos extraer, en este caso el presupuesto de la película.
  2. Utilizamos el paquete rvest para extraer la información, indicando el enlace de la película deseada.
  3. library(rvest)    
    movie <- read_html("http://www.imdb.com/title/tt1490017/") 
    movie %>% 
      html_node(".txt-block:nth-child(11)") %>%
      html_text() %>% 
      gsub("\\D", "", .) %>% 
      as.numeric()
    
    # Resultado
    [1] 6e+07

    Con la función gsub eliminamos los elementos indeseados tras extraer el texto con html_text(). Posteriormente lo transformamos en número.

    [1] "\n     Budget:       $60,000,000       \n\n      estimated)\n     "
    

Referencias

Entradas relacionadas

No hay comentarios:

Publicar un comentario

Nube de datos