Problema
Deseamos extraer con R el presupuesto de una película de la IMDb. Como ejemplo utilizaremos la película The Lego Movie.
Solución
- Instalamos y empleamos el SelectorGadget para elegir el css selector adecuado del elemento que deseamos extraer, en este caso el presupuesto de la película.
- Utilizamos el paquete rvest para extraer la información, indicando el enlace de la película deseada.
library(rvest)
movie <- read_html("http://www.imdb.com/title/tt1490017/")
movie %>%
html_node(".txt-block:nth-child(11)") %>%
html_text() %>%
gsub("\\D", "", .) %>%
as.numeric()
# Resultado
[1] 6e+07
Con la función gsub eliminamos los elementos indeseados tras extraer el texto con html_text(). Posteriormente lo transformamos en número.
[1] "\n Budget: $60,000,000 \n\n estimated)\n "
Referencias
Entradas relacionadas
No hay comentarios:
Publicar un comentario