2013-06-06

Código y datos para las ciencias sociales- Parte 1

A principios de abril de 2013, Matthew Gentzkow y Jesse M. Shapiro (Chicago Booth and NBER) publicaron un conciso y excelente manual, Code and Data for the Social Sciences: A Practitioner’s Guide, sobre las mejores prácticas para escribir buen código y la organización de datos. Y aunque fundamentalmente está dirigido a investigadores, gran parte de las ideas son aplicables para todo aquel que trate de responder a preguntas basándose en datos.

Capítulo 1- Introducción

La investigación empírica en ciencias sociales y el análisis de datos consisten en:
  1. Hacer buenas preguntas. 
  2. Encontrar datos. 
  3. Diseñar análisis estadísticos.
  4. Redactar los resultados.
En la práctica esto significa limpiar, transformar, cortar y combinar datos, y escribir código; para producir los análisis y resultados que buscamos.

Argumentan que gran parte del tiempo, cuando resolvemos problemas con código y datos,  estamos resolviendo problemas que han sido resueltos antes, mejor y a mayor escala. Una buena regla general es: si tratamos de resolver un problema y hay compañías de miles de millones de dólares cuyo modelo de negocio depende de la resolución del mismo, y hay cursos enteros en la universidad dedicados a cómo resolverlo; quizá sería bueno averiguar lo que los expertos hacen y ver si podemos aprender algo de ello.

En los siguientes capítulos, que trataremos en sucesivos entradas, comparten estas mejores prácticas de los expertos.

Parte 1: Introducción
Parte 2: Automatizar y control de versiones
Parte 3: Directorios
Parte 4: Claves
Parte 5: Simplificación y documentación


No hay comentarios:

Publicar un comentario

Nube de datos