2013-07-03

Código y datos para las ciencias sociales- Parte 4

En las entradas anteriores vimos una introducción del manual Code and Data for the Social Sciences: A Practitioner’s Guide y los capítulos dedicados a automatizar y control de versiones y a directorios. Continuamos con el capítulo dedicado a las claves.

Capítulo 5- Claves
  1. Guarda los datos limpiados en tablas con únicos y con claves
  2. Mantén los datos normalizados a lo largo de tu proceso tan lejos como puedas.
Nos muestran un ejemplo de una tabla sin normalizar, con valores nulos y probablemente erróneos. Plantean que debe de haber una mejor manera de hacerlo, porque grandes organizaciones, como instituciones financieras, aseguradoras, o comercios minoristas, tienen que gestionar datos más complejos en tiempo real, con enormes consecuencias si hubiera errores.  Hace tiempo, expertos como Edgar F. Codd establecieron un principio fundamental del diseño de base de datos: la estructura física de una base de datos debe de comunicar su estructura lógica. La base de datos relacional carece de ambigüedad, se autodocumenta.

Los datos son almacenados en matrices rectangulares llamadas tablas. En las tablas, las filas son elementos o registros y las columnas son variables o atributos. Cada tabla tiene una clave. Una clave es una variable, o grupo de variables, que identifica únicamente los elementos de una tabla. A las variables que conforman la clave no les pueden faltar datos, y el valor de una clave nunca puede estar duplicado en las filas de una tabla.

Cada variable en una tabla es un atributo de los elementos de una tabla. Una clave externa es una clave de otra tabla de la base de datos. Por ejemplo, en una tabla de países el país es la clave externa, a cada región le corresponde un elemento de la tabla países. Las claves externas obedecen las mismas normas que el resto de variables.

Los datos almacenados siguiendo la estructura anterior se consideran normalizados. Almacenar datos normalizados significa que los datos serán entendidos fácilmente y que será más difícil cometer errores costosos.

Sin embargo, la mayoría de programas estadísticos no ejecutaran regresiones sobre una base de datos relacional. Para realizar el análisis es necesario unir tablas para obtener una única matriz rectangular.

El procedimiento tiene tres pasos:
  1. Guarda los datos brutos en ficheros normalizados que preserven la información en la fuente original de los datos. Esto es necesario porque probablemente necesitarás usar esos datos en formas que actualmente no eres capaz de anticipar.
  2. Construye otro grupo de ficheros normalizados que incluyan la transformación de las variables originales que necesitas para tu análisis.
  3. Une las tablas en tu base de datos para formar una matriz rectangular sobre la cual estimarás tu modelo. En esta etapa aún debes tener datos únicos, con claves, pero probablemente no estén normalizados.
Parte 1: Introducción
Parte 2: Automatizar y control de versiones
Parte 3: Directorios
Parte 4: Claves
Parte 5: Simplificación y documentación

Entradas relacionadas: Normalizar tablas en Excel con el asistente para tablas dinámicas

No hay comentarios:

Publicar un comentario

Nube de datos