Skip to Main Content
Parece que está usando Internet Explorer 11 o una versión anterior. Este sitio web funciona mejor con navegadores modernos como las últimas versiones de Chrome, Firefox, Safari y Edge. Si continúa con este navegador, es posible que vea resultados inespera

Gestión de datos de investigación

Esta guía te introducirá en los conceptos relevantes sobre los datos de investigación y cómo gestionarlos(qué son, cómo procesarlos y compartirlos, cómo crear un Plan de Gestión de datos de investigación, etc). Y te proporcionará una serie de recursos y h

Trabajando con los datos

Tanto para el análisis efectivo de tus datos o para finalmente compartirlos en algún repositorio, tutor o colega, los datos deben estar limpios y correctamente ordenados. 

! Esto te ahorrará mucho tiempo !

 

1️⃣ Las filas son sujetos (pacientes, animales, plantas, unidades , etc)

y las columnas son variables (edad, peso, temperatura, categoría, nivel educativo, etc)

2️⃣ Los nombres de las variables pueden tener hasta 8 caracteres sin espacios ni signos especiales como%, /, & etc. Evita usar nombres combinados y extensos. 

3️⃣ Por favor, proporcione una lista separada de estos nombres cortos de las variables y su significado completo (diccionario de datos).

4️⃣ Cada celda debe incluir un sólo valor

5️⃣ No utilice valores de texto para las variables que desee analizar. De lo contrario, codifique los valores de texto con números (por ejemplo, 1 masculino, 2 femenino) y utilice los números en su hoja de cálculo. Proporcione su tabla de codificación por separado (diccionario de datos).

6️⃣ Si tiene valores faltantes (Missing values) en sus datos, proporcione los códigos de valores faltantes por separado

 

Estructura de los datos 

 

Cuando se diseñan estructuras de datos tabulares es recomendable evitar el crecimiento horizontal de valores. 

Es importante estructurar los datos en formato TIDY (vertical) en lugar de horizontal. El formato TIDY es una forma estandariza de mapear el significado de un dataset según su estructura. Así: 

  • cada variable forma una columna
  • cada observación forma una fila 
  • cada celda es una medida simple 

Normalmente existen dos formas de estructurar los datos:

  1. Datos No_TIDY (horizontal): Cada valor es es una columna. Se extienden a la derecha. Por ejemplo, cada año, o cada visita, o cada categoría que analicemos es una columna, por lo cual contaría como si fuese una variable. (Izquierda imagen siguiente - ROJO)

  2. Datos TIDY (vertical): Al contrario, cada valor es una fila. Por lo tanto, no tendríamos una columna para cada año, cada visita o cada categoría, sino una sola. El año sería una sola variable o columna, por ejemplo. (Derecha imagen siguiente - VERDE).

De cara a una buena práctica de gestión de datos, lo recomendado para el análisis y también para su preservación a largo plazo es la opción 2: Datos TIDY. Esto facilita la recuperación de los metadatos asociados a los nombres de las variables de forma adecuada. Ejemplo: 

Otras recomendaciones para preparar tus datos 

 

Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta Guía elaborada por el gobierno de España para archivos CSV:

Guía práctica para la publicación de datos tabulares en archivos CSV 

La duplicidad de datos e inconsistencias en tu base de datos puede conllevar la necesidad de determinados tipo de normalizaciones:

  • Normalización estadística: Usar una fórmula o un algoritmo para transformar las variables medidas en diferentes escalas en una escala común para que puedan ser comparables (peras con peras). También es útil de cara a necesidades propias de un modelo estadístico elegido;
  • Normalización de la base de datos: eliminar la duplicación e inconsistencia:

              Por ejemplo: dividir las tablas grandes en grupos más pequeños y vincular los campos entre tablas a través de una clave o un ID común. 

 

 

 

Los valores de los datos deben ser completos y deben estar expresados de forma precisa y coherente con el tipo de datos del campo para que puedan ser procesados en función de su valor real. 

La ausencia de los datos puede deberse a la propia naturaleza del estudio. Un estudio de seguimiento de sujetos en el tiempo puede dar lugar a que algunos se pierdan, no contesten en algunas visitas, estén enfermos o hayan muerto. La naturaleza de la ausencia puede deberse a la propia influencia de otras variables del estudio o ser completamente al azar.  Existen pruebas estadísticas para comprobarlo y para realizar la imputación de los datos en caso necesario. 

Como norma general, hay que rellenar todas las celdas de una tabla. no se deben dejar sin explicar porque puede generar confusión, además de sesgos en los estudios. 

Debe mantenerse un código común para los datos desconocidos. Esta codificación debe incluirse en los datos o en el diccionario de datos. 

Recomendaciones para evitar valores de datos desconocidos:

 

• Si la celda en blanco representa un cero, entonces el valor debe ser 0. Debe serse cuidado, porque el uso inapropiado de ceros puede alterar los valores de estimación de la variable numérica. 

• Si la celda en blanco representa un valor "desconocido" o "no obtenido", entonces esta posibilidad debe explicarse en el diccionario de datos e indicarse con un código específico.

• Si un valor en blanco tiene un significado, se debe valorar la opción de añadir una nueva columna para incluir la explicación del valor "en blanco" como un valor posible.

• Una terminología aceptada para indicar valores desconocidos o ausentes es el valor o código específico NA o N/A (Not avaiable, por sus siglas en Inglés).

• El código que se utilice para indicar los valores desconocidos o ausentes, por ejemplo NA, debe especificarse en el diccionario de datos.

 

Fuente: Guía práctica para la publicación de datos tabulares en archivos CSV

 

Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta Guía elaborada por el gobierno de España para trabajar con datos tabulares:

Guía práctica para la publicación de datos tabulares en archivos CSV 

 

Es relevante que controles la calidad de tus datos, durante el proyecto de cara al análisis de los datos y sobre todo antes de depositarlos en algún repositorio.

Para ello, te proponemos que tengas en cuenta los siguientes elementos a verificar:

  • Revisa la organización del contenido y los descriptores de tus archivos para asegurarte que no faltan elementos clave. 
  • Ordena los registros por parámetros clave para resaltar posibles discrepancias 
  • Verifica la validez de los valores medidos. Busca valores imposibles o outliers (Ejemplo: Un pH de 74; Una altura de 2.50, etc)
  • Verifica el maro temporal de tus datos. Genera gráficos exploratorios de series temporales para detectar valores anómalos o posibles lagunas en tus datos. 
  • ¿Valores ausentes o Missing values en tu data ? No olvides codificarlos adecuadamente, e incluir los códigos en la documentación que acompaña a tus datos en el proyecto. 
  • Comprueba el tipo de datos, escala, tamaño de las imágenes, etc. Tipologías errores dan lugar a análisis fallidos. 
  • Como parte del propio Análisis Exploratorio de Datos (AED), revisa las estadísticas descriptiva de tu dataset (media, mediana, cuartiles, valores mínimos, valores máximos. valores extremos)
  • Elimina todo parámetro variable que no aporte información relevante.

 

Más información y checklists para controlar la calidad de tus datos durante el proyecto:

EARTHDATA. https://daac.ornl.gov/submit/qachecklist/

 

Durante todo el ciclo de vida de los datos utilizamos distintas herramientas para planificar, coleccionar, procesar, analizar, compartir y preservar los datos. 

 

De manera progresiva se irán incorporando videotutoriales para el uso de las principales herramientas. De momento, les dejamos enlace a capacitación web y/o recursos para algunas de ellas:

Pie

 

Síguenos en:

Licencia Creative Commons
Biblioteca/CRAI de la Universidad Pablo de Olavide Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.