Guías BibUpo: Gestión de datos de investigación: Procesa tus datos

Trabajando con los datos

Tanto para el análisis efectivo de tus datos o para finalmente compartirlos en algún repositorio, tutor o colega, los datos deben estar limpios y correctamente ordenados.

¡Esto te ahorrará mucho tiempo!

Las filas son sujetos (pacientes, animales, plantas, unidades, etc.)

y las columnas son variables (edad, peso, temperatura, categoría, nivel educativo, etc.)

Los nombres de las variables pueden tener hasta 8 caracteres sin espacios ni signos especiales como %, /, & etc. Evita usar nombres combinados y extensos.

Por favor, proporcione una lista separada de estos nombres cortos de las variables y su significado completo (diccionario de datos).

Cada celda debe incluir un solo valor

No utilice valores de texto para las variables que desee analizar. De lo contrario, codifique los valores de texto con números (por ejemplo, 1 masculino, 2 femenino) y utilice los números en su hoja de cálculo. Proporcione su tabla de codificación por separado (diccionario de datos).

Si tiene valores faltantes (missing values) en sus datos, proporcione los códigos de valores faltantes por separado

Estructura de los datos

Cuando se diseñan estructuras de datos tabulares es recomendable evitar el crecimiento horizontal de valores.

Es importante estructurar los datos en formato TIDY (vertical) en lugar de horizontal. El formato TIDY es una forma estandarizada de mapear el significado de un dataset según su estructura. Así:

Cada variable forma una columna
Cada observación forma una fila
Cada celda es una medida simple

Normalmente, existen dos formas de estructurar los datos:

Datos No TIDY (horizontal): Cada valor es una columna. Se extienden a la derecha. Por ejemplo, cada año, o cada visita, o cada categoría que analicemos, es una columna, por lo cual contaría como si fuese una variable. (Imagen siguiente de la izquierda - ROJO).
Datos TIDY (vertical): Al contrario, cada valor es una fila. Por lo tanto, no tendríamos una columna para cada año, cada visita o cada categoría, sino una sola. El año sería una sola variable o columna, por ejemplo. (Imagen siguiente de la derecha - VERDE).

De cara a una buena práctica de gestión de datos, lo recomendado para el análisis y también para su preservación a largo plazo es la opción 2: Datos TIDY. Esto facilita la recuperación de los metadatos asociados a los nombres de las variables de forma adecuada. Ejemplo:

Otras recomendaciones para preparar tus datos

Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta Guía elaborada por el gobierno de España para archivos CSV:

Guía práctica para la publicación de datos tabulares en archivos CSV

Los valores de los datos deben ser completos y deben estar expresados de forma precisa y coherente con el tipo de datos del campo para que puedan ser procesados en función de su valor real.

La ausencia de los datos puede deberse a la propia naturaleza del estudio. Un estudio de seguimiento de sujetos en el tiempo puede dar lugar a que algunos se pierdan, no contesten en algunas visitas, estén enfermos o hayan muerto. La naturaleza de la ausencia puede deberse a la propia influencia de otras variables del estudio o ser completamente al azar. Existen pruebas estadísticas para comprobarlo y para realizar la imputación de los datos en caso necesario.

Como norma general, hay que rellenar todas las celdas de una tabla. No se deben dejar sin explicar por qué puede generar confusión, además de sesgos en los estudios.

Debe mantenerse un código común para los datos desconocidos. Esta codificación debe incluirse en los datos o en el diccionario de datos.

Recomendaciones para evitar valores de datos desconocidos:

• Si la celda en blanco representa un cero, entonces el valor debe ser "0" (cero). Se debe ser cuidadoso, porque el uso inapropiado de ceros puede alterar los valores de estimación de la variable numérica.

• Si la celda en blanco representa un valor "desconocido" o "no obtenido", entonces esta posibilidad debe explicarse en el diccionario de datos e indicarse con un código específico.

• Si un valor en blanco tiene un significado, se debe valorar la opción de añadir una nueva columna para incluir la explicación del valor "en blanco" como un valor posible.

• Una terminología aceptada para indicar valores desconocidos o ausentes es el valor o código específico NA o N/A (Not avaiable, por sus siglas en Inglés).

• El código que se utilice para indicar los valores desconocidos o ausentes, por ejemplo NA, debe especificarse en el diccionario de datos.

Fuente: Guía práctica para la publicación de datos tabulares en archivos CSV

Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta guía elaborada por el Gobierno de España para trabajar con datos tabulares:

Guía práctica para la publicación de datos tabulares en archivos CSV.

Es relevante que controles la calidad de tus datos durante el proyecto, de cara al análisis de los datos y sobre todo antes de depositarlos en algún repositorio.

Para ello, te proponemos que tengas en cuenta los siguientes elementos a verificar:

Revisa la organización del contenido y los descriptores de tus archivos para asegurarte que no faltan elementos clave.
Ordena los registros por parámetros clave para resaltar posibles discrepancias
Verifica la validez de los valores medidos. Busca valores imposibles u outliers (Ejemplo: Un pH de 74; Una altura de 2,50 m., etc.)
Verifica el marco temporal de tus datos. Genera gráficos exploratorios de series temporales para detectar valores anómalos o posibles lagunas en tus datos.
¿Valores ausentes o missing values en tus datos? No olvides codificarlos adecuadamente, e incluir los códigos en la documentación que acompaña a tus datos en el proyecto.
Comprueba el tipo de datos, escala, tamaño de las imágenes, etc. Tipologías: los errores dan lugar a análisis fallidos.
Como parte del propio Análisis Exploratorio de Datos (AED), revisa las estadísticas descriptivas de tu dataset (media, mediana, cuartiles, valores mínimos, valores máximos, valores extremos, etc.)
Elimina o transforma todo parámetro variable que no aporte información relevante.

Créditos de la imagen: Anónimo.

Más información y checklists para controlar la calidad de tus datos durante el proyecto:

EARTHDATA. https://daac.ornl.gov/submit/qachecklist/

Durante todo el ciclo de vida de los datos utilizamos distintas herramientas para planificar, coleccionar, procesar, analizar, compartir y preservar los datos.

Créditos de la imagen: Adaptado de Luis- Martínez Uribe.

De manera progresiva se irán incorporando videotutoriales para el uso de las principales herramientas. De momento, les dejamos enlace a capacitación web y/o recursos para algunas de ellas:

DMPonline (Elaborar Planes de Gestión de Datos)
Excel (Tablas dinámicas)
Open Refine (Depurar los datos)
Open Science Framework (colaboración en la investigación científica)
SPSS (Programa estadístico)
Tableau Public (plataforma diseñada para explorar, crear y compartir visualizaciones de datos con el público general)
Amnesia (Anonimización de datos)