Tlf: 954 34 92 55
Servicio de Apoyo a la investigación
Biblioteca-CRAI Universidad Pablo de Olavide - Ctra. de Utrera, km. 1 - 41013 Sevilla
Tanto para el análisis efectivo de tus datos o para finalmente compartirlos en algún repositorio, tutor o colega, los datos deben estar limpios y correctamente ordenados.
¡Esto te ahorrará mucho tiempo!
Las filas son sujetos (pacientes, animales, plantas, unidades, etc.)
y las columnas son variables (edad, peso, temperatura, categoría, nivel educativo, etc.)
Los nombres de las variables pueden tener hasta 8 caracteres sin espacios ni signos especiales como %, /, & etc. Evita usar nombres combinados y extensos.
Por favor, proporcione una lista separada de estos nombres cortos de las variables y su significado completo (diccionario de datos).
Cada celda debe incluir un solo valor
No utilice valores de texto para las variables que desee analizar. De lo contrario, codifique los valores de texto con números (por ejemplo, 1 masculino, 2 femenino) y utilice los números en su hoja de cálculo. Proporcione su tabla de codificación por separado (diccionario de datos).
Si tiene valores faltantes (missing values) en sus datos, proporcione los códigos de valores faltantes por separado
Cuando se diseñan estructuras de datos tabulares es recomendable evitar el crecimiento horizontal de valores.
Es importante estructurar los datos en formato TIDY (vertical) en lugar de horizontal. El formato TIDY es una forma estandarizada de mapear el significado de un dataset según su estructura. Así:
Normalmente, existen dos formas de estructurar los datos:
Datos No TIDY (horizontal): Cada valor es una columna. Se extienden a la derecha. Por ejemplo, cada año, o cada visita, o cada categoría que analicemos, es una columna, por lo cual contaría como si fuese una variable. (Imagen siguiente de la izquierda - ROJO).
Datos TIDY (vertical): Al contrario, cada valor es una fila. Por lo tanto, no tendríamos una columna para cada año, cada visita o cada categoría, sino una sola. El año sería una sola variable o columna, por ejemplo. (Imagen siguiente de la derecha - VERDE).
De cara a una buena práctica de gestión de datos, lo recomendado para el análisis y también para su preservación a largo plazo es la opción 2: Datos TIDY. Esto facilita la recuperación de los metadatos asociados a los nombres de las variables de forma adecuada. Ejemplo:
Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta Guía elaborada por el gobierno de España para archivos CSV:
Guía práctica para la publicación de datos tabulares en archivos CSV
Los valores de los datos deben ser completos y deben estar expresados de forma precisa y coherente con el tipo de datos del campo para que puedan ser procesados en función de su valor real.
La ausencia de los datos puede deberse a la propia naturaleza del estudio. Un estudio de seguimiento de sujetos en el tiempo puede dar lugar a que algunos se pierdan, no contesten en algunas visitas, estén enfermos o hayan muerto. La naturaleza de la ausencia puede deberse a la propia influencia de otras variables del estudio o ser completamente al azar. Existen pruebas estadísticas para comprobarlo y para realizar la imputación de los datos en caso necesario.
Como norma general, hay que rellenar todas las celdas de una tabla. No se deben dejar sin explicar por qué puede generar confusión, además de sesgos en los estudios.
Debe mantenerse un código común para los datos desconocidos. Esta codificación debe incluirse en los datos o en el diccionario de datos.
• Si la celda en blanco representa un cero, entonces el valor debe ser "0" (cero). Se debe ser cuidadoso, porque el uso inapropiado de ceros puede alterar los valores de estimación de la variable numérica.
• Si la celda en blanco representa un valor "desconocido" o "no obtenido", entonces esta posibilidad debe explicarse en el diccionario de datos e indicarse con un código específico.
• Si un valor en blanco tiene un significado, se debe valorar la opción de añadir una nueva columna para incluir la explicación del valor "en blanco" como un valor posible.
• Una terminología aceptada para indicar valores desconocidos o ausentes es el valor o código específico NA o N/A (Not avaiable, por sus siglas en Inglés).
• El código que se utilice para indicar los valores desconocidos o ausentes, por ejemplo NA, debe especificarse en el diccionario de datos.
Fuente: Guía práctica para la publicación de datos tabulares en archivos CSV
Si quieres profundizar más en cómo trabajar con datos tabulares, te dejo esta guía elaborada por el Gobierno de España para trabajar con datos tabulares:
Guía práctica para la publicación de datos tabulares en archivos CSV.
Es relevante que controles la calidad de tus datos durante el proyecto, de cara al análisis de los datos y sobre todo antes de depositarlos en algún repositorio.
Para ello, te proponemos que tengas en cuenta los siguientes elementos a verificar:
Créditos de la imagen: Anónimo.
EARTHDATA. https://daac.ornl.gov/submit/qachecklist/
Durante todo el ciclo de vida de los datos utilizamos distintas herramientas para planificar, coleccionar, procesar, analizar, compartir y preservar los datos.
Créditos de la imagen: Adaptado de Luis- Martínez Uribe.
De manera progresiva se irán incorporando videotutoriales para el uso de las principales herramientas. De momento, les dejamos enlace a capacitación web y/o recursos para algunas de ellas: