Guías BibUpo: Gestión de datos de investigación: Documentación y metadatos

Documentación y metadatos

¿Cómo documentar tus datos y por qué?

Documentar adecuadamente tus datos ayuda a que se puedan comprender y reutilizar por ti y por otros, en el presente y en el futuro. Documentar tus datos significa agregar información que permita que se entiendan los datos en el contexto de su estudio.

Imagina que accedes a un fichero de datos y tiene un conjunto de variables que se han usado pero están codificadas, y no aparece la descripción de esas variables.

En ese caso, ¿Podrías comprender qué datos han utilizado? Seguro que no.

Por eso, es crucial que no dejes los datos solos.

Una buena documentación de datos incluye información sobre:

El contexto de la recopilación de datos: historia del proyecto, objetivos e hipótesis
Métodos de recopilación de datos: muestreo, proceso de recopilación de datos, instrumentos utilizados, hardware y software utilizado, escala y resolución, cobertura temporal y geográfica y fuentes de datos secundarias utilizadas
Estructura de los archivos de datos y relaciones entre archivos
Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad
Cambios realizados en los datos a lo largo del tiempo desde su creación original e identificación de las diferentes versiones
Información sobre el acceso, condiciones de uso o confidencialidad

Existen tres niveles fundamentales para la documentación de los datos

A nivel de proyecto: Se documentan los objetivos del estudio, preguntas de investigación, metodologías, instrumentos de medida, etc.
A nivel de base de datos y fichero: Se documenta cómo todos los ficheros que conforman el dataset se relacionan. Se incluye un fichero "readme.txt" con la información relevante.
A nivel de variables e ítems: Se incluye un fichero tipo diccionario, no solo con los nombres de las variables, sino con sus respectivas etiquetas, explicando su significado en el contexto del estudio.

Ejemplos más usados: 

Cuestionarios,
Ficheros Readme.txt
Libros de códigos
Guías de uso
Diccionarios de datos, etc.
Software syntax
Cuadernos de laboratorio

Puede consultar este ejemplo: The N ational Survey of Sexual Attitudes and Lifestyles, 2010-2012

Si quieres saber más ...
Puedes solicitar asesoría al propio Servicio de Datos de Investigación de la Biblioteca/CRAI.

Además de la documentación explicativa y contextual que puedes elaborar con un fichero Readme.txt que acompañe a tus datos, es preciso describir los datos para poder identificarlos y organizarlos. Esta descripción de los datos se hace a través de los metadatos.

¡Toma nota...!
Los metadatos son "datos sobre los datos". Se refiere a aquella "Información estructurada que describe, explica, localiza, o representa algo más"

Al igual que se describen los libros y revistas, a través de campos como título, nombre del artículo, fecha de creación, fecha de publicación, ISSN de la revista, palabras clave, etc., también los datos necesitan ser descritos de manera estandarizada.

Algunos de estos metadatos asignados a los datos de investigación son:

- Título

- Identificador único (Ej.: DOI)

- Licencia para que puedan ser reutilizados

- Formato del archivo (Ej.: CSV, TXT, SAV, etc.)

- Descripción del conjunto de datos

- Palabras clave

- Descripción de las variables que lo componen

- Información sobre la financiación si fuera el caso

En la actualidad existen varios estándares de metadatos para describir los datos.

Cada área de conocimiento tiene su estándar propio y sus herramientas.

¿Cómo saber cuáles utilizar?

1. Trata de escoger uno o dos que representen tu campo disciplinar y otro también para datos de investigación en general.

Ejemplo: DDI (Data Documentation Index) para Ciencias Sociales

Dublin Core (General Research Data)

2. Escoge un formato preferentemente XML o JSON. Son formatos abiertos, leíbles por máquina y permiten la interoperabilidad.
Si no sabes cómo leer los metadatos en XML, puedes usar este conversor a Excel: https://cdkm.com/es/xml-to-xls

3. Puedes generar los metadatos al estándar Dublin core con esta herramienta: http://nsteffel.github.io/dublin_core.../generator_nq.html

4. Si depositas tus datos en un repositorio de confianza, ya te asignarán los metadatos que tenga el estándar que utilice el repositorio.

5. Si estas comenzando, usa plantillas de metadatos para que te sea más fácil:

* Create a codebook about your research to accompany the dataset (DDI Alliance, 2017a). https://ddialliance.org/.../getting.../create-a-codebook

* Georgia Tech Library (n.d.) Metadata Template https://www.library.gatech.edu/smartech-metadata;

* Use the Dublin Core Metadata Generator (dublincoregenerator, n.d.);

* the Cornell University (n.d.) guide to writing “readme” style metadata (with downloadable template) https://data.research.cornell.edu/content/readme;

* ISO 19115-2 Metadata Editor (GRIIDC (2015)) web application https://data.gulfresearchinitiative.org/metadata-editor...;

Para más información y buenas prácticas:

Data Curation Center (DCC) hay una selección por disciplinas, así como un listado de herramientas que han sido desarrolladas para capturar o almacenar metadatos conforme a un estándar específico.
Disciplinary metadata. Digital Curation Center UK
Metadata. Australian National Data Service
Metadata. JISC
Metadata Tips: Cornell's Digital Repository
Fairsharing.org

Toma nota ...

¡Cuánto más relevantes sea los metadatos, más fácil será para el resto del personal investigador encontrar y reutilizar los datos!

¿Qué es un fichero Readme.txt y para qué sirve?

Un fichero Readme.txt describe la información necesaria para que los conjuntos de datos sean comprensibles y reutilizables.

¿Para qué usarlo y cuándo?

Un fichero Readme.txt es parte de la documentación que describen los datos en el contexto del proyecto.
Es importante generarlo desde el comienzo e ir actualizándolo,
Es fundamental en el momento del depósito del dataset (conjunto de datos) en un repositorio.
Permite la reproducibilidad de la investigación de manera efectiva.

¿Qué información debe contener?

Autoría,
Título del dataset,
Descripción de los datos y ficheros (lista de ficheros o carpetas y relación entre ellos, datos adicionales que no están incluidos en el dataset, descripción de las posibles versiones si es el caso y sus actualizaciones)
Metodología e instrumentos de medición,
Descripción detallada de los ficheros incluidos (número de variables, número de casos/filas; Lista de variables y descripción, códigos para el tratamiento de missing values o valores ausentes; etc.)
Financiadores,
Cobertura temporal y geográfica,
Derechos de uso y privacidad, etc. (licencias o restricciones en relación con los datos, enlaces a las publicaciones que citan o usan los datos, etc.)

¿Dónde ubicarlo?

También puedes utilizarlo para documentar los pasos que vas realizando en el procesamiento de tus datos:

#Tips

Nombra el fichero Readme de forma tal que su nombre se asocie al fichero (s) de datos que describe,
Escribe tu fichero Readme en formato txt.
Para varios ficheros Readme en un proyecto, intente darle el mismo formato, orden y terminología.
Use formatos estándar para las fechas: Ejemplo, W3C/ISO 8601 date standard,
Intente utilizar la terminología propia de su campo científico.

Aquí te dejamos una guía y ejemplos de plantillas para que la puedas utilizar para documentar tus datos.

¿Qué es un diccionario de datos y para qué sirve?

Para que los datos creados durante la investigación sean comprensibles, reutilizados por el propio equipo investigador y posteriormente por otros, es necesario que el contenido sea comprensible sin dejar lugar a dudas o malas interpretaciones. Ello puede conllevar pérdida de tiempo, e incluso errores que traen consigo retrabajo y pérdida en la efectividad del proceso investigador.

Un diccionario de datos es útil para:

Definir adecuadamente todas las unidades de medidas. Una variable en un contexto puede tener un significado y en otro proyecto otro (Ejemplo: la propia edad de un individuo. No es lo mismo la edad real, a la edad basal de entrada en el estudio o la edad al concluir un seguimiento). O incluso dicha variable se puede transformar de cuantitativa a grupos etarios como variable categórica.
Definición conceptual y operativas para el estudio en cuestión,
Valores codificados de la variable,
Posibles formatos, abreviaturas, etc.

Elementos principales a incluir en un diccionario de datos

Los elementos a incluir varían mucho de un proyecto a otro y del nivel de profundidad con el que se quieran describir los datos, desde datos contextuales relativos al proyecto a los campos específicos para describir cada una de las variables.

Lista de algunos campos que podrías incluir:

Elemento identificador de la tabla (por sí tienes datos en varias tablas)
Nombres de las variables
Definición de cada variable (cómo se entiende en tu estudio)
Tipo de datos
Longitud del campo
¿Campo requerido? y/n
¿Valores nulos? Codificación

Ejemplo:

Un Diccionario de datos puede contribuir a la consistencia, seguimiento de los estándares más adecuados en función de cada campo científico, y la propia reutilización e interoperabilidad de los datos.

Ejemplo de plantilla para crear un Diccionario de datos que puedes adaptar a tu estudio