Skip to main content
Parece que está usando Internet Explorer 11 o una versión anterior. Este sitio web funciona mejor con navegadores modernos como las últimas versiones de Chrome, Firefox, Safari y Edge. Si continúa con este navegador, es posible que vea resultados inespera

Gestión de datos de investigación

Esta guía te introducirá en los conceptos relevantes sobre los datos de investigación (qué son, cómo procesarlos y compartirlos, cómo crear un Plan de Gestión de datos de investigación, etc). Y te proporcionará una serie de recursos y herramientas útiles

Documentación y metadatos

Debe acompañar a los datos para que estos se puedan comprender y reutilizar. Una buena documentación de datos incluye información sobre:

  • El contexto de la recopilación de datos: historia del proyecto, objetivos e hipótesis
  • Métodos de recopilación de datos: muestreo, proceso de recopilación de datos, instrumentos utilizados, hardware y software utilizado, escala y resolución, cobertura temporal y geográfica y fuentes de datos secundarias utilizadas
  • Estructura de los archivos de datos y relaciones entre archivos 
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad 
  • Cambios realizados en los datos a lo largo del tiempo desde su creación original e identificación de las diferentes versiones
  • Información sobre el acceso, condiciones de uso o confidencialidad

Existen tres niveles fundamentales para la documentación de los datos 

    1. A nivel de proyecto: Se documenta objetivos del estudio, preguntas de investigación, metodologías, instrumentos de medida, etc

    2. A nivel de Base de datos y Fichero: Se documenta cómo todos los ficheros que conforman el data-set se relacionan. Se incluye un fichero  "readme.txt" con la información relevante. 

    3. A nivel de Variables e ítems:  Se incluye un fichero tipo diccionario, no sólo con los nombres de las variables, sino con sus respectivas etiquetas explicando su significado en el contexto del estudio.  

 

Un fichero Readme.txt describe la información necesaria para que los conjuntos de datos sean comprensibles y reutilizables:

¿Para que usarlo y cuándo?

  • Un fichero Readme.txt es parte de la documentación que describen los datos en el contexto del proyecto. 
  • Es importante generarlo desde el comienzo e ir actualizándolo,
  • Es fundamental  en el momento del depósito del Dataset en un repositorio. 
  • Permite la reproducibilidad de la investigación de manera efectiva,. 

¿Qué información debe contener?

  • autoría,
  • título del Dataset,
  • descripción de los datos y ficheros (Lista de ficheros o carpetas y relación entre ellos, datos adicionales que no están incluidos en el dataset, descripción de las posibles versiones si es el caso y su actualizaciones)
  • metodología  e instrumentos de medición,
  • Descripción detallada de los ficheros incluidos (Número de variables, Número de casos/filas; Lista de variables y descripción, C´doigp àra el tratamiento de Missing values o valores ausentes; etc)
  • financiadores,
  • cobertura temporal y geográfica,
  • derechos de uso y privacidad, etc. (Licencias o restricciones en relación a los datos ,   Link a las publicaciones que citan o usan los datos, etc)

Buenas prácticas 

  • Crea ficheros Readme para agrupaciones o clusters de datos: En muchas casos es más apropiado crear un sólo fichero Readme para varios conjuntos de ficheros relacionados, por ejemplo, una colección de ficheros de códigos de programación. 
  • Nombra el fichero Readme de forma tal que su nombre se asocie al fichero (s) de datos que describe,
  • Escribe tu fichero Readme en formato txt. 
  • Para varios ficheros Readme en un proyecto, intente darle mismo formato, orden y terminología. 
  • Use formatos estándar para las fecha: Ejemplo, W3C/ISO 8601 date standard,
  • Intente utilizar las taxonomías y terminología propia de su campo científico. 

Más información, Tips y buenas prácticas:

Ejemplo de plantilla para crear un fichero Readme.txt

                       

  Fuente: https://cornell.app.box.com/v/ReadmeTemplate

Otras platillas según campos científicos:

Ciencias de la tierra: https://daac.ornl.gov/submit/examples/data_provider_documentation_template.txt

 

Además de la documentación explicativa es preciso describir los datos para poder identificarlos y organizarlos . Esta descripción de los datos se hace a través de los metadatos.

En particular, los datos deben tener un identificador único y persistente, información sobre cómo citarlos, una licencia que indique cómo pueden usarse o reutilizarse, información sobre el formato de archivo, una descripción del conjunto, materia y palabras clave que lo describan, una lista de autores e información sobre la financiación. Cuanto más relevantes sea los metadatos, más fáci será para otros investigadores encontrar y reutilizar los datos.

En la actualidad existen varios estándares de metadatos para describir los datos. Cada área de conocimiento tiene su estándar propio y sus herramientas. 

Para más información y buenas prácticas: 

 

 

Para que los datos creados durante la investigación sean comprensibles, reutilizados por el propio equipo de investigadores y posteriormente por otros, es necesario que el contenido sea comprensible sin dejar lugar a dudas o mal interpretaciones. Ello puede conllevar perdida de tiempo, e incluso errores que traen consigo retrabajo y pérdida en la efectividad del proceso investigador.

Es vital poder definir adecuadamente todas las unidades de medidas. Una variable en un contexto puede tener un significado y en otro proyecto otro (Ejemplo, la propia edad de un individuo. No es lo mismo la edad real, a la edad basal de entrada en el estudio o la edad al concluir un seguimiento ).  O incluso dicha variable se puede transformar de cuantitativa a grupos etarios como variable categórica. 

Todo ello, incluido unidades de medida, definición conceptual y operativas para el estudio en cuestión, valores codificados de la variable, posibles formatos, abreviaciones, etc deben registrarse como parte de la documentación del estudio. Para ello, un Diccionario de datos puede contribuir a la consistencia, seguimiento de los estándares más adecuados en función de cada campo científico, y la propia re-utilización e interoperabilidad de los datos. 

 

 

Síguenos en:

Licencia Creative Commons
Biblioteca/CRAI de la Universidad Pablo de Olavide Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.