Ir al contenido principal

Introducción a la visualización de datos de investigación

Esta guía te introducirá en los conceptos relevantes sobre cómo visualizar los datos de investigación. Podrás encontrar una serie de recursos y herramientas útiles.

Distribuciones

Gráficos de distribuciones

Este tipo de gráficos son especialmente útiles para entender cómo se distribuyen las diferentes variables en tus datos, antes de abordar el análisis y la comunicación de los resultados. 

La distribución ayudará a comprender la forma y las propiedades principales de una variable. Asimismo, se detecta si hay una distribución normal o no paramétrica de los valores, si los datos contienen valores atípicos, extremos. Eso nos indicará, por ejemplo, si es adecuado utilizar medidas estadísticas como la media o la mediana.

 

Te mostramos algunos de los más utilizados. Encontrarás información sobre su anatomía, cuándo usarlos, tips para su diseño y enlaces a tutoriales con las herramientas más utilizadas. 

Tipos de gráficos

Histogramas

Nos ayuda a entender cómo están distribuidos los valores de una variable, dónde se concentran. La altura de cada barra representa la frecuencia de aparición de valores dentro del rango que define cada barra.

Un histograma proporciona una representación gráfica de una distribución de frecuencia de una variable. 

Anatomía del gráfico

El eje y (a la izquierda) representa un recuento de frecuencia.

El eje x (en la parte inferior) el valor de la variable (en este caso, el número de respuestas correctas).

Parece que la distribución de esta variable está un poco sesgada a la izquierda pareciendo, a falta de comprobarlo con el correspondiente test estadístico, una distribución asimétrica o no normal.

¿Cuándo se debe utilizar?

Cuando se quiere entender cómo están distribuidos los valores de una variable.

  • En particular, cuando los valores se distribuyen de forma similar en torno a la media. Es decir, si estamos en presencia de una distribución normal.
  • En cambio, si la forma dibujada por el histograma no tiene forma de campana y el valor máximo se sitúa en uno de los extremos, se habla de una distribución asimétrica.

#Tips

Por convención, las barras de los histogramas no se deben separar entre sí.

La forma de un histograma dependerá del rango de valores que representa cada barra. Este rango es importante, ya que nos permitirá agrupar los valores y, por lo tanto, acabará definiendo la forma del histograma. Generalmente, los programas deciden automáticamente la medida de este rango en función del conjunto de barras, aunque se puede editar. A continuación, se muestran dos distribuciones de los mismos datos utilizando dos rangos diferentes para agrupar los valores del conjunto de datos. El de la izquierda utiliza un rango de 0.5 mientras que el de la derecha utiliza uno de 0.25.

Si quieres aprender cómo hacer este tipo de gráfico...

Herramientas y procedimientos para esta visualización:

Gráficos de cajas y bigotes

Un diagrama de caja (box plot) permite representar la distribución de los valores de una variable y, opcionalmente, compararlos por diferentes categorías.

Anatomía del gráfico

En el siguiente diagrama se explica el significado de los elementos de un diagrama de caja.

  • La caja está dividida por una línea que representa la mediana.
  • Los extremos de la caja corresponden al primer y al tercer cuartil.
  • De la caja, emergen unas líneas denominadas “bigotes”, que pueden calcularse de diferentes maneras y terminan en los valores máximo y mínimo.
  • Todos los puntos que se encuentren más allá de los bigotes se considerarán valores atípicos.

¿Cuándo se debe utilizar?

Cuando queremos comparar la distribución de diferentes variables o la distribución de una variable en diferentes categorías.

El diagrama de caja ayuda a entender la forma de los datos, un paso previo en todo análisis de datos:

  • Si la línea de la mediana está situada en el centro de la caja, querrá decir que hay una distribución simétrica (a menudo, una distribución “normal”). En caso contrario, querrá decir que hay una distribución asimétrica (ver Histogramas).
  • Si la caja es muy pequeña, quiere decir que los valores de la variable están poco dispersos. Dicho de otra manera, es fácil predecir un valor aproximado de la variable, ya que siempre presenta valores muy similares.
  • El diagrama de caja también es idóneo para detectar valores atípicos, que son aquellos puntos que se encuentran más allá de las líneas horizontales situadas en los extremos de cada caja o bigotes. Estos valores pueden ser fruto de errores de medida y, por lo tanto, es importante descartarlos para evitar llegar a conclusiones erróneas (por eso el uso del diagrama de caja es común en ámbitos de investigación científica).

 #Tips

  • No es un gráfico para todos los públicos: tiene un perfil estadístico, de utilidad para la investigación. 
  • Los diagramas de caja pueden ser horizontales o verticales: generalmente se hacen verticales, pero si los nombres de las categorías son muy largos, habrá que hacerlos horizontales para que quepan cómodamente.
  • Usarlos con cuidado según la distribución de los datos: en algunas ocasiones no representan adecuadamente la distribución de los datos. 
  • Los diagramas de caja están limitados para mostrar los datos en su pantalla ya que su simplicidad visual tiende a ocultar los detalles importantes acerca de cómo se distribuyen los valores. Por ejemplo, con los diagramas de caja no se puede ver si la distribución es bimodal o multimodal (Ver Diagrama de violín). 

Si quieres aprender cómo hacer este tipo de gráfico...

Puedes seguir estos pasos dentro de los recursos de:

Competencias digitales

Síguenos en:

Licencia Creative Commons
Biblioteca/CRAI de la Universidad Pablo de Olavide Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.