Medidas de dispersión

Al finalizar este artículo vamos a entender que, aunque la veamos muy alejada, la estadística esta mas cerca de lo que pensamos. Es que sin ella veríamos conjuntos de datos sin sentido.

Vamos a conocer sobre las diferentes medidas de variabilidad de los datos: una manera de resumir los resultados y poder obtener conclusiones sobre lo general, aun cuando no conocemos toda la información.

“Es una verdad muy cierta que, cuando no esté a nuestro alcance determinar lo que es verdad, deberemos buscar lo que es mas probable”

Discurso del método. René Descartes (6)

Introducción: entendiendo la estadística

La estadística es la ciencia derivada de las matemáticas que se encarga de la organización y el resumen de datos mediante la obtención de conclusiones sobre las características de un objeto de estudio, aun cuando sólo parte de estas características se encuentran disponibles para ser estudiadas. (1)

De esta ciencia deriva la bioestadística, uno de los elementos que utilizan los profesionales de la salud para entender los fenómenos que investigan, ya que es la rama que se encarga de las ciencias biológicas, la medicina y la salud. (1)

Podemos decir que la estadística y la bioestadística se forman por dos componentes: uno descriptivo y otro inferencial. Para entender de que se encarga cada uno debemos conocer otros conceptos básicos: poblaciones, muestras, parámetros y estadísticos. (1) 

Según Jan Kuzma una población es el conjunto de personas u objetos que tienen una característica observable en común, y una muestra, es un subconjunto de esta población. (2)

Entonces, un parámetro es el resumen de los elementos de una población, y un estadístico, lo mismo pero referido a una muestra. (2)

La estadística descriptiva se encarga, como su nombre lo dice, de la descripción de datos de la población mediante gráficos, tablas, enumeraciones, entre otros, que representen el totalidad o la mayor parte de la misma (por ejemplo, un censo nacional), mientras que la estadística inferencial se encarga de una muestra de la población: su objetivo es obtener información de toda la población mediante el análisis de los datos de solo una parte. (2)

Siguiendo la lógica de la estadística descriptiva, se torna difícil interpretar la información obtenida de grupos tan grandes, por lo tanto recurrimos a diferentes métodos de resumen que nos resalten los aspectos más importantes. (1)

Dentro los métodos descriptivos usados más frecuentemente encontramos los distributivos, las gráficas y los métodos numéricos. (1)

Los métodos numéricos son aquellos que utilizamos cuando queremos resaltar características numéricas específicas de un grupo de datos, en cambio los métodos gráficos y de distribución nos dan una visión más general. Dentro de los métodos numéricos encontramos: las medidas de tendencia central, medidas de variabilidad, medidas de posición relativa y medidas de forma de una distribución, entre otras. (1)

A modo de resumen:

Medidas de tendencia central: ¿son suficientes? 

Para entender las medidas de dispersión, antes tenemos que hablar de otro tipo de medidas: las medidas de tendencia central. Son aquellas que nos muestran solo los valores típicos o promedio de los datos. (2)

Media

Aquí encontramos, entre otras, la media: la cual representa el centro de la distribución. Se obtiene con la suma de todos los valores dividida por la cantidad total de datos a evaluar. (3)

Es una medida general, que no nos informa sobre la diversidad de datos que se encuentran alejados al centro, por lo tanto corremos el riesgo de no conocer información valiosa. (5)

Debemos tener en cuenta que las fórmulas para la población y para la muestra serán diferentes: representamos con N mayúscula al número de elementos de la población y con n minúscula al número de elementos de la muestra. El símbolo utilizado para nominar a la media también varía: utilizamos la letra µ (Mu) para la media poblacional y la letra x con una línea arriba para la media de la muestra. (3)

Media poblacional  

Media de la muestra

Por ejemplo:

En un centro de salud deciden investigar cuál es la duración promedio de la tos en pacientes mayores de 70 años con diagnóstico de neumonía en la última semana luego de haber comenzado el tratamiento antibiótico.

El total de pacientes que cumplen con los requisitos (población) es de 10. Se toma un subconjunto de estos como muestra (5 pacientes).

Calculamos la media de la muestra sumando la cantidad de días de duración de la tos en cada paciente y dividiendo este número por la cantidad de pacientes estudiados.

Paciente 1: 5 días

Paciente 2: 7 días

Paciente 3: 4 días

Paciente 4: 8 días

Paciente 5: 6 días

La media de la cantidad de días que dura la tos en la muestra es 6.

Medidas de dispersión

Muchas veces necesitamos conocer otro tipo de datos más detallados: las medidas de dispersión, como su nombre lo dice, nos informan que tan alejados o separados del centro se encuentran los datos. (3)

Las medidas de dispersión más usadas son:

Rango, amplitud o recorrido

Es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. (1)

Existen dos tipos de rangos, el rango exclusivo y el rango inclusivo:

Rango exclusivo

Es lo que usualmente llamamos “rango” a secas: utiliza el valor máximo y el mínimo de un conjunto de datos para calcular su diferencia. (5)

En nuestro ejemplo, el valor más alto es 8 días y el menor es 4 días.

Rango exclusivo = 8 – 4

Rango exclusivo = 4

Cabe destacar que el rango siempre quedará en las mismas unidades que los resultados originales. Por ejemplo, si lo que contamos está en días, también lo estará el rango. (1)

Rango inclusivo

Este, por otra parte, utiliza los límites reales del conjunto de datos para calcular su diferencia. (1)

Los límites reales se refieren al intervalo real de números entre donde se encuentran los datos, y tiene que ver con la capacidad de medición del método que utilizamos. (1)

Por ejemplo, si un paciente tiene una glucemia de 160 mg/dl, eso quiere decir en realidad, que el resultado se encuentra entre un intervalo de 159,5 mg/dl y 160,5 mg/dl. No se trata de un error de medición por parte del operador, sino que el glucómetro (dispositivo de medición) no tiene la capacidad de medir con exactitud el resultado, por lo tanto agrupa ese rango de resultados en 160 mg/dl.

Entonces el rango inclusivo es aquel que toma en cuenta no solo el valor máximo y el mínimo, sino también sus límites reales. (1)

Desviación media

A diferencia del rango, la desviación media toma en cuenta todos los datos para observar su dispersión. (5)

La desviación media se basa en el concepto de puntuación de la desviación, donde para averiguar la variabilidad del conjunto de datos, se busca la diferencia entre los valores de una distribución y algún punto central de la distribución (en nuestro ejemplo, la media). (1)

Por lo tanto, si realizamos la siguiente cuenta para cada puntuación de un conjunto de datos, nos dirá cuán alejado está cada uno de la media, o sea, su desviación, ya que el resultado de la resta indica por cuantas unidades se aleja el dato de la media:

Mientras menor sea el resultado, menos alejado o desviado de la media se encuentra el valor. 

Al tener muchos valores, se hace necesario promediar estas desviaciones: lo hacemos mediante la desviación media, la cual se define como el promedio de los valores absolutos de las desviaciones en un conjunto de datos, (4) y la calculamos de la siguiente manera:

Llevándolo a nuestro ejemplo:

La desviación media de la duración de la tos en estos pacientes es de 1,2 días.

Varianza

La varianza es la medida de variabilidad donde se contempla cuán alejados están ciertos datos con respecto a su media. (4)

Se define formalmente como la suma del cuadrado de las diferencias de los datos con su media aritmética sobre el número total de observaciones. (1)

La varianza poblacional se reconoce con la letra 𝛔 (sigma) al cuadrado, mientras que la varianza de la muestra con la letra s al cuadrado. (4)

La varianza eleva los resultados al cuadrado, por lo tanto si nuestros valores se encontraban en días, la varianza estará en días al cuadrado. (4)

Varianza poblacional

Varianza de la muestra

Realizamos la fórmula para obtener la varianza de la muestra de nuestro ejemplo

La varianza de la muestra es de 2,5 (días)².

Al expresar sus resultados al cuadrado, la varianza no es muy útil como método descriptivo, pero es uno de los más importantes en la estadística inferencial. (1)

La cifra de la varianza es más grande cuanto mayor es la variabilidad entre los datos. 

Desviación estándar o típica

Es la raíz cuadrada positiva de la varianza. A diferencia de esta, la desviación estándar expresa la variabilidad de los datos en las unidades originales, por lo tanto se utiliza ya que suele ser difícil la visualización de datos elevados al cuadrado, y se simplifica obteniendo su raíz cuadrada. (5)

La desviación estándar poblacional se reconoce con la letra 𝛔 (sigma) y la desviación estándar de la muestra con la letra s. En medicina clínica, la desviación estándar de la muestra se representa como DE. (1)

Desviación estándar de la población

Desviación estándar de la muestra

En nuestro ejemplo la varianza de la muestra es de 2,5 (días)², por lo tanto:

La desviación estándar de la muestra es de 1,581 días. 

¿Qué significa esto?

Como vimos antes, la media o promedio de duración de la tos es de 6 días, esto significa que 6 es el centro de la distribución, pero no que en todos los pacientes la duración fue la misma.

La distancia o desviación típica o estándar que cada uno tiene con el centro es de 1,581. Esta cifra refleja el alejamiento típico del centro (6), pudiendo estar algunos casos mas cerca y otros más lejos.  

Coeficiente de variación

Es una medida de dispersión relativa y adimensional ya que no tiene unidades de medida, por eso sirve para observar la variabilidad entre conjuntos de datos con diferentes medidas (por ejemplo kg de peso y cm de altura). (6) (7)

El coeficiente de variación también es útil para comparar la dispersión en conjuntos de datos con diferentes medias. (7)

Se define como el cociente entre la desviación estándar y la media. (7)

 Coeficiente de variación de la población

Coeficiente de variación de la muestra

Conclusión

Como conclusión sobre las diferentes medidas de variabilidad, podemos decir que el rango es una medida fácil de obtener, pero inestable, ya que solo utiliza dos datos del conjunto, y al modificar uno, todo puede cambiar drasticamente.
Como opción mas estable podemos utilizar la desviación media, ya que esta utiliza todos los datos.
Por otro lado, la varianza es menos “atractiva” por darnos el resultado con sus medidas elevadas al cuadrado, pero aún así muy útil en la estadística inferencial. Por lo tanto es mas utilizada la desviación estándar, que nos brinda los resultados en sus medidas originales.

“La bioestadística es la punta visible del iceberg de la metodología de
investigación”

Dr. Jacobo Díaz Portillo, Hospital Universitario de Ceuta (6)

Bibliografía

  1. BLAIR R. CLIFFORD y RICHARD A. TAYLOR Bioestadística PEARSON EDUCACIÓN, México, 2008 SBN: 978-970-26-1196-7
  2. KUZMA J., Basic statistics for the health sciences / Jan W. Kuzma.-3rd ed. ISBN 1-55934-951-4
  3. COBO. E, MUÑOZ, P., GONZÁLEZ J., Bioestadística para no estadísticos: Bases para interpretar artículos científicos (2007), Elsevier Doyma, S.L, ISBN: 978-84-458-1782-7
  4. GLANTZ S., Bioestadística (México 2005), sexta edición, McGraw-Hill Interamericana, ISBN 970-10-5701-5
  5. SPIEGEL M., STEPHENS L., Estadística, México 2009, McGraw-Hill Interamericana, cuarta edición ISBN-10: 970-10-6887-8
  6. DIAZ PORTILLO J., Guía Práctica del Curso de Bioestadística Aplicada a las Ciencias de la Salud, Instituto Nacional de Gestión Sanitaria, Subdirección General de Gestión Económica y Recursos Humanos
  7. REED, G. F., LYNN, F., & MEADE, B. D. (2002). Use of coefficient of variation in assessing variability of quantitative assays. Clinical and diagnostic laboratory immunology9(6), 1235–1239. https://doi.org/10.1128/cdli.9.6.1235-1239.2002

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *