Entender la importancia de estimar el tamaño muestral, que se define como la cantidad de individuos a incluir en un estudio de investigación. El artículo también aborda los elementos estadísticos y del problema de estudio, que deben ser tenidos en cuenta para la estimación. Se selecciona y recomienda software estadístico como medio de soporte al cálculo del tamaño muestral. Finalmente, se concluye que no es una actividad que se deba hacer a ojo y apurado. Se debe invertir tiempo para aproximar correctamente los parámetros de entrada.
Introducción
La estadística permite recolectar, organizar, resumir y analizar datos con el objetivo de obtener conclusiones válidas sobre las cuales tomar decisiones fundadas. Cuando se aplica a las ciencias biológicas, incluida las biomédicas, se la denomina bioestadística.
George Box: “La estadística es, con mucho, demasiado importante como para dejarla por completo a los estadísticos” 1
Walt Federer: “La ciencia es, con mucho, demasiado importante como para dejarla por completo a los científicos” 1
Debido al gran tamaño que suele tener la población en estudio, no suele ser posible recolectar datos de cada uno de los individuos que la componen; en algunos casos por falta de recursos económicos, humanos o de tiempo2 y en otro sencillamente porque es tan grande que sería imposible abarcarla completamente.
Definimos entonces una muestra, como el subconjunto de individuos de la población que se va a observar en representación de la población.

Estimar el tamaño de la muestra es una de las actividades clave en la planificación y diseño del estudio de investigación, para obtener resultados precisos y confiables; también para evitar incluir más cantidad de individuos que los necesarios 3 4 . (Ver tabla 1)
Tabla 1: Consecuencias de estimación erróneo del tamaño muestral 5 | ||
---|---|---|
Tamaño insuficiente | Tamaño excesivo | |
Económica | Gasto de recursos sin obtener conocimiento | Gasto de más recursos que los necesarios |
Ética | Riesgo para pacientes sin avance de concimiento | Está “comprando” disminuir los falsos positivos a base de un N muy grande? |
Conceptos importantes
Es importante distinguir la estadística descriptiva de la inferencial. La primera describe , analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen la información contenida en ellos 6 . Por ejemplo en una muestra de pacientes, un gráfico de tortas que resume cómo se distribuyen los individuos respecto al género. Aplica tanto a datos muestrales como poblacionales.
Por su lado, la estadística inferencial o inductiva, se basa en los resultados obtenidos del análisis de una muestra de la población, con el fin de inferir o predecir el comportamiento o característica de la población de donde procede.
Otro concepto importante es el de hipótesis alternativa o de trabajo e hipótesis nula. La hipótesis alternativa es la que expresa mi pregunta de investigación. Es lo que quiero probar. Es lo más importante pero a su vez más difícil en el diseño. Del otro lado, definimos hipótesis nula como la opuesta a la alternativa. Podremos asumir verdadera la hipótesis alternativa si podemos probar, con significancia estadística suificiente, que la hipótesis nula se rechaza.
Y cómo se pone a prueba una hipótesis nula? Utilizando test estadísticos. Algunos test permiten estimar un parámetro de la población (por ejemplo T de Student para estimar la media), otros le servirán para aceptar o rechazar hipótesis que surgen de la comparación de grupos o de asociación de variables. Existen gran variedad de test que se clasifican en paramétricos y no paramétricos (Diego: link a las entradas en este blog). Cada test fue diseñado para ser utilizado en situaciones específicas y por ellos es clave elegir el correcto según su hipótesis (entre otros elementos).
¿De qué depende el tamaño muestral?
Es importantes destacar que no existe la fórmula “bala de plata” que sirva en todas las situaciones. Será necesario poner en consideración varios aspectos del diseño de la investigación para decidir y ajustar la fórmula a utilizar.
La fórmula para estimar el tamaño muestral depende en gran medida del tipo de estudio de investigación (ver sección “fórmula según tipo de estudio”) pero en cualquier caso se deberá considerar:
Hipótesis alternativa (de trabajo) Es la que expresa mi pregunta de investigación. Es lo que quiero probar. Por ejemplo, la fórmula que permita calcular el tamaño muestral, para estimar un parámetro de la población, será diferente a aquella para comparar la media entre grupos.
Variable a estudiar. Las fórmulas varían si se trabaja con variables cuantitativas o cualitativas. Puede haber más de una y entonces se considerará la que resulte en un mayor tamaño muestral.
Effect size (Tamaño del efecto): es el “juicio clínico” del investigador sobre el resultado que se obtendrá.
Estudios previos. En muchos casos se toma información de estudios previos para hacer la estimación del tamaño muestral. Por ejemplo si se quiere estimar la prevalencia de una enfermedad en una población, la fórmula incluirá la prevalencia postulada en estudios anteriores de similares características.
Test estadístico. Permitirá evaluar mi hipótesis
Probabilidad de error de tipo I (error α) aceptada. El error de tipo I se da cuando el test rechaza una hipótesis nula (y por ende se acepta la alternativa) y la realidad muestra lo contrario. La realidad dice que la hipótesis del investigador era falsa pero el test arrojó que es verdadera. Es decir falsos positivos. Es el error por “exceso de credulidad”. Se lo conoce como nivel de significancia del test (o p-value). Por convención se suele usar 5%. Menos común pero también se usan: 1% o 10%. A menor error de tipo I, mayor deberá ser el tamaño muestral.
Probabilidad de error de tipo I (error β) aceptada. El error de tipo II se da cuando el test no rechaza la hipótesis nula (y por ende no acepto la alternativa) y la realidad muestra lo contrario. La realidad dice que la hipótesis del investigador era verdadera y el test arrojó que no. Es decir falsos negativos. Es el error por “exceso de escepticismo”. Por convención se suele usar 20% o 10%. A menor error de tipo II, mayor deberá ser el tamaño muestral. A partir de este error surge un concepto importante: poder estadístico, definido como 1 – β
¿Fórmulas según tipo de estudio? 7 8 9
Iniciemos explicando una variable común a todas las fórmulas: Z 1-α/22 (z.score)
El z.score es una medida que representa el desvío estandar de un grupo de valores respecto de la media. En esta fórmula aplica el z.score al error de tipo I (falsos positivos). Existe una tabla con este valor calculado para cada uno de los errores de tipo I más utilizados (ver tabla 2). Cuanto menor sea el error de tipo α aceptado, mayor será este score y mayor el tamaño muestral.
Tabla 2: Z1-α/2 2 para los errores tipo α más utilizados | ||
---|---|---|
α | Z1-α/2 2 | |
0.05 | 1.96 | |
0.025 | 2.326 | |
0.01 | 2.576 |
Caso 1-Estimación de parámetros poblacionales. Variables cualitativas.
Ejemplo: estimar la prevalencia de una enfermedad en la comunidad.
Sample size = Z 1-α/22 p (1-p) / d2
p: es el valor registrado de la prevalencia en estudios anteriores.
d: es la precisión o effect size (ver arriba). Es decir cuan presente está el evento buscado. El valor de d debe estar alineado con el valor elegido de p. Cuanto más chico sea el valor de d (es decir el evento buscado es menos evidente) mayor será el tamaño muestral. No hay guías estrictas para seleccionar el valor de d 9. Algunos autores recomiendan elegir una previsión de 5% si la prevalencia de la enfermedad está 10% y 90%.
Ejemplo completo: un investigador desea calcular la cantidad de pacientes con hipertensión en un grupo pediátrico en una ciudad. Según estudios previos la prevalencia no supera 15%. El investigador asume un error tipo alfa (falsos positivos) de 5% y una precisión (d) de 5%. La fórmula sería:
Sample size = 1.96 * 0.15 (1-0.15) / 0.052 = 196
Explicación
Z 1-α/22: según la tabla 2, para un error tipo α de 5%, corresponde un z.score de 1.96
p=0.15 debido a que la prevalencia según estudios anteriores es del 15%
d=0.05 debido a que como la prevalencia esperada está por encima del 10% se puede utilizar 5% de precisión
Caso 2-Estimación de parámetros poblacionales. Variable cuantitativa.
Ejemplo: estimar el promedio poblacional de tensión arterial en población mayor a 70 años en una ciudad.
Sample size = Z 1-α/22 SD 2 / d2
p: idem anterior.
d: idem anterior
SD: Desviación estándar (tomada de un trabajo anterior)
Ejemplo completo: un investigador desea calcular el promedio de tensión arterial sistólica en mayores de 70 años en una ciudad. Según estudios previos la el desvío estándar es de 25 mmHg. El investigador asume un error tipo alfa (falsos positivos) de 5% y acepta una precisión (d) de 5 mmHg. La fórmula sería:
Sample size = 1.96 * 25 2 / 52 = 96
Explicación
Z 1-α/22: según la tabla 2, para un error tipo α de 5%, corresponde un z.score de 1.96
SD=25 tomado de estudio anterior
d=5 debido a que acepta una precisión de 5 mmHg
Caso 3-Estudio de casos y controles. Comparación de variables cuantitativas resumidas.
Ejemplo: Existen diferencias significativas en una variable cuantitativa (peso al nacimiento) entre un grupo de casos (por ejemplo pacientes daibéticos) y un grupo de controles (pacientes no diabéticos).
El formuleo se empieza a hacer cada vez más complicado a medida que nos enfrentamos a diseños más complejos. Estas fórmulas ya no se corren a mano, se utiliza software. Consultar las referencias para conocer la fórmula completa. Haremos hincapié en los datos que necesita conseguir para configurar un software que implemente este cálculo. Es muy importante definir estos datos a conciencia porque la fórmula es muy sensible a ellos.
-Diferencia aproximada a priori: Tomado de estudios anteriores.
-Error α aceptado (p-value): Falsos positivos. Suele ser 0.05
-Error β aceptado: Falsos negativos. Me permite calcular el poder estadístico (1-Beta). Suele ser β=0.2 (20%) y por ende una potencia estadística de 0.8 (80%)
Ejemplo completo: un investigador desea evaluar si hay diferencia significativa del peso al nacer en pacientes diabéticos versus no diabéticos. Según estudios previos la diferencia es de 250 gm y el desvío estándar de 1 kg. El investigador asume un error tipo α (falsos positivos) de 5% y una potencia de 80% (error β=0.2). El tamaño muestral en cada grupo es de 251 individuos.
Caso 4-Estudio de casos y controles. Comparación de Variable cualitativa.
Ejemplo: Existen diferencias significativas en una variable cualitativa (mayor riesgo o no de diabetes) entre un grupo de casos (por ejemplo pacientes con cataratas) y un grupo de controles (pacientes con visión normal).
Ver fórmula completa en las referencias. Los valores que deberá conseguir para calcularla son
-Proporción de positivos en grupo de casos: Tomado de estudios anteriores.
-Proporción de positivos en grupo de controles: Tomado de estudios anteriores.
-Error α aceptado (p-value): Falsos positivos. Suele ser 0.05
-Error β aceptado: Falsos negativos. Me permite calcular el poder estadístico (1-Beta). Suele ser β=0.2 (20%) y por ende una potencia estadística de 0.8 (80%)
Caso 5-Estudio de cohortes. Comparación de variables cualitativas.
Ejemplo: Ocurre un eventro en un grupo de pacientes seguidos prospectivamente más que en otros?
Ver fórmula completa en las referencias. Los valores que deberá conseguir para calcularla son
-Probabilidad de que ocurre el evento en el grupo de casos: Tomado de estudios anteriores.
-Probabilidad de que ocurre el evento en el grupo de controles: Tomado de estudios anteriores.
-Error α aceptado (p-value): Falsos positivos. Suele ser 0.05
-Error β aceptado: Falsos negativos. Me permite calcular el poder estadístico (1-Beta). Suele ser β=0.2 (20%) y por ende una potencia estadística de 0.8 (80%)
Ejemplo completo: un investigador desea evaluar si pacientes que siguen un entrenamiento con carga tienen mayor mortalidad que los que no. Decide seguirlos prospectivamente y diseñar un estudio de cohortes. Según estudios anteriores la proporción de muerte en los casos es del 20% y en los controles de 40%. El investigador acepta un error tipo α (falsos positivos) de 5% y una potencia de 80% (error β=0.2). El tamaño muestral en cada grupo es de 60 individuos.
Software para estimar el tamaño muestral
- STPlan (MDCancer Institute): Institución ampliamente reconocida y software muy confiable para el cálculo del tamaño muestral. El software se puede bajar desde aquí y puede consultar el manual de usuario STPlan para profundizar en su uso.
- G*Power: Software de la Universidad de Düsseldorf. Se puede bajar de aquí en la sección de download. Está también disponible el manual de usuario.
- PS: Power and Sample Size Calculation. Ofrecido por el departamento de bioestadística de la Universidad de Vanderbilt. Se puede bajar desde aquí o utilizar la versión web.
- R: Es un lenguaje de programación estadístico. Es la opción más flexible. Se debe bajar R y se sugiere bajarse el ambiente de desarrollo RStudio.
Conclusiones
El cálculo del tamaño muestral es un paso clave en el diseño del estudio de investigación.
Si bien existe software estadístico que evita realizar las cuentas a mano, la “materia prima” para calcular el tamaño muestral lo debe brindar el investigador, quien debe entender cada parámetro que espera la fórmula y definirlo a conciencia; tomarse el tiempo y el trabajo de investigar trabajos anteriores que permitan una mejor aproximación de los parámetros.
Aunque se use el mejor software para el cálculo del tamaño muestral, si los parámetros configuradas son incorrectos el tamaño calculado también será correcto, por ende las conclusiones no serán válidas y las decisiones sobre ellas muy probablemente no cumplirán los objetivos, habiendo sometido a individuos a un estudio que no aportó conocimiento e invertido tiempo, dinero y recursos en el camino.
El cálculo del tamaño muestra no es una actividad que se deba hacer a “ojímetro”. Debe ser sistemático.
Referencias:
- Johnson, D. (1998). Applied multivariate methods for data analysts. Pacific Grove, Calif: Duxbury Press.
- Bolarinwa, O. A. (2020). Sample size estimation for health and social science researchers: The principles and considerations for different study designs. Nigerian Postgraduate Medical Journal, 27(2), 67.
https://doi.org/10.4103/npmj.npmj_19_20 - Chow, S. C., Wang, H., & Shao, J. (2007). Sample size calculations in clinical research. CRC press.
- Triola, M., Ayala, L. & Ramírez, R. (2009). Estadística. Naucalpán de Juárez: Pearson Educación.
- Bacchetti, P., Wolf, L. E., Segal, M. R., & McCulloch, C. E. (2005). Ethics and sample size. American journal of epidemiology, 161(2), 105-110.
https://doi.org/10.1093/aje/kwi014 - Díaz, F. (1997). Bioestadística : métodos y aplicaciones. Málaga: Universidad de Málaga.
- Charan, J., & Biswas, T. (2013). How to calculate sample size for different study designs in medical research?. Indian journal of psychological medicine, 35(2), 121.
https://doi.org/10.4103/0253-7176.116232 - Pourhoseingholi, M. A., Vahedi, M., & Rahimzadeh, M. (2013). Sample size calculation in medical studies. Gastroenterology and Hepatology from bed to bench, 6(1), 14.
- Daniel, W. & Cross, C. (2013). Biostatistics : a foundation for analysis in the health sciences. Hoboken, NJ: Wiley.