El descache de las encuestas en el plebistico 2016
🥗 Ensalada
¿En qué encuestas podemos creer? Un análisis de poder estadístico de las encuestas
“This self-deceit, this fatal weakness of mankind, is the source of half the disorders of human life”
- Adam Smith
📅 Publicado 5 Mayo 2018, Actualizado 21 Abril 2022
Esta ensalada es opcional pero es el plato más saludable.
¿Qué puede y qué no puede decir una encuesta? La respuesta depende de un concepto estadístico clave: poder estadístico.
El poder permite distinguir una señal, un patrón real en los datos, del ruido. Una encuesta con bajo poder estadístico no puede identificar diferencias estadísticamente significativas entre la intención de voto de los candidatos que busca medir. Puede, incluso, revelar efectos o tendencias que realmente no están ahí. Dado que las encuestas tienden a interpretarse ligeramente, vale la pena averiguar qué puede decir creíblemente una encuesta de acuerdo a su diseño y el poder estadístico que tenga.
Para entender qué es esto del poder estadístico, comencemos por un episodio de hace unos años: la medición de intención del voto en el plebiscito para ratificar los Acuerdos de Paz en 2016.
Retrospeciva: ¿Por qué las encuestas se descacharon en el plebiscito de 2016?
En el plebiscito de 2016, votaron 13 millones de personas. El Si obtuvo 49.78% de los votos y el No 50.21%. La diferencia fue de 0.43%, unos 53 mil votos.
Las encuestas estuvieron muy lejos del resultado, y una parte de su desprestigio actual se debe a esa muy visible imprecisión.
¿Qué pasó? Pues que las encuestas tenían muestras muy pequeñas que no eran capaces de detectar ese diminuto margen. ¿Qué tan grande hubieran tenido que ser las encuestas en la previa del plebiscito para detectar una diferencia de 0.43% en el resultado? Esta es una pregunta que se puede responder con cierta precisión utilizando análisis de poder estadístico.
Utilizando unos supuestos estándar, como un poder de detección de 80%, un nivel de significancia de 95% y bajo la hipótesis de que el Si iba a ganar (51%), el siguiente test permite responder la pregunta.
Código
library(pwr)
pwr.p.test(h=ES.h(0.5+0.0043, 0.51), sig.level=0.05, power=0.8, alternative = "less")
proportion power calculation for binomial distribution (arcsine transformation)
h = -0.01140123
n = 47562.53
sig.level = 0.05
power = 0.8
alternative = less
Para detectar el resultado del plebiscito en 4 de cada 5 intentos, las encuestas debieron encuestar a cerca de 47 mil personas. Ningún intento con mil o mil y pico de encuestados hubiera podido detectar eso.
Las encuestas de intención de voto no están hechas para detectar diferencias pequeñas
¿Qué es poder estadístico?
El poder representa la probabilidad de que un test estadístico detecte un efecto cuando ese efecto realmente existe. Así, cuando un test tiene bajo poder, no es capaz de hacer lo que pretende. Cuando un test tiene bajo poder, puede confundir el ruido con la señal; si eso se hace con suficiente frecuencia, puede acabar con una disciplina completa, como pasó en psicología.
Para analizar el poder, aunque depende de la situación específica, se necesitan 4 ingredientes:
- El tamaño de una muestra (\(n\))
- El nivel de significancia, o probabilidad de falsos positivos (\(\alpha\))
- El poder, o probabilidad de un falso negativo (\(\beta\))
- El tamaño del efecto (\(d\)). Para un experimento aleatorio, por ejemplo, \(d\)=(\(\mu_{treat}\)-\(\mu_{control}\))/\(\sigma\).
- La correlación intra-cluster (\(\rho\)), el número de clusters y la distribución de la muestra en cada cluster. Este ingrediente no se incluye en este análisis.
¿Cómo se calcula el poder de una encuesta?
No es del todo claro cómo se calcula el poder de una encuesta cuando no se conoce exactamente su diseño muestral.
Este ejercicio ofrece una alternativa a no poder decir nada sobre el poder de las encuestas. Ya que algunas fichas técnicas de las encuestas reportan márgenes de error para cierto tipo de pruebas (e.g. “el margen de error para una confianza del Y% es X% para proporciones mayores a Z%”), se utilizan esos márgenes para calcular el poder post hoc de cada encuesta utilizando la muestra efectiva, el tipo de prueba (i.e. diferencias entre proporciones), el nivel de significancia (casi siempre 95%) y se deja como variable el tamaño del efecto.
Los cálculos de poder a continuación se realizan para proporciones (\(p\)). Todos son test de una sola cola (i.e. mayor a \(\alpha\)) de la siguiente forma:
\(H_0: p = X\)
\(H_1: p = X + \epsilon\), donde \(X\) es la proporción especificada en la ficha técnica de la encuesta y \(\epsilon\) el tamaño del efecto a estimar.
Se utiliza pwr.p.test del paquete pwr, que se define así: h (H1, H0), n (muestra), sig.level (alpha), y la opción de una sola cola (alternative = “greater”).
Limitaciones del análisis
No se incluyen clusters, así que la correlación intra-cluster se asume cero. Eso infla el poder para todas las encuestas, pero desafortunadamente no es posible reconstruir la varianza dentro de la estratificación de las muestras que hacen las encuestas.
Para las encuestas que no mencionan el tipo de prueba se asume una prueba de diferencia de proporciones mayor a 50%.
Preparación para la estimación de poder
Para agilizar los cálculos, se definen algunos parámetros por grupos de encuestas según lo que diga la ficha técnica:
Código
library(tidyverse)
#1. Diferencias de proporciones en fichas técnicas
#1.1 Diferencias de proporciones 0.5 para encuestas #: 3-4, 6-9, 16, 29, 33 y Default: 1,10,12,14,18,21,22,24,25,28,31,32,35,37,39,40
cons.1 <- 0.5
gr1 <- c(1,3,4,6,7,8,9,10,12,14,16,18,21,22,24,25,26,28,29,31,32,33,35,37,39,40)
#1.2 Diferencias de proporciones 0.2 para encuestas #: 2,5,13,17,19,23,34
cons.2 <- 0.2
gr2 <- c(2,5,13,17,19,23,34)
#1.3 Diferencias de proporciones 0.25 para encuestas #11
cons.3 <- 0.25
gr3 <- 11
#1.4 Diferencias de proporciones 0.14 para encuestas # 15 y 20
cons.4 <- 0.14
gr4 <- c(15,20)
#1.5 Diferencias de proporciones 0.24 para encuestas # 27
cons.5 <- 0.24
gr5 <- 27
#1.6 Diferencias de proporciones 0.35 para encuestas # 30 y 36
cons.6 <- 0.35
gr6 <- c(30,36)
#1.7 Diferencias de proporciones 0.28 para encuestas #38
cons.7 <- 0.28 #Encuestas: 38
gr7 <- 38
#2. Tamaños de los efectos
eff.1 <- 0.01 #Efecto a detectar: Diferencia de 1%
eff.2 <- 0.03 #Efecto a detectar: Diferencia de 3%
eff.3 <- 0.05 #Efecto a detectar: Diferencia de 5%
a = 0.05 #Nivel de confianza 95%
#3. Nivel de significancia
a = 0.05 #Nivel de confianza 95%
Poder 1-3-5%: Efectos diminutos, pequeños y medianos
¿Es la muestra de las encuestas suficiente para detectar una diferencia de 1% entre candidatos?
Utilizando el paquete pwr de R y, el más ineficiente código imaginable, el poder de cada encuesta para detectar una diferencia de 1%, 3% y 5% entre la votación de los candidatos.
El poder estadístico de las encuestas
El estándar de poder (arbitrario, como todo lo frecuentista) para un test es 80%. Eso quiere decir que para detectar un efecto que existe, dado un tamaño de la muestra específico y con 95% de nivel de significancia, será posible identificar ese efecto el 4 de cada 5 veces (80%).
Este es el poder estadístico estimado para cada encuesta en cada uno de los 3 diferentes tamaños de efectos: diminutos (1%), pequeños (3%) y medianos (5%):
Poderes de las encuestas
Las encuestas son muy pequeñas para detectar efectos pequeños en una carrera apretada. Pero son lo suficientemente grandes para detectar diferencias de más de 5% entre los candidatos.
Referencias
Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge University Press.
Gerber, A. S., & Green, D. P. (2012). Field experiments: Design, analysis, and interpretation. WW Norton. p. 93
EGAP, “10 Things to Know About Statistical Power”
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
GPower 3.1 manual
Sullivan, L. Power and sample size determination