Del sesgo de la encuesta CEP y de cómo analizar datos sesgados

Que la reciente encuesta CEP (ver aquí resultados) tiene sesgo en sus preguntas, y en particular en las de educación, es tan evidente que en menos de un día desde su presentación ha quedado, en cierta medida, establecido como un hecho.

El sesgo de las preguntas.

Y si alguien quisiera que esa percepción de sesgo se argumentara, bastaría con hacer notar que no es procedente hacer preguntas dónde a una opción se le da en la forma de pregunta una razón para elegirla y a la otra no. Es la forma más obvia de sesgo. Tampoco corresponde, en general, hacer preguntas cuyas alternativas no cubren todas las posibles respuestas.

Dados esos lineamientos generales preguntas y alternativas como las siguientes claramente no resultan preguntas aceptables (para decirlo de forma clara: son el tipo de preguntas que si las presentara un alumno en un curso de metodología harían que su trabajo fuera reprobado)

¿Qué le parece que los colegios particulares subvencionados, además de entregar educación, generen ganancias a sus dueños? Alternativas:

  1. Le parece mal que se obtengan ganancias y debiera estar prohibido por completo
  2. Le parece bien, siempre y cuando tengan un nivel educacional bueno y los padres estén informados

¿Cree Ud. que es bueno que los padres puedan complementar el subsidio educacional que otorga el Estado a través de un copago (pagando matricula y/o colegiatura) para mejorar la educación de sus hijos, o Ud. cree que esto debiera estar prohibido? Alternativas:

  1. Es bueno que  los padres puedan complementar el subsidio
  2. Debiera estar prohibido que los padres puedan complementar el subsidio

A los sesgos de las preguntas hay que sumar los sesgos de la interpretación. Por ejemplo,  ayer 14 La Segunda tuvo como titular que el 63% apoyaba que el Gobierno negociara con la oposición. Lo que la población respondió fue: Me gustaría que se tratara de llegar a acuerdos entre las coaliciones políticas antes de la votación en el Congreso. Ahora bien, ¿es la oposición equivalente a lo anterior? (¿es la oposición, léase Alianza, la única coalición con la que hay que discutir?) Más aún, pensando en posibles interpretaciones políticas, eso no es necesariamente un apoyo a democracia de los acuerdos. Más aún, eligió en un 63% esa respuesta frente a la alternativa de ‘Me gustaría que se impusiera el programa de gobierno sin consideración de la minoría en el Congreso’.

O pensemos en preguntas específicas. Por ejemplo la pregunta sobre selección académica: ¿Está usted de acuerdo o en desacuerdo con que los liceos de excelencia del país, como el Instituto Nacional, seleccionen a sus alumnos a través de pruebas de admisión? Ahora bien el 54% está de acuerdo con ello. De eso no se sigue que en general estén de acuerdo con la selección académica -la pregunta ex profeso fue sobre liceos de excelencia. O la pregunta sobre si las universidades deben ser gratuitas para todos o sólo para estudiantes de menos recursos. Un 57% declaró que las universidades debieran ser gratuitas para quienes tienen menos recursos. Ahora bien, ¿quienes son, para la población, los estudiantes de menos recursos? No es claro que esa frase les diga lo mismo a quienes respondieron la encuesta que a la élite que lo interprete.

Quizás lo más central es lo siguiente: El rechazo a la reforma como presentada, y a sus principios, no es igual a la aceptación del status quo (o incluso, de preferir sólo cambios leves). Las personas pueden desear cambios muy importantes a pesar que no les convenza la reforma actual y sus parámetros.

 

¿Cómo se puede usar los datos del CEP?

Una vez establecido que las preguntas son sesgadas, ¿se sigue de ello que la información que entrega la encuesta no es usable? Creo que la respuesta a lo anterior es negativa, y que la información de la encuesta puede usarse con provecho.

Primero porque las respuestas a una pregunta de encuesta son, indefectiblemente, respuestas a una pregunta de encuesta. No hay tal cosa como la expresión de la opinión real de las personas a través de estas preguntas. Las personas siempre eligen entre alternativas ya dadas a una pregunta ya dada. Tampoco es que ello ‘distorsione’ la opinión, porque eso implicaría que hay tal cosa como una actitud establecida distinta del hecho de responder a cuestiones en una conversación. Si preguntadas de tal forma responden X y preguntadas de esta otra forma responden Y, ambos son datos importantes para entender el proceso social. Al fin y al cabo, en la vida social sucede que se nos plantean preguntas dadas con alternativas pre-existentes, y no por estar dadas dejan de tener efectos sociales reales. Luego, si bien las preguntas están mal planteadas representan un hecho real: Es lo que la gente piensa cuando se le presentan alternativas tan sesgadas como esas.

Segundo porque si uno tiene conciencia de lo anterior, entonces es posible interpretar mejor los resultados y efectivamente encontrar un mejor uso de ellos. En otras palabras, si en vez de hacer una lectura inmediata tomo en cuenta que estamos ante respuestas específicas dadas en una situación concreta los datos me permiten entender algo de lo que sucede en Chile. Los resultados de las preguntas son resultados ‘exactos’ a condición que los analicemos en lo que son exactos (como respuestas a esa pregunta), al salirnos de ello pierden esa ‘exactitud’.

Una vez dicho lo anterior, entonces ¿que nos dice la encuesta?

  • Es un hecho real de la sociedad chilena que, presentadas alternativas sesgadas como lo hizo la encuesta, la mayoría de los chilenos rechaza eliminar la selección y el copago. Para todo aquél que le interese influenciar los términos del debate, eso es una información muy relevante.
  • Es un hecho también que frente a alternativas y preguntas sesgadas entre un 35% y un 40% de la población responde en cada pregunta a favor de un cambio radical: Por ejemplo un 37% piensa que el copago debiera estar prohibido incluso sí se le dice que es para mejorar la educación de sus hijos. Ese es un núcleo duro.
  • Es un hecho, anómalo en el contexto de la encuesta y en el contexto histórico de Chile, que un 41% de la población declare que ‘Es bueno que la educación sea entregada por el Estado solamente, para que todos reciban la misma educación’. Va en la misma lógica de un núcleo duro importante a favor de cambios muy radicales (de hecho, más radicales de lo que cualquiera ha planteado)
  • Es un hecho que la respuesta de las persona varía de acuerdo a las consideraciones que se pongan explícitas. La situación de las dos preguntas de selección es interesante. El CEP (y esto es un acierto de la encuesta, reconozcamos lo que está bien hecho) diferenció la selección por proyecto educativo y la selección académica y encontró resultados dispares. La selección académica, si es que además se plantea en relación a liceos de excelencia, es aceptada (54%) pero en relación a proyecto educativo no es aceptada (55% en desacuerdo). Si la CEP hubiera hecho un juego similar en otras preguntas hubiera sido de interés.
  • Es un hecho que las personas prefieren colegios de estatus socioeconómico similar: Prefiero que mis hijos vayan a colegios con sus ‘iguales’ a qué estén en colegios con ‘distintos’. Una posible interpretación es que el miedo a juntarse con ‘los de más abajo’ es mayor que la posibilidad de ‘mejora’ por compartir con ‘los de más arriba’. En una sociedad altamente segregada en general no es raro que eso se siga valorando en el colegio. Ahora bien, la pregunta es comparada (se realizó también el 2006, por lo que no es un problema de este cuestionario) y nos muestra una disminución leve de esa preferencia. Sí se quiere, ese es el núcleo duro contra la reforma (del mismo modo que ya vimos algo del núcleo duro a favor de cambios).

Para calibrar los datos sería bueno disponer de las bases (el CEP no las ha liberado al momento de escribir estas líneas) y quizás sería excelente poder disponer de una encuesta con el sesgo contrario: Que buscara respuestas pro-reforma. Al tener los efectos de dos sesgos distintos podemos calibrar la variación de las respuestas de acuerdo a las consideraciones que cada pregunta instala.

El Informe de la Comisión Internacional del Censo

Cómo la recomendación de la Comisión Internacional del Censo (disponible en esta dirección el informe completo) es muy distinta de la recomendación de la Comisión Nacional (disponible aquí) y que fue discutida en entrada en el blog en este link, en un caso se dice que los datos del censo 2012 se pueden usar y en otro se recomienda hacer un censo corto, no resultara banal comparar los análisis de las comisiones.

El análisis se puede dividir en los siguientes apartados:

Consideraciones que ambas comisiones coinciden.

Lo primero es que las dos comisiones coinciden en que las estimaciones realizadas en base a hogares no observados son inaceptables. Es la primera recomendación de la Comisión Internacional, página 59 y en el análisis se dice:

The imputation of housing units that were not observed in census field operations, and of then imputing households and persons to these imputed housing units, is not a generally recognized international practice. We find no mention of it in the United Nations Handbook on Population and Housing Census Editing (Informe Comisión Internacional, página 29)

Para un informe que está escrito en el estilo de funcionarios internacionales son palabras relativamente fuertes. En ese sentido, esa decisión -que es responsabilidad plena del anterior director del INE- ha quedado a firme como una decisión deplorable, y la salida del INE de la mencionada persona está plenamente justificada.

Lo segundo es que, aunque le da menos importancia y los desarrolla en mucho menor detalle, hay varias de las críticas que realizó la Comisión Nacional que se mantienen en la Comisión Internacional.

Por ejemplo en lo relativo a la ausencia de pre-test. El hecho que se realizara un cambio desde un censo de facto a uno de jure sin analizar mayormente las consecuencias de ese cambio fue uno de los puntos relevantes de la crítica de la Comisión Nacional y se repite en la Comisión Internacional. Esta dice:

Some aspects of field operations, such as the packing, delivery and return of census materials, are similar for de facto and de jure censuses. Other aspects, such as recruitment and training of the staff, field organization, monitoring and reporting during the enumeration are very different.
Implementation of a pilot census is a widely accepted practice and is internationally recommended (UN Principles and Recommendations paragraph 1.195). It is a main milestone to evaluate the quality of census operations (UN Principles and Recommendations paragraph 1.430).
A pilot census would have also supported to measure the level of participation and the response rate of the population, and the appropriate use of the concept of “usual resident” which characterize a de jure census (Informe página 21)

De hecho, en las recomendaciones para futuros censos se puede leer implícitamente varias críticas a la forma en que se realizó el censo por parte de la Comisión Internacional. Por ejemplo que el período de terreno no debiera superar 2 semanas (página 57) o que se de un tiempo relevante para planificar el Censo (página 60) no dejan de ser, finalmente, críticas.

Temas abordados en mayor profundidad por la Comisión Internacional

La Comisión Internacional dedica un largo espacio al procesamiento de datos para concluir que, en general, este no presenta problemas mayores (y fue uno de los pocos datos que aparece en el comunicado de prensa): Que

The report on the data capture prepared by INE indicates a data capture error rates of  0.14% for housing unit data and 0.29% for person data. These rates indicate good quality of data capture (Informe, página 58).

Ahora el caso es que eso no fue parte de los elementos de los cuales estaban centradas las dudas -sobre la calidad de las cédulas recibidas-. Que la Comisión Internacional, al revisar todas las etapas, registrara lo anterior es parte de su tarea; pero no deja de ser necesario puntualizar que la discusión del Censo verso sobre otros motivos.

Otro aspecto en que la Comisión Internacional pone más atención es en relación a las medidas correctivas que el INE ha desarrollado (o empezado a desarrollar) sobre el Censo, Y la conclusión en ambos casos es que se recomienda que ellas se detengan: Tanto la encuesta post-enumeración como la muestra de viviendas no entrevistadas. Es curioso, a decir verdad, que en ambos casos la Comisión es bastante crítica de las decisiones técnicas y metodológicas del INE. Por ejemplo, “INE developed the PCS estimation methodology which is not statistically defensible” (página 45 del Informe). No deja de ser curioso porque la misma institución que desarrolla estimaciones que no son defendibles sí parece ser capaz de realizar un censo aceptable sin por ejemplo tener una planificación adecuada (que es lo que dice la Comisión sobre el Censo 2012). Por decir lo menos, no es un informe que -de hecho- entregue mucha confianza sobre las decisiones del INE a este respecto.

Discrepancias entre comisiones.

Recordemos que aquí nos estamos centrando en el análisis no en las recomendaciones, por lo que no abordaremos la última discrepancia. En términos de análisis la discrepancia más importante dice relación con la tasa de omisión: La Comisión Nacional la estimó en un 9,3 usando estadísticas vitales.

La Comisión Internacional dice:

Demographic equation estimates of the total population of Chile as of the 2012 census may be made using vital registration numbers of births and deaths (it appears that international migration numbers may be too small to have an appreciable effect). Lacking the requisite evaluation of data quality, however, these estimates do not, based on international recommendations, provide a statistically sound basis for estimating 2012 census omission (Informe página 49)

La Comisión Internacional plantea que en general en Chile se estima que las estadísticas vitales son precisas y registran de manera exhaustiva los nacimientos y muertes. Pero que, en realidad, no hay un estudio que lo avale. Lo cual suena razonable.

Lo que quizás no es tan razonable son las conclusiones que sacan a partir de ello. Porque el problema es que la Comisión Internacional recomienda usar el censo sin tener evidencia alguna que el censo cumple con estándares de calidad, y el hecho que no sea posible calcular la omisión es ya un problema importante. Que el procesamiento de datos hecho muestre que las cédulas respondidas fueron trasladadas adecuadamente a las bases no implica que el Censo fue bien hecho cuando los problemas están puestos en otros elementos (sobre los cuales, de hecho, la Comisión Internacional no se pronuncia, como todos los problemas en el proceso de terreno que documentó la Comisión Nacional).

Más aún, como puro razonamiento técnico tiene debilidades. Porque el nivel de omisión que se calculo (9,3%) tiene consecuencias. La estimación es tan alta que para que ese calculo no indicara problemas en el censo (i.e que la omisión estuviera en estándares normales), las estadísticas vitales en Chile debieran ser extremadamente inexactas.  Una cosa es que no exista un estudio que establezca el nivel de validez de las estadísticas vitales, otra cosa es aceptar como posible una situación bajo la cual no tengan casi nula validez. En otras palabras hay que optar por dos posibilidades: (a) las estadísticas vitales están meridianamente bien hechas, y el registro de nacimientos y muertes opera razonablemente o (b) el Censo 2012 es plausiblemente válido. Pero no se pueden tener ambas cosas. De más está decir que en mi no muy comisionada opinión, la alternativa (a) me parece más probable.

En cualquier caso, uno observa una diferencia sustancial entre las comisiones en el estilo del análisis. Un caso específico puede observarse en lo relativo a la capacitación Así la Comisión Nacional desarrolla un análisis específico de las dificultades de capacitación, realizando una estimación del número de encuestadores no capacitados. La Comisión Internacional hace una observación similar, pero sintetizada al punto de ser casi críptica:

Even with 20% of staff planned as reserve, in some areas of the country many enumerators resigned during the enumeration period and some local census offices faced difficulties to replace them (Informe página 21)

Esa diferencia en el nivel de exhaustividad del análisis, y de la presentación de él, es recurrente a lo largo del informe de la Comisión Internacional.

En conclusión.

En última instancia, creo que las Comisiones tienen recomendaciones distintas porque sus criterios eran diferentes. El baremo de ‘la información es útil’ es más bajo que usar como criterio el ‘la información es válida’. La Comisión Internacional se centró en la primera pregunta, la Comisión Nacional en la segunda. Los antecedentes para decir que el Censo es válido son escasos y débiles; pero ello no obsta para que, con mucho cuidado, algo de utilidad tengan.

NOTA: Tengo la impresión, pero esto es puro mal juicio mío, que la diferencia es una de expectativas también. La Comisión Internacional no nos evalúo a nosotros con un baremo muy alto -‘de todas formas algo se puede usar’. No estoy seguro que  hubieran evaluado con la misma mano si hubieran encontrado estos problemas en un Censo de país desarrollado. Pero, claro, al fin y al cabo; un país desarrollado no llama a una Comisión Internacional para que le digan como se hace el Censo.

 

Las Encuestas tras la elección de Noviembre del 2013.

Mi idea de hacer una entrada sobre el temas de las (vilipendiadas) encuestas y los resultados de la elección del domingo 17 se facilitó enormemente por el hecho que Kenneth Bunker en TresQuintos.com, al evaluar los pronósticos de la elección (incluyendo el suyo) mostró algunos cuadros resumen de lo que sucedió con las encuestas.

El cuadro más relevante para analizar la situación de las encuestas es el tercero de la entrada que comentamos que es el siguiente:

Errores de encuestas en elección

El pronóstico de TresQuintos se basa en un modelo de agregación de los resultados de encuestas (usando un modelo bastante más complejo que un simple promedio en cualquier caso, se usa Bayes, simulaciones de MonteCarlo, se ajuste por varios parámetros etc.). Ahora, dado que usa las encuestas como insumo y no es un pronóstico independiente, no sirve para responder la pregunta de si las encuestas lo hicieron bien, que es lo que nos interesa aquí.

El dato ‘predicho’ por cada encuesta corresponde al porcentaje de preferencia por candidato sobre el total de preferencias declaradas en esa encuesta, que es equivalente a cómo funciona el sistema electoral: En el que sólo se cuentan los votos válidamente emitidos para calcular porcentajes (En ese sentido, el valor CEP de Bachelet es de un 60% por ejemplo). Se puede discutir si esto es o no adecuado, pero dado que replica cómo funciona el sistema no parece ser completamente inadecuado.

Más allá de los preliminares, podemos observar que la situación no es tan compleja como pudiera parecer a primera vista. Conecta se mantiene dentro o cerca del margen de error en todos los casos, Opina y La Segunda tienen errores relevantes en un candidato (Bachelet y Matthei respectivamente). Por otro lado, las encuestadoras grandes sí tienen diferencias importantes -CEP e Ipsos. Ahora bien, dado que hay una diferencia entre la fecha de las encuestas y la fecha de la elección, una diferencia de resultados es esperable porque entre medio bien puede cambiar la realidad (i.e que a la fecha de la encuesta la diferencia con el valor real era menor, y que los altos valores de diferencia sean además producto de una diferencia en la realidad). En otras palabras, los resultados no quieren decir necesariamente que CEP estuviera equivocado en la encuesta de Octubre.

Lo que sí quieren decir es que (a) efectivamente resulta posible tener buenos estimadores de una elección bajo voto voluntario y que (b) queda todavía harto trabajo que hacer para disminuir los errores. Pero esto requiere hacer investigación metodológica, en por ejemplo ¿que tipo de preguntas son adecuadas para filtrar votantes? Dado que las distintas encuestas no hicieron las mismas preguntas para ello bien serviría para evaluar cual funciona mejor -aunque, claro está, requeriría que los cuestionarios fueran públicos, lo que no siempre ocurre, pero parece ser -si queremos mejorar las estimaciones- necesario.

Finalmente, un excurso: Un modelo de agregación bien hecho debe dar menores errores que cada encuesta en particular. Recordemos que cada encuesta extrae una muestra de todas las muestras posibles, y que si no hay sesgo y son aleatorias el promedio de la distribución de todas las muestras es equivalente al promedio del universo. Ahora bien, agregar es análogo a extraer más muestras de esa distribución y por lo tanto a acercarse al promedio del universo. Lo anterior, por cierto, que simplifica mucho del trabajo de un modelo agregado (en que hay que corregir por los sesgos, tomar en cuenta varios parámetros, y por cierto no es exacto decir que son varias muestras del mismo universo); pero nos explica la utilidad y relevancia de ese trabajo: Si se construye un buen modelo, entonces tenemos una alta probabilidad de tener un mejor pronóstico que el que entrega cada encuesta por separado, que es lo que interesa finalmente.

A Propósito del Informe de la Comisión Revisora del Censo

9,3% de omisión general de población, cifras que es bastante superior en algunas comunas y grupos de edad; inconsistencias en el número de viviendas en varias comunas; un 12,3% de viviendas desocupadas, cifra muy superior al de censos anteriores. Todo ello, entre otras muchas otras cosas, amerita a ojos de la Comisión Externa Revisora la necesidad de hacer el censo de nuevo el 2015 (ver el informe aquí).

Esos son los resultados. De particular interés es la descripción del proceso del Censo que realiza la comisión, porque es de los múltiples errores cometidos durante ese proceso que se generaron los resultados ya mencionados. Los principales errores se pueden clasificar en dos grupos que procederemos a analizar a continuación:

A) Errores asociados a la implementación del Diseño. Cambiar de un censo de hecho a un censo de derecho no es un error, como lo muestra con claridad el mayor número de países que realiza este tipo de censo en años recientes. Lo que sí es un error es realizar ese cambio sin realizar las acciones que la hacen posible y sin tomar en cuenta la complejidad que el cambio involucra. En última instancia, fue una actitud de no hacerse cargo de las decisiones. Veamos algunos de los problemas de esta área:

  • Tomar la decisión de cambiar de tipo de Censo cuando el proceso de éste ya se encuentra en curso. Esto ya es problemático, pero lo es más el que no se adapten las actividades ya realizadas al nuevo estándar. Por ejemplo, si bien el Censo contó con pilotos, no se realizó uno para validar los procedimientos después del cambio de la decisión a un censo de derecho.
  • No cambiar la programación de validación del censo, basado en uno de hecho, a la nueva situación, con el resultado que no contamos todavía con una base plenamente consistente.
  • No tomar en serio las necesidades de recursos requeridos para hacer un censo de derecho. Sobre la estimación inicial de costos, la Dirección pidió 800 millones menos. Y ante el hecho que la estimación inicial estuvo bajo lo necesario, en vez de buscar nuevos recursos se toman decisiones como trabajar con un número menor de encuestadores.

B) Errores asociados a la implementación del Terreno. La última consideración nos empieza a dirigir del diseño al terreno. En este ámbito aparecen varios problemas graves que además, muchos de ellos, eran de fácil solución o resultaban previsibles.

  • El hecho de pagar al encuestador por día y no por encuesta realizada, esta última la práctica habitual en las empresas de encuestas, puede que haya resultado inevitable -dado como funciona el Estado-. El hecho de no reforzar la supervisión para resolver los problemas esperables dada esa situación sí constituye un claro error.
  • Establecer que el estado de vivienda desocupada no requería nueva visita, mientras que ocupada sin moradores requería 3 visitas corresponde a un error; cuando el incentivo del encuestador -que recordemos era pagado por día y no por encuesta- era claramente a declarar como desocupada toda vivienda en que no encontrara alguien que respondiera.
  • Falta de dirección frente a los problemas encontrados. Durante el desarrollo del Censo, al aparecer el problema de entrevistas no logradas, la dirección se reduce a plantear que se realicen todos los esfuerzos posibles. Pero no hay protocolos, instrucciones o recopilación de buenas prácticas que provengan desde la dirección, sino que cada equipo regional opero por su cuenta.
  • Los horarios en que se realizaron las encuestas correspondió a un horario laboral, contra la práctica habitual de terreno, Y dado que ese horario es más probable que no se encuentren personas en el hogar, esto claramente ayuda al problema de casos no logrados.
  • Los problemas de terreno también incluyeron una alta rotación de entrevistadores. Esto suele generar problemas logísticos en el terreno, y en este caso en particular implicó que cerca un 27% de los entrevistadores tuviera problemas de capacitación.

Todos los problemas anteriores son relevantes y afectan el contar con un buen censo. Y todo esto sin entrar siquiera en otros problemas, como cuestionario, o la decisión -invento de la dirección del INE de ese momento- de estimar el número de viviendas no censadas y proceder a ‘poblarlas’ de personas e incluir esto en las cifras oficiales. Sin entrar en los problemas de resultados e imputaciones, ya nos encontramos con problemas muy graves.

Dada la centralidad del Censo en la generación de estadísticas sobre la realidad nacional, y su relevancia en generar marcos muestrales para buena parte de los estudios del sistema estadístico nacional, sí parece ser necesario seguir la recomendación de la Comisión.

Encuestas Políticas en elecciones voluntarias

A meses de las elecciones ya estamos empezando nuevamente a estar llenos de encuestas políticas y electorales. En relación a ellas creo que vale la siguiente admonición: Una encuesta para ser mínimamente atendible en las presentes circunstancias debe tener preguntas / modelo de intención de voto real.

En otras palabras usar el mismo tipo de preguntas que se usaba normalmente en encuestas políticas previo a las elecciones voluntarias no tiene el menor sentido. Uno podría suponer que lo que sucedió en las elecciones municipales debiera haber sido suficiente, pero al parecer no.

Ahora es perfectamente posible que las encuestas que han salido recientemente en prensa no presenten esos datos porque para los objetivos comunicacionales de dichos estudios no tienen sentido -digamos, dado que quieren instalar un hecho político entonces este tipo de cosas no tiene mucha relevancia.

Pero si uno quiere entender que es lo que está sucediendo diferenciar la mera adhesión de la intención real de votar adquiere alguna importancia. Pensemos en los datos que entrega la última encuesta Adimark en torno a las primarias (disponible aquí)

Adhesión Política % Población % del grupo seguramente votara en primarias % en relación a población que votara en primarias
Gobierno 27 36 10
Oposición 43 44 19
Ninguno / otros (30) 19 6

La disposición a votar en primarias no es la disposición a votar en la elección, pero si ella es un proxy del comportamiento electoral, y además las proporciones se mantienen (lo que son suposiciones con algún grado de plausibilidad) entonces podemos observar nuevamente la relevancia de tomar en cuenta estos factores.

De hecho nos muestra algo que puede ser relevante a la hora de la elección en noviembre: Que el grupo más desinteresado en la política, que muchas veces se ha constituido en el votante móvil que los candidatos buscaban (y decidían las elecciones); puede, por esas mismas características, quedarse en su casa y no votar, y perder relevancia. Que un ciudadano que está lejos de la política y cree que todos los políticos, sin excepción, son un desastre, bien puede quedarse en la casa; o terminar votando por un candidato que es completamente outsider.

La representación de la realidad social en las encuestas, o sobre la opinión real de las personas

Todo partió en Chilesoc. José Manuel Ferreiro envío un correo a la lista haciendo notar que  en El Mostrador se había publicado una columna de Sabrobsky a propósito de las encuestas -la columna en este link-, y que ‘por otro lado, creo que todos quienes directa o indirectamente hemos trabajado con encuestas (como encuestadores o en su diseño y/o análisis) hemos tenido varias de las dudas que aquí se plantean (y probablemente hemos activado mecanismos para dejarlas de lado y seguir trabajando)’. Escribí una réplica, y para que no se me olvide, la escribo también en este blog, y aparece -tal cual fue enviada a Chilesoc- a continuación:

En realidad yo discrepo con el supuesto básico de la columna: Se dice que las encuestas no representan la opinión real de las personas y que eso es un problema. Pero es evidente que las encuestas no pueden representar la opinión real de las personas (i.e la opinión real sobre un tema siempre va más allá de las cuatro o cinco alternativas que se le presentan, es claro que no siempre tienen claro lo que creen etc.). Las encuestas funcionan porque la sociedad no funciona sobre la opinión real de las personas (por ejemplo, muchas veces la opinión deseable tiene más implicancias reales en la sociedad que la supuestamente real), y la opinión limitada que responden en una encuesta es muchas veces la opinión limitada que efectivamente usan en la vida social.

De hecho en mi opinión, la mayoría de los problemas con las encuestas de opinión es un problema de interpretación más que de pregunta. Hay un caso famoso de efectos de contexto en encuestas. A los gringos en los años 50 se les preguntaba si creían si un reportero soviético tenía el derecho a ir a EE.UU y volver a su país a decir las cosas que quisiera. La mayoría se opuso. Ahora, si eso se preguntaba luego de hacerles la misma pregunta pero invertida (sobre un reportero gringo en la Unión Soviética) las cifras cambiaban. La pregunta se repitió en los ’70 con el resultado que el efecto se mantuvo pero mucho más diluido. Ahora, todo eso es informativo y nos dice cosas acerca de la sociedad norteamericana. Imagínese la pregunta más sesgada que le sea posible pensar, e incluso esas respuestas serán informativa de algo.

Si uno recuerda lo limitado que es la respuesta a las preguntas de una encuesta (están seleccionando una alternativa ente las que les presenté, en ese contexto específico de cuestionario; no me están dando la opinón real sobre el tema), entonces no dejan de ser útiles e informativas; tratarlas como otra cosa genera una serie de problemas

Que las encuestas generan realidad y no sólo la describen es bien sabido. Pero todas las acciones en la sociedad construyen sociedad. No es algo particular de las encuestas.

BTW, la paradoja inicial es falsa. La siguiente afirmación podría caer bajo paradoja: ‘Yo, que soy chileno, afirmo que ningún chileno en ocasión alguna dice las cosas de frente’. Ahora la siguiente afirmación no es equivalente a la anterior: ‘Yo, que soy chileno, afirmo que es propio de los chilenos no decir las cosas de frente’. El sujeto bien puede pensar que el no hace las cosas típicas de los chilenos, o al menos que no lo hace siempre (incluyendo la respuesta a la pregunta). Ya dije que el principal problema de las encuestas era la interpretación y ahí aparece de nuevo

A propósito de la discusión sobre la CASEN 2011

No es la costumbre de este blog dedicarse a comentar asuntos de coyuntura, pero todo el tema de la CASEN me tiene algo aburrido. Y por la razón más sencilla: porque todos los participantes del debate se han dedicado a politizar el asunto.

Veamos cada uno de los puntos de la polémica.

(1) La comunicación sobre la disminución de la pobreza en 0,7 puntos. Dado el error muestral diseñado del estudio, y el hecho que es probable que el error muestral efectivo sea mayor, hace que -por lo menos- hacer una alharaca con el resultado estaba de más. Aquí el Gobierno no tiene, creo, como defenderse de la acusación que hizo una manipulación comunicacional. Que Andrés Hernando, ex-jefe de la División de Estudios, declare que siente que Lavín lo manipuló, aun cuando defiende todas las decisiones técnicas de la encuesta, debiera ser suficiente para dejar en claro la situación.

(2) El tema de las dos muestras. Primero, los documentos al respecto estaban disponibles en el sitio web del Ministerio (hacer click aquí), o sea la crítica que esto no se sabía sólo muestra que el crítico no buscó la información. Aquí uno puede ver que la propuesta del Ministerio de la CASEN ya hablaba de ampliar el tiempo de la encuesta y de hacer una muestra en dos fases. El Ministerio ha planteado que la recomendación de la muestra en dos fases fue del Comité de Expertos, pero Larrañaga ha negado que esa fuera una recomendación, sino que la recomendación fue ampliar el período. Ok. Ahora si amplio el período de toma de datos de una variable que es estacional, como lo es ingresos, evidentemente si quiero comparar tengo que hacerlo con lo comparable: Ergo, puedo comparar los mismos meses, que es equivalente a lo que se hacía antes. No puedo hacer la comparación con el período completo de terreno, que el 2011 fue más extenso, porque entonces es probable que los cambios encontrados sean producto del cambio en el diseño del estudio. En otras palabras, todo el escándalo por ese tema no tiene el menor sentido.

(3) El tema de los subsidios: Que estos subsidios no se mensualizaron como era lo que correspondía. A la respuesta del gobierno que la CEPAL fue la que tomó esa decisión porque ellos estimaron que la diferencia no era relevante y porque había una alta tasa de sub-reporte (y de hecho al parecer el efecto son dos décimas), se respondió con una acusación más profunda que de manipulación de cifras, que es la de mal diseño:

‘Una respuesta posible es que la “imputación del bono” nunca había sido necesaria, pues en encuestas anteriores los cuestionarios permitían distinguir si un ingreso dado (por ejemplo, un bono) era periódico y regular o por una sola vez. Cuando reconoce la necesidad de imputar específicamente el bono, el asesor confirma un segundo error técnico: el cuestionario fue mal diseñado’ (Velasco y Contreras en La Tercera el 21 de Agosto, ver aquí).

Dado que los cuestionarios son públicos es cosa de comparar (aquí Cuestionario 2009 y aquí Cuestionario 2011). En general, no parecen ser formas demasiado distintas de preguntar. Los bonos únicos (por ejemplo, bonos marzo o invierno) se preguntaron por período de referencia de 12 meses en los dos cuestionarios. En otros casos, como el bono de protección social se preguntó por la recepción en el último mes. En general, bonos comparables se preguntaron de formas similares. Los cuestionarios no son idénticos porque los bonos entregados por el Estado no eran los mismos, pero cuando cambia la realidad no queda más que cambiar el cuestionario. En todo caso, en general no se agregó en relación a subsidios preguntas por periodicidad ya sea el 2009 o el 2011 (donde se pregunta de manera sistemática por periodicidad es en ingresos laborales). Eso no obsta para que existan problemas en relación a la pregunta y su comparabilidad, y que se pueda discutir sobre el tema de cómo se asignó el subsidio, pero de ahí a decir que el cuestionario fue mal diseñado hay un trecho bastante grande.

(4) Finalmente, el tema de la pregunta y11, la pregunta por ingresos de desocupados o inactivos. Aquí el centro de la polémica ha estado en que la CEPAL originalmente no incluyó esa pregunta en su cálculo (y daba un 15%, o sea no había existido baja) y el gobierno, entonces, manipuló y exigió que se incluyera (y quedo en el 14,4% conocido). Ahora, escuchemos lo que dice Hernándo, que era el jefe de la División Estudios, en entrevista en el Ciper (aquí):

-¿Quien le pidió que la enviara? 
-Mi jefa me preguntó cuál era la opinión de mi quipo [sic]. Quiero aclarar que no estuve en el proceso de elaboración del cuestionario cuando se hizo la pregunta “y11”. Ese proceso dependía de la División de Desarrollo Social. Yo le pregunté a Carolina Casas-Cordero que es la actual encargada del tema y ella me presentó sus argumentos técnicos, que están todos en la minuta que mandamos, y me convenció de que lo razonable era incluir la pregunta “y11”.

El argumento no provino entonces de las cabezas políticas ministeriales, sino finalmente de los cuadros técnicos del Ministerio. En otras palabras, cualquiera fuera el gobierno, se hubiera hecho la petición. Y la razón es clara: los cambios en cuestionario no se hacen porque sí y entonces esto tiene que ver con las posibles razones para incluir esa pregunta. El argumento de Casas-Cordero fue que la y11 no agrega ingresos sino que desagrega un ingreso que siempre fue considerado (en la pregunta de otros ingresos) y el pre-test habría mostrado eso. Ahora, la opción de desagregar posiblemente provino que desagregar entrega información más precisa, que los desempleados en la CASEN se hacen en torno a una semana de referencia pero los ingresos laborales son mensuales etc.

El caso es que sí se incluyó una pregunta nueva (la y11) dentro de ingresos no es extraño que cuando se reciben cifras que no consideran esa pregunta el diseñador del cuestionario -que no es la CEPAL en última instancia- reclame. De hecho, la CEPAL ahora intenta salirse del tema declarando que ‘ellos no discuten lo que deciden los gobiernos’, cuando la minuta de hecho indicaba que si tenían dudas las hicieran llegar. Si se quiere, la decisión del gobierno incluía que podían hacer valer su dudas.  Presumiblemente la minuta debió tener la explicación más detallada (i.e presentar los datos del pre-test que lo avalan), pero no creo que una minuta insuficientemente detallada sea para hacer escándalo tremebundo.

 

Había partido todo esto diciendo que todo el mundo había politizado el tema. El gobierno desde sus inicios lo hizo en términos comunicacionales: Armando un gran alboroto por algo que no era para tanto -incluso si uno toma los datos sin discutirlos, no había pasado más que había vuelto a disminuir la pobreza, como lo ha hecho casi siempre con la CASEN, y de hecho todavía no volvemos a los niveles del 2006.

Pero los críticos también han politizado el asunto. En primer lugar, por empezar a hablar sin informarse. Varios de estos puntos estaban en documentos públicos. En segundo lugar, por hacer también una trampa comunicacional al pedir precisiones: Si de verdad tengo consultas técnicas sobre la CASEN no se las hago al Ministro en un Seminario -el Ministro no deja de ser un mero político-, se las hago al encargado de la Encuesta. En tercer lugar, porque se ha pasado de criticar la forma de comunicación de resultados a empezar a poner dudas en todas las cifras, recordemos la cita de ‘cuestionario mal diseñado’, por algo que de hecho era similar en CASEN anteriores.

La politización de la CASEN ya tiene sus años. El primer año que se hizo uso político de estas cosas fue el 2006. Fue la primera vez que alguien habló en referencia a la CASEN como la ‘encuesta del gobierno’ (Hernán Larraín en ese momento), o en que actores políticos que nada saben de Encuestas -Allamand en ese caso- se dedicaran a hacer comentarios técnicos, por ejemplo en torno a los cambios de pobreza a nivel comunal -tema muy discutido en ese entonces. Y ahora que la Concertación está pensando en una comisión investigadora, leamos esta nota de El Mostrador del 23 de Julio del 2007:

“Derecha solicitará interpelación de ministra Hardy por encuesta Casen. El jefe de la bancada RN, Mario Bertolino, justificó la decisión ya que su sector cree que la información del Mideplan, que dio cuenta de una reducción de la pobreza de un 18,7% a 13,7% desde 2003 a 2006, es contradictoria y que su posible falta de veracidad podría poner en riesgo la elaboración de programas sociales”

Pero uno no espera mucho más de los políticos a decir verdad. Lo que es realmente penoso es que gente supuestamente más seria (30 economistas que firman una carta sobre la CASEN por ejemplo) empiece a adquirir los mismos malos hábitos (i.e no revisar la información, no hacer las preguntas a quién probablemente puede responderlas etc.) creo que es más preocupante.

Un recordatorio a Adimark: En una encuesta con 3 puntos de error no puedes decir que 1 punto significa cambio

Salio un poco largo el título pero en fin.

La presentación de la Encuesta Adimark-GFK dice: ‘Comentario Evaluación de Gobierno Junio 2012: Presidente Piñera sube levemente su nivel de aprobación. En junio, un 34% aprueba su gestión (33% en mayo) y un 58% la desaprueba’ (lámina 6 de la presentación, disponible aquí).

Pero ustedes mismos recuerdan que la encuesta tiene 3 puntos de error. Por lo que de un cambio de 1 punto en la muestra no puedo concluir que en el universo eso paso efectivamente. De hecho, sería cosa que en vez de la estimación de punto usaran la de intervalo (i.e la aprobación en mayo estaba entre 30% y 36% puntos y en junio entre 31% y 37%) para darse cuenta de por qué no debieran decir eso. En otras palabras, los datos no dan para decir que la aprobación subió (como si lo daba en relación a la diferencia Abril-Mayo).

Ahora, eso es algo que la gente de Adimark sabe. Es del tipo de cosas que a uno le enseñan cuando le pasan el tema del margen de error. Por lo tanto, el hecho que lo escriban de esa forma implica o (a) voluntad de desinformacion o (b) bien bajo nivel de calidad en interpretación de datos.

A propósito de la CASEN y la evolución de la pobreza

Entre toda la discusión sobre el aumento de la pobreza, hay un tema que es interesante destacar. En la medición anterior (2006) la discusión fue sobre que había disminuido demasiado la pobreza (5 puntos, algo que no había sucedido durante un tiempo largo). Ahora, si uno compara la pobreza 2003 con la 2009 se da cuenta que la cifra 2009 está dentro de la linea de tendencia, si se quiere: En 6 años la pobreza habría disminuido 3,6 puntos, lo que es algo inferior pero comparable con lo sucedido anteriormente (de 1998 a 2003 había disminuido 3 puntos). La cifra extraña sigue siendo la del 2006.

El gráfico de la presentación (disponible aquí) es bastante claro, creo:

casen_pobreza_2009

 

Elecciones y encuesta

Eduardo Arriagada, en su blog en Comunicaciones de la UC, hizo un post sobre que en Chile no había sorpresas en las elecciones. En el blog se mostraba un gráfico creado por Roberto Méndez en que se planteaba que, básicamente, todas las encuestas -si uno contaba sólo los votos válidamente emitidos- habían estado cerca del resultado. En ese sentido, la elección había estado decidida hace varios meses.

Carlos Hunneus, que en El Mostrador ha escrito varias columnas sobre su predicción de resultados, escribió otra columna que Arriagada también publicó en su blog. En esa columna, luego de insistir que CERC fue el único que realizó predicciones, que todos son generales después de la batalla escribió lo siguiente:

En tercer lugar, la igualación del desempeño de las encuestas no es correcto, porque se hace cometiendo manipulación estadística, porque se sacan las respuestas no sabe/no responde, nulos y blancos después de las elecciones. Esta práctica, iniciada por Roberto Méndez después de las elecciones presidenciales de 1999, no ha conducido a que los encuestadores hagan este ejercicio antes de las elecciones presidenciales de 2005 y del 13 de diciembre, sino que después. El encuestador debe decir antes cual será el resultado, sabiendo que en Chile es sobre los votos validamente emitidos. No se puede ser general después de la batalla.

Y no se ha hecho por una razón muy simple, este es mi cuarto punto: los NS/NR no se pueden eliminar, porque una buena parte de ellos es voto escondido y debe ser asignado correctamente. Hay distintas maneras de hacerlo: mediante la aplicación de otras preguntas electorales y de temas políticos (asi lo hacemos en el CERC) o mediante una distribución proporcional según las respuestas de intención de voto o una combinación de ambas. El segundo ejercicio es riesgoso, porque puede llevar a sobreestimar al candidato que tiene un clima electoral muy favorable, que lo hace aparece como ganador.

Saber interpretar a los no sabe/no responde, este es otro punto que quiero aclarar, no es una elegancia académica, sino que es una exigencia profesional, para trabajar con la realidad y no con fabricaciones de ella

El problema es que no es ninguna manipulación estadística contar para calcular los porcentajes de votos sólo las preferencias de los candidatos. Los porcentajes de las elecciones se calculan sobre votos válidamente emitidos, no sobre el total de inscritos. Y ambos universos son distintos, por lo que no queda más que calcular los porcentajes como corresponde.

De hecho, es sencillamente incorrecto plantear que “los NS/NR no se pueden eliminar, porque una buena parte de ellos es voto escondido y debe ser asignado correctamente”.

La encuesta CEP de Octubre, para dar el ejemplo más claro, plantea que un 14% de los inscritos fueron NS/NR (link aquí). Bueno, ¿cual es el porcentaje de personas inscritas en los registros electorales que no dieron un voto válido en la elección reciente?

De acuerdo a elecciones.gob.cl el número de votos válidamente emitidos fue de 6.937.519 votos. El número de inscritos de acuerdo al SERVEL a Septiembre del 2009 fue de 8.285.186 (lamentablemente no hay datos más recientes). La diferencia corresponde al 16%.

En otras palabras, el porcentaje de NS/NR de la encuesta del CEP corresponde con pequeña diferencia (que es parte del margen de error) al porcentaje que no expresó preferencia por candidato alguno: No votaron, anularon, votaron en blanco etc. En otras palabras, no hay que asignarlos a candidato alguno, porque no votaron por algún candidato.

O sea, el universo de votos válidos (casi 7 millones) no es el universo de inscritos (8 millones y algo). Y para hacer comparable porcentajes calculados con respecto a esos universos distintos, tengo que hacer el calculo correspondiente. Eso no es ningún truco o manipulación estadística. Es sencillamente reconocer que hay gente que no vota en las elecciones. Que es un dato de la realidad. Perdón que son 1.327.667 datos de la realidad.