La pregunta clave a hacerse al enfrentar uno de estos estudios, es "¿Qué no me están diciendo?"
El huevo subía el colesterol, hasta que repentinamente la ciencia concluyó que no era así. El café produce cáncer y a la vez, lo previene. El timerosal causa autismo, salvo que no hay pruebas de eso y está prácticamente descartado. La educación particular subvencionada tiene mejores resultados que la municipal, aunque "corrigiendo los datos", no es así. El impuesto a los combustibles es un impuesto progresivo que afecta más a los ricos, a la vez que regresivo y perjudicial para los pobres.
En un mar de estudios contradictorios ¿cómo puede un político hacer bien su trabajo? ¿en quién se puede confiar para orientar las políticas públicas? ¿a quién debe entrevistar un periodista que busca una visión objetiva? Preguntas como esta desvelan a la comunidad científica y a todos aquellos que quisieran que la investigación científica entregara certezas más que dudas.
Ante la imposibilidad de pedir a todos los políticos y periodistas que se especialicen en ciencias, ante lo poco confiable de sus "asesores" y ante lo improbable de que la comunidad científica se introduzca de lleno en la política y el periodismo,
la revista Nature desarrolló una guía para que aquellos que deban tomar decisiones en base a estudios, puedan entender la cualidad, limitaciones y parcialidad de la evidencia que estos entregan. La idea, según declaran sus autores, es que, si bien pueden no entender en profundidad la ciencia detrás de un estudio, nuestros líderes políticos y de opinión, puedan al menos
interrogar inteligentemente a sus autores y determinar qué tan parcial es la evidencia que se les está entregando.
Antes que nada, entienda la función de la ciencia
El mundo real varía impredeciblemente y la función de la ciencia es, más que nada, identificar las causas de los patrones que vemos. El desafío, claramente, es separar aquello que efectivamente causa el fenómeno, de todos los otros factores involucrados que también podrían explicar las variaciones observadas, pero no son responsables de ellas.
¿Por qué están desapareciendo las abejas? ¿Pesticidas, cambio climático, urbanización, depredadores, transgénicos? ...la ciencia tiene la difícil tarea de buscar a el o los culpables, en un mundo lleno de incertezas.
Y como veremos en los siguientes puntos, eso no es fácil.
1. Ninguna medición es exacta
Prácticamente todas las mediciones que se hacen en ciencia y economía, consideran algún margen de error. Es decir, repitiendo la medición, el resultado podría ser distinto.
Fue el caso de la publicitada y celebrada "reducción de la pobreza" de 0,7% registrada por la encuesta Casen el año 2012, que
le valió toda clase de críticas al Ministro de Desarrollo Social de la época, Joaquín Lavin, pues finalmente dicha variación caía dentro del margen de error de la encuesta (que además no se hizo público en el momento de publicar los resultados). Es decir, la supuesta baja de pobreza bien podía ser un error en la medición.
Por eso, todo estudio debe declarar explícitamente su margen de error estimado y por lo tanto, entregar sus resultados considerando dicho margen de error, para no insinuar un grado de seguridad que no es real.
2. Los sesgos reinan
Todo tipo de sesgos pueden alterar los resultados de un experimento o encuesta: Por ejemplo, la herramienta utilizada para recoger la información (teléfono, internet, calle) puede sesgar el tipo de personas consultadas hacia un grupo particular que utiliza más uno de esos medios. Las expectativas, tanto de los participantes de un experimento como de quienes lo desarrollan, pueden llevarlos a actuar o ser más sensibles a cierto tipo de efectos (por eso se busca que sean tests "ciegos" tanto para los participantes como para quienes recogen la información, lo que es casi imposible en estudios sociales). También el sesgo de "confirmación" puede llevar a que científicos dejen de explorar explicaciones alternativas cuando un resultado se ajusta a sus expectativas. Los investigadores pueden escoger aquellos datos que apoyan sus teorías y desechar todo el resto. Por último, las publicaciones especializadas tienden a privilegiar cierto tipo de estudios (los más grandes y con resultados más espectaculares) de modo que se tiende a sobredimensionar el impacto de un problema o la efectivdad de una solución.
3. Más grande es mejor (cuando se hacen muestras)
Mientras más grande (y variado) sea el grupo sobre el que se realiza un estudio, el promedio de sus resultados será más decidor. Esto es especialmente cierto cuando hay muchos factores externos interviniendo, en cuyo caso, un testeo debe considerar miles o decenas de miles de sujetos para poder considerarse confiable.
4. Correlación no implica causalidad
¿Sabías que la cantidad de personas que mueren ahogadas en piscinas en EE.UU. es directamente proporcional a la cantidad de películas de Nicolas Cage que salen en un año? ¿O que el consumo de queso está estadísticamente relacionado con la probabilidad de morir por enredarse en las sábanas?
Gráfico de correlación entre personas ahogadas en piscinas y películas con Nicolas Cage. Fuente: Spurious Correlations
Ese es el tipo de
relaciones que encuentra automáticamente el sitio Spurious Correlations (correlaciones espurias), cruzando información estadística de todo tipo, en busca de coincidencias, y que finalmente prueba una sola cosa:
Que dos fenómenos coincidan, no necesariamente implica que estén relacionados entre sí o que uno haya causado al otro. Bien puede ser que se trate de una mera coincidencia, o que ambos estén siendo causados por un tercer factor externo no identificado.
Así que la próxima vez que su político de turno atribuya una baja en la delincuencia a cierta estrategia policial, o que un candidato declare haber mejorado la economía con alguna brillante política pública, levanta una ceja.
5. Cuidado con las anomalías
Si uno hace una medición y detecta un patrón inusual y extremo (por ejemplo, una esquina donde se han producido muchos accidentes de tránsito), puede estar apreciando un fenómeno meramente circunstancial, que se va a normalizar en las siguientes mediciones.
Uno podría creer, erróneamente, que porque puso un lomo de toro en dicha esquina, los accidentes bajaron, cuando en realidad, los accidentes iban a bajar de todas formas, pues el alza había sido meramente casual.
6. No es llegar y extrapolar más allá de la información disponible
Los patrones hallados dentro de un rango, no necesariamente aplican fuera de ese rango. Por ejemplo, es muy difícil predecir lo que ocurrirá con los ecosistemas producto del cambio climático actual basándose en el pasado, considerando que su ritmo de cambio es mucho mayor que el registrado en toda la historia de las especies que habitan hoy en el planeta.
7. Ojo con la "falacia de la frecuencia base"
¿Han visto esos estudios que hacen afirmaciones del tipo "Con nuestro producto, 30% de los pacientes se sanaron en una semana"? Bueno, una pregunta clave que hay que hacer es "¿y cuál era la probabilidad de sanarse en una semana SIN el producto?". Esa es la frecuencia base y quizás la respuesta sea que, sin el producto, el 30% se sanaba igual, lo que probaría que el producto no sirve para nada.
Los tests de embarazo son otro ejemplo útil para entender el concepto. La mayoría de estos tests declara ser 99% confiable (si se usa correctamente). La pregunta a hacer es "¿99% confiable para quién? ¿Para el que salió positivo o para el negativo?" Esto, porque efectivamente el 99% de las mujeres a las que les sale positivo, está realmente embarazada (casi no hay falsos positivos). Este impresionante resultado podría llevar a concluir que si te dio negativo, tienes un 99% de probabilidades de no estar embarazada, pero ahí estarías cayendo en la falacia de la frecuencia base. La realidad es que para las mujeres que les sale negativo, la confiabilidad del examen es mucho menor; es decir, la frecuencia base de mujeres que, habiendo obtenido un resultado negativo, estaban embarazadas de todos modos (falsos negativos) es mucho más alta que una en cien.
¿Se entendió?
8. Los grupos de control son importantísimos
Muy relacionado con lo anterior, cuando uno hace un experimento, es fundamental contar con al menos dos grupos distintos a estudiar: uno que recibe el tratamiento y otro (ojalá lo más parecido posible) que se usa de "control", que es tratado exactamente igual, pero al que no se le aplica el tratamiento. Esto permite comparar los resultados entre uno y otro, de modo de distinguir qué cambios fueron producto del tratamiento y cuáles fueron fruto de algún factor externo.
En medicina se suelen usar "placebos" para el grupo de control, es decir, se les hace creer que están tomando el remedio, pero se les da una pastilla que no hace nada. Sin embargo,
diseñar experimentos así en políticas públicas es mucho más difícil, aunque no imposible. Nuestros amigos de
J-PAL, de hecho, se dedican a diseñar este tipo de experimentos para el gobierno.
Revisa la entrevista que les hicimos.
9. La aleatoridad evita los sesgos
Como dijimos antes, evitar los sesgos es muy difícil, sobre todo en estudios sociales. Por ejemplo, es muy difícil comparar si un colegio particular pagado entrega mejor educación que uno público, porque quienes van a un colegio pagado tienen un estándar de vida y patrimonio cultural mucho más alto que los que van a una escuela situada en un barrio marginal. Incluso comparar un privado que atiende niños pobres con uno municipal, puede presentar problemas de sesgo, toda vez que el privado quizás selecciona a sus alumnos o sus alumnos tienen padres motivados que se preocuparon de buscar una mejor educación para sus hijos y los apoyan más en las tareas.
Por eso, donde sea posible, se debe buscar comparar "peras con peras", y para hacerlo, lo ideal es tomar un universo de personas y seleccionar aleatoriamente a cuáles intervenir con cierta política pública y cuáles no. En el fondo, se trata de crear un "grupo de control" confiable que se pueda comparar sin problemas con el grupo intervenido.
10. Los resultados deben ser replicables
Básico: si yo hice bien un experimento y entregué todos los datos, alguien debería poder replicar el experimento en otra parte y obtener el mismo resultado. Diversos estudios independientes, que resultan consistentes al aplicarse en diversas poblaciones, son más confiables que un estudio individual y pueden apoyarse mutuamente para generar nueva información relevante.
Por el contrario, suponer que porque hice un experimento o estudio en un grupo o lugar específico, sus resultados aplican a cualquier otro lugar, puede conducir a error, porque quizás el grupo que estudié tenía características que lo hacen distinto de otros.
11. Los científicos son humanos
...y como tales, buscan reconocimiento y financiamiento. Esto los puede llevar a exagerar sus resultados o reportar selectivamente sólo aquellos que les son convenientes. Y la revisión de pares tampoco es infalible. De hecho, los editores de revistas científicas suelen privilegiar estudios con resultados positivos y noticias más "vendedoras".
Lo mejor es buscar datos consistentes a lo largo de muchas fuentes independientes y resultados replicables.
12. El rollo con lo "estadísticamente significativo"
Cuando se mide algo, cierta variación es esperable por efecto del azar. Por eso, las mediciones deben indicar qué tan "estadísticamente significativas" son las variaciones que detectan. Esto, los científicos lo expresan con la letra "P". Si "P" es 0,01, quiere decir que hay 1 posibilidad en 100 de que el resultado sea fruto del azar. En general, se considera un resultado como "estadísticamente significativo" cuando P es menor a 0,05 (una probabilidad en veinte de que el resultado sea por azar).
¡Pero cuidado! Porque que no se detecten resultados estadísticamente significativos, no quiere decir que no existan. Puede ser, simplemente, que el estudio haya sido demasiado pequeño para poder detectarlos. Esto es especialmente cierto para fenómenos a gran escala, como cambios ambientales o sociales.
Por último, que algo sea "estadísticamente significativo" no significa que sea importante. Por ejemplo, un estudio puede detectar que tomar café produce un aumento de presión "estadísticamente significativo", pero que este no tiene ninguna consecuencia para la salud de la persona. Por lo tanto, si es que algún cambio o efecto es o no relevante, es más bien una pregunta social, física o biológica, no estadística.
13. Cuidado con las generalizaciones
La similitud entre las condiciones en que se realiza un experimento y las condiciones reales del tema en estudio, determinan su relevancia. Por ejemplo, de experimentos en animales o de laboratorio, no puede deducirse automáticamente que son replicables en un ser humano. Y ese es, justamente, el problema con muchos de los estudios que encuentran "propiedades benéficas" o "dañinas" en diversos alimentos, que leemos constantemente en la prensa.
14. Los sentimientos afectan a la percepción de riesgo
Muchos políticos interpretan estudios de "percepción" de, por ejemplo, la delincuencia, como si se tratara de mediciones de la delincuencia misma. Eso es un error, sobretodo porque el ser humano es muy influenciable y su percepción de riesgo puede errar mucho en base a variables tan distintas como: sensación de control sobre la situación, frecuencia del evento, la gravedad de los resultados, voluntariedad de asumir el riesgo, etc.
Esto explica que la gripe aviar, que mató a solo un puñado de personas en todo el mundo, haya causado una verdadera psicosis global, mientras que el consumo de alcohol, que mata a millones de personas al año, nos parece totalmente aceptable.
15. La interdependencia modifica el riesgo
El riesgo de ocurrencia de una catástrofe (inundación, terremoto, incendio) y sus respectivas consecuencias son posibles de estimar, pero cuando están interrelacionadas, la ocurrencia de una puede aumentar mucho la probabilidad de ocurrencia de las otras y generar efectos mucho mayores a los estimados (por ejemplo, un terremoto puede detonar decenas de incendios).
Sin ir más lejos, los constructores de las
Torres Petronas habían considerado, para un potencial incendio en una torre, ocupar de escape la otra, a través del puente que las conecta. Sin embargo, el ataque a las torres gemelas les hizo ver que un ataque terrorista hacía muy posible un ataque a ambas torres simultáneamente y debieron replantear toda su estrategia.
Por otro lado, la debacle financiera de la crisis subprime se produjo, en parte, porque ninguna aseguradora creyó posible que las hipotecas de miles de viviendas pudieran colapsar simultáneamente.
En conclusión...
Como vimos, miles de factores pueden afectar la confiabilidad de los estudios y es fundamental que estemos conscientes de esto al analizar los resultados de, por ejemplo, pruebas estandarizadas como el Simce o la PSU. ¿Cuánto de los resultados es atribuible a la calidad de los colegios? ¿cuánto al patrimonio cultural de la familia? ¿cuánto a la preparación para rendir la prueba? ¿o a que el colegio escondiera a los alumnos "porros"? ¿o al ruido que había fuera de la sala de clases al realizarse la prueba?
A fin de cuentas, la pregunta clave a hacerse al enfrentar uno de estos estudios, es ¿Qué no me están diciendo?
Evidentemente, ningún estudio es perfecto, pero de nuestra capacidad de identificar sus puntos débiles, dependerá nuestra habilidad para interpretarlos y valorarlos. Y si no tenemos tiempo para eso, por lo menos podemos aprender a tomarlos como un argumento más de la discusión y no como "la verdad absoluta".
(PD: Gracias a Andrés Peñailillo que nos dio el dato del excelente artículo de Nature)