El reto de enfrentarse a una afirmación basada en evidencia estadística

 


En plena era del denominado imperio de los datos es cuando más expuestos estamos a su manipulación y sesgos. Tener ciertos conocimientos acerca de cómo se procesa la información es esencial para no caer en la trampa de quienes, intencionadamente o no, retuercen las estadísticas para presentarnos una realidad ficticia. El británico David Spiegelhalter, autor de El arte de la estadística, editado por Capitán Swing en España, nos invita a un recorrido estadístico sin atajos, profundizando en la materia.


No es la primera vez que en este espacio abordamos la desinformación actual basada en el uso torticero de los datos. En Bullshit, contra la charlatanería (Capitán Swing), los académicos Carl T. Bergstrom y Jevin D. West ilustraban con ejemplos reales cómo se nos presentan cifras y correlaciones entre ellas que deforman la verdad. En El arte de la estadística, en cambio, Spiegelhalter no se limita a utilizar toda suerte de casos publicados, sobre todo en Reino Unido, sino que profundiza en el empleo de la ciencia estadística. Especialmente indicado para iniciados en la materia o para quienes quieran sumergirse en ella -pero les requerirá una lectura muy sosegada-, el libro es un compendio de buenas prácticas estadísticas desde una perspectiva matemática.

Partiendo de un asesino en serie de Reino Unido, Harold Shipman, y de cómo se empleó la estadística para determinar el número de sus víctimas (un mínimo de 215 entre 1975 y 1998), el autor va planteando los retos a los que se enfrenta la ciencia estadística, comenzando por la misma categorización y clasificación. Cuestiones como la supervivencia y la mortalidad, que son preocupaciones comunes de la ciencia estadística, plantean desafíos en lugares como EEUU, donde cada Estado puede tener su propia definición legal de muerte. De hecho, en 1981 se aprobó la Ley de Uniformidad en la Declaración de Fallecimiento para tratar de establecer un modelo común. Una persona puede estar muerta en Alabama y viva en Florida, pues para estarlo allí es precisa la certificación de dos médicos cualificados.

Detalles aparentemente nimios como ese pueden cambiar el retrato de la realidad que se nos presenta, del mismo modo que el marco que se utilice para ello. Ofrecer un marco positivo de supervivencia  frente a otro negativo de mortalidad cambia de manera muy significativa el modo en que procesamos la información. Para ilustrar esta circunstancia, Spiegelhalter recuerda un anuncio en el metro de Londres en 2011 en el que se afirmaba que "el 99% de los jóvenes londinenses no cometen violencia juvenil grave". El mensaje transmite tranquilidad. Sin embargo, si en lugar de adoptar ese marco positivo tomamos el negativo, es decir, que el 1% de los jóvenes sí cometen violencia grave y, además, le ponemos cifras, la cosa cambia. Extrapolando la información de jóvenes de una población que ronda los 9 millones de personas, el resultado es que en Londres hay alrededor de 10.000 jóvenes muy violentos, expone Spiegelhalter, lo que en absoluto es tranquilizador.

Forzar causalidades

La mezcla de conceptos o los errores -intencionados o no- a la hora de escoger los mejores gráficos para ilustrar los resultados estadísticos son otras de las cuestiones que plantea el autor del libro. Tal y como explica, cada vez que publican en los medios precios de la vivienda no queda claro si se están confundiendo medias (la suma de los números dividida por el número de casos) con medianas (valor que está en medio cuando los números se ponen en orden). Spiegelhalter plantea si lo que se nos presenta es el precio de la vivienda promedio (mediana) o el precio promedio de vivienda (media), pues cuando entran en juego los pisos de lujo, las cifras pueden sufrir extraordinarias desviaciones.

Por otro lado, "los números no hablan por sí mismos", afirma el autor, por lo que es preciso el contexto, el lenguaje y el diseño gráfico para determinar la forma en que se recibe la información. En este sentido, el texto no sólo ofrece una guía sobre cuáles son los mejores gráficos a utilizar en función de la información que se muestra, sino el enfoque para hacerlo. Tal y como expone, comunicar el riesgo con frecuencias esperadas en lugar de discutir porcentajes o probabilidades mejora la comprensión, según los estudios psicológicos. En lugar de compartir un porcentaje frío de personas que pueden sufrir un infarto, es preferible indicar qué significa para 100 personas, cuántas de ellas corren riesgo de sufrirlo. Los pequeños matices importan.

En esta misma línea, Spiegelhalter señala a otro de los errores más comunes que se dan en la estadística: la correlación no implica causalidad. Forzar esta causalidad puede llevar a lo que en epidemiología se denomina "la falacia de la evidencia incompleta" y que el autor ilustra en cómo en Suecia se llegó a publicar una nota de prensa de un estudio que apuntaba que "los niveles altos de educación están vinculados a un incremento del riesgo de tumor cerebral". Evidentemente, la realidad es más compleja y la búsqueda de un titular con gancho terminó pervirtiendo los resultados.

Desde el punto de vista de Spiegelhalter, lo mejor para establecer causalidades complejas son los estudios aleatorizados bien diseñados. Además, es preciso situar las causalidades en su justo sitio y, para entenderlo, lo mejor es utilizar el ejemplo de que el tabaco provoca cáncer pero, sin embargo, no todas las personas que fuman generan esta enfermedad. Dicho de otro modo, cuando decimos que X causa Y no queremos decir que cada vez que X se produce, Y también lo hace.

Algoritmos e Inteligencia Artificial

Aunque ni mucho menos ocupa ni la mayor parte del análisis ni su parte central, la Inteligencia Artificial (IA) y el mundo de los algoritmos encuentran también su espacio en El arte de la estadística. Los algoritmos no son cosa de hoy; según relata Spiegelhalter, "desde que Edmund Halley desarrollase las fórmulas para el cálculo de seguros y anualidades en la década de 1690, la ciencia estadística se ha ocupado de producir algoritmos para ayudar a las decisiones humanas".

Los algoritmos y la analítica predictiva de la IA están basados en la estadística y la probabilidad. A menudo se comete el error de no utilizar gráficos de calibración para evaluar la fiabilidad de las probabilidades estimadas, tales como las predicciones meteorológicas. Del mismo modo, los batacazos que cada vez con más frecuencia se dan los sondeos electorales se deben a la complejidad a la hora de abordar fundamentos formales de la inferencia estadística basada en modelos de probabilidad cuyos márgenes de error no están debidamente determinados.

Cuatro son los grandes problemas a los que se enfrentan los algoritmos, desde su falta de robustez por ser muy sensibles a los cambios -el mundo no permanece igual-, a no tener en cuenta la variabilidad estadística (las clasificaciones automatizadas basadas en datos limitados son poco fiables); pasando por el sesgo implícito (para establecer precios de seguro se descarta la raza, pero se considera el código postal que también discrimina) o la falta de transparencia (no conocer la estructura, incluso de algoritmos sencillos, es sinónimo de opacidad).

La alfabetización en datos

El arte de la estadística no es un libro fácil si no se cuenta previamente con ciertas nociones o si pretende leerlo con la avidez de una novela. La aproximación técnica que despliega Spiegelhalter y su formación científica, matemática, incluso filosófica se perciben en cada página. Consciente de que cuantos más datos nos rodean, más necesitamos ser conscientes del valor de la evidencia y de que la objetividad científica es más difícil de lo que parece, el autor brinda al lector diferentes niveles de profundidad para que cada uno se sumerja hasta donde quiera o pueda.

Estar alfabetizado en datos es crucial en el mundo moderno y, aunque la enseñanza estadística ha cambiado de un enfoque centrado en los métodos matemáticos a otro basado en un ciclo completo de resolución de  problemas, conocer sus pormenores cada vez es más importante. Es preciso mejorar lo que se produce, partiendo de para qué estamos realizando el estudio estadístico, y cómo se comunica posteriormente. Para facilitar esta labor, Spiegelhalter, incluso, nos facilita un decálogo para saber enfrentarnos a una afirmación basada en evidencia estadística porque, como concluye el autor, "el estudio de la estadística no sólo tiene un impacto en la sociedad en general, sino en los individuos en particular".

No hay comentarios:

Publicar un comentario