La estadística puede utilizarse de forma engañosa. En este artículo te contamos los sesgos estadísticos más comunes.

¿Los datos mienten? Estos son los sesgos estadísticos que más te engañan

pablo.blanco
09/01/2024

Vamos a empezar el artículo con una gran verdad: la estadística, aunque represente datos discutiblemente exactos, puede utilizarse de forma engañosa. Hasta la más exacta de las operaciones matemáticas puede emplearse e interpretarse de formas variables. Algunas de esas conclusiones parten de un análisis o datos menos correctos, dudosos o descaradamente incorrectos.

Esto se debe a sesgos estadísticos que, de forma consciente o inconsciente, hacen que los datos se procesen de una manera u otra. Es evidente que un analista de datos o un ingeniero de Big Data ha de conocer en profundidad qué sesgos estadísticos debe evitar para realizar una interpretación acertada de los datos lo más fiel a la realidad. Pero no son solo los analistas los que se pueden beneficiar de conocer estos sesgos, sino también la población en general para poder ganar más criterio a la hora de leer datos e interpretar gráficas que se lanzan continuamente en los periódicos.

A la hora de realizar un estudio o investigación que impliquen analizar datos, es esencial ser conscientes de los tipos de sesgos estadísticos existentes y hacer todo lo posible por rehuirlos en aras de la objetividad. Es por eso que en Educa Open hemos redactado este artículo tan relevante actualmente para que conozcas los tipos de sesgos de confirmación y adoptes una perspectiva más crítica en todos los análisis de información que hagas.

Tipos de sesgos en estadística

A continuación, te presentamos los tipos de sesgos estadísticos más comunes con ejemplos sencillos:

Sesgo de confirmación

Ocurre cuando se da preferencia o se presta más atención a la información que confirma nuestras creencias preexistentes, mientras que se tiende a ignorar o minimizar la información que las contradice. Es un fenómeno cognitivo muy común basado en los prejuicios y obstinación en reafirmarse en creencias preconcebidas que distorsionan el análisis de datos al favorecer interpretaciones sesgadas. 

Ejemplo: Un investigador que tiene sus esperanzas depositadas en encontrar un efecto positivo en un nuevo tratamiento médico puede caer en el fallo de interpretar de manera más favorable los datos que respaldan esa misma expectativa en detrimento de evidencia, a veces muy ostensible, que la contradiga.

Sesgo de selección

Parte de la misma extracción de datos y se produce cuando la muestra de datos no es representativa de la población total, lo que puede llevar a conclusiones inexactas. Puede surgir debido a que la muestra escogida no sea lo suficientemente grande o que no sea tan aleatoria como se supone.

Ejemplo: Si realizamos un estudio sobre la efectividad de un programa educativo basado únicamente en los estudiantes que mejor nota sacan, es probable que obtengamos conclusiones sesgadas, ya que la muestra escogida se rige por una misma característica y no se está representando a la muestra real en su totalidad.

Sesgo del observador

Este sesgo se refiere a la influencia subjetiva del observador en la recopilación o interpretación de datos, lo que puede llevar a juicios parciales y resultados sesgados. La diferencia entre el sesgo del observador y de confirmación es que en el de confirmación el error parte de una selección torticera de datos favorables a una hipótesis concreta, mientras que el de observación alude a la interpretación imparcial de los datos.

Ejemplo: Un investigador que espera ver mejoras en la productividad después de implementar un nuevo sistema en una empresa puede interpretar los datos de manera que respalden esa expectativa, descartando otras variables deliberadamente.

Sesgo de financiación

Este sesgo surge cuando la fuente de financiamiento de una investigación tiene intereses o expectativas que podrían influir en los resultados del estudio. Es por eso que en los estudios científicos también debemos saber quién ha financiado la investigación y, en caso de ser una empresa privada u organismo público, cerciorarnos de si pudiera haber algún interés por su parte más allá de la verdad que arrojen los datos.

Ejemplo: Una empresa farmacéutica que financia un ensayo clínico sobre la eficacia de un nuevo medicamento propio va a llevar impreso, casi seguro, un sesgo inconsciente hacia la interpretación positiva de los resultados.

Sesgo de omisión de variable

Ocurre cuando no se tienen en cuenta variables relevantes que podrían afectar la relación entre las variables que se están estudiando, lo que lleva a conclusiones incompletas o incorrectas.

Ejemplo: Imagina que alguien está realizando un estudio para determinar si hay una correlación entre la cantidad de chocolate consumido por una población y el número de premios Nobel que esa población ha ganado. El investigador recopila datos y encuentra una fuerte correlación negativa: a medida que aumenta el consumo de chocolate, disminuye el número de premios Nobel. Esta conclusión, a todas luces, es disparatada y parte de variables que no son correlativas, aunque numéricamente pudieran parecerlo. Esto se debe a que se han omitido variables mucho más significativas.

Sesgo del superviviente

Este sesgo se da cuando solo se consideran los casos que han «sobrevivido» a un proceso o condición, ignorando los casos que no lo han hecho.

Ejemplo: Al estudiar la longevidad de una especie de animales en un zoológico, sería un fallo contar solo con los animales que han llegado a una edad avanzada, ya que podríamos estar ignorando una parte importante de los individuos que han fallecido prematuramente.

Sesgo de causalidad falsa

También conocido como falacia cum hoc ergo propter hoc, ocurre cuando se infiere erróneamente que una relación de correlación entre dos eventos implica una relación de causa y efecto.

Ejemplo: Imagina que observas que en una ciudad hay un aumento en la tasa de criminalidad al mismo tiempo que se aumenta la cantidad de bibliotecas públicas. Basándose en esta correlación, podrías concluir erróneamente que la construcción de bibliotecas públicas causa el aumento de la criminalidad.

Sesgo estadístico en la inteligencia artificial

Si bien la inteligencia artificial y el machine learning parte de algoritmos y miles de iteraciones con cantidades ingentes de datos muy diversos, también pueden encontrarse en ellas conclusiones y respuestas erradas que parten de sesgos que se transfieren desde lo humano a lo digital. En muchos casos, al hablar de sesgos en la IA no nos referimos tanto a inexactitudes o a un análisis de datos defectuoso, sino a una interpretación de los datos injusta y discriminatoria. Los sesgos de la inteligencia artificial son los mismos que los humanos.

Por ejemplo, desde hace unos años, algunos hospitales de Estados Unidos utilizan un algoritmo de inteligencia artificial para predecir qué pacientes van a necesitar más cuidados médicos que otros. Este sistema solía mostrar una preferencia clara por los blancos a la hora de responder ante esta cuestión, ya que los blancos solían pagar más por sus seguros médicos que los negros. Sin embargo, el algoritmo no tenía en cuenta que, por cuestiones históricas y sociales, los blancos ganan más dinero que los negros y, por tanto, gastan más dinero en su salud. Esto no significa que los blancos biológicamente se preocupen más por su salud que los negros ni que los negros gocen de mejor salud.

A día de hoy, se sigue investigando para poder crear sistemas de inteligencia artificial más inclusivos y rigurosos que carezcan de los sesgos que tan frecuentemente nos llevan a equívocos a los seres humanos. Es uno de los dilemas de la inteligencia artificial que quedan por resolver.

Más allá del análisis de datos: cómo los sesgos estadísticos nos afectan en el día a día

Los sesgos estadísticos afectan profundamente nuestra percepción del mundo, influyendo en cómo interpretamos la información y tomamos decisiones en nuestra vida cotidiana. Estas distorsiones cognitivas no son exclusivas de científicos o analistas de datos; por el contrario, impactan a todas las personas en sus experiencias diarias, moldeando sutilmente nuestras opiniones y acciones.

Imagina, por ejemplo, a una persona que decide no vacunarse contra la gripe porque el año pasado, tras vacunarse, enfermó de todas formas. Este razonamiento, aunque común, ignora la complejidad de las estadísticas de efectividad de las vacunas y se basa en una experiencia personal limitada. Debido a esta experiencia, un individuo podría pensar que es la vacuna la causante de esta gripe o que la vacuna no sirve para nada, cuando la evidencia científica sí prueba la efectividad de la vacuna de la gripe.

En el ámbito de las relaciones personales, los sesgos estadísticos también están muy presentes. Pensemos en alguien que, tras una mala experiencia amorosa, concluye que “todas las personas son infieles”. Este es un juicio parte de una muestra demasiado pequeña y personal como para ser verdadero. Este sesgo tan extendido podría provocar que la persona rehúya cualquier conexión sentimental con una potencial pareja.

Estos ejemplos ilustran cómo los sesgos estadísticos permean nuestras vidas e influyen en decisiones sobre salud, relaciones y muchos más aspectos vitales.

¿Cómo pueden los sesgos estadísticos afectar al análisis de datos en una empresa?

Las empresas más modernas son data-driven, es decir, basan todos sus decisiones en datos objetivos y tangibles. Los fallos en el análisis de datos por sesgos estadísticos son particularmente graves en el entorno empresarial actual, en el que todas las decisiones estratégicas y cambios de rumbo se efectúan a partir de los datos. Si bien los datos pueden ser fiables, una interpretación sesgada hará que las conclusiones que saquemos de ellos sean contraproducentes.

En el ámbito del marketing digital, los sesgos estadísticos pueden afectar la interpretación de los datos de campañas publicitarias. Una empresa puede atribuir erróneamente el éxito de una campaña a un factor específico, como el diseño de un anuncio, sin considerar otras variables importantes como el momento del día en que se mostró el anuncio o los cambios en el comportamiento del consumidor debido a factores externos. Estas suposiciones precipitadas podrían llevarnos a recurrir a una estrategia equivocada a repetir un estilo de campañas publicitarias que, en realidad, no es tan efectivo como pudiera pensarse.

Para mitigar estos riesgos, las empresas deban adoptar un enfoque crítico y holístico en su análisis de datos, de forma que consideren múltiples perspectivas y fuentes de información antes de tomar decisiones importantes.

Artículos relacionados

La programación es un campo reciente, pero desde mitades del siglo XX ha evolucionado mucho. ¡Descubre los lenguajes de programación más antiguos!
pablo.blanco

¿Cuáles son los lenguajes de programación más antiguos? ¿Son útiles hoy día?

04/09/2024

La programación es un mundo relativamente reciente, pero desde sus inicios a mitades del siglo XX ha ido evolucionando a pasos agigantados.

Denominamos vectorización de imágenes a la transformación de imágenes rasterizadas en vectores. ¡Te enseñamos a vectorizar imágenes en este post!
pablo.blanco

¿Qué es la vectorización de imágenes y cómo se hace? Minitutorial

02/09/2024

Denominamos vectorización de imágenes a la transformación de imágenes rasterizadas (es decir, con píxeles) a imágenes con vectores (operaciones matemáticas representadas gráficamente).&nb

Si bien a todos nos suenan estos acrónimos, no mucha gente tiene claras las diferencias entre una red LAN y una WAN. Aquí te explicamos cuáles son.
pablo.blanco

¿Cuáles son las diferencias entre una red LAN y WAN?

28/08/2024

Si bien a todos nos suenan estos acrónimos, no mucha gente tiene claras las diferencias entre una red LAN y una WAN.