La estadística puede utilizarse de forma engañosa. En este artículo te contamos los sesgos estadísticos más comunes.

¿Los datos mienten? Estos son los sesgos estadísticos que más te engañan

pablo.blanco
09/01/2024

Vamos a empezar el artículo con una gran verdad: la estadística, aunque represente datos discutiblemente exactos, puede utilizarse de forma engañosa. Hasta la más exacta de las operaciones matemáticas puede emplearse e interpretarse de formas variables. Algunas de esas conclusiones parten de un análisis o datos menos correctos, dudosos o descaradamente incorrectos.

Esto se debe a sesgos estadísticos que, de forma consciente o inconsciente, hacen que los datos se procesen de una manera u otra. Es evidente que un analista de datos ha de conocer en profundidad qué sesgos estadísticos debe evitar para realizar una interpretación acertada de los datos lo más fiel a la realidad. Pero no son solo los analistas los que se pueden beneficiar de conocer estos sesgos, sino también la población en general para poder ganar más criterio a la hora de leer datos e interpretar gráficas que se lanzan continuamente en los periódicos.

A la hora de realizar un estudio o investigación que impliquen analizar datos, es esencial ser conscientes de los tipos de sesgos estadísticos existentes y hacer todo lo posible por rehuirlos en aras de la objetividad. Es por eso que en EducaOpen hemos redactado este artículo tan relevante actualmente para que conozcas los tipos de sesgos de confirmación y adoptes una perspectiva más crítica en todos los análisis de información que hagas.

Tipos de sesgos en estadística

A continuación, te presentamos los tipos de sesgos estadísticos más comunes con ejemplos sencillos:

Sesgo de confirmación

 

Ocurre cuando se da preferencia o se presta más atención a la información que confirma nuestras creencias preexistentes, mientras que se tiende a ignorar o minimizar la información que las contradice. Es un fenómeno cognitivo muy común basado en los prejuicios y obstinación en reafirmarse en creencias preconcebidas que distorsionan el análisis de datos al favorecer interpretaciones sesgadas. 

Ejemplo: Un investigador que tiene sus esperanzas depositadas en encontrar un efecto positivo en un nuevo tratamiento médico puede caer en el fallo de interpretar de manera más favorable los datos que respaldan esa misma expectativa en detrimento de evidencia, a veces muy ostensible, que la contradiga.

Sesgo de selección

Parte de la misma extracción de datos y se produce cuando la muestra de datos no es representativa de la población total, lo que puede llevar a conclusiones inexactas. Puede surgir debido a que la muestra escogida no sea lo suficientemente grande o que no sea tan aleatoria como se supone.

Ejemplo: Si realizamos un estudio sobre la efectividad de un programa educativo basado únicamente en los estudiantes que mejor nota sacan, es probable que obtengamos conclusiones sesgadas, ya que la muestra escogida se rige por una misma característica y no se está representando a la muestra real en su totalidad.

Sesgo del observador

Este sesgo se refiere a la influencia subjetiva del observador en la recopilación o interpretación de datos, lo que puede llevar a juicios parciales y resultados sesgados. La diferencia entre el sesgo del observador y de confirmación es que en el de confirmación el error parte de una selección torticera de datos favorables a una hipótesis concreta, mientras que el de observación alude a la interpretación imparcial de los datos.

Ejemplo: Un investigador que espera ver mejoras en la productividad después de implementar un nuevo sistema en una empresa puede interpretar los datos de manera que respalden esa expectativa, descartando otras variables deliberadamente.

Sesgo de financiación

Este sesgo surge cuando la fuente de financiamiento de una investigación tiene intereses o expectativas que podrían influir en los resultados del estudio. Es por eso que en los estudios científicos también debemos saber quién ha financiado la investigación y, en caso de ser una empresa privada u organismo público, cerciorarnos de si pudiera haber algún interés por su parte más allá de la verdad que arrojen los datos.

Ejemplo: Una empresa farmacéutica que financia un ensayo clínico sobre la eficacia de un nuevo medicamento propio va a llevar impreso, casi seguro, un sesgo inconsciente hacia la interpretación positiva de los resultados.

Sesgo de omisión de variable

Ocurre cuando no se tienen en cuenta variables relevantes que podrían afectar la relación entre las variables que se están estudiando, lo que lleva a conclusiones incompletas o incorrectas.

Ejemplo: Imagina que alguien está realizando un estudio para determinar si hay una correlación entre la cantidad de chocolate consumido por una población y el número de premios Nobel que esa población ha ganado. El investigador recopila datos y encuentra una fuerte correlación negativa: a medida que aumenta el consumo de chocolate, disminuye el número de premios Nobel. Esta conclusión, a todas luces, es disparatada y parte de variables que no son correlativas, aunque numéricamente pudieran parecerlo. Esto se debe a que se han omitido variables mucho más significativas.

Sesgo del superviviente

Este sesgo se da cuando solo se consideran los casos que han «sobrevivido» a un proceso o condición, ignorando los casos que no lo han hecho.

Ejemplo: Al estudiar la longevidad de una especie de animales en un zoológico, sería un fallo contar solo con los animales que han llegado a una edad avanzada, ya que podríamos estar ignorando una parte importante de los individuos que han fallecido prematuramente.

Sesgo estadístico en la inteligencia artificial

Si bien la inteligencia artificial y el machine learning parte de algoritmos y miles de iteraciones con cantidades ingentes de datos muy diversos, también pueden encontrarse en ellas conclusiones y respuestas erradas que parten de sesgos que se transfieren desde lo humano a lo digital. En muchos casos, al hablar de sesgos en la IA no nos referimos tanto a inexactitudes o a un análisis de datos defectuoso, sino a una interpretación de los datos injusta y discriminatoria. Los sesgos de la inteligencia artificial son los mismos que los humanos.

Por ejemplo, desde hace unos años, algunos hospitales de Estados Unidos utilizan un algoritmo de inteligencia artificial para predecir qué pacientes van a necesitar más cuidados médicos que otros. Este sistema solía mostrar una preferencia clara por los blancos a la hora de responder ante esta cuestión, ya que los blancos solían pagar más por sus seguros médicos que los negros. Sin embargo, el algoritmo no tenía en cuenta que, por cuestiones históricas y sociales, los blancos ganan más dinero que los negros y, por tanto, gastan más dinero en su salud. Esto no significa que los blancos biológicamente se preocupen más por su salud que los negros ni que los negros gocen de mejor salud.

A día de hoy, se sigue investigando para poder crear sistemas de inteligencia artificial más inclusivos y rigurosos que carezcan de los sesgos que tan frecuentemente nos llevan a equívocos a los seres humanos. Es uno de los dilemas de la inteligencia artificial que quedan por resolver.

Artículos relacionados

¿Te imaginas que se pudiera crear un ordenador con un cerebro humano? Eso es lo que intenta la ingeniería neuromórfica.
pablo.blanco

Cómo la ingeniería neuromórfica quiere crear ordenadores con redes cerebrales

17/05/2024

¿Te imaginas que se pudiera crear un ordenador con un cerebro humano?

Es una práctica autorizada que se utiliza para diagnosticar vulnerabilidades. ¡Descubre las fases para implementarlo!
pablo.blanco

¿Qué es el hacking ético y cómo se implementa en las empresas?

26/04/2024

Puede sonar contradictorio, pero las empresas contratan hackers de profesión cuyo cometido es poner a prueba la seguridad informática de la empresa mediante técnica

Las narrativas nos ayudan a procesar la información. ¡Descubre por qué el data storytelling es importante en empresas!
pablo.blanco

¿Qué es el data storytelling? 7 pasos para hacerlo + tips

23/04/2024

El data storytelling, o narración de datos, es el proceso de comunicar información compleja a partir de datos a través de un hilo narrativo convincente.