Un repaso sobre la significación estadística
por Amy Gallo

Cuando realiza un experimento o analiza datos, quiere saber si sus hallazgos son «significativos». Pero la relevancia empresarial (es decir, la importancia práctica) no siempre es lo mismo que la confianza en que un resultado no se debe únicamente al azar (es decir, a la significación estadística). Esta es una distinción importante; lamentablemente, significación estadística a menudo se malinterpreta y se utiliza indebidamente en las organizaciones actuales. Sin embargo, dado que cada vez más empresas confían en los datos para tomar decisiones empresariales críticas, es un concepto esencial que los gerentes deben entender.
Para entender mejor lo que realmente significa la significación estadística, hablé con Thomas Redman, autor de Impulsado por los datos: sacar provecho de su activo empresarial más importante. También asesora a las organizaciones en sus programas de datos y calidad de los datos.
¿Qué es la significación estadística?
«La significación estadística ayuda a cuantificar si un resultado se debe probablemente al azar o a algún factor de interés», afirma Redman. Cuando un hallazgo es significativo, simplemente significa que puede estar seguro de que es real, no que haya tenido suerte (o mala suerte) al elegir la muestra.
Cuando realiza un experimento, realiza una encuesta, realiza una encuesta o analiza un conjunto de datos, realiza un muestra de alguna población de interés, no analizar todos los puntos de datos que pueda. Pensemos en el ejemplo de una campaña de marketing. Se le ha ocurrido un nuevo concepto y quiere ver si funciona mejor que el actual. No puede mostrárselo a todos los clientes objetivo, por supuesto, así que elige un grupo de muestra.
Cuando publica los resultados, descubre que los que vieron la nueva campaña gastaron 10,17 dólares de media, más que los 8,41 dólares que gastaron los que vieron la anterior. Estos 1,76 dólares pueden parecer una diferencia grande (y quizás importante). Pero en realidad puede que haya tenido mala suerte al dibujar una muestra de personas que no representan a la población en general; de hecho, tal vez no hubo diferencia entre las dos campañas y su influencia en las conductas de compra de los consumidores. Esto se llama error de muestreo, algo con lo que debe enfrentarse en cualquier prueba que no incluya a toda la población de interés.
Redman señala que hay dos factores principales que contribuyen al error de muestreo: el tamaño de la muestra y la variación en la población subyacente. El tamaño de la muestra puede ser bastante intuitivo. Piense en lanzar una moneda cinco veces en lugar de lanzarla 500 veces. Cuantas más veces dé la vuelta, es menos probable que acabe con una gran mayoría de cabezas. Lo mismo ocurre con la significación estadística: con tamaños de muestra más grandes, es menos probable que obtenga resultados que reflejen la aleatoriedad. En igualdad de condiciones, se sentirá más cómodo con la precisión de la diferencia de 1,76 dólares de las campañas si mostrara la nueva a 1000 personas en lugar de solo a 25. Por supuesto, mostrar la campaña a más personas cuesta más, así que tiene que equilibrar la necesidad de un tamaño de muestra mayor con su presupuesto.
La variación es un poco más difícil de entender, pero Redman insiste en que desarrollar un sentido para ella es fundamental para todos los gerentes que utilizan los datos. Considere las imágenes de abajo. Cada uno expresa una posible distribución diferente de las compras de los clientes en la campaña A. En el gráfico de la izquierda (con menos variaciones), la mayoría de las personas gastan aproximadamente la misma cantidad de dólares. Algunas personas gastan unos cuantos dólares más o menos, pero si elige un cliente al azar, es muy probable que se acerque bastante a la media. Por lo tanto, es menos probable que seleccione una muestra con un aspecto muy diferente al de la población total, lo que significa que puede confiar relativamente en sus resultados.
Compare eso con el gráfico de la derecha (con más variaciones). En este caso, las personas varían más en cuanto a lo que gastan. La media sigue siendo la misma, pero bastantes personas gastan más o menos. Si elige un cliente al azar, hay más probabilidades de que esté bastante lejos de la media. Así que si selecciona una muestra de una población más variada, no puede confiar tanto en sus resultados.
En resumen, lo importante que debe entender es que cuanto mayor sea la variación en la población subyacente, mayor será el error de muestreo.
Ver más gráficos de HBR en Datos e imágenes
Redman le recomienda trazar sus datos y crear imágenes como estas al analizar los datos. Los gráficos le ayudarán a hacerse una idea de la variación, el error de muestreo y, a su vez, la significación estadística.
No importa lo que estudie, el proceso de evaluación de la significación es el mismo. Empieza por exponer una hipótesis nula, a menudo un hombre de paja que intenta refutar. En el experimento anterior sobre la campaña de marketing, la hipótesis nula podría ser: «De media, los clientes no prefieren nuestra nueva campaña a la anterior». Antes de empezar, también debe exponer una hipótesis alternativa, como «De media, los clientes prefieren la nueva» y un nivel de significancia objetivo. El nivel de significancia es una expresión de lo raros que son sus resultados, en el supuesto de que la hipótesis nula es cierta. Normalmente se expresa como un «valor p» y cuanto más bajo sea el valor p, es menos probable que los resultados se deban al azar.
Fijar un objetivo e interpretar los valores P puede resultar tremendamente complejo. Redman dice que depende en gran medida de lo que analice. «Si está buscando el bosón de Higgs, probablemente quiera un valor P extremadamente bajo, quizás 0,00001», dice. «Pero si está comprobando si su nuevo concepto de marketing es mejor o si las nuevas brocas que diseñó su ingeniero funcionan más rápido que las actuales, entonces probablemente esté dispuesto a elegir un valor más alto, tal vez incluso de 0,25».
Tenga en cuenta que en muchos experimentos empresariales, los gerentes se saltan estos dos pasos iniciales y no se preocupan por la importancia hasta que se obtienen los resultados. Sin embargo, es una buena práctica científica hacer estas dos cosas con antelación.
Luego, recopila sus datos, grafica los resultados y calcula las estadísticas, incluido el valor p, que incorpora la variación y el tamaño de la muestra. Si obtiene un valor p inferior al objetivo, rechaza la hipótesis nula en favor de la alternativa. De nuevo, esto significa que la probabilidad de que sus resultados se deban únicamente al azar es pequeña.
¿Cómo se calcula?
Como gerente, lo más probable es que nunca calcule la significación estadística usted mismo. «La mayoría de los paquetes estadísticos buenos informarán sobre la importancia junto con los resultados», afirma Redman. También hay una fórmula en Microsoft Excel y otras herramientas en línea que la calcularán por usted.
Aun así, es útil conocer el proceso descrito anteriormente para entender e interpretar los resultados. Como aconseja Redman: «Los directivos no deben confiar en un modelo que no entienden».
¿Cómo lo utilizan las empresas?
Las empresas utilizan la significación estadística para entender en qué medida los resultados de un experimento, encuesta o sondeo que han realizado deben influir en las decisiones que toman. Por ejemplo, si un gerente realiza un estudio de precios para saber cuál es la mejor manera de fijar el precio de un nuevo producto, calculará la significación estadística —muy probablemente con la ayuda de un analista— para saber si las conclusiones deben afectar al precio final.
¿Recuerda que la nueva campaña de marketing anterior produjo un aumento de 1,76 dólares (más del 20%) en las ventas medias? No cabe duda de que tiene una importancia práctica. Si el valor p es de 0,03, el resultado también es significativo desde el punto de vista estadístico y debería adoptar la nueva campaña. Si el valor p se sitúa en 0,2, el resultado no es significativo desde el punto de vista estadístico, pero dado que el impulso es tan grande, es probable que siga adelante, aunque quizás con un poco más de cautela.
Pero, ¿y si la diferencia fuera solo de unos pocos centavos? Si el valor p es de 0,2, seguirá con su campaña actual o explorará otras opciones. Pero aunque tuviera un nivel de significación de 0,03, es probable que el resultado sea real, aunque bastante pequeño. En este caso, es probable que su decisión se base en otros factores, como el coste de implementar la nueva campaña.
Leer más sobre la transformación digital
¿Utiliza los datos correctos para impulsar su transformación digital?
Muy relacionada con la idea de nivel de significación está la noción de intervalo de confianza. Tomemos el ejemplo de una encuesta política. Digamos que hay dos candidatos: A y B. Los encuestadores realizan un experimento con 1000 «votantes probables»; el 49% de la muestra dice que votará por A y el 51% dice que votará por B. Los encuestadores también informan de un margen de error de +/- 3%.
«Técnicamente», dice Redman, «el 49% +/ -3% es un «intervalo de confianza del 95%» para la verdadera proporción de votantes A en la población». Por desgracia, dice, la mayoría de la gente interpreta esto como «hay un 95% de probabilidades de que el porcentaje real de A esté entre el 46 y el 52%», pero no es correcto. En cambio, dice que si los encuestadores hicieran el resultado muchas veces, el 95% de los intervalos construidos de esta manera contendrían la proporción real.
Si le da vueltas la cabeza ante esa última frase, no está solo. Como dice Redman, esta interpretación es «tremendamente sutil, demasiado sutil para la mayoría de los directivos e incluso para muchos investigadores con títulos avanzados». Dice que la interpretación más práctica de esto sería: «No se entusiasme demasiado con que B tenga la mira puesta en las elecciones» o «B parece tener una ventaja, pero no es estadísticamente significativa». Por supuesto, la interpretación práctica sería muy diferente si el 70% de los votantes probables dijera que votaría por B y el margen de error fuera del 3%.
La razón por la que los gerentes se preocupan por la significación estadística es porque quieren saber qué dicen los hallazgos sobre lo que deben hacer en el mundo real. Pero «los intervalos de confianza y las pruebas de hipótesis se diseñaron para apoyar la «ciencia», donde la idea es aprender algo que resista el paso del tiempo», afirma Redman. Incluso si una conclusión no es estadísticamente significativa, puede ser útil para usted y para su empresa. Por otro lado, cuando trabaja con grandes conjuntos de datos, es posible obtener resultados que son significativos desde el punto de vista estadístico pero que prácticamente no tienen sentido, por ejemplo, que un grupo de clientes tiene un 0,000001% más de probabilidades de hacer clic en la campaña A que en la campaña B. Así que, en lugar de obsesionarse con si sus hallazgos son exactamente correctos, piense en la implicación de cada hallazgo en la decisión que espera tomar. ¿Qué haría de otra manera si el hallazgo fuera diferente?
¿Qué errores comete la gente cuando trabaja con la significación estadística?
«La significación estadística es un concepto escurridizo y, a menudo, se malinterpreta», advierte Redman. «No me encuentro con muchas situaciones en las que los gerentes tengan que entenderlo a fondo, pero necesitan saber cómo no hacer un mal uso de él».
Por supuesto, los científicos de datos no tienen el monopolio de la palabra «significativo» y, a menudo, en las empresas se utiliza para referirse a si un hallazgo es importante desde el punto de vista estratégico. Es una buena práctica utilizar un lenguaje lo más claro posible cuando se habla de los hallazgos de datos. Si quiere hablar sobre si la conclusión tiene implicaciones para su estrategia o sus decisiones, está bien utilizar la palabra «significativo», pero si quiere saber si algo es estadísticamente significativo (y le gustaría saberlo), sea preciso en su idioma. La próxima vez que consulte los resultados de una encuesta o experimento, pregunte por la significación estadística si el analista no la ha publicado.
Lectura adicional
Un repaso sobre el análisis de regresión
Recuerde que las pruebas de significación estadística le ayudan a tener en cuenta los posibles errores de muestreo, pero Redman afirma que lo que suele ser más preocupante es la error no muestreado: «Los errores ajenos al muestreo implican cosas en las que los protocolos experimentales o de medición no se realizaron según lo planeado, como personas que mienten en la encuesta, que se pierdan datos o que se cometan errores en el análisis». Aquí es donde Redman ve resultados más preocupantes. «Pueden pasar muchas cosas desde el momento en que planifica la encuesta o el experimento hasta que obtiene los resultados. Me preocupa más si los datos sin procesar son fiables que el número de personas con las que han hablado», afirma. Los datos limpios y un análisis cuidadoso son más importantes que la significación estadística.
Tenga siempre en cuenta la aplicación práctica de la conclusión. Y no se obsesione demasiado con establecer un intervalo de confianza estricto. Redman afirma que hay un sesgo en la literatura científica según el cual «un resultado no se podía publicar a menos que alcanzara una p = 0,05 (o menos)». Pero para muchas decisiones, como qué enfoque de marketing utilizar, necesitará un intervalo de confianza mucho más bajo. En los negocios, dice Redman, a menudo hay criterios más importantes que la significación estadística. La pregunta importante es: «¿Se mantiene el resultado en el mercado, aunque solo sea durante un breve período de tiempo?»
Como dice Redman, los resultados solo le dan una cantidad limitada de información: «Estoy a favor de usar las estadísticas, pero siempre las hago con buen juicio».
Artículos Relacionados

Investigación: La IA generativa hace que la gente sea más productiva y esté menos motivada

Arreglar los chatbots requiere psicología, no tecnología
Los chatbots dotados de IA se están convirtiendo en el nuevo estándar para la gestión de consultas, reclamaciones y devoluciones de productos, pero los clientes se alejan de las interacciones con los chatbots sintiéndose decepcionados. La mayoría de las empresas intentan solucionar este problema diseñando mejores modelos de IA en sus chatbots, pensando que si los modelos suenan lo suficientemente humanos, el problema acabará desapareciendo. Pero esta suposición es errónea. Esto se debe a que el problema de fondo no es tecnológico. Es psicológico: Hay que engatusar a la gente para que vea a los chatbots como un medio positivo de interacción. Los autores han analizado recientemente las últimas investigaciones sobre chatbots e interacciones IA-humanos, y en este artículo presentan seis acciones probadas que puede llevar a cabo al desplegar su chatbot de IA para impulsar la satisfacción, la percepción positiva de la marca y las ventas.

Investigación: ¿Está penalizando a sus mejores empleados por desconectar?
Para combatir el creciente desgaste del personal, muchas empresas han defendido programas de bienestar y han fomentado un enfoque renovado en el equilibrio entre la vida laboral y personal. Pero un nuevo estudio descubrió que incluso cuando los líderes reconocían que desvincularse del trabajo aumenta el bienestar de los empleados y mejora su rendimiento laboral, los directivos seguían penalizando a los empleados que adoptaban estos comportamientos cuando optaban a un ascenso o estaban siendo considerados para un nuevo puesto. Basándose en sus conclusiones, los investigadores ofrecen sugerencias para ayudar a las empresas a crear políticas y construir una cultura que proteja los límites de los trabajadores, evite el agotamiento y recompense el trabajo fuerte.