Actualización sobre el análisis de regresión

Actualización sobre el análisis de regresión


Probablemente ya sepas que siempre que sea posible deberías estar haciendo decisiones impulsadas por datos en el trabajo. Pero, ¿sabe cómo analizar todos los datos disponibles para usted? La buena noticia es que probablemente no tengas que hacer el cálculo de números tú mismo (¡aleluya!) pero sí que necesita entender e interpretar correctamente el análisis creado por sus colegas. Uno de los tipos más importantes de análisis de datos es análisis de regresión.

Para entender mejor este método y cómo lo utilizan las empresas, hablé con Tom Redman, autor de Impulsado por los datos: cómo sacar provecho de su activo empresarial más importante. También asesora a las organizaciones en sus programas de calidad de datos y datos.

¿Qué es el análisis de regresión?

Redman ofrece este escenario de ejemplo: Supongamos que usted es un gerente de ventas que intenta predecir las cifras del próximo mes. Usted sabe que docenas, quizás incluso cientos de factores, desde el clima hasta la promoción de un competidor o el rumor de un modelo nuevo y mejorado, pueden afectar el número. Quizás las personas de su organización incluso tengan una teoría sobre lo que tendrá el mayor efecto en las ventas. «Confía en mí. Mientras más lluvia tenemos, más vendemos». «Seis semanas después de la promoción de la competencia, las ventas aumentan».

El análisis de regresión es una forma de clasificar matemáticamente cuál de esas variables tiene un impacto. Responde a las preguntas: ¿Qué factores importan más? ¿Qué podemos ignorar? ¿Cómo interactúan esos factores entre sí? Y, quizás lo más importante, ¿qué tan seguros estamos de todos estos factores?

En el análisis de regresión, esos factores se denominan variables. Tienes tu variable dependiente, el factor principal que intentas entender o predecir. En el ejemplo anterior de Redman, la variable dependiente son las ventas mensuales. Y luego tienes tu variables independientes— los factores que sospecha que tienen un impacto en su variable dependiente.

¿Cómo funciona?

Para llevar a cabo un análisis de regresión, usted reúne los datos de las variables en cuestión. (Recordatorio: es probable que no tenga que hacerlo usted mismo, pero le resultará útil comprender el proceso que utiliza su colega analista de datos). Usted toma todas las cifras de ventas mensuales de, por ejemplo, los últimos tres años y cualquier dato de las variables independientes que le interesan. Entonces, en este caso, digamos que también averigua la precipitación mensual promedio de los últimos tres años. Luego, traza toda esa información en un gráfico que se ve así:

W20151029_GALLO_RELATIONSHIPVARIABLES

El eje y es la cantidad de ventas (la variable dependiente, lo que le interesa, siempre está en el eje y) y el eje x es la precipitación total. Cada punto azul representa los datos de un mes: cuánto llovió ese mes y cuántas ventas hizo ese mismo mes.

Al echar un vistazo a estos datos, probablemente notes que las ventas son más altas en los días en que llueve mucho. Es interesante saberlo, pero ¿por cuánto? Si llueve 3 pulgadas, ¿sabes cuánto venderás? ¿Qué pasa si llueve 4 pulgadas?

Ahora imagine dibujar una línea a través del gráfico de arriba, una que recorra aproximadamente la mitad de todos los puntos de datos. Esta línea lo ayudará a responder, con cierto grado de certeza, cuánto vende normalmente cuando llueve una cantidad determinada.

W20151029_GALLO_REGRESSIONMODEL

Esto se denomina línea de regresión y se dibuja (utilizando un programa de estadísticas como SPSS o STATA o incluso Excel) para mostrar la línea que mejor se ajusta a los datos. En otras palabras, explica Redman, «La línea roja es la mejor explicación de la relación entre la variable independiente y la variable dependiente».

Además de trazar la línea, el programa de estadísticas también genera una fórmula que explica la pendiente de la línea y tiene un aspecto similar a esto:

W151030_AUTHOR_debt-to-equity-ratio_err_700px

Ignore el término de error por ahora. Se refiere al hecho de que la regresión no es perfectamente precisa. Solo concéntrate en el modelo:

W151030_AUTHOR_debt-to-equity-ratio_700px

Lo que esta fórmula te dice es que si no hay «x», entonces Y = 200. Por lo tanto, históricamente, cuando no llovió en absoluto, hizo un promedio de 200 ventas y puede esperar hacer lo mismo en el futuro, suponiendo que otras variables permanezcan igual. Y en el pasado, por cada pulgada adicional de lluvia, hacías un promedio de cinco ventas más. «Por cada incremento que x sube uno, y aumenta en cinco», dice Redman.

Ahora volvamos al término de error. Es posible que se sienta tentado a decir que la lluvia tiene un gran impacto en las ventas si por cada centímetro obtiene cinco ventas más, pero si esta variable merece su atención dependerá del término de error. Una línea de regresión siempre tiene un término de error porque, en la vida real, las variables independientes nunca son predictores perfectos de las variables dependientes. Más bien, la línea es una estimación basada en los datos disponibles. Por lo tanto, el término de error le indica qué tan seguro puede estar acerca de la fórmula. Cuanto más grande sea, menos segura será la línea de regresión.

El ejemplo anterior utiliza solo una variable para predecir el factor de interés, en este caso la lluvia para predecir las ventas. Por lo general, se inicia un análisis de regresión con el objetivo de comprender el impacto de varias variables independientes. Por lo tanto, puede incluir no solo la lluvia, sino también datos sobre la promoción de un competidor. «Sigue haciendo esto hasta que el término de error sea muy pequeño», dice Redman. «Está intentando obtener la línea que mejor se adapte a sus datos». Si bien puede haber peligros al tratar de incluir demasiadas variables en un análisis de regresión, los analistas expertos pueden minimizar esos riesgos. Y considerar el impacto de varias variables a la vez es una de las mayores ventajas de la regresión.

¿Cómo lo usan las empresas?

El análisis de regresión es el «método de referencia en el análisis», dice Redman. Y las empresas inteligentes lo utilizan para tomar decisiones sobre todo tipo de asuntos empresariales. «Como gerentes, queremos averiguar cómo podemos influir en las ventas o la retención de empleados o en la contratación de las mejores personas. Nos ayuda a descubrir qué podemos hacer».

La mayoría de las empresas utilizan el análisis de regresión para explicar un fenómeno que quieren entender (por ejemplo, ¿por qué se interrumpieron las llamadas de servicio al cliente el mes pasado? ; predecir cosas sobre el futuro (por ejemplo, ¿cómo serán las ventas en los próximos seis meses?) ; o para decidir qué hacer (por ejemplo, ¿debemos elegir esta promoción o una diferente?).

Una nota sobre «la correlación no es causalidad»: Siempre que trabaje con análisis de regresión o cualquier otro análisis que intente explicar el impacto de un factor en otro, debe recordar el adagio importante: La correlación no es causalidad. Esto es fundamental y he aquí por qué: es fácil decir que existe una correlación entre la lluvia y las ventas mensuales. La regresión muestra que, de hecho, están relacionados. Pero es algo completamente diferente decir que la lluvia causado las ventas. A menos que vendas paraguas, puede ser difícil demostrar que hay causa y efecto.

A veces se correlacionan factores que obviamente no están conectados por causa y efecto. pero más a menudo en los negocios, no es tan obvio. Cuando ves una correlación en un análisis de regresión, no puedes hacer suposiciones, dice Redman. En cambio, «tienes que salir y ver lo que está sucediendo en el mundo real. ¿Cuál es el mecanismo físico que causa la relación?» Salga y observe a los consumidores que compran su producto bajo la lluvia, hable con ellos y descubra qué es lo que realmente les está causando realizar la compra. «Mucha gente se salta este paso y creo que es porque son perezosos. El objetivo no es averiguar qué está pasando en los datos, sino averiguar qué está sucediendo en el mundo. Hay que salir y golpear el pavimento», dice.

Redman escribió sobre su propio experimento y análisis para tratar de perder peso y la conexión entre sus viajes y el aumento de peso. Se dio cuenta de que cuando viajaba, comía más y hacía menos ejercicio. Entonces, ¿su aumento de peso fue causado por los viajes? No necesariamente. «Fue bueno cuantificar lo que estaba sucediendo, pero los viajes no son la causa. Puede estar relacionado», dice, pero no es como si su estar en la carretera pusiera esos kilos de más. Tenía que entender más sobre lo que sucedía durante sus viajes. «A menudo me encuentro en entornos nuevos, así que tal vez como más porque estoy nervioso». Necesitaba analizar más de cerca la correlación. Y este es su consejo para los directivos. Use los datos para guiar más experimentos, no para sacar conclusiones sobre la causa y el efecto.

¿Qué errores cometen las personas cuando trabajan con análisis de regresión?

Como consumidor de análisis de regresión, hay varias cosas que debe tener en cuenta.

En primer lugar, no le diga a su analista de datos que averigüe qué es lo que afecta a las ventas. «La forma en que la mayoría de los análisis se vuelven locos es que el gerente no ha reducido el enfoque en lo que busca», dice Redman. Es su trabajo identificar los factores que sospecha que están teniendo un impacto y pedirle a su analista que los analice. «Si le dices a un científico de datos que vaya a una expedición de pesca, o que te diga algo que no sabes, entonces te mereces lo que obtienes, lo cual es un mal análisis», dice. En otras palabras, no pida a sus analistas que analicen todas las variables que puedan tener en sus manos a la vez. Si lo haces, es probable que encuentres relaciones que realmente no existen. Es el mismo principio que lanzar una moneda: hazlo suficientes veces, eventualmente pensar ves algo interesante, como un montón de cabezas seguidas.

También tenga en cuenta si puede o no hacer algo con respecto a la variable independiente que está considerando. No puedes cambiar cuánto llueve, así que ¿qué tan importante es entenderlo? «No podemos hacer nada con respecto al clima o la promoción de nuestros competidores, pero podemos afectar nuestras propias promociones o añadir funciones, por ejemplo», dice Redman. Pregúntese siempre qué va a hacer con los datos. ¿Qué medidas tomarás? ¿Qué decisiones va a tomar?

En segundo lugar, «los análisis son muy sensibles a los datos incorrectos», así que tenga cuidado con los datos que recopila y cómo los recopila, y sepa si puede confiar en él. «No es necesario que todos los datos sean correctos o perfectos», explica Redman, pero considere lo que va a hacer con el análisis. Si las decisiones que tomará como resultado no tienen un gran impacto en su negocio, no hay problema si los datos tienen «fugas». Pero «si estás tratando de decidir si construir 8 o 10 de algo y cada uno cuesta $1 millón construir, entonces es un negocio más grande», dice. La tabla a continuación explica cómo pensar si se debe actuar en función de los datos.

correlation1

Redman dice que algunos gerentes que son nuevos en la comprensión del análisis de regresión cometen el error de ignorar el término de error. Esto es peligroso porque hacen que la relación entre algo sea más segura de lo que es. «A menudo, los resultados salen de una computadora y los gerentes piensan: 'Genial, usemos esto en el futuro». Pero recuerda que los resultados siempre son inciertos. Como señala Redman, «Si la regresión explica el 90% de la relación, eso es genial. Pero si explica el 10% y actúas como si fuera el 90%, no está bien». El objetivo del análisis es cuantificar la certeza de que algo va a suceder. «No le dice cómo la lluvia influirá en sus ventas, sino que le indica la probabilidad de que la lluvia pueda influir en sus ventas».

El último error contra el que Redman advierte es dejar que los datos reemplacen tu intuición.

«Siempre tienes que poner tu intuición sobre los datos», explica. Pregúntese si los resultados se ajustan a su comprensión de la situación. Y si ve algo que no tiene sentido, pregunte si los datos eran correctos o si realmente hay un término de error grande. Redman sugiere que recurra a gerentes con más experiencia u otros análisis si está obteniendo algo que no tiene sentido. Y, dice, nunca olvides mirar más allá de los números a lo que está sucediendo fuera de tu oficina: «Necesitas emparejar cualquier análisis con el estudio del mundo real. Los mejores científicos (y gerentes) analizan ambos».

Escrito por Amy Gallo