Un repaso sobre las pruebas A/B

Un repaso sobre las pruebas A/B

Resumen.

Las pruebas A/B son una forma de comparar dos versiones de algo para averiguar cuál funciona mejor. Aunque más a menudo se asocia con sitios web y aplicaciones, el método tiene casi 100 años de antigüedad y es una de las formas más simples de un experimento controlado aleatorizado. Este método de prueba ha aumentado en popularidad en las últimas dos décadas, ya que las empresas se han dado cuenta de que el entorno en línea es muy adecuado para ayudar a los gerentes, especialmente a los vendedores, responder preguntas como: «¿Qué es lo más probable que haga que la gente haga clic? ¿O comprar nuestro producto? ¿O registrarse en nuestro sitio?». Ahora se utiliza para evaluar todo, desde el diseño de sitios web hasta las ofertas en línea, los titulares y las descripciones de productos. La prueba funciona mostrando dos conjuntos de usuarios (asignados aleatoriamente cuando visitan el sitio) diferentes versiones de un producto o sitio y luego determinar cuál influyó más en su métrica de éxito. Si bien es un método utilizado a menudo, hay varios errores que cometen los gerentes al hacer pruebas A/B: reaccionar a los primeros datos sin dejar que la prueba ejecute su curso completo; mirar demasiadas métricas en lugar de centrarse en las que más les importan; y no hacer lo suficiente volver a probar para asegurarse de que no obtuvieron resultados falsos positivos.


Todo se trata de datos en estos días. Los líderes no quieren tomar decisiones a menos que tengan evidencia. Eso es algo bueno, por supuesto, y afortunadamente hay muchas maneras de obtener información sin tener que depender de los instintos. Uno de los métodos más comunes, especialmente en los entornos en línea, es la prueba A/B.

Para entender mejor qué son las pruebas A/B, dónde se originaron y cómo usarlas, hablé con Kaiser Fung, quien fundó el programa de análisis aplicado en la Universidad de Columbia y es autor de Gráficos de basura, un blog dedicado al examen crítico de datos y gráficos en los medios de comunicación. Su último libro es Sentido numérico: Cómo utilizar Big Data para su ventaja.

¿Qué es la prueba A/B?

Las pruebas A/B, en su forma más básica, es una manera de comparar dos versiones de algo para averiguar cuál funciona mejor. Aunque más a menudo se asocia con sitios web y aplicaciones, Fung dice que el método tiene casi 100 años.

En la década de 1920, el estadístico y biólogo Ronald Fisher descubrió los principios más importantes detrás de las pruebas A/B y los experimentos controlados aleatorizados en general. «No fue el primero en ejecutar un experimento como este, pero fue el primero en averiguar los principios básicos y las matemáticas y convertirlos en una ciencia», dice Fung.

Fisher llevó a cabo experimentos agrícolas, haciendo preguntas como, ¿Qué pasa si pongo más fertilizante en esta tierra? Los principios persistieron y a principios de la década de 1950 los científicos comenzaron a realizar ensayos clínicos en medicina. En las décadas de 1960 y 1970 el concepto fue adaptado por los vendedores para evaluar las campañas de respuesta directa (por ejemplo, ¿una postal o una carta a los clientes objetivo darían lugar a más ventas?).

Las pruebas A/B, en su forma actual, surgieron en el decenio de 1990. Fung dice que a lo largo del siglo pasado las matemáticas detrás de las pruebas no han cambiado. «Son los mismos conceptos básicos, pero ahora lo estás haciendo en línea, en un entorno en tiempo real, y a una escala diferente en términos de número de participantes y número de experimentos».

¿Cómo funcionan las pruebas A/B?

Comienza una prueba A/B decidiendo qué es lo que quieres probar. Fung da un ejemplo sencillo: el tamaño del botón de suscripción en su sitio web. Entonces necesita saber cómo desea evaluar su rendimiento. En este caso, digamos que su métrica es el número de visitantes que hacen clic en el botón. Para ejecutar la prueba, muestra dos conjuntos de usuarios (asignados al azar cuando visitan el sitio) las diferentes versiones (donde lo único diferente es el tamaño del botón) y determina cuál influyó más en su métrica de éxito. En este caso, ¿qué tamaño de botón hizo que más visitantes hagan clic?

En la vida real hay un montón de cosas que influyen si alguien hace clic. Por ejemplo, puede ser que los que están en un dispositivo móvil tengan más probabilidades de hacer clic en un botón de cierto tamaño, mientras que los del escritorio se dibujan a un tamaño diferente. Aquí es donde la aleatorización puede ayudar, y es fundamental. Al aleatorizar qué usuarios están en cada grupo, minimiza las posibilidades de que otros factores, como el móvil frente al escritorio, impulsarán sus resultados en promedio.

«La prueba A/B puede considerarse el tipo más básico de experimento controlado aleatorizado», dice Fung. «En su forma más simple, hay dos tratamientos y uno actúa como el control del otro.» Al igual que con todos los experimentos controlados aleatorizados, debe estimar el tamaño de la muestra que necesita para lograr un significación estadística, que te ayudará a asegurarte de que el resultado que estás viendo «no se debe solo al ruido de fondo», dice Fung.

A veces, usted sabe que ciertas variables, generalmente aquellas que no se manipulan fácilmente, tienen un fuerte efecto en la métrica de éxito. Por ejemplo, tal vez los usuarios móviles de su sitio web tienden a hacer clic menos en cualquier cosa, en comparación con los usuarios de escritorio. La aleatorización puede dar como resultado que el conjunto A contenga un poco más usuarios móviles que el conjunto B, lo que puede hacer que el conjunto A tenga una tasa de clics más baja independientemente del tamaño de botón que esté viendo. Para nivelar el campo de juego, el analista de pruebas primero debe dividir a los usuarios por móvil y escritorio y luego asignarlos aleatoriamente a cada versión. Esto se llama bloqueo.

El tamaño del botón de suscripción es un ejemplo muy básico, dice Fung. En realidad, es posible que no esté probando solo el tamaño, sino también el color, el texto, el tipo de letra y el tamaño de la fuente. Muchos administradores ejecutan pruebas secuenciales, por ejemplo, el tamaño de prueba primero (grande frente a pequeño), luego probando el color (azul versus rojo), luego probando el tipo de letra (Times versus Arial) — porque creen que no deberían variar dos o más factores al mismo tiempo. Pero según Fung, esa opinión ha sido desacreditada por los estadísticos. Y las pruebas secuenciales no son óptimas porque no estás midiendo lo que sucede cuando los factores interactúan. Por ejemplo, puede ser que los usuarios prefieran el azul en promedio pero prefieren el rojo cuando se combina con Arial. Este tipo de resultado se pierde regularmente en las pruebas A/B secuenciales porque la prueba de tipo de letra se ejecuta en botones azules que han «ganado» la prueba anterior.

En cambio, dice Fung, deberías ejecutar pruebas más complejas. Esto puede ser difícil para algunos gerentes, ya que el atractivo de las pruebas A/B son lo sencillos y sencillos que son de ejecutar (y muchas personas que diseñan estos experimentos, señala Fung, no tienen antecedentes estadísticos). «Con las pruebas A/B, tendemos a querer ejecutar un gran número de pruebas simultáneas e independientes», dice, en gran parte porque la mente tambola el número de posibles combinaciones que puede probar. Pero usando matemáticas se puede «elegir y ejecutar inteligentemente sólo ciertos subconjuntos de esos tratamientos; entonces usted puede inferir el resto de los datos». Esto se denomina prueba «multivariante» en el mundo de pruebas A/B y a menudo significa que terminas haciendo una prueba A/B/C o incluso una prueba A/B/C/D. En el ejemplo anterior con colores y tamaño, podría significar mostrar diferentes grupos: un botón rojo grande, un pequeño botón rojo, un botón azul grande y un pequeño botón azul. Si quisiera probar fuentes, también, el número de grupos de prueba crecería aún más.

¿Cómo interpreta los resultados de una prueba A/B?

Lo más probable es que su empresa utilice software que maneja los cálculos, e incluso puede emplear a un estadístico que pueda interpretar esos resultados por usted. Pero es útil tener una comprensión básica de cómo dar sentido a la salida y decidir si avanzar con la variación de prueba (el nuevo botón en el ejemplo anterior).

Fung dice que la mayoría de los programas de software reportan dos tasas de conversión para las pruebas A/B: una para los usuarios que vieron la versión de control y la otra para los usuarios que vieron la versión de prueba. «La tasa de conversión puede medir clics u otras acciones realizadas por los usuarios», dice. El informe podría tener este aspecto: «Control: 15% (+/- 2,1%) Variación 18% (+/- 2,3%)». Esto significa que el 18% de sus usuarios hicieron clic en la nueva variación (quizás su botón azul más grande) con un margen de error del 2.3%. Puede que se sienta tentado a interpretar esto como la tasa de conversión real cayendo entre el 15,7% y el 20,3%, pero eso no sería técnicamente correcto. «La interpretación real es que si ejecutó su prueba A/B varias veces, el 95% de los rangos capturará la tasa de conversión verdadera; en otras palabras, la tasa de conversión cae fuera del margen de error 5% del tiempo (o cualquier nivel de significación estadística que has establecido)», explica Fung.

Si esto es difícil de envolver la cabeza, únete al club. Lo importante es saber que la tasa de conversión del 18% no es una garantía. Aquí es donde entra tu juicio. Una tasa de conversación del 18% es ciertamente mejor que un 15%, incluso permitiendo el margen de error (12,9% — 17,1% frente al 15,7% — 20,3%). Es posible que oiga a la gente hablar de esto como un «aumento del 3%» (la elevación es simplemente la diferencia porcentual en la tasa de conversión entre su versión de control y un tratamiento de prueba exitoso). En este caso, lo más probable es que sea una buena decisión cambiar a su nueva versión, pero eso dependerá de los costos de implementación de la nueva versión. Si son bajos, puede probar el interruptor y ver qué sucede en realidad (a diferencia de en pruebas). Una de las grandes ventajas de las pruebas en el mundo en línea es que normalmente puede volver a su original con bastante facilidad.

¿Cómo usan las empresas las pruebas A/B?

Fung dice que la popularidad de la metodología ha aumentado a medida que las empresas se han dado cuenta de que el entorno en línea es muy adecuado para ayudar a los gerentes, especialmente a los vendedores, responder preguntas como, «¿Qué es lo más probable que haga que la gente haga clic? ¿O comprar nuestro producto? ¿O registrarse en nuestro sitio?» Las pruebas A/B se utilizan ahora para evaluar todo, desde el diseño del sitio web hasta las ofertas en línea, los titulares y las descripciones de productos. (De hecho, la semana pasada miré los resultados de las pruebas A/B en el lenguaje que usamos para comercializar un nuevo producto aquí en HBR.)

La mayoría de estos experimentos se ejecutan sin que los sujetos lo sepan. «Como usuario, somos parte de estas pruebas todo el tiempo y no lo sabemos», dice Fung.

Y no son solo sitios web. También puede probar correos electrónicos o anuncios de marketing. Por ejemplo, puede enviar dos versiones de un correo electrónico a su lista de clientes (aleatorizando la lista primero, por supuesto) y averiguar cuál genera más ventas. Entonces puedes enviar la versión ganadora la próxima vez. O bien, puede probar dos versiones de la copia de anuncios y ver cuál convierte a los visitantes con más frecuencia. Entonces sabes gastar más conseguir el más exitoso por ahí.

¿Qué errores cometen las personas al hacer pruebas A/B?

Le pregunté a Fung acerca de los errores que ve cometer las empresas al realizar pruebas A/B, y señaló tres errores comunes.

Primero, dice, demasiados gerentes no dejan que las pruebas hagan su curso. Debido a que la mayoría del software para ejecutar estas pruebas le permite ver los resultados en tiempo real, los gerentes quieren tomar decisiones demasiado rápido. Este error, dice, «evoluciona a partir de la impaciencia», y muchos proveedores de software han jugado en este esfuerzo excesivo ofreciendo un tipo de prueba A/B llamada «optimización en tiempo real», en el que puede usar algoritmos para hacer ajustes a medida que llegan los resultados. El problema es que, debido a la aleatorización, es posible que si deja que la prueba se ejecute hasta su final natural, pueda obtener un resultado diferente.

El segundo error es mirar demasiadas métricas. «Me encojo cada vez que veo un software que trata de complacer a todos dándote un panel de cientos de métricas», dice. El problema es que si está mirando una cantidad tan grande de métricas al mismo tiempo, corre el riesgo de hacer lo que los estadísticos llaman» correlaciones espurias.» En el diseño de prueba adecuado, «debe decidir las métricas que va a ver antes de ejecutar un experimento y seleccionar algunas. Cuanto más midas, más probable es que veas fluctuaciones aleatorias». Con tantas métricas, en lugar de preguntarse, «¿Qué está pasando con esta variable?» estás preguntando: «¿Qué cambios interesantes (y potencialmente insignificantes) estoy viendo?»

Por último, Fung dice que pocas empresas reiteran lo suficiente. «Tendemos a probarlo una vez y luego lo creemos. Pero incluso con un resultado estadísticamente significativo, hay una probabilidad bastante grande de error falso positivo. A menos que vuelvas a probar de vez en cuando, no descartas la posibilidad de estar equivocado». Los falsos positivos pueden ocurrir por varias razones. Por ejemplo, a pesar de que puede haber pocas probabilidades de que cualquier resultado A/B dado sea impulsado por una casualidad aleatoria, si hace muchas pruebas A/B, las posibilidades de que al menos uno de sus resultados sea incorrecto crece rápidamente.

Esto puede ser particularmente difícil de hacer porque es probable que los gerentes terminen con resultados contradictorios, y nadie quiere descubrir que han socavado los hallazgos anteriores, especialmente en el mundo en línea, donde los gerentes quieren hacer cambios y capturar valor rápidamente. Pero este enfoque en el valor puede ser erróneo, dice Fung: «La gente no está muy alerta sobre el valor práctico de los hallazgos. Quieren creer que cada pequeña cantidad de mejora es valiosa incluso cuando los resultados de las pruebas no son totalmente fiables. De hecho, cuanto menor sea la mejora, menos confiables son los resultados».

Está claro que las pruebas A/B no son una panacea. Hay tipos más complejos de experimentos que son más eficientes y le darán datos más confiables, dice Fung. Pero las pruebas A/B son una gran manera de obtener una comprensión rápida de una pregunta que tiene. Y «la buena noticia sobre el mundo de las pruebas A/B es que todo sucede tan rápido, así que si lo ejecuta y no funciona, puede probar otra cosa. Siempre puedes volver a la vieja táctica».

Escrito por Amy Gallo