Sí, las pruebas A/B siguen siendo necesarias
por Kaiser Fung
La disponibilidad de datos está transformando gradualmente la toma de decisiones de la dirección empresarial. Como lo ha hecho Tom Davenport señaló, las empresas pasan por un proceso de maduración al incorporar los datos en las decisiones. Uno de los puntos de inflexión es cuando los ejecutivos comienzan a exigir respuestas científicas a las preguntas del «por qué», y ya no están dispuestos a aceptar una ostentación visceral. Los gerentes que llegan en este momento descubren que los informes y paneles semanales carecen de información profunda y comienzan a invertir en pruebas A/B.
Durante más de 10 años y en tres empresas, creé y dirigí programas de pruebas A/B, en los que probamos una nueva oferta con media muestra con un grupo de control que no recibe ninguna oferta nueva. Los ejecutivos se dan cuenta rápidamente de la ventaja principal de las pruebas: que las pruebas A/B proporcionan respuestas fiables a las preguntas del «por qué». No es de extrañar, ya que estas pruebas se han mantenido durante mucho tiempo como el «estándar de referencia» para aprender la causa y el efecto en la investigación científica, los estudios clínicos y el marketing directo. Sin embargo, muchos ejecutivos llegan a una crisis de la mediana edad, lo que genera dudas sobre la dirección del programa de pruebas A/B.
Según mi experiencia, estas son tres de las preguntas más comunes que surgen de esas dudas y cómo deben pensar los gerentes al respecto.
La mayoría de nuestras pruebas no funcionan. ¿Las pruebas A/B son una pérdida de tiempo?
Yo estimo que entre el 80 y el 90 por ciento de las pruebas A/B que he supervisado contarían como «fracasos» para los ejecutivos. Por fracaso se refieren a un resultado que «no es significativo desde el punto de vista estadístico». No se diferenció significativamente de B para justificar una nueva táctica empresarial, por lo que la empresa mantiene el status quo. Para muchos gerentes, ninguna acción resultante de las pruebas equivale a ningún valor para la prueba. Así que cuando la gran mayoría de las pruebas «fallan», es natural preguntarse si las pruebas son una pérdida de tiempo y recursos.
El culpable no es el programa de pruebas sino el uso indebido de la palabra «fracaso». De las pruebas que realicé, considero del 80 al 90 por ciento exitoso porque o conducen a un cambio de enfoque o confirman el enfoque actual. Lejos de ser un desperdicio, confirmar que va por buen camino evita el uso improductivo de los fondos y redirige las energías del equipo a proyectos más útiles.
Las pruebas que realmente fallan están mal diseñadas o mal ejecutadas, lo que lleva a resultados ilegibles. Una vez, a una empresa con la que trabajaba le preocupaba que su correo fuera marcado como spam; dividieron su lista de correo por la mitad y escalonaron la entrega. Por desgracia, el vendedor envió los correos electrónicos del Grupo A el viernes y los del Grupo B el martes siguiente. Es un mal diseño, ya que las rebajas de los fines de semana siempre van por detrás de las de los días de semana. No había ningún control para esa variable. No sabíamos si el bajo rendimiento del Grupo A se debió al efecto del fin de semana, al nuevo diseño o a una combinación de ambos. Simplemente no había forma de recuperarse de este error de ejecución.
A veces, una prueba muestra señales esperanzadoras pero no es concluyente. Este conocimiento nos permite diseñar la próxima prueba y, por lo tanto, no debe considerarse un fracaso. Si una prueba se diseña y ejecuta con cuidado, produce aprendizaje, independientemente de la significación estadística. Los gerentes deberían exigir a los equipos de pruebas que hagan un seguimiento del resultado de cada prueba, incluido cualquier impacto principal o final, y el diseño o la ejecución fallidos.
Me encanta enterarme de los resultados positivos de nuestras pruebas, pero ¿por qué nuestras métricas agregadas no mejoran al mismo ritmo?
Algunos ejecutivos se enfrentan al problema opuesto de escuchar demasiadas buenas noticias. Imagínese una serie de pruebas A/B que, durante seis meses, produjeran cinco pruebas que mostraran que los cambios podían mejorar la tasa de conversión un 5%, un 2%, un 10%, un 8% y un 4%. La dirección espera ahora que la tasa de conversión total suba alrededor de un 30%. Pero echar un vistazo a la lista semanal trae decepción.
Hay muchas razones por las que los resultados individuales no cuadran. Estas son dos importantes:
En primer lugar, si una prueba activa aumenta los resultados un 5% en relación con el control, una vez que la prueba se declara exitosa, la posterior implementación solo se aplica a la mitad no tratada de la base de clientes, el grupo B, lo que significa que los gerentes deben esperar una mejora global de solo un 2,5%.
En segundo lugar, las nuevas tácticas suelen funcionar para un subconjunto de clientes, no para toda la base. Por ejemplo, cuando probamos una oferta promocional más agresiva para volver a conectar a los suscriptores que habían dejado de fumar recientemente, nos enteramos de que la oferta solo era válida para los clientes de productos específicos. En el análisis de la prueba A/B, atribuimos una mejora del 10% en la tasa de reconexión a la oferta promocional dirigida a esos segmentos de productos.
No nos detuvimos ahí. También informamos de que el 10% se tradujo en un cambio al alza del uno por ciento en la tasa total de reconexión, porque los desactivadores de esos segmentos objetivo constituían el 10 por ciento de la base de clientes.
Los ejecutivos deben asegurarse de que los resultados de las pruebas se publican en la escala de las métricas agregadas. Las cifras reportadas serían menos impresionantes pero más realistas.
¿Por qué no tengo una visibilidad más constante de los resultados de las pruebas?
Dado que las pruebas A/B son la clave para aprender qué impulsa la mejora empresarial, es natural y prudente que los ejecutivos exijan visibilidad. Pero según mi experiencia, hay una buena y una mala visibilidad.
La mala visibilidad es la monitorización en tiempo real. Muchos servicios de software modernos cuentan con esta función, que muestra bonitos gráficos que muestran los resultados de las pruebas día a día, incluso hora tras hora o minuto a minuto. Esta función es bastante adictiva, como ver una carrera de caballos.
La mayoría de las adicciones no son saludables. En este caso, las pruebas A/B se basan en ciertos principios estadísticos, que estipulan un tamaño mínimo de muestra. Los grupos A y B solo son comparables de media y los valores medios solo son fiables con muestras suficientes. Cuando los directivos leen los resultados hora tras hora, a veces encuentran grandes brechas entre los grupos A y B y exigen una reacción rápida. Casi todas esas fluctuaciones se deben a un desequilibrio temporal entre los dos grupos, que se corrige a medida que llegan nuevas muestras.
No me malinterprete. Un analista de pruebas competente debería seguir el progreso de una prueba, identificar e investigar las anomalías, pero la monitorización en tiempo real es una pérdida de tiempo para el gerente.
En cambio, los ejecutivos deberían centrarse en una buena visibilidad: un proceso estandarizado, desde el diseño hasta la ejecución y la presentación de informes, que incluya los segmentos de clientes claramente definidos que se están probando, un formato de informe estándar que incluya el rendimiento esperado en conjunto y el impacto en los costes y los ingresos. Si una prueba no pasa por problemas de diseño o ejecución, se merece una breve reseña.
Cada tres o seis meses, se debe realizar una revisión de arriba hacia abajo de todas las pruebas. En esta reunión, los directores deberían examinar el balance de las pruebas. ¿Existe una buena combinación de pruebas rápidas y sencillas y pruebas que requieren un desarrollo inicial significativo? ¿Hay una buena combinación de pruebas destinadas a aumentar los ingresos y pruebas destinadas a reducir los costes? ¿Hay una buena combinación de individuales, dobles y jonrones? ¿Hay una buena combinación de pruebas iniciadas por diferentes departamentos?
Las pruebas A/B son un concepto bastante simple, pero he visto demasiados programas puestos en peligro por la crisis de la mediana edad que molesta a muchos patrocinadores ejecutivos. Estandarice el programa de pruebas. Documente las pruebas. Piense detenidamente en la conexión entre sus pruebas A/B y los objetivos de la empresa. Utilice todos los resultados como aprendizaje. Céntrese en el panorama general y no se deje atrapar por la búsqueda de resultados momento a momento, y su inversión en las pruebas A/B dará sus frutos.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.