por Rosemary Hadiwidjaja, Digital Marketing Client Servicing
Source: www.researchgate.net/figure/Statistical-Significance-vs-Effect-Size_fig1_323830370
Como especialistas en marketing, a menudo necesitamos evaluar el rendimiento de los anuncios en diferentes anuncios a través de pruebas A/B. Sin embargo, simplemente comparar el resultado puede no ser preciso para descubrir qué anuncios funcionan bien. Por ejemplo, en la siguiente tabla:
El anuncio A tiene una tasa de conversión del 1 %, mientras que el anuncio B tiene una tasa de conversión del 0,8 %. Por instinto, pensaríamos que el anuncio A está funcionando mejor que el B (1 % > 0,8 %) y procederíamos a utilizar el anuncio A durante el resto de la campaña. ¿Es esto real? Al aplicar pruebas de significancia estadística, resulta que no es concluyente determinar que el anuncio A tiene un mejor rendimiento que el anuncio B. Entonces, ¿cómo podemos asegurarnos de que estamos tomando la decisión correcta sobre qué anuncio pausar? Primero, averigüemos qué es la significancia estadística.
Qué significa ser estadísticamente significativo
La significancia estadística es la probabilidad de que la diferencia en las tasas de conversión entre una variación dada y la línea de base no se deba a una probabilidad aleatoria (Optimizely, 2021). Entonces, ¿cómo calculamos y comparamos qué anuncio es mejor? Existen diferentes niveles de significancia estadística utilizando niveles de confianza: 90%, 95% y 99%. Por ejemplo, usar un nivel de confianza del 95% refleja que tenemos un 95% de confianza en que el resultado es correcto sin errores aleatorios. Por otro lado, esto también puede significar que hay un 5% de posibilidades de que el resultado sea incorrecto.
En la significancia estadística, también usamos el valor p. El valor p, también conocido como valor de probabilidad, es un número que describe la probabilidad de que los datos hayan ocurrido por casualidad (Saul, 2019). El número del valor P suele ser 0,1, 0,05 y 0,01. En este estudio, nuestro punto de referencia será 0,05. Por tanto, si el valor de p es inferior a 0,05, el resultado es significativo. Para asegurarnos de que el anuncio tenga un mejor rendimiento, debemos usar la significacia estadística para demostrar que nuestra hipótesis es correcta.
¿Cómo comparar los datos?
Veamos el primer ejemplo.
Hay una manera fácil de obtener el resultado de significancia estadística utilizando una calculadora de pruebas A/B. Aquí hay un ejemplo de la calculadora que usaremos para este ejercicio. Es fácil de usar ya que todo lo que tiene que hacer es ingresar la información y la calculadora generará el resultado para la tasa de conversión y la importancia de los diferentes niveles de confianza con una explicación.
Source:https://www.surveymonkey.com/mp/ab-testing-significance-calculator/
Aquí, el valor p es 0,8995. Para determinar un resultado es significativo, valor p < 0,05. Por lo tanto, el resultado concluyó que con un 90%, 95% y 99% de confianza, el resultado no es significativo porque no hay suficiente evidencia de que la diferencia en los grupos no se deba al azar.
Por lo tanto, no podemos decir que A se está desempeñando mejor que B, ni podemos decir que B se desempeñará peor que A.
Lo mejor es que ambos formatos de anuncios se ejecuten durante otra semana y observar si habrá algún cambio.
Veamos otro ejemplo:
Based on the conversion rate, D is performing better. Let’s check for the significance.
En todos los niveles de confianza, el resultado es significativo: el anuncio D tiene un mejor rendimiento con una tasa de conversión del 0,05 % que el anuncio C con una tasa de conversión del 0,04 %. Además, el valor p es inferior a 0,05. Esto significa que estamos muy seguros de que D funcionará mejor que C.
De esta forma, podemos decir que el anuncio D es más efectivo para impulsar la conversión y que podemos recomendar detener el anuncio C.
¿Qué niveles de confianza debemos usar?
Cuanto mayor sea el nivel de confianza, más preciso será el resultado; sin embargo, suele haber una compensación entre la precisión y el número de tamaños de muestra necesarios para alcanzar la significacia estadística. En el mundo de la investigación, el nivel de confianza más utilizado es el 95 % (Fuente: Evolytics), aunque nuestra recomendación es que, en el período de prueba, será suficiente un nivel de confianza del 90 %.
Conclusión
Para determinar qué anuncio funcionará mejor, no podemos simplemente "mirar" y usar nuestras intuiciones. Mediante el uso de la significacia estadística, podemos determinar con mayor precisión qué anuncio funciona mejor.
Por lo tanto, según los ejemplos que analizamos, la importancia estadística es más importante que la duración de la campaña. Sin embargo, debe ejecutar la campaña el tiempo suficiente para obtener suficiente evidencia. Entonces, si parece que el resultado no es significativo, debe ejecutar la prueba durante algunas semanas más para generar suficiente tamaño de muestra antes de concluir. Por el contrario, para los anuncios que funcionan bien al principio, si concluye demasiado rápido, puede parecer que hay una diferencia significativa al principio, pero esta diferencia puede disminuir con el tiempo.
En Adzymic, ayudamos a los anunciantes a ir más allá de las pruebas A/B y optimizar sus anuncios en tiempo real utilizando algoritmos de aprendizaje automático. Nuestro motor de optimización patentado elimina las conjeturas, analiza cada impresión y selecciona los mejores anuncios para publicar. Compartiremos más sobre esto en una próxima publicación de blog.