Facebook Ads es una caja negra causal
Las métricas de Meta Ads no son verdades causales. Son estimaciones con sesgo. Entendé por qué y qué hacer al respecto.
Vos definís presupuesto, creativos y objetivo. Meta decide a quién mostrarle qué, cuándo, en qué placement, con qué frecuencia y a qué precio. Y no te dice cómo tomó esas decisiones. El resultado: cuando tu campaña funciona bien, no sabés por qué. Cuando funciona mal, tampoco. Las métricas del Ads Manager parecen darte la respuesta, pero lo que te muestran son correlaciones disfrazadas de causalidad. Este post desarma por qué Meta Ads es una caja negra causal, qué distorsiones específicas genera, y cómo medimos de forma que la caja negra deje de importar.
Qué significa "caja negra" en términos causales
Una caja negra no es simplemente algo opaco. Es un sistema donde no podés aislar el efecto de tus decisiones del efecto de las decisiones del sistema.
En Meta Ads, hay dos operadores tomando decisiones simultáneas sobre la misma campaña: vos y el algoritmo. Vos elegís los creativos, el presupuesto, el objetivo. El algoritmo elige a quién, cuándo, dónde y con qué frecuencia mostrar cada ad. El resultado (conversiones, CPA, ROAS) es la consecuencia combinada de ambos. Pero el dashboard solo te muestra el resultado final, no la contribución de cada operador.
Esto es lo que en inferencia causal se llama un problema de identificación: no podés separar el efecto del tratamiento (tu ad) del efecto de la asignación (las decisiones del algoritmo). Es como evaluar a un vendedor sin saber a qué clientes lo mandaron. Si le dieron los mejores leads, por supuesto que vendió más. Pero no sabés si vendió más por ser buen vendedor o por tener buenos leads.
Los de AdExchanger describieron a Advantage+ Shopping Campaigns como la plataforma de ads más opaca que cualquier anunciante de Facebook haya conocido. No exageran. Pero el problema no es solo la opacidad. Es que la opacidad hace imposible atribuir resultados a causas específicas sin un diseño experimental externo.
Una caja negra causal no es solo un sistema opaco. Es un sistema donde no podés aislar el efecto de tus decisiones del efecto de las decisiones del algoritmo. En Meta Ads, el anunciante y el algoritmo toman decisiones simultáneas sobre la misma campaña: el anunciante elige creativos y presupuesto, el algoritmo elige audiencia, placement, frecuencia y timing. El dashboard muestra el resultado combinado de ambos operadores, pero no la contribución de cada uno. Sin un diseño experimental externo, es imposible atribuir resultados a causas específicas.
Los confounders específicos que crea Meta
Un confounder (variable de confusión) es una variable que afecta tanto al tratamiento como al resultado, creando una correlación espuria. Meta crea varios.
El selection bias endógeno del presupuesto
Meta asigna más presupuesto a los ads que predice que van a performar mejor. Los ads con más spend generan más conversiones. Pero eso no significa que sean mejores. Significa que Meta les dio más oportunidades.
Si ad A recibió $500 y generó 50 conversiones, y ad B recibió $50 y generó 8 conversiones, ¿cuál es mejor? No podés saberlo sin controlar por el presupuesto que cada uno recibió. Y el presupuesto que cada uno recibió fue una decisión de Meta, no tuya.
Esto se conecta directamente con lo que cubrimos en nuestro post sobre por qué no deberías mirar el CPA a nivel de anuncio individual. El CPA de cada ad refleja las decisiones de distribución de Meta, no solo la calidad del creativo.
El confounding de audiencia
Andromeda decide a quién mostrarle cada creativo basándose en las señales del creativo. Un ad que muestra a un founder contando su historia se lo muestra a personas que responden a narrativas. Un ad con datos duros va a personas que buscan soluciones concretas.
Entonces cuando comparás performance entre dos ads, no estás comparando dos mensajes mostrados a la misma audiencia. Estás comparando dos mensajes mostrados a audiencias distintas que Meta eligió. La diferencia en resultado puede ser del creativo o de la audiencia. No lo sabés.
Esto lo cubrimos en profundidad en nuestro post sobre el anuncio como segmentación real.
El confounding temporal
Meta no muestra tu ad de forma uniforme en el tiempo. Puede decidir concentrar impresiones en un horario, redistribuir entre placements según el momento del día, o cambiar la frecuencia por usuario a lo largo de la semana. Si tu CPA fue mejor el martes que el jueves, puede ser que el martes Meta distribuyó distinto, no que tu ad funcionó mejor.
El loop de retroalimentación como confounder dinámico
El más insidioso. Meta usa los resultados de ayer para decidir la distribución de hoy. Si un ad tuvo buen día (quizás por suerte en el inventario), Meta le da más delivery mañana. Más delivery genera más conversiones. Más conversiones refuerzan la señal positiva. El ad "ganador" gana cada vez más, pero la causa original pudo ser azar.
Esto crea un sesgo de supervivencia dinámico que se autorefuerza. Lo cubrimos en detalle en nuestro post sobre el CPA y el loop de retroalimentación.
Meta crea al menos cuatro confounders específicos que distorsionan la lectura de resultados. Selection bias endógeno: Meta asigna más presupuesto a los ads que predice mejores, inflando sus conversiones. Confounding de audiencia: Andromeda muestra cada creativo a una audiencia distinta, haciendo incomparable la performance entre ads. Confounding temporal: la distribución de impresiones varía por hora, día y placement sin control del anunciante. Loop de retroalimentación: Meta usa resultados de ayer para decidir la distribución de hoy, creando un sesgo de supervivencia dinámico que amplifica tanto la suerte como la mala suerte.
Por qué las métricas del Ads Manager no son causales
El Ads Manager reporta atribución, no causalidad. La diferencia es fundamental.
Atribución vs causalidad
Atribución dice: "esta persona vio tu ad y después compró". Causalidad dice: "esta persona compró porque vio tu ad". La primera es un hecho observacional. La segunda es una afirmación causal que requiere un contrafactual (¿qué hubiera pasado si no hubiera visto el ad?).
Como lo pone este artículo de Meta for Business: la atribución es a menudo percibida como causalidad bajo el razonamiento de que si un usuario hizo click en un ad y la atribución del revenue fue al ad, entonces el ad debe haber causado la conversión. Pero más a menudo que no, ese no es el caso.
El view-through de 1 día
Meta atribuye conversiones a ads que el usuario solo vio (sin hacer click) si la conversión ocurrió dentro de 1 día. Una persona puede haber visto tu ad en el feed sin prestarle atención, después buscó tu producto en Google porque un amigo se lo recomendó, y compró. Meta se atribuye esa conversión. Google también.
Las conversiones modeladas post-iOS 14.5
Después de iOS 14.5, Meta no puede trackear a una porción significativa de usuarios de iPhone. Para compensar, usa "conversiones modeladas": estimaciones estadísticas basadas en patrones de usuarios que sí permitieron tracking. Aparecen en tu dashboard junto con conversiones reales, sin distinción clara.
Como explica este análisis de Cometly: los modelos pueden ser razonablemente precisos en agregado, pero para tu cuenta específica pueden sobreestimar o subestimar por márgenes significativos.
El retargeting como caso extremo
El retargeting es donde la confusión entre atribución y causalidad es más severa. Le mostrás un ad a alguien que ya visitó tu sitio, ya vio tu producto, quizás ya lo metió en el carrito. Esa persona compra. ¿Tu ad causó la compra? ¿O iba a comprar de todas formas y tu ad simplemente le recordó?
Sin un contrafactual, no podés saberlo. Y el ROAS de tu campaña de retargeting puede estar dramáticamente inflado porque se atribuye conversiones que hubieran ocurrido sin el ad.
Según datos de Fusepoint, solo el 8% de los marketers usan incrementality testing, aunque el 41% reporta tener problemas para medir el retorno real. Esa brecha entre la atribución que se reporta y el impacto real que se genera es exactamente lo que la caja negra oculta.
Las métricas del Ads Manager reportan atribución, no causalidad. Atribución dice "esta persona vio tu ad y compró". Causalidad dice "compró porque vio tu ad". La diferencia requiere un contrafactual: ¿qué hubiera pasado sin el ad? El view-through de 1 día atribuye conversiones a ads que el usuario solo vio sin clickear. Las conversiones modeladas post-iOS 14.5 son estimaciones estadísticas mezcladas con datos reales. El retargeting se atribuye conversiones de personas que probablemente hubieran comprado de todas formas. Solo el 8% de los marketers usan incrementality testing para distinguir correlación de causalidad, según datos de Fusepoint.
El problema del contrafactual
La pregunta central de la inferencia causal es: ¿qué hubiera pasado si no hubieras mostrado ese anuncio?
Eso es el contrafactual. Y es lo que ninguna métrica del Ads Manager puede darte.
Por qué necesitás un contrafactual
Si tu campaña generó 1,000 conversiones, necesitás saber cuántas de esas hubieran ocurrido sin el ad. Si la respuesta es 800, tu impacto incremental real es 200. Tu ROAS real es muy diferente del que muestra el dashboard.
En un caso documentado por Haus, una marca de fitness descubrió con un conversion lift test que el grupo expuesto a sus ads tuvo una tasa de conversión de 2.3%, contra 1.1% del grupo de control. Eso es un lift incremental de 109%. Suena bien. Pero también significa que el 48% de las conversiones atribuidas a los ads hubieran ocurrido de todas formas (1.1% de conversiones "orgánicas" dentro del 2.3% total).
Otro caso reportado en un análisis de Rajiv Gopinath: una plataforma de ecommerce descubrió que la atribución tradicional estaba sobreestimando la efectividad de sus campañas en un 38%. Casi 4 de cada 10 conversiones que se atribuían a Facebook no fueron causadas por Facebook.
Sin contrafactual, estás adivinando
Cada vez que mirás el ROAS en el Ads Manager y tomás una decisión de presupuesto basándote en ese número, estás asumiendo que todas las conversiones atribuidas fueron causadas por tus ads. Para campañas de prospecting, eso puede ser razonablemente cercano a la realidad. Para retargeting, la distorsión puede ser enorme.
Y si la distorsión es grande, estás sobreinvirtiendo en canales que interceptan demanda existente y subinvirtiendo en los que realmente la crean. Como señala este análisis de Fusepoint: el resultado es sobreinversión sistemática en canales "de cierre" y subinversión en los canales que realmente crean demanda.
El contrafactual es la pregunta central de la inferencia causal: ¿qué hubiera pasado sin el anuncio? Ninguna métrica del Ads Manager puede responderla. Un conversion lift test de una marca de fitness (reportado por Haus) mostró que el 48% de las conversiones atribuidas hubieran ocurrido sin los ads. Otro caso (Rajiv Gopinath) encontró que la atribución tradicional sobreestimaba la efectividad de campañas de Facebook en un 38%. Sin contrafactual, cada decisión de presupuesto basada en ROAS del dashboard asume que todas las conversiones fueron causadas por los ads. Para retargeting, esa asunción puede estar dramáticamente equivocada.
Las soluciones causales que existen
Hay tres enfoques principales para medir el impacto causal real de tus ads, cada uno con sus ventajas y limitaciones.
Conversion Lift Studies (Randomized Controlled Trials)
Meta ofrece esta herramienta dentro del Ads Manager. Funciona como un ensayo clínico: se divide la audiencia en un grupo que ve tus ads (test) y un grupo que no los ve (control, típicamente 5-20% de la audiencia). Después se comparan las conversiones entre ambos grupos.
Es el gold standard para medir causalidad. Según la propia documentación de Meta, la metodología está basada en randomized controlled trials, considerados el estándar más alto para medir impacto causal.
Limitaciones: necesitás un mínimo de $5,000 de spend anual para calificar. El estudio necesita correr varias semanas sin interrupciones. No podés hacer cambios significativos a las campañas durante el estudio. Y los resultados miden el lift dentro del ecosistema de Meta, no el impacto total en el negocio.
Geo experiments (GeoLift)
En vez de randomizar personas, randomizás regiones geográficas. Mostrás ads en unas regiones (test) y pausás en otras (control). Comparás las conversiones entre ambas.
Ventaja: no depende del tracking a nivel de usuario, lo que lo hace robusto post-iOS 14.5. Desventaja: necesitás volumen geográfico suficiente, y la granularidad es menor.
Incrementality testing observacional
Herramientas como INCRMNTAL o enfoques de Causal MMM (Marketing Mix Modeling causal) usan modelos estadísticos sobre datos históricos para estimar el impacto incremental sin necesidad de grupos de control. No requieren pausar campañas.
Desventaja: son modelos, no experimentos. Dependen de la calidad de los datos históricos y de los supuestos del modelo. Son menos rigurosos que un RCT pero más accesibles.
| Método | Rigor causal | Costo mínimo | Tiempo | Requiere pausar ads | Granularidad |
|---|---|---|---|---|---|
| Conversion Lift (RCT) | Alto | $5,000/año en Meta | 2-4 semanas | No (pero pierde 5-20% de reach) | Por campaña |
| Geo experiments | Alto | Depende del volumen | 2-4 semanas | Sí (en regiones control) | Por región |
| Incrementality observacional | Medio | Variable | Continuo | No | Por campaña/canal |
| Atribución del Ads Manager | Bajo (no causal) | $0 | Inmediato | No | Por ad |
Cuál usar y cuándo
Si gastás más de $5,000/año en Meta y podés permitirte correr un estudio sin tocar las campañas durante 2-4 semanas, un Conversion Lift study es la mejor opción. Te da la respuesta más limpia.
Si tenés presencia geográfica diversa y querés medir impacto incluyendo conversiones offline o cross-channel, un geo experiment te da más amplitud.
Si no podés hacer ninguno de los dos (presupuesto bajo, no podés pausar, necesitás respuestas continuas), un enfoque observacional con modelado causal es mejor que confiar ciegamente en la atribución del Ads Manager.
Y si no hacés ninguno, al menos sabé que los números que ves en el dashboard son estimaciones con sesgo, no verdades.
Existen tres métodos principales para medir el impacto causal real de ads en Meta. Conversion Lift Studies son randomized controlled trials con grupo test y control, el gold standard, disponibles desde $5,000 de spend anual. Geo experiments comparan regiones con y sin ads, robustos post-iOS 14.5. Incrementality testing observacional usa modelos estadísticos sobre datos históricos sin pausar campañas. La atribución del Ads Manager no es un método causal: reporta correlaciones con sesgo de selección, no impacto incremental real.
Cómo abordamos esto en la práctica
Tres métodos, un ranking
En el análisis causal que hicimos para un cliente de meditación (app freemium, mercado LATAM), usamos tres frameworks estadísticos: DoWhy (backdoor regression), EconML (LinearDML) y CausalML (S-Learner y T-Learner). El objetivo era estimar el efecto causal de cada dimensión creativa (ángulo, arco narrativo, formato) sobre conversiones.
Con 322 creativos, filtrados a 181 con spend mayor a $5, corrimos los tres métodos sobre los mismos datos. El resultado: cada método produjo un ranking diferente de "mejores ángulos". El que los tres coincidieron como top ("revelación de causa oculta") tenía un intervalo de confianza en EconML de -212 a +547. Es decir: con tres métodos rigurosos y 322 data points, la incertidumbre seguía siendo enorme.
¿Eso invalida el análisis? No. Muestra exactamente lo que este post argumenta: que extraer conclusiones causales de datos observacionales de Meta es difícil porque los confounders (selection bias del presupuesto, confounding de audiencia, loop de retroalimentación) contaminan los datos. El valor del análisis está en saber cuánto no sabés, no en pretender certeza que no existe.
Storytelling Hacking como sistema de hipótesis
Nuestro sistema de Storytelling Hacking funciona así: antes de lanzar creativos, el marketing manager asigna un puntaje predictivo a cada uno basándose en su hipótesis de qué va a funcionar. Después, se contrasta con la performance real. El ciclo de retroalimentación entre intuición y datos genera aprendizaje acumulativo.
Esto no reemplaza un lift study. Pero crea una capa de pensamiento que convierte cada lanzamiento en un experimento informal: hay una predicción, hay un resultado, hay una comparación, hay aprendizaje. Es la diferencia entre lanzar creativos al vacío y lanzarlos con una hipótesis que podés evaluar.
Calibrar la atribución con incrementalidad
La recomendación de Meta misma (publicada en su guía de medición) es usar lift tests para calibrar tu modelo de atribución. Si un lift test muestra que tu impacto incremental real es 60% de lo que la atribución reporta, ajustás tus targets. Un ROAS reportado de 3.5x con un factor de incrementalidad de 0.6 significa que tu ROAS real es 2.1x. Tus decisiones de presupuesto deberían basarse en el 2.1x, no en el 3.5x.
Esto lo cubrimos paso a paso en nuestro post sobre cómo medir el rendimiento de tus ads de forma causal.
[IMAGEN: Diagrama comparando el flujo de atribución (ad → click → conversión → se atribuye al ad) vs el flujo causal (grupo test vs grupo control → se mide la diferencia → eso es el impacto real)]
La solución causal práctica tiene tres capas. Primera: usar al menos un método de incrementality testing (Conversion Lift, geo experiment, o modelado causal) para calcular el factor de incrementalidad real. Segunda: calibrar la atribución del Ads Manager con ese factor. Si un lift test muestra que el impacto incremental es 60% de lo atribuido, un ROAS reportado de 3.5x es en realidad 2.1x. Tercera: convertir cada lanzamiento de creativos en un experimento con hipótesis predictiva y evaluación posterior, para generar aprendizaje acumulativo sobre qué funciona y por qué.
Conclusión
Meta Ads no es solo opaco. Es un sistema donde las métricas que ves mezclan tus decisiones con las del algoritmo, presentan correlación como si fuera causalidad, y te atribuyen conversiones que quizás hubieran ocurrido sin tu ad.
Los confounders son específicos y documentables: selection bias del presupuesto, confounding de audiencia por Andromeda, variación temporal de distribución, y loops de retroalimentación que amplifican tanto la suerte como la mala suerte.
La atribución del Ads Manager no es medición causal. Es una estimación útil pero sesgada. Sin un contrafactual, no sabés cuántas conversiones causaste realmente.
Las herramientas para medir de forma causal existen: Conversion Lift, geo experiments, incrementality testing. No son perfectas, pero cualquiera de ellas es mejor que tratar la atribución del dashboard como verdad.
Y si no podés correr ningún test formal, al menos calibrá tus expectativas: los números que ves están inflados por un margen que no conocés. Tomá decisiones sabiendo eso, no ignorándolo.
Si querés entender cuánto de lo que muestra tu dashboard es impacto real y cuánto es ruido, podemos diagnosticarlo. Desarmamos el sistema, encontramos dónde se deja valor en la mesa, y lo resolvemos.
Agendar diagnóstico