Chapitre 4 — Attribution, causalité et modélisation avancée de la performance marketing

Comprendre comment répartir, modéliser et interpréter la contribution réelle des leviers marketing à partir des modèles heuristiques, probabilistes et économétriques.

Fil conducteur du chapitre

1. Observer

KPI, corrélations et parcours visibles.

2. Répartir

Modèles mono-touch et multi-touch heuristiques.

3. Modéliser

Markov, Shapley, régressions et hypothèses.

4. Décider

Allocation budgétaire, limites et arbitrages.

Fondements théoriques et mathématiques de l’attribution marketing

Passer de la performance observée à la contribution expliquée.

De la mesure descriptive à la modélisation causale

Limites des métriques descriptives

KPICausalitéObservationCorrélationPerformance

Les métriques descriptives constituent le premier niveau de lecture de la performance marketing, mais elles ne suffisent pas à expliquer les mécanismes qui produisent la conversion. Un taux de clic, un ROAS ou un CPA décrivent un résultat observé, sans établir que le canal associé en est la cause. L’enjeu consiste à distinguer l’observation statistique de l’intervention causale : une donnée peut indiquer qu’un phénomène accompagne une conversion, sans démontrer qu’il l’a provoquée. C’est précisément le point d’entrée vers l’attribution avancée, qui cherche à dépasser la simple lecture de dashboard pour reconstruire les relations entre leviers, parcours et résultats.

Équation clé

\[P(Y\mid X) \neq P(Y\mid do(X))\]

La probabilité conditionnelle observationnelle, notée P(Y|X), décrit ce que l’on observe lorsque X est présent. La probabilité interventionnelle, notée P(Y|do(X)), cherche à représenter ce qui se passerait si l’on imposait X comme action. Cette distinction, issue de l’inférence causale, rappelle qu’une relation observée dans les données ne suffit pas à établir un effet causal.

Illustration — Limites des métriques descriptives

Multiplicité des interactions et non-linéarité des parcours

ParcoursInteractionsNon-linéaritéSéquenceComplexité

Les parcours de conversion contemporains ne peuvent plus être réduits à une relation simple entre un canal et une vente. L’utilisateur peut rencontrer une publicité, lire un article, revenir par une newsletter, consulter un avis, puis convertir après une recherche de marque. La performance résulte alors d’un système d’interactions, parfois redondantes, parfois complémentaires, parfois différées. Les algorithmes d’attribution doivent donc modéliser des séquences et non des événements isolés. Cette logique introduit une difficulté majeure : l’effet d’un levier dépend de sa position, des interactions précédentes, du contexte de réception et de la maturité du prospect.

Équation clé

\[S = \{x_1, x_2, x_3, \ldots, x_n\}\]

Le parcours est formalisé comme une séquence d’interactions marketing. Chaque xᵢ représente un point de contact : SEO, publicité, email, réseau social, webinar, retargeting. L’objectif de l’attribution est de comprendre comment cette séquence contribue à la conversion finale, sans réduire abusivement le résultat à une seule interaction.

Illustration — Multiplicité des interactions et non-linéarité des parcours

Formalisation probabiliste de la conversion

ProbabilitéConversionModélisationVariablesIncertitude

Dans une approche avancée, la conversion est traitée comme une variable aléatoire influencée par plusieurs facteurs. Elle n’est plus considérée comme une conséquence mécanique d’un canal unique, mais comme un événement dont la probabilité varie selon les expositions, les comportements et les contextes. L’attribution consiste alors à estimer l’effet marginal d’un levier sur cette probabilité de conversion. Cette formalisation est essentielle, car elle permet d’aborder le marketing comme un système d’influences probabilistes, dans lequel les canaux modifient des chances de conversion plutôt qu’ils ne produisent directement des ventes.

Équation clé

\[Y \in \{0,1\}, \quad P(Y=1)=p\]

La conversion est représentée par une variable binaire : Y vaut 1 si l’utilisateur convertit, 0 sinon. Le modèle cherche à estimer p, c’est-à-dire la probabilité de conversion. L’enjeu de l’attribution est ensuite d’identifier comment chaque levier modifie cette probabilité.

Illustration — Formalisation probabiliste de la conversion

Corrélation, causalité et dépendance structurelle

Corrélation statistique

CorrélationDépendanceStatistiquesCausalitéRelation

La corrélation mesure une association statistique entre deux variables, mais elle ne permet pas d’établir une causalité. En marketing, cette confusion est fréquente : un canal peut être présent dans les parcours qui convertissent sans être la cause principale de la conversion. Par exemple, une recherche de marque peut apparaître juste avant l’achat parce que l’utilisateur est déjà convaincu par un autre levier. La corrélation indique donc une relation, mais ne suffit jamais à expliquer le mécanisme d’influence. L’attribution sérieuse commence précisément au moment où l’on refuse de confondre co-présence et contribution causale.

Équation clé

\[\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}\]

Le coefficient de corrélation mesure la relation linéaire entre X et Y. Il varie entre -1 et 1. Une valeur élevée indique une association forte, mais ne démontre pas que X cause Y. En attribution marketing, cette limite impose de compléter les analyses corrélatives par des modèles de contribution ou des approches causales.

Variables confondantes

BiaisVariablesConfusionDépendanceCausalité

Une variable confondante est un facteur caché qui influence simultanément l’exposition marketing et la conversion. Elle peut donner l’illusion qu’un canal est performant alors qu’il bénéficie simplement d’un contexte favorable. Par exemple, la notoriété préalable d’une marque peut augmenter à la fois la probabilité de cliquer sur une annonce et celle de convertir. Si cette notoriété n’est pas intégrée dans le modèle, le canal publicitaire risque d’être survalorisé. La prise en compte des variables confondantes est donc centrale pour éviter les décisions budgétaires fondées sur une causalité apparente.

Équation clé

\[Z \rightarrow X \quad ; \quad Z \rightarrow Y\]

La variable Z influence à la fois X, l’exposition marketing, et Y, la conversion. La relation observée entre X et Y peut donc être biaisée par Z. Dans un modèle d’attribution, ignorer Z revient à attribuer au canal un effet qui relève peut-être d’un facteur externe.

Contribution marginale

ContributionMarginaleLeviersAttributionImpact

La contribution marginale mesure ce qu’un levier ajoute réellement à un système déjà composé d’autres interactions. Elle évite de raisonner en valeur absolue et oblige à considérer le rôle d’un canal dans un ensemble. Un canal peut sembler faible isolément mais devenir décisif lorsqu’il intervient après un contenu éducatif ou avant une relance commerciale. À l’inverse, un canal très visible peut n’ajouter qu’une faible contribution marginale si les utilisateurs auraient converti sans lui. La contribution marginale est donc un concept central pour relier attribution, causalité et allocation budgétaire.

Équation clé

\[MC_i = P(C\mid S)-P(C\mid S\setminus x_i)\]

MCᵢ mesure la différence entre la probabilité de conversion avec l’ensemble du parcours S et la probabilité de conversion lorsque l’interaction xᵢ est retirée. Plus l’écart est important, plus le levier contribue marginalement à la conversion.

Temporalité et dépendance séquentielle

Fenêtres d’attribution

TemporalitéFenêtreAttributionTrackingConversion

La fenêtre d’attribution définit la période pendant laquelle une interaction est considérée comme contributive à une conversion. Ce paramètre est stratégique, car il influence directement la lecture de la performance. Une fenêtre trop courte favorise les canaux proches de la conversion, comme le retargeting ou la recherche de marque, tandis qu’une fenêtre trop longue peut intégrer des interactions trop éloignées pour être réellement explicatives. Le choix de la fenêtre doit donc dépendre du cycle de décision, du secteur, du prix, du niveau d’implication et de la nature du produit.

Équation clé

\[T=[t_0,t_n]\]

La fenêtre T encadre la période d’observation du parcours. Les interactions situées dans cet intervalle sont prises en compte dans l’attribution. Ce choix n’est jamais neutre : il peut modifier fortement la part attribuée aux différents canaux.

Effets différés

LatenceMémoireRetardEffetTemporalité

Certains leviers produisent leurs effets avec retard. Un livre blanc, un webinar ou un article expert peuvent ne pas convertir immédiatement mais contribuer à la maturation du prospect. Cette temporalité différée est particulièrement importante en B2B, dans les achats complexes ou dans les produits à forte implication. Les modèles d’attribution doivent donc intégrer la latence entre exposition et résultat, sans quoi les leviers de construction de demande sont mécaniquement sous-évalués. L’enjeu est de reconnaître que la performance n’est pas toujours instantanée, et que la mémoire des interactions joue un rôle dans la décision.

Équation clé

\[Y_t=\alpha+\beta X_{t-k}+\varepsilon_t\]

Cette équation exprime que la performance observée au temps t peut dépendre d’une action marketing passée, notée Xₜ₋ₖ. Le paramètre k représente le délai entre l’action et son effet. Ce type de formulation permet d’intégrer les effets différés dans l’analyse.

Saturation et décroissance

SaturationDécroissanceOptimisationRendementBudget

La performance marginale d’un levier diminue souvent avec l’intensité d’exposition. Les premières impressions peuvent être efficaces, puis l’effet décroît lorsque l’audience est saturée ou lorsque le message perd sa nouveauté. Cette logique est fondamentale pour l’allocation budgétaire : investir davantage dans un canal déjà saturé peut produire peu de valeur additionnelle. Les modèles de saturation permettent d’éviter une lecture naïve selon laquelle plus de budget entraînerait mécaniquement plus de conversions. Ils introduisent une réflexion sur le rendement marginal des investissements marketing.

Équation clé

\[f(x)=a(1-e^{-bx})\]

Cette fonction représente une croissance rapide au départ, puis une stabilisation progressive. Le paramètre a indique le plafond potentiel de performance, tandis que b contrôle la vitesse d’approche de ce plafond. Elle illustre la baisse du rendement marginal à mesure que l’investissement augmente.

Illustration — Saturation et décroissance

∑

Exercice fil rouge — Partie I

Analyse critique des systèmes d’attribution existants

CONTEXTE 1 — E-commerce premium : VELORA

Marque D2C d’accessoires connectés de sport. Forte présence Google Ads, SEO, influence Instagram, emailing et retargeting Meta Ads. Les plateformes revendiquent chacune une contribution élevée, tandis que le SEO génère beaucoup de trafic mais peu de conversions directes.

CONTEXTE 2 — SaaS B2B IA : SYNAPTIC DATA

Plateforme d’analyse prédictive pour entreprises industrielles. Cycle de vente de 3 à 9 mois. Les leviers mobilisés sont LinkedIn Ads, webinars, livres blancs, SEO, nurturing email et conférences professionnelles.

Objectif pédagogique

Identifier les limites des modèles actuellement utilisés, reconstruire les parcours et repérer les variables cachées qui faussent l’interprétation de la performance.

Travail demandé

Identifier les modèles implicitement utilisés : last click, first click, logique plateforme ou attribution assistée.
Cartographier les points de contact, les temporalités, les micro-conversions et les zones d’incertitude.
Repérer les variables confondantes : notoriété, saisonnalité, bouche-à-oreille, biais algorithmiques, effet de marque.

Modèles par répartition et attribution heuristique

Comprendre les modèles opérationnels simples, leurs logiques et leurs biais.

Modèles mono-touch

Last Click Attribution

Last clickConversionSimplificationFin de parcoursBiais

Le modèle last click attribue toute la valeur au dernier point de contact avant la conversion. Il est simple, lisible et facile à implémenter, ce qui explique sa diffusion historique. Mais cette simplicité est aussi sa limite : il survalorise mécaniquement les canaux de fin de parcours et invisibilise les leviers d’amont. En e-commerce, il peut favoriser le retargeting ou la recherche de marque, alors même que la décision a été construite par des contenus, des recommandations ou des campagnes antérieures. Le last click est donc utile comme point de départ opérationnel, mais insuffisant pour piloter une stratégie multicanale sérieuse.

Équation clé

\[A_i=\begin{cases}1 & \text{si } i=n\\0 & \text{sinon}\end{cases}\]

La valeur d’attribution Aᵢ vaut 1 pour le dernier point de contact et 0 pour tous les autres. Toute la conversion est donc affectée à la dernière interaction, quelle que soit la complexité du parcours précédent.

First Click Attribution

AcquisitionDécouverteFirst clickEntréeAttribution

Le modèle first click attribue toute la valeur au premier point de contact. Il permet de valoriser les leviers de découverte, comme le SEO informationnel, les campagnes de notoriété ou les contenus éducatifs. Il est intéressant pour analyser la capacité d’un canal à initier une relation avec un prospect. Cependant, il ignore tout le travail de maturation, de réassurance et de conversion qui intervient ensuite. Dans les parcours longs, cette limite devient majeure : le premier contact ouvre une possibilité, mais ne suffit pas nécessairement à expliquer la décision finale.

Équation clé

La valeur d’attribution Aᵢ vaut 1 pour le premier point de contact et 0 pour tous les autres. Le modèle privilégie donc l’origine du parcours au détriment des interactions de maturation et de conversion.

Limites structurelles des modèles mono-touch

SimplificationMono-touchLimitesBiaisParcours

Les modèles mono-touch reposent sur l’hypothèse implicite qu’une seule interaction peut porter toute la responsabilité de la conversion. Cette hypothèse est difficilement défendable dans les environnements numériques actuels, où les décisions sont construites par accumulation de signaux. Le problème n’est pas seulement technique, il est conceptuel : ces modèles transforment une dynamique distribuée en causalité ponctuelle. Ils peuvent donc conduire à des arbitrages budgétaires dangereux, en renforçant les canaux visibles au détriment des leviers silencieux mais structurants.

Équation clé

\[Contribution(x_i)=0 \quad \forall i\neq k\]

Cette formulation résume la limite des modèles mono-touch : tous les points de contact sauf un sont considérés comme n’ayant aucune contribution. C’est une réduction excessive qui contredit la logique multi-interactionnelle des parcours réels.

Illustration — Limites structurelles des modèles mono-touch

Modèles multi-touch heuristiques

Modèle linéaire

LinéaireRépartitionÉgalitéMulti-touchPondération

Le modèle linéaire constitue une première correction des modèles mono-touch, car il reconnaît que plusieurs interactions peuvent contribuer à la conversion. Il répartit la valeur de manière égale entre tous les points de contact. Cette approche est plus équilibrée que le last click ou le first click, mais elle repose sur une hypothèse forte : toutes les interactions auraient la même importance. Or, dans la réalité, un webinar expert, une publicité de rappel et une visite rapide n’ont probablement pas le même poids décisionnel. Le modèle linéaire est donc utile pour introduire la logique multi-touch, mais reste analytiquement limité.

Équation clé

\[A_i=\frac{1}{n}\]

Chaque interaction reçoit la même part de la valeur, n représentant le nombre total de points de contact du parcours. Si un parcours contient quatre interactions, chacune reçoit 25 % de l’attribution.

Modèles temporels et position-based

PondérationTemporalitéPositionHiérarchieAttribution

Les modèles temporels et position-based introduisent des pondérations différenciées. Le time decay donne plus de poids aux interactions proches de la conversion, en supposant que les contacts récents ont une influence plus forte. Le position-based accorde souvent une importance particulière au premier et au dernier contact, considérés comme structurants dans l’entrée et la sortie du parcours. Ces modèles sont plus réalistes que le linéaire, mais leurs pondérations restent généralement arbitraires. Ils traduisent une intuition stratégique plus qu’une démonstration causale.

Équation clé

\[A_i=\frac{e^{-\lambda t_i}}{\sum_{j=1}^{n} e^{-\lambda t_j}}\]

Cette version normalisée du time decay attribue un poids décroissant aux interactions selon leur distance temporelle à la conversion. Le coefficient λ règle la vitesse de décroissance : plus il est élevé, plus les interactions anciennes perdent rapidement de l’importance.

Illustration — Modèles temporels et position-based

Arbitrages stratégiques et choix du modèle

ArbitrageStratégieModèleDécisionPerformance

Le choix d’un modèle d’attribution doit être relié à la stratégie de l’organisation. Une marque cherchant à développer sa notoriété peut avoir intérêt à regarder le first click ou des modèles valorisant l’amont. Une entreprise cherchant à optimiser la conversion immédiate peut examiner le last click ou le time decay. Une organisation mature analytiquement cherchera plutôt à comparer plusieurs modèles pour identifier les écarts de lecture. Le modèle choisi n’est donc jamais neutre : il traduit une vision de la performance et influence directement les décisions d’investissement.

Équation clé

\[\sum_{i=1}^{n} w_i = 1\]

Les modèles par pondération répartissent la valeur totale entre plusieurs interactions. Les poids wᵢ doivent généralement sommer à 1, ce qui signifie que 100 % de la conversion est distribuée entre les points de contact retenus.

Illustration — Arbitrages stratégiques et choix du modèle

Limites analytiques des modèles heuristiques

Subjectivité des pondérations

SubjectivitéPondérationHeuristiqueBiaisModèle

Les modèles heuristiques reposent sur des règles de pondération définies a priori. Ces règles peuvent être pratiques, mais elles ne démontrent pas que la contribution réelle suit cette distribution. Dire que le premier et le dernier contact valent chacun 40 % est un choix méthodologique, non une vérité empirique. Cette subjectivité est acceptable si elle est reconnue et justifiée, mais dangereuse si elle est présentée comme une mesure objective. La simplicité opérationnelle d’un modèle ne doit jamais masquer ses hypothèses implicites.

Équation clé

\[w_i \in [0,1], \quad \sum_{i=1}^{n}w_i=1\]

Chaque interaction reçoit un poids compris entre 0 et 1. Le problème est que ces poids sont souvent fixés par convention, sans estimation empirique de la contribution réelle. La pondération est donc une hypothèse de travail.

Illustration — Subjectivité des pondérations

Simplification excessive des dynamiques de conversion

SimplificationDynamiqueConversionInteractionsRéduction

Les modèles heuristiques réduisent la complexité des parcours à une règle statique. Ils ne captent pas les effets d’interaction entre canaux, les dépendances séquentielles ou les effets de contexte. Pourtant, un canal peut n’être efficace que lorsqu’il suit un autre canal, ou lorsqu’il intervient dans une temporalité particulière. Les heuristiques décrivent une répartition, mais ne modélisent pas réellement la dynamique de conversion. Elles sont donc utiles comme outils pédagogiques et opérationnels, mais insuffisantes pour comprendre finement la contribution des leviers.

Équation clé

\[P(C\mid x_i,x_j) \neq P(C\mid x_i)+P(C\mid x_j)\]

Cette inégalité montre que l’effet combiné de deux leviers n’est pas forcément égal à la somme de leurs effets isolés. Les interactions entre canaux peuvent produire des synergies, des redondances ou des effets de substitution.

Illustration — Simplification excessive des dynamiques de conversion

Nécessité de modèles probabilistes et économétriques

ProbabilitésÉconométrieCausalitéModélisationAvancé

Les limites des modèles heuristiques justifient le passage vers des approches probabilistes et économétriques. Celles-ci ne se contentent pas de répartir arbitrairement la valeur, mais cherchent à estimer des relations à partir des données. Les chaînes de Markov modélisent les transitions entre états, Shapley calcule des contributions marginales moyennes, les régressions estiment des effets conditionnels. Ces approches restent imparfaites, mais elles permettent de rapprocher l’attribution d’un raisonnement explicatif plutôt que d’une simple convention de reporting.

Équation clé

\[P(C\mid S)\]

L’objectif devient d’estimer la probabilité de conversion conditionnellement à un parcours S. Cette formulation ouvre la voie à des modèles capables de prendre en compte la séquence, les interactions et la contribution marginale.

Illustration — Nécessité de modèles probabilistes et économétriques

∑

Exercice fil rouge — Partie II

Construction d’un modèle d’attribution heuristique

Objectif pédagogique

Comparer les modèles par répartition, justifier un choix de modèle et construire une pondération cohérente avec le contexte stratégique.

Travail demandé

Comparer last click, first click, linéaire, position-based et time decay en explicitant les biais de chacun.
Choisir un modèle adapté au contexte et justifier ce choix à la fois mathématiquement et stratégiquement.
Construire une logique de pondération : interactions survalorisées, interactions minorées et justification causale.

III

Modèles probabilistes et économétriques avancés

Mobiliser les approches mathématiques pour estimer la contribution des leviers.

Chaînes de Markov

Logique probabiliste des parcours utilisateurs

MarkovProbabilitéParcoursTransitionsÉtats

Les chaînes de Markov modélisent les parcours utilisateurs comme des passages probabilistes entre différents états. Chaque canal marketing peut être considéré comme un état, et la conversion comme un état absorbant. Le modèle ne cherche pas à décider arbitrairement quel canal mérite la valeur, mais à comprendre comment les utilisateurs circulent dans le système. Cette approche est particulièrement pertinente lorsque l’on dispose de nombreuses séquences de navigation ou d’interactions multicanales. Elle permet d’observer les chemins qui mènent le plus souvent à la conversion et ceux qui conduisent à l’abandon.

Équation clé

\[P_{ij}=P(X_{t+1}=j\mid X_t=i)\]

Pᵢⱼ représente la probabilité de passer de l’état i à l’état j. Par exemple, elle peut mesurer la probabilité qu’un utilisateur exposé au SEO poursuive vers l’email, puis vers la conversion. Le modèle repose sur l’idée que les transitions observées permettent d’estimer la dynamique globale du parcours.

Illustration — Logique probabiliste des parcours utilisateurs

Matrice de transition

MatriceTransitionProbabilitésCanalModélisation

La matrice de transition est le cœur du modèle markovien. Elle rassemble toutes les probabilités de passage d’un canal à un autre. En marketing, cette matrice permet de représenter l’écosystème complet des interactions : SEO vers email, email vers retargeting, social vers abandon, etc. Une fois construite, elle peut être utilisée pour simuler les parcours et estimer la probabilité globale de conversion. Elle donne une vision systémique du parcours, car chaque canal est compris par sa place dans le réseau des transitions et non par une valeur isolée.

Équation clé

\[P=\begin{bmatrix}p_{11}&p_{12}&\cdots&p_{1n}\\p_{21}&p_{22}&\cdots&p_{2n}\\\vdots&\vdots&\ddots&\vdots\\p_{n1}&p_{n2}&\cdots&p_{nn}\end{bmatrix}\]

Chaque ligne de la matrice correspond à un état de départ et chaque colonne à un état d’arrivée. Les coefficients pᵢⱼ indiquent les probabilités de transition. En principe, la somme des probabilités d’une ligne vaut 1, car l’utilisateur doit passer vers un autre état, convertir ou quitter le parcours.

Matrice de transition marketing

Le parcours utilisateur est représenté comme une chaîne d’états. Chaque cellule indique la probabilité de passer d’un état actuel vers un état suivant, jusqu’à la conversion ou l’abandon.

Pᵢⱼ = P(Xₜ₊₁ = j | Xₜ = i)

Légende

États intermédiaires : SEO, Ads, Email, Social.
Conversion : état absorbant positif.
Null : état absorbant négatif, c’est-à-dire abandon.
Chaque ligne est une distribution de probabilité et sa somme vaut 1.

Utilité en attribution

Modéliser les transitions réelles entre canaux.
Repérer les canaux qui structurent les parcours.
Calculer un effet de suppression pour mesurer la contribution d’un canal.

État actuel ↓	SEO	Ads	Email	Social	Conversion	Null
Start	0.35	0.30	0.10	0.25	0	0
SEO	0.05	0.20	0.25	0.15	0.20	0.15
Ads	0.10	0.05	0.20	0.20	0.25	0.20
Email	0.05	0.15	0.05	0.10	0.45	0.20
Social	0.15	0.20	0.15	0.05	0.25	0.20
Conversion	0	0	0	0	1	0
Null	0	0	0	0	0	1

Lecture : depuis SEO, l’utilisateur a 25 % de chances d’aller vers Email, 20 % de convertir directement et 15 % d’abandonner.

Interprétation : retirer un canal puis mesurer la baisse de conversion permet d’estimer son effet de suppression.

Effet de suppression

SuppressionContributionImpactConversionCanal

L’effet de suppression mesure la contribution d’un canal en observant ce qui se passe lorsque ce canal est retiré du système. Si la probabilité globale de conversion chute fortement après suppression d’un canal, cela signifie que ce canal joue un rôle structurant dans les parcours. Cette méthode est puissante car elle ne se contente pas de compter les conversions directes : elle mesure l’importance d’un canal dans l’architecture globale des transitions. Elle permet notamment de valoriser des canaux intermédiaires souvent sous-estimés par les modèles last click.

Équation clé

\[RE_i=\frac{Conv_{global}-Conv_{-i}}{Conv_{global}}\]

REᵢ représente l’effet de suppression du canal i. Conv_global désigne le niveau de conversion du système complet. Conv_-i désigne le niveau de conversion lorsque le canal i est retiré. Plus REᵢ est élevé, plus le canal est important dans le système.

Valeur de Shapley et théorie des jeux

Fondement mathématique

ShapleyThéorie des jeuxCoalitionContributionRépartition

La valeur de Shapley vient de la théorie des jeux coopératifs. Elle cherche à répartir équitablement une valeur créée collectivement entre plusieurs joueurs. Appliquée au marketing, chaque canal devient un joueur, et la conversion constitue la valeur collective à répartir. L’intérêt de Shapley est de calculer la contribution marginale moyenne d’un canal dans toutes les coalitions possibles. Cette approche est particulièrement solide lorsque plusieurs leviers peuvent interagir et que l’on veut éviter de privilégier arbitrairement une position dans le parcours.

Équation clé

\[\phi_i(v)=\sum_{S\subseteq N\setminus\{i\}}\frac{|S|!(|N|-|S|-1)!}{|N|!}\big[v(S\cup\{i\})-v(S)\big]\]

φᵢ(v) est la valeur attribuée au canal i. La formule calcule la contribution marginale de i pour toutes les coalitions S qui ne contiennent pas i. Le terme entre crochets mesure ce que le canal ajoute à une coalition existante. Le coefficient pondère chaque coalition pour garantir une répartition équitable.

Application à l’attribution marketing

AttributionContribution marginaleCanauxMarketingCalcul

Dans l’attribution marketing, la valeur de Shapley permet de comparer la performance d’ensembles de canaux avec et sans un canal donné. Elle est particulièrement utile lorsque les leviers agissent ensemble : SEO + email, social + retargeting, webinar + nurturing. Elle évite de réduire l’analyse à l’ordre d’apparition des interactions et se concentre sur la contribution moyenne du canal dans différents scénarios. Shapley ne cherche pas simplement à distribuer une conversion, mais à formaliser la justice contributive dans un système collectif.

Équation clé

\[\Delta_i(S)=v(S\cup\{i\})-v(S)\]

Δᵢ(S) représente la contribution marginale du canal i lorsqu’il est ajouté à une coalition S. L’attribution repose sur la moyenne pondérée de ces contributions marginales. Le canal est donc évalué par ce qu’il ajoute dans de multiples combinaisons possibles.

Illustration — Application à l’attribution marketing

Complexité computationnelle

ComplexitéCalculExponentielCombinaisonPuissance

La principale limite de la valeur de Shapley est computationnelle. Plus le nombre de canaux augmente, plus le nombre de coalitions possibles explose. Avec dix canaux, le modèle doit théoriquement examiner plus d’un millier de combinaisons ; avec vingt, plus d’un million. Dans les environnements marketing réels, il faut donc souvent recourir à des approximations, des échantillonnages ou des méthodes de calcul optimisées. Cette limite rappelle que la rigueur mathématique a un coût opérationnel et que le choix d’un modèle doit tenir compte de la faisabilité technique.

Équation clé

\[2^n\]

Le nombre de coalitions possibles augmente exponentiellement avec le nombre de canaux n. Cette croissance explique pourquoi la valeur de Shapley devient rapidement coûteuse à calculer lorsque l’écosystème marketing comporte de nombreux leviers.

Illustration — Complexité computationnelle

Régressions et économétrie

Régression linéaire multiple

RégressionLinéaireVariablesMCOPrédiction

La régression linéaire multiple cherche à expliquer une variable continue, comme le chiffre d’affaires, le panier moyen ou le volume de ventes, à partir de plusieurs variables explicatives. En attribution, elle permet d’estimer l’effet marginal moyen d’un canal en contrôlant les autres variables incluses dans le modèle. Les MCO, ou moindres carrés ordinaires, estiment les coefficients qui minimisent l’écart entre valeurs observées et valeurs prédites. Cette approche est utile, mais elle repose sur des hypothèses fortes : linéarité, indépendance des erreurs, absence de multicolinéarité excessive et qualité des variables sélectionnées.

Variables marketing → estimation MCO → effet marginal moyen

Le modèle explique une variable continue, comme le chiffre d’affaires, le panier moyen ou le revenu, à partir de plusieurs leviers et variables de contrôle.

Y = β₀ + β₁X₁ + β₂X₂ + ··· + βₖXₖ + ε

1. Variables explicatives X

X₁ : budget Google Ads
X₂ : trafic SEO
X₃ : emails ouverts
X₄ : impressions Social Ads
X₅ : retargeting
X₆ : saisonnalité
X₇ : trafic direct / notoriété

2. Estimation par MCO

Les moindres carrés ordinaires cherchent les coefficients β qui minimisent l’écart entre la valeur observée Y et la valeur prédite Ŷ.

min Σ(Yᵢ − Ŷᵢ)²

β̂ = (XᵀX)⁻¹XᵀY

3. Lecture marketing

βᵢ mesure l’effet marginal moyen de Xᵢ sur Y.
Exemple : β_Email = 3,2 signifie +3,2 unités de performance associées à une unité d’effort email.
Cette lecture reste conditionnelle et ne prouve pas seule la causalité.

Ce que le modèle sait faireContrôler plusieurs variables et estimer une relation moyenne plus robuste qu’un KPI isolé.

Ce qu’il supposeLinéarité, stabilité des erreurs, données propres et multicolinéarité limitée.

Ce qu’il ne garantit pasUne causalité pure si des variables importantes sont absentes ou corrélées.

Régression logistique, de Poisson et quantile

LogistiquePoissonQuantileProbabilitéÉconométrie

Les modèles de régression doivent être choisis selon la nature de la variable à expliquer. La régression logistique est adaptée lorsque la conversion est binaire : convertir ou ne pas convertir. La régression de Poisson convient aux variables de comptage, comme le nombre de clics, de leads ou d’événements. La régression quantile permet d’analyser l’effet des leviers à différents niveaux de performance, par exemple sur les campagnes médianes ou sur les campagnes les plus performantes. Cette pluralité est essentielle : un modèle pertinent n’est pas celui qui semble le plus sophistiqué, mais celui dont les hypothèses correspondent aux données et à la question stratégique.

Choix du modèle

Logistique, Poisson, quantile : trois formes de Y, trois raisonnements

Le choix du modèle dépend de la variable à expliquer : conversion binaire, volume d’événements ou performance hétérogène selon les niveaux de résultats.

Régression logistique

Y binaire : convertir / ne pas convertir

P(Y=1|X)=1/[1+e⁻⁽ᵝ⁰+ΣβᵢXᵢ⁾]

Estime une probabilité de conversion.
Sortie comprise entre 0 et 1.
Lecture via les log-odds et e^β.

Régression de Poisson

Y comptage : clics, leads, achats

log(E(Y|X)) = β₀ + ΣβᵢXᵢ

P(Y=k)=λᵏe⁻λ/k!

Modélise un nombre attendu d’événements.
Lecture des coefficients via e^β.
Vigilance sur la surdispersion.

Régression quantile

Y continu : τ = 0,25 ; 0,50 ; 0,90

Qᵧ(τ|X)=β₀(τ)+Σβᵢ(τ)Xᵢ

Analyse des effets selon le niveau de performance.
Révèle ce que la moyenne masque.
Compare campagnes faibles, médianes et extrêmes.

LogistiqueLa question porte sur la probabilité individuelle de conversion.

PoissonLa question porte sur un volume d’événements attendu.

QuantileLa question porte sur l’hétérogénéité des effets selon les niveaux de performance.

Règle de choix : le modèle dépend d’abord de la variable à expliquer. Une conversion binaire appelle une logistique, un volume d’événements appelle souvent Poisson ou binomiale négative, une performance très asymétrique peut justifier une régression quantile.

Limites épistémologiques des modèles mathématiques

ModèleÉpistémologieHypothèsesSimplificationIncertitude

Les modèles mathématiques ne doivent jamais être confondus avec le réel. Ils produisent une représentation structurée, utile pour décider, mais toujours dépendante des hypothèses, des données disponibles et des choix de modélisation. Un modèle peut être techniquement correct et stratégiquement trompeur si les variables pertinentes sont absentes ou si l’interprétation dépasse ce que les données permettent d’affirmer. Le point essentiel est ici d’éviter deux erreurs opposées : rejeter les modèles parce qu’ils simplifient, ou les fétichiser parce qu’ils utilisent des équations. Leur valeur tient à leur capacité à éclairer une décision, non à prétendre supprimer l’incertitude.

Équation clé

\[M:R\rightarrow \hat{R} \quad ; \quad Y=\hat{Y}+\varepsilon\]

Un modèle M transforme le réel R en une représentation simplifiée R̂. La performance observée Y peut être décomposée entre une partie prédite Ŷ et une erreur résiduelle ε. Cette erreur rappelle que tout modèle laisse subsister une part d’incertitude.

Illustration — Limites épistémologiques des modèles mathématiques

∑

Exercice fil rouge — Partie III

Modélisation avancée et lecture critique

Objectif pédagogique

Comparer les modèles mathématiques, sélectionner une approche avancée et formuler une recommandation stratégique sans masquer les limites du modèle.

Travail demandé

Comparer chaînes de Markov, valeur de Shapley, régressions linéaire, logistique, de Poisson et quantile.
Identifier les hypothèses, limites computationnelles, dépendances aux données et problèmes causaux du modèle retenu.
Produire une recommandation : allocation budgétaire, KPI, architecture analytique et limites reconnues.

Restitution finale

Chaque groupe présente un diagnostic critique, un modèle d’attribution proposé, les limites reconnues du modèle et des recommandations de pilotage. La qualité attendue repose sur la capacité à articuler équations, hypothèses, interprétation stratégique et prudence méthodologique.

Diagnostic : pourquoi les modèles actuels sont insuffisants.
Modèle : logique mathématique et justification stratégique.
Limites : hypothèses, biais, données manquantes et faisabilité.
Recommandations : budget, KPI, architecture analytique et décisions.