La Gen AI débarque : et si ton produit avait déjà une meilleure vision que toi ?

Réflexion d’une PO et d’une ML Ops autour de la vision produit et de la Gen AI.

En 2025, l'Intelligence Artificielle (IA) est essentielle pour les métiers produits, structurant les produits numériques. Elle optimise les méthodes existantes (priorisation, tests, personnalisation) et crée de nouveaux produits IA, soulevant des défis de cadrage, d'éthique et de gouvernance. Bien qu'elle ne soit pas totalement adoptée, l'IA optimise les pratiques existantes et permet la création de produits inédits, basés sur l'IA. Cette évolution soulève néanmoins des défis majeurs en matière de stratégie, d'éthique et de gouvernance.

Il peut être facile de se laisser porter par l’effet magique de la technologie. Précisément, l’IA ne doit pas être le centre du produit, car elle ne répond pas à la question essentielle du “pourquoi ?”.

1. Quand le produit est "augmenté" avec l’IA

L'IA transforme le product discovery (ou cadrage) en automatisant des étapes cruciales pour la vision produit et la co-construction de solutions pérennes, avec un gain de temps notable. Cependant, l'expertise humaine reste vitale pour valider, analyser et challenger le problème des utilisateurs, afin d'assurer une roadmap impactante, et alignée sur les besoins métier/business. Il est essentiel de bien comprendre les capacités et limites de l'IA pour votre produit.

L'IA joue désormais un rôle clé dans l'impact produit, dépassant l'automatisation pour devenir un levier d'acuité décisionnelle. La tendance est à l'IA copilote/coach dans la discovery : elle génère des insights utilisateurs, priorise dynamiquement et ajuste les roadmaps en temps réel selon la performance. IPPON développe aussi des outils internes basés sur ses bases d'expertise pour des solutions clients sur mesure.

Vers une personnalisation radicale

L'IA révolutionne les outils des product owners et product managers. Des solutions comme Pendo, Dust ou Amplitude utilisent déjà l'IA pour analyser des données utilisateurs et suggérer des priorités. Très bientôt, elles généreront des "discovery packagés" à partir des inputs clients traités par les consultants, ajustant la roadmap dynamique en temps réel selon les comportements et le travail réalisé. Une IA peut identifier un point de friction “abandon à l'étape 2 du funnel” et proposer des hypothèses de correction classées par impact potentiel. En combinant les différents résultats d’analyse des agents IA mutualisés, ces solutions se démultiplient en scénarios pour une personnalisation optimisée.

L'adaptation des produits passe alors du segment à l'individu : Duolingo personnalise ses leçons, Netflix génère des bandes-annonces uniques en temps réel. Cette tendance s’impose pour des interfaces auto-générées en temps réel (ex : un tableau de bord qui se reconfigure selon les consultations de l’utilisateur). Deux innovations clés sont à l'œuvre : promotions ciblées par IA et création/diffusion ultra-rapide de messages pertinents (ton, visuels, textes, expériences sur mesure) grâce à cette IA de nouvelle génération. Les systèmes multi-agents IA (entités autonomes et interactives collaborant ou entrant en compétition pour atteindre des objectifs) accélèrent la mise à disposition de systèmes IA multi-critères.

Mais attention : cette hyper-personnalisation pose un défi de cohérence. Comment garantir une expérience de marque unifiée quand chaque utilisateur voit un produit différent ? 

La réponse réside dans de nouveaux KPIs. Ceux classiques (taux de conversion, rétention, satisfaction utilisateur) restent pertinents, mais leur interprétation et leur mesure évoluent avec l’IA. Et on leur associe des KPIs spécifiques à l’IA (taux d’adoption, précision du modèle…). On affine la mesure du CRO (optimisation du taux de conversion) avec la mesure de la satisfaction émotionnelle (via des analyses plus spécifiques en interviews, avec l’analyse comportementale, vocale/faciale), ou avec le taux de confiance dans les recommandations IA. Outils comme Hotjar + IA  pour détecter des micro-frictions, FullStory avec analyse prédictive des abandons participent à affiner l’analyse des comportements.

2. Comment monitorer un système multi-agents ?

Métriques de qualité des outputs

Pour évaluer la qualité des réponses produites par l'agent, plusieurs approches existent :

  • LLM-as-a-Judge : utiliser un autre ‘LLM’ pour évaluer la pertinence des réponses. Des frameworks comme RAGAS proposent des métriques dédiées.
  • Métriques linguistiques classiques : ‘ROUGE’, ‘BLEU’ pour mesurer la similarité avec des références.

Comparaison avec des "golden answers" : constituer une base de bonnes réponses passées validées par des humains et comparer les nouvelles sorties avec ces références.

Métriques de performance technique

  • Consommation de tokens (input/output) pour maîtriser les coûts
  • Latence par composant (retrieval, LLM, tools)

Métriques fonctionnelles et utilisateur

Au-delà de la technique, l'agent doit servir un objectif métier :

  • Taux d'abandon : les utilisateurs quittent-ils avant la fin ?
  • Feedback explicite : pouces, notes, reformulations
  • Taux de résolution au premier passage

3. Concevoir des produits IA : cadrage, risques et éthique

L'intégration de l'IA dans un produit doit être guidée par une évaluation rigoureuse de la valeur qu'elle apporte à l'utilisateur et de sa faisabilité technique par rapport au problème métier. Cette démarche ne saurait se fonder sur le simple attrait de la technologie ou l'ajout d'une fonctionnalité superficielle. C’est pourquoi il faut décrypter les spécificités du produit où l’IA se met au service du produit et participe au gain de valeur.

Quelle est la vision cible pour industrialiser un projet agentic de Gen IA ?

Industrialiser un produit Gen AI, c'est dépasser le stade du POC pour créer un système robuste et pérenne. 

La vision cible repose sur quatre piliers essentiels : une infrastructure stable capable de supporter la charge en production, des interactions fluides avec les utilisateurs finaux, un système de monitoring continu pour détecter les dérives du modèle, et enfin des boucles de feedback permettant d'améliorer le produit en continu. 

L'industrialisation signifie que le produit tourne de manière autonome, s'adapte aux retours utilisateurs et maintient sa performance dans le temps.

4. Le cadrage produit est repensé : de l’USP* à "l’IA Value Proposition"

*USP : proposition unique de vente

L'IA génère des défis, comme l'ambiguïté des besoins qui se transforment au contact de l’outil (lien thérapeutique avec le LLM), et l'impératif de former des équipes pluridisciplinaires (ML engineers, data engineers, prompts designers, etc.) pour coordonner l'intégration des compétences autour de la donnée. Les méthodes de cadrage sont revisitées : l'IA transforme les approches de cadrage et permet de pousser plus loin la divergence du double diamant, en enrichissant les recherches et les ateliers via des études de marché complètes. Elle enrichit considérablement la phase de divergence du double diamant, en approfondissant les recherches et les ateliers grâce à l'intégration d'études de marché exhaustives.

Les étapes d’idéation adviennent plus tôt en lançant la phase de prototypage se libère et devient accessible, en permettant d’engager les parties prenantes. Les cycles sont plus courts, et la capacité d’interprétation et de synthétisation des LLM nous aide à aller plus vite dans nos étapes successives du cadrage. Les hypothèses sont testées en amont sans développement, ce qui réduit les risques et de ce fait les coûts. Les expertises circulent et sont partagées autour de la vision projet.

Malgré l'efficacité de l'IA, l'essentiel reste de l'utiliser pour répondre à un besoin utilisateur, en se demandant quelle valeur ajoutée elle apporte au produit. Quand l'IA devient le cœur du produit (ex : chatbot juridique, générateur de design), les méthodes traditionnelles de Product Management sont dépassées, car « Cadrer un produit IA, c’est comme construire un avion en vol ».

Le “definition of done” d’un produit IA

Un produit IA n’est pas "fini" quand le modèle est entraîné ou que le POC fonctionne. Il est Done quand il répond à 5 piliers : technique, éthique, scalable, conforme et monitoré. Voici la checklist détaillée, validée par des PMs IA chez Mistral AI, Doctolib et Qarnot Computing* (Gartner AI Product Management Report 2025).

Les risques potentiels

  • Le détournement d’une IA générative : les cas d’usage deviennent ambigus (ex : Stable Diffusion utilisé pour de la contrefaçon),
  • La dépendance aux données : sans un Data Moat (avantage compétitif via les données), le produit est vulnérable. Notre plus gros risque est la qualification de la donnée et son accès.
  • Les biais algorithmiques : Un outil de recrutement IA peut favoriser certains profils (ex : scandale d’Amazon en 2018),
  • Les coûts cachés : l’entraînement d’un modèle peut coûter des millions en sous- estimant le TCO (Total Cost of Ownership) de l’IA,

La régulation mouvante : le RGPD et l’AI Act européen (2024) imposent des audits de conformité permanents.

Comment l’éthique devient un pilier de différentiation

 « Un produit IA, c’est comme un médicament : il faut une notice d’utilisation et des tests cliniques pour éviter les effets secondaires.»

Exigence des utilisateurs : “68% des Français refuseraient d’utiliser un produit IA s’ils savaient qu’il a été entraîné sur des données non éthiques (ex : images volées, données personnelles sans consentement).”* 

Afin de mettre en œuvre l’éthique au cœur de nos projets, les POs et les PMs doivent intégrer des matrices de risque IA et documenter chaque décision. Car l’automatisation par l’IA peut réduire la qualité perçue d’un produit, dans une expérience humaine où la personnalisation est trop excessive.

*Source : étude Ifop (2025)

AI Ethics Canvas

Doteveryone donne une grille de questions pour évaluer les impacts sociaux, environnementaux et juridiques d’un produit IA, comme :

  • « Quels groupes d’utilisateurs pourraient être exclus ou lésés par ce produit ? »
  • « Nos données d’entraînement représentent-elles la diversité de notre audience ? »
  • « Qui est responsable si l’IA prend une décision discriminante ? » (atelier avec l’équipe tech, légal et design.)

L’IA n’est pas une simple feature à ajouter à un produit – c’est une couche de responsabilité supplémentaire qui transforme le rôle du PM en celui d’un gardien des limites. Au-delà des bugs techniques, il est décisif de lutter contre les biais algorithmiques qui discriminent les utilisateurs.

2027 : vers une symbiose humain-IA dans les métiers produit ?

Imaginons 2027 : trois nouveaux profils peuvent se dessiner pour les PMs/POs :

  1. Le PM "augmenté" : Libéré des tâches répétitives (analyses de données, rédaction de specs), il se recentre sur la stratégie et l’éthique. « Mon rôle ? Définir la vision et challenger l’IA quand elle propose des solutions trop court-termistes », explique un PM chez Alan.
  2. Le PM "feeder" : Réduit à nourrir l’IA en données et à valider ses outputs, avec un risque prononcé de déshumanisation du métier.
  3. Le PM "hybride" : Une nouvelle race de managers, mi-stratèges, mi-prompt engineers, capables de dialoguer avec les modèles comme avec des collègues.

Compétences clés 

  • Littératie IA : Comprendre les forces/faiblesses des modèles (LLMs vs. diffusion models).
  • Gestion de l’incertitude : Piloter des produits aux outputs probabilistes Vs contexte métier (ex : « Ce feature a 70% de chances de marcher »).
  • Collaboration humain-IA : Savoir co-créer avec des outils comme GitHub Copilot ou Figma AI, prompter et itérer habilement.

L'IA fait évoluer le numérique progressivement. Selon McKinsey (2025), survivre exige d'allier agilité humaine et algorithmes. Le défi pour les PO/PMs est de maîtriser l'IA tout en gardant l'humain au centre de la gestion produit. L'IA, tel un coach, augmente la vélocité produit en optimisant des tâches précises. Au mieux, elle libère les PMs pour la stratégie ; au pire, ils risquent de n'être que des "feeders de données".

5. Le piège de la scalabilité : quand le POC IA réussit, mais que l’industrialisation échoue

En 2025, 78% des POCs IA (Proof of Concept) sont considérés comme des succès par les équipes produit, mais seuls 22% parviennent à une industrialisation efficace*. Ce fossé entre prototype et production est devenu le cauchemar des PMs, avec des coûts cachés pouvant atteindre 5 à 10 fois le budget initial du POC. Pourquoi ? Parce qu’un POC IA valide une idée, pas une architecture scalable.

*Source : étude Gartner 2025

L’architecture s’articule autour de plusieurs composants clés

Infrastructure et orchestration L'architecture repose sur une infrastructure cloud capable de gérer la charge variable des requêtes LLM. Le système doit supporter la montée en charge, gérer les pics de trafic et optimiser les coûts d'inférence. 

Couche de traitement LLM La couche LLM intègre la gestion des prompts, le versioning des modèles et des systems prompts. Le choix entre modèles propriétaires (GPT, Claude) et open source (Llama, Mistral) impacte directement l'architecture : hébergement, latence, coûts et confidentialité des données.

Gestion de la mémoire et du contexte Un système de mémoire permet de réduire les itérations en conservant le contexte des conversations ou des sessions utilisateur. 

Monitoring et observabilité Une couche d'observabilité complète surveille les performances du système : latence des requêtes, coûts des tokens, qualité des outputs, et comportement utilisateur. 

Boucles de feedback L'architecture prévoit des mécanismes pour capturer et traiter les feedbacks utilisateurs : évaluations explicites (pouces, notes), comportements implicites (reformulations, abandons), et signalements de contenus problématiques. 

Sécurité et gouvernance Enfin, l'architecture intègre des garde-fous : filtrage des inputs/outputs, gestion des hallucinations, respect du RGPD, et traçabilité des décisions du modèle.

Trois exemples concrets d’échecs de scalabilité (et leurs causes)

Le chatbot médical qui n’a pas supporté la charge*

Une startup française lance un bot dans le domaine de la santé : un chatbot IA qui répond aux questions médicales des patients en attendant une consultation. Le POC (testé sur 500 patients) montre 92% de satisfaction et une réduction de 40% des appels au standard.

Problème à l’échelle :

  • Coût d’infrastructure explosif : Le modèle (un LLM fine-tuné) coûtait 200€/mois en POC, mais 18 000€/mois pour 10 000 utilisateurs (coût des GPUs + latency). « On avait sous-estimé le coût des requêtes en temps réel. Un chatbot, c’est comme un robinet d’eau chaude : plus il y a d’utilisateurs, plus la facture cloud explose. »
  • Latence inacceptable : Temps de réponse passé de 2 secondes (POC) à 12 secondes en production (à cause d’une architecture non optimisée).

Cause racine :

  • Manque de load testing : Le POC avait été testé sur un jeu de données statique, sans simuler des pics de trafic.
  • Choix technologique inadapté : Un LLM "lourd" (type Mistral-8x7B) au lieu d’un modèle léger optimisé pour l'inférence (DistilBERT).

Coût de l’échec :

  • 3 mois de retard sur la roadmap.
  • 150 000€ de dépenses cloud inutiles.

*Sources
Blogs techniques de startups en santé (ex : Doctolib Engineering Blog)
Études de cas sur les coûts des LLMs en production (ex : Hugging Face Blog)
Articles sur l’optimisation des modèles pour l'inférence (ex : NVIDIA Developer Blog)


Une IA de recommandation qui a perdu 30% de précision en production*

Contexte : Un retailer français utilise une IA pour recommander des produits personnalisés sur son site e-commerce. En POC (10 000 utilisateurs), le taux de conversion augmente de 18%.

Problème à l’échelle :

  • Dérive des performances : En production (500 000 utilisateurs), la précision des recommandations chute à +5% (au lieu de +18%). « Le modèle était entraîné sur des données historiques, mais en vrai, les comportements des clients changent en fonction des promotions, des saisons… »
  • Biais de données non détecté : Le POC avait été testé sur des clients fidèles (comportement stable), mais pas sur des nouveaux clients (comportement imprévisible).

Cause racine :

  • Manque de data drift monitoring : Aucune alerte n’avait été mise en place pour détecter les changements dans les données.
  • Sur-optimisation sur le POC : Le modèle était "trop adapté" au petit jeu de données initial, mais pas généralisable (overfitting).

Coût de l’échec :

  • Perte de 2M€ de chiffre d’affaires sur 6 mois (recommandations moins pertinentes).
  • 4 ingénieurs ML à temps plein pendant 3 mois pour "recalibrer" le modèle.

*Sources :
Spotify Engineering Blog (pour les cas de recommandation et de data drift)
Netflix Tech Blog (sur le monitoring des modèles en production)
Études de cas sur l’overfitting et le data drift (ex : Towards Data Science)


Le générateur de contrats IA bloqué par la conformité (Gen AI)*

Contexte : une IA qui génère des contrats commerciaux en 5 minutes (au lieu de 2h en manuel). Le POC (testé sur 50 contrats) réduit les erreurs de 90% et divise les coûts par 3.

Problème à l’échelle :

  • Problèmes de conformité : En production, l’IA générait des clauses non conformes au RGPD dans 12% des cas (ex : durée de conservation des données trop longue). « On avait entraîné le modèle sur nos anciens contrats… mais certains étaient obsolètes ! »
  • Manque de traçabilité : Impossible de justifier pourquoi l’IA avait choisi une clause plutôt qu’une autre ("boîte noire" juridique inacceptable).

Cause racine :

  • Absence de legal review dans la boucle : Les avocats n’avaient pas été impliqués dans la phase de training du modèle.
  • Pas de model explainability : Aucune fonctionnalité pour expliquer les décisions de l’IA (obligatoire pour les produits haut risque sous l’AI Act).

Coût de l’échec :

  • 6 mois de retard pour refaire l’entraînement avec des avocats.
  • 300 000€ de pénalités pour non-conformité RGPD.

*Sources :
Articles sur l’AI Act et la conformité des modèles (ex : European Commission)
Blogs juridiques sur l’IA (ex : Lexion)
Études de cas sur l’explicabilité des modèles (ex : IBM Research)


Trois solutions avérées pour réussir la scalabilité (avec arguments solides)

Désigner un "Scalability Owner" dès le POC

Problème résolu : Évite le "not my job" entre équipes (ex : les data scientists optimisent la précision, mais pas les coûts d’infrastructure).

Comment faire :

  • Nommer un responsable de la scalabilité (souvent un MLOps Engineer ou un PM technique).
  • Ses missions :
    • Estimer le TCO (Total Cost of Ownership) du produit IA (coût cloud, maintenance, monitoring).
    • Définir des SLOs (Service Level Objectives) réalistes (ex : « Temps de réponse < 2s pour 95% des requêtes »).
    • Planifier les tests de charge avant la production.

Argument clé : « Chez Doctolib, le Scalability Owner a évité un désastre en détectant que leur modèle de triage médical coûtait 10x plus cher en production qu’en POC. Résultat : ils ont switché vers un modèle distillé (plus léger) avant le lancement. »

Architecturer pour le "scale" dès le POC

Problème résolu : Évite les refontes coûteuses en production.

Comment faire :

  • Choisir des modèles légers : Privilégier des architectures optimisées pour l’inference (ex : DistilBERT au lieu de LLama 2, ONNX pour l’optimisation). Exemple : Hugging Face propose des modèles "small" pour les cas d’usage industriels.
  • Découpler le training et l’inference :
    • Training : Sur des GPUs puissants (coûteux, mais rare).
    • Inference : Sur des CPUs ou des edge devices (moins cher, fréquent).
  • Utiliser des feature stores : Stocker les features pré-calculées pour éviter de tout recalculer à chaque requête (ex : Feast, Tecton).

Argument clé : « Spotify a réduit ses coûts IA de 80% en passant de Transformer-XL à un modèle distillé pour ses recommandations. »* 

*Source : Spotify Engineering Blog, 2024

☞ Monitorer la dérive des données (data drift) et des performances

Problème résolu : Détecter les baisses de précision avant qu’elles n’impactent les utilisateurs.

Comment faire :

  • Mettre en place des alertes :
    • Data drift : Quand la distribution des données d’entrée change (ex : nouveaux comportements utilisateurs). Outils : Evidently AI, Arize.
    • Concept drift : Quand la relation entre entrées/sorties change (ex : une promotion modifie les achats). Outils : Amazon SageMaker Model Monitor.
  • Tester en continu :
    • A/B testing entre l’ancienne et la nouvelle version du modèle.
    • Shadow mode : Faire tourner le nouveau modèle en parallèle de l’ancien pour comparer les résultats.

Argument clé : « Netflix détecte ses concept drifts en 24h grâce à un monitoring temps réel. Résultat : leurs recommandations restent pertinentes même pendant les pics de trafic (sortie de Stranger Things). »*

*source : netflixtechblog.com

6. Le rôle clé du Product Manager dans la scalabilité

Le PM est désormais responsable non seulement de la vision produit (quoi), mais aussi de la faisabilité technique et économique (comment) avec les effets mirages de l’IA. Il devient nécessaire de refuser une fonctionnalité IA non scalable, même si le POC fonctionne. Ses compétences :

  1. Littératie MLOps : Identifier les coûts cachés (ex : GPU, 10x plus cher que CPU),
  2. Gestion des parties prenantes : Justifier le report d'une fonctionnalité IA auprès des métiers,
  3. Pilotage par métriques : Suivre le Coût par inférence, la Latence moyenne, et le Taux de fallback manuel.

L’IA élève les standards du produit. Bien que son adoption ne soit pas encore universelle, l'impact de l'IA sur les métiers du produit en 2025 est indéniable et transformateur. Les gagnants seront ceux qui sauront transformer ces défis en opportunités : en formant leurs équipes, en intégrant l’éthique dès le cadrage, et en repoussant les limites de la collaboration homme-machine. Car l'usage de l'IA doit être cadré et non opportuniste. La mesure d'impact, les feedbacks utilisateurs et les métriques techniques sont essentiels pour la pérennité des projets IA.