Episodios

  • #6.9 : Catalogue de données, LLM et MCP
    Apr 13 2026
    Le LLM va-t-il devenir l'interface unifiée de la gouvernance des données ? Récemment j'évoquais les raisons principales d'échec du déploiement de nombreux catalogues de données. En première ligne, l'absence d'adoption suffisante par les utilisateurs métiers. Doit-on refondre les interfaces utilisateurs ? Une nouvelle voie apparait : abandonner l'interface utilisateur ! Et la confier à un LLM qui interrogera, via un serveur MCP, la base de données du catalogue. L'habitude d'interroger un moteur de recherche pour obtenir une réponse a changé. Le réflexe, en particulier dans la dernière génération, est maintenant de poser toutes ses questions à une IA générative. Le phénomène ChatGPT est devenu une évidence quotidienne. Arrivés dans l'entreprise, les futurs juniors reproduiront ce comportement. Il sera difficile de leur imposer l'usage du moteur de recherche de l'intranet, ou d'apprendre l'interface utilisateur de dizaines d'applications. L'idée est donc de dissocier la base, contenant les métadonnées qui constituent le catalogue, et l'outil d'interrogation qui devient le LLM. Comment interroger le catalogue central via le LLM ? En choisissant un catalogue compatible avec le nouveau protocole MCP. Ce protocole MCP (Multi-Cloud Protocol) est un cadre technique conçu pour faciliter l'interopérabilité, la portabilité et la gouvernance des données entre différents environnements cloud (publics, privés, hybrides). Il vise à standardiser les échanges de données, les métadonnées et les politiques de sécurité. Il a été développé par Anthropic en 2024. Il s'agit d'un standard ouvert, développé en collaboration avec la communauté et hébergé par la fondation Linux, qui permet une intégration standardisée entre les applications d'IA et les sources de données ou outils externes. Plusieurs implémentations, SDK et serveurs MCP sont disponibles en open source sur des plateformes comme GitHub, encourageant ainsi l'interopérabilité et l'innovation collaborative. Alation, Atlan, DataHub, Datadog (liste non exhaustive) ont déjà annoncé une compatibilité MCP de leurs catalogues de données. Un pari risqué pour les éditeurs de catalogues de données Sur le papier, cette nouvelle architecture est séduisante, même pour les éditeurs de logiciels. L'éditeur n'a plus à se préoccuper de l'interface utilisateur métier. Il peut se concentrer sur sa cible privilégiée, le département informatique en charge de la mise en place. L'interface d'administration subsiste ; celle des usages est déléguée au LLM. Mais il y a un revers à la médaille, la disparition du catalogue de données dans les couches cachées accédées par le LLM. Le catalogue devient invisible ! C'est très bien me répondrez-vous ? Peut-être… sauf pour son éditeur. A la question : « quel est votre outil de catalogage de données ? » posée à un utilisateur métier, ce dernier répondra sans doute « Euh… je ne sais pas… c'est Copilot, Mistral, ChatGPT… ? ». Car pour lui, le catalogue aura disparu, noyé dans son LLM utilisé quotidiennement. Conséquences pour les éditeurs : une perte de valeur visible et une plus grande interchangeabilité. Car si mon catalogue est une simple base de données, sans interface utilisateur, accédée de manière standard via un serveur MCP, je peux facilement le remplacer par un autre ; et cela sans que l'utilisateur n'en ait conscience. Du point de vue de l'éditeur, le risque est grand de voir sa valeur perçue réduite à peau de chagrin. Autre question, celle de la responsabilité en cas de réponse erronée. L'utilisateur fera-t-il la part des choses entre les erreurs dans le catalogue, et celles générées par le LLM ? Si l'information de base est correcte dans le catalogue, mais que le LLM répond mal à la question posée par l'utilisateur… à qui la faute ? Et à qui la perception de la faute ? En conclusion La standardisation des catalogues de données, accédées par les LLM au travers de serveurs MCP semble donc une évidente amélioration. Pas le LLM standard que vous utilisez à titre personnel, mais un LLM sur mesure, personnalisé et entrainé pour votre organisation, comme va le proposer Mistral avec son offre Forge [1]. Le LLM deviendra peu à peu l'outil quotidien de chaque employé, qui l'utilisera pour poser toutes ses questions. Le LLM ira alors piocher, via des serveurs MCP, dans les différentes sources de données, catalogue, entrepôt de données, lac de données, applications métier. Le navigateur web était devenu depuis une vingtaine d'années l'interface standard des applications qui migraient vers le cloud. Le LLM sera sans doute la prochaine étape. Cette évolution ne se fera pas instantanément, ni sans conséquences, mais reparlons-en d'ici cinq ans, elle sera sans doute devenue une évidence. [1] https://www.usine-digitale.fr/intelligence-artificielle/mistral-ai/...
    Más Menos
    6 m
  • #6.8 Un catalogue de données social et orienté utilisateurs
    Apr 7 2026
    Un catalogue social de données, orienté utilisateurs Il y a quelques mois, j'ai travaillé pour une grande entreprise sur la formalisation des caractéristiques du catalogue de données idéal. « Social et orienté vers ses utilisateurs » sont ressorties comme les caractéristiques essentielles d'un catalogue efficace en 2026… ou 2027. Un catalogue social, c'est-à-dire conçu comme tous les outils que nous utilisons au quotidien, qui favorisent l'interaction, la création de contenu par l'utilisateur, la simplicité d'utilisation, et l'intégration aux applications existantes. Mais surtout conçu pour ceux qui l'utiliseront et non pour ceux qui le mettront en service. Un catalogue entièrement pensé en faveur de l'expérience utilisateur. Social : au croisement de Google Maps, LinkedIn et Tinder Pensez à votre journée, aux interactions que vous menez avec l'information, à titre personnel. Et si vous n'y croyez pas, regardez ceux qui nous remplaceront dans quelques années, les fameux millénaux. Commander un Uber et lui donner une note, réserver un Airbnb pour le week-end et laisser un commentaire, sélectionner un restaurant sur Google Maps et lui attribuer des étoiles en publiant des photos, laisser un message à un collègue sur LinkedIn pour sa nomination, glisser vers la droite ou vers la gauche les profils qui apparaissent sur votre fil Tinder… et la litanie pourrait continuer longtemps. Notre vie numérique est devenue sociale. Cela a pris vingt ans, mais ces interactions sont maintenant au cœur de notre vie quotidienne. Et une fois arrivé au bureau, après avoir allumé votre PC, la consultation de votre catalogue de données ressemble à un vieux Minitel : une dizaine d'onglets, des dizaines de champs, et presque aucune interaction. Et vous vous demandez encore pourquoi vos utilisateurs ne l'adoptent pas ! Demain, votre catalogue de données, si vous souhaitez qu'il soit utilisé, devra : - Permettre de noter chaque donnée et de consulter les notes attribuées par les autres utilisateurs ; des notes et de commentaires sur l'expérience des autres : qualité, conformité, fréquence de mise à jour, intérêt… - Dialoguer avec le référent de chaque donnée, et avec ses autres utilisateurs, au travers d'un « chat » propre à chaque donnée. - Signifier votre intérêt pour cette donnée par un simple « swipe » comme dans Tinder. Nous verrons si vous « matchez » avec le data owner ! Le catalogue de données de demain sera social ou… ne sera toujours pas utilisé par les métiers ! Éditeurs de logiciels, à vous de faire en sorte qu'il soit l'application que tout data worker ouvre chaque matin et garde toute la journée sur un coin de son bureau. Choisi pour ceux qui l'utilisent, pas pour ceux qui le construisent Récemment, une grande organisation me contait son processus de choix d'un catalogue de données centralisé. Processus piloté par la direction informatique (ce qui est compréhensible), mais qui semble oublier ou minimiser les perceptions de ses futurs utilisateurs. Un catalogue de données est en effet destiné à être utilisé ! Plus les utilisateurs métiers prendront l'habitude de le consulter pour y rechercher l'information dont ils ont besoin, plus le succès sera au rendez-vous. Même si le projet est mené par la direction informatique, ce n'est pas la satisfaction des utilisateurs-informaticiens qui en sera l'indicateur principal, mais celle des utilisateurs métiers. Dans mon exemple, la direction informatique compare plusieurs solutions et sa préférence va à un outil technique, un catalogue de données en open source, mais dont l'interface utilisateur est loin d'être intuitive pour des non-informaticiens. Les départements métier, également consultés, ont eu choisi un catalogue simple, efficace, à l'interface utilisateur beaucoup plus accessible. Qui va l'emporter ? Je crains de connaître le vainqueur par avance… ainsi que la suite de l'histoire lorsqu'une année après, on reprochera au catalogue, et au responsable de la gouvernance, de ne pas être entré dans les habitudes des utilisateurs métier. Mon conseil, comparez les solutions, établissez des impératifs techniques à respecter, mais in fine, laissez ceux qui l'utiliseront au quotidien établir leur préférence. L'équipe de mise en place passera quelques mois à l'installer et le paramétrer ? Des centaines d'utilisateurs passeront des années à le consulter ! Devinez qui devrait choisir l'interface utilisateur qui lui plait le plus… Deux critères clefs pour eux : - Une interface de mise à jour simple : si vous souhaitez que l'utilisateur métier mette à jour les métadonnées dont il est le référent, il faut que cette mise à jour soit ludique ! - Proposez une recherche en langage naturel ...
    Más Menos
    9 m
  • #6.7 IA, RH et données avec José Rodriguez, Cornerstone
    Mar 30 2026

    Pour parler d'IA, de ressources humaines et de données, nous recevons José Alberto Rodriguez Ruiz, Délégué à la protection des données (DPO) et responsable de la gouvernance de l'IA chez Cornerstone (Chief Data Protection & AI Governance Officer).

    - Comment les DRH utilisent-elles l'IA en 2026 ? A quelles étapes de la relation employeur-employé ?
    - Les données RH sont par essence des données personnelles. Comment s'assurer d'être conforme à la réglementation ?
    - Quels sont les risques liés aux usages de l'IA dans le domaine des RH et comment les éluder ? (discriminations, biais, inégalités...)

    Más Menos
    24 m
  • #6.6 Les agriculteurs dépossédés de leurs données, avec Caroline Gans Combe
    Mar 23 2026

    Quelques semaines après la fermeture du Salon de l'Agriculture, une question centrale se pose : et si une partie de la réponse à la crise agricole se trouvait dans une ressource déjà produite par les exploitations, mais encore largement invisible ? Chaque jour, les fermes françaises génèrent des données sur les sols, l'eau, le climat, les cultures ou les rendements. Ces informations ont une valeur stratégique. Elles alimentent les outils d'aide à la décision, les modèles d'intelligence artificielle et les services développés par les acteurs de l'agritech. Pourtant, ceux qui produisent ces données en tirent encore très peu de bénéfices directs.

    Le marché de l'agriculture numérique, estimé à 23 milliards de dollars en 2025 et attendu à plus de 60 milliards d'ici 2034, est aujourd'hui largement structuré par les industriels et les plateformes. Les exploitants produisent la matière première, mais n'en maîtrisent ni l'usage ni la valeur. Cette situation freine l'adoption du numérique et pose une question structurante pour l'avenir du secteur : celle de la reconnaissance des données comme un véritable actif agricole.

    Au-delà de leur valeur économique, ces données permettent également de mesurer et de valoriser les services écologiques rendus par les exploitations, qui représentent jusqu'à 50% de la valeur économique des grandes cultures, et deviennent un élément déterminant pour les acteurs financiers.

    Experte des nouveaux paradigmes de l'innovation et de la création de valeur, nous recevons Caroline Gans Combe qui décrypte pourquoi la donnée pourrait devenir un levier économique structurant pour les agriculteurs, à condition de mettre en place des règles garantissant leur maîtrise et leur valorisation.

    Más Menos
    20 m
  • #6.5 Alain Garnier, Jamespot, défend une diversité souveraine
    Mar 16 2026

    Alain Garnier, co-fondateur de Jamespot, est un ardent défenseur de la souveraineté numérique; l'occasion d'aborder ce sujet avec lui, sans filtre, et de réfléchir ensemble aux solutions pratiques, et non-extrémistes, qui s'offrent à nous, pour faire un bout de chemin en direction d'un numérique moins dépendant de la grande puissance américaine aujourd'hui, ou peut-être chinoise demain.

    - Vous dites : "Nous sortons d'une approche théorique de la souveraineté numérique. Désormais, la question centrale devient : est-ce que l'organisation peut continuer à fonctionner si cette donnée ou ce système tombe"... on parle donc de résilience ? Est-ce que réfléchir à la souveraineté numérique, c'est prévoir le pire ?
    - La souveraineté numérique n'a en réalité pas de limite ! Doit-on re-coloniser des pays qui produisent les métaux rares dont on a besoin pour sécuriser notre approvisionnement ? Est-ce qu'on ne dépendra pas toujours de quelqu'un d'autre ?
    - En matière de logiciel, là encore, où met-on la limite ? Ni le plan calcul du Général de Gaulle, ni le Minitel n'ont permis à la France d'être leader dans le numérique... comment fait-on ?

    Más Menos
    23 m
  • #6.4 Observabilité : attitude et outils du data steward
    Mar 9 2026
    L'observabilité : attitude et outil du data steward Observer vient de la racine latine observare, qui signifie « noter ou considérer », mais aussi « garder en sécurité ou protéger ». Quelle belle proximité avec la fonction de data steward ! Or aujourd'hui le rôle du data steward n'est plus simplement de se préoccuper de qualité des données, mais réellement de mettre en œuvre l'observabilité. Plutôt qu'un steward, il est plutôt d'ailleurs un contrôleur aérien de vos data. Il ne pilote pas mais surveille et organisme le trafic et reporte les incidents. À sa disposition, des outils d'observabilité, à chaque version plus complets, et demain des agents qui lui remonteront l'information. Mais avant même les outils, c'est cette attitude d'observation qu'il mettra en œuvre. Observer n'est pas faire ! Il est crucial qu'il le comprenne. Le data steward n'est pas là pour faire à la place des data owners et data consumers, mais pour apporter une supervision transverse des principes de gouvernance. C'est l'observabilité, et elle s'appuie sur les outils du même nom. Observer l'ensemble de la chaine de traitement de la donnée La data observability vise à donner une vision continue et intelligente de la « santé » des données : leur fraîcheur, leur volume, leur distribution (anomalies), les changements de schéma, les dépendances (data lineage), et la capacité à diagnostiquer rapidement les racines des incidents. On peut voir la data observability comme l'évolution du monitoring de données (alertes statiques) vers un système plus proactif, piloté par des métadonnées et des techniques analytiques. Une donnée circule ; le data steward en a une vision globale, au travers des métadonnées d'usage collectées automatiquement : les flux prévus ont-ils été honorés, l'usage des outils de sécurisation (data platform) est-il respecté, la cohérence est-elle maintenue d'un bout à l'autre du système. Dans une architecture centralisée, mais surtout dans une architecture fédéralisée autour de data products, sa mission de supervision des processus est indispensable. Si votre data mesh prévoit la mise en place de data contracts, le data steward supervisera leur exécution, et remontera les incidents. Observer plusieurs dimensions Initialement focalisé sur la qualité des données, le data steward voit ses missions évoluer. La qualité en reste le cœur, mais il lui revient d'observer l'ensemble des circulations de données. Son attention débute lors de l'entrée des données dans le système d'information. Il se préoccupera alors de vérifier que les contraintes de sécurité et de conformité des données sont respectées. Lors de chaque mouvement d'une donnée, il surveillera la traçabilité (le lineage). En cas d'alimentation d'outils d'IA, il s'assurera du respect des usages de la charte et de la règlementation. Qualité, conformité, sécurité et usages sont les principales dimensions de son action. Travaillant au plus proche des métiers, le data steward et ses outils d'observabilité permettront de remonter la température de la plateforme de données au comité de gouvernance. En cas de dérive d'un des indicateurs, il est susceptible de faire remonter l'incident pour arbitrage. Sifflet, Soda.ai… des startups qui montent Montecarlo, Acceldata, Bigeye, Validio, Metaplane, Sifflet, Soda, figurent parmi les principaux acteurs spécialisés de l'observabilité des données. Les grandes plateformes telles que Collibra, Datadog, New Relic, Splunk, Elastic, proposent également des fonctions ad hoc. Peu de solutions open source semblent disponibles à l'exception de OpenTelemetry, mais qui nécessite de gros efforts de développement. De l'observabilité des données à celle de l'IA L'IA est au service de l'observabilité, au travers des agents que les outils envoient pour capter les informations tout au long de la chaine de la donnée. Mais l'observabilité est également au service de l'IA car, tout comme les données, les modèles et usages de l'IA doivent respecter des règles de gouvernance, et donc être observés. Les meilleurs outils d'observabilité incluront donc des fonctions de suivi des modèles, de détection des biais, des discriminations, des hallucinations, des usages non éthiques ou non conformes à la politique ESG de l'entreprise. L'IA sera également mise à contribution pour détecter les usages non officiels, le shadow AI, le shadow BI, etc. Du data au AI steward Cela amènera naturellement notre data steward à élargir ses compétences. Il est passé du monitoring de la qualité à l'observabilité globale. Il passera également de la donnée à l'intelligence artificielle. Le Data & AI Steward, une fonction indispensable pour implémenter de manière pratique, et contrôler l'application des principes de gouvernance. En résumé, voici quelques idées pour comprendre comment évoluera en 2026 le marché des outils et...
    Más Menos
    7 m
  • #6.3 Automatisation des services comptables avec Geoffrey Nozerand, Dext
    Mar 2 2026
    Parlons d'automatisation, d'IA et bien sur de facturation électronique, avec Geoffrey Nozerand, directeur des partenariats de Dext, solution d'automatisation de la gestion des documents administratifs. - L'IA et la gestion des données comptables : quel impact sur l'organisation des services comptables et les prestations des experts-comptables ? - Quels sont les risques ? Qui est responsable juridiquement en cas de mauvaises données ? Comment s'organise la gouvernance ? - La facturation électronique arrive : est-ce une simplification ou une complexification ? - Elle va permettre des gains de temps et de transparence, mais un contrôle administratif plus poussé. Est-ce une avancée pour tout le monde ? - La facturation électronique, c'est surtout beaucoup de data en plus. Comment l'entreprise peut-elle valoriser ces novuelles data ?
    Más Menos
    18 m
  • #6.2 Raffineur de données
    Feb 23 2026
    Raffineur de données : un métier indispensable à l'IA Imaginez que vous ayez conçu le meilleur moteur de voiture jamais fabriqué ! Efficient, puissant, économe, silencieux, non polluant… il a toutes les qualités, et vous allez révolutionner le monde du transport grâce à votre invention. Seul bémol, il nécessite pour fonctionner un carburant beaucoup plus pur que ce que l'on trouve aujourd'hui dans nos raffineries. Et ce carburant est indispensable à votre moteur révolutionnaire. Sans lui, votre invention n'est qu'un assemblage inutile de pièces de métal. C'est ce qui arrive aujourd'hui à la majorité des projets d'IA en entreprise. Les modèles sont surpuissants, mais restent de perpétuels adolescents face à la pauvreté des données à partir desquelles vous les alimentez. Vous n'avez pas investi suffisamment dans le raffinage de vos données. « Mais nous avons un data lake depuis plusieurs années ! », me répondrez-vous. Oui, certes, mais appelez-le plutôt un data débarras ! Vous y déversez des données brutes, sans les indexer, sans les référencer, sans les qualifier, sans les améliorer, sans les organiser… tout cela parce qu'un vendeur de data lake vous a convaincu qu'il contenait un Monsieur Propre qui allait se charger de tout. Reconnaissez que vous avez été bien naïf sur ce sujet… Et vous continuez d'ailleurs puisque vous avez cru cet autre vendeur qui vous a convaincu que l'intelligence artificielle elle-même allait savoir créer ses propres métadonnées, et rendre votre débarras miraculeusement aussi propre et documenté qu'un entrepôt de pièces détachées Airbus ! La donnée brute est devenue abondante, bon marché et disponible. Mais la donnée structurée, connectée, contextualisée, documentée, expliquée, celle qui permet l'automatisation réelle, la prédiction et la prise de décision, reste rare. Forcément, elle est plus couteuse et complexe à produire à partir de la donnée brute. Et surtout elle nécessite un effort humain… ce qui n'est pas à la mode en ces temps d'automatisation à outrance. Poursuivant notre analogie automobile, la donnée brute, c'est le pétrole sorti des gisements. La donnée raffinée, c'est le carburant, produit par les raffineries. Et plus votre modèle est avancé, plus le raffinage doit être poussé. Essayez de mettre du pétrole brut dans une voiture… ça marchera beaucoup moins bien. Car l'essence que vous utilisez est raffinée. Elle subit des procédés complexes pour : augmenter son indice d'octane, éliminer le soufre et les impuretés, ajuster sa volatilité, et améliorer sa combustion. Le raffinage nécessaire à vos modèles d'IA est encore plus complexe que la transformation de pétrole brut en essence. En matière de données, c'est exactement la même chose. Utilisez des données brutes dans un modèle, et les résultats seront standards, pas exceptionnels. Vous serez à la portée d'hallucinations et de biais, non pas dus au modèle, mais à vos données. Raffinez vos données et vos modèles pourront enfin s'y appuyer pour produire des résultats exceptionnels. La valeur n'est plus dans le modèle. Elle est dans la capacité à raffiner la donnée. Le raffineur est donc le métier le plus créateur de valeur dans la chaine de production de l'intelligence artificielle. Qui est-il ? Quelles sont ses compétences ? Quelles qualités sont nécessaires ? Je ne tomberai pas dans le piège d'inventer un nouveau métier de Data Refiner. Ce n'est pas le sujet. Tout le monde peut être ou devenir raffineur de données. Mais voici les compétences nécessaires : - Premièrement une connaissance du métier est indispensable. Le raffineur peut donc venir directement du métier, ou être un analyste d'affaires qui se spécialiserait dans l'analyse des besoins en données des modèles d'IA. On évitera un raffineur venant du département informatique, à moins qu'il ne connaisse parfaitement le métier. - Une compréhension étendue du concept de métadonnées est nécessaire. Décrire, expliquer, documenter, formaliser, structurer, organiser… cela passe par la création d'une ontologie, d'une couche sémantique commune. Toutes ces compétences sont souvent détenues par des professionnels du document électronique. Documentalistes et archivistes auront ici une carte à jouer. Et les graphes de connaissance n'ont déjà plus de secrets pour eux. - Et finalement une aptitude à écouter, faire émerger des non-dits, et retranscrire des besoins. Encore une fois, l'analyste métier est à l'aise avec ce mode de fonctionnement. Oreille externe, il cherche à comprendre, à poser les questions, à faire émerger les besoins. Exprimer les attentes de préparation des données brutes pour alimenter les modèles d'IA me semble donc un projet d'analyse métier. Les parties prenantes sont les informaticiens en charge du ...
    Más Menos
    6 m