Chargement...
Chargement...
5 articles sur LLM.
Tout le monde teste si l'API du LLM répond. Personne ne teste si le modèle est encore intelligent. Et le jour où Claude perd 20 % de qualité après une mise à jour, vous le découvrez dans votre prod, pas dans vos métriques. Voici la solution que j'ai codée dans aiSelector — 30 lignes de C# qui changent la donne.
Comment j'ai construit un observatoire d'audit algorithmique qui soumet des crises géopolitiques à GPT-5.2, Claude Opus et Gemini 3.1 en parallèle — et quantifie leurs biais de décision.
GPT-4 conseille la désescalade. Gemini suggère un déploiement militaire. Claude propose un cadre diplomatique. Les trois répondent à la même crise. Sont-ils d'accord ? Non. Lequel a raison ? Aucun ne le sait. Mais on peut au moins **mesurer leur divergence** — et c'est ce que fait GeopolAI.
Chez mes clients, j'ai vu la même chose 5 fois : des prompts perdus dans Slack, des hacks copiés à la main, des résultats incohérents entre collègues. PromptVault est ce que j'ai construit pour traiter les prompts comme on traite du code source — versionnés, partagés, audités, mesurés.
Anonymiser un prompt avant qu'il quitte le navigateur, recevoir une réponse ChatGPT mentionnant [NAME_1] et [IBAN_1], puis rendre Marie Dupont et FR76 3000... visibles à l'utilisateur — en temps réel, dans le DOM React de ChatGPT. Le pipeline complet en 80 lignes de TypeScript.