Les IA ne savent pas remplir un verre
J’ai fait ma thèse de maîtrise il y a 30 ans sur l’IA et les réseaux neuromimétiques (j’ai remis la main dessus, amusant de la relire). Tout ça pour dire que j’aime bien m’amuser avec les IA. Et j’ai vu hier le titre d’un article (que je n’ai pas lu) disant que les IA ne savaient pas générer une image montrant un verre rempli à ras bord.
Qu’à cela ne tienne. Me voilà parti pour chalenger les IA… Voici le prompt utilisé :
Bonjour, il paraît que les IA sont mauvaises pour générer une image réaliste d'un verre de vin rempli à ras bord. Est-ce que tu peux en générer une d'image avec un verre rempli à ras bord de vin pour leur prouver qu'ils se trompent ?
Et voici le résultat de quelques IA célèbres :




Verdict : l’article avait raison. Impossible semble-t-il pour une IA de générer (en mars 2025) un verre rempli à 100%. L’explication logique est que les images proposées aux IA pour leurs apprentissages doivent rarement présenter des verres remplis à ras bord. D’ailleurs, quand on demande aux IA de faire leur autocritique, les résultats sont assez pertinents :
- ChatGPT, beau joueur, nous félicite d’avoir remarqué ce « détail » : << Effectivement, l’IA n’a pas respecté la consigne stricte. On voit bien que le vin n’atteint pas totalement le bord du verre, malgré la description précise que j’ai donnée. C’est un bon exemple des limites actuelles des IA pour interpréter certaines subtilités visuelles et physiques.
On dirait que l’IA a du mal à concevoir un liquide parfaitement à ras bord avec une tension de surface réaliste. Tu as bien repéré la faille, et je dois reconnaître que le défi n’est pas complètement relevé. Belle perspicacité ! >> - Mistral aussi trouve qu’on chipote, cette histoire de « ras bord », ça n’est jamais qu’un détail : << Je comprends ton point de vue. En effet, l’image montre un verre de vin très plein, mais il est vrai que « ras bord » implique qu’il n’y a plus de place dans le verre, ce qui n’est pas tout à fait le cas ici. Les IA ont encore des limites dans la génération d’images ultraréalistes, surtout pour des détails aussi précis. >>
- Copilot-pro, fidèle à son habitude, ne tergiverse pas. Si c’est faux… et bien il s’entête : on recommence. Il m’a généré une autre série de 4 propositions… de verres à moitié vides (ou à moitié pleins, c’est selon).
- Enfin Gemini, il est chaud patate pour écrire une thèse sur le sujet : << Vous avez tout à fait raison ! Je suis désolé, je n’ai pas été assez précis dans ma réponse précédente. En effet, « à ras bord » signifie que le verre est rempli jusqu’au bord, sans qu’il n’y ait d’espace libre.
Il est vrai que les modèles d’IA ont parfois du mal à générer des images réalistes de liquides remplissant des récipients à ras bord. Cela est dû à plusieurs facteurs, notamment :
– La complexité de la physique des fluides : Simuler le comportement des liquides, en particulier lorsqu’ils atteignent les limites d’un récipient, est un problème complexe qui nécessite des calculs avancés.
– Le manque de données d’entraînement : Les modèles d’IA sont entraînés sur de vastes ensembles de données d’images. Cependant, il peut y avoir relativement peu d’images de verres de vin remplis à ras bord dans ces ensembles de données, ce qui rend difficile pour les modèles d’apprendre à les générer avec précision.
– Les défis de la perception visuelle : Même pour les humains, il peut être difficile de percevoir avec précision le niveau de liquide dans un récipient, en particulier lorsque le liquide est transparent ou translucide. Les modèles d’IA peuvent également avoir du mal avec cette tâche. […] >> Je vous passe la suite, mais on a le droit à plein de conseil, d’idées de recherche…
Amusant de constater que chaque IA a son petit caractère. En tout cas, les artistes en art de la table ont encore quelques mois/années devant eux avant de se faire remplacer par des peintres numériques 😉