Les images générées par IA sont de plus en plus jaunes, et avec la « consanguinité » ça va s’aggraver
Internet est inondé par un filtre jaunâtre aussi moche que drôle – mais ce n’est qu’un symptôme d’une crise de l’IA qui nous guette.
INTELLIGENCE ARTIFICIELLE – Pour reconnaître une image générée par IA, il suffirait de regarder si elle est jaune. Pour beaucoup d’internautes, la technique est infaillible depuis quelques mois, lorsqu’un déluge d’images jaunâtres semble s’être abattu en ligne. Memes en tous genres ou encore vidéos IA produites à la chaîne – même la photo de profil du PDG d’OpenAI Sam Altman a succombé à la teinte jaunâtre. Le problème est si répandu qu’il existe d’ailleurs des sites et des tutos pour « dé-jaunifier » les images générées par Sora ou ChatGPT
Si l’on en croit tous les tweets sur le sujet, ce filtre jaune serait le résultat de modèles IA qui se recopient entre eux et recrachent de pâles copies. Certains pensent même que tout a commencé par la tendance des images style « Ghibli », qui cartonnait en mars. Mais comme vous pouvez le voir dans notre vidéo ci-dessus, c’est un peu plus compliqué que ça.
« Ça pourrait être parce que le modèle utilisé pour créer ces images est entraîné sur des données générées par IA », explique au HuffPost Jathan Sadowski, enseignant et chercheur à la Monash University et spécialiste du capitalisme numérique. « Et dans ces données générées par IA, il pourrait y avoir une surreprésentation de jaune, et donc le modèle IA recréé et recopie et fait une fixette sur le jaune ».
Mauvais prompts, bugs techniques ou biais exagérés d’un modèle IA, il est en effet difficile de connaître la cause exacte de ce jaunissement : mais ce qu’on sait, c’est qu’il risque d’être amplifié par ce que l’on appelle la « consanguinité » de l’IA, ou « l’effondrement » des modèles IA.
La menace de l’effondrement
« L’effondrement des modèles peut avoir lieu quand on se met à entraîner des modèles IA sur des données créées par d’autres modèles de machine learning », résume Jathan Sadowski. Tout en souriant, il compare ce phénomène à la consanguinité chez les humains, prenant l’exemple des Habsbourg.
« Cette dynastie très connue en Europe était aussi connue pour sa consanguinité, qui a donné lieu à des traits exagérés, voire grotesques ». Pour l’IA, c’est un peu pareil. « Après juste quelques générations de modèles entraînés avec beaucoup de données générées par IA, le modèle peut s’écrouler. Et il peut commencer à générer des résultats étranges ».
Si un modèle consanguin s’effondre, il peut donc se mettre à « halluciner ». Il peut aussi commencer à générer des images pas du tout naturelles, voire particulièrement jaunes. La solution semble alors évidente : il suffit de ne pas entraîner son IA avec des données dites synthétiques, et de privilégier le contenu humain, qui est plus divers.
Mais ce n’est pas si simple que ça, car si la consanguinité de l’IA pose problème aujourd’hui, c’est justement à cause d’une pénurie de données.
« Beaucoup des modèles déjà existants, comme ChatGPT ou Claude d’Anthropic, ont été entraînés avec toutes les données produites par des humains qui existent actuellement », précise Jathan Sadowski. « Maintenant, les données produites par des humains qui existent actuellement », précise Jathan Sadowski. « Maintenant, les gens ne sont plus capables de produire assez de données pour satisfaire la faim de ces modèles IA. Et donc les entreprises IA se tournent vers les données synthétiques. Tu peux avoir beaucoup plus de données synthétiques plus vite, pour moins cher, et personne ne se plaint des droits d’auteur ».
La fin de l’âge d’or de l’IA ?
Mais le bidouillage des entreprises de la tech pour faire des économies va avoir, et a déjà, des conséquences importantes sur l’efficacité de l’IA. « Des études ont montré que très rapidement, lorsqu’une grosse quantité de données synthétiques sont utilisées à l’entraînement, le modèle devient juste inutile », affirme Jathan Sadowski.
Face à tout ça, le secteur de la tech est en quête de solutions, le but étant de trouver le bon équilibre entre données « réelles » et données synthétiques. Comme l’explique le spécialiste Aaron J. Snoswell pour The Conversation, OpenAI noue d’ailleurs des partenariats avec des sources fiables de données humaines qui ne sont pas disponibles publiquement en ligne, comme Shutterstock ou l’Associated Press.
Mais la menace d’une bulle IA qui risque d’éclater continue de planer, et beaucoup sont dans le déni.
« Beaucoup d’entreprises essaient de minimiser la menace de la consanguinité de l’IA, parce que s’ils commencent à en parler, le cours de leurs actions et leurs investissements vont se casser la gueule », abonde Jathan Sadowski. De son côté, le chercheur se dit « sceptique » quant aux futurs progrès des modèles IA.
« Je ne pense pas qu’on va continuer à voir une amélioration rapide de ces technologies, on voit d’ailleurs tout l’inverse. L’amélioration rapide de l’IA ralentit, mais personne n’est capable de l’admettre ». Pendant que les tech bros se chamaillent, la fin se rapproche donc pour l’âge d’or de l’intelligence artificielle – et ce dernier est déjà en train d’être remplacé par l’âge jauni.
Via Huffingtonpost.fr