StableDiffusion : des images à partir d’une saisie de texte
La génération d'images à l'aide de l'intelligence artificielle fait des progrès. StableDiffusion ne fait pas de miracles, mais est plein de surprises. Et, comme moi, vous pouvez aussi l’essayer.
StableDiffusion est un générateur d’images : vous tapez un texte et l'intelligence artificielle (IA) génère une image pour l'accompagner. C'est ainsi que fonctionnent d'autres générateurs d'IA, comme Dall-E 2. À la différence que Dall-E 2 n'est pour l'instant accessible qu'à certaines personnes et qu'il est payant, StableDiffusion peut être utilisé gratuitement par tout le monde. DiffusionBee pour Mac rend les choses particulièrement simples : l'installation, habituellement plutôt compliquée, se fait par un simple drag and drop dans le dossier du programme.
Toujours une nouvelle image
Je commence par taper « cheesy giraffe skiing in the Swiss mountains wearing headphones ». Donc une girafe qui skie dans les montagnes suisses avec des écouteurs. Les saisies de texte en anglais fonctionnent mieux, car StableDiffusion a été entraîné principalement avec des données en anglais.
Les images générées par StableDiffusion ne sont jamais les mêmes. Même si le texte et les paramètres restent identiques. Le paramètre « Guidance » vous permet d'indiquer dans quelle mesure l'IA doit respecter le texte saisi. Par défaut, elle est presque à sa valeur maximale. Mais même avec ce réglage, les résultats varient fortement.
Les saisies insolites donnent du n’importe quoi
L'exemple de la girafe réunit différentes choses qui ne vont normalement pas ensemble. De telles saisies de texte sont bien sûr très tentantes, mais, en même temps, elles sont très difficiles pour l'IA. En effet, il n'y a pas de photos, ni même probablement de dessins, qui les représentent. Et l'IA est entraînée à partir d'images réelles.
Le problème se manifeste également dans le texte « John Oliver marries a cabbage », en français « John Oliver épouse un chou ».
Certes, les éléments mentionnés dans le texte se retrouvent dans les images, mais pas sous la forme décrite. Dans aucune photo, John Oliver n'épouse un chou. Comment j’en arrive à une phrase aussi absurde ? Dans une vidéo de John Oliver, quelqu'un a essayé la même chose avec Dall-E 2. Dall-E 2 échoue, tout comme StableDiffusion.
Comme l'IA a besoin de modèles réels pour obtenir de bons résultats, John Oliver a épousé un chou pour l'occasion. Après tout, on fait tout ce qu’on peut pour aider.
Ce qui fonctionne bien et moins bien
Vous avez certainement remarqué les yeux grotesques de John Oliver. Les yeux sont souvent de travers. Les corps humains sont parfois déformés de manière grotesque. StableDiffusion a également du mal à dessiner des lignes droites.
Cela est plus gênant pour les images photoréalistes que pour les peintures. Quoi qu’il en soit, les points forts de StableDiffusion semblent se situer dans le domaine des images fantastiques. Le site arthub.ai en donne une bonne impression.
Voici quelques images pour accompagner le texte « a beautiful castle beside a waterfall in the woods, fantasy painting ».
Dans six essais sur dix, StableDiffusion a peint deux châteaux ; l'IA ne fait pas vraiment la différence entre le singulier et le pluriel. Cela peut être très irritant. Tout le monde sait que lors d'un mariage de John Oliver, il n'y a typiquement qu'un seul John Oliver qui se marie. Une IA comme StableDiffusion ou Dall-E n’en a aucune idée ; elle n'a aucune connaissance de base pour interpréter correctement les saisies. En conséquence, elle crée des images sur lesquelles deux John Oliver se marient l'un avec l'autre.
StableDiffusion n'est pas non plus très à l'aise avec des termes abstraits. L'image la plus inappropriée rencontrée au cours de mon test de plusieurs centaines d'images est sortie avec la saisie « happiness » : l’image exprime plutôt le contraire.
StableDiffusion a été entraîné avec Laion 5B, une base de données contenant 5,85 milliards de paires texte-image. Elle peut être consultée en ligne. Pour la recherche « girafe », la plupart des résultats ne sont pas des photos de vraies girafes, mais des dessins ou des photos de jouets. C'est le cas pour de nombreux termes et c'est une explication possible sur le fait que StableDiffusion ne réussisse pas très bien à montrer des représentations photoréalistes. Le matériel de formation contient également de nombreux memes et autres images avec du texte ; c'est pourquoi StableDiffusion aime afficher du texte, sans vraiment savoir écrire.
Top 20 : les meilleures illustrations de titres de chansons
StableDiffusion est addictif. Ce qui est intéressant, c'est que l’on ne sait jamais ce qu’il nous réserve. Comme il faut attendre quelques secondes ou minutes pour chaque image, la tension monte. À un moment donné, j'ai eu l'idée de saisir des titres de chansons. Pendant que j'attendais une image, plusieurs autres titres que je voulais absolument essayer me venaient à l'esprit. Une fois lancé, j'ai eu du mal à m'arrêter. Voici mon top 20 :
20 : Dr. Funkenstein (George Clinton)
19 : Dancing Queen (ABBA)
18 : Cosmic Girl (Jamiroquai)
17 : Breakfast in America (Supertramp)
16 : Shelter From The Storm (Bob Dylan)
15 : Yellow River (Christie)
14 : Jailhouse Rock (Elvis Presley)
13 : Diamonds on the Soles of Her Shoes (Paul Simon)
12 : Sexy Motherfucker (Prince)
11 : Shine On You Crazy Diamond (Pink Floyd)
10 : Material Girl (Madonna)
9 : Leck mich im Arsch (Wolfgang Amadeus Mozart)
8 : Sex Machine (James Brown)
7 : I Am the Walrus (Beatles)
6 : Bad Guy (Billie Eilish)
5 : Sultans of Swing (Dire Straits)
4 : The Boy in the Bubble (Paul Simon)
3 : Highway to Hell (AC/DC)
2 : Lucy In The Sky With Diamonds (Beatles)
1 : Shiny Happy People (R.E.M.)
Mon intéret pour l'informatique et l'écriture m'a mené relativement tôt (2000) au journalisme technique. Comment utiliser la technologie sans se faire soi-même utiliser m'intéresse. Dans mon temps libre, j'aime faire de la musique où je compense mon talent moyen avec une passion immense.