Google dvoile son IA gnratrice d’images par le texte baptise Imagen et affirme qu’il est meilleur que DALL-E 2 d’OpenAI

Il y a une nouvelle tendance en vogue dans l’IA : les gnrateurs d’image par le texte; alimentez ces programmes avec le texte que vous aimez et ils gnreront des images remarquablement prcises qui correspondent cette description. Le monde de l’IA cherche toujours grer l’incroyable dmonstration de prouesses qu’apporte la capacit de DALL-E 2 dessiner / peindre / imaginer peu prs n’importe quoi mais OpenAI n’est pas le seul travailler sur le sujet; Google Research s’est empress de publier un modle similaire sur lequel il travaillait. Rsultat : Google affirme qu’Imagen produit des images toujours meilleures que DALL-E 2, sur la base d’un nouveau benchmark qu’il a cr pour ce projet nomm DrawBench.

L’intelligence artificielle a souvent affront les humains dans des combats cratifs. Il peut battre les grands matres aux checs, crer des symphonies, produire des pomes et, dsormais, crer des uvres d’art dtailles partir d’une courte invite crite. L’quipe d’OpenAI a rcemment cr un logiciel puissant, capable de produire une large gamme d’images en quelques secondes, juste partir d’une chane de mots qui lui est donne. Ce programme est connu sous le nom de Dall-E 2 et a t conu pour rvolutionner la faon dont nous utilisons l’IA avec les images.

Que fait le Dall-E 2 ?

En 2021, la socit de dveloppement de la recherche sur l’IA OpenAI a cr un programme connu sous le nom de Dall-E – un mlange des noms Salvador Dali et Wall-E. Ce logiciel a t capable de prendre une invite crite et de crer une image gnre par l’IA compltement unique. Par exemple, un renard dans un arbre ferait apparatre une photo d’un renard assis dans un arbre, ou l’invite astronaute avec un bagel la main montrerait eh bien, vous voyez o cela mne.

Bien que ce soit certainement impressionnant, les images taient souvent floues, pas tout fait prcises et prenaient un certain temps crer. Maintenant, OpenAI a apport de vastes amliorations au logiciel, crant Dall-E 2 – une nouvelle itration puissante qui fonctionne un niveau beaucoup plus lev.

Outre quelques autres nouvelles fonctionnalits, la principale diffrence avec ce deuxime modle est une norme amlioration de la rsolution de l’image, des latences plus faibles (le temps ncessaire la cration de l’image) et un algorithme plus intelligent pour crer les images.

Le logiciel ne se contente pas de crer une image dans un style unique, vous pouvez ajouter diffrentes techniques artistiques votre demande, en entrant des styles de dessin, de peinture l’huile, un modle en pte modeler, tricot en laine, dessin sur un mur de grotte, ou mme comme une affiche de film des annes 1960.

Dall-E est un assistant trs utile qui amplifie ce qu’une personne peut normalement faire, mais cela dpend vraiment de la crativit de la personne qui l’utilise. Un artiste ou quelqu’un de plus cratif peut crer des choses vraiment intressantes , explique Aditya Ramesh, l’un des ingnieurs principaux de Dall-E 2.

Un touche–tout

En plus de la capacit de la technologie produire des images uniquement sur des invites textuelles, Dall-E 2 dispose de deux autres techniques intelligentes : l’inpainting (le nom donn la technique de reconstruction d’images dtriores ou de remplissage des parties manquantes d’une image) et les variations. Ces deux applications fonctionnent de manire similaire au reste de Dall-E, juste avec une touche.

Avec l’inpainting, vous pouvez prendre une image existante et y ajouter de nouveaux lments ou en modifier des parties. Si vous avez une image d’un salon, vous pouvez ajouter un nouveau tapis, un chien sur le canap, changer le tableau au mur ou mme faire apparatre un lphant dans la pice parce que quelqu’un pourrait y penser, voyez vous.

Google devoile son IA generatrice dimages par le texte baptisee
gauche, l’image originale, droite l’dition Dall-E 2. Les chiffres 1, 2 et 3 donne un exemple d’illustration de placement d’un lment (en l’occurrence le flamant). Vous pouvez modifier sa position

Variations est un autre service qui ncessite une image existante. Insrez une photo, une illustration ou tout autre type d’image et l’outil de variation de Dall-E crera des centaines de ses propres versions. Vous pouvez lui donner une image d’un des tltubbies, et il la reproduira, crant des versions similaires. Une vieille peinture d’un samoura crera des images similaires, vous pouvez mme prendre une photo de certains graffitis que vous voyez et obtenir des rsultats similaires.

Vous pouvez galement utiliser cet outil pour combiner deux images en une seule. Mlangez un dragon et un corgi, ou un arc-en-ciel et un pot pour gnrer des pots avec de la couleur.

1653548886 902 Google devoile son IA generatrice dimages par le texte baptisee
gauche l’image originale, droite, l’outil variation de Dall-E 2 appliqu sur cette image

Google affirme avoir fait mieux avec Imagen

Nous prsentons Imagen, un modle de diffusion texte-image avec un degr de photoralisme sans prcdent et un niveau profond de comprhension du langage. Imagen s’appuie sur la puissance des modles de langage grands transformateurs pour comprendre le texte et s’appuie sur la force des modles de diffusion dans la gnration d’images haute fidlit .

1653548887 732 Google devoile son IA generatrice dimages par le texte baptisee

Imagen commence par gnrer une petite image (64 64 pixels) puis effectue deux passages en super rsolution dessus pour l’amener 1024 1024. Cependant, ce n’est pas comme une mise l’chelle normale, car la super-rsolution de l’IA cre de nouveaux dtails en harmonie avec l’image plus petite, en utilisant l’original comme base.

Supposons, par exemple, que vous ayez un chien vlo et que l’il du chien mesure 3 pixels de diamtre dans la premire image. Pas beaucoup de place pour l’expression ! Mais sur la deuxime image, c’est 12 pixels de large. D’o viennent les dtails ncessaires pour cela? Eh bien, l’IA sait quoi ressemble l’il d’un chien, elle gnre donc plus de dtails au fur et mesure qu’elle dessine. Ensuite, cela se reproduit lorsque l’il est refait, mais 48 pixels de diamtre.

1653548888 495 Google devoile son IA generatrice dimages par le texte baptisee

Les avances que les chercheurs de Google revendiquent avec Imagen sont multiples. Ils disent que les modles de texte existants peuvent tre utiliss pour la partie d’encodage du texte et que leur qualit est plus importante que la simple augmentation de la fidlit visuelle. Cela a du sens intuitivement, car une image dtaille d’un non-sens est certainement pire qu’une image lgrement moins dtaille de ce que vous avez demand exactement.

1653548888 977 Google devoile son IA generatrice dimages par le texte baptisee

Dans les tests de Google, notamment le benchmark DrawBench, Imagen est arriv en tte des tests d’valuation humaine, la fois sur la prcision et la fidlit. C’est videmment assez subjectif, mais galer la qualit perue de DALL-E 2, qui jusqu’ aujourd’hui tait considre comme un norme bond en avant par rapport tout le reste, est assez impressionnant.

DrawBench n’est pas une mtrique particulirement complexe : il s’agit essentiellement d’une liste de quelque 200 invites de texte que l’quipe de Google a introduites dans Imagen et d’autres gnrateurs de texte en image, la sortie de chaque programme tant ensuite juge par des valuateurs humains. Comme le montrent les graphiques ci-dessous, Google a constat que les humains prfraient gnralement la sortie d’Imagen celle de leurs rivaux.

1653548889 584 Google devoile son IA generatrice dimages par le texte baptisee

Limites et impact socital

Il existe plusieurs dfis thiques auxquels est confronte la recherche text-to-image au sens large. Nous proposons une exploration plus dtaille de ces dfis dans notre article et proposons une version rsume ici. Premirement, les applications en aval des modles texte-image sont varies et peuvent avoir un impact complexe sur la socit. Les risques potentiels d’utilisation abusive soulvent des inquitudes concernant l’open source responsable du code et des dmos. Pour le moment, nous avons dcid de ne pas publier de code ou de dmo publique. Dans les travaux futurs, nous explorerons un cadre d’externalisation responsable qui quilibre la valeur de l’audit externe avec les risques d’un libre accs illimit. Deuximement, les exigences en matire de donnes des modles texte-image ont conduit les chercheurs s’appuyer fortement sur de vastes ensembles de donnes, pour la plupart non conservs et rcuprs sur le Web. Bien que cette approche ait permis des avances algorithmiques rapides ces dernires annes, les ensembles de donnes de cette nature refltent souvent des strotypes sociaux, des points de vue oppressifs et des associations dsobligeantes ou autrement nuisibles des groupes identitaires marginaliss. Alors qu’un sous-ensemble de nos donnes de formation a t filtr pour supprimer le bruit et le contenu indsirable, tels que les images pornographiques et le langage toxique, nous avons galement utilis l’ensemble de donnes LAION-400M qui est connu pour contenir un large ventail de contenus inappropris, notamment des images pornographiques, des insultes racistes et strotypes sociaux nfastes. Imagen s’appuie sur des encodeurs de texte entrans sur des donnes non cures l’chelle du Web, et hrite ainsi des prjugs sociaux et des limites des grands modles de langage. En tant que tel, il existe un risque qu’Imagen ait encod des strotypes et des reprsentations nuisibles, ce qui guide notre dcision de ne pas publier Imagen pour un usage public sans autres garanties en place.

Enfin, bien qu’il y ait eu un travail approfondi d’audit des modles d’tiquetage image-texte et image pour les formes de prjugs sociaux, il y a eu relativement moins de travail sur les mthodes d’valuation des prjugs sociaux pour les modles texte-image. Un vocabulaire conceptuel autour des dommages potentiels des modles texte-image et des mesures d’valuation tablies sont un lment essentiel de l’tablissement de pratiques responsables de publication de modles. Bien que nous laissions une analyse empirique approfondie des prjugs sociaux et culturels aux travaux futurs, nos valuations internes petite chelle rvlent plusieurs limites qui guident notre dcision de ne pas publier notre modle pour le moment. Imagen, peut courir le risque de laisser tomber les modes de distribution des donnes, ce qui peut encore aggraver la consquence sociale du biais des ensembles de donnes. Imagen prsente de srieuses limitations lors de la gnration d’images reprsentant des personnes. Nos valuations humaines ont rvl qu’Imagen obtient des taux de prfrence significativement plus levs lorsqu’il est valu sur des images qui ne reprsentent pas de personnes, ce qui indique une dgradation de la fidlit de l’image. L’valuation prliminaire suggre galement qu’Imagen encode plusieurs prjugs et strotypes sociaux, y compris un biais gnral en faveur de la gnration d’images de personnes la peau plus claire et une tendance pour les images reprsentant diffrentes professions s’aligner sur les strotypes de genre occidentaux. Enfin, mme lorsque nous nous concentrons sur des gnrations loignes des personnes, notre analyse prliminaire indique qu’Imagen encode une gamme de prjugs sociaux et culturels lors de la gnration d’images d’activits, d’vnements et d’objets. Nous visons progresser sur plusieurs de ces dfis ouverts et limites dans les travaux futurs .

Conclusion

Il sera cependant difficile de juger de la conclusion de Google par nous-mmes, car Google ne met pas le modle Imagen la disposition du public. Il y a aussi une bonne raison cela. Bien que les modles texte-image aient certainement un potentiel cratif fantastique, ils ont galement une gamme d’applications troublantes. Imaginez un systme qui gnre peu prs n’importe quelle image que vous aimez tre utilise pour de fausses nouvelles, des canulars ou du harclement, par exemple. Comme le note Google, ces systmes codent galement les prjugs sociaux et leur production est souvent raciste, sexiste ou toxique d’une autre manire inventive.

Cela est d en grande partie la faon dont ces systmes sont programms. Essentiellement, ils sont forms sur d’normes quantits de donnes (dans ce cas : beaucoup de paires d’images et de lgendes) qu’ils tudient pour tablir des modles qu’ils apprennent reproduire. Mais ces modles ont besoin de beaucoup de donnes, et la plupart des chercheurs mme ceux qui travaillent pour des grandes enseignes de la technologie bien finances comme Google ont dcid qu’il tait trop onreux de filtrer de manire exhaustive cette entre. Ainsi, ils rcuprent d’normes quantits de donnes sur le Web et, par consquent, leurs modles ingrent (et apprennent rpliquer) toute la bile haineuse que vous vous pouvez vous attendre trouver en ligne.

La propre conclusion de Google est qu’Imagen n’est pas adapt un usage public pour le moment , et la socit a dclar qu’elle prvoyait de dvelopper une nouvelle faon de comparer les prjugs sociaux et culturels dans les travaux futurs et de tester les futures itrations. Pour l’instant, cependant, nous devrons nous contenter de la slection optimiste d’images de l’entreprise.

Source : Google

Et vous ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous en gnral de la cration d’image en sortie par du texte en entre ?

GPT 3 peut executer du code rechercher une valeur dans une De DALL-E 2 et Imagen, lequel votre prfrence ? Dans quelle mesure ?

GPT 3 peut executer du code rechercher une valeur dans une Voyez-vous des abus potentiels ? Lesquels ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous des solutions de mitigations proposes par les entreprises ?

We want to thank the author of this write-up for this awesome material

Google dvoile son IA gnratrice d’images par le texte baptise Imagen et affirme qu’il est meilleur que DALL-E 2 d’OpenAI

We have our social media profiles here as well as other pages on related topics here.https://www.ai-magazine.com/related-pages/