Le gnrateur d’images de l’IA DALL-E d’OpenAI peut dsormais modifier des photos, les chercheurs peuvent s’inscrire pour le tester

Le groupe de recherche en intelligence artificielle OpenAI a cr une nouvelle version de DALL-E, son programme de gnration de texte en image. DALL-E 2 est une version plus haute rsolution et plus faible latence du systme original, qui produit des images reprsentant les descriptions crites par les utilisateurs. Il comprend galement de nouvelles fonctionnalits, comme l’dition d’une image existante. Comme pour les travaux prcdents d’OpenAI, l’outil n’est pas directement mis la disposition du public. Mais les chercheurs peuvent s’inscrire en ligne pour avoir un aperu du systme, et OpenAI espre le rendre disponible ultrieurement pour une utilisation dans des applications tierces.

Nomm d’aprs l’artiste surraliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prdcesseur du modle, DALL-E, a t lanc l’anne dernire. Ce logiciel est capable de crer des images dans diffrents styles artistiques lorsqu’il est guid par des entres de texte : il gnre des images partir de ce que vous lui dcrivez. Vous demandez un cur anatomiquement raliste, ou un dessin anim d’un bb radis chinois en tutu promenant un chien, et il fera de son mieux pour crer une image qui y correspond.

Le generateur dimages de lIA DALL E dOpenAI peut desormais modifier

La nouvelle version, DALL-E 2, est cense tre plus polyvalente et capable de gnrer des images partir de lgendes des rsolutions plus leves. Elle est galement dote de nouvelles capacits. Il s’agissait d’un test limit mais fascinant de la capacit de l’IA reprsenter visuellement des concepts, qu’il s’agisse de la reprsentation banale d’un mannequin en chemise de flanelle, d’une girafe en tortue ou de l’illustration d’un radis promenant un chien.

l’poque, OpenAI a dclar qu’elle continuerait dvelopper le systme tout en examinant les dangers potentiels, tels que les prjugs dans la gnration d’images ou la production de fausses informations. Elle tente de rsoudre ces problmes l’aide de garanties techniques et d’une nouvelle politique de contenu, tout en rduisant sa charge de calcul et en poussant plus loin les capacits de base du modle.

L’une des nouvelles fonctionnalits de DALL-E 2, l’inpainting, applique les capacits de conversion de texte en image de DALL-E un niveau plus granulaire. Les utilisateurs peuvent partir d’une image existante, slectionner une zone et demander au modle de la modifier. Vous pouvez, par exemple, masquer un tableau sur le mur d’un salon et le remplacer par une autre photo, ou ajouter un vase de fleurs sur une table basse. Le modle peut remplir (ou supprimer) des objets tout en tenant compte de dtails tels que la direction des ombres dans une pice.

Une autre fonctionnalit, les variations, est une sorte d’outil de recherche d’images qui n’existent pas. Les utilisateurs peuvent tlcharger une image de dpart, puis crer une srie de variations similaires celle-ci. Ils peuvent galement mlanger deux images, gnrant ainsi des photos qui contiennent des lments des deux. Les images gnres mesurent 1 024 x 1 024 pixels, un bond en avant par rapport aux 256 x 256 pixels du modle original.

DALL-E 2 s’appuie sur CLIP, un systme de vision par ordinateur qu’OpenAI a galement annonc l’anne dernire. DALL-E 1 a simplement repris notre approche GPT-3 du langage et l’a applique la production d’une image : nous avons comprim les images en une srie de mots et nous avons simplement appris prdire ce qui allait suivre , explique Prafulla Dhariwal, chercheur chez OpenAI, en rfrence au modle GPT utilis par de nombreuses applications d’IA textuelle.

1649383816 680 Le generateur dimages de lIA DALL E dOpenAI peut desormais modifier

Mais la correspondance des mots n’a pas ncessairement permis de saisir les qualits les plus importantes aux yeux des humains, et le processus de prdiction a limit le ralisme des images. CLIP a t conu pour regarder les images et rsumer leur contenu comme le ferait un humain. OpenAI a itr sur ce processus pour crer “unCLIP”, une version inverse qui commence par la description et se dirige vers l’image. DALL-E 2 gnre l’image l’aide d’un processus appel “diffusion”, que Dhariwal dcrit comme le fait de commencer par un “sac de points”, puis de remplir un motif de plus en plus dtaill.

Le logiciel pourrait aider les gens retoucher leurs photos, crer des uvres d’art ou produire d’innombrables images de stock. DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas disposition dans notre API , a dclar OpenAI mercredi. Dans le cadre de nos efforts pour dvelopper et dployer l’IA de manire responsable, nous tudions les limites et les capacits de DALL-E avec un groupe restreint d’utilisateurs.

DALL-E 2 pourra tre test par des partenaires agrs, sous rserve de certaines conditions. Les utilisateurs n’ont pas le droit de tlcharger ou de gnrer des images non classes G et susceptibles de causer du tort , notamment tout ce qui implique des symboles de haine, de la nudit, des gestes obscnes ou “des conspirations majeures ou des vnements lis des vnements gopolitiques majeurs en cours”. Ils doivent galement divulguer le rle de l’IA dans la gnration des images, et ils ne peuvent pas servir les images gnres d’autres personnes par le biais d’une application ou d’un site web.

OpenAI espre toutefois l’ajouter ultrieurement aux outils API du groupe, ce qui lui permettrait d’alimenter des applications tierces. Notre espoir est de poursuivre le processus par tapes, afin de pouvoir continuer valuer, partir des retours que nous recevons, comment diffuser cette technologie en toute scurit , explique Dhariwal.

Source : OpenAi

Et vous ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous de cette nouvelle version de DALL-E ?

Voir aussi :

GPT 3 peut executer du code rechercher une valeur dans une OpenAI permet dsormais aux dveloppeurs de personnaliser son systme de gnration de texte GPT-3, pour crer des modles adapts au contenu spcifique de leurs applications et services

GPT 3 peut executer du code rechercher une valeur dans une L’API d’OpenAI est dsormais disponible sans liste d’attente, il apporte des modles de la srie Instruct qui sont spcialiss pour des rponses plus vridiques

GPT 3 peut executer du code rechercher une valeur dans une L’IA Codex d’OpenAI fait ses dbuts en programmation et peut dj coder dans une dizaine de langages, l’IA pourra-t-elle bientt dcharger les dveloppeurs de certaines tches, voire les remplacer ?

GPT 3 peut executer du code rechercher une valeur dans une OpenAI conoit un algorithme bas sur l’IA qui permet un robot d’imiter des tches ralises par des humains, dans un environnement virtuel

We would love to give thanks to the writer of this short article for this outstanding web content

Le gnrateur d’images de l’IA DALL-E d’OpenAI peut dsormais modifier des photos, les chercheurs peuvent s’inscrire pour le tester

Take a look at our social media accounts along with other pages related to themhttps://www.ai-magazine.com/related-pages/