GPT-4 : la nouvelle version de l’IA de traitement du langage naturel d’OpenAI pourrait arriver cet t, il devrait tre moins volumineux que GPT-3, mais beaucoup plus performant

La sortie de GPT-4, la prochaine version du modle de langage d’OpenAI, serait imminente. Bien qu’aucune date de sortie n’a encore t annonce jusque-l, OpenAI a donn quelques indications sur les caractristiques du successeur de GPT-3. Ainsi, contrairement ce quoi beaucoup pourraient s’attendre, GPT-4 ne devrait pas tre plus grand que GPT-3, mais devrait utiliser plus de ressources de calcul, ce qui limitera son impact environnemental. GPT-4 ne devrait pas non plus tre une IA multimodale, et devrait prendre en charge uniquement les donnes textuelles.

En mai 2020, OpenAI, la socit d’IA cofonde par Elon Musk et Sam Altman, publiait GPT-3, prsent alors comme le grand rseau neuronal de l’poque. Modle de langage de pointe, GPT-3 comprend 175 milliards de paramtres contre 1,5 milliard de paramtres pour son prdcesseur GPT-2. GPT-3 a battu le modle NLG Turing (Turing Natural Language Generation) de Microsoft avec 17 milliards de paramtres qui dtenait auparavant le record du plus grand rseau neuronal. Le modle de langage a t merveill, critiqu et mme soumis un examen approfondi ; il a galement trouv de nouvelles applications intressantes.

GPT 4 la nouvelle version de lIA de traitement du

Les trois modles ont t publis un an d’intervalle : GPT-1 est sorti en 2018, GPT-2 en 2019 et GPT-3 en 2020. Si cette tendance devait se confirmer d’une version l’autre, GPT-4 devrait dj tre l. Ce n’est pas le cas, mais le PDG d’OpenAI, Sam Altman, a dclar il y a quelques mois que GPT-4 allait arriver. Selon la rumeur, la date de sortie serait prvue pour 2022, probablement entre juillet et aot. Altman a organis une sance de questions-rponses la fin de l’anne dernire et a donn quelques indices sur ce que l’on peut attendre de GPT-4. Bien que ces informations manquent de prcision, l’on peut prvoir les points suivants.

Taille du modle : GPT-4 devrait tre moins grand que GPT-3

Lors de la sance, Altman a laiss entendre que, contrairement la croyance populaire, GPT-4 ne sera pas le plus grand modle de langue. Il ne devrait pas tre plus grand que GPT-3. Le modle sera certainement plus grand que les gnrations prcdentes de rseaux neuronaux, mais la taille ne sera pas son signe distinctif. Il se situera probablement quelque part entre GPT-3 et Gopher (entre 175 et 280 milliards de paramtres). Selon Altman, un modle plus grand ne signifie pas toujours un modle plus performant. L’existence de modles plus petits qui sont meilleurs a deux implications.

Premirement, les entreprises ont ralis que l’utilisation de la taille du modle comme proxy pour amliorer les performances n’est pas la seule faon de le faire ni la meilleure. En 2020, Jared Kaplan, d’OpenAI, et ses collgues auraient conclu que les performances s’amliorent le plus lorsque les augmentations du budget de calcul sont principalement alloues l’augmentation du nombre de paramtres, suivant une relation de type loi de puissance. Google, Nvidia, Microsoft, OpenAI, DeepMind et d’autres entreprises dveloppant des modles de langage ont pris ces directives pour argent comptant.

Mais MT-NLG (Megatron-Turing NLG, un rseau neuronal construit par Nvidia et Microsoft l’anne dernire avec 530 milliards de paramtres), aussi gros qu’il soit, n’est pas le meilleur en matire de performances. En fait, l’on estime qu’il n’est le meilleur dans aucune catgorie de rfrence. Des modles plus petits, comme Gopher, ou Chinchilla (70 milliards de paramtres) – peine une fraction de sa taille – seraient bien meilleurs que MT-NLG dans toutes les tches. Ainsi, il est devenu vident que la taille du modle n’est pas le seul facteur permettant d’obtenir une meilleure comprhension du langage.

Ce qui amne la deuxime implication. Les entreprises auraient commenc rejeter le dogme : plus c’est gros, mieux c’est. Disposer de plus de paramtres ne serait qu’un facteur parmi d’autres qui peut amliorer les performances. Et les dommages collatraux (par exemple, l’empreinte carbone, les cots de calcul ou les barrires l’entre) en font l’un des pires facteurs prendre en compte, bien qu’il soit trs simple mettre en uvre. Les entreprises rflchiront deux fois avant de construire un modle gigantesque lorsqu’elles peuvent obtenir des rsultats similaires – voire meilleurs – avec un modle plus petit.

L’optimalit : OpenAI veut tirer le meilleur parti de GPT-4

Selon Altman, les modles de langage souffrent d’une limitation critique lorsqu’il s’agit d’optimisation. La formation serait si coteuse que les entreprises doivent faire des compromis entre la prcision et le cot. Il en rsulte souvent que les modles sont nettement sous-optimiss. Le PDG a indiqu que GPT-3 n’a t entran qu’une seule fois, malgr quelques erreurs qui, dans d’autres cas, auraient conduit un nouvel entranement. De ce fait, OpenAI aurait dcid de ne pas le faire en raison des cots inabordables, empchant les chercheurs de trouver le meilleur ensemble d’hyperparamtres pour le modle.

Une autre consquence des cots de formation levs est que les analyses du comportement du modle seraient restreintes. Selon un rapport, lorsque les chercheurs en intelligence artificielle ont conclu que la taille du modle tait la variable la plus pertinente pour amliorer les performances, ils n’ont pas pris en compte le nombre de jetons d’apprentissage, c’est–dire la quantit de donnes fournies aux modles. Cela aurait ncessit des quantits extraordinaires de ressources informatiques. Les entreprises technologiques auraient suivi les conclusions des chercheurs parce que c’tait ce qu’elles avaient de mieux.

Mais selon des analystes, Google, Microsoft, Facebook et d’autres ont “gaspill” des millions de dollars pour des modles de plus en plus grands – gnrant ainsi de grandes quantits de pollution – motivs prcisment par des restrictions conomiques. Aujourd’hui, les entreprises, avec DeepMind et OpenAI en tte, exploreraient d’autres approches. Elles essaieraient de trouver des modles optimaux plutt que des modles plus grands.

OpenAI travaillerait sur un paramtrage optimal de GPT-4

Le mois dernier, Microsoft et OpenAI ont prouv que GPT-3 pouvait encore tre amlior s’ils entranaient le modle avec des hyperparamtres optimaux. Ils auraient constat qu’une version de GPT-3 avec seulement 6,7 milliards de paramtres augmentait tellement ses performances qu’elle tait comparable au modle GPT-3 original de 13 milliards de paramtres. L’ajustement des hyperparamtres – irralisable pour les modles plus grands – a entran une augmentation des performances quivalente au doublement du nombre de paramtres. Ils auraient ainsi trouv une nouvelle paramtrisation (μP).

Dans le cadre de cette dernire, les meilleurs hyperparamtres pour un petit modle taient galement les meilleurs pour un plus grand modle de la mme famille. μP aurait permis d’optimiser des modles de taille arbitraire pour une fraction minuscule du cot de formation. Les hyperparamtres pourraient ensuite tre transfrs pratiquement sans cot au modle plus grand. OpenAI devrait prendre en compte ces points dans GPT-4.

GPT-4 devrait utiliser beaucoup plus de calculs que GPT-3

Altman a dclar que GPT-4 utilisera beaucoup plus de calcul que son prdcesseur. OpenAI devrait implmenter des ides lies l’optimalit dans GPT-4 – bien que l’on ne puisse pas prvoir dans quelle mesure, puisque leur budget est inconnu. Cependant, les dclarations d’Altman montrent qu’OpenAI devrait se concentrer sur l’optimisation d’autres variables que la taille du modle. Trouver le meilleur ensemble d’hyperparamtres, la taille optimale du modle et le nombre de paramtres pourrait entraner des amliorations incroyables dans tous les benchmarks.

Selon les analystes, toutes les prdictions pour les modles de langage tomberont l’eau si ces approches sont combines en un seul modle. Altman a galement dclar que les gens ne croiraient pas quel point les modles peuvent tre meilleurs sans tre forcment plus grands. Il suggre peut-tre que les efforts de mise l’chelle sont termins pour le moment.

Multimodalit : GPT-4 devrait tre un modle uniquement textuel

Selon les analystes, l’avenir de l’apprentissage profond rside probablement dans les modles multimodaux. Le cerveau humain est multisensoriel parce que nous vivons dans un monde multimodal. Percevoir le monde d’un seul mode la fois limite considrablement la capacit de l’IA s’y retrouver ou le comprendre. Cependant, il serait beaucoup plus difficile de construire de bons modles multimodaux que de bons modles bass sur le langage ou la vision uniquement. Les analystes estiment que combiner des informations visuelles et textuelles en une seule reprsentation est une tche ardue. Ainsi, Altman a dclar que GPT-4 devrait tre un modle uniquement textuel.

Sparsit : OpenAI indique que GPT-4 devrait tre un modle dense

Les modles pars qui exploitent le calcul conditionnel en utilisant diffrentes parties du modle pour traiter diffrents types d’entres auraient connu un grand succs ces dernires annes. Ces modles s’tendraient facilement au-del de la marque de 1T-paramtre sans souffrir de cots de calcul levs, crant une relation apparemment orthogonale entre la taille du modle et le budget de calcul. Cependant, les avantages diminueraient sur les trs grands modles. tant donn qu’OpenAI s’est concentr sur des modles de langage denses, il serait raisonnable de penser que GPT-4 sera galement un modle dense.

Et tant donn qu’Altman a dclar que GPT-4 ne sera pas beaucoup plus grand que GPT-3, l’on pourrait dduire que la sparsit n’est pas une option pour OpenAI – du moins pour le moment. Selon les analystes, la sparsit, l’instar de la multimodalit, dominera trs probablement les futures gnrations de rseaux neuronaux, tant donn que le cerveau humain – l’inspiration de l’IA – s’appuie fortement sur le traitement clairsem.

Alignement : GPT-4 devrait tre plus align que GPT-3

OpenAI aurait dploy beaucoup d’efforts pour rsoudre le problme de l’alignement de l’IA : comment faire en sorte que les modles de langage suivent les intentions de l’tre humain et adhrent ses valeurs ? D’aprs les analystes, il ne s’agit pas seulement d’un problme difficile sur le plan mathmatique (comment faire en sorte que l’IA comprenne prcisment ce que nous voulons ?), mais aussi sur le plan philosophique (il n’existe pas un moyen universel pour aligner l’IA sur les humains, car la variabilit des valeurs humaines d’un groupe l’autre est norme, et souvent conflictuelle).

OpenAI aurait fait une premire tentative avec InstructGPT, qui est un GPT-3 renouvel, entran avec un retour humain pour apprendre suivre des instructions (que celles-ci soient bien intentionnes ou non n’est pas encore pris en compte dans les modles). La principale avance d’InstructGPT serait que, indpendamment de ses rsultats sur les benchmarks linguistiques, il est peru comme un meilleur modle par les juges humains (qui forment un groupe trs homogne de personnes – employs d’OpenAI et anglophones -, l’on devrait donc tre prudent avant d’en tirer des conclusions).

Et vous ?

GPT 3 peut executer du code rechercher une valeur dans une Quel est votre avis sur le sujet ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous des caractristiques potentielles de GPT-4 ?

Voir aussi

GPT 3 peut executer du code rechercher une valeur dans une GPT-3, le systme de gnration de texte d’OpenAI, produit dsormais 4,5 milliards de mots par jour, avec une prcision de 91 %

GPT 3 peut executer du code rechercher une valeur dans une Un faux blogue d’un lycen gnr par GPT-3, l’IA de traitement du langage naturel d’OpenAI, a tromp des dizaines de milliers de personnes

GPT 3 peut executer du code rechercher une valeur dans une Un chatbot mdical GPT-3 d’OpenAI serait-il une bonne ide ? Il a dit un patient simul de se suicider, lors d’un test ralis par Nabla

GPT 3 peut executer du code rechercher une valeur dans une Microsoft cre un autocomplteur de code l’aide de GPT-3, le systme de gnration de texte d’OpenAI, pour combler le manque de dveloppeurs dans le monde

We wish to thank the author of this write-up for this outstanding web content

GPT-4 : la nouvelle version de l’IA de traitement du langage naturel d’OpenAI pourrait arriver cet t, il devrait tre moins volumineux que GPT-3, mais beaucoup plus performant

Take a look at our social media accounts along with other pages related to themhttps://www.ai-magazine.com/related-pages/