Un dveloppeur enqute sur les problmes juridiques lis au fonctionnement de GitHub Copilot, l’assistant de programmation bas sur l’IA, prvoyant des poursuites judiciaires

GitHub Copilot est un outil d’intelligence artificielle bas sur le cloud dvelopp par GitHub et OpenAI pour aider les utilisateurs des environnements de dveloppement intgrs Visual Studio Code, Visual Studio, Neovim et JetBrains en compltant automatiquement le code. Matthieu Butterick, qui porte les casquettes d’crivain, designer, dveloppeur et avocat, a voqu en juin 2022 les problmes juridiques lis au fonctionnement de GitHub Copilot, en particulier sa mauvaise gestion des licences open source . Rcemment, il a revtu sa casquette d’avocat pour s’associer des confrres plaideurs en recours collectif. Ensemble, ils enqutent sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations lgales envers les auteurs open source et les utilisateurs finaux.

GitHub Copilot, qu’est-ce que c’est ?

Copilot a t lanc en fin juin dans le cadre d’une Preview technique sur invitation uniquement, promettant de faire gagner du temps en rpondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont bases sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribu GitHub, en utilisant un systme d’IA appel Codex de la socit de recherche OpenAI.

GitHub dcrit Copilot comme l’quivalent IA de la programmation en paire , dans laquelle deux dveloppeurs travaillent ensemble sur un seul ordinateur. L’ide est qu’un dveloppeur peut apporter de nouvelles ides ou reprer des problmes que l’autre dveloppeur aurait pu manquer, mme si cela ncessite plus d’heures de travail.

Dans la pratique, cependant, Copilot est plutt un outil utilitaire de gain de temps, qui intgre les ressources que les dveloppeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des donnes dans Copilot, l’outil leur suggre des extraits de code ajouter en cliquant sur un bouton. Ainsi, ils n’ont pas passer du temps chercher dans la documentation de l’API ou rechercher des exemples de code sur des sites spcialiss.

1666569935 130 Un developpeur enquete sur les problemes juridiques lies au fonctionnement

Un rseau neuronal dans GitHub Copilot est entran l’aide de volumes massifs de donnes, constitues du code : des millions de lignes tlcharges par les 65 millions d’utilisateurs de GitHub, la plus grande plateforme au monde permettant aux dveloppeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modles de code pour pouvoir faire du hacking lui-mme. Il peut prendre le code incomplet d’un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble russir le faire. GitHub prvoit de vendre l’accs l’outil aux dveloppeurs.

Comme pour la plupart des outils d’IA, GitHub souhaite galement que Copilot devienne plus intelligent au fil du temps en fonction des donnes qu’il collecte auprs des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modle d’apprentissage automatique utilisera ce retour d’information pour amliorer les suggestions futures, de sorte que l’outil deviendra peut-tre plus humain mesure qu’il apprendra.

Citation Envoy par Matthieu Butterick

GitHub Copilot est un produit lanc par Microsoft en juin 2022 aprs une Preview technique d’un an. Copilot est un plugin pour Visual Studio et d’autres EDI qui produit ce que Microsoft appelle des suggestions bases sur ce que vous tapez dans l’diteur.

Qu’est-ce qui diffrencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est aliment par Codex, un systme d’IA cr par OpenAI et sous licence Microsoft. (Bien que Microsoft ait galement t appele le propritaire non officiel d’OpenAI ). Copilot propose des suggestions bases sur des invites de texte tapes par l’utilisateur. Copilot peut tre utilis pour de petites suggestions, par exemple jusqu’ la fin d’une ligne, mais Microsoft a mis l’accent sur la capacit de Copilot suggrer des blocs de code plus volumineux, comme le corps entier d’une fonction.

Mais comment le Codex, le systme d’IA sous-jacent, a-t-il t form ? Selon OpenAI, Codex a t form sur des dizaines de millions de rfrentiels publics , y compris du code sur GitHub. Microsoft elle-mme a vaguement dcrit le matriel de formation comme des milliards de lignes de code public . Mais le chercheur de Copilot, Eddie Aftandilian, a confirm dans un podcast rcent (@ 36:40) que Copilot est form sur les dpts publics sur GitHub .

Quel est le problme avec Copilot ?

Selon Matthieu Butterick, Copilot soulve des questions juridiques relatives la fois la formation du systme et l’utilisation du systme. Ce qui suit est extrait de son billet ce sujet.

Sur la formation du systme

La grande majorit des progiciels open source sont publis sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en prservant l’attribution prcise du code source). Ces licences sont rendues possibles lgalement par les auteurs de logiciels faisant valoir leur droit d’auteur sur leur code.

Ainsi, ceux qui souhaitent utiliser des logiciels open source ont le choix. Ils doivent soit :

  • respecter les obligations imposes par la licence, ou
  • utiliser le code sous rserve d’une exception de licence, par exemple, l’utilisation quitable en vertu de la loi sur le droit d’auteur.


Microsoft et OpenAI ont reconnu que Copilot & Codex sont forms sur des logiciels open source dans des dpts publics sur GitHub. Alors quel choix ont-ils fait ?

Si Microsoft et OpenAI avaient choisi d’utiliser ces rfrentiels sous rserve de leurs licences open source respectives, Microsoft et OpenAI auraient d publier de nombreuses attributions, car il s’agit d’une exigence minimale de presque toutes les licences open source. Pourtant, aucune attribution n’est apparente.

Par consquent, Microsoft et OpenAI doivent s’appuyer sur un argument d’utilisation quitable. En fait, nous savons que c’est le cas, car l’ancien PDG de GitHub, Nat Friedman, a affirm lors de la Preview technique de Copilot que la formation des systmes [d’apprentissage automatique] sur les donnes publiques est une utilisation quitable .

Eh bien, n’est-ce pas ? La rponse n’est pas une question d’opinion; c’est une question de droit. Naturellement, Microsoft, OpenAI et d’autres chercheurs ont promu l’argument de l’utilisation quitable. Nat Friedman a en outre affirm qu’il existe une jurisprudence sur l’utilisation quitable qui est largement invoque par la communaut de l’apprentissage automatique . Mais la Software Freedom Conservancy n’tait pas d’accord et a press Microsoft d’obtenir des preuves pour tayer sa position. Selon le directeur de la SFC, Bradley Kuhn :

Nous nous sommes renseigns en priv auprs de Friedman et d’autres reprsentants de Microsoft et de GitHub en juin 2021, demandant de solides rfrences juridiques pour les positions juridiques publiques de GitHub Ils n’en ont fourni aucune .

Pourquoi Microsoft n’a-t-elle pu produire aucune autorit lgale pour sa position ? Parce que ma SFC a raison : il n’y en a pas. Bien que certains tribunaux aient examin des questions connexes, il n’existe aucune affaire amricaine rsolvant carrment les ramifications de l’utilisation quitable de la formation l’IA.

De plus, les cas qui tournent autour de l’utilisation quitable quilibrent plusieurs facteurs. Mme si un tribunal dcide finalement que certains types de formation l’IA sont une utilisation quitable (ce qui semble possible) il peut galement en exclure d’autres. ce jour, nous n’avons aucune ide de la position de Copilot ou de Codex sur ce spectre. Ni celle de Microsoft, encore moins de l’OpenAI.

1666569936 183 Un developpeur enquete sur les problemes juridiques lies au fonctionnement

Sur l’utilisation du systme

Nous ne pouvons pas encore dire comment l’utilisation quitable finira par tre applique la formation l’IA. Mais nous savons que la recherche n’affectera pas du tout les utilisateurs de Copilot. Pourquoi ? Parce qu’ils utilisent simplement Copilot pour mettre du code. Alors, quel est le statut du droit d’auteur et de la licence de ce code mis ?

Ici encore, nous constatons que Microsoft devient indulgente. En 2021, Nat Friedman a affirm que la sortie de Copilot appartient l’oprateur, tout comme avec un compilateur . Mais c’est une analogie malicieuse, car Copilot tend de nouveaux piges aux imprudents.

Microsoft caractrise la sortie de Copilot comme une srie de suggestions de code. Microsoft ne revendique aucun droit sur ces suggestions. Mais Microsoft ne garantit pas non plus l’exactitude, la scurit ou l’attnuation des enchevtrements de proprit intellectuelle du code ainsi produit. Une fois que vous avez accept une suggestion Copilot, tout cela devient votre problme :

Vous tes responsable d’assurer la scurit et la qualit de votre code. Nous vous recommandons de prendre les mmes prcautions lors de l’utilisation du code gnr par GitHub Copilot que lorsque vous utilisez un code que vous n’avez pas crit vous-mme. Ces prcautions comprennent des tests rigoureux, une analyse IP [(= proprit intellectuelle)] et un suivi des vulnrabilits de scurit .

Quels enchevtrements pourraient survenir ? Les utilisateurs de Copilot ont montr que Copilot peut tre amen mettre du code verbatim partir de rfrentiels identifiables. Pas plus tard que cette semaine, le professeur Texas A&M, Tim Davis, a donn de nombreux exemples de gros morceaux de son code copis textuellement par Copilot, y compris lorsqu’il a invit Copilot avec le commentaire /* sparse matrix transpose in the style of Tim Davis */L’utilisation de ce code cre clairement une obligation de se conformer sa licence. Mais comme effet secondaire de la conception de Copilot, les informations sur l’origine du code (auteur, licence, etc.) sont supprimes. Comment les utilisateurs de Copilot peuvent-ils se conformer la licence s’ils ne savent mme pas qu’elle existe ?

Les mthodes de rcupration de code astucieuses de Copilot sont un cran de fume destin dissimuler une vrit crasseuse : Copilot n’est qu’une interface alternative pratique un vaste corpus de code open source. Par consquent, les utilisateurs de Copilot peuvent encourir des obligations de licence envers les auteurs du code sous-jacent. Dans ce contexte, l’affirmation de Nat Friedman selon laquelle Copilot fonctionne comme… un compilateur est plutt douteuse – les compilateurs changent la forme du code, mais ils n’injectent pas de nouveaux enchevtrements de proprit intellectuelle. Pour tre juste, Microsoft ne conteste pas vraiment cela. L’entreprise le cache juste en l’crivant en petits caractres.

Que signifie Copilot pour les communauts open source ?

Citation Envoy par Matthieu Butterick

Quand j’ai crit pour la premire fois sur Copilot, j’ai dit Je ne suis pas inquiet de ses effets sur l’open source . court terme, je ne suis toujours pas inquiet. Mais alors que je rflchissais mon propre parcours travers l’open source – prs de 25 ans – j’ai ralis qu’il me manquait une vue d’ensemble. Aprs tout, l’open source n’est pas un groupe fixe de personnes. C’est une intelligence collective en constante volution, continuellement renouvele par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux dfis les uns pour les autres, et augmentons ainsi nos attentes quant ce que nous pouvons accomplir.

Au milieu de cette grande alchimie, Copilot s’interpose. Son but est de s’arroger l’nergie de l’open source. Nous n’avons pas besoin de plonger dans l’histoire trs mouvemente de Microsoft avec l’open source pour voir Copilot pour ce qu’il est : un parasite.

La lgalit de Copilot doit tre teste avant que les dommages causs l’open source ne deviennent irrparables. C’est pourquoi j’envisage de l’attaquer en justice.

D’autres dveloppeurs avaient dj manifest leur mcontentement

Peu aprs le lancement de la Preview de Copilot en 2021, certains dveloppeurs ont commenc s’alarmer de l’utilisation d’un code public pour entraner l’IA de l’outil. L’une des proccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d’auteur ou blanchir le code open source dans des utilisations commerciales sans licence approprie. L’outil peut galement recracher des informations personnelles que les dveloppeurs ont publies, et dans un cas, il a reproduit le code largement cit du jeu PC Quake III Arena de 1999, y compris le commentaire du dveloppeur John Carmack.

1666569937 229 Un developpeur enquete sur les problemes juridiques lies au fonctionnement

Lutilisateur Hogan a aussi ajout dans son fil de discussion : Ce qui serait vraiment drle, c’est que les gens qui maintiennent des dpts populaires commenaient mettre du mauvais code exprs .

GitHub affirme que les drapages de Copilot sont rares. Mais un autre utilisateur de Twitter, rpondant au post de Ronacher, a crit : Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c’est un outil vraiment dangereux utiliser dans des environnements commerciaux . Dans une autre rponse, on peut lire : Lol, c’est du blanchiment de code

Source : Matthew Butterick

Et vous ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous de Copilot ?

GPT 3 peut executer du code rechercher une valeur dans une Partagez-vous les apprhensions de Matthew Butterick concernant l’utilisation du code open source de Copilot qui ne prend pas en considration les licences ?

GPT 3 peut executer du code rechercher une valeur dans une Comprenez-vous sa dmarche visant porter plainte ? A-t-elle, selon vous, des chances d’aboutir ?

Voir aussi :

GPT 3 peut executer du code rechercher une valeur dans une GitHub Copilot, l’assistant de programmation bas sur l’IA, sous le feu des critiques, un dveloppeur affirme qu’il met de nombreux bouts de son code protg par le droit d’auteur

GPT 3 peut executer du code rechercher une valeur dans une Un enseignant pointe GitHub Copilot comme l’outil parfait pour les tricheurs lors des valuations de programmation et ravive les craintes sur la disparition du mtier de dveloppeur cause de l’IA

GPT 3 peut executer du code rechercher une valeur dans une Copilot, l’outil d’IA commercial de GitHub, est critiqu par la communaut du logiciel open source, pour sa reproduction aveugle des blocs de code

We wish to give thanks to the writer of this article for this outstanding material

Un dveloppeur enqute sur les problmes juridiques lis au fonctionnement de GitHub Copilot, l’assistant de programmation bas sur l’IA, prvoyant des poursuites judiciaires

We have our social media profiles here as well as additional related pages here.https://www.ai-magazine.com/related-pages/