À qui appartient-il de toute façon, GitHub ? Quelques conseils pour les développeurs

À qui appartient-il de toute façon, GitHub ? Quelques conseils pour les développeurs

De toute façon, à qui appartient cette ligne, GitHub ? Quelques conseils pour les développeurs PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Opinion Open source. C'est ouvert. Vous pouvez regarder. La plupart du temps, vous pouvez utiliser. Il y a un indice dans le nom. Pas si vite, réclame un recours collectif intenté contre Microsoft, OpenAI et GitHub. Copilot, un bot de suggestion formé à l'IA et à source ouverte dans l'IDE, fonctionne en offrant des lignes de code aux programmeurs - et cela, selon le recours collectif, enfreint les règles et essaie sournoisement de le cacher. Un juge a statué que certaines des réclamations méritaient leur journée devant les tribunaux. Cher seigneur, pas une autre bataille de copyright.

La technologie peut sembler très étrange aux juges. Supposons que vous achetez légalement un ebook. Comment tu l'as obtenu? Les routeurs et les serveurs de mise en cache font chacun des copies du livre au fur et à mesure qu'il est livré, mais ils n'ont pas payé un centime. Les propriétaires d'infrastructures Internet enfreignent-ils le droit d'auteur des milliards de fois par jour ? Vous pensez peut-être que c'est une question idiote, mais cela a suffisamment dérangé la Cour suprême du Royaume-Uni pour qu'elle se rende en Europe et demande "Cet Internet est-il vraiment légal?" Ne sois pas si stupide, fut la réponse. L'Europe nous manque.

Reste à savoir combien de réclamations contre Microsoft, Copilot et le prompteur de code d'OpenAI tomberont dans la boîte sanglante. Personne n'avait prévu que l'IA ingérerait des bases de données mondiales de code open source lorsque les règles ont été écrites. Là encore, personne n'avait prévu que les moteurs de recherche procéderaient à l'ingestion, à l'analyse et à la présentation en gros de tout le contenu. Cela a certainement ses problèmes, mais le consensus est que c'est trop utile et pas assez dommageable pour être interdit. Copilot et les autres systèmes d'apprentissage automatique qui se nourrissent de contenu Internet sont à cet égard similaires aux moteurs de recherche. Donc la question est, est-ce que le résultat n'est pas assez utile ou trop préjudiciable pour être accepté ? Où est l'équilibre des intérêts ?

Il existe des moyens utiles d'aborder les problèmes, et ils impliquent - la direction de l'entreprise détourne le regard maintenant - l'éthique. Oui, vraiment, ce bavardage brièvement à la mode sur l'IA éthique offre une voie concrète qui fonctionnera beaucoup mieux que les poursuites judiciaires.

Déformé comme il l'est par des intérêts particuliers, le cœur du droit de la propriété intellectuelle est que les souhaits raisonnables du créateur doivent être respectés. Si le logiciel est open source, le créateur souhaite raisonnablement que les gens puissent le lire et l'utiliser. Quelque chose qui encourage cela ne semble pas le pire péché du monde.

C'est peut-être la façon dont il le fait, en présentant les suggestions de code hors de leur contexte. Après tout, il existe de nombreuses licences open source, et certaines peuvent contenir des conditions que notre heureux copilote devrait connaître. Eh bien, en supposant que Copilot puisse reconnaître quand il suggère le code de quelqu'un d'autre, il n'est pas déraisonnable qu'il puisse signaler les conditions de licence dans lesquelles il est proposé. Cela oblige le codeur à se conformer, ce qui est plus éthique que d'offrir la tentation tout en cachant les conséquences. Pourrait même améliorer le taux de succès pour suivre les règles open source.

Et si le codeur d'origine ne voulait vraiment pas que ses affaires passent dans les entrailles de Copilot ? Le monde des moteurs de recherche s'y est attaqué avec l'invention de robots.txt. Placez un fichier de ce nom dans votre répertoire racine Web et vous mettez en place un panneau « Aucune entrée » pour les robots d'exploration Web. Les choses sont un peu plus avancées ces jours-ci, donc mettre ce genre de fonction dans le tissu de GitHub avec le type de réglage fin qui exprime le mieux l'intention du créateur serait bien. Dans tous les cas, dire aux fournisseurs de contenu : « Vous ne voulez pas que vos contenus apparaissent dans nos résultats de recherche ? Bien." a eu tendance à focaliser les esprits sur les façons de vivre avec. Donner des choix aux gens tout en expliquant les conséquences ? Bon.

Même si donner aux gens le droit de supprimer leur code de Copilot et autres entraîne la disparition d'une tonne de bonnes choses, ce n'est pas la fin du monde. Il y a le « principe de la salle blanche », qui a brisé la position dominante d'IBM dans les années 1980 tout en accélérant le marché comme un fou. C'est quelque chose dont l'apprentissage automatique pourrait apprendre beaucoup.

L'IBM PC d'origine était presque entièrement open source. IBM a publié un manuel technique avec des schémas de circuits complets, tous utilisant des puces standard connectées ensemble de manière standard que les fabricants de puces ont distribuées gratuitement. Concevoir un clone d'IBM PC fonctionnellement équivalent (mais sans copyright) était quelque chose que des milliers d'ingénieurs en électronique pouvaient faire, et des centaines l'ont fait.

La mine terrestre légale dans la boîte beige était le BIOS, Basic INput-OUTput System, un morceau relativement petit de logiciel permanent qui fournissait un ensemble standard de services matériels aux systèmes d'exploitation et aux applications par le biais d'interruptions - ce qu'on appellerait aujourd'hui une API. Si vous venez de copier ce code pour votre clone, IBM vous donnerait les droits. Vous pourriez réécrire le code, mais IBM pourrait alors vous impliquer dans des poursuites judiciaires vous obligeant à prouver que vous n'en avez rien copié. Même si vous gagniez, le retard et les dépenses vous couleraient.

Cue la salle blanche. Les cloneurs ont embauché des codeurs qui n'avaient jamais lu une ligne du BIOS d'IBM et leur ont interdit de le faire. Ces programmeurs ont reçu l'API, qui n'était pas protégée par le droit d'auteur, et ont été invités à écrire dans cette spécification. Avec des attestations légales, les cloneurs étaient heureux de jurer devant le tribunal, le principe selon lequel vous ne pouvez pas copier ce que vous n'avez pas vu était en vigueur – et le dernier morceau du puzzle de la guerre des clones originale était en place. Le fait que les API fournissent un antidote aussi puissant au droit d'auteur a conduit de nombreuses personnes à essayer de modifier leur statut juridique, plus récemment Google contre Oracle. Cela s'est terminé devant la Cour suprême des États-Unis où, comme tous les autres, il a échoué.

Prenez donc deux systèmes automatisés, l'un dédié à la recherche et à l'isolation des interfaces dans le code, et l'autre dédié à l'application de règles pour générer du code qui fournit ces interfaces. Il n'y a pas de transfert de lignes de code à travers l'entrefer virtuel. Le test automatisé du code original par rapport au code AI augmenterait la qualité. En passant, un très bel ensemble d'outils de refactoring verrait le jour, au bénéfice de tous. Cela semble éthique, non ?

Voilà nous l'avons. S'il existe de véritables problèmes avec ce que fait Copilot, il existe plusieurs façons de les éviter tout en préservant l'utilité et en créant de nouveaux avantages. Respecter les règles tout en améliorant les choses ? C'est une bonne ligne à suivre. ®

Horodatage:

Plus de Le registre