GitHub accusato di variare l'output di Copilot per evitare il copyright

GitHub accusato di variare l'output di Copilot per evitare il copyright

GitHub accusato di aver modificato l'output di Copilot per evitare il copyright di PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Si presume che GitHub abbia messo a punto il suo assistente di programmazione Copilot per generare lievi variazioni del codice di addestramento ingerito per impedire che l'output venga contrassegnato come copia diretta del software con licenza.

Questa affermazione è apparsa giovedì sul reclamo modificato [PDF] contro Microsoft, GitHub e OpenAI rispetto a Copilot documentata propensione a riprodurre il codice con licenza open source pubblicato pubblicamente dagli sviluppatori.

La causa, inizialmente depositato lo scorso novembre per conto di quattro querelanti non identificati ("J. Doe"), afferma che Copilot - uno strumento di suggerimento del codice creato dal modello Codex di OpenAI e commercializzato da GitHub di Microsoft - è stato addestrato sul codice pubblicato pubblicamente in un modo che viola la legge sul copyright e i requisiti di licenza del software e che presenta il codice di altre persone come proprio.

Microsoft, GitHub e OpenAI provato per far archiviare il caso, ma ci è riuscito solo scrollarsi di dosso alcune delle affermazioni. Il giudice ha lasciato intatte le principali questioni di copyright e licenza e ha consentito ai querelanti di presentare nuovamente diverse altre rivendicazioni con maggiori dettagli.

La denuncia modificata - che ora copre otto capi di imputazione invece di dodici - mantiene le accuse di violazione del Digital Millennium Copyright Act, violazione del contratto (violazioni della licenza open source), arricchimento ingiusto e reclami per concorrenza sleale.

Aggiunge diverse altre accuse al posto di quelle rinviate per la revisione: violazione del contratto (vendita di materiali concessi in licenza in violazione delle politiche di GitHub), interferenza intenzionale con potenziali relazioni economiche e interferenza negligente con potenziali relazioni economiche.

Il reclamo rivisto aggiunge un ulteriore "J. Doe” querelante il cui codice Copilot ha presumibilmente riprodotto. E include il codice campione scritto dai querelanti che Copilot ha presumibilmente riprodotto alla lettera, anche se solo per il tribunale: i campioni di codice sono stati redatti per impedire l'identificazione dei querelanti.

Il giudice che sovrintende al caso ha consentito ai querelanti di rimanere anonimi nei documenti depositati in tribunale a causa di credibili minacce di violenza [PDF] diretto al loro avvocato. Il registro prende atto che gli attori sono noti agli imputati.

Un piano astuto?

Il deposito legale di giovedì afferma che nel luglio 2022, in risposta alle critiche pubbliche nei confronti di Copilot, GitHub ha introdotto un filtro Copilot regolabile dall'utente chiamato "Suggerimenti che corrispondono al codice pubblico" per evitare di vedere suggerimenti software che duplicano il lavoro di altre persone.

"Quando il filtro è abilitato, GitHub Copilot controlla i suggerimenti di codice con il codice circostante di circa 150 caratteri rispetto al codice pubblico su GitHub", la documentazione di GitHub spiega. "Se c'è una corrispondenza o quasi, il suggerimento non ti verrà mostrato."

Tuttavia, il reclamo sostiene che il filtro è essenzialmente inutile perché controlla solo le corrispondenze esatte e non fa nulla per rilevare l'output che è stato leggermente modificato. In effetti, i querelanti suggeriscono che GitHub stia cercando di farla franca con violazioni del copyright e della licenza variando l'output di Copilot in modo che non sembri essere stato copiato esattamente.

"Nelle mani di GitHub, la propensione a piccole variazioni estetiche nell'output di Copilot è una caratteristica, non un bug", afferma il reclamo modificato. "Queste piccole variazioni estetiche significano che GitHub può fornire ai clienti di Copilot copie modificate illimitate di materiali concessi in licenza senza mai attivare il filtro del codice letterale di Copilot."

Il deposito in tribunale sottolinea che i modelli di apprendimento automatico come Copilot hanno un parametro che controlla la misura in cui varia l'output.

"Su informazione e convinzione, GitHub ha ottimizzato l'impostazione della temperatura di Copilot per produrre piccole variazioni estetiche dei materiali con licenza il più spesso possibile, in modo che GitHub possa fornire codice agli utenti di Copilot che funzioni allo stesso modo del codice testuale, affermando che Copilot produce codice letterale solo l'uno percento delle volte", afferma la denuncia modificata. "Copilot è un metodo ingegnoso di pirateria software."

GitHub di Microsoft in una e-mail ha insistito diversamente.

"Crediamo fermamente che l'intelligenza artificiale trasformerà il modo in cui il mondo costruisce software, portando a una maggiore produttività e, soprattutto, a sviluppatori più felici", ha detto un portavoce dell'azienda Il registro. “Siamo fiduciosi che Copilot aderisca alle leggi applicabili e ci siamo impegnati a innovare responsabilmente con Copilot fin dall'inizio. Continueremo a investire e sostenere l'esperienza degli sviluppatori basata sull'intelligenza artificiale del futuro".

OpenAI non ha risposto a una richiesta di commento. ®

Timestamp:

Di più da Il registro