De quem é a linha afinal, GitHub? Algumas dicas para desenvolvedores

De quem é a linha afinal, GitHub? Algumas dicas para desenvolvedores

De quem é essa linha, GitHub? Algumas dicas para desenvolvedores PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Opinião Código aberto. Está aberto. Você pode olhar. Principalmente, você pode usar. Há uma pista no nome. Não tão rápido, afirma uma ação coletiva contra a Microsoft, OpenAI e GitHub. O Copilot, um bot de sugestão treinado em código aberto e alimentado por IA no IDE, funciona oferecendo linhas de código aos programadores – e isso, alega o processo de ação coletiva, quebra as regras e está sendo sorrateiro ao tentar escondê-lo. Um juiz decidiu que algumas das reivindicações merecem seu dia no tribunal. Caro senhor, não é outra batalha de direitos autorais.

A tecnologia pode parecer muito estranha para os juízes. Digamos que você compre legalmente um e-book. Como você conseguiu isso? Roteadores e servidores de cache fazem cópias do livro assim que ele é entregue, mas não pagaram um centavo. Os proprietários da infraestrutura da Internet estão quebrando os direitos autorais bilhões de vezes por dia? Você pode pensar que é uma pergunta idiota, mas incomodou a Suprema Corte do Reino Unido o suficiente para ir à Europa para perguntar “Esta Internet é realmente legal?” Não seja tão idiota, foi a resposta. Sentimos falta da Europa.

Quantas das reivindicações contra a Microsoft, o Copilot e o prompter de código da OpenAI cairão na maldita caixa idiota, ainda não se sabe. Ninguém previu que a IA ingerisse bancos de dados globais de código-fonte aberto quando as regras fossem escritas. Então, novamente, ninguém previu que os mecanismos de busca fariam a ingestão, análise e apresentação por atacado de todo o conteúdo. Isso certamente tem seus problemas, mas o consenso é que é muito útil e não prejudicial o suficiente para ser ilegal. O copiloto e outros sistemas de aprendizado de máquina que se alimentam de conteúdo da Internet são muito parecidos com os mecanismos de pesquisa. Portanto, a questão é: o resultado não é útil o suficiente ou prejudicial demais para ser aceito? Onde está o equilíbrio de interesses?

Existem maneiras úteis de abordar as questões, e elas envolvem – a administração corporativa desvie o olhar agora – ética. Sim, realmente, aquela conversa brevemente na moda sobre IA ética oferece um caminho concreto a seguir que funcionará muito melhor do que ações judiciais.

Deformado por interesses especiais, o cerne da lei de propriedade intelectual é que os desejos razoáveis ​​do criador devem ser respeitados. Se o software for de código aberto, o criador deseja razoavelmente que as pessoas possam lê-lo e colocá-lo em uso. Algo que encoraja isso não parece o pior pecado do mundo.

Talvez seja a forma como o faz, apresentando as sugestões de código fora do contexto. Afinal, existem muitas licenças de código aberto, e algumas podem conter condições que nosso feliz copiloto recortar e colar deve conhecer. Bem, supondo que o Copilot possa reconhecer quando está sugerindo o código de outra pessoa, não é razoável que ele possa relatar as condições de licenciamento sob as quais é oferecido. Isso coloca o ônus do codificador em obedecer, o que é mais ético do que oferecer a tentação enquanto esconde as consequências. Pode até melhorar a taxa de acertos para seguir as regras de código aberto.

E se o codificador original realmente não quiser que suas coisas sejam espremidas nas entranhas do Copilot? O mundo dos mecanismos de busca resolveu isso com a invenção do robots.txt. Coloque um arquivo com esse nome em seu diretório raiz da web e você estará colocando um sinal de “No Entry” para rastreadores da web. As coisas estão um pouco mais avançadas hoje em dia, então colocar esse tipo de função na estrutura do GitHub com qualquer tipo de ajuste fino que melhor expresse a intenção do criador seria bom. De qualquer forma, dizer aos provedores de conteúdo: “Você não quer seu material em nossos resultados de pesquisa? Multar." tendeu a concentrar as mentes em maneiras de viver com isso. Dar escolhas às pessoas enquanto explica as consequências? Legal.

Mesmo que dar às pessoas o direito de remover seu código do Copilot e afins resulte no desaparecimento de uma tonelada de coisas boas, isso não é o fim do mundo. Existe o “princípio da sala limpa”, que esmagou a posição dominante da IBM na década de 1980 enquanto acelerava o mercado como um louco. Isso é algo com o qual o aprendizado de máquina pode aprender muito.

O IBM PC original era quase inteiramente de código aberto. A IBM publicou um manual técnico com diagramas de circuitos completos, todos usando chips padrão conectados entre si de maneiras padronizadas que os fabricantes de chips ofereciam gratuitamente. Projetar um clone do IBM PC funcionalmente equivalente (ainda sem direitos autorais) era algo que milhares de engenheiros eletrônicos poderiam fazer, e centenas o fizeram.

A mina terrestre legal na caixa bege era o BIOS, Basic INput-OUTput System, um pedaço relativamente pequeno de software permanente que fornecia um conjunto padrão de serviços de hardware para sistemas operacionais e aplicativos por meio de interrupções – o que hoje seria chamado de API. Se você apenas copiasse esse código para o seu clone, a IBM faria com que você acertasse. Você poderia reescrever o código, mas a IBM poderia prendê-lo em ações judiciais fazendo com que você provasse que não copiou nada dele. Mesmo se você ganhasse, o atraso e as despesas o afundariam.

Cue a sala limpa. Os clonadores contratavam codificadores que nunca haviam lido uma linha do BIOS da IBM e os proibiam de fazê-lo. Esses programadores receberam a API, que não tinha direitos autorais, e foram instruídos a escrever de acordo com essa especificação. Com atestados legais, os clonadores ficaram felizes em jurar no tribunal, o princípio de que você não pode copiar o que não viu – e a última parte do quebra-cabeça no Clone Wars original estava no lugar. O fato de as APIs fornecerem um antídoto tão poderoso contra direitos autorais levou muitos a tentar mudar seu status legal, mais recentemente Google x Oracle. Isso acabou na Suprema Corte dos EUA, onde, como todos os outros, falhou.

Portanto, considere dois sistemas automatizados, um dedicado a localizar e isolar interfaces no código e outro dedicado a aplicar regras para gerar código que forneça essas interfaces. Não há transferência de linhas de código no espaço de ar virtual. O teste automatizado de código original versus código AI aumentaria a qualidade. En passant, nasceria um conjunto muito bom de ferramentas para refatoração, para o benefício de todos. Parece ético, certo?

Aí nós temos. Se houver problemas genuínos com o que o Copilot está fazendo, existem várias maneiras de evitá-los, preservando a utilidade e criando novos benefícios. Jogar de acordo com as regras enquanto melhora as coisas? Essa é uma boa linha a seguir. ®

Carimbo de hora:

Mais de O registro