Esqueça os algoritmos de “código aberto” – concentre-se em experimentos

Republicado por Platão

seguidores: 0

Em 2016, liderei uma pequena equipe no Instagram que projetou e construiu um dos maiores experimentos de distribuição de conteúdo da história: a introdução de um algoritmo de classificação personalizado para os (então) 500 milhões de usuários da plataforma. Antecipando a controvérsia, passamos os anos seguintes medindo cientificamente as diferenças entre as pessoas que recebem esse “algoritmo de recomendação” em evolução (como às vezes é chamado) e um pequeno grupo escolhido aleatoriamente que recebe o feed cronológico reverso empregado desde o início do Instagram.

Essas diferenças sugeriram uma experiência extremamente melhorada com o novo algoritmo para todos os aspectos do aplicativo.

Embora eu continue confiante de que a classificação algorítmica é a melhor escolha para plataformas de mídia social, ela tem suas desvantagens. Para citar alguns: maior controle da plataforma sobre a distribuição de conteúdo, critérios operacionais opacos, riscos de promoção de conteúdo prejudicial e frustração geral dos usuários. Essas desvantagens levaram recentemente o potencial futuro proprietário do Twitter, Elon Musk, a apelar à “abertura do código do algoritmo”.

Como engenheiro, essa ideia parece excessivamente simplista, dado o pouco que um modelo de aprendizado de máquina de código aberto nos diz sobre seus efeitos. Mas o apelo à transparência é válido e pode começar com a divulgação em experiências semelhantes à que liderei no Instagram. A transparência útil, eu diria, reside na experimentação de código aberto, e não em algoritmos.

Não estou propondo o que deveria ser feito com as informações provenientes da experimentação de código aberto; em vez disso, este artigo é um ponto de partida para pensar sobre a transparência no contexto dos sistemas de classificação modernos. Nele, discuto por que a experimentação é essencial na classificação algorítmica e um melhor foco em esforços futuros para desmistificar a distribuição de conteúdo nas redes sociais.

Algoritmos modernos priorizam o conteúdo “mais interessante”

A maioria das plataformas sociais tem muito mais conteúdo do que qualquer um poderia razoavelmente consumir.

O Instagram foi lançado em 2010 com um feed cronológico reverso, que exibe o mais novo conteúdo “conectado” (ou seja, conteúdo de pessoas que você escolhe seguir) na parte superior do feed do usuário. Depois de seis anos, o usuário médio via apenas 30% do conteúdo conectado. A capacidade de atenção é fixa, por isso raciocinamos que essa quantidade representava o limite natural do que uma pessoa média deseja consumir. O objetivo da introdução da classificação algorítmica era tornar esses 30% o conteúdo mais interessante, e não o mais recente. Outras plataformas como TikTok, YouTube e Twitter têm suas próprias proporções (ou seja, disponibilizam diferentes quantidades de conteúdo), mas a abordagem de selecionar o conteúdo mais interessante com base em um período de atenção fixo é a mesma.

A escolha exata de como um algoritmo de classificação distribui o conteúdo dita o significado de “mais interessante”. Uma opção é tornar as coisas não personalizadas – todos que estão qualificados para ver o mesmo conjunto de conteúdo o veem na mesma ordem. Algoritmos criados para mostrar primeiro o conteúdo mais curtido, ou escolher as fotos mais bonitas, ou até mesmo destacar as “seleções do editor”, todos se enquadram nessa categoria. Mas o gosto em si é altamente personalizado; mesmo assim, dois usuários diferentes que seguem as mesmas pessoas preferirão conteúdos diferentes. A classificação não personalizada não consegue capturar o “mais interessante” na escala de bilhões.

Os algoritmos de classificação modernos, por outro lado, são personalizados: o algoritmo faz diferentes seleções de conteúdo dependendo de quem está navegando. É impossível ler a mente de um usuário e saber suas preferências precisas, mas um modelo de aprendizado de máquina pode aproveitar o comportamento passado para prever respostas a perguntas como: “Se você visse este conteúdo, qual seria a chance de você gostar dele, comente no compartilhar, assistir, pular ou denunciar?”

Classificação algorítmica combina essas previsões com uma extensa lógica de negócios (por exemplo, diversificação de conteúdo, preconceito contra conteúdo de ódio, promoção de conteúdo de contas menos conhecidas) para formar a base para determinar o conteúdo mais interessante para um determinado usuário.

Por que o algoritmo de “código aberto” não funciona

Aqui está minha compreensão do que as pessoas que defendem algoritmos de código aberto imaginam: se publicarmos o código-fonte interno e os pesos dos modelos de aprendizado de máquina envolvidos na classificação, engenheiros, analistas e outros serão capazes de entender por que determinado conteúdo é promovido ou rebaixado. A verdade é que mesmo a transparência total dos modelos ainda nos diz pouco sobre os seus efeitos.

As previsões dos modelos de aprendizado de máquina variam de acordo com o usuário, o conteúdo e as circunstâncias. Essas variações são divididas em “recursos” que um modelo de aprendizado de máquina pode consumir para fazer uma previsão. Exemplos de recursos incluem: conteúdo recente consumido por um usuário, quantos amigos de um usuário gostaram de algo, com que frequência um usuário interagiu com uma determinada pessoa no passado e o envolvimento por visualização de pessoas na cidade de um usuário.

O cálculo por trás do “bem líquido” – e não os microdetalhes de um algoritmo de classificação específico – determina se um experimento é bem-sucedido.

Os modelos modernos de classificação algorítmica levam em consideração milhões desses recursos para cuspir cada previsão. Alguns modelos dependem de numerosos submodelos para auxiliá-los; alguns serão treinados novamente em tempo real para se adaptarem às mudanças de comportamento. Esses algoritmos são complexos de entender, mesmo para os engenheiros que trabalham neles.

O tamanho e a sofisticação destes modelos tornam impossível compreender completamente como eles fazem previsões. Eles têm bilhões de pesos que interagem de maneira sutil para fazer uma previsão final; olhar para eles é como esperar compreender a psicologia examinando células cerebrais individuais. Mesmo em ambientes acadêmicos com modelos bem estabelecidos, a ciência da interpretável modelos ainda é incipiente. Os poucos métodos existentes para ajudar a compreendê-los envolvem os conjuntos de dados sensíveis à privacidade usados no treinamento. Modelos de classificação algorítmica de código aberto não mudariam isso.

Quando um experimento causa uma mudança “boa”?

Engenheiros como eu medem a capacidade preditiva. Em vez de procurar compreender o funcionamento interno dos algoritmos, experimentamos e observamos os seus efeitos. As equipes de classificação (normalmente uma combinação de cientistas de dados, engenheiros, gerentes de produto e pesquisadores) podem ter milhares de experimentos simultâneos (testes A/B), cada um expondo grupos de pessoas a variantes de algoritmos de classificação e modelos de aprendizado de máquina.

A maior questão que impulsiona um experimento é se uma mudança é – para usar um termo que eu inventei – “bom líquido” para o ecossistema. Durante a introdução da classificação algorítmica para usuários do Instagram, observamos melhorias significativas na interação do produto e mudanças insignificantes na qualidade da experiência relatada. Depois que uma equipe decide que um experimento causa uma mudança positiva, como fizemos, ele se torna a experiência do usuário padrão da plataforma e altera sutilmente o conteúdo que centenas de milhões de pessoas veem todos os dias.

Determinar o bem líquido envolve analisar os efeitos dos experimentos por meio de estatísticas resumidas sobre as mudanças no comportamento do usuário e na distribuição de conteúdo (ou seja, quais tipos de conteúdo são promovidos e rebaixados). Por exemplo, uma equipe pode observar com que frequência os usuários verificam um aplicativo ou “curtem” conteúdo, quanto tempo passam no aplicativo por dia ou por sessão, com que frequência alguém diz que está tendo uma experiência “5 em 5”, se os “pequenos” criadores são favorecidos em detrimento dos “grandes”, a prevalência de conteúdo “político” e assim por diante. As estatísticas resumidas são produzidas pela análise de enormes quantidades de ações individuais do usuário - você está no grupo de teste, entrou às 3h, viu o vídeo do seu melhor amigo e gostou, perdeu outra postagem de uma celebridade, etc.. e facilmente numerar na casa dos milhares. As equipes procuram mudanças estatisticamente significativas nessas estatísticas entre os grupos de teste e de controle.

Não é suficiente dizer “código aberto para todos os dados” – isso é um pesadelo de inovação e privacidade. Mas é possível divulgar com segurança mais do que as empresas fazem hoje.

Qualquer equipe de classificação algorítmica que funcione bem tem uma metodologia para decidir se uma mudança é boa em comparação com uma linha de base estabelecida. A metodologia pode ser codificada: Qualquer coisa que aumente o número de usuários ativos é bom. Ou pode ser baseado em julgamento: Se a pessoa X desligar depois de ver as estatísticas resumidas, isso é bom. Ou pode ser adversário: Se nenhuma equipe conseguir encontrar um problema, é bom. Na prática, pode ser uma mistura de tudo.

O cálculo por trás do bem líquido – e não os microdetalhes de um algoritmo de classificação específico – determina se um experimento é bem-sucedido. Experimentos orientam o sucesso da classificação de equipes em uma empresa. E o sucesso das equipes de classificação orienta como o conteúdo é distribuído para todos os usuários da plataforma.

Sendo o bem líquido uma designação tão poderosa, faz sentido apelar ao código aberto em experiências.

O que código aberto significa para experimentos

O problema com nosso sistema atual é que as pessoas que realizam experimentos são as únicas que podem estudá-los. Embora existam boas razões para isso, as pessoas que fazem alterações na classificação não são necessariamente incentivadas a encontrar certos tipos de problemas da mesma forma que a comunidade em geral poderia ser. (Na verdade, isso é algo em que o movimento de código aberto em software tem sido historicamente bom - ou seja, contar com uma comunidade de engenheiros para detectar problemas e contribuir com melhorias, além dos principais desenvolvedores que trabalham no projeto.) Fornecendo à comunidade com mais transparência sobre os experimentos, as equipes responsáveis por eles podem estabelecer melhores práticas para a tomada de decisões e revelar efeitos dos experimentos além do que a equipe está estudando.

Ao abrir experiências de sourcing, precisamos de equilibrar dois interesses concorrentes: manter informação proprietária suficiente para permitir que as empresas inovem e, ao mesmo tempo, divulgar o suficiente para permitir a compreensão externa. Não é suficiente dizer “código aberto para todos os dados” – isso é um pesadelo de inovação e privacidade. Mas é possível divulgar com segurança mais do que as empresas fazem hoje. As divulgações podem ocorrer de duas maneiras:

Metodologia de código aberto: O que é o intenção de mudanças de classificação? Quais objetivos e tomadas de decisão da equipe podem ser divulgados com segurança sem prejudicar a inovação da empresa?
Experimentação de código aberto: Quais são os conseqüências de mudanças de classificação? Que informações podem ser compartilhadas para permitir que terceiros, como agências de auditoria, examinem os efeitos dos experimentos de classificação sem sacrificar a privacidade do usuário?

A divulgação em si não resolve questões maiores de incentivos na classificação algorítmica. Mas dá à comunidade em geral uma base informada para pensar sobre eles e concentra a investigação e a atenção onde podem ter o maior impacto.

Metodologia de código aberto

É importante lembrar que a grande decisão na classificação algorítmica é o que constitui uma mudança positiva. Incentivar a metodologia de código aberto permite obter mais informações sobre como essas decisões são tomadas e como as plataformas avaliam o seu ecossistema de conteúdo. Os dados envolvidos já estariam resumidos, o que elimina preocupações sobre violação da privacidade individual. Os riscos de divulgação, portanto, referem-se principalmente à vantagem competitiva e aos maus atores, como fazendas de spam e invasores coordenados. Para começar, aqui estão três tipos de informações que não seria arriscado para uma plataforma compartilhar:

O processo geral para decidir se uma nova variante de classificação é uma mudança positiva.
Quem, se houver, tem poder de decisão em mudanças mais amplas de algoritmos.
Uma explicação das estatísticas resumidas disponíveis na tomada de decisões e avaliadas em experimentos.

Uma divulgação hipotética envolvendo essas informações poderia ser assim: a cada ano, a equipe executiva de uma plataforma define metas para medidas de engajamento, além de metas secundárias relacionadas à qualidade do conteúdo. As equipes de classificação responsáveis por atingir as metas podem realizar até 1,000 experimentos por ano, cada um envolvendo milhões de usuários. Um gerente de produto é obrigado a revisar os experimentos antes de começarem e se reúne uma vez por semana com as equipes de classificação responsáveis para revisar o impacto contínuo nos alvos primários e secundários, entre quaisquer outros efeitos que surjam como estatisticamente significativos, como mudanças de conteúdo para contas maiores ou a prevalência de conteúdo com tags políticas. Então, a decisão final sobre enviar ou não um experimento cabe à equipe executiva. As equipes de classificação medem a contribuição geral das atualizações de algoritmos por meio de um experimento que “retém” todas as alterações ao longo do ano.

A questão essencial na transparência da experimentação é: Como podemos partilhar os dados da experiência de forma mais ampla sem sacrificar a privacidade?

Esse tipo de divulgação nos ajuda a entender como as decisões são tomadas em uma empresa e podem ser documentadas em centros de transparência de plataforma e relatórios anuais. Divulgações mais específicas, que oferecem informações mais úteis sobre a tomada de decisões, também têm maior probabilidade de correr o risco de divulgar segredos da empresa. Esses tipos de divulgações incluiriam mais informações sobre o intenção de estatísticas resumidas, como:

Quais estatísticas resumidas são desejáveis, quais são indesejáveis e quais são usadas como barreiras de proteção (e não devem mudar).
Fórmulas específicas usadas para avaliar se uma decisão é boa.
Listas de todos os experimentos com hipóteses, datas e decisões tomadas.

Quer isto seja muito detalhado para uma divulgação está em jogo debate e depende das circunstâncias e objetivos particulares de cada produto. Mas voltando ao exemplo do Twitter e ao tão discutido problema do “spam”, aqui está um cenário hipotético que descreve uma divulgação útil: Digamos que o Twitter realizou 10 experimentos visando a diminuição da prevalência de spam. Cada experimento pretendia medir se a alteração do preditor de “clicar em um tweet” reduziria o número de usuários que veem spam. Nesses experimentos, a diminuição dos relatórios de spam foi considerada um resultado desejável, a diminuição das respostas era indesejável e o número de retuítes foi usado como proteção e esperava-se que permanecesse estável. Os experimentos um a cinco usaram modelos maiores e retreinados, prevendo se um usuário “clicaria em um tweet”. Os experimentos seis a 10 deixaram o modelo inalterado, mas diminuíram o peso das previsões de cliques na classificação final. O atual modelo de classificação da produção foi utilizado como grupo de controle. Todas as variantes do experimento começaram em 20 de maio, envolveram grupos de experimentos com 5 milhões de usuários cada e duraram duas semanas. O experimento sete, com redução moderada de peso, foi aprovado pelo gerente de produto em 10 de junho e se tornou a experiência básica.

Uma divulgação como essa ajudaria pessoas de fora a avaliar se o Twitter está tentando ativamente resolver o problema do spam e fazendo isso com uma abordagem sólida. A transparência cria o risco de maus atores usarem informações para ajustar táticas, mas também torna as equipes de classificação mais responsáveis perante seus usuários e inspira mais confiança em como a experiência do usuário se desenvolve.

Experimentação de código aberto

Embora a metodologia de código aberto forneça informações sobre o desempenho de uma equipe de classificação intenção, não permite que partes externas entendam o Consequências não-intencionais de decisões de classificação. Para isso, devemos examinar o código aberto dos próprios dados do experimento.

A análise de experimentos requer acesso a informações confidenciais que estão disponíveis apenas para funcionários, como ações individuais do usuário, por exemplo, “O usuário A viu este vídeo, assistiu por 10 segundos e depois gostou”. A comparação de estatísticas resumidas dessas informações entre grupos de teste e controle permite que a empresa entenda as mudanças algorítmicas que faz. A questão essencial na transparência da experimentação é: Como podemos partilhar os dados da experiência de forma mais ampla sem sacrificar a privacidade?

A versão mais transparente da experimentação de código aberto envolve a divulgação da informação bruta – a ação de cada pessoa em cada experimento já realizado. Com isso, partes externas poderiam tirar conclusões científicas adequadas sobre o comportamento do usuário e as mudanças de conteúdo nas redes sociais. Mas isto equivale a um objectivo ingénuo. As ações individuais dos usuários são sensíveis e pessoalmente reveladoras e, em alguns contextos, até arriscam vidas. Em vez disso, deveríamos concentrar-nos em alcançar um nível de transparência que não revele informações sensíveis ou violar o consentimento mas ainda permite que outras partes estudem cientificamente os resultados dos experimentos.

Limite o público: compartilhe dados brutos de experimentos com um grupo confiável menor fora da empresa, como um conjunto de auditores algorítmicos terceirizados que podem estar sujeitos a regulamentações profissionais.
Divulgação individual: Permita que os usuários vejam todos os experimentos aos quais foram expostos.
Aceitação individual: Mitigar algumas preocupações com a privacidade, permitindo que os indivíduos optem por divulgar suas ações a grupos específicos, como permitir a participação em estudos acadêmicos monitorados por meio de mecanismos no aplicativo.
Resumo: publique informações menos confidenciais agrupando dados de experimentos em coortes (por exemplo, divulgue mudanças na distribuição de conteúdo para contas maiores, vídeos, países específicos, etc.).

Todas essas abordagens fornecem ferramentas de análise para pessoas que não trabalham em plataformas sociais e, portanto, não estão vinculadas aos incentivos da empresa. Se revisitarmos o experimento plurianual que liderei sobre a introdução do algoritmo de classificação do Instagram, ter novos olhos sobre o grupo experimental poderia ter trazido novas perspectivas para preocupações como se a classificação causa uma bolha de filtro, se a introdução da classificação causa uma mudança em direção a contas mais políticas, e se as pessoas publicam mais conteúdo prejudicial como resultado da classificação. Sem acesso aos dados, todos ficamos presos a raciocínios incorretos baseados em manchetes e anedotas.

***

Apesar da prevalência de modelos de classificação algorítmica, o seu funcionamento interno não é bem compreendido – nem é esse o ponto. As empresas analisam os efeitos dos algoritmos realizando experimentos para decidir se as mudanças que eles causam são benéficas para seus ecossistemas de conteúdo.

Hoje, as partes externas, incluindo os utilizadores que se envolvem com estes produtos todos os dias, não têm forma de tirar conclusões sobre o que é bom, porque os dados da experiência são privados e a metodologia de tomada de decisão não é divulgada. Não precisa ser assim: é possível abrir mais a metodologia de tomada de decisão e, ao mesmo tempo, preservar a capacidade de concorrência das empresas. As informações sobre experimentos podem ser divulgadas de uma forma que permita que terceiros tirem conclusões sem sacrificar a privacidade.

A transparência é em si um atributo, mas uma transparência significativa é o melhor objetivo. No futuro, vamos nos concentrar na abertura de experimentos, não em algoritmos.

Postado em junho 24, 2022

Tecnologia, inovação e o futuro, contados por quem o constrói.

Obrigado por inscrever-se.

Verifique sua caixa de entrada para uma nota de boas-vindas.

As opiniões expressas em “postagens” (incluindo artigos, podcasts, vídeos e mídias sociais) são as dos indivíduos citados e não são necessariamente as opiniões da AH Capital Management, LLC (“a16z”) ou de suas respectivas afiliadas. Certas informações aqui contidas foram obtidas de fontes de terceiros, inclusive de empresas do portfólio de fundos administrados pela a16z. Embora retiradas de fontes consideradas confiáveis, a16z não verificou essas informações de forma independente e não faz representações sobre a precisão duradoura das informações ou sua adequação a uma determinada situação.

Este conteúdo é fornecido apenas para fins informativos e não deve ser considerado como aconselhamento jurídico, comercial, de investimento ou fiscal. Você deve consultar seus próprios conselheiros sobre esses assuntos. As referências a quaisquer valores mobiliários ou ativos digitais são apenas para fins ilustrativos e não constituem uma recomendação de investimento ou oferta para fornecer serviços de consultoria de investimento. Além disso, este conteúdo não é direcionado nem destinado ao uso por quaisquer investidores ou potenciais investidores, e não pode, em nenhuma circunstância, ser invocado ao tomar uma decisão de investir em qualquer fundo administrado pela a16z. (Uma oferta para investir em um fundo a16z será feita apenas pelo memorando de colocação privada, contrato de subscrição e outra documentação relevante de tal fundo e deve ser lida na íntegra.) Quaisquer investimentos ou empresas de portfólio mencionados, referidos ou descritos não são representativos de todos os investimentos em veículos administrados pela a16z, e não pode haver garantia de que os investimentos serão rentáveis ou que outros investimentos realizados no futuro terão características ou resultados semelhantes. Uma lista de investimentos feitos por fundos administrados pela Andreessen Horowitz (excluindo investimentos para os quais o emissor não deu permissão para a a16z divulgar publicamente, bem como investimentos não anunciados em ativos digitais negociados publicamente) está disponível em https://a16z.com/investments/.

Os gráficos fornecidos aqui são apenas para fins informativos e não devem ser usados para tomar qualquer decisão de investimento. O desempenho passado não é indicativo de resultados futuros. O conteúdo fala apenas a partir da data indicada. Quaisquer projeções, estimativas, previsões, alvos, perspectivas e / ou opiniões expressas nestes materiais estão sujeitas a alterações sem aviso prévio e podem diferir ou ser contrárias às opiniões expressas por terceiros. Por favor, veja https://a16z.com/disclosures para obter informações adicionais importantes.

Carimbo de hora: 24 de Junho de 202215 de julho de 2022