Glöm "öppen källkod"-algoritmer – fokusera på experiment istället

Återutgiven av Platon

anhängare: 0

2016 ledde jag ett litet team på Instagram som designade och byggde ett av historiens största innehållsdistributionsexperiment: införandet av en personlig rankningsalgoritm till plattformens (dåvarande) 500 miljoner användare. I förutseende av kontroverser ägnade vi de kommande åren åt att vetenskapligt mäta skillnader mellan människor som tar emot denna utvecklande "rekommendationsalgoritm" (som det ibland kallas) och en liten slumpmässigt vald grupp som fick det omvänd kronologiska flödet som använts sedan Instagrams start.

Dessa skillnader föreslog en överväldigande förbättrad upplevelse med den nya algoritmen för varje aspekt av appen.

Även om jag är övertygad om att algoritmisk rankning är det bästa valet för sociala medieplattformar, är det inte utan nackdelar. För att nämna några: ökad plattformskontroll över innehållsdistribution, ogenomskinliga driftskriterier, risker för att främja skadligt innehåll och allmän användarfrustration. Dessa nackdelar ledde nyligen till att Twitters potentiella framtida ägare, Elon Musk, uppmanade till "öppen källa för algoritmen."

Som ingenjör låter den här idén alltför förenklad med tanke på hur lite open sourcing en maskininlärningsmodell berättar för oss om dess effekter. Men kravet på öppenhet är giltigt, och det kan börja med avslöjande i experiment liknande det jag ledde på Instagram. Användbar transparens, skulle jag hävda, ligger i experiment med öppen källkod snarare än algoritmer.

Jag föreslår inte vad som ska göras med informationen som kommer från experiment med öppen källkod; snarare är den här artikeln en utgångspunkt för att tänka på transparens i samband med moderna rankningssystem. I den diskuterar jag varför experiment är både väsentligt i algoritmisk rankning och ett bättre fokus i framtida ansträngningar för att avmystifiera innehållsdistribution på sociala medier.

Moderna algoritmer prioriterar det "mest intressanta" innehållet

De flesta sociala plattformar har mycket mer innehåll än någon rimligen skulle kunna konsumera.

Instagram lanserades 2010 med ett omvänt kronologiskt flöde, som visar det senaste "anslutna" innehållet (vilket betyder innehåll från personer du väljer att följa) överst i en användares flöde. Efter sex år såg den genomsnittliga användaren bara 30 % av sitt uppkopplade innehåll. Uppmärksamhetsintervallen är fasta, så vi ansåg att denna mängd representerade den naturliga gränsen för vad en genomsnittlig person ville konsumera. Syftet med att införa algoritmisk rankning var att göra dessa 30 % till det mest intressanta innehållet snarare än det senaste. Andra plattformar som TikTok, YouTube och Twitter har sina egna förhållanden (dvs. de gör olika mängder innehåll tillgängligt), men tillvägagångssättet att välja det mest intressanta innehållet med en fast uppmärksamhetsspann är densamma.

Valet av exakt hur en rankningsalgoritm distribuerar innehåll dikterar innebörden av "mest intressant". Ett alternativ är att göra saker opersonlig – alla som är berättigade att se samma uppsättning innehåll ser det i samma ordning. Algoritmer byggda för att visa det mest gillade innehållet först, eller välja de vackraste fotona eller till och med markera "redaktörens val" faller alla i den kategorin. Men smaken i sig är mycket personlig; två olika användare som följer samma personer kommer ändå att föredra olika innehåll. Opersonlig rankning lyckas inte fånga "det mest intressanta" i miljardskala.

Moderna rankningsalgoritmer är däremot personliga: Algoritmen gör olika innehållsval beroende på vem som surfar. Det är omöjligt att läsa en användares tankar och känna till deras exakta preferenser, men en maskininlärningsmodell kan bygga på tidigare beteende för att förutsäga svar på frågor som: "Om du skulle se det här innehållet, vad är chansen att du skulle gilla det, kommentera på det, dela det, titta på det, hoppa över det eller rapportera det?”

Algoritmisk rankning kombinerar dessa förutsägelser med omfattande affärslogik (t.ex. diversifiering av innehåll, partiskhet mot hatiskt innehåll, marknadsföring av innehåll från mindre kända konton) för att utgöra grunden för att bestämma det mest intressanta innehållet för en given användare.

Varför "open sourcing" fungerar inte algoritmen

Här är min förståelse för vad människor som efterlyser algoritmer med öppen källkod föreställer sig: Om vi publicerar den interna källkoden och vikterna av maskininlärningsmodeller som är involverade i rankningen, kommer ingenjörer, analytiker och andra att kunna förstå varför visst innehåll marknadsförs eller degraderas. Sanningen är att även fullständig insyn i modeller fortfarande säger oss lite om deras effekter.

Förutsägelser från maskininlärningsmodeller varierar beroende på användaren, innehållet och omständigheterna. Dessa variationer är uppdelade i "funktioner" som en maskininlärningsmodell kan använda för att göra en förutsägelse. Exempel på funktioner inkluderar: senaste innehåll som en användare har konsumerat, hur många av en användares vänner gillade något, hur ofta en användare interagerat med en viss person tidigare och engagemanget per visning av människor i en användares stad.

Kalkylen bakom "nettonytta" - inte mikrodetaljerna för en viss rankningsalgoritm - avgör om ett experiment är framgångsrikt.

Moderna algoritmiska rankningsmodeller tar hänsyn till miljoner av dessa funktioner för att spotta ut varje förutsägelse. Vissa modeller är beroende av många undermodeller för att hjälpa dem; vissa kommer att omskolas i realtid för att anpassa sig till förändrat beteende. Dessa algoritmer är komplexa att förstå, även för ingenjörerna som arbetar med dem.

Storleken och sofistikeringen av dessa modeller gör det omöjligt att helt förstå hur de gör förutsägelser. De har miljarder vikter som interagerar på subtila sätt för att göra en slutgiltig förutsägelse; att titta på dem är som att hoppas kunna förstå psykologi genom att undersöka enskilda hjärnceller. Även i akademiska miljöer med väletablerade modeller, vetenskapen om tydbar modellerna är fortfarande under utveckling. De få befintliga metoderna för att hjälpa till att förstå dem involverar integritetskänsliga datauppsättningar som används i utbildningen. Algoritmiska rankningsmodeller för öppen källa skulle inte ändra på det.

När orsakar ett experiment en "netto-bra" förändring?

Ingenjörer som jag mäter prediktiv förmåga. Istället för att försöka förstå algoritmernas inre funktion, experimenterar vi och observerar deras effekter. Rankingteam (vanligtvis en blandning av datavetare, ingenjörer, produktchefer och forskare) kan ha tusentals samtidiga experiment (A/B-tester) som var och en utsätter grupper av människor för varianter av rankningsalgoritmer och maskininlärningsmodeller.

Den största frågan som driver ett experiment är om en förändring är - för att använda en term jag kom på - "netto bra" för ekosystemet. Under introduktionen av algoritmisk rankning för Instagram-användare observerade vi betydande förbättringar i produktinteraktion och obetydliga förändringar i rapporterad upplevelsekvalitet. Efter att ett team bestämt sig för att ett experiment orsakar en nät-bra förändring, som vi gjorde, blir det plattformens standardanvändarupplevelse och ändrar subtilt innehållet som hundratals miljoner människor ser varje dag.

Att fastställa nettonyttan innebär att analysera effekterna av experiment genom sammanfattande statistik om skiftande användarbeteende och innehållsdistribution (dvs vilka typer av innehåll som marknadsförs och degraderas). Till exempel kan ett team titta på hur ofta användare kollar en app eller "gillar" innehåll, hur mycket tid de spenderar på appen per dag eller per session, hur ofta någon säger att de har en "5 av 5"-upplevelse, huruvida "små" kreatörer gynnas framför "stora", förekomsten av "politiskt" innehåll och så vidare. Sammanfattningsstatistik produceras genom att sammanfatta enorma mängder individuella användaråtgärder — du är med i testgruppen, du loggade in klockan 3, du såg din bästa väns video och sedan gillade den, du missade ännu ett inlägg av en kändis osv.. och räknas lätt i tusentals. Lag letar efter statistiskt signifikanta förändringar i denna statistik mellan test- och kontrollgrupper.

Det räcker inte att säga "alla data med öppen källkod" - det är en mardröm för innovation och integritet. Men det går säkert att avslöja mer än vad företag gör idag.

Alla välfungerande algoritmiska rankningsteam har en metodik för att avgöra om en förändring är nettobra jämfört med en etablerad baslinje. Metodiken kan kodifieras: Allt som ökar antalet aktiva användare är netto bra. Eller det kan vara bedömningsbaserat: Om person X loggar ut efter att ha sett sammanfattande statistik är det netto bra. Eller det kan vara motståndskraftigt: Om inget lag kan hitta ett problem är det netto bra. I praktiken kan det vara en blandning av allt.

Kalkylen bakom nettonyttan - inte mikrodetaljerna för en viss rankningsalgoritm - avgör om ett experiment är framgångsrikt. Experiment styr framgången för att ranka team i ett företag. Och framgången med rankingteam styr hur innehåll distribueras för alla plattformsanvändare.

Eftersom nettonyttan är en så kraftfull beteckning är det vettigt att efterlysa öppen källa i experiment.

Vad öppen källkod betyder för experiment

Problemet med vårt nuvarande system är att de som kör experiment är de enda som kan studera dem. Även om det finns goda skäl till detta, är de som gör rankningsändringar inte nödvändigtvis motiverade att hitta vissa typer av problem som det bredare samhället kan vara. (Detta är faktiskt något som öppen källkodsrörelsen inom mjukvara historiskt sett har varit bra på – dvs. att förlita sig på en gemenskap av ingenjörer för att upptäcka problem och bidra med förbättringar, utöver kärnutvecklarna som arbetar med projektet.) Genom att tillhandahålla gemenskapen. med mer transparens om experimenten kan teamen som ansvarar för dem etablera bästa praxis för att fatta beslut och avslöja effekter från experiment utöver vad teamet studerar.

När vi öppnar inköpsexperiment måste vi balansera två konkurrerande intressen: att behålla tillräckligt med proprietär information för att låta företag innovera samtidigt som vi avslöjar tillräckligt för att möjliggöra extern förståelse. Det räcker inte att säga "öppen källkod all data" - det är en innovations- och integritetsmardröm. Men det går säkert att avslöja mer än vad företag gör idag. Avslöjande kan ske på två sätt:

Metodik med öppen källkod: Vad är det uppsåt av rankingförändringar? Vilka lagmål och beslutsfattande kan på ett säkert sätt avslöjas utan att skada företagets innovation?
Experiment med öppen källkod: Vad är Konsekvenserna av rankingförändringar? Vilken information kan delas för att låta tredje parter som revisionsbyråer undersöka effekterna av rankningsexperiment utan att offra användarnas integritet?

Avslöjande i sig löser inte större problem med incitament i algoritmisk rangordning. Men det ger det bredare samhället en informerad grund att tänka på dem, och det fokuserar forskning och uppmärksamhet på var det kan ha störst inverkan.

Metodik med öppen källkod

Det är viktigt att komma ihåg att det stora beslutet i algoritmisk rankning är vad som utgör en netto-bra förändring. Att uppmuntra öppen källkodsmetod ger mer insikt i hur sådana beslut fattas och hur plattformar utvärderar sitt innehållsekosystem. De inblandade uppgifterna skulle redan vara sammanfattade, vilket utesluter farhågor om att kränka individens integritet. Riskerna med avslöjande handlar alltså i första hand om konkurrensfördelar och dåliga aktörer som spamfarmar och samordnade angripare. Till att börja med, här är tre typer av information som skulle göra det inte vara riskabelt för en plattform att dela:

Den allmänna processen för att avgöra om en ny rankningsvariant är en netto-bra förändring.
Vem, om någon, har beslutanderätt vid bredare algoritmförändringar.
En förklaring av sammanfattande statistik tillgänglig i beslutsfattande och utvärderad i experiment.

En hypotetisk avslöjande som involverar den informationen kan se ut så här: Varje år sätter en plattforms ledningsgrupp upp mål för engagemangsåtgärder, plus sekundära mål relaterade till innehållskvalitet. Rangordningsteamen som är ansvariga för att nå målen får köra upp till 1,000 XNUMX experiment per år, vart och ett som involverar miljontals användare. En produktchef måste granska experimenten innan de börjar och träffas en gång i veckan med de ansvariga rankingteamen för att granska den pågående effekten på de primära och sekundära målen, bland alla andra effekter som visar sig vara statistiskt signifikanta, såsom innehållsförskjutningar till större konton eller förekomsten av politiskt taggat innehåll. Sedan ligger det slutliga beslutet om huruvida ett experiment ska skickas eller inte hos ledningsgruppen. Rankinglagen mäter det övergripande bidraget från algoritmuppdateringar genom att ha ett experiment som "håller tillbaka" alla förändringar under året.

Den väsentliga frågan när det gäller insyn i experiment är: Hur kan vi dela experimentdata bredare utan att offra integritet?

Den typen av avslöjande hjälper oss att förstå hur Beslut fattas på ett företag och skulle kunna dokumenteras i plattformstransparenscenter och årsredovisningar. Mer specifika avslöjanden, som ger mer användbar insikt i beslutsfattande, löper också mer risk att avslöja företagshemligheter. Dessa typer av upplysningar skulle innehålla mer om uppsåt av sammanfattande statistik, såsom:

Vilken sammanfattande statistik som är önskvärd, vilken är oönskad och vilken som används som skyddsräcken (och inte bör ändras).
Specifika formler som används för att utvärdera om ett beslut är netto bra.
Listor över alla experiment med hypoteser, datum och fattade beslut.

Huruvida detta är för detaljerad för ett avslöjande står för debatt och beror på de särskilda omständigheterna och målen för varje produkt. Men för att återgå till Twitter-exemplet och det ofta diskuterade "spam"-problemet, här är ett hypotetiskt scenario som beskriver ett användbart avslöjande: Låt oss säga att Twitter körde 10 experiment med inriktning på minskad spamprevalens. Varje experiment var avsett att mäta om en ändring av prediktorn för att "klicka på en tweet" skulle minska antalet användare som ser skräppost. I dessa experiment ansågs minskade spamrapporter vara ett önskvärt resultat, minskade svar var oönskade och antalet retweets användes som skyddsräcke och förväntades förbli stabilt. Experiment ett till fem använde större, omtränade modeller som förutspådde om en användare skulle "klicka på en tweet". Experiment sex till 10 lämnade modellen oförändrad men minskade vikten av klickförutsägelser i den slutliga rankningen. Den nuvarande produktionsrankningsmodellen användes som kontrollgrupp. Alla experimentvarianter började den 20 maj, involverade experimentgrupper med 5 miljoner användare var och pågick i två veckor. Experiment sju, med en måttlig viktminskning, godkändes av produktchefen den 10 juni och blev grundupplevelsen.

Ett sådant avslöjande skulle hjälpa utomstående att bedöma om Twitter både aktivt försöker lösa spamproblemet och gör det med ett sunt tillvägagångssätt. Transparens skapar en risk för att dåliga aktörer använder information för att justera taktik, men det håller också rankinglag mer ansvariga inför sina användare och inger mer förtroende för hur användarupplevelsen utvecklas.

Experiment med öppen källkod

Medan öppen källkod ger insikt i ett rankande teams uppsåt, tillåter det inte externa parter att förstå oavsiktliga konsekvenser av rangordningsbeslut. För det bör vi undersöka själva experimentdata med öppen källa.

Att analysera experiment kräver att ha tillgång till konfidentiell information som bara är tillgänglig för anställda, till exempel enskilda användaråtgärder, t.ex. "Användare A såg den här videon, tittade på den i 10 sekunder och gillade den sedan." Genom att jämföra sammanfattande statistik av denna information mellan test- och kontrollgrupper kan företaget förstå de algoritmiska förändringarna det gör. Den väsentliga frågan när det gäller insyn i experiment är: Hur kan vi dela experimentdata bredare utan att offra integritet?

Den mest transparenta versionen av experiment med öppen källkod innebär att man avslöjar den råa informationen – varje enskild persons agerande i varje experiment som någonsin körs. Med det skulle externa parter kunna dra ordentliga, vetenskapliga slutsatser om användarbeteende och innehållsförskjutningar i sociala medier. Men detta är ett naivt mål. Enskilda användarhandlingar är känsliga och personligt avslöjande, och i vissa sammanhang riskerar de till och med liv. Vi bör istället fokusera på att uppnå en nivå av transparens som inte avslöjar känslig information eller bryter mot samtycke men gör det ändå möjligt för andra parter att studera resultaten av experiment vetenskapligt.

Begränsa publiken: Dela rå experimentdata till en mindre betrodd grupp utanför företaget, till exempel en uppsättning tredje parts algoritmiska revisorer som kan vara bundna av professionella regler.
Individuellt avslöjande: Tillåt användare att se varje experiment de har exponerats för.
Individuell opt-in: Dämpa vissa integritetsproblem genom att låta individer välja att avslöja sina handlingar för specifika grupper, till exempel genom att tillåta att delta i övervakade akademiska studier genom mekanismer i appen.
Sammanfattning: Publicera mindre känslig information genom att samla experimentdata i kohorter (t.ex. visa förändringar i innehållsdistribution mot större konton, videor, specifika länder osv.).

Dessa tillvägagångssätt ger alla analysverktyg till människor som inte arbetar på sociala plattformar och därför inte är bundna av företagsincitament. Om vi återbesöker det fleråriga experimentet som jag ledde med att introducera Instagrams rankningsalgoritm, skulle ha nya ögon på experimentgruppen ha gett nya perspektiv på frågor som om rankning orsakar en filterbubbla, om införandet av rankning orsakar en förändring mot fler politiska konton, och om folk lägger upp mer skadligt innehåll som ett resultat av rankningen. Utan tillgång till data har vi alla fastnat i felaktiga resonemang utifrån rubriker och anekdoter.

***

Trots förekomsten av algoritmiska rankningsmodeller är deras inre funktioner inte väl förstådda - och det är inte heller poängen. Företag analyserar effekterna av algoritmer genom att köra experiment för att avgöra om förändringarna de orsakar är netto bra för deras innehålls-ekosystem.

Idag har externa parter, inklusive de användare som engagerar sig med dessa produkter varje dag, ingen möjlighet att dra slutsatser om vad som är nettonytta eftersom experimentdata är privat och beslutsmetodik inte avslöjas. Så behöver inte vara fallet: Det går att öppna upp mer av beslutsmetodiken samtidigt som man bevarar möjligheten för företag att konkurrera. Information om experiment kan lämnas ut på ett sätt som gör att externa parter kan dra slutsatser utan att göra avkall på integriteten.

Transparens är i sig en egenskap, men meningsfull transparens är det bättre målet. Framöver, låt oss fokusera på att öppna upp experiment, inte algoritmer.

Upplagt 24 juni 2022

Teknik, innovation och framtiden, som berättas av dem som bygger den.

Tack för att du registrerade dig.

Kolla din inkorg för ett välkomstmeddelande.

Synpunkter som uttrycks i "inlägg" (inklusive artiklar, poddsändningar, videor och sociala medier) är de från de individer som citeras där och är inte nödvändigtvis åsikter från AH Capital Management, LLC ("a16z") eller dess respektive dotterbolag. Viss information som finns här har erhållits från tredjepartskällor, inklusive från portföljbolag av fonder som förvaltas av a16z. Även om den är hämtad från källor som anses vara tillförlitliga, har a16z inte självständigt verifierat sådan information och gör inga utfästelser om informationens varaktiga riktighet eller dess lämplighet för en given situation.

Detta innehåll tillhandahålls endast i informationssyfte och bör inte litas på som juridisk rådgivning, affärs-, investerings- eller skatterådgivning. Du bör rådfråga dina egna rådgivare i dessa frågor. Hänvisningar till värdepapper eller digitala tillgångar är endast i illustrativt syfte och utgör inte en investeringsrekommendation eller erbjudande om att tillhandahålla investeringsrådgivningstjänster. Dessutom är detta innehåll inte riktat till eller avsett att användas av några investerare eller potentiella investerare, och får inte under några omständigheter lita på när man fattar ett beslut om att investera i någon fond som förvaltas av a16z. (Ett erbjudande om att investera i en a16z-fond kommer endast att göras av det privata emissionsmemorandumet, teckningsavtalet och annan relevant dokumentation för en sådan fond och bör läsas i sin helhet.) Alla investeringar eller portföljbolag som nämns, hänvisas till, eller beskrivna är inte representativa för alla investeringar i fordon som förvaltas av a16z, och det finns ingen garanti för att investeringarna kommer att vara lönsamma eller att andra investeringar som görs i framtiden kommer att ha liknande egenskaper eller resultat. En lista över investeringar gjorda av fonder som förvaltas av Andreessen Horowitz (exklusive investeringar för vilka emittenten inte har gett tillstånd för a16z att offentliggöra såväl som oanmälda investeringar i börsnoterade digitala tillgångar) finns på https://a16z.com/investments/.

Diagram och diagram som tillhandahålls inom är endast för informationssyften och bör inte åberopas när investeringsbeslut fattas. Tidigare resultat indikerar inte framtida resultat. Innehållet talar endast från det angivna datumet. Eventuella prognoser, uppskattningar, prognoser, mål, framtidsutsikter och / eller åsikter som uttrycks i detta material kan komma att ändras utan föregående meddelande och kan skilja sig från eller vara i strid med åsikter från andra. Snälla se https://a16z.com/disclosures för ytterligare viktig information.

Tidsstämpel: Juni 24, 2022Juli 15, 2022