Vergeet "open-source" algoritmen - focus op experimenten in plaats van PlatoBlockchain data-intelligentie. Verticaal zoeken. Ai.

Vergeet "open-source" algoritmen - focus in plaats daarvan op experimenten

In 2016 gaf ik leiding aan een klein team bij Instagram dat een van de grootste contentdistributie-experimenten uit de geschiedenis ontwierp en bouwde: de introductie van een gepersonaliseerd ranking-algoritme voor de (toenmalige) 500 miljoen gebruikers van het platform. Anticiperend op controverses hebben we de daaropvolgende jaren wetenschappelijk de verschillen gemeten tussen mensen die dit evoluerende 'aanbevelingsalgoritme' (zoals het soms wordt genoemd) ontvingen en een kleine willekeurig gekozen groep die de omgekeerd chronologische feed ontving die sinds de oprichting van Instagram werd gebruikt. 

Deze verschillen suggereerden een overweldigend verbeterde ervaring met het nieuwe algoritme voor elk aspect van de app.

Hoewel ik er nog steeds van overtuigd ben dat algoritmische rangschikking de beste keuze is voor sociale-mediaplatforms, is dit niet zonder nadelen. Om er maar een paar te noemen: toegenomen platformcontrole over de distributie van inhoud, ondoorzichtige operationele criteria, risico's op het promoten van schadelijke inhoud en algemene frustratie van gebruikers. Deze nadelen brachten onlangs de potentiële toekomstige eigenaar van Twitter, Elon Musk, ertoe op te roepen tot ‘open source van het algoritme’.

Als ingenieur klinkt dit idee overdreven simplistisch, gegeven hoe weinig open source een machine learning-model ons vertelt over de effecten ervan. Maar de roep om transparantie is terecht, en kan beginnen met het openbaar maken van experimenten die vergelijkbaar zijn met de experimenten die ik op Instagram heb geleid. Nuttige transparantie ligt volgens mij eerder in open source-experimenten dan in algoritmen. 

Ik stel niet voor wat er moet gebeuren met de informatie die voortkomt uit open source-experimenten; dit artikel is eerder een startpunt voor het nadenken over transparantie in de context van moderne classificatiesystemen. Daarin bespreek ik waarom experimenteren zowel essentieel is bij de algoritmische rangschikking als een betere focus bij toekomstige inspanningen om de distributie van inhoud op sociale media te demystificeren. 

Moderne algoritmen geven prioriteit aan de ‘meest interessante’ inhoud

De meeste sociale platforms hebben veel meer inhoud dan iemand redelijkerwijs zou kunnen consumeren.

Instagram werd in 2010 gelanceerd met een omgekeerd chronologische feed, die de nieuwste 'verbonden' inhoud (dat wil zeggen inhoud van mensen die je wilt volgen) bovenaan de feed van een gebruiker weergeeft. Na zes jaar zag de gemiddelde gebruiker slechts 30% van zijn verbonden inhoud. De aandachtsspanne ligt vast, dus we redeneerden dat deze hoeveelheid de natuurlijke limiet vertegenwoordigde van wat een gemiddeld persoon wilde consumeren. Het doel van de introductie van algoritmische rangschikking was om van die 30% de meest interessante inhoud te maken in plaats van de meest recente. Andere platforms zoals TikTok, YouTube en Twitter hebben hun eigen verhoudingen (dat wil zeggen, ze stellen verschillende hoeveelheden inhoud beschikbaar), maar de aanpak om de meest interessante inhoud te selecteren met een vaste aandachtsspanne is dezelfde.

De keuze van hoe een ranking-algoritme de inhoud precies distribueert, dicteert de betekenis van ‘meest interessant’. Eén optie is om dingen ongepersonaliseerd te maken: iedereen die in aanmerking komt om dezelfde set inhoud te zien, ziet deze in dezelfde volgorde. Algoritmen die zijn gebouwd om de meest geliefde inhoud als eerste weer te geven, of de mooiste foto's te kiezen, of zelfs "keuzes van de redactie" te benadrukken, vallen allemaal in die categorie. Maar de smaak zelf is zeer persoonlijk; twee verschillende gebruikers die dezelfde mensen volgen, zullen toch de voorkeur geven aan verschillende inhoud. Een niet-gepersonaliseerde ranking slaagt er niet in om ‘het meest interessant’ op miljardenschaal vast te leggen. 

Moderne rangschikkingsalgoritmen zijn daarentegen gepersonaliseerd: het algoritme maakt verschillende inhoudselecties, afhankelijk van wie er surft. Het is onmogelijk om de gedachten van een gebruiker te lezen en hun precieze voorkeuren te kennen, maar een machinaal lerend model kan voortbouwen op gedrag uit het verleden om antwoorden te voorspellen op vragen als: “Als je deze inhoud zou zien, hoe groot is de kans dat je deze dan leuk zou vinden, reageer op delen, bekijken, overslaan of rapporteren?”

Algoritmische rangschikking combineert deze voorspellingen met uitgebreide bedrijfslogica (bijvoorbeeld het diversifiëren van inhoud, het tegengaan van haatdragende inhoud, het promoten van inhoud van minder bekende accounts) om de basis te vormen voor het bepalen van de meest interessante inhoud voor een bepaalde gebruiker. 

Waarom “open sourcing” het algoritme niet werkt

Dit is mijn begrip van wat mensen die oproepen tot open source-algoritmen zich voorstellen: als we de interne broncode en de gewichten van machine-learning-modellen die betrokken zijn bij de rangschikking publiceren, zullen ingenieurs, analisten en anderen kunnen begrijpen waarom bepaalde inhoud wordt gepromoot of gedegradeerd. De waarheid is dat zelfs volledige transparantie van modellen ons nog steeds weinig vertelt over de effecten ervan.

Voorspellingen van machine learning-modellen variëren op basis van de gebruiker, de inhoud en de omstandigheden. Deze variaties zijn onderverdeeld in ‘functies’ die een machine-learning-model kan gebruiken om een ​​voorspelling te doen. Voorbeelden van functies zijn onder meer: ​​de recente inhoud die een gebruiker heeft geconsumeerd, hoeveel vrienden van een gebruiker iets leuk vonden, hoe vaak een gebruiker in het verleden contact heeft gehad met een bepaalde persoon, en de betrokkenheid per weergave van mensen in de stad van een gebruiker.

De berekening achter het ‘nettogoed’ – en niet de microdetails van een bepaald ranking-algoritme – bepaalt of een experiment succesvol is.

Moderne algoritmische rankingmodellen houden hier rekening mee miljoenen van deze functies om elke voorspelling uit te spugen. Sommige modellen zijn afhankelijk van talloze submodellen om hen te helpen; sommigen zullen in realtime worden omgeschoold om zich aan te passen aan veranderend gedrag. Deze algoritmen zijn complex om te begrijpen, zelfs voor de ingenieurs die eraan werken.

De omvang en verfijning van deze modellen maken het onmogelijk om volledig te begrijpen hoe ze voorspellingen doen. Ze hebben miljarden gewichten die op subtiele manieren op elkaar inwerken om een ​​definitieve voorspelling te doen; ernaar kijken is hetzelfde als hopen de psychologie te begrijpen door individuele hersencellen te onderzoeken. Zelfs in academische omgevingen met gevestigde modellen is de wetenschap van interpreteerbare modellen staan ​​nog in de kinderschoenen. De weinige bestaande methoden om deze te helpen begrijpen, hebben betrekking op de privacygevoelige datasets die bij trainingen worden gebruikt. Open source algoritmische rankingmodellen zouden daar niets aan veranderen.

Wanneer veroorzaakt een experiment een “netto-goede” verandering?

Ingenieurs zoals ik meten het voorspellend vermogen. In plaats van te proberen de innerlijke werking van algoritmen te begrijpen, experimenteren we en observeren we de effecten ervan. Rankingteams (doorgaans een mix van datawetenschappers, ingenieurs, productmanagers en onderzoekers) kunnen dat wel hebben duizenden gelijktijdige experimenten (A/B-tests) die elk groepen mensen blootstellen aan varianten van ranking-algoritmen en machine-learning-modellen.

De grootste vraag die een experiment aanstuurt, is of een verandering – om een ​​term te gebruiken die ik heb bedacht – “netto goed” is voor het ecosysteem. Tijdens de introductie van algoritmische rangschikking voor Instagram-gebruikers hebben we aanzienlijke verbeteringen waargenomen in de productinteractie en onbeduidende veranderingen in de gerapporteerde kwaliteit van de ervaring. Nadat een team heeft besloten dat een experiment een netto-goede verandering veroorzaakt, zoals wij deden, wordt het de standaardgebruikerservaring van het platform en verandert het op subtiele wijze de inhoud die honderden miljoenen mensen elke dag zien.

Het bepalen van het netto-goed houdt in dat de effecten van experimenten worden geanalyseerd aan de hand van samenvattende statistieken over het veranderende gebruikersgedrag en de distributie van inhoud (dwz welke soorten inhoud worden gepromoot en gedegradeerd). Een team kan bijvoorbeeld kijken hoe vaak gebruikers een app checken of content ‘liken’, hoeveel tijd ze per dag of per sessie aan de app besteden, hoe vaak iemand zegt een ‘5 uit 5’-ervaring te hebben, of ‘kleine’ makers de voorkeur krijgen boven ‘grote’, de prevalentie van ‘politieke’ inhoud, enzovoort. Samenvattende statistieken worden geproduceerd door enorme hoeveelheden individuele gebruikersacties te analyseren - je zit in de testgroep, je bent om 3 uur ingelogd, je hebt de video van je beste vriend gezien en deze vervolgens leuk gevonden, je hebt nog een bericht van een beroemdheid gemist, enz.. en gemakkelijk in de duizenden lopen. Teams zoeken naar statistisch significante veranderingen in die statistieken tussen test- en controlegroepen.

Het is niet voldoende om te zeggen “open source alle data” – dat is een nachtmerrie op het gebied van innovatie en privacy. Maar het is mogelijk om veilig meer openbaar te maken dan bedrijven vandaag de dag doen.

Elk goed functionerend algoritmisch rankingteam beschikt over een methodologie om te beslissen of een verandering netto goed is vergeleken met een vastgestelde basislijn. De methodologie kan worden gecodificeerd: Alles wat het aantal actieve gebruikers vergroot, is netto goed. Of het kan op oordeel gebaseerd zijn: Als persoon X zich afmeldt nadat hij samenvattende statistieken heeft gezien, is dat netto goed. Of het kan vijandig zijn: Als geen enkel team een ​​probleem kan vinden, is het netto goed. In de praktijk kan het een mix van alles zijn. 

De berekening achter het nettoresultaat – en niet de microdetails van een bepaald ranking-algoritme – bepaalt of een experiment succesvol is. Experimenten bepalen het succes van het rangschikken van teams in een bedrijf. En het succes van rankingteams bepaalt hoe inhoud wordt gedistribueerd voor alle platformgebruikers.

Omdat ‘net good’ zo’n krachtige benaming is, is het logisch om bij experimenten op te roepen tot open sourcing.

Wat open source betekent voor experimenten

Het probleem met ons huidige systeem is dat de mensen die experimenten uitvoeren de enigen zijn die ze kunnen bestuderen. Hoewel daar goede redenen voor zijn, worden de mensen die rangschikkingswijzigingen doorvoeren niet noodzakelijkerwijs gestimuleerd om bepaalde soorten problemen op te lossen zoals de bredere gemeenschap dat zou kunnen doen. (Inderdaad, dit is iets waar de open source-beweging in software van oudsher goed in is geweest – dwz vertrouwen op een gemeenschap van ingenieurs om problemen op te sporen en verbeteringen aan te dragen, naast de kernontwikkelaars die aan het project werken.) Met meer transparantie over de experimenten kunnen de teams die er de leiding over hebben best practices vaststellen voor het nemen van beslissingen en de effecten van experimenten onthullen die verder gaan dan wat het team bestudeert. 

Bij het openen van sourcing-experimenten moeten we twee concurrerende belangen met elkaar in evenwicht brengen: voldoende bedrijfseigen informatie behouden om bedrijven te laten innoveren, terwijl we voldoende openbaar maken om extern begrip mogelijk te maken. Het is niet voldoende om te zeggen “open source alle data” – dat is een nachtmerrie op het gebied van innovatie en privacy. Maar het is mogelijk om veilig meer openbaar te maken dan bedrijven vandaag de dag doen. Openbaarmaking kan op twee manieren plaatsvinden:

  1. Open source-methodologie: Wat is het aandachtig van rangschikkingswijzigingen? Welke teamdoelen en besluitvorming kunnen veilig openbaar worden gemaakt zonder de bedrijfsinnovatie te schaden?
  2. Open source-experimenten: Wat zijn de gevolgen van rangschikkingswijzigingen? Welke informatie kan worden gedeeld zodat derden, zoals auditbureaus, de effecten van ranking-experimenten kunnen onderzoeken zonder de privacy van gebruikers op te offeren? 

Openbaarmaking op zichzelf lost geen grotere problemen op het gebied van prikkels bij algoritmische rangschikking op. Maar het geeft de bredere gemeenschap een geïnformeerde basis om erover na te denken, en het richt onderzoek en aandacht op waar dit de meeste impact kan hebben.

Open source-methodologie

Het is belangrijk om te onthouden dat de grote beslissing bij de algoritmische rangschikking een netto-goede verandering is. Het aanmoedigen van open source-methodologie maakt meer inzicht mogelijk in hoe dergelijke beslissingen worden genomen en hoe platforms hun content-ecosysteem evalueren. De betrokken gegevens zouden al worden samengevat, wat zorgen over schending van de individuele privacy uitsluit. De risico's van openbaarmaking hebben dus vooral te maken met concurrentievoordeel en slechte actoren zoals spamfarms en gecoördineerde aanvallers. Om te beginnen zijn hier drie soorten informatie die dat zouden kunnen doen niet riskant zijn voor een platform om te delen:

  • Het algemene proces om te beslissen of een nieuwe rangschikkingsvariant een netto-goede verandering is.
  • Wie, als er iemand is, heeft beslissingsbevoegdheid over bredere algoritmewijzigingen.
  • Een uitleg van samenvattende statistieken die beschikbaar zijn bij de besluitvorming en geëvalueerd in experimenten.

Een hypothetische openbaarmaking met betrekking tot die informatie zou er als volgt uit kunnen zien: elk jaar stelt het managementteam van een platform doelen voor betrokkenheidsmaatregelen, plus secundaire doelen met betrekking tot de kwaliteit van de inhoud. De rankingteams die verantwoordelijk zijn voor het behalen van de doelstellingen mogen maximaal 1,000 experimenten per jaar uitvoeren, waarbij elk miljoenen gebruikers betrokken zijn. Een productmanager moet de experimenten beoordelen voordat ze beginnen, en komt één keer per week bijeen met de verantwoordelijke rankingteams om de voortdurende impact op de primaire en secundaire doelen te beoordelen, naast alle andere effecten die statistisch significant blijken, zoals verschuivingen van inhoud naar grotere accounts of de prevalentie van politiek getagde inhoud. Vervolgens ligt de uiteindelijke beslissing over het al dan niet verzenden van een experiment bij het uitvoerend team. De rankingteams meten de algehele bijdrage van algoritme-updates door één experiment uit te voeren dat alle veranderingen gedurende het jaar ‘tegenhoudt’.

De essentiële vraag bij transparantie bij experimenten is: hoe kunnen we experimentgegevens breder delen zonder de privacy op te offeren?

Dat soort openbaarmaking helpt ons het te begrijpen hoe beslissingen worden binnen een bedrijf genomen en kunnen worden gedocumenteerd in platformtransparantiecentra en jaarverslagen. Bij meer specifieke openbaarmakingen, die een nuttiger inzicht in de besluitvorming bieden, is de kans groter dat bedrijfsgeheimen worden onthuld. Dit soort openbaarmakingen omvatten meer over de aandachtig van samenvattende statistieken, zoals:

  • Welke samenvattende statistieken wenselijk zijn, welke ongewenst zijn en welke als vangrail worden gebruikt (en niet mogen veranderen).
  • Specifieke formules die worden gebruikt om te evalueren of een beslissing netto goed is.
  • Lijsten van alle experimenten met hypothesen, data en gemaakte beslissingen.

Of dit nu zo is te gedetailleerd want er is sprake van openbaarmaking debat en is afhankelijk van de specifieke omstandigheden en doelstellingen van elk product. Maar terugkerend naar het Twitter-voorbeeld en het vaak besproken ‘spam’-probleem: hier is een hypothetisch scenario dat een nuttige onthulling beschrijft: Laten we zeggen dat Twitter tien experimenten heeft uitgevoerd om de prevalentie van spam te verminderen. Elk experiment was bedoeld om te meten of het veranderen van de voorspeller van ‘klikken op een tweet’ het aantal gebruikers dat spam te zien zou krijgen, zou verminderen. In die experimenten werd een afname van het aantal spammeldingen als een wenselijk resultaat beschouwd, een afname van het aantal reacties was onwenselijk en het aantal retweets werd als vangrail gebruikt en zou naar verwachting stabiel blijven. Experimenten één tot en met vijf maakten gebruik van grotere, opnieuw getrainde modellen die voorspelden of een gebruiker ‘op een tweet zou klikken’. Experimenten zes tot en met tien lieten het model ongewijzigd, maar verminderden het gewicht van klikvoorspellingen in de uiteindelijke rangschikking. Het huidige productierangschikkingsmodel werd gebruikt als controlegroep. Alle experimentvarianten begonnen op 10 mei, betroffen experimentgroepen met elk 10 miljoen gebruikers en liepen twee weken. Experiment zeven, met een gematigde gewichtsafname, werd op 20 juni goedgekeurd door de productmanager en werd de basiservaring.

Een dergelijke onthulling zou buitenstaanders helpen beoordelen of Twitter zowel actief probeert het spamprobleem op te lossen als dit met een goede aanpak doet. Transparantie brengt het risico met zich mee dat slechte actoren informatie gebruiken om tactieken aan te passen, maar zorgt er ook voor dat rankingteams meer verantwoording afleggen aan hun gebruikers en wekt meer vertrouwen in hoe de gebruikerservaring zich ontvouwt.

Open source-experimenten

Terwijl de open-sourcemethodologie inzicht geeft in die van een rankingteam aandachtig, staat het niet toe dat externe partijen het begrijpen onbedoelde gevolgen van rangschikkingsbeslissingen. Daarvoor moeten we het open sourcen van de experimentgegevens zelf onderzoeken.

Voor het analyseren van experimenten is toegang nodig tot vertrouwelijke informatie die alleen beschikbaar is voor werknemers, zoals individuele gebruikersacties, bijvoorbeeld: "Gebruiker A heeft deze video gezien, heeft deze tien seconden bekeken en vond hem vervolgens leuk." Door samenvattende statistieken van deze informatie tussen test- en controlegroepen te vergelijken, krijgt het bedrijf inzicht in de algoritmische veranderingen die het aanbrengt. De essentiële vraag bij transparantie bij experimenten is: hoe kunnen we experimentgegevens breder delen zonder de privacy op te offeren?

De meest transparante versie van open source-experimenten houdt in dat de ruwe informatie openbaar wordt gemaakt: de actie van elke persoon in elk experiment dat ooit is uitgevoerd. Daarmee kunnen externe partijen goede, wetenschappelijke conclusies trekken over gebruikersgedrag en contentverschuivingen op sociale media. Maar dit komt neer op een naïeve doelstelling. Individuele gebruikersacties zijn gevoelig en persoonlijk onthullend, en in sommige contexten riskeren ze zelfs levens. In plaats daarvan moeten we ons concentreren op het bereiken van een niveau van transparantie waarbij geen gevoelige informatie openbaar wordt gemaakt of de toestemming schenden maar stelt andere partijen nog steeds in staat de resultaten van experimenten wetenschappelijk te bestuderen.

  • Beperk het publiek: Deel onbewerkte experimentgegevens met een kleinere vertrouwde groep buiten het bedrijf, zoals een reeks externe algoritmische auditors die mogelijk gebonden zijn aan professionele regelgeving.
  • Individuele openbaarmaking: Laat gebruikers elk experiment zien waaraan ze zijn blootgesteld.
  • Individuele aanmelding: Verminder een aantal privacyproblemen door individuen de mogelijkheid te geven hun acties bekend te maken aan specifieke groepen, bijvoorbeeld door opt-in voor gecontroleerde academische onderzoeken toe te staan ​​via in-app-mechanismen. 
  • Samenvattend: Publiceer minder gevoelige informatie door experimentgegevens in cohorten te verdelen (onthul bijvoorbeeld verschuivingen in de distributie van inhoud naar grotere accounts, video's, specifieke landen, enz.). 

Deze benaderingen bieden allemaal analyse-instrumenten aan mensen die niet op sociale platforms werken en dus niet gebonden zijn aan bedrijfsprikkels. Als we het meerjarige experiment dat ik leidde over de introductie van het ranking-algoritme van Instagram nog eens bekijken, had een frisse blik op de experimentgroep nieuwe perspectieven kunnen bieden op vragen als de vraag of ranking een filterzeepbel veroorzaakt, of de introductie van ranking een verschuiving naar meer politieke accounts veroorzaakt, en of mensen schadelijkere inhoud posten als gevolg van ranking. Zonder toegang tot gegevens zitten we allemaal vast aan onjuiste redeneringen op basis van koppen en anekdotes.

***

Ondanks de prevalentie van algoritmische rangschikkingsmodellen wordt hun innerlijke werking niet goed begrepen – en dat is ook niet het punt. Bedrijven analyseren de effecten van algoritmen door experimenten uit te voeren om te beslissen of de veranderingen die ze veroorzaken netto goed zijn voor hun inhoudecosystemen.

Tegenwoordig kunnen externe partijen, inclusief de gebruikers die dagelijks met deze producten omgaan, geen conclusies trekken over wat netto goed is, omdat experimentgegevens privé zijn en de besluitvormingsmethodologie niet openbaar wordt gemaakt. Dat hoeft niet het geval te zijn: het is mogelijk om meer van de besluitvormingsmethodologie open te stellen, terwijl het vermogen voor bedrijven om te concurreren behouden blijft. Informatie over experimenten kan zo openbaar worden gemaakt dat externe partijen conclusies kunnen trekken zonder dat dit ten koste gaat van de privacy.

Transparantie is op zichzelf een eigenschap, maar betekenisvolle transparantie is het betere doel. Laten we ons in de toekomst concentreren op het ontsluiten van experimenten, niet op algoritmen. 

Geplaatst op 24 juni 2022

Technologie, innovatie en de toekomst, verteld door degenen die eraan bouwen.

Bedankt voor het aanmelden.

Kijk in je inbox voor een welkomstbericht.

Tijdstempel:

Meer van Andreessen Horowitz