Forget “Open-Source” Algorithms — Focus On Experiments Instead

Republicat de Platon

Urmaritori: 0

În 2016, am condus o echipă mică la Instagram care a proiectat și construit unul dintre cele mai mari experimente de distribuție de conținut din istorie: introducerea unui algoritm de clasare personalizat pentru cei 500 de milioane de utilizatori ai platformei (atunci). Anticipând controverse, ne-am petrecut următorii câțiva ani măsurând științific diferențele dintre oamenii care primesc acest „algoritm de recomandare” în evoluție (cum este numit uneori) și un grup mic ales aleatoriu care primește feedul cronologic invers folosit de la începuturile Instagram.

Aceste diferențe au sugerat o experiență îmbunătățită în mod covârșitor cu noul algoritm pentru fiecare aspect al aplicației.

Deși rămân încrezător că clasarea algoritmică este cea mai bună alegere pentru platformele de social media, nu este lipsită de dezavantaje. Pentru a numi câteva: control sporit al platformei asupra distribuției de conținut, criterii de operare opace, riscuri de promovare a conținutului dăunător și frustrarea generală a utilizatorilor. Aceste dezavantaje l-au determinat recent pe potențialul viitor proprietar al Twitter, Elon Musk, să ceară „aprovizionare deschisă a algoritmului”.

În calitate de inginer, această idee sună excesiv de simplistă, având în vedere cât de puține surse deschise ne spune un model de învățare automată despre efectele sale. Dar apelul la transparență este valabil și poate începe cu dezvăluirea în experimente similare cu cel pe care l-am condus la Instagram. Transparența utilă, aș spune, constă mai degrabă în experimentarea open-source decât în algoritmi.

Nu propun ce ar trebui făcut cu informațiile care provin din experimentarea open-source; mai degrabă, acest articol este un punct de plecare pentru a gândi despre transparență în contextul sistemelor moderne de clasare. În ea, discut de ce experimentarea este atât esențială în clasamentul algoritmic, cât și o concentrare mai bună în eforturile viitoare de demistificare a distribuției de conținut pe rețelele sociale.

Algoritmii moderni acordă prioritate conținutului „cel mai interesant”.

Majoritatea platformelor sociale au mult mai mult conținut decât ar putea consuma oricine în mod rezonabil.

Instagram a fost lansat în 2010 cu un flux cronologic invers, care afișează cel mai nou conținut „conectat” (adică conținut de la persoanele pe care alegeți să le urmăriți) în partea de sus a fluxului unui utilizator. După șase ani, utilizatorul mediu vedea doar 30% din conținutul său conectat. Perioadele de atenție sunt fixe, așa că ne-am gândit că această sumă reprezenta limita firească a ceea ce dorea o persoană obișnuită să consume. Scopul introducerii clasamentului algoritmic a fost de a face din acel 30% conținutul cel mai interesant și nu cel mai recent. Alte platforme precum TikTok, YouTube și Twitter au propriile proporții (adică pun la dispoziție cantități diferite de conținut), dar abordarea de selectare a conținutului cel mai interesant având în vedere o durată fixă de atenție este aceeași.

Alegerea modului exact în care un algoritm de clasare distribuie conținutul dictează semnificația „cel mai interesant”. O opțiune este de a face lucrurile nepersonalizate - toți cei care sunt eligibili să vadă același set de conținut îl văd în aceeași ordine. Algoritmii creați pentru a afișa mai întâi conținutul cel mai apreciat sau pentru a alege cele mai frumoase fotografii sau chiar pentru a evidenția „alegerile editorului”, toate se încadrează în această categorie. Dar gustul în sine este foarte personalizat; doi utilizatori diferiți care urmăresc aceleași persoane vor prefera totuși conținut diferit. Clasamentul nepersonalizat nu reușește să surprindă „cel mai interesant” la scara de miliarde.

Algoritmii moderni de clasare, în schimb, sunt personalizați: algoritmul face selecții de conținut diferite în funcție de cine navighează. Este imposibil să citiți gândurile unui utilizator și să le cunoașteți preferințele precise, dar un model de învățare automată se poate baza pe comportamentul din trecut pentru a prezice răspunsuri la întrebări precum: „Dacă ar fi să vedeți acest conținut, care este șansa să-l doriți, comentați îl, distribuiți-l, urmăriți-l, omiteți-l sau raportați-l?”

Clasament algoritmic combină aceste predicții cu o logică de afaceri extinsă (de exemplu, diversificarea conținutului, părtinirea conținutului instigator la ură, promovarea conținutului din conturi mai puțin cunoscute) pentru a forma baza pentru a determina conținutul cel mai interesant pentru un anumit utilizator.

De ce nu funcționează algoritmul de „aprovizionare deschisă”.

Iată ce am înțeles despre ceea ce își imaginează oamenii care solicită algoritmi open-source: dacă publicăm codul sursă intern și ponderile modelelor de învățare automată implicate în clasare, atunci inginerii, analiștii și alții vor putea înțelege de ce un anumit conținut este promovat sau retrogradat. Adevărul este că chiar și transparența completă a modelelor încă ne spune puțin despre efectele acestora.

Predicțiile din modelele de învățare automată variază în funcție de utilizator, conținut și circumstanțe. Aceste variații sunt împărțite în „funcții” pe care un model de învățare automată le poate consuma pentru a face o predicție. Exemple de caracteristici includ: conținut recent consumat de un utilizator, câți prieteni ai unui utilizator le-a plăcut ceva, cât de des un utilizator s-a interacționat cu o anumită persoană în trecut și implicarea per vizionare a oamenilor din orașul utilizatorului.

Calculul din spatele „binelui net” – nu micro-detaliile unui anumit algoritm de clasare – determină dacă un experiment are succes.

Modelele moderne de clasare algoritmică iau în considerare milioane dintre aceste caracteristici pentru a scuipa fiecare predicție. Unele modele depind de numeroase submodele pentru a le ajuta; unii vor fi recalificati în timp real pentru a se adapta comportamentului în schimbare. Acești algoritmi sunt complex de înțeles, chiar și pentru inginerii care lucrează la ei.

Dimensiunea și sofisticarea acestor modele fac imposibilă înțelegerea completă a modului în care fac predicții. Au miliarde de greutăți care interacționează în moduri subtile pentru a face o predicție finală; Privindu-le este ca și cum ai spera să înțelegem psihologia examinând celulele individuale ale creierului. Chiar și în medii academice cu modele bine stabilite, știința de interpretabil modelele este încă în curs de dezvoltare. Puținele metode existente pentru a ajuta la înțelegerea lor implică seturile de date sensibile la confidențialitate utilizate în instruire. Modelele de clasare algoritmică de sursă deschisă nu ar schimba asta.

Când un experiment provoacă o schimbare „bun net”?

Inginerii ca mine măsoară capacitatea de predicție. În loc să căutăm să înțelegem funcționarea interioară a algoritmilor, experimentăm și observăm efectele acestora. Echipele de clasare (de obicei un amestec de cercetători, ingineri, manageri de produs și cercetători) ar putea avea mii de experimente simultane (teste A/B) care expun grupuri de oameni la variante ale algoritmilor de clasare și modelelor de învățare automată.

Cea mai mare întrebare care conduce un experiment este dacă o schimbare este – pentru a folosi un termen cu care am venit – „bun net” pentru ecosistem. În timpul introducerii clasamentului algoritmic pentru utilizatorii Instagram, am observat îmbunătățiri semnificative în interacțiunea cu produsul și schimbări nesemnificative în calitatea experienței raportate. După ce o echipă decide că un experiment provoacă o schimbare net-bună, așa cum am făcut noi, acesta devine experiența implicită de utilizator a platformei și modifică subtil conținutul pe care sute de milioane de oameni îl văd în fiecare zi.

Determinarea bunului net implică analizarea efectelor experimentelor prin statistici rezumative despre schimbarea comportamentului utilizatorilor și distribuția conținutului (adică, ce tipuri de conținut sunt promovate și retrogradate). De exemplu, o echipă poate analiza cât de des utilizatorii verifică o aplicație sau un conținut „apreciez”, cât timp petrec pe aplicație pe zi sau pe sesiune, cât de des cineva spune că are o experiență „5 din 5”, dacă creatorii „mici” sunt favorizați față de cei „mari”, prevalența conținutului „politic” etc. Statisticile rezumate sunt produse prin comprimarea unor cantități enorme de acțiuni individuale ale utilizatorului - esti in grupul de testare, te-ai conectat la ora 3, ai vazut videoclipul celui mai bun prieten si apoi ti-a placut, ai ratat inca o postare a unei celebritati etc.. și se numără ușor în mii. Echipele caută modificări semnificative din punct de vedere statistic în acele statistici între grupurile de testare și cele de control.

Nu este suficient să spui „toate datele cu sursă deschisă” – acesta este un coșmar de inovație și confidențialitate. Dar este posibil să dezvăluiți în siguranță mai mult decât fac companiile în prezent.

Orice echipă de clasare algoritmică care funcționează bine are o metodologie pentru a decide dacă o schimbare este bună în comparație cu o linie de bază stabilită. Metodologia poate fi codificată: Orice lucru care crește numărul de utilizatori activi este net bun. Sau ar putea fi bazat pe judecată: Dacă persoana X semnează după ce a văzut rezumatul statisticilor, este foarte bine. Sau ar putea fi contradictoriu: Dacă nicio echipă nu poate găsi o problemă, e bine. În practică, ar putea fi un amestec de toate.

Calculul din spatele bunului net - nu micro-detaliile unui anumit algoritm de clasare - determină dacă un experiment are succes. Experimentele ghidează succesul ierarhării echipelor într-o companie. Și succesul echipelor de clasare ghidează modul în care conținutul este distribuit pentru toți utilizatorii platformei.

Întrucât bunul net este o denumire atât de puternică, este logic să apelăm la surse deschise în experimente.

Ce înseamnă open source pentru experimente

Problema cu sistemul nostru actual este că oamenii care execută experimente sunt singurii care le pot studia. Deși există motive întemeiate pentru aceasta, persoanele care efectuează modificări în clasament nu sunt neapărat motivate să găsească anumite tipuri de probleme așa cum ar putea fi comunitatea mai largă. (Într-adevăr, acesta este ceva la care mișcarea open-source în software a fost bună din trecut - și anume, bazându-se pe o comunitate de ingineri pentru a identifica problemele și pentru a contribui la îmbunătățiri, pe lângă dezvoltatorii de bază care lucrează la proiect.) Prin furnizarea comunității cu mai multă transparență cu privire la experimente, echipele responsabile cu acestea pot stabili cele mai bune practici pentru luarea deciziilor și pot dezvălui efectele experimentelor dincolo de ceea ce echipa studiază.

În deschiderea experimentelor de aprovizionare, trebuie să echilibrăm două interese concurente: păstrarea suficientă a informațiilor de proprietate pentru a permite companiilor să inoveze, în timp ce dezvăluim suficient pentru a permite înțelegerea externă. Nu este suficient să spui „toate datele cu sursă deschisă” – acesta este un coșmar de inovație și confidențialitate. Dar este posibil să dezvăluiți în siguranță mai mult decât fac companiile în prezent. Dezvăluirile pot avea loc în două moduri:

Metodologie open-source: Care este scop de modificări de clasament? Ce obiective ale echipei și ce luare a deciziilor pot fi dezvăluite în siguranță fără a afecta inovația companiei?
Experimentare open-source: Care sunt consecințe de modificări de clasament? Ce informații pot fi partajate pentru a permite terților, cum ar fi agențiile de audit, să examineze efectele experimentelor de clasare fără a sacrifica confidențialitatea utilizatorilor?

Dezvăluirea în sine nu rezolvă probleme mai mari de stimulente în clasamentul algoritmic. Dar oferă comunității mai largi o bază informată pentru a se gândi la ele și concentrează cercetarea și atenția asupra locurilor în care poate avea cel mai mare impact.

Metodologie open-source

Este important să ne amintim că marea decizie în clasamentul algoritmic este ceea ce constituie o schimbare net-bună. Încurajarea metodologiei open-source permite o mai bună perspectivă asupra modului în care sunt luate astfel de decizii și asupra modului în care platformele își evaluează ecosistemul de conținut. Datele implicate ar fi deja rezumate, ceea ce exclude preocupările privind încălcarea confidențialității individuale. Riscurile dezvăluirii, prin urmare, se referă în primul rând la avantajul competitiv și la actori negativi, cum ar fi fermele de spam și atacatorii coordonați. Pentru început, iată trei tipuri de informații care ar fi nu fi riscant pentru o platformă de partajat:

Procesul general pentru a decide dacă o nouă variantă de clasare este o schimbare net-bună.
Cine, dacă este cineva, are putere de decizie cu privire la modificările mai ample ale algoritmului.
O explicație a statisticilor rezumative disponibile în procesul decizional și evaluate în experimente.

O dezvăluire ipotetică care implică acele informații ar putea arăta astfel: în fiecare an, echipa executivă a unei platforme stabilește ținte pentru măsurile de implicare, plus ținte secundare legate de calitatea conținutului. Echipele de clasare responsabile cu atingerea țintelor au voie să desfășoare până la 1,000 de experimente pe an, fiecare implicând milioane de utilizatori. Un manager de produs trebuie să revizuiască experimentele înainte de a începe și se întâlnește o dată pe săptămână cu echipele responsabile de clasare pentru a analiza impactul în curs asupra țintelor primare și secundare, printre orice alte efecte care apar ca fiind semnificative din punct de vedere statistic, cum ar fi trecerea conținutului la conturi mai mari sau prevalența conținutului etichetat politic. Apoi, decizia finală cu privire la expedierea sau nu a unui experiment revine echipei executive. Echipele de clasare măsoară contribuția generală a actualizărilor algoritmilor prin realizarea unui experiment care „reține” toate schimbările de-a lungul anului.

Întrebarea esențială în transparența experimentelor este: Cum putem partaja datele experimentului pe o scară mai largă, fără a sacrifica confidențialitatea?

Acest tip de dezvăluire ne ajută să înțelegem cum deciziile sunt luate la o companie și ar putea fi documentate în centrele de transparență ale platformei și rapoartele anuale. Dezvăluirile mai specifice, care oferă o perspectivă mai utilă asupra procesului decizional, au, de asemenea, mai multe șanse de a risca divulgarea secretelor companiei. Aceste tipuri de dezvăluiri ar include mai multe despre scop de statistici rezumative, cum ar fi:

Ce statistici rezumative sunt de dorit, care sunt nedorite și care sunt folosite ca balustrade (și nu ar trebui să se schimbe).
Formule specifice utilizate pentru a evalua dacă o decizie este un bun net.
Liste cu toate experimentele cu ipoteze, date și decizii luate.

Fie că acesta este prea detaliat pentru o dezvăluire este pentru dezbatere și depinde de circumstanțele și obiectivele particulare pentru fiecare produs. Dar, revenind la exemplul Twitter și la problema de „spam” des discutată, iată un scenariu ipotetic care descrie o dezvăluire utilă: Să presupunem că Twitter a efectuat 10 experimente care vizează scăderea prevalenței spam-ului. Fiecare experiment a fost menit să măsoare dacă schimbarea predictorului de „clic pe un tweet” ar reduce numărul de utilizatori care văd spam. În acele experimente, scăderea rapoartelor de spam a fost considerată un rezultat dezirabil, scăderea răspunsurilor a fost nedorită, iar numărul de retweet-uri a fost folosit ca apărare și era de așteptat să rămână stabil. Experimentele de la unu la cinci au folosit modele mai mari, reinstruite, care preziceau dacă un utilizator va „face clic pe un tweet”. Experimentele șase până la 10 au lăsat modelul neschimbat, dar au scăzut ponderea predicțiilor clicurilor în clasarea finală. Modelul actual de clasare a producției a fost utilizat ca grup de control. Toate variantele de experiment au început pe 20 mai, au implicat grupuri de experiment cu câte 5 milioane de utilizatori fiecare și au funcționat timp de două săptămâni. Experimentul șapte, cu o scădere moderată a greutății, a fost aprobat de managerul de produs pe 10 iunie și a devenit experiența de bază.

O astfel de dezvăluire i-ar ajuta pe cei din afară să evalueze dacă Twitter încearcă în mod activ să rezolve problema spam-ului și face acest lucru cu o abordare solidă. Transparența creează riscul ca actorii răi să folosească informațiile pentru a ajusta tacticile, dar, de asemenea, ține echipele de clasare mai responsabile față de utilizatorii lor. și inspiră mai multă încredere în modul în care se desfășoară experiența utilizatorului.

Experimentare open-source

În timp ce metodologia open-source oferă o perspectivă asupra echipelor de clasare scop, nu permite părților externe să înțeleagă consecințe neintenționate a deciziilor de clasare. Pentru aceasta, ar trebui să examinăm datele din experiment în sine.

Analiza experimentelor necesită acces la informații confidențiale care sunt disponibile numai pentru angajați, cum ar fi acțiuni individuale ale utilizatorului, de exemplu, „Utilizatorul A a văzut acest videoclip, l-a vizionat timp de 10 secunde și apoi i-a plăcut”. Compararea statisticilor rezumate ale acestor informații între grupurile de testare și cele de control permite companiei să înțeleagă modificările algoritmice pe care le face. Întrebarea esențială în transparența experimentelor este: Cum putem partaja datele experimentului pe o scară mai largă, fără a sacrifica confidențialitatea?

Cea mai transparentă versiune a experimentelor open-source presupune dezvăluirea informațiilor brute - acțiunea fiecărei persoane în fiecare experiment desfășurat vreodată. Astfel, părțile externe ar putea trage concluzii adecvate, științifice, despre comportamentul utilizatorilor și schimbările de conținut în rețelele sociale. Dar asta echivalează cu un obiectiv naiv. Acțiunile individuale ale utilizatorilor sunt sensibile și revelatoare personal, iar în unele contexte riscă chiar vieți. Ar trebui să ne concentrăm în schimb pe atingerea unui nivel de transparență care să nu dezvăluie informații sensibile sau încălca consimțământul dar permite totuși altor părți să studieze rezultatele experimentelor în mod științific.

Limitați audiența: Partajați date brute ale experimentului unui grup mai mic de încredere din afara companiei, cum ar fi un set de auditori algoritmici terți care ar putea fi supuși reglementărilor profesionale.
Dezvăluirea individuală: Permiteți utilizatorilor să vadă fiecare experiment la care au fost expuși.
Înscriere individuală: atenuează unele preocupări legate de confidențialitate, permițând persoanelor să aleagă să dezvăluie acțiunile lor unor grupuri specifice, cum ar fi permițând înscrierea la studiile academice monitorizate prin mecanisme în aplicație.
Rezumare: publicați informații mai puțin sensibile prin gruparea datelor experimentului în cohorte (de exemplu, dezvăluiți schimbări în distribuția de conținut către conturi mai mari, videoclipuri, anumite țări etc.).

Toate aceste abordări oferă instrumentele de analiză persoanelor care nu lucrează pe platformele sociale și, prin urmare, nu sunt supuse stimulentelor companiei. Dacă revedem experimentul multianual pe care l-am condus cu introducerea algoritmului de clasare al Instagram, a avea ochi noi asupra grupului de experiment ar fi putut aduce noi perspective asupra preocupărilor, cum ar fi dacă clasamentul cauzează o bula de filtrare, dacă introducerea clasamentului cauzează o schimbare către conturi mai politice, și dacă oamenii postează conținut mai dăunător ca urmare a clasamentului. Fără acces la date, suntem cu toții blocați cu raționament incorect bazat pe titluri și anecdote.

***

În ciuda prevalenței modelelor de clasare algoritmică, funcționarea lor interioară nu este bine înțeleasă - și nici acesta nu este ideea. Companiile analizează efectele algoritmilor derulând experimente pentru a decide dacă schimbările pe care le provoacă sunt net bune pentru ecosistemele lor de conținut.

Astăzi, părțile externe, inclusiv utilizatorii care se angajează zilnic cu aceste produse, nu au cum să tragă concluzii despre ceea ce este net bun, deoarece datele experimentului sunt private și metodologia de luare a deciziilor nu este dezvăluită. Nu trebuie să fie cazul: este posibil să deschideți mai mult din metodologia de luare a deciziilor, păstrând în același timp capacitatea companiilor de a concura. Informațiile despre experimente pot fi dezvăluite într-un mod care să permită părților externe să tragă concluzii fără a sacrifica confidențialitatea.

Transparența este în sine un atribut, dar transparența semnificativă este scopul mai bun. În continuare, să ne concentrăm pe deschiderea experimentelor, nu a algoritmilor.

Postat pe 24 iunie 2022

Tehnologie, inovație și viitor, așa cum au spus cei care o construiesc.

Vă mulțumim pentru înscriere.

Verificați-vă căsuța de e-mail pentru o notă de bun venit.

Opiniile exprimate în „postări” (inclusiv articole, podcasturi, videoclipuri și rețele sociale) sunt cele ale persoanelor citate în acestea și nu sunt neapărat opiniile AH Capital Management, LLC („a16z”) sau ale afiliaților săi respectivi. Anumite informații conținute aici au fost obținute din surse terțe, inclusiv de la companii de portofoliu de fonduri administrate de a16z. Deși este luat din surse considerate a fi de încredere, a16z nu a verificat în mod independent astfel de informații și nu face nicio declarație cu privire la acuratețea durabilă a informațiilor sau adecvarea lor pentru o anumită situație.

Acest conținut este furnizat doar în scop informativ și nu ar trebui să fie bazat pe consiliere juridică, de afaceri, de investiții sau fiscală. Ar trebui să vă consultați propriii consilieri cu privire la aceste aspecte. Referințele la orice titluri de valoare sau active digitale au doar scop ilustrativ și nu constituie o recomandare de investiții sau o ofertă de a oferi servicii de consiliere în materie de investiții. În plus, acest conținut nu este direcționat și nici nu este destinat utilizării de către niciun investitor sau potențial investitor și nu poate fi bazat în nicio circumstanță atunci când se ia o decizie de a investi într-un fond administrat de a16z. (Ofertă de a investi într-un fond a16z va fi făcută numai prin memoriul de plasament privat, acordul de subscriere și alte documente relevante ale oricărui astfel de fond și trebuie citită în întregime.) Orice investiții sau companii de portofoliu menționate, la care se face referire sau descrise nu sunt reprezentative pentru toate investițiile în vehicule administrate de a16z și nu poate exista nicio asigurare că investițiile vor fi profitabile sau că alte investiții realizate în viitor vor avea caracteristici sau rezultate similare. O listă a investițiilor realizate de fondurile gestionate de Andreessen Horowitz (excluzând investițiile pentru care emitentul nu a oferit permisiunea ca a16z să dezvăluie public, precum și investițiile neanunțate în active digitale tranzacționate public) este disponibilă la adresa https://a16z.com/investments/.

Diagramele și graficele furnizate în cadrul sunt doar în scop informativ și nu trebuie să se bazeze pe acestea atunci când se ia vreo decizie de investiție. Performanța trecută nu indică rezultatele viitoare. Conținutul vorbește doar de la data indicată. Orice previziuni, estimări, prognoze, obiective, perspective și/sau opinii exprimate în aceste materiale pot fi modificate fără notificare și pot diferi sau pot fi contrare opiniilor exprimate de alții. Te rog vezi https://a16z.com/disclosures pentru informații suplimentare importante.

Timestamp-ul: 24 Iunie, 2022Iulie 15, 2022

Mai mult de la Andreessen Horowitz

Testare simbolică cu Halmos: Utilizarea testelor existente pentru verificarea formală

Cluster sursă:

Andreessen Horowitz

Nodul sursă: 1798744

Timestamp-ul: Februarie 2, 2023

Investind în MotherDuck

Andreessen Horowitz

Nodul sursă: 1720599

Timestamp-ul: Octombrie 9, 2022

Republicat de Platon

Vă mulțumim pentru înscriere.

Investind în MotherDuck

LATW 2022: Construirea piețelor comunitare

SBC 22: Note de teren din Science of Blockchain 2022

Pregătește-te pentru a te muta la un nivel superior

Ce înseamnă fuziunea pentru Ethereum, cu Danny Ryan

Jocuri Azra

Noua economie a învățării: este timpul să construim în educație

SPEEDRUN Startup-ul tău de jocuri

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont