Zapomnij o algorytmach „Open-Source” — skup się na eksperymentach zamiast PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zapomnij o algorytmach „open-source” — zamiast tego skup się na eksperymentach

W 2016 roku kierowałem małym zespołem na Instagramie, który zaprojektował i zbudował jeden z największych eksperymentów z dystrybucją treści w historii: wprowadzenie spersonalizowanego algorytmu rankingowego do (wówczas) 500 milionów użytkowników platformy. Przewidując kontrowersje, spędziliśmy kilka następnych lat, naukowo mierząc różnice między ludźmi otrzymującymi ten ewoluujący „algorytm rekomendacji” (jak to się czasem nazywa) a małą, losowo wybraną grupą otrzymującą odwrotną chronologię kanał stosowany od początku istnienia Instagrama. 

Te różnice sugerowały zdecydowanie lepsze wrażenia z nowego algorytmu dla każdego aspektu aplikacji.

Chociaż jestem przekonany, że ranking algorytmiczny jest najlepszym wyborem dla platform społecznościowych, nie jest on pozbawiony wad. Aby wymienić tylko kilka: zwiększona kontrola platformy nad dystrybucją treści, nieprzejrzyste kryteria operacyjne, ryzyko promowania szkodliwych treści i ogólna frustracja użytkowników. Te wady ostatnio skłoniły potencjalnego przyszłego właściciela Twittera, Elona Muska, do wezwania do „otwartego pozyskiwania algorytmu”.

Jako inżynierowi pomysł ten brzmi zbyt uproszczony, biorąc pod uwagę, jak niewiele modelu uczenia maszynowego mówi nam o jego skutkach. Ale wezwanie do przejrzystości jest słuszne i może zacząć się od ujawnienia w eksperymentach podobnych do tego, który przeprowadziłem na Instagramie. Twierdzę, że użyteczna przejrzystość leży w eksperymentach na otwartym kodzie źródłowym, a nie w algorytmach. 

Nie proponuję, co należy zrobić z informacjami pochodzącymi z eksperymentów na otwartym kodzie; Ten artykuł jest raczej punktem wyjścia do myślenia o przejrzystości w kontekście nowoczesnych systemów rankingowych. W nim omawiam, dlaczego eksperymentowanie jest zarówno niezbędne w rankingu algorytmicznym, jak i lepsze skupienie się na przyszłych wysiłkach zmierzających do demistyfikacji dystrybucji treści w mediach społecznościowych. 

Nowoczesne algorytmy traktują priorytetowo „najciekawsze” treści

Większość platform społecznościowych zawiera znacznie więcej treści, niż ktokolwiek mógłby rozsądnie konsumować.

Instagram wystartował w 2010 roku z kanałem z odwróconą chronologią, który wyświetla najnowsze „połączone” treści (czyli treści od osób, które zdecydujesz się obserwować) na górze kanału użytkownika. Po sześciu latach przeciętny użytkownik widział tylko 30% swoich treści online. Rozpiętość uwagi jest stała, więc uznaliśmy, że ta ilość stanowi naturalną granicę tego, co przeciętny człowiek chciałby konsumować. Celem wprowadzenia rankingu algorytmicznego było uczynienie z tych 30% najbardziej interesujących treści, a nie najnowszych. Inne platformy, takie jak TikTok, YouTube i Twitter, mają swoje własne proporcje (tj. udostępniają różne ilości treści), ale podejście do wybierania najciekawszych treści przy stałym skupieniu uwagi jest takie samo.

Wybór dokładnego sposobu dystrybucji treści przez algorytm rankingowy dyktuje znaczenie „najbardziej interesującego”. Jedną z opcji jest uczynienie rzeczy niespersonalizowanymi — każdy, kto jest uprawniony do oglądania tego samego zestawu treści, widzi go w tej samej kolejności. Do tej kategorii należą algorytmy zbudowane w celu pokazania najpierw najbardziej lubianych treści lub wybrania najpiękniejszych zdjęć, a nawet wyróżnienia „wyborów redaktora”. Ale sam smak jest bardzo spersonalizowany; Dwóch różnych użytkowników, którzy obserwują te same osoby, będzie jednak preferować różne treści. Niespersonalizowany ranking nie jest w stanie uchwycić „najciekawszych” w skali miliardów. 

Z kolei nowoczesne algorytmy rankingowe są spersonalizowane: algorytm dokonuje różnych wyborów treści w zależności od tego, kto przegląda. Nie da się czytać w myślach użytkownika i poznać jego dokładnych preferencji, ale model uczenia maszynowego może opierać się na wcześniejszych zachowaniach, aby przewidzieć odpowiedzi na pytania typu: „Gdybyś zobaczył tę treść, jaka jest szansa, że ​​ci się spodoba, skomentuj udostępnij, obejrzyj, pomiń czy zgłoś?”

Ranking algorytmiczny łączy te przewidywania z rozbudowaną logiką biznesową (np. dywersyfikacja treści, nastawienie na treści nienawistne, promowanie treści z mniej znanych kont), aby stworzyć podstawę do określenia najbardziej interesującej treści dla danego użytkownika. 

Dlaczego algorytm „open sourcing” nie działa

Oto moje zrozumienie tego, co wyobrażają sobie ludzie wzywający do algorytmów open source: jeśli opublikujemy wewnętrzny kod źródłowy i wagi modeli uczenia maszynowego biorących udział w rankingu, inżynierowie, analitycy i inne osoby będą w stanie zrozumieć, dlaczego określone treści są promowane lub zdegradowany. Prawda jest taka, że ​​nawet całkowita przejrzystość modeli nadal niewiele nam mówi o ich skutkach.

Prognozy z modeli uczenia maszynowego różnią się w zależności od użytkownika, treści i okoliczności. Te różnice są podzielone na „funkcje”, które model uczenia maszynowego może wykorzystać w celu dokonania prognozy. Przykładowe funkcje obejmują: ostatnio oglądane treści przez użytkownika, liczbę znajomych użytkownika, którzy coś polubili, jak często użytkownik kontaktował się z określoną osobą w przeszłości oraz zaangażowanie na wyświetlenie osób w mieście użytkownika.

Rachunek za „dobrem netto” — a nie mikroszczegóły konkretnego algorytmu rankingowego — określa, czy eksperyment się powiódł.

Uwzględniają nowoczesne algorytmiczne modele rankingowe miliony tych funkcji, aby wypluć każdą prognozę. Niektóre modele zależą od wielu podmodeli, aby im pomóc; niektórzy zostaną przeszkoleni w czasie rzeczywistym, aby dostosować się do zmieniającego się zachowania. Te algorytmy są skomplikowane, aby mieć sens, nawet dla inżynierów pracujących nad nimi.

Rozmiar i zaawansowanie tych modeli uniemożliwia pełne zrozumienie, w jaki sposób dokonują prognoz. Mają miliardy wag, które oddziałują w subtelny sposób, aby dokonać ostatecznej prognozy; patrzenie na nie jest jak nadzieja na zrozumienie psychologii poprzez badanie poszczególnych komórek mózgowych. Nawet w środowisku akademickim z dobrze ugruntowanymi modelami, nauka interpretowalne modele wciąż powstają. Kilka istniejących metod pomagających je zrozumieć obejmuje zbiory danych wrażliwych na prywatność wykorzystywane w szkoleniach. Algorytmiczne modele rankingowe typu open sourcing nie zmieniłyby tego.

Kiedy eksperyment powoduje zmianę „dobra netto”?

Inżynierowie tacy jak ja mierzą zdolność przewidywania. Zamiast starać się zrozumieć wewnętrzne działanie algorytmów, eksperymentujemy i obserwujemy ich efekty. Zespoły rankingowe (zazwyczaj połączenie naukowców zajmujących się danymi, inżynierów, menedżerów produktu i badaczy) mogą mieć tysiące jednoczesnych eksperymentów (testów A/B), z których każdy wystawia grupy ludzi na warianty algorytmów rankingowych i modeli uczenia maszynowego.

Najważniejszym pytaniem prowadzącym do eksperymentu jest to, czy zmiana jest – używając terminu, który wymyśliłem – „dobrem netto” dla ekosystemu. Podczas wprowadzania rankingu algorytmicznego do użytkowników Instagrama zaobserwowaliśmy znaczną poprawę interakcji z produktami oraz nieznaczne zmiany w raportowanej jakości doświadczenia. Gdy zespół zdecyduje, że eksperyment przyniesie korzyści netto, tak jak to zrobiliśmy, staje się on domyślnym doświadczeniem użytkownika platformy i subtelnie zmienia treść, którą codziennie oglądają setki milionów ludzi.

Określanie dobra netto wiąże się z analizą efektów eksperymentów poprzez zbiorcze statystyki dotyczące zmiany zachowań użytkowników i dystrybucji treści (tj. jakie rodzaje treści są promowane i degradowane). Na przykład zespół może sprawdzić, jak często użytkownicy sprawdzają aplikację lub „lubią” treści, ile czasu spędzają w aplikacji dziennie lub na sesję, jak często ktoś twierdzi, że ma doświadczenie „5 z 5”, czy „mali” twórcy są faworyzowani nad „dużymi”, przewaga treści „politycznych” i tak dalej. Statystyki podsumowujące są tworzone przez przetwarzanie ogromnych ilości indywidualnych działań użytkownika — jesteś w grupie testowej, zalogowałeś się o 3:XNUMX, zobaczyłeś wideo swojego najlepszego przyjaciela, a potem je polubiłeś, przegapiłeś kolejny post celebryty itp.. i łatwo policzyć w tysiącach. Zespoły szukają statystycznie istotnych zmian w tych statystykach między grupami testowymi i kontrolnymi.

Nie wystarczy powiedzieć „udostępniaj wszystkie dane” — to koszmar innowacji i prywatności. Ale można bezpiecznie ujawnić więcej niż robią to dziś firmy.

Każdy dobrze funkcjonujący zespół ds. rankingu algorytmicznego dysponuje metodologią decydowania, czy zmiana jest dobra netto w porównaniu z ustaloną linią odniesienia. Metodologia może być skodyfikowana: Wszystko, co zwiększa liczbę aktywnych użytkowników, jest dobrem netto. Lub może to być oparte na osądzie: Jeśli osoba X podpisze się po obejrzeniu statystyk podsumowujących, jest to dobre netto. Lub może to być kontradyktor: Jeśli żaden zespół nie może znaleźć problemu, jest to dobre netto. W praktyce może to być mieszanka wszystkiego. 

Rachunek kryjący się za dobrem netto — a nie mikroszczegóły konkretnego algorytmu rankingowego — określa, czy eksperyment się powiódł. Eksperymenty kierują sukcesem rankingu zespołów w firmie. A sukces zespołów rankingowych określa sposób dystrybucji treści dla wszystkich użytkowników platformy.

Ponieważ dobro netto jest tak potężnym wyznacznikiem, sensowne jest wzywanie do otwartego pozyskiwania w eksperymentach.

Co oznacza open source dla eksperymentów

Problem z naszym obecnym systemem polega na tym, że ludzie przeprowadzający eksperymenty są jedynymi, którzy mogą je badać. Chociaż istnieją ku temu dobre powody, osoby wprowadzające zmiany w rankingu niekoniecznie są zachęcane do znajdowania pewnych rodzajów problemów w sposób, w jaki może wyglądać szersza społeczność. (Rzeczywiście, jest to coś, w czym ruch open-source w dziedzinie oprogramowania był historycznie dobry — tj. poleganie na społeczności inżynierów, aby wykryć problemy i wnieść ulepszenia, oprócz głównych programistów pracujących nad projektem). dzięki większej przejrzystości eksperymentów zespoły odpowiedzialne za nie mogą ustalić najlepsze praktyki podejmowania decyzji i ujawnić efekty eksperymentów wykraczające poza to, co zespół bada. 

Rozpoczynając eksperymenty związane z sourcingiem, musimy zrównoważyć dwa sprzeczne interesy: przechowywanie wystarczającej ilości zastrzeżonych informacji, aby umożliwić firmom wprowadzanie innowacji, jednocześnie ujawniając wystarczająco dużo, aby umożliwić zrozumienie z zewnątrz. Nie wystarczy powiedzieć „otwórz wszystkie dane” — to koszmar innowacji i prywatności. Ale można bezpiecznie ujawnić więcej niż robią to dziś firmy. Ujawnienia mogą odbywać się na dwa sposoby:

  1. Metodologia open source: Co to jest zamiar zmian w rankingu? Jakie cele zespołu i sposób podejmowania decyzji można bezpiecznie ujawnić bez szkody dla innowacyjności firmy?
  2. Eksperymenty z otwartym kodem źródłowym: Jakie są konsekwencje zmian w rankingu? Jakie informacje można udostępniać, aby umożliwić stronom trzecim, takim jak agencje audytowe, zbadanie skutków eksperymentów z rankingiem bez poświęcania prywatności użytkowników? 

Samo ujawnienie nie rozwiązuje większych kwestii zachęt w rankingu algorytmicznym. Daje jednak szerszej społeczności świadomą podstawę do myślenia o nich i koncentruje badania i uwagę na tym, gdzie może to mieć największy wpływ.

Metodologia open source

Należy pamiętać, że ważną decyzją w rankingu algorytmicznym jest to, co stanowi dobrą zmianę netto. Zachęcanie do korzystania z metodologii open source pozwala na lepszy wgląd w sposób podejmowania takich decyzji i ocenę ekosystemu treści przez platformy. Odnośne dane zostałyby już podsumowane, co wyklucza obawy o naruszenie prywatności jednostki. Ryzyko ujawnienia dotyczy zatem przede wszystkim przewagi konkurencyjnej i złych podmiotów, takich jak farmy spamowe i skoordynowani napastnicy. Na początek oto trzy rodzaje informacji, które: nie ryzykuj, aby platforma udostępniała:

  • Ogólny proces decydowania, czy nowy wariant rankingu jest zmianą korzystną netto.
  • Kto, jeśli ktokolwiek, ma uprawnienia do podejmowania decyzji o szerszych zmianach algorytmu.
  • Wyjaśnienie statystyk podsumowujących dostępnych podczas podejmowania decyzji i ocenianych w eksperymentach.

Hipotetyczne ujawnienie zawierające te informacje może wyglądać tak: Każdego roku zespół wykonawczy platformy ustala cele dotyczące mierników zaangażowania oraz cele drugorzędne związane z jakością treści. Zespoły rankingowe odpowiedzialne za osiąganie celów mogą przeprowadzać do 1,000 eksperymentów rocznie, z których każdy obejmuje miliony użytkowników. Menedżer produktu musi przejrzeć eksperymenty przed ich rozpoczęciem i spotyka się raz w tygodniu z odpowiedzialnymi zespołami zajmującymi się rankingiem, aby sprawdzić bieżący wpływ na cele główne i drugorzędne, a także wszelkie inne efekty, które pojawiają się jako statystycznie istotne, takie jak przesunięcia treści do większe konta lub rozpowszechnienie treści oznaczonych politycznie. Następnie ostateczna decyzja, czy wysłać eksperyment, należy do zespołu wykonawczego. Zespoły rankingowe mierzą ogólny wkład aktualizacji algorytmów, przeprowadzając jeden eksperyment, który „wstrzymuje” wszystkie zmiany w ciągu roku.

Podstawowe pytanie dotyczące przejrzystości eksperymentów brzmi: jak możemy szerzej udostępniać dane eksperymentalne bez poświęcania prywatności?

Ten rodzaj ujawnienia pomaga nam zrozumieć w jaki sposób decyzje są podejmowane w firmie i mogą być dokumentowane w centrach przejrzystości platformy i raportach rocznych. Bardziej szczegółowe ujawnienia, które oferują bardziej przydatny wgląd w proces podejmowania decyzji, również niosą ze sobą większe ryzyko ujawnienia tajemnic firmy. Tego rodzaju ujawnienia zawierałyby więcej informacji na temat zamiar statystyk podsumowujących, takich jak:

  • Które statystyki podsumowujące są pożądane, które są niepożądane i które są używane jako barierki (i nie powinny się zmieniać).
  • Konkretne formuły używane do oceny, czy decyzja jest dobrem netto.
  • Listy wszystkich eksperymentów z hipotezami, datami i podjętymi decyzjami.

Czy to jest zbyt szczegółowe o ujawnienie jest gotowe debaty i zależy od konkretnych okoliczności i celów dla każdego produktu. Ale wracając do przykładu z Twittera i często omawianego problemu „spamu”, oto hipotetyczny scenariusz opisujący przydatne ujawnienie: Załóżmy, że Twitter przeprowadził 10 eksperymentów, których celem było zmniejszenie rozpowszechnienia spamu. Każdy eksperyment miał na celu zmierzenie, czy zmiana predyktora „kliknięcie w tweeta” zmniejszyłaby liczbę użytkowników, którzy widzieli spam. W tych eksperymentach zmniejszenie liczby zgłoszeń spamu uznano za pożądany wynik, zmniejszenie liczby odpowiedzi było niepożądane, a liczba retweetów była wykorzystywana jako bariera i oczekiwano, że pozostanie stabilna. Eksperymenty od jednego do pięciu wykorzystywały większe, przeszkolone modele przewidujące, czy użytkownik „kliknie w tweeta”. Eksperymenty od 10 do 20 pozostawiły model bez zmian, ale zmniejszyły wagę przewidywanych kliknięć w ostatecznym rankingu. Jako grupę kontrolną zastosowano obecny model rankingu produkcji. Wszystkie warianty eksperymentu rozpoczęły się 5 maja, obejmowały grupy eksperymentalne z 10 milionami użytkowników każda i trwały dwa tygodnie. Eksperyment siódmy, z umiarkowanym spadkiem wagi, został zatwierdzony przez kierownika produktu XNUMX czerwca i stał się podstawowym doświadczeniem.

Takie ujawnienie pomogłoby osobom z zewnątrz ocenić, czy Twitter zarówno aktywnie próbuje rozwiązać problem ze spamem, jak i robi to z rozsądnym podejściem. Przejrzystość stwarza ryzyko, że źli aktorzy wykorzystają informacje do dostosowania taktyki, ale także sprawia, że ​​zespoły rankingowe są bardziej odpowiedzialne przed swoimi użytkownikami i wzbudza większe zaufanie do tego, jak rozwija się doświadczenie użytkownika.

Eksperymenty z otwartym kodem źródłowym

Podczas gdy metodologia open-source daje wgląd w zespół rankingowy zamiar, nie pozwala podmiotom zewnętrznym na zrozumienie niezamierzone konsekwencje decyzji rankingowych. W tym celu powinniśmy zbadać otwarte pozyskiwanie samych danych eksperymentu.

Analizowanie eksperymentów wymaga dostępu do poufnych informacji, które są dostępne tylko dla pracowników, takich jak poszczególne działania użytkownika, np. „Użytkownik A zobaczył ten film, obejrzał go przez 10 sekund, a potem go polubił”. Porównanie statystyk podsumowujących tych informacji między grupami testowymi i kontrolnymi pozwala firmie zrozumieć wprowadzane przez nią zmiany algorytmiczne. Podstawowe pytanie dotyczące przejrzystości eksperymentów brzmi: jak możemy szerzej udostępniać dane eksperymentalne bez poświęcania prywatności?

Najbardziej przejrzysta wersja eksperymentów z otwartym kodem źródłowym obejmuje ujawnianie surowych informacji — działań każdej osoby w każdym przeprowadzonym eksperymencie. Dzięki temu podmioty zewnętrzne mogą wyciągnąć właściwe, naukowe wnioski na temat zachowań użytkowników i zmian treści w mediach społecznościowych. Ale to sprowadza się do naiwnego celu. Działania poszczególnych użytkowników są wrażliwe i ujawniają osobiście, aw niektórych kontekstach nawet ryzykują życie. Zamiast tego powinniśmy skupić się na osiągnięciu poziomu przejrzystości, który nie ujawnia poufnych informacji lub naruszać zgodę ale nadal umożliwia innym stronom naukowe badanie wyników eksperymentów.

  • Ogranicz publiczność: udostępnianie nieprzetworzonych danych eksperymentu mniejszej zaufanej grupie spoza firmy, takiej jak grupa zewnętrznych audytorów algorytmicznych, którzy mogą podlegać profesjonalnym przepisom.
  • Indywidualne ujawnienie: Pozwól użytkownikom zobaczyć każdy eksperyment, z którym mieli do czynienia.
  • Indywidualna zgoda: złagodzić niektóre obawy dotyczące prywatności, umożliwiając osobom indywidualnym ujawnienie swoich działań określonym grupom, na przykład poprzez umożliwienie włączenia się do monitorowanych badań akademickich za pośrednictwem mechanizmów w aplikacji. 
  • Podsumowanie: publikuj mniej poufne informacje, grupując dane eksperymentu w kohortach (np. ujawniaj zmiany w dystrybucji treści w kierunku większych kont, filmów, określonych krajów itp.). 

Wszystkie te podejścia dają narzędzia do analizy osobom, które nie pracują na platformach społecznościowych, a zatem nie są związani zachętami firmowymi. Jeśli ponownie przyjrzymy się wieloletniemu eksperymentowi, który prowadziłem, wprowadzając algorytm rankingowy na Instagramie, świeże spojrzenie na grupę eksperymentalną mogłoby rzucić nowe spojrzenie na kwestie, takie jak to, czy ranking powoduje bańkę filtrującą, czy wprowadzenie rankingu powoduje przesunięcie w kierunku bardziej politycznych kont, i czy ludzie publikują bardziej szkodliwe treści w wyniku rankingu. Bez dostępu do danych wszyscy utknęliśmy z nieprawidłowym rozumowaniem opartym na nagłówkach i anegdotach.

***

Pomimo rozpowszechnienia algorytmicznych modeli rankingowych, ich wewnętrzne działanie nie jest dobrze rozumiane — i nie o to chodzi. Firmy analizują skutki algorytmów, przeprowadzając eksperymenty, aby zdecydować, czy zmiany, które powodują, są korzystne dla ich ekosystemów treści.

Obecnie podmioty zewnętrzne, w tym użytkownicy, którzy na co dzień angażują się w te produkty, nie mają możliwości wyciągania wniosków na temat tego, co jest dobrem netto, ponieważ dane eksperymentalne są prywatne, a metodologia podejmowania decyzji nie jest ujawniana. Nie musi tak być: można otworzyć więcej metodologii podejmowania decyzji, zachowując jednocześnie zdolność firm do konkurowania. Informacje o eksperymentach mogą być ujawniane w sposób umożliwiający zewnętrznym podmiotom wyciąganie wniosków bez poświęcania prywatności.

Przejrzystość jest sama w sobie atrybutem, ale znacząca przejrzystość jest lepszym celem. Idąc dalej, skupmy się na otwieraniu eksperymentów, a nie algorytmach. 

Opublikowano 24 czerwca 2022 r.

Technologia, innowacyjność i przyszłość, jak mówią ci, którzy ją budują.

Dziękujemy za zarejestrowanie się.

Sprawdź w swojej skrzynce odbiorczej wiadomość powitalną.

Znak czasu:

Więcej z Andreessen Horowitz