Dane syntetyczne mogą zaoferować rzeczywistą poprawę wydajności w uczeniu maszynowym

Opublikowane ponownie przez Plato

Obserwuje: 0

Rozpoznawanie działań uległo znacznej poprawie dzięki zbiorom danych wideo na masową skalę. Jednak tym zbiorom danych towarzyszą kwestie związane z kosztami przechowywania, prywatnością, etyką, uprzedzeniami i prawami autorskimi. Więc, MIT naukowcy zwracają się ku syntetycznym zbiorom danych.

Są one tworzone przez komputer, który wykorzystuje modele 3D scen, obiektów i ludzi, aby szybko utworzyć wiele różnych klipów przedstawiających określone działania – bez potencjalnych problemów związanych z prawami autorskimi lub problemami etycznymi, które wiążą się z prawdziwymi danymi.

Czy dane syntetyczne są równie dobre jak dane rzeczywiste?

Zespół naukowców z MIT, MIT-IBM Watson AI Lab i Uniwersytetu Bostońskiego próbował odpowiedzieć na to pytanie. Stworzyli syntetyczny zbiór danych składający się ze 150,000 XNUMX klipów wideo przedstawiających różnorodne działania ludzkie i przeszkolonych nauczanie maszynowe modele wykorzystujące ten zbiór danych. Następnie wyświetlono tym modelom sześć zestawów danych zawierających filmy zaczerpnięte z rzeczywistego świata, aby sprawdzić, jak dobrze potrafią uchwycić działania zawarte w tych nagraniach.

Naukowcy odkryli, że syntetycznie wyszkolone modele działały nawet lepiej niż modele wytrenowane na rzeczywistych danych w przypadku filmów zawierających mniej obiektów w tle.

Odkrycie to może pomóc w wykorzystaniu przez naukowców syntetycznych zbiorów danych do wspomagania modeli w dokładniejszym wykonywaniu rzeczywistych zadań. Aby zmniejszyć niektóre obawy związane z etyką, prywatnością i prawami autorskimi związanymi z wykorzystaniem rzeczywistych zbiorów danych, może również pomóc badaczom w określeniu, które aplikacje do uczenia maszynowego najlepiej nadają się do uczenia z danymi syntetycznymi.

Rogerio Feris, główny naukowiec i menedżer w MIT-IBM Watson AI Lab, powiedział: „Ostatecznym celem naszych badań jest zastąpienie wstępnego uczenia danych rzeczywistych wstępnym uczeniem danych syntetycznych. Tworzenie akcji na danych syntetycznych wiąże się z pewnymi kosztami, ale gdy już to zrobisz, możesz generować nieograniczoną liczbę zdjęć lub filmów, zmieniając pozę, oświetlenie itp. Na tym polega piękno danych syntetycznych”.

Naukowcy rozpoczęli od skompilowania nowego narzędzia do wstępnego szkolenia i transferu działań syntetycznych (SynAPT), korzystając z trzech publicznie dostępnych zbiorów danych zawierających syntetyczne klipy wideo, które rejestrują ludzkie działania. Zawiera prawie 150 kategorii akcji, po 1,000 klipów wideo w każdej kategorii.

Wstępnie przeszkolono trzy modele uczenia maszynowego w celu rozpoznawania działań przy użyciu zbioru danych po jego utworzeniu. Szkolenie wstępne to proces uczenia modelu jednego zadania przed nauczeniem go innego. Wstępnie wyszkolony model może korzystać z parametrów, których już się nauczył, aby szybciej i efektywniej nauczyć się nowego zadania z nowym zestawem danych. Jest to wzorowane na sposobie uczenia się ludzi, który polega na ponownym wykorzystaniu informacji z przeszłości, gdy dowiemy się czegoś nowego. Wstępnie wyszkolony model został przetestowany przy użyciu sześciu zestawów danych zawierających rzeczywiste klipy wideo, z których każdy przechwytywał klasy działań różniące się od tych w danych szkoleniowych.

Zaskakujące dla naukowców było to, że wszystkie trzy modele syntetyczne radziły sobie lepiej niż modele wytrenowane na podstawie rzeczywistych klipów wideo w czterech z sześciu zbiorów danych. Ich dokładność była najwyższa w przypadku zbiorów danych zawierających klipy wideo o „niskim odchyleniu od obiektu i sceny”. Oznacza to, że model nie może rozpoznać akcji, patrząc na tło lub inne obiekty w scenie — musi skupić się na samej akcji.

Feris powiedział, „W filmach o niewielkim zróżnicowaniu między sceną a obiektem czasowa dynamika działań jest ważniejsza niż wygląd obiektów czy tło, co wydaje się być dobrze uchwycone za pomocą danych syntetycznych”.

„Wysokie odchylenie między sceną a obiektem może stanowić przeszkodę. Model może błędnie sklasyfikować działanie, patrząc na obiekt, a nie na samo działanie. Może to zmylić model.”

Współautor Rameswar Panda, pracownik naukowy w MIT-IBM Watson AI Lab, powiedział: „Wykorzystując te wyniki, badacze chcą w przyszłych pracach uwzględnić więcej zajęć praktycznych i dodatkowe platformy syntetycznego wideo, ostatecznie tworząc katalog modeli, które zostały wstępnie przeszkolone przy użyciu danych syntetycznych”.

„Chcemy budować modele, które mają bardzo podobną lub nawet lepszą wydajność niż istniejące modele w literaturze, ale nie będąc związanymi żadnymi z tych uprzedzeń ani obawami dotyczącymi bezpieczeństwa”.

Sooyoung Jin, współautorka i postdoc CSAIL, powiedziała: „Chcą także połączyć swoją pracę z badaniami mającymi na celu wygenerowanie dokładniejszych i realistycznych syntetycznych filmów, co mogłoby zwiększyć wydajność modeli”.

„Korzystamy z syntetycznych zbiorów danych, aby zapobiegać problemom związanym z prywatnością oraz stronniczości kontekstowej lub społecznej, ale czego uczy się model? Czy uczy się czegoś bezstronnego?”

Współautor Samarth Mishra, absolwentka Uniwersytetu Bostońskiego (BU), powiedziany, „Pomimo niższych kosztów uzyskania dobrze opatrzonych adnotacjami danych syntetycznych, obecnie nie dysponujemy zbiorem danych o skali, która mogłaby konkurować z największymi zbiorami danych z adnotacjami z prawdziwymi filmami. Mamy nadzieję, że omawiając różne koszty i problemy w przypadku prawdziwych filmów oraz pokazując skuteczność danych syntetycznych, zmotywujemy wysiłki w tym kierunku”.

Referencje czasopisma: