Nowe podejście polega na ponownym szkoleniu głębokich sieci neuronowych w celu radzenia sobie ze zmianami w złożonych systemach

Nowe podejście polega na ponownym szkoleniu głębokich sieci neuronowych w celu radzenia sobie ze zmianami w złożonych systemach

Wyniki głębokiego uczenia się

Naukowcy zajmujący się klimatem w USA opracowali systematyczne podejście do przekwalifikowania algorytmów sztucznej inteligencji do radzenia sobie w różnych sytuacjach. Zespół odkrył, że wbrew obiegowym opiniom, ponowne uczenie algorytmu na wcześniejszych poziomach często daje lepsze wyniki niż ponowne uczenie późniejszych.

Głębokie uczenie się to wysoce zaawansowany, czasem kontrowersyjny rodzaj uczenia maszynowego, w którym algorytmy komputerowe same uczą się ważnych cech systemu i uczą się klasyfikować jego naturę i przewidywać jego zachowanie, często z dokładnością przekraczającą możliwości człowieka. Być może najbardziej znanym pokazem głębokiego uczenia się w działaniu było zwycięstwo programu Google AlphaGo nad mistrzem gry w go Lee Sedolem w 2017 roku. Głębokie uczenie się ma jednak bardziej praktyczne zastosowania: może przewidywać fałdowanie białek, przeszukiwać biopsje tkanek pod kątem wczesnych oznak raka i przewidywać wzorce pogodowe.

Ponieważ jednak algorytmy głębokiego uczenia się nie są programowane przez zewnętrznego operatora, nie można ich po prostu przeprogramować. Zamiast tego, jeśli system się zmieni, algorytm musi zostać przeszkolony przy użyciu danych z nowego systemu. Jest to ważne w klimatologii, jeśli algorytmy głębokiego uczenia, które trenowały z wykorzystaniem dzisiejszych warunków klimatycznych, mają generować przydatne prognozy dotyczące warunków pogodowych w świecie dotkniętym zmianami klimatycznymi. Ten znany ludziom proces adaptacji wcześniejszych doświadczeń do nieznanych sytuacji jest znany informatykom jako uczenie się transferowe.

Głęboka tajemnica

Klimatolog Pedrama Hassanzadeha z Rice University w Teksasie wyjaśnia, że ​​algorytmy głębokiego uczenia przetwarzają informacje w sekwencji warstw. „Informacje trafiają do warstwy, która wyodrębnia niektóre informacje, a następnie wysyła te informacje do innej warstwy, która wyodrębnia więcej informacji”. Ten proces ostatecznie generuje dane wyjściowe, ale jak wyjaśnia Hassanzadeh: „Nikt nie wie dokładnie, jakie jest zadanie każdej warstwy, ponieważ nie projektujemy żadnej z nich – wszystkich się uczymy”. Transfer learning wykorzystuje niewielką ilość dostępnych danych z nowego zestawu danych do przeszkolenia jednego (lub kilku) z tych poziomów, a Hassanzadeh mówi, że „ważne jest, który poziom wybierzesz”.

Mówi, że konwencjonalna mądrość mówi, że specyfika problemu jest opracowywana w najgłębszych warstwach sieci (w tych warstwach, które są najbliżej wyjścia). Dlatego, aby przeprowadzić nauczanie transferowe, najlepiej jest je przekwalifikować. „To, co zrobiono w przeszłości, to powiedzmy, że Google trenuje tysiącwarstwową sieć w Google Images, a następnie ktoś przynosi niewielką liczbę promieni rentgenowskich, więc ponownie szkolą warstwy 998 i 999” — wyjaśnia Hassanzadeh. Teraz on i jego koledzy zamiast tego przyjęli systematyczne podejście.

Naukowcy przeprowadzili symulacje zachowania płynów w wysokiej rozdzielczości w trzech różnych zestawach warunków. Wykorzystali te dane do wytrenowania trzech 10-warstwowych algorytmów głębokiego uczenia się w celu przewidywania zachowania płynów przy każdym z tych określonych parametrów. Zmienili niektóre parametry, takie jak liczba Reynoldsa (stosunek sił bezwładności do sił lepkości) lub wirowość płynu w każdym przypadku i przeprowadzili kolejny zestaw symulacji o wysokiej rozdzielczości, aby przewidzieć zachowanie nowych płynów. W każdym z trzech przypadków trenowali te same algorytmy na nowych danych. Na koniec przeprowadzili uczenie się starych algorytmów na niewielkim podzbiorze nowych danych, przyglądając się efektom ponownego uczenia każdego poziomu i porównując wydajność przeszkolonego starego algorytmu z algorytmem, który został wyszkolony od podstaw na nowych danych.

Przekwalifikowanie płytkich warstw

Wyniki były zaskakujące. „W tym artykule stwierdziliśmy, że najpłytsze warstwy były najlepsze do przekwalifikowania” – mówi Hassanzadeh. Dostęp do przewidywanego sygnału wytwarzanego przez ponowne uczenie każdej warstwy z kolei dał im wgląd w wpływ każdej warstwy na ten końcowy sygnał. Dlatego po prostu wykorzystali analizę widmową każdego sygnału, aby zobaczyć, jak każda warstwa modyfikuje każdą obecną częstotliwość. Niektóre poziomy kontrolowały niskie częstotliwości i przydatne było ponowne ich przeszkolenie, ponieważ przechwytywały płynnie zmieniające się, makroskopowe cechy algorytmu. Tymczasem inne poziomy przewidywały szczegóły, a przekwalifikowanie ich samych było prawie bezużyteczne. Naukowcy opracowali protokół określania najważniejszych poziomów w danym przypadku. „Nie chcieliśmy mówić, że w tym dokumencie mamy praktyczną zasadę” — mówi Hassanzadeh. „Teraz znaleźliśmy systemy, w których na przykład środkowe warstwy są najlepsze [do przekwalifikowania]”.

Zespół opisuje pracę w artykule opublikowanym w Nexus PNAS.

„Myślę, że to naprawdę interesujący artykuł” — mówi astrofizyk i ekspert w dziedzinie uczenia maszynowego Shirley Ho Flatiron Institute w Nowym Jorku. Dodaje: „Z drugiej strony w wielu innych dyscyplinach naukowych używamy analizy spektralnej już od dłuższego czasu, więc myślę, że pytanie brzmi, czy zastosowanie jej do wielu warstw jest znaczącym wkładem. Mam wrażenie, że prawdopodobnie jest to jedna z tych rzeczy, które są w umysłach ludzi, ale nikt tego nie napisał. To może być jeden z tych świetnych artykułów, w których po wypowiedzeniu staje się to oczywiste dla wszystkich”.

Znak czasu:

Więcej z Świat Fizyki