Dlaczego musisz znać pochodzenie swojej sztucznej inteligencji

Opublikowane ponownie przez Plato

Obserwuje: 0

Dlaczego musisz znać pochodzenie swojej sztucznej inteligencji PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

KOMENTARZ

Sztuczna inteligencja (AI) szybko zmienia niemal każdy aspekt naszego codziennego życia, od sposobu, w jaki pracujemy, przez sposób, w jaki przyswajamy informacje, po sposób, w jaki określamy naszych przywódców. Jak każda technologia, sztuczna inteligencja jest amoralna, ale może zostać wykorzystana do rozwoju społeczeństwa lub wyrządzić krzywdę.

Dane to geny napędzające aplikacje AI. To DNA i RNA w jednym. Jak często mówi się przy tworzeniu systemów oprogramowania: „śmieci wchodzą/śmieci są usuwane”. Technologia sztucznej inteligencji jest tak dokładna, bezpieczna i funkcjonalna, jak źródła danych, na których się opiera. Kluczem do zapewnienia, że sztuczna inteligencja spełni swoje obietnice i uniknie koszmarów, jest zdolność do usuwania śmieci i zapobiegania ich rozprzestrzenianiu się i replikowaniu w milionach aplikacji AI.

Nazywa się to pochodzeniem danych i nie możemy czekać kolejnego dnia z wdrożeniem kontroli, które zapobiegną temu, aby nasza przyszłość sztucznej inteligencji zamieniła się w ogromną stertę śmieci.

Złe dane prowadzą do modeli sztucznej inteligencji, które w ciągu kilku sekund mogą na całym świecie rozprzestrzeniać luki w zabezpieczeniach cyberbezpieczeństwa, dezinformację i inne ataki. Dzisiejsze generatywna sztuczna inteligencja Modele (GenAI) są niezwykle złożone, ale w istocie modele GenAI po prostu przewidują, jaka następna najlepsza porcja danych zostanie wygenerowana, biorąc pod uwagę zestaw istniejących poprzednich danych.

Pomiar dokładności

Model typu ChatGPT ocenia zestaw słów składających się na pierwotnie zadane pytanie i wszystkie słowa z dotychczasowej odpowiedzi modelu, aby obliczyć następne najlepsze słowo do wyświetlenia. Robi to wielokrotnie, aż uzna, że udzielił wystarczającej odpowiedzi. Załóżmy, że oceniasz zdolność modelu do łączenia słów, które tworzą dobrze sformułowane, poprawne gramatycznie zdania, które są na temat i ogólnie odnoszą się do rozmowy. W takim razie dzisiejsze modele są zdumiewająco dobre – jest to miara dokładności.

Zanurz się głębiej czy tekst stworzony przez sztuczną inteligencję zawsze przekazuje „poprawne” informacje i odpowiednio wskazuje poziom pewności przekazywanych informacji. Ujawnia to problemy, które wynikają z modeli średnio dobrze przewidujących przypadki, ale niezbyt dobrze w przypadkach brzegowych – co stanowi problem niezawodności. Problem może się jeszcze pogorszyć, gdy słabe dane wyjściowe z modeli sztucznej inteligencji będą przechowywane online i wykorzystywane jako przyszłe dane szkoleniowe dla tych i innych modeli.

Słabe wyniki mogą replikować się na skalę, jakiej nigdy nie widzieliśmy, powodując pętlę zagłady AI.

Jeśli zły aktor chciałby pomóc w tym procesie, mógłby celowo zachęcać do wytwarzania, przechowywania i rozpowszechniania dodatkowych złych danych, co doprowadziłoby do jeszcze większej dezinformacji wypływającej z chatbotów lub do czegoś tak nikczemnego i przerażającego, jak decyzja modeli autopilotów samochodowych o konieczności skręcić szybko w prawo pomimo przeszkód na drodze, jeśli „zobaczą” przed sobą specjalnie spreparowany obraz (oczywiście hipotetycznie).

Po dziesięcioleciach branża tworzenia oprogramowania — kierowana przez Agencję ds. Bezpieczeństwa Infrastruktury Cyberbezpieczeństwa — w końcu wdraża technologię bezpieczne od projektu Ramy. Bezpieczeństwo już na etapie projektowania stwierdza, że cyberbezpieczeństwo stanowi podstawę procesu tworzenia oprogramowania, a jedno z jego podstawowych założeń wymaga katalogowania każdego komponentu tworzenia oprogramowania — zestawienie komponentów oprogramowania (SBOM) — zwiększenie bezpieczeństwa i odporności. Wreszcie bezpieczeństwo zastępuje prędkość jako najważniejszy czynnik wejścia na rynek.

Zabezpieczanie projektów AI

AI potrzebuje czegoś podobnego. Pętla sprzężenia zwrotnego AI zapobiega powszechnym w przeszłości technikom obrony cyberbezpieczeństwa, takim jak śledzenie sygnatur złośliwego oprogramowania, budowanie granic wokół zasobów sieciowych lub skanowanie napisanego przez człowieka kodu pod kątem luk w zabezpieczeniach. Musimy uczynić bezpieczne projekty sztucznej inteligencji wymogiem już w początkach technologii, aby można było zapewnić bezpieczeństwo sztucznej inteligencji na długo przed otwarciem puszki Pandory.

Jak więc rozwiązać ten problem? Powinniśmy wyjść ze świata akademickiego. Szkolimy uczniów na podstawie starannie dobranych danych szkoleniowych, interpretowanych i przekazywanych im za pośrednictwem branży nauczycieli. Kontynuujemy to podejście, aby uczyć dorosłych, ale od dorosłych oczekuje się, że sami będą w większym stopniu przetwarzać dane.

Szkolenie w zakresie modeli sztucznej inteligencji musi obejmować dwuetapowe podejście do wybranych danych. Na początek podstawowe modele sztucznej inteligencji będą szkolone przy użyciu obecnych metodologii i ogromnych ilości mniej sprawdzonych zestawów danych. Te podstawowe modele dużego języka (LLM) byłyby z grubsza analogiczne do noworodka. Modele podstawowe zostaną następnie przeszkolone przy użyciu starannie dobranych zestawów danych, podobnie jak dzieci są uczone i wychowywane na dorosłych.

Wysiłek związany z budowaniem dużych, wyselekcjonowanych zestawów danych treningowych dla wszystkich typów celów nie będzie mały. Jest to analogiczne do całego wysiłku, jaki rodzice, szkoły i społeczeństwo wkładają w zapewnienie wysokiej jakości środowiska i wysokiej jakości informacji dzieciom, gdy wyrastają na (miejmy nadzieję) funkcjonujące osoby wnoszące wartość dodaną do społeczeństwa. Taki jest poziom wysiłku wymagany do zbudowania wysokiej jakości zbiorów danych w celu wyszkolenia wysokiej jakości, dobrze funkcjonujących, minimalnie uszkodzonych modeli sztucznej inteligencji, który może doprowadzić do współpracy całej branży sztucznej inteligencji i ludzi, aby uczyć modele sztucznej inteligencji, aby dobrze wykonywały swoje docelowe zadania .

Stan dzisiejszego procesu szkolenia sztucznej inteligencji wykazuje pewne oznaki tego dwuetapowego procesu. Jednak ze względu na początkową technologię GenAI i branżę zbyt wiele szkoleń wymaga mniej wyselekcjonowanego podejścia pierwszego etapu.

Jeśli chodzi o bezpieczeństwo sztucznej inteligencji, nie możemy sobie pozwolić na czekanie godziny, a co dopiero dekady. Sztuczna inteligencja potrzebuje aplikacji 23andMe, która umożliwia pełny przegląd „genealogii algorytmów”, aby programiści mogli w pełni zrozumieć „rodzinną” historię sztucznej inteligencji, aby zapobiec powielaniu się chronicznych problemów, infekowaniu krytycznych systemów, na których codziennie polegamy oraz powodowaniu szkód gospodarczych i społecznych może to być nieodwracalne.

Od tego zależy nasze bezpieczeństwo narodowe.