Чому вам потрібно знати походження свого ШІ

Чому вам потрібно знати походження свого ШІ

Why You Need to Know Your AI's Ancestry PlatoBlockchain Data Intelligence. Vertical Search. Ai.

КОМЕНТАР

Штучний інтелект (ШІ) швидко змінює майже кожен аспект нашого повсякденного життя, від того, як ми працюємо, до того, як ми отримуємо інформацію, і до того, як ми визначаємо наших лідерів. Як і будь-яка технологія, штучний інтелект є аморальним, але його можна використовувати для розвитку суспільства або завдавати шкоди.

Дані — це гени, які живлять програми ШІ. Це ДНК і РНК, загорнуті в одне ціле. Як часто кажуть під час створення програмних систем: «сміття входить/викидає сміття». Технологія штучного інтелекту настільки ж точна, безпечна та функціональна, як і джерела даних, на які вона покладається. Ключ до того, щоб штучний інтелект виконував свої обіцянки та уникав своїх кошмарів, полягає в здатності не допустити сміття та запобігти його розповсюдженню та тиражуванню в мільйонах програм ШІ.

Це називається походженням даних, і ми не можемо чекати жодного дня, щоб запровадити елементи керування, які запобігатимуть тому, щоб наше майбутнє ШІ перетворилося на величезну купу сміття.

Погані дані призводять до моделей штучного інтелекту, які можуть поширювати вразливості кібербезпеки, дезінформацію та інші атаки по всьому світу за секунди. Сьогоднішній генеративний ШІ Моделі (GenAI) неймовірно складні, але, по суті, моделі GenAI просто передбачають найкращий наступний фрагмент даних для виведення, враховуючи набір існуючих попередніх даних.

Вимірювання точності

Модель типу ChatGPT оцінює набір слів, які складають вихідне запитання, і всі слова у відповіді моделі на даний момент, щоб обчислити наступне найкраще слово для виведення. Він робить це неодноразово, доки не вирішить, що дав достатньо відповіді. Припустімо, ви оцінюєте здатність моделі об’єднувати слова, які складають правильно оформлені, граматично правильні речення, які відповідають темі та загалом мають відношення до розмови. У цьому випадку сьогоднішні моделі надзвичайно гарні — міра точності.

Пориньте глибше чи завжди створений ШІ текст передає «правильну» інформацію і відповідним чином вказує на рівень достовірності переданої інформації. Це розкриває проблеми, пов’язані з моделями, які в середньому прогнозують дуже добре, але не дуже добре на крайніх випадках, що представляє проблему надійності. Це може ускладнюватися, коли неякісні дані, отримані від моделей ШІ, зберігаються в Інтернеті та використовуються як майбутні навчальні дані для цих та інших моделей.

Погані результати можуть відтворюватися в масштабі, якого ми ніколи не бачили, спричиняючи низхідну петлю приреченості ШІ.

Якби поганий актор хотів допомогти цьому процесу, він міг би навмисно заохочувати створення, зберігання та розповсюдження додаткових поганих даних, що призвело б до ще більшої кількості дезінформації, що виходить із чат-ботів, або до чогось такого мерзенного та страшного, як моделі автомобільного автопілота, які вирішили, що їм потрібно швидко повернути машину праворуч, незважаючи на об’єкти, які заважають, якщо вони «бачать» спеціально створене зображення перед собою (гіпотетично, звичайно).

Після десятиліть галузь розробки програмного забезпечення під керівництвом Агентства з безпеки інфраструктури кібербезпеки нарешті впроваджує безпечний дизайн рамки. Безпека за проектом наказує, що кібербезпека є основою процесу розробки програмного забезпечення, і одним із основних принципів є вимога каталогізації кожного компонента розробки програмного забезпечення — перелік матеріалів програмного забезпечення (SBOM) — для підвищення безпеки та стійкості. Нарешті, безпека замінює швидкість як найважливіший фактор виходу на ринок.

Захист проектів ШІ

AI потребує чогось подібного. Цикл зворотного зв’язку штучного інтелекту запобігає поширеним минулим методам захисту кібербезпеки, таким як відстеження сигнатур зловмисного програмного забезпечення, створення периметрів навколо мережевих ресурсів або сканування коду, написаного людиною, на наявність вразливостей. Ми повинні зробити безпечний дизайн штучного інтелекту обов’язковим на етапі зародження технології, щоб ШІ міг бути безпечним задовго до відкриття скриньки Пандори.

Отже, як нам вирішити цю проблему? Ми повинні взяти сторінку зі світу академії. Ми навчаємо студентів за допомогою ретельно відібраних навчальних даних, інтерпретованих і переданих їм через індустрію викладачів. Ми продовжуємо використовувати цей підхід, щоб навчати дорослих, але від дорослих очікується, що вони самі будуть більше контролювати дані.

Навчання моделі штучного інтелекту має застосовувати двоетапний підхід до кураторських даних. Для початку базові моделі штучного інтелекту будуть навчені за поточними методологіями з використанням величезної кількості менш підготовлених наборів даних. Ці базові великі мовні моделі (LLM) були б приблизно аналогічні новонародженій дитині. Моделі базового рівня потім тренуватимуть із ретельно підібраними наборами даних, подібно до того, як дітей навчають і виховують, щоб вони стали дорослими.

Зусилля для створення великих, підібраних наборів навчальних даних для всіх типів цілей не будуть малими. Це аналогічно всім зусиллям, які батьки, школи та суспільство докладають для забезпечення якісного середовища та якісної інформації для дітей, коли вони виростають (сподіваємось) на функціонуючих, доданих цінних вкладників у суспільство. Це рівень зусиль, необхідний для створення якісних наборів даних для навчання якісних, добре функціонуючих, мінімально пошкоджених моделей штучного інтелекту, і це може призвести до того, що ціла індустрія штучного інтелекту та людей працюватимуть разом, щоб навчити моделі штучного інтелекту добре виконувати свою цільову роботу. .

Стан сучасного процесу навчання ШІ демонструє деякі ознаки цього двоетапного процесу. Але через зародковість технології GenAI та індустрії занадто багато навчання потребує менш курованого підходу першого етапу.

Що стосується безпеки ШІ, ми не можемо дозволити собі чекати годину, не кажучи вже про десятиліття. ШІ потрібен додаток 23andMe, який дає змогу повністю переглядати «генеалогію алгоритмів», щоб розробники могли повністю зрозуміти «сімейну» історію ШІ, щоб запобігти реплікації хронічних проблем, зараженню критичних систем, на які ми покладаємося щодня, і завданню економічної та суспільної шкоди це може бути незворотнім.

Від цього залежить наша національна безпека.

Часова мітка:

Більше від Темне читання