Почему вам нужно знать происхождение своего ИИ

Почему вам нужно знать происхождение своего ИИ

Зачем вам нужно знать происхождение вашего ИИ? Платоблокчейн. Анализ данных. Вертикальный поиск. Ай.

КОММЕНТАРИЙ

Искусственный интеллект (ИИ) быстро меняет почти все аспекты нашей повседневной жизни: от того, как мы работаем, как мы поглощаем информацию и как мы определяем наших лидеров. Как и любая технология, ИИ аморален, но его можно использовать для развития общества или причинить вред.

Данные — это гены, которые обеспечивают работу приложений искусственного интеллекта. Это ДНК и РНК, свернутые в одно целое. Как часто говорят при создании программных систем: «мусор на входе/мусор на выходе». Технология искусственного интеллекта настолько точна, безопасна и функциональна, насколько источники данных, на которые она опирается. Ключ к тому, чтобы ИИ выполнил свои обещания и избежал кошмаров, заключается в способности не допускать попадания мусора и предотвращения его распространения и репликации в миллионах приложений ИИ.

Это называется происхождением данных, и мы не можем ждать еще одного дня, чтобы внедрить меры контроля, которые не позволят нашему будущему ИИ превратиться в огромную мусорную кучу.

Плохие данные приводят к созданию моделей искусственного интеллекта, которые могут распространять уязвимости кибербезопасности, дезинформацию и другие атаки по всему миру за считанные секунды. Сегодняшний генеративный ИИ (GenAI) модели невероятно сложны, но по своей сути модели GenAI просто прогнозируют лучший следующий фрагмент данных для вывода, учитывая набор существующих предыдущих данных.

Измерение точности

Модель типа ChatGPT оценивает набор слов, составляющих исходный заданный вопрос, и все слова в ответе модели, чтобы вычислить следующее лучшее слово для вывода. Он делает это неоднократно, пока не решит, что дал достаточный ответ. Предположим, вы оцениваете способность модели объединять слова, образующие правильно построенные, грамматически правильные предложения, соответствующие теме и в целом имеющие отношение к разговору. В этом случае сегодняшние модели удивительно хороши — это показатель точности.

Погрузитесь глубже в всегда ли текст, созданный ИИ, передает «правильную» информацию и соответствующим образом указывает уровень достоверности передаваемой информации. Это обнажает проблемы, возникающие из-за того, что модели в среднем очень хорошо прогнозируют, но не так хорошо в крайних случаях, что представляет собой проблему надежности. Ситуация может усугубляться, когда некачественные выходные данные моделей ИИ хранятся в Интернете и используются в качестве данных для будущего обучения для этих и других моделей.

Плохие результаты могут воспроизводиться в масштабах, которых мы никогда не видели, вызывая нисходящую петлю гибели ИИ.

Если бы злоумышленник хотел помочь этому процессу, он мог бы намеренно стимулировать создание, хранение и распространение дополнительных плохих данных, что привело бы к еще большей дезинформации, исходящей от чат-ботов, или к чему-то столь же гнусному и пугающему, как модели автомобильных автопилотов, решившие, что им нужно быстро повернуть машину вправо, несмотря на препятствия, если они «видят» перед собой специально созданное изображение (гипотетически, конечно).

Спустя десятилетия индустрия разработки программного обеспечения, возглавляемая Агентством по безопасности инфраструктуры кибербезопасности, наконец-то внедряет обеспечить, по-дизайн фреймворк. Безопасный дизайн требует, чтобы кибербезопасность лежала в основе процесса разработки программного обеспечения, и один из ее основных принципов требует каталогизации каждого компонента разработки программного обеспечения — спецификация программного обеспечения (SBOM) — для повышения безопасности и отказоустойчивости. Наконец, безопасность заменяет скорость как наиболее важный фактор выхода на рынок.

Защита проектов ИИ

ИИ нужно нечто подобное. Цикл обратной связи ИИ предотвращает распространенные в прошлом методы защиты от кибербезопасности, такие как отслеживание сигнатур вредоносных программ, создание периметров вокруг сетевых ресурсов или сканирование написанного человеком кода на наличие уязвимостей. Мы должны сделать безопасные конструкции ИИ обязательным требованием на зачаточном этапе развития технологии, чтобы ИИ можно было сделать безопасным задолго до того, как ящик Пандоры откроется.

Итак, как нам решить эту проблему? Нам следует взять страницу из мира академических кругов. Мы обучаем студентов, используя тщательно отобранные учебные данные, которые интерпретируются и передаются им через целую индустрию учителей. Мы продолжаем использовать этот подход для обучения взрослых, но ожидается, что взрослые сами будут больше курировать данные.

Для обучения модели ИИ необходимо использовать двухэтапный подход с использованием тщательно подобранных данных. Для начала базовые модели ИИ будут обучены с использованием современных методологий с использованием огромных объемов менее тщательно отобранных наборов данных. Эти базовые модели большого языка (LLM) будут примерно аналогичны новорожденному ребенку. Затем модели базового уровня будут обучаться с помощью тщательно подобранных наборов данных, аналогично тому, как детей учат и воспитывают, чтобы они стали взрослыми.

Усилия по созданию больших, тщательно подобранных наборов обучающих данных для всех типов целей будут немалыми. Это аналогично всем усилиям, которые родители, школы и общество прилагают для обеспечения качественной окружающей среды и качественной информации для детей, пока они превращаются (надеюсь) в функционирующих, приносящих пользу обществу людей. Именно такой уровень усилий необходим для создания качественных наборов данных для обучения качественных, хорошо функционирующих, минимально поврежденных моделей ИИ, и это может привести к тому, что целая индустрия ИИ и людей будет работать вместе, чтобы научить модели ИИ хорошо справляться со своей целевой задачей. .

Состояние сегодняшнего процесса обучения ИИ демонстрирует некоторые признаки этого двухэтапного процесса. Но из-за того, что технология GenAI и отрасль находятся в зачаточном состоянии, слишком много обучения требует менее тщательного подхода, основанного на первом этапе.

Когда дело доходит до безопасности ИИ, мы не можем позволить себе ждать ни часа, не говоря уже о десятилетии. ИИ нуждается в приложении 23andMe, которое позволит полностью просмотреть «генеалогию алгоритмов», чтобы разработчики могли полностью понять «семейную» историю ИИ и предотвратить повторение хронических проблем, заражение критически важных систем, на которые мы полагаемся каждый день, и нанесение экономического и социального ущерба. это может быть необратимо.

От этого зависит наша национальная безопасность.

Отметка времени:

Больше от Темное чтение