NeurIPS 2023: ключові висновки із запрошених доповідей

NeurIPS 2023: ключові висновки із запрошених доповідей

Доповіді NeurIPS 2023

Створено за допомогою Midjourney

На конференції NeurIPS 2023, яка проходила в жвавому місті Новий Орлеан з 10 по 16 грудня, особливий акцент був зроблений на генеративному ШІ та моделях великих мов (LLM). У світлі останніх революційних досягнень у цій галузі не дивно, що ці теми домінували в дискусіях.

Однією з основних тем цьогорічної конференції був пошук ефективніших систем ШІ. Дослідники та розробники активно шукають способи створення штучного інтелекту, який не тільки навчається швидше, ніж поточні LLM, але й має розширені можливості міркування, споживаючи менше обчислювальних ресурсів. Це прагнення має вирішальне значення в гонці за досягнення загального штучного інтелекту (AGI), мети, яка здається все більш досяжною в осяжному майбутньому.

Запрошені доповіді на NeurIPS 2023 були відображенням цих динамічних інтересів, що швидко розвиваються. Доповідачі з різних сфер досліджень ШІ поділилися своїми останніми досягненнями, запропонувавши вікно в передові розробки ШІ. У цій статті ми заглибимося в ці розмови, вилучивши та обговоривши ключові висновки та знання, які є важливими для розуміння поточних і майбутніх ландшафтів інновацій ШІ.

NextGenAI: омана масштабування та майбутнє генеративного штучного інтелекту 

In його розмова, Бьорн Оммер, керівник групи комп’ютерного бачення та навчання Мюнхенського університету імені Людвіга Максиміліана, поділився тим, як його лабораторія прийшла до розробки стабільної дифузії, кількома уроками, які вони винесли з цього процесу, і останніми розробками, зокрема тим, як ми можемо поєднувати моделі дифузії з зіставлення потоків, розширення пошуку та апроксимації LoRA, серед іншого.

дифузійні моделі

Програма вебінару

  • В епоху генеративного штучного інтелекту ми перейшли від фокусу на сприйнятті в моделях бачення (тобто розпізнавання об’єктів) до передбачення відсутніх частин (наприклад, створення зображень і відео за допомогою дифузійних моделей).
  • Протягом 20 років комп’ютерний зір був зосереджений на еталонних дослідженнях, які допомагали зосередитися на найбільш значущих проблемах. У Generative AI ми не маємо жодних тестів для оптимізації, що відкриває поле для кожного, щоб рухатися у власному напрямку.
  • Дифузійні моделі поєднують переваги попередніх генеративних моделей, будучи заснованими на балах зі стабільною процедурою навчання та ефективним редагуванням вибірки, але вони дорогі через довгий ланцюг Маркова.
  • Проблема з моделями сильної правдоподібності полягає в тому, що більшість бітів входять у деталі, які важко помітити людське око, тоді як семантика кодування, яка має найбільше значення, займає лише кілька бітів. Лише масштабування не вирішить цю проблему, оскільки попит на обчислювальні ресурси зростає в 9 разів швидше, ніж пропозиція GPU.
  • Пропоноване рішення полягає в поєднанні сильних сторін дифузійних моделей і ConvNets, зокрема ефективності згорток для представлення локальних деталей і виразності дифузійних моделей для далекого контексту.
  • Бйорн Оммер також пропонує використовувати підхід узгодження потоку, щоб увімкнути синтез зображень високої роздільної здатності з невеликих моделей латентної дифузії.
  • Інший підхід до підвищення ефективності синтезу зображень полягає в зосередженні на композиції сцени з використанням доповнення пошуку для заповнення деталей.
  • Нарешті, він представив підхід iPoke для контрольованого стохастичного синтезу відео.

Якщо цей поглиблений вміст корисний для вас, підпишіться на наш список розсилки AI щоб отримати попередження, коли ми випускаємо новий матеріал. 

Багатогранність відповідального ШІ 

In її презентація, Лора Аройо, науковий співробітник Google Research, підкреслила ключове обмеження традиційних підходів до машинного навчання: їхня залежність від двійкової категоризації даних як позитивних чи негативних прикладів. Це надмірне спрощення, стверджувала вона, пропускає складну суб’єктивність, притаманну реальним сценаріям і контенту. За допомогою різних випадків використання Аройо продемонстрував, як неоднозначність вмісту та природні відмінності в людських точках зору часто призводять до неминучих розбіжностей. Вона наголосила на важливості розглядати ці розбіжності як значущі сигнали, а не просто шум.

відповідальний ШІ

Ось ключові висновки з розмови:

  • Розбіжності між людьми можуть бути продуктивними. Замість того, щоб розглядати всі відповіді як правильні або неправильні, Лора Аройо запровадила «правду через незгоду», підхід розподілу істинності для оцінки надійності даних шляхом використання розбіжностей оцінювачів.
  • Якість даних складна навіть з експертами, тому що експерти не погоджуються так само, як і натовп лаберів. Ці розбіжності можуть бути набагато інформативнішими, ніж відповіді одного експерта.
    • У завданнях з оцінки безпеки експерти розходяться в 40% прикладів. Замість того, щоб намагатися вирішити ці розбіжності, нам потрібно зібрати більше таких прикладів і використовувати їх для вдосконалення моделей і показників оцінки.
  • Лора Аройо також представила свої Безпека з різноманітністю метод ретельного аналізу даних з точки зору того, що в них і хто їх анотував.
    • Цей метод створив порівняльний набір даних із варіативністю оцінок безпеки LLM для різних демографічних груп оцінювачів (загалом 2.5 мільйона оцінок).
    • Для 20% розмов було важко визначити, чи була відповідь чат-бота безпечною чи небезпечною, оскільки була приблизно однакова кількість респондентів, які позначили їх як безпечні чи небезпечні.
  • Різноманітність оцінювачів і даних відіграє вирішальну роль в оцінюванні моделей. Неможливість визнати широкий діапазон людських точок зору та неоднозначність, присутню в контенті, може перешкодити узгодженню продуктивності машинного навчання з очікуваннями реального світу.
  • 80% зусиль щодо безпеки штучного інтелекту вже досить хороші, але решта 20% вимагають подвоєння зусиль для вирішення крайових випадків і всіх варіантів у нескінченному просторі різноманітності.

​Статистика узгодженості, власний досвід і чому молоді люди набагато розумніші за сучасний ШІ 

In її розмова, Лінда Сміт, видатний професор Університету Індіани в Блумінгтоні, дослідила тему нестачі даних у процесах навчання немовлят і дітей раннього віку. Вона особливо зосередилася на розпізнаванні об’єктів і вивченні імен, заглиблюючись у те, як статистичні дані про досвід, створений немовлятами, пропонують потенційні рішення проблеми нестачі даних.

Програма вебінару

  • До трьох років у дітей розвивається здатність самостійно вивчати різні сфери. Менш ніж за 16,000 1,000 годин неспання до свого четвертого дня народження вони встигають вивчити понад XNUMX категорій предметів, освоїти синтаксис своєї рідної мови та ввібрати культурні та соціальні нюанси свого середовища.
  • Доктор Лінда Сміт і її команда відкрили три принципи людського навчання, які дозволяють дітям фіксувати так багато з таких рідкісних даних:
    • Учні контролюють вхідні дані, момент за моментом вони формують і структурують вхідні дані. Наприклад, протягом перших кількох місяців свого життя діти схильні більше дивитися на предмети з простими краями.
    • Оскільки діти постійно вдосконалюють свої знання та здібності, вони навчаються за дуже обмеженою навчальною програмою. Дані, які їм доступні, організовані дуже важливими способами. Наприклад, немовлята до 4 місяців проводять найбільше часу, дивлячись на обличчя, приблизно 15 хвилин на годину, тоді як діти старше 12 місяців зосереджуються переважно на руках, спостерігаючи за ними приблизно 20 хвилин на годину.
    • Епізоди навчання складаються з серії взаємопов’язаних переживань. Просторові та часові кореляції створюють узгодженість, яка, у свою чергу, сприяє формуванню довготривалих спогадів про одноразові події. Наприклад, коли дітям пропонують випадковий асортимент іграшок, вони часто зосереджуються на кількох «улюблених» іграшках. Вони займаються цими іграшками, використовуючи повторювані шаблони, що допомагає швидше вивчати предмети.
  • Перехідні (робочі) спогади зберігаються довше, ніж сенсорні дані. Властивості, які покращують процес навчання, включають мультимодальність, асоціації, прогнозні зв’язки та активацію минулих спогадів.
  • Для швидкого навчання потрібен альянс між механізмами, які генерують дані, і механізмами, які навчаються.
навчання немовлят

​Створення ескізів: основні інструменти, вдосконалення навчання та адаптивна надійність 

Джелані Нельсон, професор електротехніки та комп’ютерних наук Каліфорнійського університету в Берклі, представив концепцію «ескізів» даних – стиснуте в пам’ять представлення набору даних, яке все ще дозволяє відповідати на корисні запити. Хоча розмова була досить технічною, вона дала чудовий огляд деяких фундаментальних інструментів для ескізів, у тому числі останніх досягнень.

Ключові висновки:

  • CountSketch, основний інструмент створення ескізів, був вперше представлений у 2002 році для вирішення проблеми «сильних нападів», звітуючи про невеликий список найчастіших елементів із заданого потоку елементів. CountSketch був першим відомим сублінійним алгоритмом, використаним для цієї мети.
  • Дві непотокові програми важких нападників включають:
    • Метод на основі внутрішніх точок (IPM), який дає асимптотично найшвидший відомий алгоритм для лінійного програмування.
    • Метод HyperAttention, який вирішує обчислювальну проблему, спричинену зростаючою складністю довгих контекстів, які використовуються в LLM.
  • Значна частина останніх робіт була зосереджена на розробці ескізів, стійких до адаптивної взаємодії. Основна ідея полягає в тому, щоб використовувати інформацію з адаптивного аналізу даних.

Крім панелі масштабування 

це чудова панель на великих мовних моделях модерував Олександр Раш, доцент Cornell Tech і дослідник Hugging Face. Серед інших учасників були:

  • Аканкша Чоудгері – науковий співробітник Google DeepMind, який цікавиться системами, попередньою підготовкою магістра права та мультимодальністю. Вона була частиною команди, яка розробляла PaLM, Gemini та Pathways.
  • Анджела Фан – науковий співробітник Meta Generative AI, яка цікавиться вирівнюванням, центрами обробки даних і багатомовністю. Брала участь у розробці Llama-2 і Meta AI Assistant.
  • Персі Лянг – професор Стенфордського університету, який досліджує креаторів, відкритий вихідний код і генеративних агентів. Він є директором Центру дослідження моделей фундаментів (CRFM) у Стенфорді та засновником Together AI.

Обговорення було зосереджено на чотирьох ключових темах: (1) архітектура та інженерія, (2) дані та узгодження, (3) оцінка та прозорість і (4) автори та учасники.

Ось деякі висновки з цієї панелі:

  • Навчання сучасних мовних моделей не є складним. Основна проблема під час навчання такої моделі, як Llama-2-7b, полягає у вимогах до інфраструктури та необхідності координації між декількома графічними процесорами, центрами обробки даних тощо. Однак, якщо кількість параметрів достатньо мала, щоб дозволити навчання на одному графічному процесорі, навіть студент може впоратися з цим.
  • У той час як моделі авторегресії зазвичай використовуються для створення тексту, а моделі дифузії для створення зображень і відео, були експерименти зі зміною цих підходів. Зокрема, у проекті Gemini авторегресійна модель використовується для створення зображень. Були також дослідження використання дифузійних моделей для генерації тексту, але вони ще не виявилися достатньо ефективними.
  • Враховуючи обмежену доступність англомовних даних для навчальних моделей, дослідники досліджують альтернативні підходи. Однією з можливостей є навчання мультимодальних моделей на поєднанні тексту, відео, зображень та аудіо з розрахунком, що навички, отримані з цих альтернативних модальностей, можуть бути перенесені в текст. Інший варіант – використання синтетичних даних. Важливо зазначити, що синтетичні дані часто змішуються з реальними даними, але ця інтеграція не є випадковою. Текст, опублікований в Інтернеті, зазвичай проходить перевірку та редагування людьми, що може додати додаткову цінність для навчання моделі.
  • Відкриті фундаментальні моделі часто вважаються корисними для інновацій, але потенційно шкідливими для безпеки ШІ, оскільки їх можуть використовувати зловмисники. Однак доктор Персі Лян стверджує, що відкриті моделі також позитивно сприяють безпеці. Він стверджує, що, будучи доступними, вони надають більшій кількості дослідників можливість проводити дослідження безпеки штучного інтелекту та переглядати моделі на потенційні вразливості.
  • Сьогодні анотування даних вимагає значно більше досвіду в області анотацій порівняно з п’ятьма роками тому. Однак, якщо в майбутньому помічники штучного інтелекту працюватимуть так, як очікується, ми отримуватимемо більше цінних даних зворотного зв’язку від користувачів, зменшуючи залежність від обширних даних від анотаторів.

​Системи для базових моделей і базові моделі для систем 

In ця розмова, Крістофер Ре, доцент кафедри комп’ютерних наук Стенфордського університету, показує, як базові моделі змінили системи, які ми створюємо. Він також досліджує, як ефективно створювати моделі основи, запозичуючи інформацію з досліджень систем баз даних, і обговорює потенційно більш ефективні архітектури для моделей основи, ніж Transformer.

базові моделі для очищення даних

Ось основні висновки з цієї розмови:

  • Основні моделі ефективні у вирішенні проблем «смерті від 1000 порізів», коли кожне окреме завдання може бути відносно простим, але сама широта та різноманітність завдань є серйозною проблемою. Хорошим прикладом цього є проблема очищення даних, яку LLM тепер можуть допомогти вирішити набагато ефективніше.
  • Оскільки прискорювачі стають швидшими, пам’ять часто стає вузьким місцем. Це проблема, яку дослідники баз даних вирішують десятиліттями, і ми можемо прийняти деякі з їхніх стратегій. Наприклад, підхід Flash Attention мінімізує потоки вводу-виводу через блокування та агресивне злиття: щоразу, коли ми отримуємо доступ до частини інформації, ми виконуємо над нею якомога більше операцій.
  • Існує новий клас архітектур, заснований на обробці сигналів, який може бути ефективнішим, ніж модель Transformer, особливо при обробці довгих послідовностей. Обробка сигналу забезпечує стабільність і ефективність, закладаючи основу для інноваційних моделей, таких як S4.

Онлайн-навчання з підкріпленням у цифрових втручаннях у сфері охорони здоров’я 

In її розмова, Сьюзен Мерфі, професор статистики та комп’ютерних наук Гарвардського університету, поділилася першими рішеннями деяких проблем, з якими вони стикаються під час розробки онлайн-алгоритмів RL для використання в цифрових втручаннях у сфері охорони здоров’я.

Ось кілька висновків із презентації:

  • Доктор Сьюзен Мерфі обговорила два проекти, над якими вона працювала:
    • HeartStep, де запропоновано діяльність на основі даних зі смартфонів і носимих трекерів, а також
    • Oralytics для навчання здоров’ю ротової порожнини, де втручання ґрунтувалися на даних взаємодії, отриманих від електронної зубної щітки.
  • Розробляючи політику поведінки агента штучного інтелекту, дослідники повинні переконатися, що вона є автономною та може бути реально реалізована в ширшій системі охорони здоров’я. Це передбачає забезпечення того, щоб час, необхідний для участі особи, був розумним, а рекомендовані дії були як етично обґрунтованими, так і науково вірогідними.
  • Основні проблеми при розробці агента RL для цифрових втручань у здоров’я включають роботу з високим рівнем шуму, оскільки люди живуть своїм життям і не завжди можуть відповідати на повідомлення, навіть якщо вони цього бажають, а також керування сильними, відстроченими негативними ефектами .

Як бачите, NeurIPS 2023 дає яскравий погляд на майбутнє ШІ. Запрошені доповіді підкреслили тенденцію до більш ефективних, ресурсозберігаючих моделей і дослідження нових архітектур поза традиційними парадигмами.

Вам подобається ця стаття? Підпишіться на отримання нових оновлень щодо досліджень ШІ.

Ми повідомимо вас, коли випустимо більше таких підсумкових статей, як ця.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}

Часова мітка:

Більше від ТОПБОТИ