NeurIPS 2023: Viktiga tips från inbjudna samtal

NeurIPS 2023: Viktiga tips från inbjudna samtal

NeurIPS 2023-samtal

Genererad med Midjourney

NeurIPS 2023-konferensen, som hölls i den pulserande staden New Orleans från 10 till 16 december, hade en särskild tonvikt på generativ AI och stora språkmodeller (LLMs). I ljuset av de senaste banbrytande framstegen på detta område var det ingen överraskning att dessa ämnen dominerade diskussionerna.

Ett av kärnteman för årets konferens var strävan efter effektivare AI-system. Forskare och utvecklare letar aktivt efter sätt att konstruera AI som inte bara lär sig snabbare än nuvarande LLM:er utan också har förbättrade resonemangsmöjligheter samtidigt som de förbrukar färre datorresurser. Denna strävan är avgörande i kapplöpningen mot att uppnå artificiell allmän intelligens (AGI), ett mål som verkar alltmer uppnåeligt inom en överskådlig framtid.

De inbjudna samtalen på NeurIPS 2023 var en återspegling av dessa dynamiska och snabbt föränderliga intressen. Presentatörer från olika sfärer av AI-forskning delade med sig av sina senaste prestationer och gav ett fönster till banbrytande AI-utveckling. I den här artikeln fördjupar vi oss i dessa samtal, extraherar och diskuterar de viktigaste takeaways och lärdomarna, som är avgörande för att förstå nuvarande och framtida landskap av AI-innovation.

NextGenAI: Delusion of Scaling and the Future of Generative AI 

In hans talBjörn Ommer, chef för Computer Vision & Learning Group vid Ludwig Maximilian University i München, delade hur hans labb kom till att utveckla stabil diffusion, några lärdomar de lärde sig från denna process och den senaste utvecklingen, inklusive hur vi kan blanda diffusionsmodeller med flödesmatchning, återvinningsförstärkning och LoRA-approximationer, bland annat.

diffusionsmodeller

Viktiga takeaways:

  • I en ålder av Generativ AI flyttade vi från fokus på perception i synmodeller (dvs objektigenkänning) till att förutsäga de saknade delarna (t.ex. bild- och videogenerering med diffusionsmodeller).
  • I 20 år var datorseendet fokuserat på benchmarkforskning, vilket bidrog till att fokusera på de mest framträdande problemen. I Generativ AI har vi inga riktmärken att optimera för, vilket öppnade fältet för alla att gå i sin egen riktning.
  • Diffusionsmodeller kombinerar fördelarna med tidigare generativa modeller genom att vara poängbaserade med en stabil träningsprocedur och effektiv provredigering, men de är dyra på grund av sin långa Markov-kedja.
  • Utmaningen med starka sannolikhetsmodeller är att de flesta bitarna går in i detaljer som knappast kan märkas av det mänskliga ögat, medan kodning av semantik, som betyder mest, bara tar några få bitar. Enbart skalning skulle inte lösa det här problemet eftersom efterfrågan på datorresurser växer 9 gånger snabbare än utbudet av GPU.
  • Den föreslagna lösningen är att kombinera styrkorna hos Diffusionsmodeller och ConvNets, särskilt effektiviteten hos faltningar för att representera lokala detaljer och uttrycksfullheten hos diffusionsmodeller för långväga sammanhang.
  • Björn Ommer föreslår också att man använder ett flödesmatchande tillvägagångssätt för att möjliggöra högupplöst bildsyntes från små latenta diffusionsmodeller.
  • Ett annat tillvägagångssätt för att öka effektiviteten i bildsyntes är att fokusera på scenkomposition samtidigt som man använder återvinningsförstärkning för att fylla i detaljerna.
  • Slutligen introducerade han iPoke-metoden för kontrollerad stokastisk videosyntes.

Om detta djupgående innehåll är användbart för dig, prenumerera på vår AI-e-postlista att bli varnade när vi släpper nytt material. 

Ansvarsfull AIs många ansikten 

In hennes presentation, Lora Aroyo, forskare vid Google Research, framhöll en viktig begränsning i traditionella metoder för maskininlärning: deras beroende av binära kategoriseringar av data som positiva eller negativa exempel. Denna alltför förenkling, hävdade hon, förbiser den komplexa subjektiviteten som är inneboende i verkliga scenarier och innehåll. Genom olika användningsfall visade Aroyo hur oklarheter i innehållet och den naturliga variansen i mänskliga åsikter ofta leder till oundvikliga meningsskiljaktigheter. Hon betonade vikten av att behandla dessa meningsskiljaktigheter som meningsfulla signaler snarare än bara brus.

ansvarig AI

Här är viktiga tips från föredraget:

  • Oenighet mellan mänskliga laboratorier kan vara produktiv. Istället för att behandla alla svar som antingen korrekta eller felaktiga, introducerade Lora Aroyo "sanning genom oenighet", ett tillvägagångssätt för fördelningssanning för att bedöma datas tillförlitlighet genom att utnyttja bedömarnas oenighet.
  • Datakvalitet är svårt även med experter eftersom experter är lika oeniga som crowdlabers. Dessa meningsskiljaktigheter kan vara mycket mer informativa än svar från en enda expert.
    • I säkerhetsutvärderingsuppgifter är experter oense om 40 % av exemplen. Istället för att försöka lösa dessa meningsskiljaktigheter måste vi samla in fler sådana exempel och använda dem för att förbättra modellerna och utvärderingsmåtten.
  • Lora Aroyo presenterade också sina Säkerhet med mångfald metod för att granska uppgifterna i termer av vad i den och vem som har kommenterat den.
    • Denna metod producerade en referensdatauppsättning med variation i LLM-säkerhetsbedömningar över olika demografiska grupper av bedömare (totalt 2.5 miljoner betyg).
    • För 20 % av konversationerna var det svårt att avgöra om chatbot-svaret var säkert eller osäkert, eftersom det fanns ungefär lika många respondenter som stämplade dem som antingen säkra eller osäkra.
  • Mångfalden av bedömare och data spelar en avgörande roll vid utvärdering av modeller. Att misslyckas med att erkänna det breda utbudet av mänskliga perspektiv och den oklarhet som finns i innehållet kan hindra anpassningen av maskininlärningsprestanda till verkliga förväntningar.
  • 80 % av AI-säkerhetsinsatserna är redan ganska bra, men de återstående 20 % kräver en fördubbling av ansträngningen för att ta itu med kantfall och alla varianter i mångfaldens oändliga utrymme.

​Koherensstatistik, egengenererad erfarenhet och varför unga människor är mycket smartare än nuvarande AI 

In hennes samtal, Linda Smith, en framstående professor vid Indiana University Bloomington, utforskade ämnet gleshet med data i inlärningsprocesser för spädbarn och små barn. Hon fokuserade specifikt på objektigenkänning och namninlärning, och grävde ner sig i hur statistiken över självgenererade upplevelser av spädbarn erbjuder potentiella lösningar på utmaningen med datagleshet.

Viktiga takeaways:

  • Vid tre års ålder har barn utvecklat förmågan att vara engångslärare inom olika områden. På mindre än 16,000 1,000 vakna timmar fram till sin fjärde födelsedag lyckas de lära sig över XNUMX XNUMX objektkategorier, bemästra syntaxen i sitt modersmål och ta till sig de kulturella och sociala nyanserna i sin miljö.
  • Dr. Linda Smith och hennes team upptäckte tre principer för mänskligt lärande som gör att barn kan fånga så mycket från så sparsam data:
    • Eleverna kontrollerar input, från ögonblick till ögonblick formar och strukturerar de input. Till exempel, under de första månaderna av sitt liv, tenderar bebisar att titta mer på föremål med enkla kanter.
    • Eftersom spädbarn ständigt utvecklas i sina kunskaper och förmågor, följer de en mycket begränsad läroplan. Den data de utsätts för är organiserad på djupt betydelsefulla sätt. Till exempel spenderar barn under 4 månader mest tid på att titta på ansikten, ungefär 15 minuter per timme, medan de äldre än 12 månader fokuserar främst på händerna och observerar dem i ungefär 20 minuter per timme.
    • Inlärningsavsnitt består av en serie sammanlänkade upplevelser. Rumsliga och tidsmässiga korrelationer skapar koherens, vilket i sin tur underlättar bildandet av bestående minnen från engångshändelser. Till exempel, när de presenteras med ett slumpmässigt urval av leksaker, fokuserar barn ofta på några få "favorit" leksaker. De engagerar sig med dessa leksaker med hjälp av repetitiva mönster, vilket hjälper till att snabbare lära sig föremålen.
  • Övergående (arbets)minnen kvarstår längre än den sensoriska ingången. Egenskaper som förbättrar inlärningsprocessen inkluderar multimodalitet, associationer, prediktiva relationer och aktivering av tidigare minnen.
  • För snabb inlärning behöver du en allians mellan mekanismerna som genererar data och mekanismerna som lär sig.
spädbarn som lär sig

Skissning: kärnverktyg, inlärningsförstärkning och adaptiv robusthet 

Jelani Nelson, professor i elektroteknik och datavetenskap vid UC Berkeley, introducerade begreppet "dataskisser" – en minneskomprimerad representation av en datauppsättning som fortfarande gör det möjligt att svara på användbara frågor. Även om föredraget var ganska tekniskt, gav det en utmärkt översikt över några grundläggande skissverktyg, inklusive de senaste framstegen.

Viktiga takeaways:

  • CountSketch, kärnskissverktyget, introducerades först 2002 för att ta itu med problemet med "heavy hiters", och rapporterade en liten lista över de vanligaste föremålen från den givna strömmen av föremål. CountSketch var den första kända sublinjära algoritmen som användes för detta ändamål.
  • Två icke-strömmande tillämpningar av tunga slagare inkluderar:
    • Interiör punktbaserad metod (IPM) som ger en asymptotiskt snabbaste kända algoritm för linjär programmering.
    • HyperAttention-metod som tar itu med den beräkningsutmaning som den växande komplexiteten hos långa sammanhang som används i LLM:er.
  • Mycket nyligen arbete har fokuserats på att designa skisser som är robusta för adaptiv interaktion. Huvudtanken är att använda insikter från adaptiv dataanalys.

Beyond Scaling Panel 

Denna bra panel på stora språkmodeller modererades av Alexander Rush, docent vid Cornell Tech och forskare vid Hugging Face. De andra deltagarna var:

  • Aakanksha Chowdhery – forskare på Google DeepMind med forskningsintressen inom system, LLM-förträning och multimodalitet. Hon var en del av teamet som utvecklade PaLM, Gemini och Pathways.
  • Angela Fan – Forskare vid Meta Generative AI med forskningsintressen inom anpassning, datacenter och flerspråkighet. Hon deltog i utvecklingen av Llama-2 och Meta AI Assistant.
  • Percy Liang – Professor vid Stanford som forskar om kreatörer, öppen källkod och generativa agenter. Han är direktör för Center for Research on Foundation Models (CRFM) i Stanford och grundaren av Together AI.

Diskussionen fokuserade på fyra nyckelämnen: (1) arkitekturer och ingenjörskonst, (2) data och anpassning, (3) utvärdering och transparens och (4) skapare och bidragsgivare.

Här är några av tipsen från denna panel:

  • Att träna nuvarande språkmodeller är inte i sig svårt. Den största utmaningen med att träna en modell som Llama-2-7b ligger i infrastrukturkraven och behovet av att koordinera mellan flera GPU:er, datacenter etc. Men om antalet parametrar är tillräckligt litet för att tillåta träning på en enda GPU, även en student kan hantera det.
  • Medan autoregressiva modeller vanligtvis används för textgenerering och diffusionsmodeller för att generera bilder och videor, har det gjorts experiment med att vända på dessa tillvägagångssätt. Specifikt, i Gemini-projektet, används en autoregressiv modell för bildgenerering. Det har också gjorts utforskningar av att använda diffusionsmodeller för textgenerering, men dessa har ännu inte visat sig vara tillräckligt effektiva.
  • Med tanke på den begränsade tillgängligheten av engelskspråkiga data för träningsmodeller undersöker forskare alternativa tillvägagångssätt. En möjlighet är att träna multimodala modeller på en kombination av text, video, bilder och ljud, med förväntningen att färdigheter som lärts från dessa alternativa modaliteter kan överföras till text. Ett annat alternativ är användningen av syntetiska data. Det är viktigt att notera att syntetisk data ofta smälter in i verklig data, men denna integration är inte slumpmässig. Text som publiceras online genomgår vanligtvis mänsklig kuration och redigering, vilket kan ge ytterligare värde för modellutbildning.
  • Öppna grundmodeller ses ofta som fördelaktiga för innovation men potentiellt skadliga för AI-säkerhet, eftersom de kan utnyttjas av illvilliga aktörer. Dr. Percy Liang menar dock att öppna modeller också bidrar positivt till säkerheten. Han menar att de genom att vara tillgängliga ger fler forskare möjligheter att bedriva AI-säkerhetsforskning och att se över modellerna för potentiella sårbarheter.
  • Idag kräver annoteringsdata betydligt mer expertis inom annoteringsdomänen jämfört med för fem år sedan. Men om AI-assistenter presterar som förväntat i framtiden kommer vi att få mer värdefull feedback från användare, vilket minskar beroendet av omfattande data från annotatorer.

​System för grundmodeller och grundmodeller för system 

In det här samtalet, Christopher Ré, docent vid institutionen för datavetenskap vid Stanford University, visar hur grundmodeller förändrade de system vi bygger. Han utforskar också hur man effektivt bygger grundmodeller, lånar insikter från databassystemforskning och diskuterar potentiellt mer effektiva arkitekturer för grundmodeller än Transformer.

grundmodeller för datarensning

Här är de viktigaste tipsen från detta föredrag:

  • Grundmodeller är effektiva för att ta itu med problem med "död med 1000 nedskärningar", där varje enskild uppgift kan vara relativt enkel, men den stora bredden och mångfalden av uppgifter utgör en betydande utmaning. Ett bra exempel på detta är datarensningsproblemet, som LLMs nu kan hjälpa till att lösa mycket mer effektivt.
  • När acceleratorerna blir snabbare framträder minnet ofta som en flaskhals. Detta är ett problem som databasforskare har ägnat sig åt i decennier, och vi kan anta några av deras strategier. Till exempel, tillvägagångssättet Flash Attention minimerar input-output-flöden genom blockering och aggressiv sammansmältning: när vi kommer åt en bit information utför vi så många operationer som möjligt på den.
  • Det finns en ny klass av arkitekturer, rotade i signalbehandling, som kan vara effektivare än Transformer-modellen, särskilt vid hantering av långa sekvenser. Signalbehandling erbjuder stabilitet och effektivitet, vilket lägger grunden för innovativa modeller som S4.

Online förstärkningsinlärning i digitala hälsointerventioner 

In hennes samtal, Susan Murphy, professor i statistik och datavetenskap vid Harvard University, delade med sig av de första lösningarna på några av de utmaningar de står inför när de utvecklar online RL-algoritmer för användning i digitala hälsointerventioner.

Här är några tips från presentationen:

  • Dr Susan Murphy diskuterade två projekt som hon har arbetat med:
    • HeartStep, där aktiviteter har föreslagits baserat på data från smartphones och bärbara trackers, och
    • Oralytics för munhälsocoaching, där interventioner baserades på engagemangsdata från en elektronisk tandborste.
  • När forskare utvecklar en beteendepolicy för en AI-agent måste forskarna se till att den är autonom och genomförbart kan implementeras i det bredare hälso- och sjukvårdssystemet. Detta innebär att säkerställa att den tid som krävs för en individs engagemang är rimlig och att de rekommenderade åtgärderna är både etiskt sunda och vetenskapligt rimliga.
  • De främsta utmaningarna med att utveckla en RL-agent för digitala hälsointerventioner inkluderar att hantera höga ljudnivåer, eftersom människor lever sina liv och kanske inte alltid kan svara på meddelanden, även om de vill, samt hantera starka, fördröjda negativa effekter .

Som du kan se har NeurIPS 2023 gett en lysande inblick i framtiden för AI. De inbjudna samtalen belyste en trend mot mer effektiva, resursmedvetna modeller och utforskandet av nya arkitekturer bortom traditionella paradigm.

Tycker du om den här artikeln? Registrera dig för fler AI-forskningsuppdateringar.

Vi meddelar dig när vi släpper fler sammanfattande artiklar som den här.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}

Tidsstämpel:

Mer från TOPPBOTS