Den koreanske webgigant Naver debuterede i sidste uge en familie af store sprogmodeller ved navn HyperCLOVA X, som den hævdede klarer sig bedre til tværsproglige ræsonnementer på asiatiske sprog end andre modeller – og kan derfor hjælpe regionen med at udvikle suveræne store sprogmodeller.
Naver annoncerede debuten af HyperCLOVA X på koreansk og pegede på et engelsksproget teknisk rapport på open access-tidsskriftet arXiv, der hævder "Vi mener, at HyperCLOVA X - med dets konkurrenceevne på engelsk og andre sprog ud over koreansk - kan give nyttig vejledning til regioner eller lande om at udvikle deres egne suveræne LLM'er."
LLM'erne var forudtrænede på data "bestående af koreanske, flersprogede og kodesegmenter."
Den flersprogede undergruppe var overvejende engelsk, men omfattede også en række andre sprog - såsom japansk, tysk og fransk.
Koreansk sprogmateriale udgjorde omkring en tredjedel af før-træningsdataene, en indikation af, at Naver valgte at forbedre sine modellers ydeevne på sit eget sprog. Fortræningsprocessen tog også højde for det koreanske sprogs særlige grammatik.
Resultatet af denne indsats, hævder Naver, er modeller "med iboende færdigheder i både koreansk og engelsk."
Endnu bedre viser modellerne "flersprogethed" - evnen til at arbejde på andre sprog end dem, de er trænet til at håndtere.
"Vores analyse viser, at HyperCLOVA X ikke kun er i stand til at udvide sin ræsonnementevne ud over dets primært målrettede sprog, men også opnå det avancerede niveau inden for maskinoversættelse mellem koreansk og ikke-målrettede sprog, såsom japansk og kinesisk." oplyser teknisk rapport. "HyperCLOVA X's imponerende flersprogede evne inkluderer også tværsproglig overførsel mellem koreansk og engelsk, hvor instruktionsjustering på ét sprog kan føre til fremkomsten af instruktionsfølgende evner på det andet," tilføjede den.
Flersprogede testresultater fik udvikleren til at konkludere, at HyperCLOVA X "kan overføres til asiatiske sprog, der er underrepræsenteret i før-træningsdataene."
Sovereign AI dukker op som en nødvendig national kapacitet – som et middel til at sikre datasikkerhed og reducere afhængigheden af offshore-udbydere. Nvidia har forkæmpet konceptet, som tilfældigvis har potentialet til at skabe et endnu større marked for sine varer.
Men som Navers tekniske rapport påpeger, er engelske og nordamerikanske kulturer "ekstremt overrepræsenteret i føruddannelseskorpus" for eksisterende mainstream LLM'er.
"Som følge heraf udviser disse LLM'er begrænsninger i deres evne til at behandle og forstå ikke-engelske sprog som koreansk, som legemliggør karakteristiske kulturelle nuancer, geopolitiske situationer og andre regionale specificiteter, såvel som unikke sproglige egenskaber," forklarer det.
Det regionale tunge Kina har forsøgt at udvikle LLM'er i sin nationale interesse – eller i det mindste KKP's interesse – for at varierende succes. Ikke desto mindre havde chatbots som Baidu's ERNIE høstet over 100 millioner brugere ved udgangen af 2023.
Nak-ho-Seon, leder af Naver Cloud Hyperscale AI-teknologi, erklærede, at de planlægger "at skabe specialiseret superskala AI til forskellige regioner og lande i fremtiden."
I mellemtiden indeholder den tekniske rapport et løfte om at "udforske multimodalitet med det formål at udvide HyperCLOVA X's muligheder til problemfrit at behandle og integrere forskellige typer data, såsom tekst, billeder og lyd", mens man søger at optimere modellens inferencing-evner.
Naver hævdede at "aktivt forske i integrationen af eksterne værktøjer og API'er for at øge modellens funktionaliteter" - en bestræbelse, som den mener vil "gøre det muligt for HyperCLOVA X at få adgang til specialiserede datasæt og tjenester." ®
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://go.theregister.com/feed/www.theregister.com/2024/04/08/naver_cloud_hyperclova_llm_sovereign_ai/
- :har
- :er
- :ikke
- :hvor
- $OP
- 100
- 2023
- 7
- a
- evner
- evne
- I stand
- adgang
- Konto
- opnå
- aktivt
- tilføjet
- AI
- sigter
- også
- amerikansk
- an
- analyse
- ,
- API'er
- ER
- omkring
- AS
- asiatisk
- At
- attributter
- lyd
- forøge
- Baidu
- BE
- Tro
- mener
- Bedre
- mellem
- Beyond
- både
- udvide
- men
- by
- CAN
- kapaciteter
- kapacitet
- Kapacitet
- CCP
- forkæmper
- chatbots
- Kina
- kinesisk
- valgte
- hævdede
- Cloud
- CO
- kode
- konkurrencedygtig
- Indeholder
- Konceptet
- konkluderer
- følgelig
- lande
- skabe
- kulturelle
- kulturer
- data
- datasikkerhed
- datasæt
- debut
- debuterede
- Debuterer
- erklærede
- Afhængighed
- udvikle
- Udvikler
- udvikling
- Skærm
- karakteristisk
- forskelligartede
- indsats
- legemliggør
- fremkomsten
- smergel
- muliggøre
- ende
- bestræbe sig
- Engelsk
- sikring
- Endog
- udstille
- eksisterende
- Forklarer
- udforske
- udvide
- ekstern
- ekstremt
- familie
- Til
- Fransk
- funktionaliteter
- fremtiden
- geopolitiske
- Tysk
- kæmpe
- grammatik
- vejledning
- havde
- håndtere
- hoved
- Heavyweight
- hjælpe
- hjælpsom
- Home
- HTML
- HTTPS
- billeder
- imponerende
- Forbedre
- in
- medtaget
- omfatter
- tegn
- iboende
- integrere
- integration
- interesse
- ind
- IT
- ITS
- japansk
- tidsskrift
- jpg
- koreansk
- Sprog
- Sprog
- stor
- større
- Efternavn
- føre
- mindst
- Led
- Niveau
- ligesom
- begrænsninger
- LLM
- maskine
- lavet
- Mainstream
- Marked
- materiale
- Kan..
- midler
- million
- model
- modeller
- Som hedder
- national
- Naver
- nødvendig
- Nord
- nuancer
- Nvidia
- of
- on
- ONE
- kun
- åbent
- Optimer
- or
- Andet
- vores
- ud
- i løbet af
- egen
- særlig
- Udfør
- ydeevne
- planer
- plato
- Platon Data Intelligence
- PlatoData
- Løfte
- punkter
- potentiale
- overvejende
- primært
- behandle
- give
- udbydere
- reducere
- region
- regional
- regioner
- indberette
- resultere
- Resultater
- Reuters
- s
- problemfrit
- sikkerhed
- søger
- segmenter
- Tjenester
- Shows
- situationer
- søgte
- suveræne
- specialiserede
- state-of-the-art
- Stater
- sådan
- målrettet
- Teknisk
- Teknologier
- prøve
- tekst
- end
- at
- Fremtiden
- deres
- derfor
- Disse
- Tredje
- dem
- til
- tog
- værktøjer
- uddannet
- overførsel
- overført
- Oversættelse
- typer
- underrepræsenteret
- forstå
- enestående
- brugere
- række
- forskellige
- var
- we
- web
- uge
- GODT
- var
- som
- mens
- vilje
- med
- Arbejde
- X
- endnu
- zephyrnet