지난주 한국의 대형 웹사이트 네이버는 HyperCLOVA X라는 대규모 언어 모델 제품군을 선보였습니다. 이 모델은 다른 모델보다 아시아 언어의 교차 언어 추론 성능이 더 뛰어나며 따라서 해당 지역이 주권적 대규모 언어 모델을 개발하는 데 도움이 될 수 있다고 주장했습니다.
네이버 발표 HyperCLOVA X 한국어 출시, 영어 출시를 목표로 기술 보고서 오픈 액세스 저널 arXiv에서는 "우리는 영어 및 한국어 이외의 다른 언어에 대한 경쟁력 있는 역량을 갖춘 HyperCLOVA X가 지역 또는 국가가 자체 주권 LLM을 개발하는 데 유용한 지침을 제공할 수 있다고 믿습니다."라고 주장합니다.
LLM은 '한국어, 다국어, 코드 세그먼트로 구성된' 데이터에 대해 사전 학습되었습니다.
다국어 하위 집합은 주로 영어였지만 일본어, 독일어, 프랑스어 등 다양한 다른 언어도 포함되었습니다.
한국어 자료가 사전 훈련 데이터의 약 3분의 1을 차지했는데, 이는 네이버가 모국어에서 모델의 성능을 향상시키기로 결정했음을 나타냅니다. 사전 훈련 과정에서는 한국어의 특정 문법도 고려했습니다.
그 노력의 결과로 네이버는 “한국어와 영어 모두에 능숙한” 모델이 탄생했다고 주장한다.
더 좋은 점은 모델이 처리하도록 훈련받은 언어가 아닌 다른 언어로 작업할 수 있는 능력인 "다국어성"을 표시한다는 것입니다.
“우리의 분석에 따르면 HyperCLOVA X는 주요 대상 언어를 넘어 추론 능력을 확장할 수 있을 뿐만 아니라 한국어와 일본어, 중국어 등 비대상 언어 사이의 기계 번역에서도 최첨단 수준을 달성할 수 있는 것으로 나타났습니다.” 기술 보고서 상태. "HyperCLOVA X의 인상적인 다국어 능력에는 한국어와 영어 간의 교차 언어 전송도 포함됩니다. 한 언어의 지시 조정이 다른 언어의 지시 따르기 능력의 출현으로 이어질 수 있습니다."라고 덧붙였습니다.
다국어 테스트 결과 개발자는 HyperCLOVA X가 "사전 학습 데이터에서 과소 표현되는 아시아 언어로 이전될 수 있다"는 결론을 내렸습니다.
소버린 AI(Sovereign AI)는 데이터 보안을 보장하고 해외 제공업체에 대한 의존도를 줄이는 수단으로 필요한 국가 역량으로 떠오르고 있습니다. 엔비디아는 이 개념을 옹호했는데, 이는 우연히도 자사 제품에 대해 훨씬 더 큰 시장을 창출할 수 있는 잠재력을 가지고 있습니다.
그러나 네이버의 기술 보고서에서 지적했듯이, 기존 주류 LLM의 "사전 교육 자료에서 영어와 북미 문화가 극도로 과도하게 표현되어 있습니다".
"결과적으로 이러한 LLM은 독특한 문화적 뉘앙스, 지정학적 상황 및 기타 지역적 특성은 물론 고유한 언어적 특성을 구현하는 한국어와 같은 비영어권 언어를 처리하고 이해하는 능력에 한계가 있습니다."라고 설명합니다.
지역의 거물급 중국은 국가 이익 또는 적어도 중국 공산당의 이익을 위해 LLM을 개발하려고 노력해 왔습니다. 다양한 성공. 그럼에도 불구하고 Baidu의 ERNIE와 같은 챗봇은 얻은 100년 말까지 사용자가 2023억 명을 넘습니다.
네이버 클라우드 하이퍼스케일 AI 기술 총괄 선낙호 대표는 “향후 다양한 지역, 국가에 특화된 초대형 AI를 만들겠다”고 밝혔다.
한편, 기술 보고서에는 "텍스트, 이미지, 오디오 등 다양한 유형의 데이터를 원활하게 처리하고 통합하는 HyperCLOVA X의 기능을 확장하는 것을 목표로 하는 다중 모드를 탐색하는 동시에 모델의 추론 능력을 최적화하는 방법을 모색하겠다"는 공약이 포함되어 있습니다.
네이버는 "모델의 기능을 강화하기 위해 외부 도구와 API의 통합을 적극적으로 연구하고 있다"고 주장했는데, 이는 "HyperCLOVA X가 전문적인 데이터 세트와 서비스에 접근할 수 있게 할 것"이라고 믿고 있는 노력입니다. ®
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://go.theregister.com/feed/www.theregister.com/2024/04/08/naver_cloud_hyperclova_llm_sovereign_ai/
- :있다
- :이다
- :아니
- :어디
- $UP
- 100
- 2023
- 7
- a
- 능력
- 능력
- 할 수 있는
- ACCESS
- 계정
- 달성
- 활발히
- 추가
- AI
- 조준
- 또한
- 미국 사람
- an
- 분석
- 및
- API
- 있군요
- 약
- AS
- 아시아 사람
- At
- 속성
- 오디오
- 증가하다
- 바이두
- BE
- 믿으세요
- 생각
- 더 나은
- 사이에
- 그 너머
- 두
- 넓히다
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- CAN
- 기능
- 능력
- 생산 능력
- ccp
- 옹호 한
- 잡담
- 중국
- 중국말
- 선택
- 주장
- 클라우드
- CO
- 암호
- 경쟁력
- 구성
- 개념
- 결론
- 따라서
- 국가
- 만들
- 문화적인
- 문화
- 데이터
- 데이터 보안
- 데이터 세트
- 데뷔
- 데뷔
- Debuts
- 선언 한
- 의존
- 개발
- 개발자
- 개발
- 디스플레이
- 특유의
- 몇몇의
- 노력
- 구현하다
- 출현
- 신흥
- 가능
- end
- 노력하다
- 영어
- 보장
- 조차
- 전시회
- 현존하는
- 설명
- 탐험
- 확장
- 외부
- 매우
- 가족
- 럭셔리
- 프랑스어
- 기능성
- 미래
- 지정 학적
- 독일 사람
- 거대한
- 문법
- 지도
- 했다
- 핸들
- 머리
- 헤비급 선수
- 도움
- 도움이
- 홈
- HTML
- HTTPS
- 형상
- 인상
- 개선
- in
- 포함
- 포함
- 표시
- 고유의
- 통합
- 완성
- 관심
- 으로
- IT
- 그
- 일본제
- 일지
- JPG
- 한국어
- 언어
- 언어
- 넓은
- 큰
- 성
- 리드
- 가장 작은
- 지도
- 레벨
- 처럼
- 한계
- LLM
- 기계
- 만든
- 주류
- 시장
- 자료
- XNUMX월..
- 방법
- 백만
- 모델
- 모델
- 이름
- 국가의
- 네이버
- 필요한
- North
- 뉘앙스
- 엔비디아
- of
- on
- ONE
- 만
- 열 수
- 최적화
- or
- 기타
- 우리의
- 아웃
- 위에
- 자신의
- 특별한
- 수행
- 성능
- 계획
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 서약
- 전철기
- 가능성
- 주로
- 주로
- 방법
- 제공
- 제공
- 감소
- 지방
- 지역적인
- 지역
- 신고
- 결과
- 결과
- 로이터
- s
- 완벽하게
- 보안
- 모색
- 세그먼트
- 서비스
- 쇼
- 상황
- 모색
- 주권자
- 전문
- 최첨단
- 미국
- 이러한
- 대상
- 테크니컬
- Technology
- test
- 본문
- 보다
- 그
- XNUMXD덴탈의
- 미래
- 그들의
- 따라서
- Bowman의
- 제삼
- 그
- 에
- 했다
- 검색을
- 훈련 된
- 이전
- 전송
- 번역
- 유형
- 불충분 한
- 이해
- 유일한
- 사용자
- 종류
- 여러
- 였다
- we
- 웹
- 주
- 잘
- 했다
- 어느
- 동안
- 의지
- 과
- 작업
- X
- 아직
- 제퍼 넷