Meta, 3세대 Llama 대형 언어 모델 출시

Meta, 3세대 Llama 대형 언어 모델 출시

Meta는 Llama 3이라는 최신 LLM(대형 언어 모델)을 출시했으며 Google, Mistral 및 Anthropic과 같은 훨씬 더 큰 모델에 도전할 것이라고 주장합니다.

장문으로 공개 발표 목요일에 Llama 3은 400억 개에서 XNUMX억 개가 넘는 매개 변수 버전으로 제공됩니다. 참고로 OpenAI와 Google의 최대 모델은 매개변수가 XNUMX조 개에 가깝습니다.

현재로서는 Llama 3의 70억 및 XNUMX억 매개변수 텍스트 변형에만 액세스할 수 있습니다. Meta는 아직 가장 크고 가장 복잡한 모델 교육을 완료하지 않았지만 다국어 및 다중 모드가 될 것임을 암시합니다. 즉, 여러 개의 작은 도메인 최적화 모델로 구성된다는 의미입니다.

70억 개의 매개변수만 있어도 Meta는 Llama 3가 훨씬 더 큰 모델과 정면으로 맞설 수 있다고 주장합니다.

Meta는 Llama3-8B 및 70B가 Gemini Pro 및 Antrhopic의 Claude 3를 포함한 훨씬 더 큰 모델보다 성능이 뛰어날 수 있다고 주장합니다.

Meta는 Llama3-8B 및 70B가 Gemini Pro 및 Antrhopic의 Claude 3을 포함한 훨씬 더 큰 모델보다 성능이 뛰어날 수 있다고 주장합니다. – 확대하려면 클릭하세요.

더 나은 데이터, 더 나은 모델

Meta에 따르면 가장 큰 이점 중 하나는 128,000개 토큰의 어휘를 갖춘 토크나이저를 사용하는 것입니다. LLM의 맥락에서 토큰은 몇 개의 문자, 전체 단어 또는 구문일 수 있습니다. AI는 인간의 입력을 토큰으로 분해한 다음 토큰 어휘를 사용하여 출력을 생성합니다.

Meta는 토크나이저가 언어를 보다 효율적으로 인코딩하여 성능을 크게 향상시키는 데 도움이 된다고 설명했습니다. 모델의 성능과 전반적인 정확도를 향상시키기 위해 훈련 후 더 높은 품질의 데이터 세트와 추가 미세 조정 단계를 사용하여 추가적인 이점을 얻었습니다.

특히 Meta는 Llama 3가 공개적으로 이용 가능한 소스에서 수집된 15조 개 이상의 토큰에 대해 사전 훈련을 받았다고 밝혔습니다.

Llama 3의 훈련 데이터세트는 Llama 2보다 XNUMX배 이상 크고 XNUMX배 더 많은 코드를 포함하고 있습니다. 시작 불과 3개월 전이에요. 그러나 “쓰레기가 들어오면 쓰레기가 나온다”는 속담처럼 Meta는 Llama XNUMX가 나쁜 정보를 가능한 한 적게 학습할 수 있도록 일련의 데이터 필터링 파이프라인을 개발했다고 주장합니다.

이러한 품질 관리에는 휴리스틱 및 NSFW 필터는 물론 데이터 중복 제거, 교육 전에 정보 품질을 예측하는 데 사용되는 텍스트 분류기가 포함되었습니다. Meta는 심지어 밀과 왕겨를 분리하는 데 도움을 주기 위해 "고품질 데이터를 식별하는 데 놀라울 정도로 뛰어난" 이전 Llama 2 모델을 사용하기도 했습니다.

훈련 데이터의 30%는 XNUMX개 이상의 언어에서 왔으며, Meta는 앞으로 이것이 모델에 보다 실질적인 다국어 기능을 제공하는 데 도움이 될 것이라고 예측했습니다. 현재 Social Network™️에서는 사용자가 영어 이외의 언어에서 동일한 수준의 성능을 기대해서는 안 된다고 말합니다.

이렇게 큰 데이터 세트에서 작은 모델을 훈련하는 것은 일반적으로 컴퓨팅 시간 낭비로 간주되며 심지어 정확도가 떨어지는 결과를 낳기도 합니다. 학습 데이터와 컴퓨팅 리소스의 이상적인 조합을 "친칠라 최적” [PDF] 금액. Meta에 따르면 Llama3-8B와 같은 200억 개의 매개변수 모델의 경우 이는 약 XNUMX억 개의 토큰이 될 것입니다.

그러나 테스트에서 Meta는 더 큰 데이터 세트를 교육할 때에도 Llama 3의 성능이 계속 향상된다는 사실을 발견했습니다. "70억 개와 15억 개 매개변수 모델 모두 최대 XNUMX조 개의 토큰에 대해 교육한 후 로그 선형적으로 계속 개선되었습니다."라고 회사는 썼습니다.

그 결과는 훨씬 더 큰 모델과 비교할 수 있는 결과를 생성할 수 있는 상대적으로 컴팩트한 모델인 것 같습니다. 일반적으로 작은 모델은 추론하기 쉽고 규모에 맞게 배포하기도 쉽기 때문에 컴퓨팅의 절충은 가치 있는 것으로 간주되었을 가능성이 높습니다.

8비트 정밀도에서 8억 개의 매개변수 모델에는 단 4GB의 메모리가 필요합니다. 이를 지원하는 하드웨어를 사용하거나 양자화를 사용하여 모델을 압축하는 등 XNUMX비트 정밀도로 낮추면 메모리 요구 사항이 약 절반으로 줄어듭니다.

Meta는 각각 24,000개의 Nvidia GPU를 포함하는 한 쌍의 컴퓨팅 클러스터에서 모델을 교육했습니다. 상상할 수 있듯이 대규모 클러스터에 대한 교육은 속도는 빠르지만 몇 가지 문제도 발생합니다. 즉, 교육 실행 중에 오류가 발생할 가능성이 높아집니다.

이를 완화하기 위해 Meta는 오류 감지, 처리 및 유지 관리를 자동화하는 교육 스택을 개발했다고 설명했습니다. 하이퍼스케일러는 또한 훈련 실행이 중단될 경우 체크포인트 및 롤백의 오버헤드를 줄이기 위해 오류 모니터링 및 스토리지 시스템을 추가했습니다. 그리고 완료되면 Meta는 모델에 일련의 훈련 후 테스트와 미세 조정 단계를 거쳤습니다.

Llama3-8B 및 70B와 함께 Meta는 사용자가 남용 및/또는 즉각적인 주입 공격으로부터 모델을 보호할 수 있도록 Llama Guard 2 및 Cybersec Eval 2를 포함한 새롭고 업데이트된 신뢰 및 안전 도구도 출시했습니다. Code Shield는 Llama 3에서 생성된 안전하지 않은 코드를 필터링하는 데 도움이 되도록 설계된 가드레일을 제공하는 또 다른 추가 기능입니다.

이전에 보고한 대로 LLM 지원 코드 생성으로 인해 몇 가지 흥미로운 결과가 나왔습니다. 공격 벡터 메타가 피하려고 하는 거죠.

유효성

향후 몇 달에 걸쳐 Meta는 400억 개의 매개변수를 초과하고 추가 기능, 언어 및 더 큰 컨텍스트 창을 지원하는 모델을 포함하여 추가 모델을 출시할 계획입니다. 후자를 사용하면 사용자는 큰 텍스트 블록을 요약하는 것과 같이 더 크고 복잡한 쿼리를 요청할 수 있습니다.

Llama3-8B 및 70B는 현재 Meta's에서 다운로드할 수 있습니다. 웹 사이트. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face 등도 자사 플랫폼에 배포할 모델을 제공할 계획입니다.

컴퓨터에서 Llama3를 테스트하고 싶다면 로컬 LLM 실행에 대한 가이드를 확인하세요. 여기에서 지금 확인해 보세요.. 설치가 완료되면 다음을 실행하여 시작할 수 있습니다.

올라마 런 라마3

즐거운 시간을 보내시고 어떻게 진행되었는지 알려주세요. ®

타임 스탬프 :

더보기 등록