Technology Innovation Institute, Amazon SageMaker에서 최첨단 Falcon LLM 40B 기반 모델 교육

플라톤에 의해 재발행

팔로워 : 0

이 블로그 게시물은 TII에서 AI-Cross Center Unit의 수석 AI 연구원이자 LLM 프로젝트의 프로젝트 책임자인 Ebtesam Almazrouei 박사와 공동으로 작성되었습니다.

아랍에미리트(UAE) 기술혁신연구소(TII), Abu Dhabi의 응용 연구 기둥 첨단 기술 연구 협의회, 40억 개의 매개변수가 있는 기본 LLM(Large Language Model)인 Falcon LLM을 출시했습니다. TII는 지식의 한계를 뛰어넘는 데 전념하는 선도적인 글로벌 연구 센터입니다. TII의 과학자, 연구원 및 엔지니어 팀은 발견 과학 및 변형 기술을 제공하기 위해 노력합니다. TII의 작업은 우리 사회의 미래를 보장할 돌파구에 초점을 맞추고 있습니다. 1조 개의 토큰으로 교육, TII 팔콘 LLM 놀라운 비용 효율성을 유지하면서 최고의 성능을 자랑합니다. Falcon-40B는 다른 고성능 LLM의 성능과 일치하며 대중에게 가장 높은 순위의 오픈 소스 모델입니다. Hugging Face Open LLM 리더보드. Falcon-40B 및 Falcon-7B의 두 가지 크기로 오픈 소스로 사용할 수 있으며 데이터 전처리 및 모델 교육 작업을 사용하여 처음부터 구축되었습니다. 아마존 세이지 메이커. 오픈 소싱 Falcon 40B를 통해 사용자는 고유한 사용자 요구 사항을 충족하는 AI 도구를 구성 및 사용자 지정하여 원활한 통합을 촉진하고 데이터 자산의 장기 보존을 보장할 수 있습니다. 모델 가중치는 어디에서나 다운로드, 검사 및 배포할 수 있습니다.

7월 XNUMX일부터 두 Falcon LLM은 Amazon SageMaker JumpStart에서도 사용할 수 있습니다. SageMaker의 기계 학습(ML) 허브는 ML을 빠르게 시작할 수 있도록 사전 훈련된 모델, 내장 알고리즘 및 사전 구축된 솔루션 템플릿을 제공합니다. 몇 번의 클릭만으로 Falcon LLM을 배포하고 사용할 수 있습니다. SageMaker 스튜디오 또는 프로그래밍 방식으로 SageMaker Python SDK. Falcon LLM에 대한 추론을 배포하고 실행하려면 다음을 참조하십시오. SageMaker JumpStart 소개 – Falcon LLM을 사용한 텍스트 생성 예시 노트북.

Technology Innovation Institute는 Amazon SageMaker에서 최첨단 Falcon LLM 40B 기반 모델을 교육합니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

AI-Cross Center Unit의 최고 AI 연구원이자 TII의 LLM 프로젝트 책임자인 Ebtesam Almazrouei 박사는 다음과 같이 말합니다.

“우리는 세계 최고의 오픈 소스 언어 모델인 Falcon-40B의 공식 오픈 소스 릴리스를 자랑스럽게 발표합니다. Falcon-40B는 인과적 디코더 전용 모델로 특별히 설계된 40B 매개변수가 포함된 뛰어난 오픈 소스 모델입니다. 선별된 말뭉치로 강화된 RefinedWeb을 포함하여 1,000B 토큰의 방대한 데이터 세트에서 훈련되었습니다. 이 모델은 Apache 2.0 라이선스에 따라 제공되므로 접근성과 유용성이 보장됩니다. Falcon-40B는 Hugging Face가 관리하는 공개 순위표에서 LLaMA-65B, StableLM 및 MPT와 같은 유명한 모델을 능가했습니다. Falcon-40B의 아키텍처는 FlashAttention 및 다중 쿼리 기술을 통합하여 추론에 최적화되어 있습니다.”

“이 단계는 커뮤니티 참여, 교육, 실제 응용 프로그램 및 협업을 위해 AI 혁신 및 기술 준비 수준의 경계를 넓히려는 우리의 노력을 반영합니다. Ebtesam 박사는 계속합니다. “Falcon-40B를 오픈 소스 모델로 출시함으로써 우리는 연구원, 기업가 및 조직에 탁월한 기능을 활용하고 의료에서 우주, 금융, 제조, 생명 공학에 이르는 AI 기반 솔루션의 발전을 주도할 수 있는 기회를 제공합니다. AI 기반 솔루션의 가능성은 무궁무진합니다. Falcon-40B에 액세스하고 놀라운 잠재력을 탐색하려면 다음을 방문하십시오. FalconLLM.tii.ae. AI의 미래를 형성하고 산업을 혁신하기 위해 Falcon-40B의 힘을 활용하는 데 우리와 함께하십시오.”

이 게시물에서는 Almazrouei 박사와 함께 SageMaker에 대한 Falcon LLM 교육, 데이터 큐레이션, 최적화, 성능 및 다음 단계에 대해 자세히 알아봅니다.

차세대 LLM

LLM은 자연스러운 텍스트 시퀀스를 완성하도록 훈련된 소프트웨어 알고리즘입니다. 상호 작용하는 교육 데이터의 크기와 양으로 인해 LLM은 요약, 질문 답변, 상황에 맞는 학습 등을 포함한 인상적인 텍스트 처리 능력을 갖추고 있습니다.

2020년 초, 전 세계 연구 기관은 모델 크기에 중점을 두어 정확도가 매개변수 수와 상관관계가 있음을 관찰했습니다. 예를 들어 GPT-3(2020) 및 BLOOM(2022)에는 약 175억 개의 매개변수가 있고, Gopher(2021)에는 230억 개의 매개변수가 있으며, MT-NLG(2021)에는 530억 개의 매개변수가 있습니다. 2022년에는 Hoffmanet al. 모델 매개변수와 데이터 세트 크기 사이의 현재 컴퓨팅 균형이 최적이 아님을 관찰했으며, 더 많은 데이터에 대해 훈련된 더 작은 모델로 컴퓨팅 예산의 균형을 맞추면 모델 성능이 향상될 수 있음을 시사하는 경험적 조정 법칙을 발표했습니다. 그들은 훨씬 더 큰 모델을 능가하는 70B 매개변수 Chinchilla(2022) 모델에서 지침을 구현했습니다.

SageMaker에 대한 LLM 교육

SageMaker는 LLM을 포함한 ML(기계 학습) 모델을 개발, 교육, 조정 및 호스팅하기 위한 관리형 API 모음입니다. 많은 고객이 다음과 같은 LLM 워크로드에 SageMaker를 사용합니다. 안정성 AI, AI21 연구소, 포옹하는 얼굴및 LG AI. SageMaker 교육 사용자 정의 하드웨어 구성 및 코드로 컴퓨팅 클러스터를 프로비저닝합니다. 컴퓨팅 작업은 실행당 청구되며 초 단위로 비례 배분됩니다. 즉, 사용자가 서비스를 사용하지 않을 때 GPU 용량에 대해 요금이 부과되지 않습니다. TII는 SageMaker Training API에서 제공하는 임시 클러스터를 사용하여 최대 48개의 ml.p4d.24xlarge 인스턴스, 384개의 NVIDIA A100 GPU에 누적되는 Falcon LLM을 교육했습니다. 이제 TII는 차세대 Falcon LLM을 교육하고 있으며 교육을 3,136 A100 GPU(392 ml.p4d 인스턴스)로 확장했습니다.

과학 품질 및 교육 속도의 기준을 높이기 위해 전례 없는 양의 맞춤형 혁신이 프로젝트의 모든 계층에 적용되었습니다. 다음 섹션에서는 딥 러닝(DL) 교육 시스템의 모든 계층에서 수행된 최적화 TII에 대해 설명합니다.

확장 가능한 데이터 큐레이션

최신 세대 LLM은 훈련 데이터의 크기와 품질에서 강점을 얻습니다. 팀은 고품질의 5.18조 토큰 데이터 세트 제작에 특별한 주의를 기울였습니다. 여러 SageMaker 교육 CPU 작업은 페타바이트 규모의 저렴하고 확장 가능한 웹 데이터를 선별된 안전한 교육 데이터 세트로 변환했습니다. 자동화된 시스템은 데이터를 필터링하고 중복 제거했습니다. 예를 들어 ML 분류자는 욕설을 필터링하는 데 사용되었습니다. ml.c72xlarge(vCPU 144개, 257GB RAM)에서 실행되는 CPU 작업은 데이터 변환 작업을 실행하기 위해 SageMaker Training을 통해 몇 번의 API 호출로 인스턴스화되었습니다. 팀은 다양한 사용 사례에 대해 단일 인스턴스 및 다중 인스턴스 CPU 작업을 모두 사용했습니다. 이러한 작업 중 일부는 각각 단일 시스템에서 수백 개의 병렬 SNA(Share-Nothing Architecture) 작업을 사용했으며 작업자 간 동기화가 필요한 작업을 위해 팀은 수십 개의 인스턴스와 수천 개의 vCPU에 누적되는 다중 인스턴스 작업을 시작했습니다. 일화로, 다운스트림 데이터 세트 준비 작업에서 팀은 단일 SageMaker 교육 작업에서 최대 5.18ml.c18,504xlarge로 증가하여 37개의 vCPU와 XNUMXTB의 메모리에 누적되었습니다.

교육 처리량 최대화

교육 비용과 출시 시간을 최소화하기 위해 팀은 초당 처리되고 TFLOPs/GPU에서 측정된 교육 토큰에 비례하여 교육 속도를 가속화하기 위해 몇 가지 최적화 방향을 추구했습니다. 팀은 컴파일된 GPU 코드로 작성된 맞춤형 최적화 계층을 특징으로 하는 완전한 맞춤형 3D 병렬 LLM 교육 프레임워크를 사용했습니다. 팀은 더 빠른 속도를 얻기 위해 자체 사용자 지정 행렬 곱셈 구현을 작성하기까지 했습니다! 팀은 또한 기본 네트워크 토폴로지에 병렬 통신을 적용하는 논리를 개발했습니다. 초기 스케일링 실험 동안 TII는 166 GPU의 147B 모델에서 256 TFLOPs/GPU에 도달할 수 있었고 173 GPU의 13B 모델에서 16 TFLOPs/GPU에 도달할 수 있었습니다. 2022년 말 시험 시기.

서버리스 스토리지

LLM 교육은 스토리지 집약적입니다. 수 테라바이트의 훈련 데이터는 훈련 클러스터로 전달되어야 하며 수 테라바이트의 모델 체크포인트는 정기적으로 클러스터에서 영구 저장소로 다시 이동합니다. 체크포인트는 또한 작업이 다시 시작되는 경우 가능한 한 빨리 교육 클러스터에 도달해야 합니다. 기존의 고성능 컴퓨팅(HPC)에서 컴퓨팅 노드는 POSIX와 유사한 인터페이스를 통해 고성능 I/O 및 처리량을 제공하는 분산 파일 시스템에 연결됩니다. AWS에서 고객은 정기적으로 Luster 용 Amazon FSx 이 목적을 위한 파일 시스템(자세한 내용은 Luster 및 Amazon EFS 파일 시스템 용 Amazon FSx를 사용하여 Amazon SageMaker에 대한 교육 속도 향상), 우리는 또한 BeeGFS의 자체 관리 사용을 문서화했습니다. 분산 컴퓨터 비전 사례 연구. 비용과 운영 단순성에 중점을 두었기 때문에 팀은 파일 시스템 서버를 구현 및 운영하지 않고 대신 서버리스 개체 스토리지 위에 독점적으로 구축하는 문제를 해결했습니다. 아마존 단순 스토리지 서비스 (아마존 S3). 사용자 지정 S3 데이터 세트 클래스는 AWS SDK for Python(Boto3)을 사용하여 구축되었으며 과학자들이 동일한 코드 베이스 내에서 I/O 엔지니어링 및 모델 과학을 자율적으로 반복할 수 있도록 하면서 만족스러운 성능을 제공했습니다.

클라이언트 측 혁신

LLM 프로젝트는 단일 교육 작업으로 구성되는 경우가 거의 없습니다. 초기 테스트 및 경험을 수행하려면 수많은 작업이 필요합니다. 주요 프로덕션 교육 과정에서 예를 들어 구성 또는 소프트웨어 버전 업데이트, 패치 배포 또는 장애 복구와 같은 여러 작업이 연결될 수 있습니다. TII의 과학자들은 LLM 교육에 적합한 맞춤형 클라이언트를 구축하기 위해 상당한 엔지니어링을 수행했습니다. 런처 클라이언트는 SageMaker Training SDK 위에 구축되어 코드 버전 관리, Docker 이미지 빌드, 작업 시작과 같은 여러 기능을 하나의 명령으로 통합합니다. 또한, AWS 람다 서버리스 컴퓨팅 기능은 필요에 따라 작업을 감시, 모니터링 및 개입하도록 설계되었습니다.

추론 품질 감사에 Slack 봇 사용

교육이 끝날 무렵 팀은 모델을 내부 SageMaker 호스팅 GPU 엔드포인트 실시간 상호 작용을 위해. 팀은 현실적인 피드백을 받고 모델의 정성적 품질 감사를 실행하기 위해 대화할 Slack 봇을 만들기까지 했습니다.

교육 및 성능 모니터링

LLM 교육에는 CPU, GPU 및 메모리 리소스를 포함하여 많은 양의 계산 리소스가 필요합니다. 따라서 TII는 컴퓨팅 리소스의 최적 활용과 비용 효율성을 보장하기 위해 훈련 작업의 성능과 유휴 시간을 모니터링해야 했습니다.

자동화된 모니터링 솔루션을 구축하기 위해 TII는 아마존 클라우드 워치 교육 작업에 대한 GPU, CPU 및 메모리 사용률을 모니터링하는 경보. CloudWatch는 원시 데이터를 수집하고 SageMaker Training 작업에서 사용 중인 기본 컨테이너 인스턴스에서 읽을 수 있는 거의 실시간 지표로 처리합니다. 그런 다음 이러한 각 메트릭에 대한 임계값을 설정하고 메트릭이 임계값 아래로 떨어지면 경보가 트리거됩니다. 이 경보는 TII의 팀에 리소스 활용도가 낮다는 사실을 알리고 리소스 활용 제약 조건을 수정하기 위한 수정 조치를 취할 수 있도록 합니다.

리소스 사용률을 모니터링하는 것 외에도 TII는 교육 작업 리소스의 유휴 시간도 모니터링할 수 있습니다. 교육 작업 리소스가 장기간 유휴 상태인 경우 교육 주기의 모든 단계에서 병목 현상을 나타낼 수 있으며 수동 조사가 필요합니다. 경우에 따라 리소스 활용도는 여전히 상대적으로 최적이었지만 교육 프로세스 자체는 진행되지 않았습니다. 이러한 경우 TII는 CloudWatch 경보를 Lambda 함수와 통합하여 생성된 교육 로그를 쿼리하고 읽은 다음 생성된 오류 또는 로그 생성 프로세스의 유휴 상태(클러스터가 중지됨)에 따라 자동 조치를 취합니다. 경보는 교육 작업을 중지하는 작업을 트리거하여 리소스가 활용되지 않을 때 TII에 불필요한 비용이 발생하지 않도록 합니다.

결론

TII는 독점적인 맞춤형 혁신과 결합된 SageMaker를 사용하여 기술 혁신, 과학적 품질, 교육 속도 및 운영 단순성과 같은 여러 차원에서 최첨단 모델을 교육할 수 있었습니다.

"UAE의 Falcon 40B 출시는 세계 최고의 오픈 소스 AI 모델로 기술 리더십을 보여주고 AI 기반 혁신을 위한 길을 열었습니다.이온”은 Ebtesam Almazrouei 박사를 나타냅니다. "라고 덧붙였습니다.우리는 국가 AI 전략 2031에 설명된 목표에 대한 우리의 약속을 입증합니다. Falcon-40B로 대표되는 글로벌 기술 발전에 대한 우리의 적극적인 참여는 지식 기반 경제를 추구하는 데 중요한 역할을 합니다. AI 솔루션에 대한 투자와 개발을 통해 경제 성장, 사회 발전, 교육 발전을 위한 새로운 기회 창출을 목표로 합니다.

“Falcon-40B의 오픈 소스 특성은 AI 분야의 협업, 투명성, 혁신 및 연구에 대한 우리의 헌신을 반영합니다. 우리는 고급 AI 기술 기능을 민주화하여 전 세계 연구원과 조직이 Falcon-40B에 액세스할 수 있다고 믿습니다.”

“앞으로 우리는 곧 출시될 모델을 통해 AI 및 기술 발전에 지속적으로 기여할 것입니다. 또한 우리나라의 조직과 기업 내에서 첨단 AI 기술의 채택을 적극적으로 촉진하여 전략적 목표에 부합하는 성장과 번영을 촉진할 것입니다.”

– 알마즈루에이 박사

Falcon LLM에 대해 자세히 알아보려면 웹사이트를 확인하세요. FalconLLM.tii.ae 및 Hugging Face의 모델 카드!

저자에 관하여

Ebtesam Almazrouei 박사 TII(Technology Innovation Institute)의 Al-Cross Center Unit의 전무이사 겸 수석 AI 연구원이자 설립자입니다. TII(Technology Innovation Institute)의 Al-Cross Center Unit 설립자인 Dr. Almazrouei는 TII의 AI 기능을 형성하는 데 중추적인 역할을 했습니다. AI 및 기계 학습에 대한 그녀의 전략적 비전과 전문 지식은 그녀가 획기적인 연구 이니셔티브를 이끌고 교차 기능 협업을 촉진하여 여러 산업에 걸쳐 혁신적인 AI 솔루션을 제공할 수 있는 권한을 부여했습니다.

Almazrouei 박사의 주목할만한 업적 중 하나는 Falcon 40B의 개발에서 중요한 역할을 한 것입니다. 이것은 세계적인 인정을 받은 최첨단 LLM입니다. Falcon 40B의 뛰어난 성능은 2023년 2022월 Hugging Face의 리더보드에서 전 세계 XNUMX위 LLM으로 선정되었습니다. 또한 그녀는 XNUMX년 XNUMX월에 출시된 세계 최대의 아랍어 LLM(대형 언어 모델)인 Noor의 개발을 주도했습니다.

Almazrouei 박사는 AI에 대한 기여로 전 세계적으로 인정받고 있으며 해당 분야의 다른 저명한 여성들과 함께 2023년 세계 최고의 AI 여성 목록에 이름을 올렸습니다. 그녀는 또한 지속 가능성 및 AI for Good 이니셔티브의 옹호자이자 Abu Dhabi AI Connect의 일반 의장이자 많은 IEEE 국제 회의의 TPC 의장입니다.

그녀의 기여는 UAE AI 및 블록체인 위원회의 빅 데이터 전문가 소위원회를 이끌고 있는 TII에서의 업무를 넘어 WWRF(Wireless World Research Forum)의 전 세계 운영 위원회 회원입니다. 그녀는 런던의 AI 서밋, 세계 AI 칸 페스티벌, 기술 서밋과 같은 권위 있는 서밋에서 기조 연설을 한 것으로 알려진 과학 저술가, 특허 발명가, 기업가 및 저명한 연사입니다.

윌 바드르 글로벌 Amazon 기계 학습 팀의 일원으로 일하는 UAE 두바이에 본사를 둔 AI/ML 솔루션 아키텍트 선임 관리자입니다. Will은 커뮤니티에 긍정적인 영향을 미치기 위해 혁신적인 방식으로 기술을 사용하는 데 열정적입니다. 여가 시간에는 다이빙, 축구, 태평양 제도 탐험을 즐깁니다.

올리비에 크루 샹 프랑스에 기반을 둔 AWS의 기계 학습 전문가 솔루션 아키텍트입니다. Olivier는 소규모 신생 기업에서 대기업에 이르기까지 AWS 고객이 프로덕션 수준의 기계 학습 애플리케이션을 개발하고 배포할 수 있도록 지원합니다. 여가 시간에는 연구 논문을 읽고 친구 및 가족과 함께 황야를 탐험하는 것을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
EVM 금융. 탈중앙화 금융을 위한 통합 인터페이스. 여기에서 액세스하십시오.
퀀텀미디어그룹. IR/PR 증폭. 여기에서 액세스하십시오.
PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/technology-innovation-institute-trains-the-state-of-the-art-falcon-llm-40b-foundation-model-on-amazon-sagemaker/

타임 스탬프 : ２０２３년 ６월 ２８일

SageMaker의 모델 호스팅 패턴: SageMaker에서 모델을 테스트하고 업데이트하는 모범 사례

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1753636

타임 스탬프 : 11월 9, 2022

Triton을 사용하여 Amazon SageMaker에서 ML 모델 호스팅: ONNX 모델 | 아마존 웹 서비스

AWS 기계 학습

소스 노드 : 1551223

타임 스탬프 : 28년 2022월 XNUMX일

플라톤에 의해 재발행

SageMaker의 모델 호스팅 패턴: SageMaker에서 모델을 테스트하고 업데이트하는 모범 사례

AWS Deep Learning Challenge에서는 Amazon EC2 DL1 인스턴스의 혁신적이고 영향력 있는 사용을 확인했습니다.

Amazon SageMaker Canvas로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제 식별 및 방지

서버리스 추론 엔드포인트에 Amazon SageMaker Autopilot 모델 배포

Amazon SageMaker의 다중 프레임워크 모델을 사용한 비용 효율적인 ML 추론

Prodege가 로우 코드 컴퓨터 비전 AI를 사용하여 연간 인적 검토 비용에서 1.5만 달러를 절약한 방법

경제성과 정확성의 만남: AWS Trainium을 사용한 GPT NeoX 및 Pythia 모델의 비용 효율적인 교육 | 아마존 웹 서비스

인적 검토 및 BI 시각화를 통해 지능형 문서 처리를 위한 비즈니스 규칙 사용자 지정

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정