Meta, 음악, 사운드 제작을 위한 생성 AI 출시

Meta, 음악, 사운드 제작을 위한 생성 AI 출시

Meta는 음악 제작을 위한 생성 AI를 출시하고 PlatoBlockchain Data Intelligence를 들려줍니다. 수직 검색. 일체 포함.

수요일 Meta는 텍스트 설명에서 소리를 자동으로 생성할 수 있는 세 가지 AI 모델 세트인 AudioCraft를 출시했습니다.

서면 메시지를 받아 이미지 또는 더 많은 텍스트로 변환하는 생성 AI 모델이 계속 성숙해짐에 따라 컴퓨터 과학자들은 기계 학습을 사용하여 다른 형태의 미디어를 만드는 방법을 모색하고 있습니다.

오디오는 AI 시스템, 특히 음악에서 어렵습니다. 소프트웨어가 몇 분 동안 일관된 패턴을 생성하는 방법을 배우고 귀에 쏙쏙 들어오거나 듣기 좋은 무언가를 생성할 수 있을 만큼 충분히 창의적이어야 하기 때문입니다.

Team Meta는 "44.1kHz(음악 녹음의 표준 품질)로 샘플링된 몇 분 분량의 일반적인 음악 트랙은 수백만 개의 타임스텝으로 구성됩니다."라고 설명했습니다. 즉, 오디오 생성 모델은 인간 친화적인 트랙을 만들기 위해 많은 데이터를 출력해야 합니다.

이에 비해 Llama 및 Llama 2와 같은 텍스트 기반 생성 모델에는 샘플당 수천 개의 타임스텝을 나타내는 하위 단어로 처리된 텍스트가 제공됩니다."

Facebook 거인은 AudioCraft를 사용하여 악기 연주를 배우지 않고도 컴퓨터에서 생성된 사운드를 실험하는 사람들을 상상합니다. 툴킷은 MusicGen, AudioGen 및 EnCodec의 세 가지 모델로 구성됩니다. 

MusicGen은 해당 텍스트 설명과 함께 Meta가 소유하거나 라이선스를 부여한 20,000시간 분량의 녹음에 대해 교육을 받았습니다. AudioGen은 음악보다는 음향 효과 생성에 더 중점을 두고 공개 데이터에 대해 교육을 받았습니다. 마지막으로 EnCodec은 오디오 신호를 고충실도로 압축 및 압축 해제할 수 있는 손실 신경 코덱으로 설명됩니다.

Meta는 그것이 "오픈 소싱" AudioCraft라고 말했고 어느 정도 그렇습니다. 모델을 생성 및 교육하고 추론을 실행하는 데 필요한 소프트웨어는 오픈 소스 MIT 라이선스에 따라 사용할 수 있습니다. 이 코드는 연구 프로젝트뿐만 아니라 무료(자유 및 무료 맥주) 및 상업용 응용 프로그램에서 사용할 수 있습니다.

즉, 모델 가중치는 오픈 소스가 아닙니다. 상업적 사용을 특별히 금지하는 크리에이티브 커먼즈 라이선스에 따라 공유됩니다. 우리가 본 것처럼 라마 2, Meta가 오픈 소싱에 대해 이야기할 때마다 확인하십시오. 작은 글씨.

MusicGen 및 AudioGen은 입력 텍스트 프롬프트가 주어지면 사운드를 생성합니다. Meta's AudioCraft에서 "바람이 부는 휘파람"과 "기억에 남는 멜로디, 트로피컬 퍼커션, 경쾌한 리듬이 있는 팝 댄스 트랙"이라는 설명에서 만든 짧은 클립을 Meta의 AudioCraft에서 들을 수 있습니다. 방문 페이지, 여기

짧은 음향 효과는 사실적이지만 음악과 같은 효과는 우리 의견으로는 좋지 않습니다. 그들은 히트 싱글보다는 나쁜 홀드 음악이나 엘리베이터 노래에 대한 반복적이고 일반적인 징글처럼 들립니다. 

Meta의 연구원들은 AudioGen에 대해 다음과 같이 말했습니다. 깊이 여기 – 원시 오디오를 일련의 토큰으로 변환하고 이를 높은 충실도의 오디오로 다시 변환하여 입력을 재구성하여 훈련되었습니다. 언어 모델은 입력 텍스트 프롬프트의 스니펫을 오디오 토큰에 매핑하여 단어와 소리 간의 상관 관계를 학습합니다. 뮤직젠 음향 효과가 아닌 음악 샘플에 대해 유사한 프로세스를 사용하여 교육을 받았습니다. 

“작업을 뚫을 수 없는 블랙박스로 유지하는 대신, 우리가 이러한 모델을 개발하는 방법에 대해 공개하고 연구원이든 음악 커뮤니티 전체이든 관계없이 사람들이 쉽게 사용할 수 있도록 하는 것이 이러한 모델이 무엇을 할 수 있는지 사람들이 이해하는 데 도움이 됩니다. 하고, 그들이 할 수 없는 것을 이해하고, 실제로 사용할 수 있는 권한을 부여받습니다.”라고 Team Meta는 주장했습니다.

“미래에 제너레이티브 AI는 사람들이 초기 프로토타이핑 및 그레이박스 단계에서 더 빠르게 피드백을 얻을 수 있도록 함으로써 반복 시간을 크게 개선할 수 있습니다. 메타버스를 위한 세계를 구축하는 대규모 개발자, 음악가(아마추어, 프로 또는 그렇지 않으면) 다음 작품을 작업 중이거나 크리에이티브 자산을 한 단계 업그레이드하려는 중소기업 소유주입니다.”

AudioCraft 코드를 가져올 수 있습니다. 여기에서 지금 확인해 보세요., MusicGen으로 실험 여기에서 지금 확인해 보세요. 시도해 보세요. ®

타임 스탬프 :

더보기 등록