Microsoft의 새로운 AI는 단 3초 만에 음성을 복제할 수 있습니다.

플라톤에 의해 재발행

팔로워 : 0

Microsoft의 새로운 AI는 단 3초 만에 귀하의 음성을 복제할 수 있습니다. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

AI는 모든 것을 생성하는 데 사용되고 있습니다. 형상 에 본문 에 인공 단백질, 그리고 이제 또 다른 것이 목록에 추가되었습니다: 음성. 지난 주 연구원들은 마이크로소프트가 논문을 발표했습니다. XNUMX초 길이의 샘플을 기반으로 누군가의 목소리를 정확하게 시뮬레이션할 수 있는 VALL-E라는 새로운 AI에서. VALL-E는 최초의 음성 시뮬레이터는 아니지만 이전 버전과 다른 방식으로 구축되어 잠재적인 오용 위험이 더 커질 수 있습니다.

대부분의 기존 텍스트 음성 변환 모델은 파형(시간이 지남에 따라 매체를 통해 이동하는 음파의 그래픽 표현)을 사용하여 가짜 음성을 생성하고 톤이나 피치와 같은 특성을 조정하여 주어진 음성에 가깝게 만듭니다. 그러나 VALL-E는 누군가의 음성 샘플을 가져와 토큰이라는 구성 요소로 분해한 다음 해당 토큰을 사용하여 이 음성에 대해 이미 학습한 "규칙"을 기반으로 새로운 사운드를 생성합니다. 목소리가 특히 깊거나 화자가 A를 비음으로 발음하거나 평균보다 더 단조롭다면 AI가 포착하여 복제할 수 있는 모든 특성입니다.

이 모델은 다음과 같은 기술을 기반으로 합니다. Meta의 EnCodec, 이번 10월에 막 출시되었습니다. 이 도구는 세 부분으로 구성된 시스템을 사용하여 품질 손실 없이 오디오를 MP3보다 XNUMX배 더 작게 압축합니다. 제작자는 저대역폭 연결을 통해 통화할 때 음성과 음악의 품질을 개선하는 용도 중 하나를 의도했습니다.

VALL-E를 훈련시키기 위해 제작자는 다음과 같은 오디오 라이브러리를 사용했습니다. 리브리라이트, 60,000시간의 영어 연설은 주로 오디오북 내레이션으로 구성됩니다. 이 모델은 합성되는 음성이 교육 라이브러리의 음성 중 하나와 유사할 때 최상의 결과를 생성합니다(이 중 7,000개 이상이 있으므로 순서가 너무 길지 않아야 함).

누군가의 목소리를 재현하는 것 외에도 VALL-E는 XNUMX초 샘플에서 오디오 환경을 시뮬레이션합니다. 전화로 녹음한 클립은 직접 만든 클립과 소리가 다를 수 있으며, 걷거나 운전하면서 통화하는 경우 해당 시나리오의 고유한 음향이 고려됩니다.

의 일부 샘플 상당히 사실적으로 들리지만 다른 것들은 여전히 분명히 컴퓨터로 생성됩니다. 그러나 목소리 사이에는 눈에 띄는 차이가 있습니다. 말하는 스타일, 음높이, 억양 패턴이 다른 사람들을 기반으로 하고 있다는 것을 알 수 있습니다.

VALL-E를 만든 팀은 VALL-E가 나쁜 행위자에게 매우 쉽게 사용될 수 있다는 것을 알고 있습니다. 정치인이나 유명인사를 속이는 것부터 친근한 목소리를 사용하여 전화로 돈이나 정보를 요청하는 것까지 이 기술을 활용할 수 있는 방법은 무수히 많습니다. 그들은 현명하게도 VALL-E의 코드를 공개적으로 사용 가능하게 하는 것을 삼가고 논문 끝에 윤리 성명을 포함시켰습니다(이는 악의적인 목적으로 AI를 사용하려는 사람을 저지하는 데 별로 도움이 되지 않을 것입니다).

유사한 도구가 나타나 잘못된 손에 넘어가는 것은 시간 문제일 것입니다. 연구자들은 VALL-E와 같은 모델이 제시할 위험이 오디오 클립이 실제인지 합성인지를 측정하기 위해 감지 모델을 구축함으로써 완화될 수 있다고 제안합니다. AI로부터 우리를 보호하기 위해 AI가 필요한 경우 이러한 기술이 긍정적인 영향을 미치고 있는지 어떻게 알 수 있습니까? 시간이 말해 줄 것이다.

이미지 신용 : Shutterstock.com/탄차

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

타임 스탬프 : 2023 년 1 월 12 일

타임 스탬프 : 17년 2024월 XNUMX일

Microsoft의 새로운 AI는 단 3초 만에 음성을 복제할 수 있습니다.

플라톤에 의해 재발행

더보기 특이점 허브

먼 은하에서 헬륨을 측정하면 물리학자들에게 우주가 존재하는 이유에 대한 통찰력을 줄 수 있습니다.

생명의 구성 요소는 원시 바다 스프레이에서 형성되었을 수 있습니다

IEA 보고서에 따르면 우크라이나 분쟁으로 전 세계가 재생 가능 에너지를 사용하고 있습니다.

CRISPR 유전자 편집은 획기적인 한 해를 보냈으며 이제 시작에 불과합니다.

동물의 감각 연구를 통해 Sentient AI의 윤리적 문제를 해결하는 방법

지구를 위한 '선스크린'으로 달 먼지를 우주로 쏘면 기후 변화를 막을 수 있습니다.

Waymo의 무인 자동차가 애리조나의 고속도로 산세 안전 운전자를 공격하고 있습니다

이 AI는 우리의 필요에 완벽하게 맞춰진 복잡한 단백질을 설계할 수 있습니다.

이 Gates-Backed Startup은 에너지 효율적인 패널로 모듈러 주택을 구축합니다.

NVIDIA의 초소형 AI, 단 몇 초 만에 사진을 전체 3D 장면으로 변환

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정