AI는 모든 것을 생성하는 데 사용되고 있습니다. 형상 에 본문 에 인공 단백질, 그리고 이제 또 다른 것이 목록에 추가되었습니다: 음성. 지난 주 연구원들은 마이크로소프트가 논문을 발표했습니다. XNUMX초 길이의 샘플을 기반으로 누군가의 목소리를 정확하게 시뮬레이션할 수 있는 VALL-E라는 새로운 AI에서. VALL-E는 최초의 음성 시뮬레이터는 아니지만 이전 버전과 다른 방식으로 구축되어 잠재적인 오용 위험이 더 커질 수 있습니다.
대부분의 기존 텍스트 음성 변환 모델은 파형(시간이 지남에 따라 매체를 통해 이동하는 음파의 그래픽 표현)을 사용하여 가짜 음성을 생성하고 톤이나 피치와 같은 특성을 조정하여 주어진 음성에 가깝게 만듭니다. 그러나 VALL-E는 누군가의 음성 샘플을 가져와 토큰이라는 구성 요소로 분해한 다음 해당 토큰을 사용하여 이 음성에 대해 이미 학습한 "규칙"을 기반으로 새로운 사운드를 생성합니다. 목소리가 특히 깊거나 화자가 A를 비음으로 발음하거나 평균보다 더 단조롭다면 AI가 포착하여 복제할 수 있는 모든 특성입니다.
이 모델은 다음과 같은 기술을 기반으로 합니다. Meta의 EnCodec, 이번 10월에 막 출시되었습니다. 이 도구는 세 부분으로 구성된 시스템을 사용하여 품질 손실 없이 오디오를 MP3보다 XNUMX배 더 작게 압축합니다. 제작자는 저대역폭 연결을 통해 통화할 때 음성과 음악의 품질을 개선하는 용도 중 하나를 의도했습니다.
VALL-E를 훈련시키기 위해 제작자는 다음과 같은 오디오 라이브러리를 사용했습니다. 리브리라이트, 60,000시간의 영어 연설은 주로 오디오북 내레이션으로 구성됩니다. 이 모델은 합성되는 음성이 교육 라이브러리의 음성 중 하나와 유사할 때 최상의 결과를 생성합니다(이 중 7,000개 이상이 있으므로 순서가 너무 길지 않아야 함).
누군가의 목소리를 재현하는 것 외에도 VALL-E는 XNUMX초 샘플에서 오디오 환경을 시뮬레이션합니다. 전화로 녹음한 클립은 직접 만든 클립과 소리가 다를 수 있으며, 걷거나 운전하면서 통화하는 경우 해당 시나리오의 고유한 음향이 고려됩니다.
의 일부 샘플 상당히 사실적으로 들리지만 다른 것들은 여전히 분명히 컴퓨터로 생성됩니다. 그러나 목소리 사이에는 눈에 띄는 차이가 있습니다. 말하는 스타일, 음높이, 억양 패턴이 다른 사람들을 기반으로 하고 있다는 것을 알 수 있습니다.
VALL-E를 만든 팀은 VALL-E가 나쁜 행위자에게 매우 쉽게 사용될 수 있다는 것을 알고 있습니다. 정치인이나 유명인사를 속이는 것부터 친근한 목소리를 사용하여 전화로 돈이나 정보를 요청하는 것까지 이 기술을 활용할 수 있는 방법은 무수히 많습니다. 그들은 현명하게도 VALL-E의 코드를 공개적으로 사용 가능하게 하는 것을 삼가고 논문 끝에 윤리 성명을 포함시켰습니다(이는 악의적인 목적으로 AI를 사용하려는 사람을 저지하는 데 별로 도움이 되지 않을 것입니다).
유사한 도구가 나타나 잘못된 손에 넘어가는 것은 시간 문제일 것입니다. 연구자들은 VALL-E와 같은 모델이 제시할 위험이 오디오 클립이 실제인지 합성인지를 측정하기 위해 감지 모델을 구축함으로써 완화될 수 있다고 제안합니다. AI로부터 우리를 보호하기 위해 AI가 필요한 경우 이러한 기술이 긍정적인 영향을 미치고 있는지 어떻게 알 수 있습니까? 시간이 말해 줄 것이다.
이미지 신용 : Shutterstock.com/탄차
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- 할 수 있는
- 소개
- 계정
- 정확히
- 추가
- 이점
- AI
- All
- 이미
- 과
- 다른
- 누군가
- 오디오
- 가능
- 평균
- 나쁜
- 기반으로
- 전에
- 존재
- BEST
- 사이에
- 휴식
- 건물
- 내장
- 라는
- 통화
- 나르다
- 유명 인사
- 특성
- 클립
- 암호
- 구성 요소들
- 컴퓨터 생성
- 연결
- 수
- 만들
- 만든
- 크리에이터
- 신용
- 깊은
- Detection System
- 차이
- 다른
- 아래 (down)
- 운전
- 용이하게
- 영어
- 환경
- 윤리학
- 모두
- 현존하는
- 페이스북
- 꽤
- 모조품
- 떨어지다
- 익숙한
- 먼저,
- 에
- 생성
- GitHub의
- 주어진
- 큰
- 손
- 데
- 진료 시간
- 방법
- HTTPS
- 영향
- 개선
- in
- 포함
- 정보
- IT
- 알아
- 성
- 배운
- 도서관
- 아마도
- 명부
- 긴
- 오프
- 만든
- 유튜브 영상을 만드는 것은
- 문제
- 매질
- 모델
- 모델
- 돈
- 배우기
- 움직임
- 음악
- 필요
- 그물
- 신제품
- 십월
- ONE
- 주문
- 기타
- 서
- 부품
- 특별히
- 패턴
- 사람들
- 사람
- 전화
- 선택
- 피치
- 피치
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 정치인
- 긍정적인
- 가능성
- 제시
- 주로
- 보호
- 공개적으로
- 목적
- 품질
- 현실
- 현실적인
- 기록
- 출시
- 의뢰
- 연구원
- 결과
- 위험
- 위험
- 시나리오
- 초
- Shutterstock를
- 비슷한
- 시뮬레이터
- 작은
- So
- 소리
- Speaker
- 말하기
- 연설
- 봄
- 성명서
- 아직도
- 체계
- 받아
- 소요
- 말하는
- 팀
- 기술
- Technology
- 텍스트 음성 변환
- XNUMXD덴탈의
- 그들의
- 맡은 일
- 세
- 을 통하여
- 시간
- 시대
- 에
- 토큰
- TONE
- 너무
- 수단
- 검색을
- Train
- 트레이닝
- 조정
- 유일한
- us
- 사용
- 목소리
- 음성
- 걷기
- 파도
- 방법
- 주
- 여부
- 어느
- 동안
- 누구
- 의지
- 겠지
- 잘못된
- 잘못된 손
- 산출량
- 자신의
- 너의
- 제퍼 넷