Amazon SageMaker 및 Hugging Face를 사용하는 이미지 음성 변환 제너레이티브 AI 애플리케이션 소개 | 아마존 웹 서비스

Amazon SageMaker 및 Hugging Face를 사용하는 이미지 음성 변환 제너레이티브 AI 애플리케이션 소개 | 아마존 웹 서비스

시력 상실은 다양한 형태로 나타납니다. 어떤 사람들에게는 태어날 때부터, 다른 사람들에게는 많은 만료 날짜가 있는 시간이 지남에 따라 천천히 하강합니다. 사진을 보거나 자신을 인식하거나 사랑하는 사람의 얼굴을 보거나 메일을 읽을 수도 없는 날입니다. 이전 블로그 게시물에서 Amazon Textract 및 Amazon Polly를 사용하여 시각 장애인이 문서를 들을 수 있도록 지원, 우리는 당신에게 우리의 Text to Speech 응용 프로그램을 보여주었습니다. "나를 위해 읽기". 접근성은 먼 길을 왔지만 이미지는 어떻습니까?

2022년 라스베거스에서 열린 AWS re:Invent 컨퍼런스에서 우리는 시연했습니다. "설명해 주세요" 이미지 캡션, 얼굴 인식 및 "이미지 음성 변환"이라고 하는 기술인 텍스트 음성 변환을 통해 시각 장애인이 이미지를 이해할 수 있도록 돕는 웹 사이트인 AWS Builders' Fair에서. 여러 AI/ML 서비스를 사용하여 "Describe For Me"는 입력 이미지의 캡션을 생성하고 다양한 언어와 방언으로 명확하고 자연스러운 음성으로 읽어줍니다.

이 블로그 게시물에서는 "Describe For Me" 이면의 솔루션 아키텍처와 솔루션의 설계 고려 사항을 안내합니다.

솔루션 개요

다음 참조 아키텍처는 사용자가 전화로 사진을 찍고 이미지 캡션의 MP3를 재생하는 워크플로우를 보여줍니다.

설명된 솔루션에 대한 참조 아키텍처입니다.

워크플로에는 다음 단계가 포함됩니다.

  1. AWS 증폭 HTML, JavaScript 및 CSS로 구성된 DescribeForMe 웹 앱을 최종 사용자의 모바일 장치에 배포합니다.
  2. XNUMXD덴탈의 아마존 코 그니 토 자격 증명 풀은 다음에 대한 임시 액세스 권한을 부여합니다. 아마존 S3 버킷.
  3. 사용자가 이미지 파일을 아마존 S3 버킷 사용 AWS SDK 웹 앱을 통해.
  4. DescribeForMe 웹 앱은 다음을 전송하여 백엔드 AI 서비스를 호출합니다. 아마존 S3 object 페이로드의 키 아마존 API 게이트웨이
  5. 아마존 API 게이트웨이 인스턴스화 AWS 단계 함수 작업 흐름. 상태 머신은 인공 지능/머신 러닝(AI/ML) 서비스를 오케스트레이션합니다. 아마존 인식, 아마존 세이지 메이커아마존 텍사스, 아마존 번역, 아마존 폴리  사용 AWS 람다 기능.
  6. XNUMXD덴탈의 AWS 단계 함수 워크플로우는 오디오 파일을 출력으로 생성하고 아마존 S3 MP3 형식으로.
  7. 저장된 오디오 파일의 위치가 있는 미리 서명된 URL 아마존 S3 를 통해 사용자의 브라우저로 다시 전송됩니다. 아마존 API 게이트웨이. 사용자의 모바일 장치는 미리 서명된 URL을 사용하여 오디오 파일을 재생합니다.

솔루션 연습

이 섹션에서는 우리가 선택한 이유에 대한 설계 고려 사항에 중점을 둡니다.

  1. 내에서 병렬 처리 AWS 단계 함수 워크플로우
  2. 시퀀스 간 사전 훈련된 기계 학습 모델 OFA(One For All) 통합 포옹하는 얼굴 에 아마존 세이지 메이커 이미지 캡션용
  3. 아마존 인식 안면인식을 위한

서버리스 아키텍처, 동기식 워크플로, 빠른 단계 기능 워크플로, 헤드리스 아키텍처 및 이점을 선택한 이유에 대한 자세한 개요는 이전 블로그 게시물을 참조하십시오. Amazon Textract 및 Amazon Polly를 사용하여 시각 장애인이 문서를 들을 수 있도록 지원

병렬 처리

Step Functions 워크플로우 내에서 병렬 처리를 사용하여 컴퓨팅 시간을 최대 48% 단축했습니다. 사용자가 S3 버킷에 이미지를 업로드하면 Amazon API Gateway가 AWS Step Functions 워크플로를 인스턴스화합니다. 그런 다음 아래 세 개의 Lambda 함수가 Step Functions 워크플로 내에서 이미지를 병렬로 처리합니다.

  • 호출된 첫 번째 Lambda 함수 describe_image 를 사용하여 이미지를 분석합니다. OFA_IMAGE_CAPTION 모델 이미지 캡션을 제공하기 위해 SageMaker 실시간 엔드포인트에서 호스팅됩니다.
  • 호출된 두 번째 Lambda 함수 describe_faces 먼저 Amazon Rekognition을 사용하여 얼굴이 있는지 확인합니다. 얼굴 API 감지, true인 경우 Compare Faces API를 호출합니다. 그 이유는 이미지에 얼굴이 없으면 얼굴 비교에서 오류가 발생하기 때문입니다. 또한 얼굴 검색을 먼저 호출하는 것이 단순히 얼굴 비교를 실행하고 오류를 처리하는 것보다 빠르므로 얼굴이 없는 이미지의 경우 처리 시간이 더 빨라집니다.
  • 호출된 세 번째 Lambda 함수 extract_text Amazon Textract 및 Amazon Comprehend를 활용하여 텍스트 음성 변환을 처리합니다.

Lambda 함수를 연속적으로 실행하는 것이 적합하지만 이를 수행하는 더 빠르고 효율적인 방법은 병렬 처리를 이용하는 것입니다. 다음 표는 XNUMX개의 샘플 이미지에 대해 절약된 컴퓨팅 시간을 보여줍니다.

영상 사람들 순차적인 시간 병렬 시간 시간 절약(%) 표제
Amazon SageMaker 및 Hugging Face를 사용한 이미지-음성 생성 AI 애플리케이션 소개 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 0 1869ms 1702ms 8% 푹신한 하얀 침대에 웅크리고 있는 얼룩 고양이.
Amazon SageMaker 및 Hugging Face를 사용한 이미지-음성 생성 AI 애플리케이션 소개 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 1 4277ms 2197ms 48% 녹색 블라우스와 검은색 카디건을 입은 여성이 카메라를 향해 미소 짓고 있다. 나는 한 사람을 알고 있습니다 : Kanbo.
Amazon SageMaker 및 Hugging Face를 사용한 이미지-음성 생성 AI 애플리케이션 소개 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 4 6603ms 3904ms 40% Amazon Spheres 앞에 서 있는 사람들. 나는 Kanbo, Jack, Ayman의 세 사람을 알고 있습니다.

이미지 캡션

Hugging Face는 사용자가 기계 학습 모델을 공유, 구축, 교육 및 배포할 수 있는 오픈 소스 커뮤니티 및 데이터 과학 플랫폼입니다. Hugging Face 모델 허브에서 사용 가능한 모델을 탐색한 후 OFA 모델 저자가 설명했듯이 "작업 포괄적성을 지원하는 작업에 구애받지 않고 양식에 구애받지 않는 프레임워크"이기 때문입니다.

OFA는 다수의 다운스트림 작업으로 효과적으로 이전할 수 있는 통합 다중 모드 사전 훈련 모델이므로 "One For All"을 향한 단계입니다. OFA 모델은 시각적 접지, 언어 이해 및 이미지 생성을 포함한 많은 작업을 지원하지만 이미지 캡션을 위한 OFA 모델 Describe For Me 프로젝트에서 애플리케이션의 이미지를 텍스트로 변환하는 부분을 수행합니다. OFA(ICML 2022)의 공식 저장소를 확인하세요. 종이 간단한 Sequence-to-Sequence 학습 프레임워크를 통해 OFA의 통합 아키텍처, 작업 및 방식에 대해 알아보십시오.

애플리케이션에 OFA를 통합하기 위해 Hugging Face에서 리포지토리를 복제하고 모델을 컨테이너화하여 SageMaker 엔드포인트에 배포했습니다. 그만큼 이 저장소의 노트북 SageMaker의 Jupyter 노트북에 OFA 대형 모델을 배포하기 위한 훌륭한 안내서입니다. 추론 스크립트를 컨테이너화하면 SageMaker에 설명된 대로 모델을 SageMaker 엔드포인트 뒤에 배포할 준비가 됩니다. 선적 서류 비치. 모델이 배포되면 이미지 캡션을 생성하기 위해 이미지를 분석하는 "describe_image" 람다 함수와 통합할 수 있는 HTTPS 엔드포인트를 생성합니다. OFA 초소형 모델은 더 작은 모델이고 비슷한 성능을 달성하면서 더 짧은 기간에 배포할 수 있기 때문에 배포했습니다.

"Describe For Me"로 생성된 이미지 음성 콘텐츠의 예는 다음과 같습니다.

오로라 보레알리스 또는 오로라가 집 실루엣 위의 밤하늘을 가득 채웁니다..

오로라 보레알리스 또는 오로라가 집 실루엣 위의 밤하늘을 가득 채웁니다..

개는 장난감으로 가득 찬 열린 여행가방 옆 나무 바닥의 빨간 담요 위에서 잠을 잔다..

개는 장난감으로 가득 찬 열린 여행가방 옆 나무 바닥의 빨간 담요 위에서 잠을 잔다..

푹신한 하얀 침대에 웅크리고 있는 얼룩 고양이.

푹신한 하얀 침대에 웅크리고 있는 얼룩 고양이.

얼굴 인식

Amazon Rekognition Image는 얼굴 감지 입력 이미지에서 얼굴을 감지하기 위해 눈, 코, 입과 같은 주요 얼굴 특징을 찾는 작업입니다. 우리 솔루션에서는 이 기능을 활용하여 입력 이미지에서 사람을 감지합니다. 사람이 감지되면 다음을 사용합니다. 얼굴 비교 입력 이미지의 얼굴과 "Describe For Me"가 학습한 얼굴을 비교하고 이름으로 사람을 설명하는 작업. 높은 정확도와 즉시 사용 가능한 기능으로 애플리케이션에 통합하는 것이 얼마나 간단한지 때문에 얼굴 감지에 Rekognition을 사용하기로 했습니다.

방에서 사진을 찍기 위해 포즈를 취하는 사람들의 그룹. 저는 Jack, Kanbo, Alak 및 Trac의 4명을 알고 있습니다. 이미지에서도 텍스트가 발견되었습니다. 다음과 같습니다. AWS re: Invent

방에서 사진을 찍기 위해 포즈를 취하는 사람들의 그룹. 저는 Jack, Kanbo, Alak 및 Trac의 4명을 알고 있습니다. 이미지에서도 텍스트가 발견되었습니다. 다음과 같습니다. AWS re: Invent

잠재적 사용 사례

웹 이미지용 대체 텍스트 생성

웹 사이트의 모든 이미지에는 스크린 리더가 시각 장애인에게 말할 수 있도록 대체 텍스트가 있어야 합니다. 검색엔진최적화(SEO)에도 좋습니다. 카피라이터는 디자인 문서 내에서 대체 캡션을 제공해야 하므로 대체 캡션을 만드는 데 시간이 많이 걸릴 수 있습니다. Describe For Me API는 이미지에 대한 대체 텍스트를 자동으로 생성할 수 있습니다. 또한 모든 웹 사이트에서 대체 텍스트가 누락된 이미지에 이미지 캡션을 자동으로 추가하는 브라우저 플러그인으로 활용할 수도 있습니다.

비디오에 대한 오디오 설명

오디오 설명은 시각 장애인이 영화를 따라갈 수 있도록 비디오 콘텐츠에 대한 내레이션 트랙을 제공합니다. 이미지 캡션이 더욱 강력하고 정확해짐에 따라 장면의 주요 부분에 대한 설명을 기반으로 오디오 트랙을 생성하는 작업 흐름이 가능해질 수 있습니다. Amazon Rekognition은 이미 장면 변경, 로고, 크레딧 시퀀스, 유명인 감지를 감지할 수 있습니다. describe의 향후 버전에서는 영화 및 비디오에 대한 이 주요 기능을 자동화할 수 있습니다.

결론

이번 포스팅에서는 AI, 서버리스 서비스 등 AWS 서비스를 활용해 시각장애인이 이미지를 볼 수 있도록 돕는 방법에 대해 알아보았습니다. 다음을 방문하여 Describe For Me 프로젝트에 대해 자세히 알아보고 사용할 수 있습니다. explainforme.com. 의 고유한 기능에 대해 자세히 알아보십시오. 아마존 세이지 메이커아마존 인식 그리고 Hugging Face와 AWS 파트너십.

지침에 대한 타사 ML 모델 면책 조항

이 지침은 정보 제공의 목적으로만 제공됩니다. 귀하는 여전히 독립적인 평가를 수행해야 하며 귀하의 특정 품질 관리 관행 및 표준, 귀하와 귀하의 콘텐츠 및 이 지침에서 참조하는 타사 기계 학습 모델. AWS는 이 지침에 언급된 제XNUMX자 기계 학습 모델에 대한 통제권이나 권한이 없으며 제XNUMX자 기계 학습 모델이 안전하고 바이러스가 없으며 운영 가능하거나 귀하의 프로덕션 환경과 호환된다는 진술이나 보증을 하지 않습니다. 및 표준. AWS는 이 지침의 정보가 특정 결과를 초래할 것이라고 진술, 보증 또는 보장하지 않습니다.


저자에 관하여

잭 마르 체티잭 마르 체티 고객이 서버리스 이벤트 기반 아키텍처를 현대화하고 구현하도록 돕는 데 주력하는 AWS의 선임 솔루션 아키텍트입니다. Jack은 법적으로 맹인이며 아내 Erin과 고양이 Minou와 함께 시카고에 거주하고 있습니다. 그는 또한 시나리오 작가이자 크리스마스 영화와 공포에 중점을 둔 감독이기도 합니다. Jack의 필모그래피 보기 IMDb 페이지.

알락 에스와라다스알락 에스와라다스 일리노이주 시카고에 본사를 둔 AWS의 선임 솔루션 아키텍트입니다. 그녀는 고객이 AWS 서비스를 활용하여 클라우드 아키텍처를 설계하여 비즈니스 과제를 해결하도록 돕는 일에 열정적입니다. Alak은 SageMaker를 사용하여 AWS 고객을 위한 다양한 ML 사용 사례를 해결하는 데 열정적입니다. 일하지 않을 때 Alak은 딸들과 시간을 보내고 강아지와 함께 야외 활동을 즐깁니다.

캔디스 보해넌캔디스 보해넌 미네소타주 미니애폴리스에 기반을 둔 선임 솔루션 아키텍트입니다. 이 역할에서 Kandyce는 특히 데이터 및 DevOps와 관련된 기술 전략을 현대화하여 AWS에서 모범 사례를 구현하는 AWS 고객의 기술 고문으로 일합니다. 또한 Kandyce는 미래 세대의 기술자를 멘토링하고 AWS She Builds Tech Skills 프로그램을 통해 기술 분야의 여성을 소개하는 데 열정적입니다.

트랙 도트랙 도 AWS의 솔루션 아키텍트입니다. 자신의 역할에서 Trac은 기업 고객과 협력하여 클라우드 마이그레이션 및 애플리케이션 현대화 이니셔티브를 지원합니다. 그는 고객의 문제를 파악하고 AWS 서비스를 사용하여 강력하고 확장 가능한 솔루션으로 문제를 해결하는 데 열정적입니다. Trac은 현재 아내와 세 아들과 함께 시카고에 살고 있습니다. 그는 큰 항공 애호가이며 개인 조종사 면허를 완료하는 과정에 있습니다.

타임 스탬프 :

더보기 AWS 기계 학습