Amazon SageMaker JumpStart에서 안정적인 확산을 갖춘 고급 이미지

플라톤에 의해 재발행

팔로워 : 0

2022년 XNUMX월, 우리는 발표 AWS 고객이 텍스트에서 이미지를 생성할 수 있는 안정적인 확산 ~에있는 모델들 Amazon SageMaker 점프스타트. 오늘 우리는 JumpStart의 Stable Diffusion 모델을 사용하여 이미지를 확대(품질 손실 없이 이미지 크기 조정)할 수 있는 새로운 기능을 발표합니다. 해상도가 낮고 흐릿하며 픽셀화된 이미지를 더 매끄럽고 선명하며 더 자세하게 보이는 고해상도 이미지로 변환할 수 있습니다. 라고 불리는 이 과정은 업 스케일링, 실제 이미지와 생성된 이미지 모두에 적용 가능 텍스트 대 이미지 안정적인 확산 모델. 이것은 전자 상거래 및 부동산과 같은 다양한 산업뿐만 아니라 예술가 및 사진 작가를 위해 이미지 품질을 향상시키는 데 사용할 수 있습니다. 또한 업스케일링은 고해상도 화면에 표시될 때 저해상도 이미지의 시각적 품질을 향상시킬 수 있습니다.

Stable Diffusion은 AI 알고리즘을 사용하여 이미지를 업스케일링하므로 이미지의 간격을 수동으로 채워야 할 수 있는 수동 작업이 필요하지 않습니다. 수백만 개의 이미지에 대해 훈련되었으며 고해상도 이미지를 정확하게 예측할 수 있으므로 기존 이미지 업스케일러에 비해 세부 사항이 크게 증가합니다. 또한 최근접 이웃과 같은 딥 러닝이 아닌 기술과 달리 Stable Diffusion은 텍스트 프롬프트를 사용하여 이미지의 컨텍스트를 고려하여 업스케일링 프로세스를 안내합니다.

이 게시물에서는 두 가지 방법으로 Stable Diffusion upscaler 모델을 사용하여 추론을 배포하고 실행하는 방법에 대한 개요를 제공합니다. 아마존 세이지 메이커 스튜디오, 그리고 프로그래밍 방식으로 점프스타트 API 사용할 수있는 SageMaker Python SDK.

솔루션 개요

다음 이미지는 모델에서 수행한 업스케일링의 예를 보여줍니다. 왼쪽은 모델에서 생성한 이미지 크기에 맞게 확대한 원본 저해상도 이미지입니다. 오른쪽은 모델이 생성한 이미지입니다.

처음 생성된 이미지는 저해상도 고양이 이미지와 프롬프트 "a white cat"의 결과입니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 Stable Diffusion을 통해 이미지를 확장합니다. 수직 검색. 일체 포함.

두 번째로 생성된 이미지는 저해상도 나비 이미지와 프롬프트 "a butterfly on a green leaf"의 결과입니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 Stable Diffusion을 통해 이미지를 확장합니다. 수직 검색. 일체 포함.

Stable Diffusion과 같은 대형 모델을 실행하려면 사용자 지정 추론 스크립트가 필요합니다. 스크립트, 모델 및 원하는 인스턴스가 효율적으로 함께 작동하는지 확인하려면 엔드 투 엔드 테스트를 실행해야 합니다. JumpStart는 견고하게 테스트된 즉시 사용 가능한 스크립트를 제공하여 이 프로세스를 단순화합니다. Studio UI를 통해 클릭 한 번으로 스크립트에 액세스하거나 점프스타트 API.

다음 섹션에서는 Studio UI 또는 JumpStart API를 사용하여 모델을 배포하고 추론을 실행하는 방법에 대한 개요를 제공합니다.

이 모델을 사용하면 다음에 동의하는 것입니다. CreativeML Open RAIL++-M 라이선스.

Studio UI를 통해 JumpStart에 액세스

이 섹션에서는 Studio UI를 통해 JumpStart 모델을 교육하고 배포하는 방법을 보여줍니다. 다음 비디오는 사전 학습된 Stable Diffusion 업스케일러 모델을 JumpStart에서 찾아 배포하는 방법을 보여줍니다. 모델 페이지에는 모델 및 사용 방법에 대한 중요한 정보가 포함되어 있습니다. 추론을 위해 우리는 ml.p3.2xlarge 인스턴스 유형을 사용합니다. 이는 저렴한 가격으로 낮은 추론 지연 시간에 필요한 GPU 가속을 제공하기 때문입니다. SageMaker 호스팅 인스턴스를 구성한 후 다음을 선택합니다. 배포. 엔드포인트가 실행되어 추론 요청에 응답할 준비가 될 때까지 5~10분이 소요됩니다.

추론 시간을 단축하기 위해 JumpStart는 새로 생성된 엔드포인트에서 추론을 실행하는 방법을 보여주는 샘플 노트북을 제공합니다. Studio에서 노트북에 액세스하려면 노트북 열기 FBI 증오 범죄 보고서 Studio에서 Endpoint 사용 모델 끝점 페이지의 섹션.

SageMaker SDK와 함께 프로그래밍 방식으로 JumpStart 사용

JumpStart UI를 사용하여 단 몇 번의 클릭만으로 사전 훈련된 모델을 대화식으로 배포할 수 있습니다. 그러나 SageMaker Python SDK에 통합된 API를 사용하여 프로그래밍 방식으로 JumpStart 모델을 사용할 수도 있습니다.

이 섹션에서는 SageMaker Python SDK를 사용하여 JumpStart에서 적절한 사전 훈련된 모델을 선택하고 이 모델을 SageMaker 엔드포인트에 배포하고 배포된 엔드포인트에서 추론을 실행합니다. 다음 예제에는 코드 스니펫이 포함되어 있습니다. 이 데모의 모든 단계가 포함된 전체 코드는 다음을 참조하세요. JumpStart 소개 – 프롬프트에 따라 이미지 품질 향상 예시 노트북.

선행 학습된 모델 배포

SageMaker는 다양한 빌드 및 런타임 작업에 Docker 컨테이너를 활용합니다. JumpStart는 SageMaker 딥 러닝 컨테이너 (DLC)는 프레임워크에 따라 다릅니다. 먼저 추가 패키지와 선택한 작업에 대한 학습 및 추론을 처리하는 스크립트를 가져옵니다. 그런 다음 사전 훈련된 모델 아티팩트를 별도로 가져옵니다. model_uris, 플랫폼에 유연성을 제공합니다. 이를 통해 여러 사전 훈련된 모델을 단일 추론 스크립트와 함께 사용할 수 있습니다. 다음 코드는 이 프로세스를 보여줍니다.

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

다음으로 이러한 리소스를 세이지메이커 모델 인스턴스를 만들고 엔드포인트를 배포합니다.

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

모델이 배포된 후 실시간으로 예측을 얻을 수 있습니다!

입력 형식

엔드포인트는 저해상도 이미지를 원시 RGB 값 또는 base64 인코딩 이미지로 허용합니다. 추론 처리기는 다음을 기반으로 이미지를 디코딩합니다. content_type:

럭셔리 content_type = “application/json”, 입력 페이로드는 원시 RGB 값, 텍스트 프롬프트 및 기타 선택적 매개변수가 있는 JSON 사전이어야 합니다.
럭셔리 content_type = “application/json;jpeg”, 입력 페이로드는 base64로 인코딩된 이미지, 텍스트 프롬프트 및 기타 선택적 매개변수가 있는 JSON 사전이어야 합니다.

출력 형식

다음 코드 예제는 출력이 어떻게 보이는지 보여줍니다. 입력 형식과 유사하게 엔드포인트는 이미지의 원시 RGB 값 또는 base64 인코딩 이미지로 응답할 수 있습니다. 이것은 설정으로 지정할 수 있습니다. accept 다음 두 값 중 하나로:

럭셔리 accept = “application/json”, 끝점은 이미지에 대한 RGB 값이 있는 JSON 사전을 반환합니다.
럭셔리 accept = “application/json;jpeg”, 엔드포인트는 JPEG 이미지가 있는 JSON 사전을 base64.b64 인코딩으로 인코딩된 바이트로 반환합니다.

원시 RGB 값으로 페이로드를 보내거나 받으면 입력 페이로드 및 응답 크기에 대한 기본 제한에 도달할 수 있습니다. 따라서 base64로 인코딩된 이미지를 설정하여 사용하는 것을 권장합니다. content_type = “application/json;jpeg” 및 accept = “application/json;jpeg”.

다음 코드는 추론 요청의 예입니다.

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

엔드포인트 응답은 생성된 이미지와 프롬프트를 포함하는 JSON 개체입니다.

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

지원되는 매개변수

안정적인 확산 업스케일링 모델은 이미지 생성을 위한 많은 매개변수를 지원합니다.

영상 – 저해상도 이미지.
신속한 – 이미지 생성을 안내하는 프롬프트. 문자열 또는 문자열 목록일 수 있습니다.
num_inference_steps(선택 사항) – 이미지 생성 중 노이즈 제거 단계의 수. 더 많은 단계가 더 높은 품질의 이미지로 이어집니다. 지정된 경우 양의 정수여야 합니다. 추론 단계가 많을수록 응답 시간이 길어집니다.
guidance_scale(선택사항) – 안내 척도가 높을수록 이미지 품질이 저하되는 대신 프롬프트와 더 밀접하게 관련된 이미지가 생성됩니다. 지정된 경우 부동 소수점이어야 합니다. guidance_scale<=1 무시됩니다.
negative_prompt(선택 사항) – 이것은 이 프롬프트에 대한 이미지 생성을 안내합니다. 지정된 경우 문자열 또는 문자열 목록이어야 하며 다음과 함께 사용됩니다. guidance_scale. 면 guidance_scale 비활성화되면 이것도 비활성화됩니다. 또한 프롬프트가 문자열 목록이면 negative_prompt도 문자열 목록이어야 합니다.
시드(선택사항) – 이것은 재현성을 위해 무작위 상태를 수정합니다. 지정된 경우 정수여야 합니다. 동일한 시드로 동일한 프롬프트를 사용할 때마다 결과 이미지는 항상 동일합니다.
noise_level(선택 사항) – 업스케일링 전에 잠재 벡터에 노이즈를 추가합니다. 지정된 경우 정수여야 합니다.

더 높은 품질의 이미지를 얻기 위해 끝점을 반복적으로 호출하여 이미지를 재귀적으로 확대할 수 있습니다.

이미지 크기 및 인스턴스 유형

모델에서 생성된 이미지는 원본 저해상도 이미지 크기의 최대 5.2배까지 가능합니다. 또한 모델의 메모리 요구 사항(GPU 메모리)은 생성된 이미지의 크기와 함께 증가합니다. 따라서 이미 고해상도 이미지를 업스케일링하거나 재귀적으로 이미지를 업스케일링하는 경우 GPU 메모리가 큰 인스턴스 유형을 선택하십시오. 예를 들어 ml.g3.2xlarge에는 이전에 사용한 ml.pXNUMXxlarge 인스턴스 유형보다 GPU 메모리가 더 많습니다. 다른 인스턴스 유형에 대한 자세한 내용은 다음을 참조하십시오. Amazon EC2 인스턴스 유형.

이미지를 하나씩 업스케일링

큰 이미지를 업스케일링할 때 메모리 요구 사항을 줄이려면 이미지를 더 작은 섹션으로 나눌 수 있습니다. 타일, 각 타일을 개별적으로 업스케일링합니다. 타일을 확대한 후 함께 혼합하여 최종 이미지를 만들 수 있습니다. 이 방법에서는 모델이 타일의 내용을 이해하고 이상한 이미지가 생성되지 않도록 각 타일에 대한 프롬프트를 조정해야 합니다. 프롬프트의 스타일 부분은 더 쉽게 혼합할 수 있도록 모든 타일에 대해 일관성을 유지해야 합니다. 더 높은 노이즈 제거 설정을 사용하는 경우 모델이 이미지를 더 자유롭게 조정할 수 있으므로 프롬프트에서 더 구체적으로 지정하는 것이 중요합니다. 타일에 배경만 포함되어 있거나 그림의 주요 내용과 직접 관련이 없는 경우 어려울 수 있습니다.

한계와 편향

Stable Diffusion은 업스케일링에서 인상적인 성능을 보여주지만 몇 가지 한계와 편향이 있습니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.

교육 데이터에 이러한 기능이 있는 충분한 이미지가 포함되어 있지 않기 때문에 모델이 정확한 얼굴이나 팔다리를 생성하지 못할 수 있습니다.
모델은 LAION-5B 데이터 세트, 성인용 콘텐츠가 포함되어 있으며 추가 고려 없이는 제품 사용에 적합하지 않을 수 있습니다.
모델이 영어 텍스트에 대해 학습되었기 때문에 모델이 영어가 아닌 언어에서 제대로 작동하지 않을 수 있습니다.
모델은 이미지 내에서 좋은 텍스트를 생성할 수 없습니다.

제한 및 편향에 대한 자세한 내용은 다음을 참조하십시오. 안정적인 확산 업스케일러 모델 카드.

정리

노트북 실행을 마친 후에는 청구가 중지되도록 프로세스에서 생성된 모든 리소스를 삭제해야 합니다. 끝점을 정리하는 코드는 연결된 수첩.

결론

이 게시물에서는 JumpStart를 사용하여 사전 훈련된 Stable Diffusion 업스케일러 모델을 배포하는 방법을 보여주었습니다. 이 게시물에서 코드 스니펫을 보여 드렸습니다. 이 데모의 모든 단계가 포함된 전체 코드는 다음에서 사용할 수 있습니다. JumpStart 소개 – 프롬프트에 따라 이미지 품질 향상 예시 노트북. 직접 솔루션을 시도하고 의견을 보내주십시오.

모델 및 작동 방식에 대해 자세히 알아보려면 다음 리소스를 참조하세요.

JumpStart에 대해 자세히 알아보려면 다음 블로그 게시물을 확인하십시오.

저자에 관하여

비벡 마단 박사 Amazon SageMaker JumpStart 팀의 응용 과학자입니다. 그는 일리노이 대학교 어바나 샴페인에서 박사 학위를 받았고 조지아 공대에서 박사후 연구원이었습니다. 그는 기계 학습 및 알고리즘 설계 분야에서 활발한 연구원이며 EMNLP, ICLR, COLT, FOCS 및 SODA 컨퍼런스에 논문을 발표했습니다.

하이코 핫츠 자연어 처리(NLP), 대규모 언어 모델(LLM) 및 생성 AI에 특히 중점을 둔 AI 및 기계 학습을 위한 선임 솔루션 설계자입니다. 이 직책을 맡기 전에는 Amazon EU 고객 서비스의 데이터 과학 책임자였습니다. Heiko는 고객이 AWS에서 AI/ML 여정을 성공적으로 수행할 수 있도록 돕고 보험, 금융 서비스, 미디어 및 엔터테인먼트, 의료, 유틸리티 및 제조를 비롯한 많은 산업 분야의 조직과 협력했습니다. 여가 시간에 Heiko는 가능한 한 많이 여행합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

타임 스탬프 : 2023 년 1 월 25 일

타임 스탬프 : 21년 2023월 XNUMX일

플라톤에 의해 재발행

NLP 및 CV PyTorch 모델용 Amazon EC2 G5 인스턴스를 사용하여 XNUMX배 더 낮은 추론당 비용으로 XNUMX배 더 높은 ML 추론 처리량 달성

AWS Trainium을 통한 빠르고 비용 효율적인 LLaMA 2 미세 조정 | 아마존 웹 서비스

PGA TOUR의 생성적 AI 가상 비서의 여정, 컨셉부터 개발, 프로토타입까지 | 아마존 웹 서비스

Amazon Kendra를 사용하여 Adobe Experience Manager 콘텐츠를 지능적으로 검색 | 아마존 웹 서비스

이제 Amazon SageMaker에서 AI21 Jurassic-1 기초 모델 사용 가능

Amazon AppFlow 및 Amazon SageMaker Canvas로 코드 없는 ML 솔루션으로 SAP ERP에서 통찰력 추출

Amazon Personalize를 사용하여 실시간 맞춤형 추천 구현 | 아마존 웹 서비스

AWS와 Hugging Face는 제너럴 AI의 접근성과 비용 효율성을 높이기 위해 협력합니다.

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정