검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | 아마존 웹 서비스

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | 아마존 웹 서비스

텍스트-이미지 생성은 미디어 및 엔터테인먼트, 게임, 전자상거래 제품 시각화, 광고 및 마케팅, 건축 디자인 및 시각화, 예술 창작, 의료 영상 등 다양한 분야의 응용 프로그램을 통해 빠르게 성장하는 인공 지능 분야입니다.

안정적인 확산 몇 초 안에 고품질 이미지를 생성할 수 있는 텍스트-이미지 모델입니다. 2022년 XNUMX월, 우리는 발표 AWS 고객이 텍스트에서 이미지를 생성할 수 있는 안정적인 확산 ~에있는 모델들 Amazon SageMaker 점프스타트, 모델, 알고리즘 및 솔루션을 제공하는 기계 학습(ML) 허브입니다. 2023년 XNUMX월에도 진화는 계속됐다. 아마존 기반암는 편리한 API를 통해 Stable Diffusion을 포함한 최첨단 기반 모델에 대한 액세스를 제공하는 완전 관리형 서비스입니다.

점점 더 많은 고객이 텍스트를 이미지로 변환하려는 노력에 착수함에 따라 목적에 맞는 고품질 이미지를 생성하는 힘을 발휘하는 프롬프트를 작성하는 방법이라는 공통의 장애물이 발생합니다. 이러한 과제는 사용자가 자신의 비전에 맞는 프롬프트를 찾기 위해 반복적인 실험 여정을 시작하기 때문에 상당한 시간과 리소스를 요구하는 경우가 많습니다.

검색 증강 생성(RAG)은 언어 모델이 외부 데이터 소스에서 상황별 문서를 검색하고 이 정보를 사용하여 보다 정확하고 유익한 텍스트를 생성하는 프로세스입니다. 이 기술은 지식 집약적인 자연어 처리(NLP) 작업에 특히 유용합니다. 이제 우리는 그 혁신적인 터치를 텍스트-이미지 생성의 세계로 확장합니다. 이 게시물에서는 RAG의 강력한 기능을 활용하여 Stable Diffusion 모델로 전송되는 프롬프트를 향상시키는 방법을 보여줍니다. Amazon Bedrock 및 SageMaker JumpStart에서 LLM(대형 언어 모델)을 사용하여 몇 분 만에 프롬프트 생성을 위한 자체 AI 도우미를 생성할 수 있습니다.

텍스트-이미지 프롬프트 제작에 대한 접근 방식

텍스트-이미지 모델에 대한 프롬프트를 생성하는 것은 언뜻 보기에는 간단해 보일 수 있지만 믿을 수 없을 만큼 복잡한 작업입니다. 단지 몇 단어를 입력하고 모델이 귀하의 정신적 이미지와 일치하는 이미지를 불러일으키기를 기대하는 것 이상입니다. 효과적인 프롬프트는 창의성을 발휘할 여지를 남겨두면서 명확한 지침을 제공해야 합니다. 이는 특이성과 모호함 사이의 균형을 유지해야 하며 사용되는 특정 모델에 맞게 조정되어야 합니다. 신속한 엔지니어링 문제를 해결하기 위해 업계에서는 다양한 접근 방식을 모색해 왔습니다.

  • 프롬프트 라이브러리 – 일부 회사에서는 액세스하고 사용자 정의할 수 있는 미리 작성된 프롬프트 라이브러리를 관리합니다. 이러한 라이브러리에는 다양한 사용 사례에 맞춰진 광범위한 프롬프트가 포함되어 있어 특정 요구 사항에 맞는 프롬프트를 선택하거나 조정할 수 있습니다.
  • 프롬프트 템플릿 및 지침 – 많은 회사와 조직에서는 사용자에게 사전 정의된 프롬프트 템플릿 및 지침 세트를 제공합니다. 이러한 템플릿은 프롬프트 작성을 위한 구조화된 형식을 제공하므로 효과적인 지침을 쉽게 작성할 수 있습니다.
  • 커뮤니티 및 사용자 기여 – 크라우드소싱 플랫폼과 사용자 커뮤니티는 프롬프트 개선에 중요한 역할을 하는 경우가 많습니다. 사용자는 미세 조정된 모델, 성공적인 프롬프트, 팁, 모범 사례를 커뮤니티와 공유하여 다른 사람들이 프롬프트 작성 기술을 배우고 다듬는 데 도움을 줄 수 있습니다.
  • 모델 미세 조정 – 회사는 특정 유형의 프롬프트를 더 잘 이해하고 응답하기 위해 텍스트-이미지 모델을 미세 조정할 수 있습니다. 미세 조정을 통해 특정 도메인이나 사용 사례에 대한 모델 성능을 향상할 수 있습니다.

이러한 업계 접근 방식은 효과적인 텍스트-이미지 프롬프트를 보다 쉽게 ​​접근할 수 있고 사용자 친화적이며 효율적으로 만드는 프로세스를 만들어 궁극적으로 다양한 애플리케이션에 대한 텍스트-이미지 생성 모델의 유용성과 다양성을 향상시키는 것을 총체적으로 목표로 합니다.

신속한 디자인을 위해 RAG 사용

이 섹션에서는 RAG 기술이 이러한 기존 접근 방식과 조화를 이루면서 어떻게 프롬프트 엔지니어링의 판도를 바꾸는 역할을 할 수 있는지 살펴보겠습니다. RAG를 프로세스에 완벽하게 통합함으로써 신속한 설계의 효율성을 간소화하고 향상시킬 수 있습니다.

프롬프트 데이터베이스의 의미 검색

프롬프트 라이브러리에 방대한 프롬프트 저장소를 축적했거나 각각 특정 사용 사례 및 목표에 맞게 설계된 수많은 프롬프트 템플릿을 만든 회사를 상상해 보십시오. 전통적으로 텍스트-이미지 프롬프트에 대한 영감을 찾는 사용자는 이러한 라이브러리를 수동으로 탐색하고 광범위한 옵션 목록을 살펴보는 경우가 많습니다. 이 프로세스는 시간이 많이 걸리고 비효율적일 수 있습니다. 텍스트 임베딩 모델을 사용하여 프롬프트 라이브러리의 프롬프트를 임베드함으로써 기업은 의미 검색 엔진을 구축할 수 있습니다. 작동 방식은 다음과 같습니다.

  • 프롬프트 삽입 – 회사는 텍스트 임베딩을 사용하여 라이브러리의 각 프롬프트를 숫자 표현으로 변환합니다. 이러한 임베딩은 프롬프트의 의미론적 의미와 컨텍스트를 포착합니다.
  • 사용자 쿼리 – 사용자가 자신만의 프롬프트를 제공하거나 원하는 이미지를 설명하면 시스템은 입력 내용도 분석하고 삽입할 수 있습니다.
  • 시맨틱 검색 – 임베딩을 사용하여 시스템은 의미 검색을 수행합니다. 사용자의 입력과 프롬프트 라이브러리의 기록 데이터를 모두 고려하여 사용자의 쿼리를 기반으로 라이브러리에서 가장 관련성이 높은 프롬프트를 검색합니다.

프롬프트 라이브러리에 의미 검색을 구현함으로써 기업은 직원들이 방대한 프롬프트 저장소에 손쉽게 액세스할 수 있도록 지원합니다. 이 접근 방식은 신속한 생성을 가속화할 뿐만 아니라 텍스트-이미지 생성의 창의성과 일관성을 장려합니다.

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

의미 검색을 통한 프롬프트 생성

의미론적 검색은 관련 프롬프트를 찾는 프로세스를 간소화하지만 RAG는 이러한 검색 결과를 사용하여 최적화된 프롬프트를 생성함으로써 한 단계 더 발전합니다. 작동 방식은 다음과 같습니다.

  • 의미 검색 결과 – 라이브러리에서 가장 관련성이 높은 프롬프트를 검색한 후 시스템은 사용자의 원래 입력과 함께 이러한 프롬프트를 사용자에게 표시합니다.
  • 텍스트 생성 모델 – 사용자는 검색 결과에서 프롬프트를 선택하거나 선호 사항에 대한 추가 컨텍스트를 제공할 수 있습니다. 시스템은 선택한 프롬프트와 사용자 입력을 모두 LLM에 제공합니다.
  • 최적화된 프롬프트 – LLM은 언어의 뉘앙스를 이해하여 선택한 프롬프트의 요소와 사용자 입력을 결합하여 최적화된 프롬프트를 만듭니다. 이 새로운 프롬프트는 사용자의 요구 사항에 맞게 조정되었으며 원하는 이미지 출력을 생성하도록 설계되었습니다.

의미 검색과 프롬프트 생성의 결합은 프롬프트를 찾는 프로세스를 단순화할 뿐만 아니라 생성된 프롬프트의 관련성과 효율성이 매우 높다는 것을 보장합니다. 프롬프트를 미세 조정하고 사용자 정의할 수 있어 궁극적으로 텍스트-이미지 생성 결과가 향상됩니다. 다음은 의미 검색 및 프롬프트 생성의 프롬프트를 사용하여 Stable Diffusion XL에서 생성된 이미지의 예입니다.

원래 프롬프트 의미론적 검색의 프롬프트 LLM의 최적화된 프롬프트

작은 개 만화

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

  • 저녁 식탁에서 샌드위치를 ​​먹고 있는 강아지의 귀여운 만화
  • 펑크 개, 애니메이션 스타일, 흰색 배경의 만화 그림
  • 소년과 그의 개가 숲길을 걷고 있는 만화

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

애니메이션 스타일로 귀여운 애완견과 함께 손을 잡고 숲길을 따라 행복하게 걸어가는 소년의 만화 장면.

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다양한 산업 분야에 걸친 RAG 기반 프롬프트 디자인 애플리케이션

제안된 RAG 아키텍처의 적용을 살펴보기 전에 이미지 생성 모델이 가장 적용 가능한 산업부터 시작하겠습니다. AdTech에서는 속도와 창의성이 매우 중요합니다. RAG 기반 프롬프트 생성은 프롬프트 제안을 생성하여 광고 캠페인을 위한 많은 이미지를 신속하게 생성함으로써 즉각적인 가치를 추가할 수 있습니다. 인간 의사결정자는 자동 생성된 이미지를 검토하여 캠페인에 대한 후보 이미지를 선택할 수 있습니다. 이 기능은 독립형 애플리케이션일 수도 있고 현재 사용 가능한 널리 사용되는 소프트웨어 도구 및 플랫폼에 내장될 수도 있습니다.

Stable Diffusion 모델이 생산성을 향상시킬 수 있는 또 다른 산업은 미디어와 엔터테인먼트입니다. 예를 들어 RAG 아키텍처는 아바타 생성 사용 사례를 지원할 수 있습니다. 간단한 프롬프트부터 시작하여 RAG는 아바타 아이디어에 훨씬 더 많은 색상과 특성을 추가할 수 있습니다. 이는 많은 후보자 프롬프트를 생성하고 보다 창의적인 아이디어를 제공할 수 있습니다. 이렇게 생성된 이미지에서 특정 애플리케이션에 딱 맞는 이미지를 찾을 수 있습니다. 프롬프트 제안을 자동으로 생성하여 생산성을 높입니다. 발생할 수 있는 변형은 솔루션의 즉각적인 이점입니다.

솔루션 개요

고객이 AWS에서 신속한 설계를 위해 자체 RAG 기반 AI 도우미를 구성할 수 있도록 지원하는 것은 현대 기술의 다양성을 입증하는 것입니다. AWS는 이러한 노력을 촉진하기 위해 다양한 옵션과 서비스를 제공합니다. 다음 참조 아키텍처 다이어그램은 AWS에서 프롬프트 설계를 위한 RAG 애플리케이션을 보여줍니다.

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

AI 보조원에게 적합한 LLM을 선택할 때 AWS는 특정 요구 사항을 충족할 수 있는 다양한 선택 사항을 제공합니다.

첫째, 전용 인스턴스를 활용하여 SageMaker JumpStart를 통해 제공되는 LLM을 선택할 수 있습니다. 이러한 인스턴스는 Falcon, Llama 2, Bloom Z 및 Flan-T5를 포함한 다양한 모델을 지원하거나 Cohere의 Command 및 Multilingual Embedding 또는 AI2 Labs의 Jurassic-21와 같은 독점 모델을 탐색할 수 있습니다.

보다 단순화된 접근 방식을 선호한다면 AWS는 LLM을 제공합니다. 아마존 기반암, 다음과 같은 모델이 등장합니다. 아마존 타이탄 그리고 인류애적인 클로드. 이러한 모델은 간단한 API 호출을 통해 쉽게 액세스할 수 있으므로 해당 기능을 손쉽게 활용할 수 있습니다. 옵션의 유연성과 다양성을 통해 개방형 컨테이너를 통한 혁신을 추구하든 독점 모델의 강력한 기능을 추구하든 관계없이 즉각적인 설계 목표에 가장 잘 맞는 LLM을 자유롭게 선택할 수 있습니다.

필수 벡터 데이터베이스 구축과 관련하여 AWS는 기본 서비스를 통해 다양한 옵션을 제공합니다. 당신은 선택할 수 있습니다 아마존 오픈서치 서비스, Amazon AuroraPostgreSQL용 Amazon Relational Database Service(Amazon RDS), 각각은 귀하의 특정 요구에 맞는 강력한 기능을 제공합니다. 또는 효율적인 벡터 저장 및 검색을 위한 전문 솔루션을 제공하는 Pinecone, Weaviate, Elastic, Milvus 또는 Chroma와 같은 AWS 파트너의 제품을 탐색할 수 있습니다.

신속한 설계를 위한 RAG 기반 AI 도우미 구축을 시작하는 데 도움을 주기 위해 우리는 포괄적인 데모를 준비했습니다. GitHub의 저장소. 이 데모에서는 다음 리소스를 사용합니다.

  • 이미지 생성: Amazon Bedrock의 Stable Diffusion XL
  • 텍스트 임베딩: Amazon Bedrock의 Amazon Titan
  • 텍스트 생성: Amazon Bedrock의 Claude 2
  • 벡터 데이터베이스: FAISS, 효율적인 유사성 검색을 위한 오픈 소스 라이브러리
  • 프롬프트 라이브러리: 프롬프트 예제 확산DB, 텍스트-이미지 생성 모델을 위한 최초의 대규모 프롬프트 갤러리 데이터세트

또한 LLM 구현을 위해 LangChain을 통합하고 웹 애플리케이션 구성 요소를 위해 Streamit을 통합하여 원활하고 사용자 친화적인 경험을 제공합니다.

사전 조건

이 데모 애플리케이션을 실행하려면 다음이 필요합니다.

데모 애플리케이션 실행

다음 지침에 따라 필요한 모든 코드를 다운로드할 수 있습니다. GitHub의 레포. 애플리케이션이 배포되면 다음 스크린샷과 같은 페이지가 표시됩니다.

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이 데모를 통해 우리는 구현 프로세스를 액세스 가능하고 이해하기 쉽게 만들고 RAG 세계로의 여정을 시작하고 AWS에서 신속한 설계를 시작할 수 있는 실습 경험을 제공하는 것을 목표로 합니다.

정리

앱을 사용해 본 후 애플리케이션을 중지하여 리소스를 정리하세요.

결론

RAG는 ​​신속한 디자인 세계에서 판도를 바꾸는 패러다임으로 등장하여 Stable Diffusion의 텍스트-이미지 변환 기능을 활성화했습니다. RAG 기술을 기존 접근 방식과 조화시키고 AWS의 강력한 리소스를 사용함으로써 우리는 간소화된 창의성과 가속화된 학습을 위한 경로를 발견했습니다.

추가 리소스를 보려면 다음을 방문하세요.


저자 소개

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.제임스 이 Amazon Web Services의 Emerging Technologies 팀에서 수석 AI/ML 파트너 솔루션 설계자입니다. 그는 기업 고객 및 파트너와 협력하여 AI/ML 애플리케이션을 설계, 배포 및 확장하여 비즈니스 가치를 도출하는 데 열정을 쏟고 있습니다. 일 외에는 축구를 하고, 여행을 하고, 가족과 시간을 보내는 것을 즐깁니다.

검색 증강 생성(Retrieval Augmented Generation)으로 안정 확산 프롬프트 개선 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.루미 올슨 AWS 파트너 프로그램의 솔루션 아키텍트입니다. 그녀는 현재 역할에서 서버리스 및 기계 학습 솔루션을 전문으로 하며 자연어 처리 기술에 대한 배경 지식을 가지고 있습니다. 그녀는 여가 시간의 대부분을 태평양 북서부의 자연을 탐험하며 딸과 함께 보냅니다.

타임 스탬프 :

더보기 AWS 기계 학습