Amazon SageMaker JumpStart ব্যবহার করে স্টেবল ডিফিউশন সহ ছবি পেইন্ট করুন

Amazon SageMaker JumpStart ব্যবহার করে স্টেবল ডিফিউশন সহ ছবি পেইন্ট করুন

2022 সালের নভেম্বরে, আমরা ঘোষিত যে AWS গ্রাহকরা পাঠ্য থেকে ছবি তৈরি করতে পারে স্থিতিশীল বিস্তার মডেল ব্যবহার করে আমাজন সেজমেকার জাম্পস্টার্ট. আজ, আমরা একটি নতুন বৈশিষ্ট্য প্রবর্তন করতে আগ্রহী যা ব্যবহারকারীদের স্থিতিশীল ডিফিউশন মডেলের সাথে চিত্রগুলিকে রঙ করতে সক্ষম করে৷ ইনপেইন্টিং বলতে পাঠ্য প্রম্পটের উপর ভিত্তি করে একটি চিত্রের একটি অংশকে অন্য চিত্র দিয়ে প্রতিস্থাপন করার প্রক্রিয়াকে বোঝায়। মূল চিত্র প্রদান করে, একটি মুখোশ চিত্র যা প্রতিস্থাপন করা অংশের রূপরেখা দেয় এবং একটি পাঠ্য প্রম্পট, স্থিতিশীল ডিফিউশন মডেল একটি নতুন চিত্র তৈরি করতে পারে যা পাঠ্য প্রম্পটে বর্ণিত বস্তু, বিষয় বা পরিবেশের সাথে মুখোশযুক্ত এলাকা প্রতিস্থাপন করে।

আপনি অবক্ষয়িত চিত্রগুলি পুনরুদ্ধার করতে বা নির্দিষ্ট বিভাগে অভিনব বিষয় বা শৈলী সহ নতুন চিত্র তৈরি করতে ইনপেইন্টিং ব্যবহার করতে পারেন। স্থাপত্য নকশার ক্ষেত্রে, স্থির ডিফিউশন ইনপেইন্টিং বিল্ডিং ব্লুপ্রিন্টের অসম্পূর্ণ বা ক্ষতিগ্রস্ত এলাকা মেরামত করতে প্রয়োগ করা যেতে পারে, যা নির্মাণ ক্রুদের জন্য সুনির্দিষ্ট তথ্য প্রদান করে। ক্লিনিকাল এমআরআই ইমেজিংয়ের ক্ষেত্রে, রোগীর মাথাকে অবশ্যই সংযত রাখতে হবে, যা ক্রপিং আর্টিফ্যাক্টের কারণে ডেটা ক্ষতি বা ডায়াগনস্টিক নির্ভুলতা হ্রাসের কারণে সাবপার ফলাফল হতে পারে। ইমেজ ইনপেইন্টিং কার্যকরভাবে এই সাবঅপ্টিমাল ফলাফলগুলি প্রশমিত করতে সাহায্য করতে পারে।

এই পোস্টে, আমরা দুটি পদ্ধতিতে স্ট্যাবল ডিফিউশন ইনপেইন্টিং মডেল ব্যবহার করে অনুমান স্থাপন এবং চালানোর উপর একটি বিস্তৃত নির্দেশিকা উপস্থাপন করেছি: জাম্পস্টার্টের ইউজার ইন্টারফেস (UI) এর মাধ্যমে অ্যামাজন সেজমেকার স্টুডিও, এবং প্রোগ্রামের মাধ্যমে জাম্পস্টার্ট API উপলব্ধ সেজমেকার পাইথন এসডিকে.

সমাধান ওভারভিউ

নিচের ছবিগুলো ইনপেইন্টিংয়ের উদাহরণ। আসল চিত্রগুলি বাম দিকে, মুখোশ চিত্রটি কেন্দ্রে রয়েছে এবং মডেল দ্বারা তৈরি করা আঁকা চিত্রটি ডানদিকে রয়েছে। প্রথম উদাহরণের জন্য, মডেলটিকে আসল চিত্র, একটি মুখোশের চিত্র এবং পাঠ্য প্রম্পট "একটি সাদা বিড়াল, নীল চোখ, একটি সোয়েটার পরা, পার্কে শুয়ে আছে" এবং সেইসাথে নেতিবাচক প্রম্পট "খারাপভাবে আঁকা ফুট" সহ দেওয়া হয়েছিল। " দ্বিতীয় উদাহরণের জন্য, টেক্সচুয়াল প্রম্পটটি ছিল "একজন মহিলা মডেল সুন্দরভাবে গোলাপী এবং নীল রঙের মিশ্রন সমন্বিত একটি নৈমিত্তিক লম্বা পোশাক দেখায়,"

Amazon SageMaker JumpStart PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে স্টেবল ডিফিউশন সহ ছবি পেইন্ট করুন। উল্লম্ব অনুসন্ধান. আ.

স্টেবল ডিফিউশনের মতো বড় মডেল চালানোর জন্য কাস্টম ইনফারেন্স স্ক্রিপ্ট প্রয়োজন। স্ক্রিপ্ট, মডেল এবং কাঙ্খিত দৃষ্টান্ত একসাথে কার্যকরীভাবে কাজ করে কিনা তা নিশ্চিত করার জন্য আপনাকে এন্ড-টু-এন্ড পরীক্ষা চালাতে হবে। জাম্পস্টার্ট এই প্রক্রিয়াটিকে সহজ করে দেয় ব্যবহার করার জন্য প্রস্তুত স্ক্রিপ্টগুলি প্রদান করে যা দৃঢ়ভাবে পরীক্ষা করা হয়েছে। আপনি স্টুডিও UI-এর মাধ্যমে এক ক্লিকে বা কোডের খুব কম লাইনের মাধ্যমে এই স্ক্রিপ্টগুলি অ্যাক্সেস করতে পারেন জাম্পস্টার্ট API.

স্টুডিও ইউআই বা জাম্পস্টার্ট এপিআই ব্যবহার করে মডেল স্থাপন এবং অনুমান চালানোর মাধ্যমে নিম্নলিখিত বিভাগগুলি আপনাকে গাইড করে।

মনে রাখবেন যে এই মডেলটি ব্যবহার করে, আপনি এতে সম্মত হন CreativeML ওপেন RAIL++-M লাইসেন্স.

স্টুডিও UI এর মাধ্যমে জাম্পস্টার্ট অ্যাক্সেস করুন

এই বিভাগে, আমরা স্টুডিও ইউআই ব্যবহার করে জাম্পস্টার্ট মডেলের স্থাপনার চিত্র তুলে ধরছি। সাথে থাকা ভিডিওটি জাম্পস্টার্টে প্রাক-প্রশিক্ষিত স্থিতিশীল ডিফিউশন ইনপেইন্টিং মডেলটি সনাক্ত করা এবং এটি স্থাপন করা দেখায়। মডেল পৃষ্ঠাটি মডেল এবং এর ব্যবহার সম্পর্কে প্রয়োজনীয় বিবরণ প্রদান করে। অনুমান সঞ্চালনের জন্য, আমরা ml.p3.2xlarge ইন্সট্যান্স টাইপ নিযুক্ত করি, যা একটি সাশ্রয়ী মূল্যে কম-বিলম্বিত অনুমানের জন্য প্রয়োজনীয় GPU ত্বরণ প্রদান করে। SageMaker হোস্টিং উদাহরণ কনফিগার করার পরে, নির্বাচন করুন স্থাপন করুন. শেষ পয়েন্টটি কার্যকর হবে এবং প্রায় 10 মিনিটের মধ্যে অনুমান অনুরোধগুলি পরিচালনা করার জন্য প্রস্তুত হবে।

জাম্পস্টার্ট একটি নমুনা নোটবুক সরবরাহ করে যা নতুন তৈরি শেষ পয়েন্টে অনুমান চালানোর সময়কে ত্বরান্বিত করতে সহায়তা করতে পারে। স্টুডিওতে নোটবুক অ্যাক্সেস করতে, বেছে নিন নোটবুক খুলুন মধ্যে স্টুডিও থেকে এন্ডপয়েন্ট ব্যবহার করুন মডেল এন্ডপয়েন্ট পৃষ্ঠার বিভাগ।

SageMaker SDK-এর সাথে প্রোগ্রাম্যাটিকভাবে জাম্পস্টার্ট ব্যবহার করুন

জাম্পস্টার্ট UI ব্যবহার করা আপনাকে শুধুমাত্র কয়েকটি ক্লিকের মাধ্যমে ইন্টারেক্টিভভাবে একটি প্রাক-প্রশিক্ষিত মডেল স্থাপন করতে সক্ষম করে। বিকল্পভাবে, আপনি SageMaker Python SDK-এর মধ্যে একীভূত API ব্যবহার করে প্রোগ্রাম্যাটিকভাবে জাম্পস্টার্ট মডেল নিয়োগ করতে পারেন।

এই বিভাগে, আমরা জাম্পস্টার্টে একটি উপযুক্ত প্রাক-প্রশিক্ষিত মডেল বেছে নিই, এই মডেলটিকে একটি সেজমেকার এন্ডপয়েন্টে স্থাপন করি, এবং স্থাপন করা শেষ পয়েন্টে অনুমান সম্পাদন করি, সবই সেজমেকার পাইথন SDK ব্যবহার করে। নিম্নলিখিত উদাহরণে কোড স্নিপেট রয়েছে। এই প্রদর্শনীতে অন্তর্ভুক্ত সমস্ত পদক্ষেপ সহ সম্পূর্ণ কোড অ্যাক্সেস করতে, পড়ুন জাম্পস্টার্ট ইমেজ এডিটিং-এর ভূমিকা - স্থিতিশীল ডিফিউশন ইনপেইন্টিং উদাহরণ নোটবুক।

প্রাক-প্রশিক্ষিত মডেল স্থাপন করুন

সেজমেকার বিভিন্ন বিল্ড এবং রানটাইম কাজের জন্য ডকার কন্টেইনার ব্যবহার করে। জাম্পস্টার্ট ব্যবহার করে সেজমেকার গভীর শিক্ষার পাত্রে (DLCs) যেগুলি ফ্রেমওয়ার্ক-নির্দিষ্ট। আমরা প্রথমে কোনো অতিরিক্ত প্যাকেজ, সেইসাথে নির্বাচিত কাজের জন্য প্রশিক্ষণ এবং অনুমান পরিচালনা করার জন্য স্ক্রিপ্ট নিয়ে আসি। তারপরে প্রাক-প্রশিক্ষিত মডেলের নিদর্শনগুলি আলাদাভাবে আনা হয় model_uris, যা প্ল্যাটফর্মে নমনীয়তা প্রদান করে। এটি একটি একক অনুমান স্ক্রিপ্টের সাথে একাধিক প্রাক-প্রশিক্ষিত মডেল ব্যবহার করার অনুমতি দেয়। নিম্নলিখিত কোড এই প্রক্রিয়াটি ব্যাখ্যা করে:

model_id, model_version = "model-inpainting-stabilityai-stable-diffusion-2-inpainting-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

পরবর্তীতে, আমরা সেই সম্পদগুলিকে প্রদান করি সেজমেকার মডেল উদাহরণ এবং একটি শেষ পয়েন্ট স্থাপন করুন:

# Create the SageMaker model instance
# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

মডেলটি স্থাপন করার পরে, আমরা এটি থেকে রিয়েল-টাইম ভবিষ্যদ্বাণী পেতে পারি!

ইনপুট

ইনপুট হল বেস ইমেজ, একটি মাস্ক ইমেজ এবং প্রম্পট যা মাস্কড-আউট অংশে প্রতিস্থাপিত করা বিষয়, বস্তু বা পরিবেশ বর্ণনা করে। ইন-পেইন্টিং এফেক্টের জন্য নিখুঁত মাস্ক ইমেজ তৈরি করার জন্য বেশ কিছু সেরা অনুশীলন জড়িত। একটি নির্দিষ্ট প্রম্পট দিয়ে শুরু করুন এবং পছন্দসই ফলাফল অর্জনের জন্য বিভিন্ন স্থিতিশীল ডিফিউশন সেটিংস নিয়ে পরীক্ষা করতে দ্বিধা করবেন না। একটি মাস্ক ইমেজ ব্যবহার করুন যা আপনি যে ইমেজটি পেইন্ট করতে চান তার সাথে সাদৃশ্যপূর্ণ। এই পদ্ধতিটি চিত্রের অনুপস্থিত অংশগুলি সম্পূর্ণ করতে ইনপেইন্টিং অ্যালগরিদমকে সাহায্য করে, যার ফলে আরও প্রাকৃতিক চেহারা দেখা যায়। উচ্চ-মানের ছবিগুলি সাধারণত ভাল ফলাফল দেয়, তাই নিশ্চিত করুন যে আপনার বেস এবং মাস্ক ছবিগুলি ভাল মানের এবং একে অপরের সাথে সাদৃশ্যপূর্ণ। অতিরিক্তভাবে, বিশদ সংরক্ষণ এবং শিল্পকর্মগুলিকে ছোট করার জন্য একটি বড় এবং মসৃণ মুখোশের চিত্র বেছে নিন।

এন্ডপয়েন্ট বেস ইমেজ এবং মাস্ককে কাঁচা RGB মান বা একটি base64 এনকোডেড ইমেজ হিসেবে গ্রহণ করে। অনুমান হ্যান্ডলার এর উপর ভিত্তি করে চিত্রটিকে ডিকোড করে content_type:

  • জন্য content_type = “application/json”, ইনপুট পেলোড অবশ্যই কাঁচা RGB মান, পাঠ্য প্রম্পট এবং অন্যান্য ঐচ্ছিক পরামিতি সহ একটি JSON অভিধান হতে হবে
  • জন্য content_type = “application/json;jpeg”, ইনপুট পেলোড অবশ্যই বেস64 এনকোড করা চিত্র, একটি পাঠ্য প্রম্পট এবং অন্যান্য ঐচ্ছিক পরামিতি সহ একটি JSON অভিধান হতে হবে

আউটপুট

এন্ডপয়েন্ট দুই ধরনের আউটপুট তৈরি করতে পারে: একটি বেস 64-এনকোডেড RGB ইমেজ বা জেনারেট করা ইমেজের একটি JSON অভিধান। আপনি সেট করে কোন আউটপুট বিন্যাস চান তা নির্দিষ্ট করতে পারেন accept শিরোনাম "application/json" or "application/json;jpeg" যথাক্রমে একটি JPEG ইমেজ বা base64 এর জন্য।

  • জন্য accept = “application/json”, শেষ বিন্দু চিত্রের জন্য RGB মান সহ একটি JSON অভিধান প্রদান করে
  • জন্য accept = “application/json;jpeg”, এন্ডপয়েন্ট বেস64.b64 এনকোডিং এর সাথে এনকোড করা বাইট হিসাবে JPEG ইমেজ সহ একটি JSON অভিধান প্রদান করে

মনে রাখবেন যে কাঁচা RGB মান সহ পেলোড পাঠানো বা গ্রহণ করা ইনপুট পেলোড এবং প্রতিক্রিয়া আকারের জন্য ডিফল্ট সীমাতে আঘাত করতে পারে। অতএব, আমরা সেটিংস দ্বারা base64 এনকোডেড চিত্র ব্যবহার করার পরামর্শ দিই content_type = “application/json;jpeg” এবং স্বীকার করুন = “আবেদন/json;jpeg”।

নিম্নলিখিত কোড একটি উদাহরণ অনুমান অনুরোধ:

content_type = "application/json;jpeg" with open(input_img_file_name, "rb") as f: input_img_image_bytes = f.read()
with open(input_img_mask_file_name, "rb") as f: input_img_mask_image_bytes = f.read() encoded_input_image = base64.b64encode(bytearray(input_img_image_bytes)).decode()
encoded_mask = base64.b64encode(bytearray(input_img_mask_image_bytes)).decode() payload = { "prompt": "a white cat, blue eyes, wearing a sweater, lying in park", "image": encoded_input_image, "mask_image": encoded_mask, "num_inference_steps": 50, "guidance_scale": 7.5, "seed": 0, "negative_prompt": "poorly drawn feet",
} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response query_response = query(model_predictor, json.dumps(payload).encode("utf-8"), content_type, accept)
generated_images = parse_response(query_response)

সমর্থিত পরামিতি

স্থিতিশীল ডিফিউশন ইনপেইন্টিং মডেলগুলি ইমেজ তৈরির জন্য অনেক পরামিতি সমর্থন করে:

  • ভাবমূর্তি - আসল চিত্র।
  • মাস্ক - একটি চিত্র যেখানে ব্ল্যাক-আউট অংশটি চিত্র তৈরির সময় অপরিবর্তিত থাকে এবং সাদা অংশটি প্রতিস্থাপিত হয়।
  • প্রম্পট - ইমেজ প্রজন্মকে গাইড করার জন্য একটি প্রম্পট। এটি একটি স্ট্রিং বা স্ট্রিংগুলির একটি তালিকা হতে পারে।
  • num_inference_steps (ঐচ্ছিক) - ইমেজ তৈরির সময় denoising পদক্ষেপ সংখ্যা. আরও পদক্ষেপ উচ্চ মানের চিত্রের দিকে নিয়ে যায়। নির্দিষ্ট করা হলে, এটি একটি ধনাত্মক পূর্ণসংখ্যা হতে হবে। মনে রাখবেন যে আরো অনুমান পদক্ষেপ একটি দীর্ঘ প্রতিক্রিয়া সময় হতে হবে.
  • গাইডেন্স_স্কেল (ঐচ্ছিক) - একটি উচ্চতর নির্দেশিকা স্কেল একটি চিত্রকে আরও ঘনিষ্ঠভাবে প্রম্পটের সাথে সম্পর্কিত করে, ছবির গুণমানের খরচে। নির্দিষ্ট করা হলে, এটি একটি ফ্লোট হতে হবে। guidance_scale<=1 উপেক্ষা করা হয়।
  • নেতিবাচক_প্রম্পট (ঐচ্ছিক) - এটি এই প্রম্পটের বিরুদ্ধে ইমেজ প্রজন্মকে গাইড করে। নির্দিষ্ট করা থাকলে, এটি অবশ্যই একটি স্ট্রিং বা স্ট্রিংগুলির একটি তালিকা এবং এর সাথে ব্যবহার করা আবশ্যক৷ guidance_scale। যদি guidance_scale অক্ষম, এটিও অক্ষম। অধিকন্তু, যদি প্রম্পটটি স্ট্রিংগুলির একটি তালিকা হয়, তাহলে negative_prompt এছাড়াও স্ট্রিং একটি তালিকা হতে হবে.
  • বীজ (ঐচ্ছিক) - এটি প্রজননযোগ্যতার জন্য এলোমেলো অবস্থা ঠিক করে। নির্দিষ্ট করা হলে, এটি একটি পূর্ণসংখ্যা হতে হবে। যখনই আপনি একই বীজের সাথে একই প্রম্পট ব্যবহার করেন, ফলাফলটি সর্বদা একই হবে।
  • ব্যাচ_সাইজ (ঐচ্ছিক) - একটি একক ফরোয়ার্ড পাসে তৈরি করা ছবির সংখ্যা। যদি একটি ছোট উদাহরণ ব্যবহার করে বা অনেকগুলি ছবি তৈরি করে, কমিয়ে দিন batch_size একটি ছোট সংখ্যা হতে হবে (1-2)। ছবির সংখ্যা = প্রম্পটের সংখ্যা*num_images_per_prompt.

সীমাবদ্ধতা এবং পক্ষপাত

যদিও স্টেবল ডিফিউশন ইনপেইন্টিংয়ে চিত্তাকর্ষক কার্যকারিতা রয়েছে, এটি বেশ কয়েকটি সীমাবদ্ধতা এবং পক্ষপাতের শিকার। এর মধ্যে রয়েছে কিন্তু সীমাবদ্ধ নয়:

  • মডেলটি সঠিক মুখ বা অঙ্গ তৈরি করতে পারে না কারণ প্রশিক্ষণের ডেটাতে এই বৈশিষ্ট্যগুলির সাথে পর্যাপ্ত ছবি অন্তর্ভুক্ত করা হয় না।
  • মডেলকে প্রশিক্ষণ দেওয়া হয়েছিল LAION-5B ডেটাসেট, যেটিতে প্রাপ্তবয়স্কদের সামগ্রী রয়েছে এবং আরও বিবেচনা ছাড়া পণ্য ব্যবহারের জন্য উপযুক্ত নাও হতে পারে৷
  • মডেলটি অ-ইংরেজি ভাষার সাথে ভাল কাজ নাও করতে পারে কারণ মডেলটি ইংরেজি ভাষার পাঠ্যের উপর প্রশিক্ষিত ছিল।
  • মডেলটি ইমেজের মধ্যে ভাল পাঠ্য তৈরি করতে পারে না।
  • স্থিতিশীল ডিফিউশন ইনপেইন্টিং সাধারণত 256×256 বা 512×512 পিক্সেলের মতো নিম্ন রেজোলিউশনের চিত্রগুলির সাথে সবচেয়ে ভাল কাজ করে। উচ্চ-রেজোলিউশনের চিত্রগুলির সাথে কাজ করার সময় (768×768 বা উচ্চতর), পদ্ধতিটি মান এবং বিশদটির পছন্দসই স্তর বজায় রাখতে লড়াই করতে পারে।
  • যদিও বীজের ব্যবহার পুনরুৎপাদনযোগ্যতা নিয়ন্ত্রণে সাহায্য করতে পারে, তবুও স্থিতিশীল ডিফিউশন ইনপেইন্টিং ইনপুট বা পরামিতিগুলিতে সামান্য পরিবর্তন সহ বিভিন্ন ফলাফল আনতে পারে। এটি নির্দিষ্ট প্রয়োজনীয়তার জন্য আউটপুট সূক্ষ্ম-টিউন করা চ্যালেঞ্জিং করতে পারে।
  • পদ্ধতিটি জটিল টেক্সচার এবং প্যাটার্ন তৈরির সাথে লড়াই করতে পারে, বিশেষত যখন তারা চিত্রের মধ্যে বড় এলাকা জুড়ে থাকে বা আঁকা অঞ্চলের সামগ্রিক সুসংগততা এবং গুণমান বজায় রাখার জন্য প্রয়োজনীয়।

সীমাবদ্ধতা এবং পক্ষপাত সম্পর্কে আরও তথ্যের জন্য, দেখুন স্ট্যাবল ডিফিউশন ইনপেইন্টিং মডেল কার্ড.

একটি প্রম্পটের মাধ্যমে উত্পন্ন মাস্ক সহ ইনপেইন্টিং সমাধান

CLIPSeq হল একটি উন্নত গভীর শিক্ষার কৌশল যা ইনপুট ইমেজ থেকে মুখোশ তৈরি করতে প্রাক-প্রশিক্ষিত CLIP (কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রিট্রেনিং) মডেলের শক্তি ব্যবহার করে। এই পদ্ধতিটি ইমেজ সেগমেন্টেশন, ইনপেইন্টিং এবং ম্যানিপুলেশনের মতো কাজের জন্য মুখোশ তৈরি করার একটি কার্যকর উপায় প্রদান করে। CLIPSeq ইনপুট চিত্রের একটি পাঠ্য বিবরণ তৈরি করতে CLIP ব্যবহার করে। পাঠ্য বিবরণটি তখন একটি মুখোশ তৈরি করতে ব্যবহৃত হয় যা চিত্রের পিক্সেলগুলিকে চিহ্নিত করে যা পাঠ্য বিবরণের সাথে প্রাসঙ্গিক। মাস্কটি পরবর্তী প্রক্রিয়াকরণের জন্য চিত্রের প্রাসঙ্গিক অংশগুলিকে আলাদা করতে ব্যবহার করা যেতে পারে।

ইনপুট ইমেজ থেকে মুখোশ তৈরি করার অন্যান্য পদ্ধতির তুলনায় CLIPSeq-এর বেশ কিছু সুবিধা রয়েছে। প্রথমত, এটি একটি আরও কার্যকর পদ্ধতি, কারণ এটির জন্য একটি পৃথক চিত্র বিভাজন অ্যালগরিদম দ্বারা চিত্রটি প্রক্রিয়া করার প্রয়োজন নেই৷ দ্বিতীয়ত, এটি আরও নির্ভুল, কারণ এটি এমন মুখোশ তৈরি করতে পারে যা চিত্রের পাঠ্য বিবরণের সাথে আরও ঘনিষ্ঠভাবে সারিবদ্ধ। তৃতীয়ত, এটি আরও বহুমুখী, কারণ আপনি এটিকে বিভিন্ন ধরণের ইমেজ থেকে মুখোশ তৈরি করতে ব্যবহার করতে পারেন।

যাইহোক, CLIPSeq এর কিছু অসুবিধাও আছে। প্রথমত, কৌশলটির বিষয়বস্তুর ক্ষেত্রে সীমাবদ্ধতা থাকতে পারে, কারণ এটি প্রাক-প্রশিক্ষিত CLIP মডেলগুলির উপর নির্ভর করে যা নির্দিষ্ট ডোমেন বা দক্ষতার ক্ষেত্রগুলিকে অন্তর্ভুক্ত নাও করতে পারে। দ্বিতীয়ত, এটি একটি সংবেদনশীল পদ্ধতি হতে পারে, কারণ এটি চিত্রের পাঠ্য বিবরণে ত্রুটির জন্য সংবেদনশীল।

আরও তথ্যের জন্য, দেখুন Amazon SageMaker ব্যবহার করে জেনারেটিভ এআই সহ ভার্চুয়াল ফ্যাশন স্টাইলিং.

পরিষ্কার কর

আপনি নোটবুক চালানো শেষ করার পরে, বিলিং বন্ধ করা হয়েছে তা নিশ্চিত করতে প্রক্রিয়াটিতে তৈরি সমস্ত সংস্থান মুছে ফেলার বিষয়টি নিশ্চিত করুন৷ এন্ডপয়েন্ট পরিষ্কার করার কোডটি সংশ্লিষ্ট এ পাওয়া যায় নোটবই.

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে জাম্পস্টার্ট ব্যবহার করে একটি প্রাক-প্রশিক্ষিত স্থিতিশীল ডিফিউশন ইনপেইন্টিং মডেল স্থাপন করা যায়। আমরা এই পোস্টে কোড স্নিপেট দেখিয়েছি—এই ডেমোর সমস্ত ধাপ সহ সম্পূর্ণ কোড এখানে উপলব্ধ জাম্পস্টার্টের ভূমিকা - প্রম্পট দ্বারা নির্দেশিত চিত্রের গুণমান উন্নত করুন উদাহরণ নোটবুক। আপনার নিজের সমাধান চেষ্টা করুন এবং আমাদের আপনার মন্তব্য পাঠান.

মডেল সম্পর্কে আরও জানতে এবং এটি কীভাবে কাজ করে, নিম্নলিখিত সংস্থানগুলি দেখুন:

জাম্পস্টার্ট সম্পর্কে আরও জানতে, নিম্নলিখিত পোস্টগুলি দেখুন:


লেখক সম্পর্কে

Amazon SageMaker JumpStart PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে স্টেবল ডিফিউশন সহ ছবি পেইন্ট করুন। উল্লম্ব অনুসন্ধান. আ.বিবেক মদন ড অ্যামাজন সেজমেকার জাম্পস্টার্ট দলের একজন ফলিত বিজ্ঞানী। তিনি আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয় থেকে তার পিএইচডি পেয়েছিলেন এবং জর্জিয়া টেকের পোস্ট ডক্টরাল গবেষক ছিলেন। তিনি মেশিন লার্নিং এবং অ্যালগরিদম ডিজাইনের একজন সক্রিয় গবেষক এবং EMNLP, ICLR, COLT, FOCS এবং SODA কনফারেন্সে গবেষণাপত্র প্রকাশ করেছেন।

Amazon SageMaker JumpStart PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে স্টেবল ডিফিউশন সহ ছবি পেইন্ট করুন। উল্লম্ব অনুসন্ধান. আ.আলফ্রেড শেন AWS-এর একজন সিনিয়র এআই/এমএল বিশেষজ্ঞ। তিনি সিলিকন ভ্যালিতে কাজ করছেন, স্বাস্থ্যসেবা, অর্থ এবং উচ্চ-প্রযুক্তি সহ বিভিন্ন ক্ষেত্রে প্রযুক্তিগত এবং ব্যবস্থাপক পদে রয়েছেন। তিনি একজন নিবেদিতপ্রযুক্ত এআই/এমএল গবেষক, সিভি, এনএলপি এবং মাল্টিমোডালিটিতে মনোনিবেশ করেন। তার কাজ ইএমএনএলপি, আইসিএলআর এবং জনস্বাস্থ্যের মতো প্রকাশনায় প্রদর্শিত হয়েছে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

একটি কাস্টম লেন্স দিয়ে ভাল-আর্কিটেক্টেড IDP সমাধান তৈরি করুন – পার্ট 4: পারফরম্যান্স দক্ষতা | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1917726
সময় স্ট্যাম্প: নভেম্বর 22, 2023

ট্যাবুলার ডেটা মডেলিংয়ের জন্য নতুন বিল্ট-ইন অ্যামাজন সেজমেকার অ্যালগরিদম: লাইটজিবিএম, ক্যাটবুস্ট, অটোগ্লুওন-টেবুলার এবং ট্যাবট্রান্সফরমার

উত্স নোড: 1541386
সময় স্ট্যাম্প: জুন 28, 2022

অ্যামাজন সেজমেকার স্টুডিও থেকে AWS লেক ফর্মেশন এবং অ্যামাজন EMR সহ সূক্ষ্ম-দানাযুক্ত ডেটা অ্যাক্সেস নিয়ন্ত্রণ প্রয়োগ করুন

উত্স নোড: 1761352
সময় স্ট্যাম্প: নভেম্বর 23, 2022