এন্টারপ্রাইজ ডেটা থেকে মান তৈরি করা: Text2SQL এবং জেনারেটিভ AI এর জন্য সেরা অনুশীলন | আমাজন ওয়েব সার্ভিসেস

এন্টারপ্রাইজ ডেটা থেকে মান তৈরি করা: Text2SQL এবং জেনারেটিভ AI এর জন্য সেরা অনুশীলন | আমাজন ওয়েব সার্ভিসেস

জেনারেটিভ এআই এআই এর ক্ষেত্রে অনেক সম্ভাবনার দ্বার উন্মুক্ত করেছে। টেক্সট জেনারেশন, কোড জেনারেশন, সারসংক্ষেপ, অনুবাদ, চ্যাটবট এবং আরও অনেক কিছু সহ আমরা অসংখ্য ব্যবহার দেখছি। এমন একটি ক্ষেত্র যা বিকশিত হচ্ছে তা হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) ব্যবহার করে স্বজ্ঞাত SQL কোয়েরির মাধ্যমে ডেটা অ্যাক্সেস করার নতুন সুযোগ আনলক করতে। জটিল প্রযুক্তিগত কোড নিয়ে কাজ করার পরিবর্তে, ব্যবসায়িক ব্যবহারকারী এবং ডেটা বিশ্লেষকরা সরল ভাষায় ডেটা এবং অন্তর্দৃষ্টি সম্পর্কিত প্রশ্ন জিজ্ঞাসা করতে পারেন। প্রাথমিক লক্ষ্য হল স্বয়ংক্রিয়ভাবে স্বাভাবিক ভাষার পাঠ্য থেকে SQL কোয়েরি তৈরি করা। এটি করার জন্য, পাঠ্য ইনপুট একটি কাঠামোগত উপস্থাপনায় রূপান্তরিত হয় এবং এই উপস্থাপনা থেকে, একটি এসকিউএল কোয়েরি তৈরি করা হয় যা একটি ডাটাবেস অ্যাক্সেস করতে ব্যবহার করা যেতে পারে।

এই পোস্টে, আমরা এসকিউএল (Text2SQL) তে পাঠ্যের একটি ভূমিকা প্রদান করি এবং ব্যবহারের ক্ষেত্রে, চ্যালেঞ্জ, নকশার ধরণ এবং সর্বোত্তম অনুশীলনগুলি অন্বেষণ করি। বিশেষত, আমরা নিম্নলিখিত আলোচনা করি:

  • কেন আমরা Text2SQL প্রয়োজন
  • এসকিউএল থেকে পাঠ্যের মূল উপাদান
  • প্রাকৃতিক ভাষা বা এসকিউএল থেকে পাঠ্যের জন্য প্রম্পট ইঞ্জিনিয়ারিং বিবেচনা
  • অপ্টিমাইজেশান এবং সর্বোত্তম অনুশীলন
  • স্থাপত্য নিদর্শন

কেন আমরা Text2SQL প্রয়োজন?

আজ, ঐতিহ্যগত ডেটা বিশ্লেষণ, ডেটা গুদামজাতকরণ এবং ডেটাবেসে প্রচুর পরিমাণে ডেটা পাওয়া যায়, যা সংগঠনের সংখ্যাগরিষ্ঠ সদস্যদের জন্য অনুসন্ধান বা বোঝা সহজ নয়। Text2SQL-এর প্রাথমিক লক্ষ্য হল অনুসন্ধান ডেটাবেসগুলিকে অ-প্রযুক্তিগত ব্যবহারকারীদের কাছে আরও অ্যাক্সেসযোগ্য করে তোলা, যারা তাদের প্রশ্নগুলি প্রাকৃতিক ভাষায় প্রদান করতে পারে।

NLP SQL ব্যবসায়িক ব্যবহারকারীদের ডেটা বিশ্লেষণ করতে এবং প্রাকৃতিক ভাষায় প্রশ্ন টাইপ করে বা বলার মাধ্যমে উত্তর পেতে সক্ষম করে, যেমন নিম্নলিখিত:

  • "গত মাসে প্রতিটি পণ্যের মোট বিক্রয় দেখান"
  • "কোন পণ্যগুলি বেশি আয় করেছে?"
  • "প্রতিটি অঞ্চল থেকে কত শতাংশ গ্রাহক?"

আমাজন বেডরক একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা যা একটি একক এপিআই-এর মাধ্যমে উচ্চ-পারফরমিং ফাউন্ডেশন মডেল (FMs)গুলির একটি পছন্দ অফার করে, যা সহজেই Gen AI অ্যাপ্লিকেশনগুলি তৈরি এবং স্কেল করতে সক্ষম করে৷ উপরে তালিকাভুক্ত প্রশ্নগুলির অনুরূপ প্রশ্নগুলির উপর ভিত্তি করে এসকিউএল কোয়েরি তৈরি করতে এবং সাংগঠনিক কাঠামোগত ডেটা জিজ্ঞাসা করতে এবং ক্যোয়ারী প্রতিক্রিয়া ডেটা থেকে প্রাকৃতিক ভাষা প্রতিক্রিয়া তৈরি করতে এটিকে ব্যবহার করা যেতে পারে।

এসকিউএল-এ পাঠ্যের জন্য মূল উপাদান

টেক্সট-টু-এসকিউএল সিস্টেমে প্রাকৃতিক ভাষার প্রশ্নগুলিকে চলমান এসকিউএল-এ রূপান্তর করার জন্য বেশ কয়েকটি ধাপ জড়িত:

  • স্বাভাবিক ভাষা প্রক্রিয়াকরণ:
    • ব্যবহারকারীর ইনপুট প্রশ্ন বিশ্লেষণ করুন
    • মূল উপাদান এবং অভিপ্রায় নিষ্কাশন
    • একটি কাঠামোগত বিন্যাসে রূপান্তর করুন
  • SQL প্রজন্ম:
    • SQL সিনট্যাক্সে ম্যাপ এক্সট্র্যাক্ট করা বিশদ বিবরণ
    • একটি বৈধ SQL কোয়েরি তৈরি করুন
  • ডাটাবেস প্রশ্ন:
    • ডাটাবেসে এআই-জেনারেটেড এসকিউএল কোয়েরি চালান
    • ফলাফল পুনরুদ্ধার
    • ব্যবহারকারীর কাছে ফলাফল ফেরত দিন

লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) একটি উল্লেখযোগ্য ক্ষমতা হল কোড তৈরি করা, যার মধ্যে ডাটাবেসের জন্য স্ট্রাকচার্ড কোয়েরি ল্যাঙ্গুয়েজ (SQL) রয়েছে। এই এলএলএমগুলি প্রাকৃতিক ভাষার প্রশ্ন বুঝতে এবং একটি আউটপুট হিসাবে একটি সংশ্লিষ্ট SQL কোয়েরি তৈরি করতে ব্যবহার করা যেতে পারে। আরও ডেটা সরবরাহ করায় LLMগুলি ইন-কনটেক্সট লার্নিং এবং ফাইন-টিউনিং সেটিংস গ্রহণ করে উপকৃত হবে।

নিম্নলিখিত চিত্রটি একটি মৌলিক Text2SQL প্রবাহকে চিত্রিত করে।

টেক্সট 2 SQL উচ্চ স্তরের প্রক্রিয়া প্রবাহ

এসকিউএল-এ প্রাকৃতিক ভাষার জন্য প্রম্পট ইঞ্জিনিয়ারিং বিবেচনা

এসকিউএল কোয়েরিতে প্রাকৃতিক ভাষা অনুবাদ করার জন্য এলএলএম ব্যবহার করার সময় প্রম্পট অত্যন্ত গুরুত্বপূর্ণ এবং প্রম্পট ইঞ্জিনিয়ারিংয়ের জন্য বেশ কয়েকটি গুরুত্বপূর্ণ বিবেচনা রয়েছে।

কার্যকর প্রম্পট ইঞ্জিনিয়ারিং SQL সিস্টেমে প্রাকৃতিক ভাষা বিকাশের চাবিকাঠি। পরিষ্কার, সহজবোধ্য প্রম্পট ভাষা মডেলের জন্য আরও ভাল নির্দেশনা প্রদান করে। ব্যবহারকারী প্রাসঙ্গিক ডাটাবেস স্কিমার বিবরণ সহ একটি SQL ক্যোয়ারী অনুরোধ করছেন এমন প্রসঙ্গ প্রদান করা মডেলটিকে উদ্দেশ্যটিকে সঠিকভাবে অনুবাদ করতে সক্ষম করে। ন্যাচারাল ল্যাঙ্গুয়েজ প্রম্পট এবং সংশ্লিষ্ট SQL কোয়েরির কয়েকটি টীকাযুক্ত উদাহরণ সহ সিনট্যাক্স-সম্মত আউটপুট তৈরি করতে মডেলটিকে গাইড করতে সহায়তা করে। উপরন্তু, পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) অন্তর্ভুক্ত করা, যেখানে মডেলটি প্রক্রিয়াকরণের সময় অনুরূপ উদাহরণ পুনরুদ্ধার করে, ম্যাপিং নির্ভুলতাকে আরও উন্নত করে। সু-পরিকল্পিত প্রম্পট যা মডেলটিকে পর্যাপ্ত নির্দেশনা, প্রসঙ্গ, উদাহরণ এবং পুনরুদ্ধারের পরিবর্ধন দেয় SQL কোয়েরিতে প্রাকৃতিক ভাষাকে নির্ভরযোগ্যভাবে অনুবাদ করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

নীচে সাদা কাগজ থেকে ডাটাবেসের কোড উপস্থাপনা সহ একটি বেসলাইন প্রম্পটের একটি উদাহরণ বৃহৎ ভাষার মডেলের কয়েকটি-শট টেক্সট-টু-এসকিউএল ক্ষমতা বৃদ্ধি করা: প্রম্পট ডিজাইন কৌশলের উপর একটি অধ্যয়ন.

/* Given the following database schema : */
CREATE TABLE IF NOT EXISTS " gymnast " ( " Gymnast_ID " int , " Floor_Exercise_Points " real , " Pommel_Horse_Points " real , " Rings_Points " real , " Vault_Points " real , " Parallel_Bars_Points " real , " Horizontal_Bar_Points " real , " Total_Points " real , PRIMARY KEY ( " Gymnast_ID " ) , FOREIGN KEY ( " Gymnast_ID " ) REFERENCES " people " ( " People_ID " ) ) ; CREATE TABLE IF NOT EXISTS " people " ( " People_ID " int , " Name " text , " Age " real , " Height " real , " Hometown " text , PRIMARY KEY ( " People_ID " ) ) ; /* Answer the following : Return the total points of the gymnast with the lowest age .
*/ select t1 . total_points from gymnast as t1 join people as t2 on t1 . gymnast_id = t2 .
people_id order by t2 . age asc limit 1

এই উদাহরণে যেমন দেখানো হয়েছে, প্রম্পট-ভিত্তিক কয়েকটি-শট লার্নিং মডেলটিকে প্রম্পটেই কয়েকটি টীকাযুক্ত উদাহরণ প্রদান করে। এটি মডেলের জন্য প্রাকৃতিক ভাষা এবং SQL এর মধ্যে লক্ষ্য ম্যাপিং প্রদর্শন করে। সাধারণত, প্রম্পটে প্রায় 2-3 জোড়া থাকে যা একটি প্রাকৃতিক ভাষা ক্যোয়ারী এবং সমতুল্য SQL বিবৃতি দেখায়। এই কয়েকটি উদাহরণ মডেলটিকে বিস্তৃত প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই প্রাকৃতিক ভাষা থেকে সিনট্যাক্স-সম্মত SQL প্রশ্ন তৈরি করতে গাইড করে।

ফাইন-টিউনিং বনাম প্রম্পট ইঞ্জিনিয়ারিং

এসকিউএল সিস্টেমে প্রাকৃতিক ভাষা তৈরি করার সময়, আমরা প্রায়শই মডেলটিকে ফাইন-টিউনিং করা সঠিক কৌশল কিনা বা কার্যকর প্রম্পট ইঞ্জিনিয়ারিংই যাওয়ার উপায় কিনা তা নিয়ে আলোচনায় যাই। উভয় পন্থা বিবেচনা করা যেতে পারে এবং প্রয়োজনীয়তার সঠিক সেটের উপর ভিত্তি করে নির্বাচন করা যেতে পারে:

    • ফাইন-টিউনিং - বেসলাইন মডেলটি একটি বড় সাধারণ টেক্সট কর্পাসে প্রাক-প্রশিক্ষিত এবং তারপর ব্যবহার করতে পারে নির্দেশ-ভিত্তিক ফাইন-টিউনিং, যা টেক্সট-এসকিউএল-এ একটি প্রাক-প্রশিক্ষিত ভিত্তি মডেলের কর্মক্ষমতা উন্নত করতে লেবেলযুক্ত উদাহরণ ব্যবহার করে। এটি টার্গেট টাস্কে মডেলটিকে অভিযোজিত করে। ফাইন-টিউনিং মডেলটিকে শেষ টাস্কে সরাসরি প্রশিক্ষণ দেয় তবে অনেক টেক্সট-এসকিউএল উদাহরণ প্রয়োজন। টেক্সট-টু-এসকিউএল-এর কার্যকারিতা উন্নত করতে আপনি আপনার এলএলএম-এর উপর ভিত্তি করে তত্ত্বাবধানে থাকা ফাইন-টিউনিং ব্যবহার করতে পারেন। এর জন্য, আপনি বেশ কয়েকটি ডেটাসেট ব্যবহার করতে পারেন মাকড়সা, উইকিএসকিউএল, পশ্চাদ্ধাবন, বার্ড-এসকিউএল, বা CoSQL.
    • প্রম্পট ইঞ্জিনিয়ারিং - মডেলটিকে টার্গেট এসকিউএল সিনট্যাক্স প্রম্পট করার জন্য ডিজাইন করা প্রম্পটগুলি সম্পূর্ণ করার জন্য প্রশিক্ষিত করা হয়। এলএলএম ব্যবহার করে প্রাকৃতিক ভাষা থেকে SQL তৈরি করার সময়, মডেলের আউটপুট নিয়ন্ত্রণের জন্য প্রম্পটে স্পষ্ট নির্দেশাবলী প্রদান করা গুরুত্বপূর্ণ। প্রম্পটে বিভিন্ন উপাদানের টীকা যেমন কলামের দিকে নির্দেশ করা, স্কিমা এবং তারপর নির্দেশ করুন কোন ধরনের SQL তৈরি করতে হবে। এগুলি নির্দেশের মতো কাজ করে যা মডেলকে জানায় কিভাবে SQL আউটপুট ফর্ম্যাট করতে হয়। নিম্নলিখিত প্রম্পটটি একটি উদাহরণ দেখায় যেখানে আপনি টেবিলের কলামগুলি নির্দেশ করেন এবং একটি MySQL ক্যোয়ারী তৈরি করার নির্দেশ দেন:
Table offices, columns = [OfficeId, OfficeName]
Table employees, columns = [OfficeId, EmployeeId,EmployeeName]
Create a MySQL query for all employees in the Machine Learning Department

টেক্সট-টু-এসকিউএল মডেলগুলির জন্য একটি কার্যকর পদ্ধতি হল প্রথমে কোনও টাস্ক-নির্দিষ্ট ফাইন-টিউনিং ছাড়াই একটি বেসলাইন এলএলএম দিয়ে শুরু করা। ভালভাবে তৈরি করা প্রম্পটগুলি তখন টেক্সট-টু-এসকিউএল ম্যাপিং পরিচালনা করার জন্য বেস মডেলটিকে মানিয়ে নিতে এবং ড্রাইভ করতে ব্যবহার করা যেতে পারে। এই প্রম্পট ইঞ্জিনিয়ারিং আপনাকে ফাইন-টিউনিং করার প্রয়োজন ছাড়াই ক্ষমতা বিকাশ করতে দেয়। যদি বেস মডেলে প্রম্পট ইঞ্জিনিয়ারিং পর্যাপ্ত নির্ভুলতা অর্জন না করে, তাহলে টেক্সট-এসকিউএল উদাহরণগুলির একটি ছোট সেটে সূক্ষ্ম-টিউনিং পরবর্তী প্রম্পট ইঞ্জিনিয়ারিংয়ের সাথে অন্বেষণ করা যেতে পারে।

ফাইন-টিউনিং এবং প্রম্পট ইঞ্জিনিয়ারিং এর সমন্বয় প্রয়োজন হতে পারে যদি শুধুমাত্র কাঁচা প্রাক-প্রশিক্ষিত মডেলে প্রম্পট ইঞ্জিনিয়ারিং প্রয়োজনীয়তা পূরণ না করে। যাইহোক, প্রাথমিকভাবে ফাইন-টিউনিং ছাড়াই প্রম্পট ইঞ্জিনিয়ারিংয়ের চেষ্টা করা ভাল, কারণ এটি ডেটা সংগ্রহ ছাড়াই দ্রুত পুনরাবৃত্তির অনুমতি দেয়। এটি পর্যাপ্ত কর্মক্ষমতা প্রদান করতে ব্যর্থ হলে, প্রম্পট ইঞ্জিনিয়ারিংয়ের পাশাপাশি সূক্ষ্ম-টিউনিং একটি কার্যকর পরবর্তী পদক্ষেপ। সম্পূর্ণরূপে প্রম্পট-ভিত্তিক পদ্ধতিগুলি অপর্যাপ্ত হলে এই সামগ্রিক পদ্ধতিটি কাস্টমাইজেশনের অনুমতি দেওয়ার সময় দক্ষতাকে সর্বাধিক করে তোলে।

অপ্টিমাইজেশান এবং সর্বোত্তম অনুশীলন

কার্যকারিতা বাড়ানোর জন্য অপ্টিমাইজেশান এবং সর্বোত্তম অনুশীলনগুলি অপরিহার্য এবং সংস্থানগুলি সর্বোত্তমভাবে ব্যবহার করা হয় এবং সঠিক ফলাফলগুলি সর্বোত্তম উপায়ে অর্জন করা হয় তা নিশ্চিত করা। কৌশলগুলি কর্মক্ষমতা উন্নত করতে, খরচ নিয়ন্ত্রণ করতে এবং একটি ভাল-মানের ফলাফল অর্জনে সহায়তা করে।

এলএলএম ব্যবহার করে টেক্সট-টু-এসকিউএল সিস্টেম তৈরি করার সময়, অপ্টিমাইজেশন কৌশলগুলি কর্মক্ষমতা এবং দক্ষতা উন্নত করতে পারে। নিম্নলিখিত কিছু গুরুত্বপূর্ণ ক্ষেত্রগুলি বিবেচনা করতে হবে:

  • ক্যাশিং – লেটেন্সি, খরচ নিয়ন্ত্রণ, এবং মানককরণ উন্নত করতে, আপনি পার্স করা SQL এবং স্বীকৃত ক্যোয়ারী প্রম্পট টেক্সট-টু-SQL LLM থেকে ক্যাশে করতে পারেন। এটি পুনঃপ্রসেসিং বারবার প্রশ্ন এড়ায়।
  • পর্যবেক্ষণ - ক্যোয়ারী পার্সিং, প্রম্পট রিকগনিশন, এসকিউএল জেনারেশন, এবং এসকিউএল ফলাফলের চারপাশে লগ এবং মেট্রিক্স টেক্সট-টু-এসকিউএল এলএলএম সিস্টেম নিরীক্ষণের জন্য সংগ্রহ করা উচিত। এটি অপ্টিমাইজেশানের উদাহরণের জন্য দৃশ্যমানতা প্রদান করে প্রম্পট আপডেট করা বা একটি আপডেট করা ডেটাসেটের সাথে ফাইন-টিউনিং পুনরায় দেখার।
  • বস্তুগত দৃশ্য বনাম টেবিল - বস্তুগত দৃষ্টিভঙ্গি এসকিউএল জেনারেশনকে সহজ করতে পারে এবং সাধারণ পাঠ্য-থেকে-এসকিউএল প্রশ্নের জন্য কর্মক্ষমতা উন্নত করতে পারে। সারণীগুলি সরাসরি অনুসন্ধান করার ফলে জটিল এসকিউএল হতে পারে এবং সূচীগুলির মতো কর্মক্ষমতা কৌশলগুলির অবিচ্ছিন্ন সৃষ্টি সহ কর্মক্ষমতা সংক্রান্ত সমস্যাও হতে পারে। উপরন্তু, আপনি কর্মক্ষমতা সমস্যা এড়াতে পারেন যখন একই টেবিল একই সময়ে অ্যাপ্লিকেশনের অন্যান্য ক্ষেত্রে ব্যবহার করা হয়।
  • রিফ্রেশিং ডেটা – টেক্সট-টু-এসকিউএল কোয়েরির জন্য ডেটা বর্তমান রাখতে একটি সময়সূচীতে বস্তুগত দৃষ্টিভঙ্গি রিফ্রেশ করা দরকার। আপনি ওভারহেড ব্যালেন্স করতে ব্যাচ বা ক্রমবর্ধমান রিফ্রেশ পদ্ধতি ব্যবহার করতে পারেন।
  • কেন্দ্রীয় তথ্য ক্যাটালগ - একটি কেন্দ্রীভূত ডেটা ক্যাটালগ তৈরি করা একটি প্রতিষ্ঠানের ডেটা উত্সগুলিতে গ্লাস ভিউয়ের একটি একক ফলক প্রদান করে এবং আরও সঠিক প্রতিক্রিয়া প্রদানের জন্য LLM-গুলিকে উপযুক্ত টেবিল এবং স্কিমা নির্বাচন করতে সহায়তা করবে৷ ভেক্টর এমবেডিং একটি কেন্দ্রীয় ডেটা ক্যাটালগ থেকে তৈরি করা প্রাসঙ্গিক এবং সুনির্দিষ্ট SQL প্রতিক্রিয়া তৈরি করতে অনুরোধ করা তথ্য সহ একটি LLM-এ সরবরাহ করা যেতে পারে।

ক্যাশিং, মনিটরিং, ম্যাটেরিয়ালাইজড ভিউ, নির্ধারিত রিফ্রেশিং এবং একটি কেন্দ্রীয় ক্যাটালগের মতো অপ্টিমাইজেশানের সর্বোত্তম অনুশীলনগুলি প্রয়োগ করে, আপনি এলএলএম ব্যবহার করে পাঠ্য-টু-এসকিউএল সিস্টেমগুলির কার্যকারিতা এবং দক্ষতা উল্লেখযোগ্যভাবে উন্নত করতে পারেন।

স্থাপত্য নিদর্শন

এসকিউএল ওয়ার্কফ্লোতে পাঠ্যের জন্য প্রয়োগ করা যেতে পারে এমন কিছু আর্কিটেকচার প্যাটার্নের দিকে নজর দেওয়া যাক।

প্রম্পট ইঞ্জিনিয়ারিং

নিম্নোক্ত চিত্রটি প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করে LLM-এর মাধ্যমে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে।

প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করে এলএলএম-এর সাহায্যে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে

এই প্যাটার্নে, ব্যবহারকারী প্রম্পট-ভিত্তিক কয়েকটি-শট লার্নিং তৈরি করে যা মডেলটিকে প্রম্পটেই টীকাযুক্ত উদাহরণ প্রদান করে, যার মধ্যে রয়েছে টেবিল এবং স্কিমার বিবরণ এবং এর ফলাফল সহ কিছু নমুনা প্রশ্ন। LLM প্রদত্ত প্রম্পট ব্যবহার করে এআই-জেনারেটেড এসকিউএল ফিরিয়ে দিতে, যা যাচাই করা হয় এবং তারপর ফলাফল পেতে ডাটাবেসের বিরুদ্ধে চালানো হয়। প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করে শুরু করার জন্য এটি সবচেয়ে সহজবোধ্য প্যাটার্ন। এই জন্য, আপনি ব্যবহার করতে পারেন আমাজন বেডরক or ভিত্তি মডেল in আমাজন সেজমেকার জাম্পস্টার্ট.

এই প্যাটার্নে, ব্যবহারকারী একটি প্রম্পট-ভিত্তিক কয়েকটি-শট লার্নিং তৈরি করে যা প্রম্পটেই মডেলটিকে টীকাযুক্ত উদাহরণ প্রদান করে, যার মধ্যে রয়েছে টেবিল এবং স্কিমার বিবরণ এবং এর ফলাফল সহ কিছু নমুনা প্রশ্ন। LLM প্রদত্ত প্রম্পট ব্যবহার করে AI জেনারেটেড SQL ফেরত ফেরত দেয় যা যাচাই করা হয় এবং ফলাফল পেতে ডাটাবেসের বিরুদ্ধে চালানো হয়। প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করে শুরু করার জন্য এটি সবচেয়ে সহজবোধ্য প্যাটার্ন। এই জন্য, আপনি ব্যবহার করতে পারেন আমাজন বেডরক এটি একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা যা একটি একক API-এর মাধ্যমে শীর্ষস্থানীয় AI কোম্পানিগুলি থেকে উচ্চ-পারফরমিং ফাউন্ডেশন মডেলের (FMs) একটি পছন্দ অফার করে, সাথে নিরাপত্তা, গোপনীয়তা এবং দায়িত্বশীল AI সহ জেনারেটিভ AI অ্যাপ্লিকেশনগুলি তৈরি করার জন্য আপনার প্রয়োজনীয় ক্ষমতার বিস্তৃত সেটের সাথে বা জাম্পস্টার্ট ফাউন্ডেশন মডেল যা কন্টেন্ট রাইটিং, কোড জেনারেশন, প্রশ্নের উত্তর, কপিরাইটিং, সংক্ষিপ্তকরণ, শ্রেণীবিভাগ, তথ্য পুনরুদ্ধার এবং আরও অনেক কিছুর জন্য অত্যাধুনিক ফাউন্ডেশন মডেল অফার করে

প্রম্পট ইঞ্জিনিয়ারিং এবং ফাইন-টিউনিং

নিম্নোক্ত চিত্রটি প্রম্পট ইঞ্জিনিয়ারিং এবং ফাইন-টিউনিং ব্যবহার করে LLM-এর মাধ্যমে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে।

প্রম্পট ইঞ্জিনিয়ারিং এবং ফাইন-টিউনিং ব্যবহার করে এলএলএম-এর সাহায্যে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে

এই প্রবাহটি পূর্ববর্তী প্যাটার্নের অনুরূপ, যা বেশিরভাগই প্রম্পট ইঞ্জিনিয়ারিংয়ের উপর নির্ভর করে, তবে ডোমেন-নির্দিষ্ট ডেটাসেটে সূক্ষ্ম-টিউনিংয়ের অতিরিক্ত প্রবাহের সাথে। সূক্ষ্ম টিউন করা এলএলএম প্রম্পটের জন্য ন্যূনতম ইন-কনটেক্সট মান সহ এসকিউএল কোয়েরি তৈরি করতে ব্যবহৃত হয়। এর জন্য, আপনি একটি ডোমেন-নির্দিষ্ট ডেটাসেটে একটি এলএলএম ঠিক করতে সেজমেকার জাম্পস্টার্ট ব্যবহার করতে পারেন যেভাবে আপনি যে কোনও মডেলকে প্রশিক্ষণ এবং স্থাপন করবেন আমাজন সেজমেকার.

প্রম্পট ইঞ্জিনিয়ারিং এবং আরএজি

নিম্নোক্ত চিত্রটি প্রম্পট ইঞ্জিনিয়ারিং এবং RAG ব্যবহার করে একটি LLM-এর মাধ্যমে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে।

প্রম্পট ইঞ্জিনিয়ারিং এবং আরএজি ব্যবহার করে এলএলএম-এর সাহায্যে প্রশ্ন তৈরি করার জন্য আর্কিটেকচারকে চিত্রিত করে

এই প্যাটার্নে, আমরা ব্যবহার করি পুনরুদ্ধার অগমেন্টেড জেনারেশন ভেক্টর এমবেডিং স্টোর ব্যবহার করে, যেমন অ্যামাজন টাইটান এমবেডিংস or এম্বেড করুন, উপর আমাজন বেডরক একটি কেন্দ্রীয় ডেটা ক্যাটালগ থেকে, যেমন এডাব্লুএস আঠালো ডেটা ক্যাটালগ, একটি প্রতিষ্ঠানের মধ্যে ডাটাবেস. ভেক্টর এমবেডিং যেমন ভেক্টর ডাটাবেস সংরক্ষণ করা হয় Amazon OpenSearch Serverless এর জন্য ভেক্টর ইঞ্জিন, PostgreSQL-এর জন্য Amazon Relational Database Service (Amazon RDS) সাথে pgvector এক্সটেনশন, বা আমাজন কেন্দ্র. এসকিউএল কোয়েরি তৈরি করার সময় LLMগুলি দ্রুত টেবিল থেকে সঠিক ডাটাবেস, টেবিল এবং কলাম নির্বাচন করতে ভেক্টর এম্বেডিং ব্যবহার করে। RAG ব্যবহার করা সহায়ক যখন ডেটা এবং প্রাসঙ্গিক তথ্য যা LLMs দ্বারা পুনরুদ্ধার করা প্রয়োজন একাধিক পৃথক ডাটাবেস সিস্টেমে সংরক্ষণ করা হয় এবং LLM-কে এই সমস্ত বিভিন্ন সিস্টেম থেকে ডেটা অনুসন্ধান বা অনুসন্ধান করতে সক্ষম হতে হবে। এখানেই এলএলএম-কে কেন্দ্রীভূত বা ইউনিফাইড ডেটা ক্যাটালগের ভেক্টর এম্বেডিং প্রদানের ফলে এলএলএমগুলি দ্বারা ফেরত আরও সঠিক এবং ব্যাপক তথ্য পাওয়া যায়।

উপসংহার

এই পোস্টে, আমরা আলোচনা করেছি কিভাবে আমরা প্রাকৃতিক ভাষা ব্যবহার করে এন্টারপ্রাইজ ডেটা থেকে এসকিউএল জেনারেশন পর্যন্ত মান তৈরি করতে পারি। আমরা মূল উপাদান, অপ্টিমাইজেশান, এবং সর্বোত্তম অনুশীলনগুলি দেখেছি। আমরা বেসিক প্রম্পট ইঞ্জিনিয়ারিং থেকে ফাইন-টিউনিং এবং RAG পর্যন্ত আর্কিটেকচারের নিদর্শনও শিখেছি। আরো জানতে, পড়ুন আমাজন বেডরক ফাউন্ডেশন মডেল সহ জেনারেটিভ এআই অ্যাপ্লিকেশন সহজে তৈরি এবং স্কেল করতে


লেখক সম্পর্কে

এন্টারপ্রাইজ ডেটা থেকে মান তৈরি করা: Text2SQL এবং জেনারেটিভ AI এর জন্য সেরা অনুশীলন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.র‌্যান্ডি ডিফাউ AWS-এর একজন সিনিয়র প্রিন্সিপাল সলিউশন আর্কিটেক্ট। তিনি মিশিগান বিশ্ববিদ্যালয় থেকে একটি MSEE ধারণ করেছেন, যেখানে তিনি স্বায়ত্তশাসিত যানবাহনের জন্য কম্পিউটার দৃষ্টিতে কাজ করেছেন। তিনি কলোরাডো স্টেট ইউনিভার্সিটি থেকে এমবিএও করেছেন। র‌্যান্ডি সফটওয়্যার ইঞ্জিনিয়ারিং থেকে শুরু করে প্রোডাক্ট ম্যানেজমেন্ট পর্যন্ত টেকনোলজি স্পেসে বিভিন্ন পদে অধিষ্ঠিত হয়েছেন। ইন 2013 সালে বিগ ডেটা স্পেসে প্রবেশ করে এবং সেই অঞ্চলটি অন্বেষণ করে চলেছে। তিনি সক্রিয়ভাবে এমএল স্পেসে প্রকল্পগুলিতে কাজ করছেন এবং স্ট্র্যাটা এবং গ্লুকন সহ অসংখ্য সম্মেলনে উপস্থাপন করেছেন।

এন্টারপ্রাইজ ডেটা থেকে মান তৈরি করা: Text2SQL এবং জেনারেটিভ AI এর জন্য সেরা অনুশীলন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.নিতিন ইউসেবিয়াস AWS-এর একজন সিনিয়র এন্টারপ্রাইজ সলিউশন আর্কিটেক্ট, সফটওয়্যার ইঞ্জিনিয়ারিং, এন্টারপ্রাইজ আর্কিটেকচার এবং AI/ML-এ অভিজ্ঞ। তিনি জেনারেটিভ AI এর সম্ভাবনাগুলি অন্বেষণ করার বিষয়ে গভীরভাবে উত্সাহী৷ তিনি গ্রাহকদের AWS প্ল্যাটফর্মে সু-আর্কিটেক্টেড অ্যাপ্লিকেশন তৈরি করতে সাহায্য করার জন্য তাদের সাথে সহযোগিতা করেন এবং প্রযুক্তির চ্যালেঞ্জগুলি সমাধান করতে এবং তাদের ক্লাউড যাত্রায় সহায়তা করার জন্য নিবেদিত৷

এন্টারপ্রাইজ ডেটা থেকে মান তৈরি করা: Text2SQL এবং জেনারেটিভ AI এর জন্য সেরা অনুশীলন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.অর্ঘ্য ব্যানার্জি সান ফ্রান্সিসকো উপসাগরীয় অঞ্চলে AWS-এর একজন সিনিয়র সলিউশন আর্কিটেক্ট গ্রাহকদের AWS ক্লাউড গ্রহণ এবং ব্যবহার করতে সহায়তা করার উপর দৃষ্টি নিবদ্ধ করে৷ অর্ঘ্য বিগ ডেটা, ডেটা লেক, স্ট্রিমিং, ব্যাচ অ্যানালিটিক্স এবং এআই/এমএল পরিষেবা এবং প্রযুক্তির উপর দৃষ্টি নিবদ্ধ করে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং