कैसे Q4 Inc. ने अपने Q&A चैटबॉट का निर्माण करते हुए संख्यात्मक और संरचित डेटासेट चुनौतियों का समाधान करने के लिए Amazon Bedrock, RAG और SQLDatabaseChain का उपयोग किया

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यह पोस्ट Q4 Inc. के स्टैनिस्लाव येशचेंको के साथ सह-लिखित है।

उद्यम Q&A चैटबॉट बनाने के लिए मुख्यधारा के दृष्टिकोण के रूप में रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) की ओर रुख करते हैं। हम उपलब्ध डेटासेट की प्रकृति से उत्पन्न होने वाली उभरती चुनौतियों को देखना जारी रखते हैं। ये डेटासेट अक्सर संरचित, असंरचित या अर्ध-संरचित, संख्यात्मक और पाठ डेटा का मिश्रण होते हैं।

Q4 इंक. AWS पर निर्मित उनके कई AI उपयोग मामलों में से एक में इनमें से कुछ चुनौतियों का समाधान करने की आवश्यकता है। इस पोस्ट में, हम Q&A बॉट उपयोग मामले पर चर्चा करते हैं जिसे Q4 ने लागू किया है, संख्यात्मक और संरचित डेटासेट द्वारा प्रस्तुत चुनौतियां, और Q4 ने कैसे निष्कर्ष निकाला कि SQL का उपयोग करना एक व्यवहार्य समाधान हो सकता है। अंत में, हम इस पर करीब से नज़र डालते हैं कि Q4 टीम ने कैसे उपयोग किया अमेज़ॅन बेडरॉक और SQL पीढ़ी के साथ RAG-आधारित समाधान लागू करने के लिए SQLDatabaseChain।

केस अवलोकन का उपयोग करें

Q4 Inc., जिसका मुख्यालय टोरंटो में है, न्यूयॉर्क और लंदन में कार्यालयों के साथ, एक अग्रणी पूंजी बाजार पहुंच मंच है जो जारीकर्ताओं, निवेशकों और विक्रेताओं के एक-दूसरे के साथ कुशलतापूर्वक जुड़ने, संवाद करने और संलग्न होने के तरीके को बदल रहा है। Q4 प्लेटफॉर्म आईआर वेबसाइट उत्पादों, वर्चुअल इवेंट सॉल्यूशंस, एंगेजमेंट एनालिटिक्स, निवेशक संबंध ग्राहक संबंध प्रबंधन (सीआरएम), शेयरधारक और बाजार विश्लेषण, निगरानी और ईएसजी टूल के माध्यम से पूंजी बाजारों में बातचीत की सुविधा प्रदान करता है।

आज के तेज़-तर्रार और डेटा-संचालित वित्तीय परिदृश्य में, निवेशक संबंध अधिकारी (आईआरओ) किसी कंपनी और उसके शेयरधारकों, विश्लेषकों और निवेशकों के बीच संचार को बढ़ावा देने में महत्वपूर्ण भूमिका निभाते हैं। अपने दैनिक कर्तव्यों के हिस्से के रूप में, आईआरओ सीआरएम, स्वामित्व रिकॉर्ड और स्टॉक मार्केट डेटा सहित विविध डेटासेट का विश्लेषण करते हैं। इस डेटा के समुच्चय का उपयोग वित्तीय रिपोर्ट तैयार करने, निवेशक संबंध लक्ष्य निर्धारित करने और मौजूदा और संभावित निवेशकों के साथ संचार का प्रबंधन करने के लिए किया जाता है।

कुशल और गतिशील डेटा पुनर्प्राप्ति की बढ़ती मांग को पूरा करने के लिए, Q4 का लक्ष्य एक चैटबॉट Q&A टूल बनाना है जो IROs को उपयोगकर्ता के अनुकूल प्रारूप में आवश्यक जानकारी तक पहुंचने के लिए एक सहज और सरल तरीका प्रदान करेगा।

अंतिम लक्ष्य एक चैटबॉट बनाना था जो सुरक्षा और डेटा गोपनीयता के उच्चतम स्तर को बनाए रखते हुए मालिकाना ग्राहक-विशिष्ट Q4 डेटा के साथ सार्वजनिक रूप से उपलब्ध डेटा को सहजता से एकीकृत करेगा। जहां तक प्रदर्शन का सवाल है, लक्ष्य अंतिम उपयोगकर्ताओं के लिए सकारात्मक अनुभव सुनिश्चित करने के लिए सेकंड का क्वेरी प्रतिक्रिया समय बनाए रखना था।

वित्तीय बाज़ार एक विनियमित उद्योग है जिसमें उच्च हिस्सेदारी शामिल है। गलत या पुरानी जानकारी प्रदान करने से अन्य संभावित डेटा गोपनीयता जोखिमों के अलावा, निवेशकों और शेयरधारकों के विश्वास पर असर पड़ सकता है। उद्योग और आवश्यकताओं को समझते हुए, Q4 किसी भी समाधान को बाजार में लाने से पहले उसका मूल्यांकन करने में डेटा गोपनीयता और प्रतिक्रिया सटीकता को अपने मार्गदर्शक सिद्धांतों के रूप में निर्धारित करता है।

अवधारणा के प्रमाण के लिए, Q4 ने वित्तीय स्वामित्व डेटासेट का उपयोग करने का निर्णय लिया। डेटासेट में स्वामित्व वाली संपत्तियों की संख्या का प्रतिनिधित्व करने वाले समय श्रृंखला डेटा बिंदु होते हैं; निवेश संस्थानों, व्यक्तियों और सार्वजनिक कंपनियों के बीच लेनदेन का इतिहास; और भी कई तत्व.

क्योंकि Q4 यह सुनिश्चित करना चाहता था कि यह हमारे द्वारा चर्चा की गई सभी कार्यात्मक और गैर-कार्यात्मक आवश्यकताओं को पूरा कर सके, इस परियोजना को व्यावसायिक रूप से व्यवहार्य बने रहने की भी आवश्यकता थी। दृष्टिकोण, वास्तुकला, प्रौद्योगिकी की पसंद और समाधान-विशिष्ट तत्वों पर निर्णय लेने की पूरी प्रक्रिया में इसका सम्मान किया गया।

प्रयोग और चुनौतियाँ

यह शुरू से ही स्पष्ट था कि मानव भाषा के प्रश्न को समझने और सटीक उत्तर उत्पन्न करने के लिए, Q4 को बड़े भाषा मॉडल (एलएलएम) का उपयोग करने की आवश्यकता होगी।

पहचानी गई चुनौतियों और सीखे गए सबकों के साथ टीम द्वारा किए गए कुछ प्रयोग निम्नलिखित हैं:

पूर्व प्रशिक्षण - Q4 ने अपने स्वयं के डेटासेट का उपयोग करके एलएलएम के पूर्व-प्रशिक्षण के साथ आने वाली जटिलता और चुनौतियों को समझा। यह जल्दी ही स्पष्ट हो गया कि यह दृष्टिकोण डेटा प्रीप्रोसेसिंग, प्रशिक्षण और मूल्यांकन जैसे कई गैर-तुच्छ चरणों के साथ संसाधन गहन है। इसमें शामिल प्रयास के अलावा, इसमें लागत निषेधात्मक होगी। समय श्रृंखला डेटासेट की प्रकृति को ध्यान में रखते हुए, Q4 ने यह भी महसूस किया कि नए डेटा आने पर उसे लगातार वृद्धिशील पूर्व-प्रशिक्षण करना होगा। इसके लिए डेटा विज्ञान, मशीन लर्निंग और डोमेन में विशेषज्ञता के साथ एक समर्पित क्रॉस-डिसिप्लिनरी टीम की आवश्यकता होगी। ज्ञान।
फ़ाइन ट्यूनिंग - कई लेबल वाले उदाहरणों का उपयोग करके पूर्व-प्रशिक्षित फाउंडेशन मॉडल (एफएम) को फाइन-ट्यूनिंग करना। इस दृष्टिकोण ने कुछ प्रारंभिक सफलता दिखाई, लेकिन कई मामलों में, मॉडल मतिभ्रम एक चुनौती थी। मॉडल को सूक्ष्म प्रासंगिक संकेतों को समझने में संघर्ष करना पड़ा और गलत परिणाम मिले।
सिमेंटिक खोज के साथ आरएजी - सिमेंटिक खोज के साथ पारंपरिक RAG SQL पीढ़ी में जाने से पहले अंतिम चरण था। टीम ने संदर्भ निकालने के लिए खोज, सिमेंटिक खोज और एम्बेडिंग का उपयोग करके प्रयोग किया। एम्बेडिंग प्रयोग के दौरान, डेटासेट को एम्बेडिंग में परिवर्तित किया गया, एक वेक्टर डेटाबेस में संग्रहीत किया गया, और फिर संदर्भ निकालने के लिए प्रश्न के एम्बेडिंग के साथ मिलान किया गया। तीन प्रयोगों में से किसी में पुनर्प्राप्त संदर्भ का उपयोग एलएलएम में इनपुट के रूप में मूल संकेत को बढ़ाने के लिए किया गया था। यह दृष्टिकोण पाठ-आधारित सामग्री के लिए अच्छा काम करता है, जहां डेटा में शब्दों, वाक्यों और पैराग्राफ के साथ प्राकृतिक भाषा शामिल होती है। Q4 के डेटासेट की प्रकृति को ध्यान में रखते हुए, जो ज्यादातर वित्तीय डेटा है जिसमें संख्याएं, वित्तीय लेनदेन, स्टॉक उद्धरण और तिथियां शामिल हैं, तीनों मामलों में परिणाम इष्टतम नहीं थे। एम्बेडिंग का उपयोग करते समय भी, संख्याओं से उत्पन्न एम्बेडिंग समानता रैंकिंग के साथ संघर्ष करती थी, और कई मामलों में गलत जानकारी प्राप्त होती थी।

Q4 का निष्कर्ष: SQL उत्पन्न करना ही आगे बढ़ने का रास्ता है

पारंपरिक RAG पद्धति का उपयोग करने में आने वाली चुनौतियों को ध्यान में रखते हुए, टीम ने SQL पीढ़ी पर विचार करना शुरू किया। विचार यह था कि एलएलएम का उपयोग पहले उपयोगकर्ता के प्रश्न से एक एसक्यूएल स्टेटमेंट तैयार करने के लिए किया जाए, जिसे एलएलएम में प्राकृतिक भाषा में प्रस्तुत किया जाए। प्रासंगिक संदर्भ लाने के लिए उत्पन्न क्वेरी को डेटाबेस के विरुद्ध चलाया जाता है। सारांशीकरण चरण के लिए इनपुट प्रॉम्प्ट को बढ़ाने के लिए अंततः संदर्भ का उपयोग किया जाता है।

Q4 की परिकल्पना यह थी कि पुनर्प्राप्ति चरण के लिए, विशेष रूप से संख्यात्मक डेटासेट के लिए उच्च रिकॉल प्राप्त करने के लिए, उन्हें पहले उपयोगकर्ता के प्रश्न से SQL उत्पन्न करने की आवश्यकता थी। ऐसा माना जाता था कि इससे न केवल सटीकता बढ़ेगी, बल्कि किसी दिए गए प्रश्न के संदर्भ को व्यावसायिक क्षेत्र में भी रखा जा सकेगा। क्वेरी निर्माण के लिए, और सटीक SQL उत्पन्न करने के लिए, Q4 को LLM को उनकी डेटासेट संरचना के बारे में पूरी तरह से अवगत कराने की आवश्यकता है। इसका मतलब उन क्षेत्रों के लिए डेटाबेस स्कीमा, कुछ नमूना डेटा पंक्तियाँ और मानव-पठनीय फ़ील्ड स्पष्टीकरण शामिल करने के लिए आवश्यक संकेत था, जिन्हें समझना आसान नहीं है।

प्रारंभिक परीक्षणों के आधार पर, इस पद्धति ने बहुत अच्छे परिणाम दिखाए। सभी आवश्यक सूचनाओं से सुसज्जित एलएलएम सही एसक्यूएल उत्पन्न करने में सक्षम था, जिसे बाद में सही संदर्भ प्राप्त करने के लिए डेटाबेस के विरुद्ध चलाया गया था। विचार के साथ प्रयोग करने के बाद, Q4 ने निर्णय लिया कि SQL पीढ़ी उनके अपने विशिष्ट डेटासेट के लिए संदर्भ निष्कर्षण चुनौतियों का समाधान करने का रास्ता है।

आइए समग्र समाधान दृष्टिकोण का वर्णन करने से शुरुआत करें, इसे इसके घटकों में विभाजित करें, और फिर टुकड़ों को एक साथ रखें।

समाधान अवलोकन

एलएलएम अरबों मापदंडों वाले बड़े मॉडल हैं जिन्हें विभिन्न स्रोतों से बहुत बड़ी मात्रा में डेटा का उपयोग करके पूर्व-प्रशिक्षित किया जाता है। प्रशिक्षण डेटासेट की व्यापकता के कारण, एलएलएम से विभिन्न क्षेत्रों में सामान्य ज्ञान की अपेक्षा की जाती है। एलएलएम अपनी तर्क क्षमता के लिए भी जाने जाते हैं, जो एक मॉडल से दूसरे मॉडल में भिन्न होती हैं। अतिरिक्त डोमेन-विशिष्ट पूर्व-प्रशिक्षण डेटा का उपयोग करके या लेबल किए गए डेटा का उपयोग करके फ़ाइन-ट्यूनिंग करके फ़ाउंडेशन मॉडल को और अधिक अनुकूलित करके इस सामान्य व्यवहार को एक विशिष्ट डोमेन या उद्योग के लिए अनुकूलित किया जा सकता है। सही संदर्भ, मेटाडेटा और निर्देशों को देखते हुए, एक अच्छी तरह से चयनित सामान्य प्रयोजन एलएलएम अच्छी गुणवत्ता वाले एसक्यूएल का उत्पादन कर सकता है जब तक कि उसके पास सही डोमेन-विशिष्ट संदर्भ तक पहुंच हो।

Q4 के उपयोग के मामले में, हम ग्राहक के प्रश्न का SQL में अनुवाद करके शुरुआत करते हैं। हम एसक्यूएल उत्पन्न करने के लिए एलएलएम के संकेत के रूप में उपयोगकर्ता प्रश्न, डेटाबेस स्कीमा, कुछ नमूना डेटाबेस पंक्तियों और विस्तृत निर्देशों को मिलाकर ऐसा करते हैं। हमारे पास SQL होने के बाद, यदि आवश्यक समझा जाए तो हम एक सत्यापन चरण चला सकते हैं। जब हम SQL की गुणवत्ता से खुश होते हैं, तो हम अगले चरण के लिए आवश्यक प्रासंगिक संदर्भ को पुनः प्राप्त करने के लिए डेटाबेस के विरुद्ध क्वेरी चलाते हैं। अब जब हमारे पास प्रासंगिक संदर्भ है, तो हम अंतिम सारांशित प्रतिक्रिया तैयार करने के लिए उपयोगकर्ता के मूल प्रश्न, पुनर्प्राप्त संदर्भ और निर्देशों का एक सेट एलएलएम को वापस भेज सकते हैं। अंतिम चरण का लक्ष्य एलएलएम को परिणामों को सारांशित करना और एक प्रासंगिक और सटीक उत्तर प्रदान करना है जिसे बाद में उपयोगकर्ता तक पहुंचाया जा सके।

प्रक्रिया के प्रत्येक चरण में उपयोग किए जाने वाले एलएलएम का चयन सटीकता, लागत और प्रदर्शन पर अत्यधिक प्रभाव डालता है। एक ऐसा प्लेटफ़ॉर्म या तकनीक चुनना जो आपको एक ही उपयोग के मामले में एलएलएम के बीच स्विच करने की सुविधा दे सके (विभिन्न कार्यों के लिए कई एलएलएम यात्राएं), या विभिन्न उपयोग के मामलों में, आउटपुट की गुणवत्ता, विलंबता और लागत को अनुकूलित करने में फायदेमंद हो सकता है। . हम इस पोस्ट में बाद में एलएलएम के विकल्प पर चर्चा करेंगे।

समाधान बिल्डिंग ब्लॉक

अब जब हमने उच्च स्तर पर दृष्टिकोण पर प्रकाश डाला है, तो आइए समाधान निर्माण ब्लॉकों से शुरू करते हुए विवरण पर ध्यान दें।

अमेज़ॅन बेडरॉक

अमेज़ॅन बेडरॉक एक पूरी तरह से प्रबंधित सेवा है जो एआई21 लैब्स, एंथ्रोपिक, कोहेयर, मेटा, स्टेबिलिटी एआई और अमेज़ॅन सहित अग्रणी कंपनियों से उच्च प्रदर्शन वाले एफएम का विकल्प प्रदान करती है। अमेज़ॅन बेडरॉक टूल का एक व्यापक सेट भी प्रदान करता है जो जेनरेटिव एआई एप्लिकेशन बनाने, विकास प्रक्रिया को सरल बनाने और गोपनीयता और सुरक्षा बनाए रखने के लिए आवश्यक है। इसके अलावा, अमेज़ॅन बेडरॉक के साथ आप विभिन्न एफएम विकल्पों में से चुन सकते हैं, और आप अपने उपयोग के मामले की आवश्यकताओं के साथ मॉडल की प्रतिक्रियाओं को संरेखित करने के लिए अपने स्वयं के डेटा का उपयोग करके निजी तौर पर मॉडल को और बेहतर बना सकते हैं। अमेज़ॅन बेडरॉक पूरी तरह से सर्वर रहित है और एकल एपीआई के माध्यम से उपलब्ध मॉडलों तक पहुंच बढ़ाने के प्रबंधन के लिए कोई अंतर्निहित बुनियादी ढांचा नहीं है। अंत में, अमेज़ॅन बेडरॉक एचआईपीएए पात्रता और जीडीपीआर अनुपालन सहित कई सुरक्षा और गोपनीयता आवश्यकताओं का समर्थन करता है।

Q4 के समाधान में, हम अमेज़ॅन बेडरॉक का उपयोग सर्वर रहित, एपीआई-आधारित, मल्टी-फाउंडेशन मॉडल बिल्डिंग ब्लॉक के रूप में करते हैं। क्योंकि हम कार्य प्रकार के आधार पर एक ही उपयोग के मामले में एलएलएम में कई यात्राएं करने का इरादा रखते हैं, हम उस मॉडल को चुन सकते हैं जो किसी विशिष्ट कार्य के लिए सबसे इष्टतम है, चाहे वह एसक्यूएल पीढ़ी, सत्यापन या सारांश हो।

लैंगचैन

लैंगचैन पूर्व-निर्मित मॉड्यूल (आई/ओ, पुनर्प्राप्ति, चेन और एजेंट) के एक सेट के साथ एक खुला स्रोत एकीकरण और ऑर्केस्ट्रेशन ढांचा है जिसका उपयोग आप एफएम, डेटा स्रोतों और टूल के बीच कार्यों को एकीकृत और व्यवस्थित करने के लिए कर सकते हैं। फ्रेमवर्क जेनेरिक एआई अनुप्रयोगों के निर्माण की सुविधा प्रदान करता है, जिसके लिए स्क्रैच से कोड लिखे बिना, वांछित आउटपुट उत्पन्न करने के लिए कई चरणों को व्यवस्थित करने की आवश्यकता होती है। लैंगचेन मल्टी-फाउंडेशन मॉडल एपीआई के रूप में अमेज़ॅन बेडरॉक का समर्थन करता है।

Q4 के उपयोग के मामले में विशिष्ट, हम अपने वर्कफ़्लो में डेटा स्रोतों और एलएलएम से कनेक्ट करने सहित कार्यों के समन्वय और ऑर्केस्ट्रेटिंग के लिए लैंगचेन का उपयोग करते हैं। इस दृष्टिकोण ने हमारे कोड को सरल बना दिया है क्योंकि हम मौजूदा लैंगचेन मॉड्यूल का उपयोग कर सकते हैं।

SQLडेटाबेसश्रृंखला

SQLडेटाबेसश्रृंखला एक लैंगचेन श्रृंखला है जिसे लैंगचेन_एक्सपेरिमेंटल से आयात किया जा सकता है। SLDatabaseChain अपने प्रभावी टेक्स्ट-टू-एसक्यूएल रूपांतरण और कार्यान्वयन का उपयोग करके SQL क्वेरीज़ को बनाना, कार्यान्वित करना और चलाना आसान बनाता है।

हमारे उपयोग के मामले में, हम SQL पीढ़ी में SQLDatabaseChain का उपयोग करते हैं, डेटाबेस और LLM के बीच इंटरैक्शन को सरल और व्यवस्थित करते हैं।

डेटासेट

जब तक हमारे पास SQL के लिए समर्थन है तब तक हमारा संरचित डेटासेट SQL डेटाबेस, डेटा लेक या डेटा वेयरहाउस में रह सकता है। हमारे समाधान में, हम SQL समर्थन के साथ किसी भी डेटासेट प्रकार का उपयोग कर सकते हैं; इसे समाधान से अलग किया जाना चाहिए और समाधान को किसी भी तरह से नहीं बदलना चाहिए।

कार्यान्वयन का विवरण

अब जब हमने समाधान दृष्टिकोण, समाधान घटकों, प्रौद्योगिकी की पसंद और उपकरणों का पता लगा लिया है, तो हम टुकड़ों को एक साथ रख सकते हैं। निम्नलिखित चित्र एंड-टू-एंड समाधान पर प्रकाश डालता है।

एंड टू एंड सॉल्यूशन आर्किटेक्चर

आइए कार्यान्वयन विवरण और प्रक्रिया प्रवाह के बारे में जानें।

SQL क्वेरी जनरेट करें

कोडिंग को सरल बनाने के लिए, हम मौजूदा फ्रेमवर्क का उपयोग करते हैं। हम लैंगचेन का उपयोग ऑर्केस्ट्रेशन ढांचे के रूप में करते हैं। हम इनपुट चरण से शुरू करते हैं, जहां हमें उपयोगकर्ता का प्रश्न प्राकृतिक भाषा में प्राप्त होता है।

इस पहले चरण में, हम यह इनपुट लेते हैं और एक समतुल्य SQL उत्पन्न करते हैं जिसे हम संदर्भ निष्कर्षण के लिए डेटाबेस के विरुद्ध चला सकते हैं। एसक्यूएल उत्पन्न करने के लिए, हम SQLDatabaseChain का उपयोग करते हैं, जो हमारे वांछित एलएलएम तक पहुंच के लिए अमेज़ॅन बेडरॉक पर निर्भर करता है। अमेज़ॅन बेडरॉक के साथ, एकल एपीआई का उपयोग करके, हमें कई अंतर्निहित एलएलएम तक पहुंच मिलती है और हम अपनी प्रत्येक एलएलएम यात्रा के लिए सही एलएलएम चुन सकते हैं। हम पहले डेटाबेस से एक कनेक्शन स्थापित करते हैं और जिन तालिकाओं का हम उपयोग करना चाहते हैं उनसे कुछ नमूना पंक्तियों के साथ आवश्यक तालिका स्कीमा पुनर्प्राप्त करते हैं।

हमारे परीक्षण में, हमने पाया कि तालिका डेटा की 2-5 पंक्तियाँ बहुत अधिक अनावश्यक ओवरहेड जोड़े बिना मॉडल को पर्याप्त जानकारी देने के लिए पर्याप्त हैं। मॉडल पर बहुत अधिक इनपुट डाले बिना, संदर्भ प्रदान करने के लिए तीन पंक्तियाँ पर्याप्त थीं। हमारे उपयोग के मामले में, हमने एंथ्रोपिक से शुरुआत की क्लाउड V2. यह मॉडल अपने उन्नत तर्क और सही संदर्भ और निर्देश प्रदान किए जाने पर प्रासंगिक प्रतिक्रियाओं को स्पष्ट करने के लिए जाना जाता है। निर्देशों के भाग के रूप में, हम एलएलएम में अधिक स्पष्ट विवरण शामिल कर सकते हैं। उदाहरण के लिए, हम उस कॉलम का वर्णन कर सकते हैं Comp_NAME कंपनी के नाम को दर्शाता है. अब हम उपयोगकर्ता के प्रश्न, डेटाबेस स्कीमा, जिस तालिका का हम उपयोग करना चाहते हैं उससे तीन नमूना पंक्तियाँ, और टिप्पणियों या परिवर्धन के बिना स्वच्छ SQL प्रारूप में आवश्यक SQL उत्पन्न करने के लिए निर्देशों का एक सेट जोड़कर प्रॉम्प्ट का निर्माण कर सकते हैं।

संयुक्त सभी इनपुट तत्वों को मॉडल इनपुट प्रॉम्प्ट माना जाता है। एक अच्छी तरह से इंजीनियर किया गया इनपुट प्रॉम्प्ट जो मॉडल के पसंदीदा सिंटैक्स के अनुरूप होता है, आउटपुट की गुणवत्ता और प्रदर्शन दोनों पर अत्यधिक प्रभाव डालता है। किसी विशिष्ट कार्य के लिए उपयोग करने के लिए मॉडल का चुनाव भी महत्वपूर्ण है, न केवल इसलिए कि यह आउटपुट गुणवत्ता को प्रभावित करता है, बल्कि इसलिए भी क्योंकि इसमें लागत और प्रदर्शन निहितार्थ होते हैं।

हम इस पोस्ट में बाद में मॉडल चयन और शीघ्र इंजीनियरिंग और अनुकूलन पर चर्चा करते हैं, लेकिन यह ध्यान देने योग्य है कि क्वेरी जनरेशन चरण के लिए, हमने देखा कि क्लाउड इंस्टेंट तुलनीय परिणाम देने में सक्षम था, खासकर जब उपयोगकर्ता का प्रश्न अच्छी तरह से लिखा गया हो और उतना परिष्कृत न हो। हालाँकि, क्लाउड V2 ने अधिक जटिल और अप्रत्यक्ष उपयोगकर्ता इनपुट के साथ भी बेहतर परिणाम दिए। हालाँकि कुछ मामलों में हमने यह सीखा क्लाउड इंस्टेंट बेहतर विलंबता और मूल्य बिंदु पर पर्याप्त सटीकता प्रदान कर सकता है, क्वेरी पीढ़ी के लिए हमारा मामला क्लाउड V2 के लिए बेहतर अनुकूल था।

SQL क्वेरी सत्यापित करें

हमारा अगला कदम यह सत्यापित करना है कि एलएलएम ने सफलतापूर्वक सही क्वेरी सिंटैक्स तैयार किया है और डेटाबेस स्कीमा और प्रदान की गई उदाहरण पंक्तियों पर विचार करते हुए क्वेरी प्रासंगिक समझ में आती है। इस सत्यापन चरण के लिए, हम SQLDatabaseChain के भीतर मूल क्वेरी सत्यापन पर वापस लौट सकते हैं, या हम सत्यापन निर्देश के साथ उत्पन्न क्वेरी सहित एलएलएम की दूसरी यात्रा चला सकते हैं।

यदि हम सत्यापन चरण के लिए एलएलएम का उपयोग करते हैं, तो हम पहले के समान एलएलएम (क्लाउड वी2) या एक सरल कार्य के लिए छोटे, अधिक प्रदर्शन वाले एलएलएम का उपयोग कर सकते हैं, जैसे क्लाउड इंस्टेंट। चूँकि हम अमेज़न बेडरॉक का उपयोग कर रहे हैं, यह एक बहुत ही सरल समायोजन होना चाहिए। उसी एपीआई का उपयोग करके, हम अपने एपीआई कॉल में मॉडल का नाम बदल सकते हैं, जो परिवर्तन का ख्याल रखता है। यह ध्यान रखना महत्वपूर्ण है कि ज्यादातर मामलों में, एक छोटा एलएलएम लागत और विलंबता दोनों में बेहतर दक्षता प्रदान कर सकता है और इस पर विचार किया जाना चाहिए - जब तक आपको वांछित सटीकता मिल रही है। हमारे मामले में, परीक्षण ने साबित कर दिया कि उत्पन्न क्वेरी लगातार सटीक और सही सिंटैक्स के साथ है। यह जानते हुए, हम इस सत्यापन चरण को छोड़ने और विलंबता और लागत को बचाने में सक्षम थे।

SQL क्वेरी चलाएँ

अब जब हमारे पास सत्यापित SQL क्वेरी है, तो हम SQL क्वेरी को डेटाबेस के विरुद्ध चला सकते हैं और प्रासंगिक संदर्भ पुनः प्राप्त कर सकते हैं। यह एक सीधा कदम होना चाहिए.

हम उत्पन्न संदर्भ लेते हैं, इसे प्रारंभिक उपयोगकर्ता प्रश्न और कुछ निर्देशों के साथ अपनी पसंद के एलएलएम को प्रदान करते हैं, और मॉडल से एक प्रासंगिक और स्पष्ट सारांश उत्पन्न करने के लिए कहते हैं। फिर हम प्रारंभिक प्रश्न के उत्तर के रूप में उपयोगकर्ता को उत्पन्न सारांश प्रस्तुत करते हैं, जो हमारे डेटासेट से निकाले गए संदर्भ के साथ संरेखित होता है।

सारांश चरण में शामिल एलएलएम के लिए, हम टाइटन टेक्स्ट एक्सप्रेस या क्लाउड इंस्टेंट का उपयोग कर सकते हैं। वे दोनों सारांशीकरण कार्य के लिए अच्छे विकल्प प्रस्तुत करेंगे।

आवेदन एकीकरण

Q&A चैटबॉट क्षमता Q4 की AI सेवाओं में से एक है। मॉड्यूलरिटी और स्केलेबिलिटी सुनिश्चित करने के लिए, Q4 AI सेवाओं को माइक्रोसर्विसेज के रूप में बनाता है जो API के माध्यम से Q4 अनुप्रयोगों तक पहुंच योग्य हैं। यह एपीआई-आधारित दृष्टिकोण Q4 प्लेटफ़ॉर्म पारिस्थितिकी तंत्र के साथ सहज एकीकरण को सक्षम बनाता है और प्लेटफ़ॉर्म अनुप्रयोगों के पूर्ण सूट में एआई सेवाओं की क्षमताओं को उजागर करने की सुविधा प्रदान करता है।

एआई सेवाओं का मुख्य उद्देश्य इनपुट के रूप में प्राकृतिक भाषा का उपयोग करके किसी भी सार्वजनिक या मालिकाना डेटा स्रोत से डेटा पुनर्प्राप्त करने के लिए सीधी क्षमताएं प्रदान करना है। इसके अलावा, एआई सेवाएं यह सुनिश्चित करने के लिए अमूर्तता की अतिरिक्त परतें प्रदान करती हैं कि डेटा गोपनीयता और सुरक्षा जैसी कार्यात्मक और गैर-कार्यात्मक आवश्यकताएं पूरी होती हैं। निम्नलिखित चित्र एकीकरण अवधारणा को प्रदर्शित करता है।

अनुप्रयोग एकीकरण छवि

कार्यान्वयन चुनौतियां

संरचित, संख्यात्मक डेटासेट की प्रकृति द्वारा प्रस्तुत चुनौतियों के अलावा, जिन पर हमने पहले चर्चा की थी, Q4 को कई अन्य कार्यान्वयन चुनौतियों का सामना करना पड़ा था जिन्हें संबोधित करने की आवश्यकता थी।

एलएलएम चयन और प्रदर्शन

कार्य के लिए सही एलएलएम का चयन करना महत्वपूर्ण है क्योंकि यह सीधे आउटपुट की गुणवत्ता के साथ-साथ प्रदर्शन (राउंड ट्रिप विलंबता) को प्रभावित करता है। यहां कुछ कारक दिए गए हैं जो एलएलएम चयन प्रक्रिया में भूमिका निभाते हैं:

एलएलएम का प्रकार - जिस तरह से एफएम की वास्तुकला की गई है और जिस प्रारंभिक डेटा पर मॉडल को पूर्व-प्रशिक्षित किया गया है, वह यह निर्धारित करता है कि एलएलएम किस प्रकार के कार्यों में अच्छा होगा और कितना अच्छा होगा। उदाहरण के लिए, एक टेक्स्ट एलएलएम टेक्स्ट जेनरेशन और सारांशीकरण में अच्छा होगा, जबकि एक टेक्स्ट-टू-इमेज या इमेज-टू-टेक्स्ट मॉडल इमेज एनालिटिक्स और जेनरेशन कार्यों के लिए अधिक सक्षम होगा।
एलएलएम आकार - एफएम आकार को किसी विशेष मॉडल के मॉडल मापदंडों की संख्या से मापा जाता है, आमतौर पर आधुनिक एलएलएम के लिए अरबों में। आमतौर पर, मॉडल जितना बड़ा होगा, शुरू में प्रशिक्षित करना या बाद में उसे ठीक करना उतना ही महंगा होगा। दूसरी ओर, सामान्य तौर पर, एक ही मॉडल आर्किटेक्चर के लिए, मॉडल जितना बड़ा होता है, हम उम्मीद करते हैं कि वह उस प्रकार के कार्य को करने में उतना ही अधिक स्मार्ट होगा जिसके लिए उसे तैयार किया गया है।
एलएलएम प्रदर्शन - आमतौर पर, मॉडल जितना बड़ा होगा, आउटपुट उत्पन्न करने में उतना ही अधिक समय लगेगा, यह मानते हुए कि आप समान गणना और I/O पैरामीटर (प्रॉम्प्ट और आउटपुट आकार) का उपयोग कर रहे हैं। इसके अलावा, समान मॉडल आकार के लिए, प्रदर्शन इस बात से अत्यधिक प्रभावित होता है कि आपका प्रॉम्प्ट कितना अनुकूलित है, I/O टोकन का आकार और प्रॉम्प्ट की स्पष्टता और वाक्यविन्यास। एक अच्छी तरह से इंजीनियर किया गया प्रॉम्प्ट, एक अनुकूलित I/O टोकन आकार के साथ, मॉडल प्रतिक्रिया समय में सुधार कर सकता है।

इसलिए, अपने कार्य को अनुकूलित करते समय, निम्नलिखित सर्वोत्तम प्रथाओं पर विचार करें:

ऐसा मॉडल चुनें जो मौजूदा कार्य के लिए उपयुक्त हो
सबसे छोटे मॉडल आकार का चयन करें जो वह सटीकता उत्पन्न कर सके जिसकी आप तलाश कर रहे हैं
अपनी शीघ्र संरचना को अनुकूलित करें और निर्देशों के साथ यथासंभव विशिष्ट बनें जिससे मॉडल को समझने में आसानी हो
सबसे छोटे इनपुट प्रॉम्प्ट का उपयोग करें जो आपके इच्छित सटीकता स्तर को उत्पन्न करने के लिए पर्याप्त निर्देश और संदर्भ प्रदान कर सके
आउटपुट आकार को सबसे छोटे आकार तक सीमित रखें जो आपके लिए सार्थक हो और आपकी आउटपुट आवश्यकताओं को पूरा कर सके

मॉडल चयन और प्रदर्शन अनुकूलन कारकों को ध्यान में रखते हुए, हम अपने SQL पीढ़ी के उपयोग के मामले को अनुकूलित करने के लिए काम पर गए। कुछ परीक्षणों के बाद, हमने देखा कि, बशर्ते हमारे पास सही संदर्भ और निर्देश हों, क्लाउड इंस्टेंट, समान त्वरित डेटा के साथ, बेहतर प्रदर्शन और मूल्य बिंदु पर क्लाउड V2 के समान SQL की तुलनीय गुणवत्ता का उत्पादन करेगा। यह तब सच होता है जब उपयोगकर्ता इनपुट प्रकृति में अधिक प्रत्यक्ष और सरल होता है। अधिक परिष्कृत इनपुट के लिए, वांछित सटीकता उत्पन्न करने के लिए क्लाउड V2 आवश्यक था।

सारांशीकरण कार्य पर उसी तर्क को लागू करने से हम इस निष्कर्ष पर पहुंचे कि क्लाउड इंस्टेंट या टाइटन टेक्स्ट एक्सप्रेस का उपयोग करने से क्लाउड V2 जैसे बड़े मॉडल का उपयोग करने की तुलना में कहीं बेहतर प्रदर्शन बिंदु पर आवश्यक सटीकता उत्पन्न होगी। टाइटन टेक्स्ट एक्सप्रेस ने भी बेहतर मूल्य-प्रदर्शन की पेशकश की, जैसा कि हमने पहले चर्चा की थी।

ऑर्केस्ट्रेशन चुनौती

हमने महसूस किया कि उपयोगकर्ता के प्रश्न के लिए सार्थक आउटपुट प्रतिक्रिया प्राप्त करने से पहले हमें बहुत कुछ व्यवस्थित करना होगा। जैसा कि समाधान अवलोकन में दिखाया गया है, इस प्रक्रिया में कई डेटाबेस यात्राएं और कई एलएलएम यात्राएं शामिल हैं जो आपस में जुड़ी हुई हैं। यदि हमें शुरुआत से निर्माण करना होता, तो हमें मूल कोड तैयार करने के लिए अविभाजित भारी भारोत्तोलन में एक महत्वपूर्ण निवेश करना पड़ता। हमने ओपन सोर्स समुदाय की शक्ति का लाभ उठाते हुए, और पहिए को फिर से तैयार किए बिना मौजूदा मॉड्यूल का पुन: उपयोग करते हुए, लैंगचेन को एक ऑर्केस्ट्रेशन ढांचे के रूप में उपयोग करने की ओर तेजी से कदम बढ़ाया।

एसक्यूएल चुनौती

हमने यह भी महसूस किया कि एसक्यूएल उत्पन्न करना सिमेंटिक खोज या एम्बेडिंग का उपयोग करने जैसे संदर्भ निष्कर्षण तंत्र जितना आसान नहीं है। हमें एलएलएम में अपने प्रॉम्प्ट में शामिल करने के लिए पहले डेटाबेस स्कीमा और कुछ नमूना पंक्तियाँ प्राप्त करने की आवश्यकता है। एसक्यूएल सत्यापन चरण भी है, जहां हमें डेटाबेस और एलएलएम दोनों के साथ बातचीत करने की आवश्यकता होती है। SQLDatabaseChain टूल का स्पष्ट विकल्प था। क्योंकि यह लैंगचेन का हिस्सा है, इसलिए इसे अनुकूलित करना आसान था, और अब हम श्रृंखला की सहायता से एसक्यूएल पीढ़ी और सत्यापन का प्रबंधन कर सकते हैं, जिससे हमें किए जाने वाले काम की मात्रा कम हो जाती है।

प्रदर्शन चुनौतियाँ

क्लाउड V2 के उपयोग के साथ, और उचित प्रॉम्प्ट इंजीनियरिंग (जिसकी चर्चा हम अगले भाग में करते हैं) के बाद, हम उच्च-गुणवत्ता वाले SQL का उत्पादन करने में सक्षम थे। उत्पन्न SQL की गुणवत्ता को ध्यान में रखते हुए, हमने यह देखना शुरू किया कि सत्यापन चरण वास्तव में कितना मूल्य जोड़ रहा है। परिणामों का और अधिक विश्लेषण करने के बाद, यह स्पष्ट हो गया कि उत्पन्न SQL की गुणवत्ता एक तरह से लगातार सटीक थी जिसने SQL सत्यापन चरण को जोड़ने की लागत/लाभ को प्रतिकूल बना दिया। हमने अपने आउटपुट की गुणवत्ता पर नकारात्मक प्रभाव डाले बिना SQL सत्यापन चरण को समाप्त कर दिया और SQL सत्यापन राउंड ट्रिप के समय को समाप्त कर दिया।

सारांश चरण के लिए अधिक लागत और प्रदर्शन-कुशल एलएलएम के अनुकूलन के अलावा, हम बेहतर प्रदर्शन और लागत-दक्षता प्राप्त करने के लिए टाइटन टेक्स्ट एक्सप्रेस का उपयोग करने में सक्षम थे।

आगे के प्रदर्शन अनुकूलन में कुशल प्रॉम्प्ट इंजीनियरिंग तकनीकों का उपयोग करके क्वेरी निर्माण प्रक्रिया को ठीक करना शामिल था। टोकन की प्रचुरता प्रदान करने के बजाय, ध्यान कम से कम मात्रा में इनपुट टोकन प्रदान करने पर था, सही सिंटैक्स में जिसे समझने के लिए मॉडल को प्रशिक्षित किया गया है, और निर्देशों के न्यूनतम लेकिन इष्टतम सेट के साथ। हम अगले भाग में इस पर और अधिक चर्चा करते हैं—यह एक महत्वपूर्ण विषय है जो न केवल यहां बल्कि अन्य उपयोग के मामलों में भी लागू होता है।

शीघ्र इंजीनियरिंग और अनुकूलन

यदि सही त्वरित इंजीनियरिंग तकनीकों का उपयोग किया जाता है, तो आप विभिन्न व्यावसायिक उपयोग के मामलों के लिए अमेज़ॅन बेडरॉक पर क्लाउड को समायोजित कर सकते हैं। क्लाउड मुख्य रूप से एक वार्तालाप सहायक के रूप में कार्य करता है जो मानव/सहायक प्रारूप का उपयोग करता है। क्लाउड को सहायक भूमिका के लिए पाठ भरने के लिए प्रशिक्षित किया गया है। वांछित निर्देशों और शीघ्र पूर्णता को देखते हुए, हम कई तकनीकों का उपयोग करके क्लाउड के लिए अपने संकेतों को अनुकूलित कर सकते हैं।

हम एक उचित स्वरूपित प्रॉम्प्ट टेम्प्लेट के साथ शुरू करते हैं जो एक वैध समापन देता है, फिर हम इनपुट के विभिन्न सेटों के साथ प्रॉम्प्ट का प्रयोग करके प्रतिक्रियाओं को और अनुकूलित कर सकते हैं जो वास्तविक दुनिया के डेटा के प्रतिनिधि हैं। शीघ्र टेम्पलेट विकसित करते समय कई इनपुट प्राप्त करने की अनुशंसा की जाती है। आप त्वरित विकास डेटा और परीक्षण डेटा के अलग-अलग सेट का भी उपयोग कर सकते हैं।

क्लाउड प्रतिक्रिया को अनुकूलित करने का दूसरा तरीका नियम, निर्देश और जोड़कर प्रयोग करना और पुनरावृत्त करना है उपयोगी अनुकूलन. इन अनुकूलनों से, आप विभिन्न प्रकार की पूर्णताएँ देख सकते हैं, उदाहरण के लिए, मतिभ्रम को रोकने के लिए क्लाउड को "मुझे नहीं पता" का उल्लेख करने के लिए कहना, चरण दर चरण सोचना, त्वरित श्रृंखला का उपयोग करना, "सोचने" के लिए जगह देना क्योंकि यह प्रतिक्रियाएँ उत्पन्न करता है , और समझ और सटीकता के लिए दोबारा जांच करना।

आइए अपने क्वेरी जनरेशन कार्य का उपयोग करें और उन कुछ तकनीकों पर चर्चा करें जिनका उपयोग हमने अपने प्रॉम्प्ट को अनुकूलित करने के लिए किया था। कुछ मुख्य तत्व थे जिनसे हमारे क्वेरी निर्माण प्रयासों को लाभ हुआ:

उचित मानव/सहायक वाक्यविन्यास का उपयोग करना
XML टैग का उपयोग करना (क्लाउड XML टैग का सम्मान करता है और समझता है)
मतिभ्रम को रोकने के लिए मॉडल में स्पष्ट निर्देश जोड़ना

निम्नलिखित सामान्य उदाहरण से पता चलता है कि हमने मानव/सहायक सिंटैक्स का उपयोग कैसे किया, एक्सएमएल टैग लागू किए, और आउटपुट को एसक्यूएल तक सीमित करने के लिए निर्देश जोड़े और मॉडल को यह कहने का निर्देश दिया कि यदि यह प्रासंगिक एसक्यूएल का उत्पादन नहीं कर सकता है तो "क्षमा करें, मैं मदद करने में असमर्थ हूं" . XML टैग का उपयोग निर्देशों, अतिरिक्त संकेतों, डेटाबेस स्कीमा, अतिरिक्त तालिका स्पष्टीकरण और उदाहरण पंक्तियों को फ्रेम करने के लिए किया गया था।

"""Human: You are a SQL expert.
You are tasked to generate a SQL statement from the instruction provided. <instructions>
Understanding the input question, referencing the database schema, and reviewing
example rows, generate a SQL statement that represents the question.
</instructions> <database_schema> "here you can include your table schemas
</database_schema> <table_description> "Comp-Nam" stands for Company Name "Own-Hist" stand for Ownership history
</table_description> <example_rows> "here you can insert 2-5 sample database rows"
</example_rows> <question>
{input}
</question> <additional_hints>
In your response provide only SQL with no additional comments.
The SQL has to follow the proper database schema.
If the question is unrelated to the database or if you are
unable to generate relevant SQL,
say "sorry, I am unable to help".
Do not make up an answer
Do not answer with anything other than SQL
</additional_hints> Assistant: """

अंतिम कार्य समाधान

अवधारणा के प्रमाण के दौरान पहचानी गई सभी चुनौतियों का समाधान करने के बाद, हमने सभी समाधान आवश्यकताओं को पूरा कर लिया है। Q4 एलएलएम द्वारा उत्पन्न एसक्यूएल की गुणवत्ता से संतुष्ट था। यह उन सरल कार्यों के लिए सही है जिनके लिए डेटा को फ़िल्टर करने के लिए केवल WHERE क्लॉज की आवश्यकता होती है, और अधिक जटिल कार्यों के लिए भी जिनके लिए GROUP BY और गणितीय कार्यों के साथ संदर्भ-आधारित एकत्रीकरण की आवश्यकता होती है। समग्र समाधान की अंत-से-अंत विलंबता उपयोग के मामले में स्वीकार्य के रूप में परिभाषित की गई थी - एकल-अंक सेकंड। यह सब हर चरण में एक इष्टतम एलएलएम की पसंद, उचित प्रॉम्प्ट इंजीनियरिंग, एसक्यूएल सत्यापन चरण को खत्म करने और सारांश चरण (टाइटन टेक्स्ट एक्सप्रेस या क्लाउड इंस्टेंट) के लिए एक कुशल एलएलएम का उपयोग करने के लिए धन्यवाद था।

यह ध्यान देने योग्य है कि अमेज़ॅन बेडरॉक को पूरी तरह से प्रबंधित सेवा के रूप में उपयोग करने और एक ही एपीआई के माध्यम से एलएलएम के एक सूट तक पहुंचने की क्षमता एपीआई कॉल में मॉडल नाम बदलकर एलएलएम के बीच प्रयोग और निर्बाध स्विचिंग की अनुमति देती है। लचीलेपन के इस स्तर के साथ, Q4 कार्य की प्रकृति के आधार पर प्रत्येक एलएलएम कॉल के लिए सबसे अधिक प्रदर्शन करने वाला एलएलएम चुनने में सक्षम था, चाहे वह क्वेरी निर्माण, सत्यापन या सारांश हो।

निष्कर्ष

ऐसा कोई एक समाधान नहीं है जो सभी उपयोग के मामलों में फिट बैठता हो। आरएजी दृष्टिकोण में, आउटपुट की गुणवत्ता अत्यधिक सही संदर्भ प्रदान करने पर निर्भर करती है। सही संदर्भ निकालना महत्वपूर्ण है, और प्रत्येक डेटासेट अपनी अनूठी विशेषताओं के साथ अलग होता है।

इस पोस्ट में, हमने दिखाया कि संख्यात्मक और संरचित डेटासेट के लिए, संवर्द्धन के लिए उपयोग किए गए संदर्भ को निकालने के लिए SQL का उपयोग करने से अधिक अनुकूल परिणाम मिल सकते हैं। हमने यह भी प्रदर्शित किया कि लैंगचेन जैसे ढांचे कोडिंग प्रयास को कम कर सकते हैं। इसके अतिरिक्त, हमने सबसे इष्टतम सटीकता, प्रदर्शन और लागत प्राप्त करने के लिए एक ही उपयोग के मामले में एलएलएम के बीच स्विच करने में सक्षम होने की आवश्यकता पर चर्चा की। अंत में, हमने इस बात पर प्रकाश डाला कि कैसे अमेज़ॅन बेडरॉक, सर्वर रहित और हुड के तहत विभिन्न प्रकार के एलएलएम के साथ, कम से कम भारी भारोत्तोलन के साथ सुरक्षित, प्रदर्शनशील और लागत-अनुकूलित एप्लिकेशन बनाने के लिए आवश्यक लचीलापन प्रदान करता है।

अपने व्यवसाय के लिए मूल्यवान उपयोग के मामले की पहचान करके जेनेरिक एआई-सक्षम एप्लिकेशन बनाने की दिशा में अपनी यात्रा शुरू करें। जैसा कि Q4 टीम ने सीखा, SQL जेनरेशन, स्मार्ट एप्लिकेशन बनाने में गेम चेंजर हो सकता है जो आपके डेटा स्टोर के साथ एकीकृत होता है, जिससे राजस्व क्षमता खुलती है।

लेखक के बारे में

टैमर सोलिमन AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह स्वतंत्र सॉफ्टवेयर विक्रेता (आईएसवी) ग्राहकों को एडब्ल्यूएस पर नवाचार, निर्माण और पैमाने पर मदद करता है। उनके पास परामर्श, प्रशिक्षण और पेशेवर सेवाओं में उद्योग का दो दशकों से अधिक का अनुभव है। वह तीन स्वीकृत पेटेंटों के साथ एक बहु पेटेंट आविष्कारक हैं और उनका अनुभव दूरसंचार, नेटवर्किंग, एप्लिकेशन एकीकरण, एआई/एमएल और क्लाउड परिनियोजन सहित कई प्रौद्योगिकी डोमेन तक फैला हुआ है। वह AWS नेटवर्किंग में माहिर हैं और उन्हें मशीन लीनिंग, AI और जेनरेटिव AI के प्रति गहरा जुनून है।

मणि खानूजा एक टेक लीड - जेनेरेटिव एआई स्पेशलिस्ट, पुस्तक की लेखिका - एप्लाइड मशीन लर्निंग एंड हाई परफॉर्मेंस कंप्यूटिंग ऑन एडब्ल्यूएस, और मैन्युफैक्चरिंग एजुकेशन फाउंडेशन बोर्ड में महिलाओं के लिए निदेशक मंडल की सदस्य हैं। वह कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और जेनरेटिव एआई जैसे विभिन्न डोमेन में मशीन लर्निंग (एमएल) परियोजनाओं का नेतृत्व करती हैं। वह ग्राहकों को बड़े पैमाने पर मशीन लर्निंग मॉडल बनाने, प्रशिक्षित करने और तैनात करने में मदद करती है। वह आंतरिक और बाहरी सम्मेलनों जैसे री:इन्वेंट, वीमेन इन मैन्युफैक्चरिंग वेस्ट, यूट्यूब वेबिनार और जीएचसी 23 में बोलती हैं। अपने खाली समय में, वह समुद्र तट के किनारे लंबी सैर करना पसंद करती हैं।

स्टानिस्लाव येशचेंको Q4 Inc. में एक सॉफ्टवेयर आर्किटेक्ट हैं। उनके पास सॉफ्टवेयर विकास और सिस्टम आर्किटेक्चर में उद्योग का एक दशक से अधिक का अनुभव है। टेक्निकल लीड और सीनियर फुल स्टैक डेवलपर जैसी उनकी विविध पृष्ठभूमि वाली भूमिकाएँ, Q4 प्लेटफ़ॉर्म के नवाचार को आगे बढ़ाने में उनके योगदान को शक्ति प्रदान करती हैं। स्टैनिस्लाव तकनीकी नवाचार को बढ़ावा देने और क्षेत्र में रणनीतिक समाधानों को आकार देने के लिए समर्पित है।