การสร้างมูลค่าจากข้อมูลองค์กร: แนวปฏิบัติที่ดีที่สุดสำหรับ Text2SQL และ AI เชิงสร้างสรรค์ | อเมซอนเว็บเซอร์วิส

การสร้างมูลค่าจากข้อมูลองค์กร: แนวปฏิบัติที่ดีที่สุดสำหรับ Text2SQL และ AI เชิงสร้างสรรค์ | อเมซอนเว็บเซอร์วิส

Generative AI ได้เปิดศักยภาพมากมายในด้าน AI เราเห็นการใช้งานมากมาย รวมถึงการสร้างข้อความ การสร้างโค้ด การสรุป การแปล แชทบอท และอื่นๆ อีกมากมาย พื้นที่หนึ่งที่กำลังพัฒนาคือการใช้การประมวลผลภาษาธรรมชาติ (NLP) เพื่อปลดล็อกโอกาสใหม่ในการเข้าถึงข้อมูลผ่านการสืบค้น SQL ที่ใช้งานง่าย แทนที่จะต้องจัดการกับรหัสทางเทคนิคที่ซับซ้อน ผู้ใช้ทางธุรกิจและนักวิเคราะห์ข้อมูลสามารถถามคำถามที่เกี่ยวข้องกับข้อมูลและข้อมูลเชิงลึกในภาษาธรรมดาได้ เป้าหมายหลักคือการสร้างคำสั่ง SQL โดยอัตโนมัติจากข้อความภาษาธรรมชาติ เมื่อต้องการทำเช่นนี้ การป้อนข้อความจะถูกแปลงเป็นรูปแบบการนำเสนอที่มีโครงสร้าง และจากการเป็นตัวแทนนี้ แบบสอบถาม SQL ที่สามารถใช้เพื่อเข้าถึงฐานข้อมูลจะถูกสร้างขึ้น

ในโพสต์นี้ เราจะให้ข้อมูลเบื้องต้นเกี่ยวกับข้อความใน SQL (Text2SQL) และสำรวจกรณีการใช้งาน ความท้าทาย รูปแบบการออกแบบ และแนวทางปฏิบัติที่ดีที่สุด โดยเฉพาะเราจะหารือเรื่องต่อไปนี้:

  • ทำไมเราต้องมี Text2SQL
  • ส่วนประกอบสำคัญสำหรับ Text to SQL
  • ข้อควรพิจารณาทางวิศวกรรมทันทีสำหรับภาษาธรรมชาติหรือข้อความเป็น SQL
  • การเพิ่มประสิทธิภาพและแนวทางปฏิบัติที่ดีที่สุด
  • รูปแบบสถาปัตยกรรม

ทำไมเราต้องมี Text2SQL?

ปัจจุบัน ข้อมูลจำนวนมากมีอยู่ในการวิเคราะห์ข้อมูลแบบดั้งเดิม คลังข้อมูล และฐานข้อมูล ซึ่งอาจไม่ใช่เรื่องง่ายในการสืบค้นหรือทำความเข้าใจสำหรับสมาชิกส่วนใหญ่ขององค์กร เป้าหมายหลักของ Text2SQL คือการทำให้ฐานข้อมูลการสืบค้นเข้าถึงได้มากขึ้นสำหรับผู้ใช้ที่ไม่ใช่ด้านเทคนิค ซึ่งสามารถให้การสืบค้นในภาษาธรรมชาติได้

NLP SQL ช่วยให้ผู้ใช้ทางธุรกิจสามารถวิเคราะห์ข้อมูลและรับคำตอบโดยการพิมพ์หรือพูดคำถามในภาษาธรรมชาติ ดังต่อไปนี้:

  • “แสดงยอดขายรวมของผลิตภัณฑ์แต่ละรายการในเดือนที่แล้ว”
  • “สินค้าตัวไหนสร้างรายได้มากกว่ากัน?”
  • “ลูกค้าจากแต่ละภูมิภาคมีกี่เปอร์เซ็นต์”

อเมซอน เบดร็อค เป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งนำเสนอทางเลือกของโมเดลพื้นฐานที่มีประสิทธิภาพสูง (FM) ผ่าน API เดียว ทำให้สามารถสร้างและปรับขนาดแอปพลิเคชัน Gen AI ได้อย่างง่ายดาย สามารถใช้ประโยชน์เพื่อสร้างการสืบค้น SQL โดยอิงตามคำถามที่คล้ายกับรายการข้างต้น และสืบค้นข้อมูลที่มีโครงสร้างขององค์กร และสร้างการตอบกลับในภาษาธรรมชาติจากข้อมูลการตอบกลับการสืบค้น

ส่วนประกอบสำคัญสำหรับข้อความเป็น SQL

ระบบแปลงข้อความเป็น SQL เกี่ยวข้องกับหลายขั้นตอนในการแปลงการสืบค้นภาษาธรรมชาติให้เป็น SQL ที่รันได้:

  • การประมวลผลภาษาธรรมชาติ:
    • วิเคราะห์แบบสอบถามอินพุตของผู้ใช้
    • ดึงเอาองค์ประกอบสำคัญและความตั้งใจ
    • แปลงเป็นรูปแบบที่มีโครงสร้าง
  • การสร้าง SQL:
    • แผนที่แยกรายละเอียดออกเป็นไวยากรณ์ SQL
    • สร้างแบบสอบถาม SQL ที่ถูกต้อง
  • แบบสอบถามฐานข้อมูล:
    • เรียกใช้แบบสอบถาม SQL ที่สร้างโดย AI บนฐานข้อมูล
    • ดึงผลลัพธ์
    • คืนผลลัพธ์ให้กับผู้ใช้

ความสามารถที่โดดเด่นอย่างหนึ่งของ Large Language Models (LLM) คือการสร้างโค้ด รวมถึง Structured Query Language (SQL) สำหรับฐานข้อมูล LLM เหล่านี้สามารถใช้ประโยชน์เพื่อทำความเข้าใจคำถามภาษาธรรมชาติและสร้างแบบสอบถาม SQL ที่สอดคล้องกันเป็นเอาต์พุต LLM จะได้รับประโยชน์จากการนำการเรียนรู้ในบริบทมาใช้และการตั้งค่าแบบละเอียดเมื่อมีการให้ข้อมูลเพิ่มเติม

แผนภาพต่อไปนี้แสดงโฟลว์ Text2SQL พื้นฐาน

ข้อความ 2 โฟลว์กระบวนการระดับสูงของ SQL

ข้อควรพิจารณาทางวิศวกรรมพร้อมท์สำหรับภาษาธรรมชาติสำหรับ SQL

พรอมต์มีความสำคัญอย่างยิ่งเมื่อใช้ LLM เพื่อแปลภาษาธรรมชาติเป็นการสืบค้น SQL และมีข้อควรพิจารณาที่สำคัญหลายประการสำหรับวิศวกรรมพร้อมท์

มีประสิทธิภาพ วิศวกรรมพรอมต์ เป็นกุญแจสำคัญในการพัฒนาภาษาธรรมชาติให้กับระบบ SQL ข้อความแจ้งที่ชัดเจนและตรงไปตรงมาจะให้คำแนะนำที่ดีกว่าสำหรับโมเดลภาษา การให้บริบทที่ผู้ใช้ร้องขอการสืบค้น SQL พร้อมกับรายละเอียดสคีมาฐานข้อมูลที่เกี่ยวข้อง ช่วยให้โมเดลสามารถแปลเจตนาได้อย่างถูกต้อง การรวมตัวอย่างคำอธิบายประกอบบางส่วนของพร้อมท์ภาษาธรรมชาติและการสืบค้น SQL ที่เกี่ยวข้องจะช่วยแนะนำโมเดลในการสร้างเอาต์พุตที่สอดคล้องกับไวยากรณ์ นอกจากนี้ การผสมผสานการเรียกข้อมูล Augmented Generation (RAG) ซึ่งโมเดลดึงตัวอย่างที่คล้ายกันระหว่างการประมวลผล จะช่วยปรับปรุงความแม่นยำในการทำแผนที่ให้ดียิ่งขึ้น พร้อมท์ที่ออกแบบมาอย่างดีซึ่งให้คำแนะนำ บริบท ตัวอย่าง และส่วนขยายการเรียกค้นที่เพียงพอแก่โมเดล มีความสำคัญอย่างยิ่งต่อการแปลภาษาธรรมชาติเป็นคำสั่ง SQL ได้อย่างน่าเชื่อถือ

ต่อไปนี้เป็นตัวอย่างของพรอมต์พื้นฐานพร้อมการแสดงโค้ดของฐานข้อมูลจากเอกสารไวท์เปเปอร์ การเพิ่มความสามารถ Few-shot Text-to-SQL ของโมเดลภาษาขนาดใหญ่: การศึกษาเกี่ยวกับกลยุทธ์การออกแบบที่รวดเร็ว.

/* Given the following database schema : */
CREATE TABLE IF NOT EXISTS " gymnast " ( " Gymnast_ID " int , " Floor_Exercise_Points " real , " Pommel_Horse_Points " real , " Rings_Points " real , " Vault_Points " real , " Parallel_Bars_Points " real , " Horizontal_Bar_Points " real , " Total_Points " real , PRIMARY KEY ( " Gymnast_ID " ) , FOREIGN KEY ( " Gymnast_ID " ) REFERENCES " people " ( " People_ID " ) ) ; CREATE TABLE IF NOT EXISTS " people " ( " People_ID " int , " Name " text , " Age " real , " Height " real , " Hometown " text , PRIMARY KEY ( " People_ID " ) ) ; /* Answer the following : Return the total points of the gymnast with the lowest age .
*/ select t1 . total_points from gymnast as t1 join people as t2 on t1 . gymnast_id = t2 .
people_id order by t2 . age asc limit 1

ดังที่แสดงในตัวอย่างนี้ การเรียนรู้แบบไม่กี่ช็อตตามพร้อมท์จะทำให้โมเดลมีตัวอย่างคำอธิบายประกอบจำนวนหนึ่งในตัวพร้อมต์เอง สิ่งนี้แสดงให้เห็นถึงการแมปเป้าหมายระหว่างภาษาธรรมชาติและ SQL สำหรับโมเดล โดยทั่วไป พรอมต์จะมีคู่ประมาณ 2–3 คู่ที่แสดงคิวรีภาษาธรรมชาติและคำสั่ง SQL ที่เทียบเท่ากัน ตัวอย่างเล็กๆ น้อยๆ เหล่านี้เป็นแนวทางให้โมเดลสร้างการสืบค้น SQL ที่สอดคล้องกับไวยากรณ์จากภาษาธรรมชาติ โดยไม่ต้องใช้ข้อมูลการฝึกอบรมที่ครอบคลุม

การปรับแต่งอย่างละเอียดเทียบกับวิศวกรรมที่รวดเร็ว

เมื่อสร้างภาษาที่เป็นธรรมชาติให้กับระบบ SQL เรามักจะถกเถียงกันว่าการปรับแต่งโมเดลอย่างละเอียดเป็นเทคนิคที่ถูกต้องหรือไม่ หรือหากวิศวกรรมพร้อมท์ที่มีประสิทธิภาพคือหนทางที่จะไป ทั้งสองแนวทางสามารถพิจารณาและเลือกได้ตามความต้องการที่เหมาะสม:

    • ปรับจูน – โมเดลพื้นฐานได้รับการฝึกอบรมล่วงหน้ากับคลังข้อความทั่วไปขนาดใหญ่ จากนั้นจึงสามารถใช้งานได้ การปรับแต่งแบบละเอียดตามคำสั่งซึ่งใช้ตัวอย่างที่มีป้ายกำกับเพื่อปรับปรุงประสิทธิภาพของโมเดลพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้าบน text-SQL ซึ่งจะปรับโมเดลให้เข้ากับงานเป้าหมาย การปรับแต่งอย่างละเอียดจะฝึกโมเดลโดยตรงในงานสุดท้าย แต่ต้องใช้ตัวอย่าง text-SQL จำนวนมาก คุณสามารถใช้การปรับแต่งแบบละเอียดภายใต้การดูแลตาม LLM ของคุณเพื่อปรับปรุงประสิทธิภาพของการแปลงข้อความเป็น SQL สำหรับสิ่งนี้ คุณสามารถใช้ชุดข้อมูลหลายชุดเช่น สไปเดอร์, วิกิ SQL, CHASE, BIRD-SQL,หรือ CoSQL.
    • วิศวกรรมทันใจ – โมเดลได้รับการฝึกฝนให้ดำเนินการพร้อมท์ที่ออกแบบมาเพื่อพร้อมท์ไวยากรณ์ SQL เป้าหมาย เมื่อสร้าง SQL จากภาษาธรรมชาติโดยใช้ LLM การให้คำแนะนำที่ชัดเจนในพรอมต์เป็นสิ่งสำคัญสำหรับการควบคุมเอาต์พุตของโมเดล ในข้อความแจ้งให้ใส่คำอธิบายประกอบส่วนประกอบต่างๆ เช่น การชี้ไปที่คอลัมน์ สคีมา แล้วสั่งว่าจะสร้าง SQL ประเภทใด สิ่งเหล่านี้ทำหน้าที่เหมือนคำสั่งที่บอกโมเดลถึงวิธีจัดรูปแบบเอาต์พุต SQL พร้อมท์ต่อไปนี้แสดงตัวอย่างที่คุณชี้คอลัมน์ตารางและสั่งให้สร้างแบบสอบถาม MySQL:
Table offices, columns = [OfficeId, OfficeName]
Table employees, columns = [OfficeId, EmployeeId,EmployeeName]
Create a MySQL query for all employees in the Machine Learning Department

แนวทางที่มีประสิทธิภาพสำหรับโมเดลข้อความเป็น SQL คือการเริ่มต้นด้วย LLM พื้นฐานก่อน โดยไม่มีการปรับแต่งเฉพาะงานใดๆ พรอมต์ที่ออกแบบมาอย่างดีสามารถใช้เพื่อปรับเปลี่ยนและขับเคลื่อนโมเดลพื้นฐานเพื่อจัดการการแมปข้อความเป็น SQL วิศวกรรมที่รวดเร็วนี้ช่วยให้คุณพัฒนาขีดความสามารถโดยไม่จำเป็นต้องปรับแต่งอย่างละเอียด หากวิศวกรรมพร้อมท์บนโมเดลพื้นฐานไม่ได้รับความแม่นยำเพียงพอ การปรับแต่งตัวอย่าง text-SQL ชุดเล็กๆ ก็สามารถสำรวจไปพร้อมกับวิศวกรรมพร้อมท์เพิ่มเติมได้

อาจจำเป็นต้องมีการผสมผสานระหว่างการปรับแต่งอย่างละเอียดและวิศวกรรมที่พร้อมท์ หากวิศวกรรมที่พร้อมท์สำหรับโมเดลที่ผ่านการฝึกอบรมเบื้องต้นเพียงอย่างเดียวไม่ตรงตามข้อกำหนด อย่างไรก็ตาม ทางที่ดีที่สุดคือพยายามเริ่มวิศวกรรมทันทีโดยไม่ต้องปรับแต่งอย่างละเอียด เนื่องจากจะทำให้สามารถวนซ้ำได้อย่างรวดเร็วโดยไม่ต้องรวบรวมข้อมูล หากไม่สามารถให้ประสิทธิภาพที่เพียงพอ การปรับแต่งอย่างละเอียดควบคู่กับวิศวกรรมที่รวดเร็วถือเป็นขั้นตอนถัดไปที่สามารถทำได้ วิธีการโดยรวมนี้ช่วยเพิ่มประสิทธิภาพสูงสุดในขณะที่ยังคงอนุญาตให้ปรับแต่งได้หากวิธีการตามพร้อมท์เพียงอย่างเดียวไม่เพียงพอ

การเพิ่มประสิทธิภาพและแนวทางปฏิบัติที่ดีที่สุด

การเพิ่มประสิทธิภาพและแนวทางปฏิบัติที่ดีที่สุดถือเป็นสิ่งสำคัญสำหรับการเพิ่มประสิทธิภาพและสร้างความมั่นใจว่าทรัพยากรจะถูกใช้อย่างเหมาะสมที่สุดและบรรลุผลลัพธ์ที่ถูกต้องในวิธีที่ดีที่สุดเท่าที่จะเป็นไปได้ เทคนิคต่างๆ ช่วยในการปรับปรุงประสิทธิภาพ ควบคุมต้นทุน และบรรลุผลลัพธ์ที่มีคุณภาพดีขึ้น

เมื่อพัฒนาระบบข้อความเป็น SQL โดยใช้ LLM เทคนิคการปรับให้เหมาะสมสามารถปรับปรุงประสิทธิภาพและประสิทธิผลได้ ต่อไปนี้เป็นประเด็นสำคัญที่ควรพิจารณา:

  • แคช – เพื่อปรับปรุงเวลาแฝง การควบคุมต้นทุน และการกำหนดมาตรฐาน คุณสามารถแคช SQL ที่แยกวิเคราะห์และพร้อมท์คิวรีที่รู้จักจาก LLM การแปลงข้อความเป็น SQL วิธีนี้จะหลีกเลี่ยงการประมวลผลคำค้นหาซ้ำๆ
  • การตรวจสอบ – ควรรวบรวมบันทึกและตัวชี้วัดเกี่ยวกับการแยกวิเคราะห์แบบสอบถาม การจดจำทันที การสร้าง SQL และผลลัพธ์ของ SQL เพื่อตรวจสอบระบบ text-to-SQL LLM ซึ่งจะช่วยให้มองเห็นตัวอย่างการปรับให้เหมาะสมที่อัปเดตพร้อมท์หรือทบทวนการปรับแต่งอย่างละเอียดด้วยชุดข้อมูลที่อัปเดต
  • มุมมองที่เป็นรูปธรรมกับตาราง – มุมมองที่เป็นรูปธรรมสามารถทำให้การสร้าง SQL ง่ายขึ้นและปรับปรุงประสิทธิภาพสำหรับการสืบค้นข้อความเป็น SQL ทั่วไป การสืบค้นตารางโดยตรงอาจส่งผลให้เกิด SQL ที่ซับซ้อน และยังส่งผลให้เกิดปัญหาด้านประสิทธิภาพ รวมถึงการสร้างเทคนิคประสิทธิภาพเช่นดัชนีอย่างต่อเนื่อง นอกจากนี้ คุณสามารถหลีกเลี่ยงปัญหาด้านประสิทธิภาพการทำงานเมื่อมีการใช้ตารางเดียวกันสำหรับพื้นที่อื่นๆ ของแอปพลิเคชันในเวลาเดียวกัน
  • กำลังรีเฟรชข้อมูล – มุมมองที่เป็นรูปธรรมจำเป็นต้องรีเฟรชตามกำหนดเวลาเพื่อให้ข้อมูลเป็นปัจจุบันสำหรับการสืบค้นข้อความเป็น SQL คุณสามารถใช้ชุดงานหรือแนวทางการรีเฟรชแบบเพิ่มหน่วยเพื่อสร้างสมดุลค่าใช้จ่ายได้
  • แค็ตตาล็อกข้อมูลส่วนกลาง – การสร้างแค็ตตาล็อกข้อมูลแบบรวมศูนย์จะทำให้แหล่งข้อมูลขององค์กรมองเห็นบานหน้าต่างเดียว และจะช่วยให้ LLM เลือกตารางและสคีมาที่เหมาะสมเพื่อให้การตอบสนองที่แม่นยำยิ่งขึ้น เวกเตอร์ ฝัง ที่สร้างจากแค็ตตาล็อกข้อมูลส่วนกลางสามารถจัดหาให้กับ LLM พร้อมกับข้อมูลที่ร้องขอเพื่อสร้างการตอบสนอง SQL ที่เกี่ยวข้องและแม่นยำ

ด้วยการใช้แนวทางปฏิบัติที่ดีที่สุดในการปรับให้เหมาะสม เช่น การแคช การตรวจสอบ มุมมองที่เป็นรูปธรรม การรีเฟรชตามกำหนดการ และแค็ตตาล็อกกลาง คุณสามารถปรับปรุงประสิทธิภาพและประสิทธิภาพของระบบข้อความเป็น SQL ได้อย่างมากโดยใช้ LLM

รูปแบบสถาปัตยกรรม

มาดูรูปแบบสถาปัตยกรรมบางอย่างที่สามารถนำไปใช้กับเวิร์กโฟลว์ข้อความเป็น SQL กัน

วิศวกรรมทันใจ

แผนภาพต่อไปนี้แสดงสถาปัตยกรรมสำหรับการสร้างแบบสอบถามด้วย LLM โดยใช้วิศวกรรมพร้อมท์

แสดงให้เห็นสถาปัตยกรรมสำหรับการสร้างแบบสอบถามด้วย LLM โดยใช้วิศวกรรมที่รวดเร็ว

ในรูปแบบนี้ ผู้ใช้สร้างการเรียนรู้แบบไม่กี่ช็อตตามพรอมต์ที่ให้โมเดลพร้อมตัวอย่างคำอธิบายประกอบในพรอมต์เอง ซึ่งรวมถึงรายละเอียดตารางและสคีมา และแบบสอบถามตัวอย่างบางส่วนพร้อมผลลัพธ์ LLM ใช้พรอมต์ที่ให้มาเพื่อส่งคืน SQL ที่สร้างโดย AI ซึ่งได้รับการตรวจสอบความถูกต้องแล้วรันกับฐานข้อมูลเพื่อรับผลลัพธ์ นี่เป็นรูปแบบที่ตรงไปตรงมาที่สุดในการเริ่มต้นใช้งานวิศวกรรมแบบทันที สำหรับสิ่งนี้คุณสามารถใช้ อเมซอน เบดร็อค or โมเดลรองพื้น in Amazon SageMaker JumpStart.

ในรูปแบบนี้ ผู้ใช้สร้างการเรียนรู้แบบไม่กี่ช็อตตามพรอมต์ที่ให้โมเดลพร้อมตัวอย่างคำอธิบายประกอบในพรอมต์เอง ซึ่งรวมถึงรายละเอียดตารางและสคีมา และแบบสอบถามตัวอย่างบางส่วนพร้อมผลลัพธ์ LLM ใช้พรอมต์ที่ให้มาเพื่อส่งคืน SQL ที่สร้างโดย AI ซึ่งได้รับการตรวจสอบและรันกับฐานข้อมูลเพื่อให้ได้ผลลัพธ์ นี่เป็นรูปแบบที่ตรงไปตรงมาที่สุดในการเริ่มต้นใช้งานวิศวกรรมแบบทันที สำหรับสิ่งนี้คุณสามารถใช้ อเมซอน เบดร็อค ซึ่งเป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งนำเสนอตัวเลือกโมเดลพื้นฐาน (FM) ที่มีประสิทธิภาพสูงจากบริษัท AI ชั้นนำผ่าน API เดียว พร้อมด้วยชุดความสามารถที่หลากหลายที่คุณต้องการเพื่อสร้างแอปพลิเคชัน AI ทั่วไปที่มีความปลอดภัย ความเป็นส่วนตัว และ AI ที่มีความรับผิดชอบ หรือ โมเดลมูลนิธิ JumpStart ซึ่งนำเสนอโมเดลพื้นฐานที่ล้ำสมัยสำหรับกรณีการใช้งาน เช่น การเขียนเนื้อหา การสร้างโค้ด การตอบคำถาม การเขียนคำโฆษณา การสรุป การจำแนกประเภท การดึงข้อมูล และอื่นๆ

วิศวกรรมและการปรับแต่งที่รวดเร็ว

แผนภาพต่อไปนี้แสดงสถาปัตยกรรมสำหรับการสร้างแบบสอบถามด้วย LLM โดยใช้วิศวกรรมที่รวดเร็วและการปรับแต่งอย่างละเอียด

แสดงให้เห็นสถาปัตยกรรมสำหรับการสร้างแบบสอบถามด้วย LLM โดยใช้วิศวกรรมที่รวดเร็วและการปรับแต่งอย่างละเอียด

โฟลว์นี้คล้ายกับรูปแบบก่อนหน้า ซึ่งส่วนใหญ่อาศัยวิศวกรรมที่พร้อมท์ แต่มีโฟลว์เพิ่มเติมของการปรับแต่งชุดข้อมูลเฉพาะโดเมน LLM ที่ปรับแต่งอย่างละเอียดจะใช้เพื่อสร้างแบบสอบถาม SQL โดยมีค่าในบริบทน้อยที่สุดสำหรับพร้อมท์ สำหรับสิ่งนี้ คุณสามารถใช้ SageMaker JumpStart เพื่อปรับแต่ง LLM บนชุดข้อมูลเฉพาะโดเมนในลักษณะเดียวกับที่คุณฝึกและปรับใช้โมเดลใดๆ บน อเมซอน SageMaker.

พร้อมท์วิศวกรรมและ RAG

แผนภาพต่อไปนี้แสดงสถาปัตยกรรมสำหรับการสร้างการสืบค้นด้วย LLM โดยใช้วิศวกรรมพร้อมท์และ RAG

แสดงให้เห็นสถาปัตยกรรมสำหรับการสร้างแบบสอบถามด้วย LLM โดยใช้วิศวกรรมที่รวดเร็วและ RAG

ในรูปแบบนี้เราใช้ การดึงข้อมูล Augmented Generation การใช้ร้านค้าฝังเวกเตอร์เช่น การฝัง Amazon Titan or เชื่อมโยงกันฝัง, On อเมซอน เบดร็อค จากแค็ตตาล็อกข้อมูลส่วนกลาง เช่น AWS กาว แค็ตตาล็อกข้อมูลของฐานข้อมูลภายในองค์กร การฝังเวกเตอร์จะถูกเก็บไว้ในฐานข้อมูลเวกเตอร์เช่น Vector Engine สำหรับ Amazon OpenSearch แบบไร้เซิร์ฟเวอร์, บริการฐานข้อมูลเชิงสัมพันธ์ของ Amazon (Amazon RDS) สำหรับ PostgreSQL กับ pgvector ส่วนขยายหรือ อเมซอน เคนดรา. LLM ใช้การฝังเวกเตอร์เพื่อเลือกฐานข้อมูล ตาราง และคอลัมน์ที่ถูกต้องจากตารางได้รวดเร็วยิ่งขึ้นเมื่อสร้างการสืบค้น SQL การใช้ RAG จะมีประโยชน์เมื่อข้อมูลและข้อมูลที่เกี่ยวข้องซึ่ง LLM จำเป็นต้องดึงข้อมูลถูกจัดเก็บไว้ในระบบฐานข้อมูลที่แยกจากกันหลายระบบ และ LLM จำเป็นต้องสามารถค้นหาหรือสืบค้นข้อมูลจากระบบต่างๆ เหล่านี้ทั้งหมดได้ นี่คือจุดที่การฝังเวกเตอร์ของแค็ตตาล็อกข้อมูลแบบรวมศูนย์หรือแบบรวมศูนย์ให้กับ LLM ส่งผลให้ได้รับข้อมูลที่แม่นยำและครอบคลุมมากขึ้นโดย LLM

สรุป

ในโพสต์นี้ เราได้พูดคุยถึงวิธีที่เราสามารถสร้างมูลค่าจากข้อมูลองค์กรโดยใช้ภาษาธรรมชาติไปจนถึงการสร้าง SQL เราพิจารณาองค์ประกอบหลัก การเพิ่มประสิทธิภาพ และแนวทางปฏิบัติที่ดีที่สุด นอกจากนี้เรายังได้เรียนรู้รูปแบบสถาปัตยกรรมตั้งแต่วิศวกรรมพร้อมท์ขั้นพื้นฐานไปจนถึงการปรับแต่งและ RAG หากต้องการเรียนรู้เพิ่มเติม โปรดดูที่ อเมซอน เบดร็อค เพื่อสร้างและปรับขนาดแอปพลิเคชัน AI เชิงสร้างสรรค์ด้วยโมเดลพื้นฐานได้อย่างง่ายดาย


เกี่ยวกับผู้เขียน

การสร้างมูลค่าจากข้อมูลองค์กร: แนวปฏิบัติที่ดีที่สุดสำหรับ Text2SQL และ AI เชิงสร้างสรรค์ | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.แรนดี เดอโฟว์ เป็นสถาปนิกอาวุโสด้านโซลูชันหลักที่ AWS เขาจบ MSEE จาก University of Michigan ที่ซึ่งเขาทำงานด้านคอมพิวเตอร์วิทัศน์สำหรับยานยนต์ไร้คนขับ เขายังสำเร็จการศึกษา MBA จาก Colorado State University Randy ดำรงตำแหน่งหลากหลายตำแหน่งในแวดวงเทคโนโลยี ตั้งแต่วิศวกรรมซอฟต์แวร์ไปจนถึงการจัดการผลิตภัณฑ์ เข้ามาในพื้นที่ข้อมูลขนาดใหญ่ในปี 2013 และยังคงสำรวจพื้นที่นั้น เขากำลังทำงานอย่างแข็งขันในโครงการในพื้นที่ ML และได้นำเสนอในการประชุมมากมายรวมถึง Strata และ GlueCon

การสร้างมูลค่าจากข้อมูลองค์กร: แนวปฏิบัติที่ดีที่สุดสำหรับ Text2SQL และ AI เชิงสร้างสรรค์ | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.นิติน ยูเซบิอุส เป็นสถาปนิกโซลูชันระดับองค์กรอาวุโสที่ AWS ซึ่งมีประสบการณ์ในด้านวิศวกรรมซอฟต์แวร์ สถาปัตยกรรมองค์กร และ AI/ML เขามีความหลงใหลอย่างลึกซึ้งในการสำรวจความเป็นไปได้ของ AI เชิงสร้างสรรค์ เขาทำงานร่วมกับลูกค้าเพื่อช่วยพวกเขาสร้างแอปพลิเคชันที่มีสถาปัตยกรรมอย่างดีบนแพลตฟอร์ม AWS และทุ่มเทให้กับการแก้ปัญหาความท้าทายด้านเทคโนโลยีและช่วยเหลือในการเดินทางบนระบบคลาวด์

การสร้างมูลค่าจากข้อมูลองค์กร: แนวปฏิบัติที่ดีที่สุดสำหรับ Text2SQL และ AI เชิงสร้างสรรค์ | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.อาร์ยา บาเนอร์จี เป็นสถาปนิกโซลูชันอาวุโสที่ AWS ในบริเวณอ่าวซานฟรานซิสโก ซึ่งมุ่งเน้นที่การช่วยเหลือลูกค้าในการปรับใช้และใช้ AWS Cloud Arghya มุ่งเน้นไปที่ Big Data, Data Lakes, สตรีมมิ่ง, การวิเคราะห์แบบแบตช์ รวมถึงบริการและเทคโนโลยี AI/ML

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS