Δημιουργία αξίας από εταιρικά δεδομένα: Βέλτιστες πρακτικές για το Text2SQL και το γενετικό AI | Υπηρεσίες Ιστού της Amazon

Δημιουργία αξίας από εταιρικά δεδομένα: Βέλτιστες πρακτικές για το Text2SQL και το γενετικό AI | Υπηρεσίες Ιστού της Amazon

Το Generative AI έχει ανοίξει πολλές δυνατότητες στον τομέα της AI. Βλέπουμε πολλές χρήσεις, όπως η δημιουργία κειμένου, η δημιουργία κώδικα, η σύνοψη, η μετάφραση, τα chatbots και πολλά άλλα. Ένας τέτοιος τομέας που εξελίσσεται είναι η χρήση της επεξεργασίας φυσικής γλώσσας (NLP) για την απελευθέρωση νέων ευκαιριών για πρόσβαση σε δεδομένα μέσω έξυπνων ερωτημάτων SQL. Αντί να ασχολούνται με πολύπλοκο τεχνικό κώδικα, οι επιχειρησιακοί χρήστες και οι αναλυτές δεδομένων μπορούν να κάνουν ερωτήσεις σχετικά με δεδομένα και πληροφορίες σε απλή γλώσσα. Ο πρωταρχικός στόχος είναι η αυτόματη δημιουργία ερωτημάτων SQL από κείμενο φυσικής γλώσσας. Για να γίνει αυτό, η εισαγωγή κειμένου μετατρέπεται σε μια δομημένη αναπαράσταση και από αυτήν την αναπαράσταση δημιουργείται ένα ερώτημα SQL που μπορεί να χρησιμοποιηθεί για πρόσβαση σε μια βάση δεδομένων.

Σε αυτήν την ανάρτηση, παρέχουμε μια εισαγωγή στο κείμενο στην SQL (Text2SQL) και εξερευνούμε περιπτώσεις χρήσης, προκλήσεις, σχέδια σχεδίασης και βέλτιστες πρακτικές. Συγκεκριμένα, συζητάμε τα εξής:

  • Γιατί χρειαζόμαστε το Text2SQL
  • Βασικά στοιχεία για κείμενο σε SQL
  • Άμεση ζητήματα μηχανικής για φυσική γλώσσα ή Κείμενο σε SQL
  • Βελτιστοποιήσεις και βέλτιστες πρακτικές
  • Αρχιτεκτονικά μοτίβα

Γιατί χρειαζόμαστε το Text2SQL;

Σήμερα, ένας μεγάλος όγκος δεδομένων είναι διαθέσιμος στην παραδοσιακή ανάλυση δεδομένων, την αποθήκευση δεδομένων και τις βάσεις δεδομένων, τα οποία μπορεί να μην είναι εύκολο να ερωτηθούν ή να κατανοηθούν για την πλειοψηφία των μελών του οργανισμού. Ο πρωταρχικός στόχος του Text2SQL είναι να κάνει τις βάσεις δεδομένων ερωτημάτων πιο προσιτές σε μη τεχνικούς χρήστες, οι οποίοι μπορούν να παρέχουν τα ερωτήματά τους σε φυσική γλώσσα.

Το NLP SQL επιτρέπει στους επιχειρησιακούς χρήστες να αναλύουν δεδομένα και να λαμβάνουν απαντήσεις πληκτρολογώντας ή μιλώντας ερωτήσεις σε φυσική γλώσσα, όπως οι ακόλουθες:

  • "Εμφάνιση συνολικών πωλήσεων για κάθε προϊόν τον προηγούμενο μήνα"
  • «Ποια προϊόντα απέφεραν περισσότερα έσοδα;»
  • "Τι ποσοστό των πελατών είναι από κάθε περιοχή;"

Θεμέλιο του Αμαζονίου είναι μια πλήρως διαχειριζόμενη υπηρεσία που προσφέρει μια επιλογή μοντέλων θεμελίωσης (FM) υψηλής απόδοσης μέσω ενός μόνο API, επιτρέποντας την εύκολη κατασκευή και κλιμάκωση εφαρμογών Gen AI. Μπορεί να αξιοποιηθεί για τη δημιουργία ερωτημάτων SQL που βασίζονται σε ερωτήσεις παρόμοιες με αυτές που αναφέρονται παραπάνω και για την αναζήτηση οργανωτικών δομημένων δεδομένων και τη δημιουργία απαντήσεων σε φυσική γλώσσα από τα δεδομένα απόκρισης ερωτήματος.

Βασικά στοιχεία για κείμενο σε SQL

Τα συστήματα μετατροπής κειμένου σε SQL περιλαμβάνουν διάφορα στάδια για τη μετατροπή των ερωτημάτων φυσικής γλώσσας σε SQL με δυνατότητα εκτέλεσης:

  • Επεξεργασία φυσικής γλώσσας:
    • Αναλύστε το ερώτημα εισαγωγής του χρήστη
    • Εξαγωγή βασικών στοιχείων και πρόθεσης
    • Μετατροπή σε δομημένη μορφή
  • Παραγωγή SQL:
    • Αντιστοιχίστε τις εξαγόμενες λεπτομέρειες στη σύνταξη SQL
    • Δημιουργήστε ένα έγκυρο ερώτημα SQL
  • Ερώτημα βάσης δεδομένων:
    • Εκτελέστε το ερώτημα SQL που δημιουργείται από AI στη βάση δεδομένων
    • Ανάκτηση αποτελεσμάτων
    • Επιστρέψτε τα αποτελέσματα στον χρήστη

Μια αξιοσημείωτη ικανότητα των Μεγάλων Γλωσσικών Μοντέλων (LLM) είναι η δημιουργία κώδικα, συμπεριλαμβανομένης της δομημένης γλώσσας ερωτημάτων (SQL) για βάσεις δεδομένων. Αυτά τα LLM μπορούν να αξιοποιηθούν για να κατανοήσουν την ερώτηση φυσικής γλώσσας και να δημιουργήσουν ένα αντίστοιχο ερώτημα SQL ως έξοδο. Τα LLMs θα ωφεληθούν υιοθετώντας ρυθμίσεις εκμάθησης και τελειοποίησης, καθώς παρέχονται περισσότερα δεδομένα.

Το παρακάτω διάγραμμα απεικονίζει μια βασική ροή Text2SQL.

Κείμενο 2 SQL ροή διαδικασίας υψηλού επιπέδου

Άμεση ζητήματα μηχανικής για τη φυσική γλώσσα στην SQL

Η προτροπή είναι ζωτικής σημασίας όταν χρησιμοποιείτε LLM για τη μετάφραση της φυσικής γλώσσας σε ερωτήματα SQL και υπάρχουν πολλά σημαντικά ζητήματα για την άμεση μηχανική.

Αποτελεσματικός άμεση μηχανική είναι το κλειδί για την ανάπτυξη φυσικής γλώσσας στα συστήματα SQL. Οι σαφείς, απλές προτροπές παρέχουν καλύτερες οδηγίες για το γλωσσικό μοντέλο. Η παροχή του πλαισίου ότι ο χρήστης ζητά ένα ερώτημα SQL μαζί με τις σχετικές λεπτομέρειες σχήματος βάσης δεδομένων επιτρέπει στο μοντέλο να μεταφράσει την πρόθεση με ακρίβεια. Η συμπερίληψη μερικών σχολιασμένων παραδειγμάτων προτροπών φυσικής γλώσσας και αντίστοιχων ερωτημάτων SQL βοηθά το μοντέλο να καθοδηγήσει το μοντέλο να παράγει αποτελέσματα συμβατά με τη σύνταξη. Επιπλέον, η ενσωμάτωση του Retrieval Augmented Generation (RAG), όπου το μοντέλο ανακτά παρόμοια παραδείγματα κατά την επεξεργασία, βελτιώνει περαιτέρω την ακρίβεια χαρτογράφησης. Καλά σχεδιασμένες προτροπές που δίνουν στο μοντέλο επαρκείς οδηγίες, πλαίσιο, παραδείγματα και επαύξηση ανάκτησης είναι ζωτικής σημασίας για την αξιόπιστη μετάφραση της φυσικής γλώσσας σε ερωτήματα SQL.

Το παρακάτω είναι ένα παράδειγμα γραμμής προτροπής με αναπαράσταση κώδικα της βάσης δεδομένων από τη λευκή βίβλο Ενίσχυση των δυνατοτήτων Few-shot Text-to-SQL of Large Language Models: A Study on Prompt Design Strategies.

/* Given the following database schema : */
CREATE TABLE IF NOT EXISTS " gymnast " ( " Gymnast_ID " int , " Floor_Exercise_Points " real , " Pommel_Horse_Points " real , " Rings_Points " real , " Vault_Points " real , " Parallel_Bars_Points " real , " Horizontal_Bar_Points " real , " Total_Points " real , PRIMARY KEY ( " Gymnast_ID " ) , FOREIGN KEY ( " Gymnast_ID " ) REFERENCES " people " ( " People_ID " ) ) ; CREATE TABLE IF NOT EXISTS " people " ( " People_ID " int , " Name " text , " Age " real , " Height " real , " Hometown " text , PRIMARY KEY ( " People_ID " ) ) ; /* Answer the following : Return the total points of the gymnast with the lowest age .
*/ select t1 . total_points from gymnast as t1 join people as t2 on t1 . gymnast_id = t2 .
people_id order by t2 . age asc limit 1

Όπως απεικονίζεται σε αυτό το παράδειγμα, η εκμάθηση μερικών λήψεων με βάση την προτροπή παρέχει στο μοντέλο μια χούφτα σχολιασμένα παραδείγματα στην ίδια την προτροπή. Αυτό δείχνει την αντιστοίχιση στόχου μεταξύ φυσικής γλώσσας και SQL για το μοντέλο. Συνήθως, η προτροπή θα περιέχει περίπου 2-3 ​​ζεύγη που δείχνουν ένα ερώτημα φυσικής γλώσσας και την ισοδύναμη πρόταση SQL. Αυτά τα λίγα παραδείγματα καθοδηγούν το μοντέλο να δημιουργεί ερωτήματα SQL συμβατά με σύνταξη από φυσική γλώσσα χωρίς να απαιτούνται εκτεταμένα δεδομένα εκπαίδευσης.

Βελτιστοποίηση έναντι άμεσης μηχανικής

Κατά τη δημιουργία φυσικής γλώσσας σε συστήματα SQL, συχνά μπαίνουμε στη συζήτηση για το εάν η λεπτομέρεια του μοντέλου είναι η σωστή τεχνική ή εάν η αποτελεσματική άμεση μηχανική είναι ο σωστός τρόπος. Και οι δύο προσεγγίσεις θα μπορούσαν να εξεταστούν και να επιλεγούν με βάση το σωστό σύνολο απαιτήσεων:

    • Βελτιστοποίηση – Το βασικό μοντέλο είναι προεκπαιδευμένο σε ένα μεγάλο σώμα γενικού κειμένου και στη συνέχεια μπορεί να χρησιμοποιηθεί λεπτομέρεια βασισμένη σε οδηγίες, το οποίο χρησιμοποιεί παραδείγματα με ετικέτα για να βελτιώσει την απόδοση ενός προεκπαιδευμένου μοντέλου θεμελίωσης σε text-SQL. Αυτό προσαρμόζει το μοντέλο στην εργασία στόχο. Η λεπτομέρεια εκπαιδεύει απευθείας το μοντέλο στην τελική εργασία, αλλά απαιτεί πολλά παραδείγματα κειμένου SQL. Μπορείτε να χρησιμοποιήσετε εποπτευόμενη μικρορύθμιση με βάση το LLM σας για να βελτιώσετε την αποτελεσματικότητα της μετατροπής κειμένου σε SQL. Για αυτό, μπορείτε να χρησιμοποιήσετε πολλά σύνολα δεδομένων όπως Αράχνη, WikiSQL, ΚΥΝΗΓΗΤΟ, BIRD-SQL, ή CoSQL.
    • Άμεση μηχανική – Το μοντέλο εκπαιδεύεται να συμπληρώνει προτροπές που έχουν σχεδιαστεί για να προτρέπουν τη σύνταξη προορισμού SQL. Κατά τη δημιουργία SQL από φυσική γλώσσα με χρήση LLM, η παροχή σαφών οδηγιών στην προτροπή είναι σημαντική για τον έλεγχο της παραγωγής του μοντέλου. Στη γραμμή εντολών για να προσθέσετε σχολιασμούς σε διαφορετικά στοιχεία, όπως να δείξετε σε στήλες, σε σχήμα και, στη συνέχεια, να δώσετε εντολή για τον τύπο SQL να δημιουργηθεί. Αυτές λειτουργούν σαν οδηγίες που λένε στο μοντέλο πώς να μορφοποιήσει την έξοδο SQL. Η ακόλουθη προτροπή δείχνει ένα παράδειγμα όπου υποδεικνύετε στήλες πίνακα και καθοδηγείτε τη δημιουργία ενός ερωτήματος MySQL:
Table offices, columns = [OfficeId, OfficeName]
Table employees, columns = [OfficeId, EmployeeId,EmployeeName]
Create a MySQL query for all employees in the Machine Learning Department

Μια αποτελεσματική προσέγγιση για μοντέλα text-to-SQL είναι να ξεκινήσετε πρώτα με ένα βασικό LLM χωρίς λεπτομέρεια για συγκεκριμένη εργασία. Στη συνέχεια, οι καλοφτιαγμένες προτροπές μπορούν να χρησιμοποιηθούν για την προσαρμογή και την ώθηση του βασικού μοντέλου για τη διαχείριση της αντιστοίχισης κειμένου σε SQL. Αυτή η άμεση μηχανική σάς επιτρέπει να αναπτύξετε την ικανότητα χωρίς να χρειάζεται να κάνετε μικρορύθμιση. Εάν η άμεση μηχανική στο βασικό μοντέλο δεν επιτυγχάνει επαρκή ακρίβεια, μπορεί στη συνέχεια να διερευνηθεί η λεπτομέρεια σε ένα μικρό σύνολο παραδειγμάτων κειμένου SQL μαζί με περαιτέρω άμεση μηχανική.

Ο συνδυασμός λεπτομέρειας και άμεσης μηχανικής μπορεί να απαιτείται εάν η άμεση μηχανική στο ακατέργαστο προεκπαιδευμένο μοντέλο από μόνη της δεν πληροί τις απαιτήσεις. Ωστόσο, είναι καλύτερο να επιχειρήσετε αρχικά άμεση μηχανική χωρίς τελειοποίηση, επειδή αυτό επιτρέπει γρήγορη επανάληψη χωρίς συλλογή δεδομένων. Εάν αυτό αποτύχει να προσφέρει επαρκή απόδοση, η τελειοποίηση παράλληλα με την άμεση μηχανική είναι ένα βιώσιμο επόμενο βήμα. Αυτή η συνολική προσέγγιση μεγιστοποιεί την αποτελεσματικότητα, ενώ εξακολουθεί να επιτρέπει την προσαρμογή, εάν οι μέθοδοι που βασίζονται αποκλειστικά σε προτροπές είναι ανεπαρκείς.

Βελτιστοποίηση και βέλτιστες πρακτικές

Η βελτιστοποίηση και οι βέλτιστες πρακτικές είναι απαραίτητες για τη βελτίωση της αποτελεσματικότητας και τη διασφάλιση της βέλτιστης χρήσης των πόρων και την επίτευξη των σωστών αποτελεσμάτων με τον καλύτερο δυνατό τρόπο. Οι τεχνικές βοηθούν στη βελτίωση της απόδοσης, στον έλεγχο του κόστους και στην επίτευξη καλύτερου ποιοτικού αποτελέσματος.

Κατά την ανάπτυξη συστημάτων text-to-SQL με χρήση LLM, οι τεχνικές βελτιστοποίησης μπορούν να βελτιώσουν την απόδοση και την αποδοτικότητα. Ακολουθούν ορισμένοι βασικοί τομείς που πρέπει να ληφθούν υπόψη:

  • Προσωρινής αποθήκευσης – Για να βελτιώσετε τον λανθάνοντα χρόνο, τον έλεγχο κόστους και την τυποποίηση, μπορείτε να αποθηκεύσετε προσωρινά την αναλυμένη SQL και τα αναγνωρισμένα μηνύματα ερωτήματος από το text-to-SQL LLM. Αυτό αποφεύγει την επανεπεξεργασία επαναλαμβανόμενων ερωτημάτων.
  • παρακολούθηση – Θα πρέπει να συλλέγονται αρχεία καταγραφής και μετρήσεις σχετικά με την ανάλυση ερωτημάτων, την άμεση αναγνώριση, τη δημιουργία SQL και τα αποτελέσματα SQL για την παρακολούθηση του συστήματος text-to-SQL LLM. Αυτό παρέχει ορατότητα για το παράδειγμα βελτιστοποίησης που ενημερώνει το μήνυμα προτροπής ή επανεξετάζει τη λεπτομέρεια με ένα ενημερωμένο σύνολο δεδομένων.
  • Υλοποιημένες προβολές έναντι πινάκων – Οι υλοποιημένες προβολές μπορούν να απλοποιήσουν τη δημιουργία SQL και να βελτιώσουν την απόδοση για κοινά ερωτήματα κειμένου σε SQL. Η απευθείας αναζήτηση πινάκων μπορεί να οδηγήσει σε πολύπλοκη SQL και επίσης να οδηγήσει σε ζητήματα απόδοσης, συμπεριλαμβανομένης της συνεχούς δημιουργίας τεχνικών απόδοσης όπως ευρετήρια. Επιπλέον, μπορείτε να αποφύγετε προβλήματα απόδοσης όταν ο ίδιος πίνακας χρησιμοποιείται ταυτόχρονα για άλλους τομείς εφαρμογής.
  • Ανανέωση δεδομένων – Οι υλοποιημένες προβολές πρέπει να ανανεωθούν σε ένα χρονοδιάγραμμα για να διατηρούνται ενημερωμένα τα δεδομένα για ερωτήματα κειμένου σε SQL. Μπορείτε να χρησιμοποιήσετε προσεγγίσεις ομαδικής ή σταδιακής ανανέωσης για να εξισορροπήσετε τα γενικά έξοδα.
  • Κεντρικός κατάλογος δεδομένων – Η δημιουργία ενός κεντρικού καταλόγου δεδομένων παρέχει μια ενιαία προβολή γυαλιού στις πηγές δεδομένων ενός οργανισμού και θα βοηθήσει τους LLM να επιλέξουν κατάλληλους πίνακες και σχήματα προκειμένου να παρέχουν πιο ακριβείς απαντήσεις. Διάνυσμα ενσωματώσεις που δημιουργείται από έναν κεντρικό κατάλογο δεδομένων μπορεί να παρέχεται σε ένα LLM μαζί με πληροφορίες που ζητούνται για τη δημιουργία σχετικών και ακριβών απαντήσεων SQL.

Εφαρμόζοντας βέλτιστες πρακτικές βελτιστοποίησης, όπως η προσωρινή αποθήκευση, η παρακολούθηση, οι υλοποιημένες προβολές, η προγραμματισμένη ανανέωση και ένας κεντρικός κατάλογος, μπορείτε να βελτιώσετε σημαντικά την απόδοση και την αποτελεσματικότητα των συστημάτων κειμένου σε SQL που χρησιμοποιούν LLM.

Αρχιτεκτονικά μοτίβα

Ας δούμε μερικά μοτίβα αρχιτεκτονικής που μπορούν να εφαρμοστούν για μια ροή εργασίας κειμένου σε SQL.

Άμεση μηχανική

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική.

απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική

Σε αυτό το μοτίβο, ο χρήστης δημιουργεί εκμάθηση μερικών λήψεων βασισμένη σε προτροπές που παρέχει στο μοντέλο σχολιασμένα παραδείγματα στην ίδια την προτροπή, η οποία περιλαμβάνει λεπτομέρειες πίνακα και σχήματος και ορισμένα δείγματα ερωτημάτων με τα αποτελέσματά της. Το LLM χρησιμοποιεί την προτροπή που παρέχεται για να επιστρέψει το SQL που δημιουργήθηκε από AI, το οποίο επικυρώνεται και στη συνέχεια εκτελείται στη βάση δεδομένων για να ληφθούν τα αποτελέσματα. Αυτό είναι το πιο απλό μοτίβο για να ξεκινήσετε τη χρήση της άμεσης μηχανικής. Για αυτό, μπορείτε να χρησιμοποιήσετε Θεμέλιο του Αμαζονίου or μοντέλα θεμελίωσης in Amazon SageMaker JumpStart.

Σε αυτό το μοτίβο, ο χρήστης δημιουργεί μια εκμάθηση μερικών λήψεων βασισμένη σε προτροπές που παρέχει στο μοντέλο σχολιασμένα παραδείγματα στην ίδια την προτροπή, η οποία περιλαμβάνει λεπτομέρειες πίνακα και σχήματος και ορισμένα δείγματα ερωτημάτων με τα αποτελέσματά της. Το LLM χρησιμοποιεί την παρεχόμενη προτροπή για να επιστρέψει το SQL που δημιουργήθηκε με AI, το οποίο επικυρώνεται και εκτελείται στη βάση δεδομένων για να λάβει τα αποτελέσματα. Αυτό είναι το πιο απλό μοτίβο για να ξεκινήσετε τη χρήση της άμεσης μηχανικής. Για αυτό, μπορείτε να χρησιμοποιήσετε Θεμέλιο του Αμαζονίου η οποία είναι μια πλήρως διαχειριζόμενη υπηρεσία που προσφέρει μια επιλογή από μοντέλα θεμελίωσης υψηλής απόδοσης (FM) από κορυφαίες εταιρείες τεχνητής νοημοσύνης μέσω ενός μόνο API, μαζί με ένα ευρύ σύνολο δυνατοτήτων που χρειάζεστε για να δημιουργήσετε εφαρμογές τεχνητής νοημοσύνης με ασφάλεια, απόρρητο και υπεύθυνη τεχνητή νοημοσύνη ή Μοντέλα JumpStart Foundation η οποία προσφέρει προηγμένα μοντέλα θεμελίωσης για περιπτώσεις χρήσης, όπως συγγραφή περιεχομένου, δημιουργία κώδικα, απάντηση ερωτήσεων, συγγραφή κειμένων, σύνοψη, ταξινόμηση, ανάκτηση πληροφοριών και άλλα

Άμεση μηχανική και τελειοποίηση

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική και τελειοποίηση.

απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική και λεπτομέρεια

Αυτή η ροή είναι παρόμοια με το προηγούμενο μοτίβο, το οποίο βασίζεται κυρίως στην άμεση μηχανική, αλλά με μια πρόσθετη ροή λεπτομέρειας στο σύνολο δεδομένων για συγκεκριμένο τομέα. Το τελειοποιημένο LLM χρησιμοποιείται για τη δημιουργία των ερωτημάτων SQL με ελάχιστη τιμή εντός του περιβάλλοντος για την προτροπή. Για αυτό, μπορείτε να χρησιμοποιήσετε το SageMaker JumpStart για να ρυθμίσετε με ακρίβεια ένα LLM σε ένα σύνολο δεδομένων συγκεκριμένου τομέα με τον ίδιο τρόπο που θα εκπαιδεύατε και θα αναπτύξατε οποιοδήποτε μοντέλο σε Amazon Sage Maker.

Άμεση μηχανική και RAG

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική και RAG.

απεικονίζει την αρχιτεκτονική για τη δημιουργία ερωτημάτων με ένα LLM χρησιμοποιώντας άμεση μηχανική και RAG

Σε αυτό το μοτίβο, χρησιμοποιούμε Ανάκτηση επαυξημένης γενιάς χρησιμοποιώντας καταστήματα ενσωματώσεων διανυσμάτων, όπως Amazon Titan Embeddings or Cohere Embed, Στις Θεμέλιο του Αμαζονίου από έναν κεντρικό κατάλογο δεδομένων, όπως Κόλλα AWS Κατάλογος δεδομένων, των βάσεων δεδομένων μέσα σε έναν οργανισμό. Οι ενσωματώσεις διανυσμάτων αποθηκεύονται σε διανυσματικές βάσεις δεδομένων όπως Vector Engine για Amazon OpenSearch χωρίς διακομιστή, Amazon Relational Database Service (Amazon RDS) για PostgreSQL με pgvector επέκταση, ή Amazon Kendra. Τα LLM χρησιμοποιούν τις ενσωματώσεις διανυσμάτων για να επιλέγουν πιο γρήγορα τη σωστή βάση δεδομένων, πίνακες και στήλες από πίνακες κατά τη δημιουργία ερωτημάτων SQL. Η χρήση του RAG είναι χρήσιμη όταν τα δεδομένα και οι σχετικές πληροφορίες που πρέπει να ανακτηθούν από τα LLM αποθηκεύονται σε πολλαπλά ξεχωριστά συστήματα βάσεων δεδομένων και το LLM πρέπει να μπορεί να αναζητά ή να αναζητά δεδομένα από όλα αυτά τα διαφορετικά συστήματα. Αυτό είναι όπου η παροχή διανυσματικών ενσωματώσεων ενός κεντρικού ή ενοποιημένου καταλόγου δεδομένων στα LLM έχει ως αποτέλεσμα πιο ακριβείς και ολοκληρωμένες πληροφορίες που επιστρέφονται από τα LLM.

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε πώς μπορούμε να δημιουργήσουμε αξία από εταιρικά δεδομένα χρησιμοποιώντας φυσική γλώσσα στη δημιουργία SQL. Εξετάσαμε τα βασικά στοιχεία, τη βελτιστοποίηση και τις βέλτιστες πρακτικές. Μάθαμε επίσης αρχιτεκτονικά μοτίβα από τη βασική μηχανική προτροπής έως τη λεπτομέρεια και το RAG. Για να μάθετε περισσότερα, ανατρέξτε στο Θεμέλιο του Αμαζονίου για να δημιουργήσετε και να κλιμακώσετε εύκολα παραγωγικές εφαρμογές AI με μοντέλα θεμελίωσης


Σχετικά με τους Συγγραφείς

Δημιουργία αξίας από εταιρικά δεδομένα: Βέλτιστες πρακτικές για το Text2SQL και το γενετικό AI | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Randy DeFauw είναι Senior Principal Solutions Architect στην AWS. Είναι κάτοχος MSEE από το Πανεπιστήμιο του Μίσιγκαν, όπου εργάστηκε στην όραση υπολογιστών για αυτόνομα οχήματα. Είναι επίσης κάτοχος MBA από το Κρατικό Πανεπιστήμιο του Κολοράντο. Ο Randy κατείχε διάφορες θέσεις στον τεχνολογικό χώρο, που κυμαίνονται από τη μηχανική λογισμικού έως τη διαχείριση προϊόντων. Το In εισήλθε στον χώρο των Big Data το 2013 και συνεχίζει να εξερευνά αυτήν την περιοχή. Εργάζεται ενεργά σε έργα στον χώρο της ML και έχει παρουσιάσει σε πολυάριθμα συνέδρια, συμπεριλαμβανομένων των Strata και GlueCon.

Δημιουργία αξίας από εταιρικά δεδομένα: Βέλτιστες πρακτικές για το Text2SQL και το γενετικό AI | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Νιτίν Ευσέβιος είναι Sr. Enterprise Solutions Architect στην AWS, με εμπειρία στη Μηχανική Λογισμικού, την Enterprise Architecture και την AI/ML. Είναι βαθιά παθιασμένος με την εξερεύνηση των δυνατοτήτων της γενετικής τεχνητής νοημοσύνης. Συνεργάζεται με πελάτες για να τους βοηθήσει να δημιουργήσουν καλά αρχιτεκτονημένες εφαρμογές στην πλατφόρμα AWS και είναι αφοσιωμένος στην επίλυση τεχνολογικών προκλήσεων και στην παροχή βοήθειας στο ταξίδι τους στο cloud.

Δημιουργία αξίας από εταιρικά δεδομένα: Βέλτιστες πρακτικές για το Text2SQL και το γενετικό AI | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Arghya Banerjee είναι αρχιτέκτονας λύσεων Sr. στην AWS στην περιοχή του κόλπου του Σαν Φρανσίσκο που επικεντρώνεται στο να βοηθά τους πελάτες να υιοθετούν και να χρησιμοποιούν το AWS Cloud. Η Arghya εστιάζει σε Big Data, Data Lakes, Streaming, Batch Analytics και υπηρεσίες και τεχνολογίες AI/ML.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS