Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen

Neuauflage von Plato

Verfolger: 0

Die Implementierung einer modernen Datenarchitektur bietet eine skalierbare Methode zur Integration von Daten aus unterschiedlichen Quellen. Durch die Organisation der Daten nach Geschäftsdomänen statt nach Infrastruktur kann jede Domäne Tools auswählen, die ihren Anforderungen entsprechen. Unternehmen können den Wert ihrer modernen Datenarchitektur mit generativen KI-Lösungen maximieren und gleichzeitig kontinuierlich Innovationen vorantreiben.

Die natürlichen Sprachfunktionen ermöglichen es technisch nicht versierten Benutzern, Daten über Konversationsenglisch statt über komplexes SQL abzufragen. Um die Vorteile voll auszuschöpfen, müssen jedoch einige Herausforderungen bewältigt werden. Die KI- und Sprachmodelle müssen die geeigneten Datenquellen identifizieren, effektive SQL-Abfragen generieren und kohärente Antworten mit eingebetteten Ergebnissen in großem Maßstab liefern. Sie benötigen außerdem eine Benutzeroberfläche für Fragen in natürlicher Sprache.

Insgesamt ist die Implementierung einer modernen Datenarchitektur und generativer KI-Techniken mit AWS ein vielversprechender Ansatz, um wichtige Erkenntnisse aus vielfältigen, umfangreichen Daten auf Unternehmensebene zu gewinnen und zu verbreiten. Das neueste Angebot für generative KI von AWS ist Amazonas Grundgestein, ein vollständig verwalteter Dienst und die einfachste Möglichkeit, generative KI-Anwendungen mit Basismodellen zu erstellen und zu skalieren. AWS bietet auch Foundation-Modelle an Amazon SageMaker-JumpStart as Amazon Sage Maker Endpunkte. Die Kombination aus großen Sprachmodellen (LLMs), einschließlich der einfachen Integration, die Amazon Bedrock bietet, und einer skalierbaren, domänenorientierten Dateninfrastruktur macht dies zu einer intelligenten Methode zur Nutzung der umfangreichen Informationen, die in verschiedenen Analysedatenbanken und Data Lakes gespeichert sind.

In dem Beitrag stellen wir ein Szenario vor, in dem ein Unternehmen eine moderne Datenarchitektur implementiert hat, wobei sich die Daten auf mehreren Datenbanken und APIs befinden, beispielsweise auf rechtlichen Daten Amazon Simple Storage-Service (Amazon S3), Personalwesen auf Relationaler Amazon-Datenbankdienst (Amazon RDS), Vertrieb und Marketing auf Amazon RedShift, Finanzmarktdaten auf einer Data-Warehouse-Lösung eines Drittanbieters auf Schneeflockeund Produktdaten als API. Diese Implementierung zielt darauf ab, die Produktivität der Geschäftsanalytiker, Produktbesitzer und Geschäftsbereichsexperten des Unternehmens zu steigern. All dies wird durch den Einsatz generativer KI in dieser Domain-Mesh-Architektur erreicht, die es dem Unternehmen ermöglicht, seine Geschäftsziele effizienter zu erreichen. Diese Lösung bietet die Möglichkeit, LLMs von JumpStart als SageMaker-Endpunkt sowie Modelle von Drittanbietern einzubinden. Wir bieten Unternehmensbenutzern die Möglichkeit, faktenbasierte Fragen zu stellen, ohne über grundlegende Kenntnisse über Datenkanäle zu verfügen, und abstrahieren so die Komplexität des Schreibens einfacher bis komplexer SQL-Abfragen.

Lösungsüberblick

Eine moderne Datenarchitektur auf AWS nutzt künstliche Intelligenz und Verarbeitung natürlicher Sprache, um mehrere Analysedatenbanken abzufragen. Durch die Nutzung von Diensten wie Amazon Redshift, Amazon RDS, Snowflake, Amazonas Athena und AWS-KleberEs entsteht eine skalierbare Lösung zur Integration von Daten aus verschiedenen Quellen. Benutzen LangChain, eine leistungsstarke Bibliothek für die Arbeit mit LLMs, einschließlich Fundamentmodellen von Amazon Bedrock und JumpStart in Amazon SageMaker-Studio Notebooks wird ein System aufgebaut, in dem Benutzer Geschäftsfragen in natürlichem Englisch stellen und Antworten mit Daten aus den relevanten Datenbanken erhalten können.

Das folgende Diagramm zeigt die Architektur.

Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Hybridarchitektur nutzt mehrere Datenbanken und LLMs mit Basismodellen von Amazon Bedrock und JumpStart für die Datenquellenidentifizierung, SQL-Generierung und Textgenerierung mit Ergebnissen.

Das folgende Diagramm veranschaulicht die spezifischen Workflow-Schritte für unsere Lösung.

Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Schritte sind wie folgt:

Ein Geschäftsbenutzer stellt eine englische Frageaufforderung bereit.
Ein AWS Glue-Crawler soll in regelmäßigen Abständen ausgeführt werden, um Metadaten aus Datenbanken zu extrahieren und Tabellendefinitionen in zu erstellen AWS Glue-Datenkatalog. Der Datenkatalog wird in Kettensequenz 1 eingegeben (siehe vorheriges Diagramm).
LangChain, ein Tool zum Arbeiten mit LLMs und Eingabeaufforderungen, wird in Studio-Notebooks verwendet. LangChain erfordert die Definition eines LLM. Als Teil der Kettensequenz 1 werden die Eingabeaufforderung und die Metadaten des Datenkatalogs an ein LLM übergeben, das auf einem SageMaker-Endpunkt gehostet wird, um die relevante Datenbank und Tabelle mithilfe von LangChain zu identifizieren.
Die Eingabeaufforderung sowie die identifizierte Datenbank und Tabelle werden an Kettensequenz 2 übergeben.
LangChain stellt eine Verbindung zur Datenbank her und führt die SQL-Abfrage aus, um die Ergebnisse zu erhalten.
Die Ergebnisse werden an das LLM übergeben, um mit den Daten eine englische Antwort zu generieren.
Der Nutzer erhält auf seine Eingabeaufforderung eine englischsprachige Antwort und fragt Daten aus verschiedenen Datenbanken ab.

In den folgenden Abschnitten werden einige der wichtigsten Schritte mit dem zugehörigen Code erläutert. Um tiefer in die Lösung und den Code für alle hier gezeigten Schritte einzutauchen, lesen Sie die GitHub Repo. Das folgende Diagramm zeigt die Abfolge der folgenden Schritte:

Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Voraussetzungen:

Sie können alle Datenbanken verwenden, die mit kompatibel sind SQLAlchemy um Antworten von LLMs und LangChain zu generieren. Allerdings müssen die Metadaten dieser Datenbanken im AWS Glue Data Catalog registriert sein. Darüber hinaus müssen Sie über JumpStart oder API-Schlüssel Zugriff auf LLMs haben.

Stellen Sie mit SQLAlchemy eine Verbindung zu Datenbanken her

LangChain verwendet SQLAlchemy, um eine Verbindung zu SQL-Datenbanken herzustellen. Wir initialisieren die SQLDatabase-Funktion von LangChain, indem wir eine Engine erstellen und eine Verbindung für jede Datenquelle herstellen. Im Folgenden finden Sie ein Beispiel für die Verbindung mit einem Amazon Aurora MySQL-kompatible Edition serverlose Datenbank und schließen nur die Mitarbeitertabelle ein:

#connect to AWS Aurora MySQL
cluster_arn = <cluster_arn>
secret_arn = <secret_arn>
engine_rds=create_engine('mysql+auroradataapi://:@/employees',echo=True,
  connect_args=dict(aurora_cluster_arn=cluster_arn, secret_arn=secret_arn))
dbrds = SQLDatabase(engine_rds, include_tables=['employees'])

Als Nächstes erstellen wir Eingabeaufforderungen, die von Chain Sequence 1 verwendet werden, um die Datenbank und den Tabellennamen basierend auf der Benutzerfrage zu identifizieren.

Generieren Sie dynamische Eingabeaufforderungsvorlagen

Wir verwenden den AWS Glue Data Catalog, der zum Speichern und Verwalten von Metadateninformationen entwickelt wurde, um die Datenquelle für eine Benutzerabfrage zu identifizieren und Eingabeaufforderungen für Chain Sequence 1 zu erstellen, wie in den folgenden Schritten beschrieben:

Wir erstellen einen Datenkatalog, indem wir mithilfe von die Metadaten mehrerer Datenquellen durchsuchen JDBC-Verbindung in der Demonstration verwendet.
Mit der Boto3-Bibliothek erstellen wir eine konsolidierte Ansicht des Datenkatalogs aus mehreren Datenquellen. Im Folgenden finden Sie ein Beispiel zum Abrufen der Metadaten der Mitarbeitertabelle aus dem Datenkatalog für die Aurora MySQL-Datenbank:

 #retrieve metadata from glue data catalog
  glue_tables_rds = glue_client.get_tables(DatabaseName=<database_name>, MaxResults=1000)
    for table in glue_tables_rds['TableList']:
        for column in table['StorageDescriptor']['Columns']:
             columns_str=columns_str+'n'+('rdsmysql|employees|'+table['Name']+"|"+column['Name'])

Ein konsolidierter Datenkatalog enthält Details zur Datenquelle, z. B. Schema, Tabellennamen und Spaltennamen. Das Folgende ist ein Beispiel der Ausgabe des konsolidierten Datenkatalogs:

database|schema|table|column_names
redshift|tickit|tickit_sales|listid
rdsmysql|employees|employees|emp_no
....
s3|none|claims|policy_id

Wir übergeben den konsolidierten Datenkatalog an die Eingabeaufforderungsvorlage und definieren die von LangChain verwendeten Eingabeaufforderungen:

prompt_template = """
From the table below, find the database (in column database) which will contain the data (in corresponding column_names) to answer the question {query} n """+glue_catalog +""" Give your answer as database == n Also,give your answer as database.table =="""

Kettensequenz 1: Ermitteln Sie Quellmetadaten für die Benutzerabfrage mithilfe von LangChain und einem LLM

Wir übergeben die im vorherigen Schritt generierte Eingabeaufforderungsvorlage zusammen mit der Benutzerabfrage an das LangChain-Modell an die Eingabeaufforderung, um die beste Datenquelle zur Beantwortung der Frage zu finden. LangChain verwendet das LLM-Modell unserer Wahl, um Quellmetadaten zu erkennen.

Verwenden Sie den folgenden Code, um ein LLM von JumpStart oder Modellen von Drittanbietern zu verwenden:

#define your LLM model here
llm = <LLM>
#pass prompt template and user query to the prompt
PROMPT = PromptTemplate(template=prompt_template, input_variables=["query"])
# define llm chain
llm_chain = LLMChain(prompt=PROMPT, llm=llm)
#run the query and save to generated texts
generated_texts = llm_chain.run(query)

Der generierte Text enthält Informationen wie die Datenbank- und Tabellennamen, für die die Benutzerabfrage ausgeführt wird. Beispielsweise für die Benutzerabfrage „Nennen Sie alle Mitarbeiter mit Geburtsdatum in diesem Monat“ generated_text hat die Informationen database == rdsmysql und database.table == rdsmysql.employees.

Als Nächstes übergeben wir die Details der Personaldomäne, der Aurora MySQL-Datenbank und der Mitarbeitertabelle an Chain Sequence 2.

Kettensequenz 2: Antworten von den Datenquellen abrufen, um die Benutzeranfrage zu beantworten

Als Nächstes führen wir die SQL-Datenbankkette von LangChain aus, um Text in SQL zu konvertieren, und führen das generierte SQL implizit gegen die Datenbank aus, um die Datenbankergebnisse in einer einfach lesbaren Sprache abzurufen.

Wir beginnen mit der Definition einer Eingabeaufforderungsvorlage, die das LLM anweist, SQL in einem syntaktisch korrekten Dialekt zu generieren und es dann in der Datenbank auszuführen:

_DEFAULT_TEMPLATE = """Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer.
Only use the following tables:
{table_info}
If someone asks for the sales, they really mean the tickit.sales table.
Question: {input}"""
#define the prompt
PROMPT = PromptTemplate( input_variables=["input", "table_info", "dialect"], template=_DEFAULT_TEMPLATE)

Schließlich übergeben wir das LLM, die Datenbankverbindung und die Eingabeaufforderung an die SQL-Datenbankkette und führen die SQL-Abfrage aus:

db_chain = SQLDatabaseChain.from_llm(llm, db, prompt=PROMPT)
response=db_chain.run(query)

Auf die Benutzeranfrage „Nennen Sie alle Mitarbeiter mit Geburtsdatum in diesem Monat“ lautet die Antwort beispielsweise wie folgt:

Question: Name all employees with birth date this month SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); User Response:
The employees with birthdays this month are:
Christian Koblick
Tzvetan Zielinski

Aufräumen

Nachdem Sie die moderne Datenarchitektur mit generativer KI ausgeführt haben, stellen Sie sicher, dass Sie alle Ressourcen bereinigen, die nicht genutzt werden. Fahren Sie die verwendeten Datenbanken herunter und löschen Sie sie (Amazon Redshift, Amazon RDS, Snowflake). Löschen Sie außerdem die Daten in Amazon S3 und stoppen Sie alle Studio-Notebook-Instanzen, damit keine weiteren Kosten anfallen. Wenn Sie JumpStart verwendet haben, um ein LLM als SageMaker-Echtzeitendpunkt bereitzustellen, löschen Sie den Endpunkt entweder über die SageMaker-Konsole oder Studio.

Zusammenfassung

In diesem Beitrag haben wir eine moderne Datenarchitektur mit generativer KI und LLMs in SageMaker integriert. Diese Lösung nutzt verschiedene Text-zu-Text-Grundlagenmodelle von JumpStart sowie Modelle von Drittanbietern. Dieser Hybridansatz identifiziert Datenquellen, schreibt SQL-Abfragen und generiert Antworten mit Abfrageergebnissen. Es verwendet Amazon Redshift, Amazon RDS, Snowflake und LLMs. Um die Lösung zu verbessern, könnten Sie weitere Datenbanken, eine Benutzeroberfläche für englische Abfragen, Prompt Engineering und Datentools hinzufügen. Dies könnte eine intelligente, einheitliche Möglichkeit sein, Erkenntnisse aus mehreren Datenspeichern zu gewinnen. Um tiefer in die Lösung und den in diesem Beitrag gezeigten Code einzutauchen, schauen Sie sich die an GitHub Repo . Siehe auch Amazonas Grundgestein für Anwendungsfälle zu generativer KI, Basismodellen und großen Sprachmodellen.

Anhang

Beispielaufforderungen

Domain	Datenbank/API	Prompt	SQL (generiert von LLM)	Output
Vertrieb & Marketing	Amazon RedShift	Wie viele Ticketverkäufe gibt es?	`SELECT COUNT(*) AS total_sales` `FROM tickit.sales;`	`There are 172,456 ticket sales.`
Vertrieb & Marketing	Amazon RedShift	Wie hoch war die Gesamtprovision für den Ticketverkauf im Jahr 2008?	`SELECT SUM(commission) AS total_commission` `FROM tickit.sales` `WHERE EXTRACT(YEAR FROM saletime) = 2008`	`The total commission for ticket sales in the year 2008 was $16,614,814.65.`
Rechtlich	S3	Wie viele Betrugsfälle gab es im Jahr 2023?	`SELECT count(*)` `FROM claims` `WHERE extract(year from write_time) = 2023 AND fraud = 1;`	`There were 164 fraud claims in 2023.`
Rechtlich	S3	Wie viele Policen wurden dieses Jahr beansprucht?	`SELECT count(*)` `FROM claims;`	`There were 5000 claims made this year.`
Human Resources	Amazon Aurora-MySQL	Nennen Sie alle Mitarbeiter mit Geburtsdatum in diesem Monat	`SELECT * FROM employees` `WHERE MONTH(birth_date) = MONTH(CURRENT_DATE());`	`The employees with birthdays this month are:` `Christian Koblick` `Tzvetan Zielinski` `Kazuhito Cappelletti` `Yinghua Dredge`
Human Resources	Amazon Aurora-MySQL	Wie viele Mitarbeiter wurden vor 1990 eingestellt?	`SELECT COUNT(*) AS 'Number of employees hired before 1990'` `FROM employees` `WHERE hire_date < '1990-01-01'`	`29 employees were hired before 1990.`
Finanzen und Investitionen	Schneeflocke	Welche Aktie schnitt im Mai 2013 am besten und am schlechtesten ab?	`SELECT name, MAX(close) AS max_close, MIN(close) AS min_close` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-05-01' AND '2013-05-31'` `GROUP BY name` `ORDER BY max_close DESC, min_close ASC`	`The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22.`
Finanzen und Investitionen	Schneeflocke	Wie hoch war das durchschnittliche Handelsvolumen der Aktien im Juli 2013?	`SELECT AVG(volume) AS average_volume` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-07-01' AND '2013-07-31'`	`The average volume of stocks traded in July 2013 was 4,374,177`
Produkt – Wetter	API	Wie ist das Wetter in Grad Fahrenheit derzeit in New York City?

Über die Autoren

Navneet Tuteja ist Datenspezialist bei Amazon Web Services. Bevor er zu AWS kam, arbeitete Navneet als Vermittler für Organisationen, die ihre Datenarchitekturen modernisieren und umfassende KI/ML-Lösungen implementieren wollten. Sie verfügt über einen Ingenieurabschluss der Thapar University sowie einen Master-Abschluss in Statistik der Texas A&M University.

Sovik Kumar Nath ist ein KI/ML-Lösungsarchitekt bei AWS. Er verfügt über umfangreiche Erfahrung in der Entwicklung von End-to-End-Lösungen für maschinelles Lernen und Geschäftsanalysen in den Bereichen Finanzen, Betrieb, Marketing, Gesundheitswesen, Lieferkettenmanagement und IoT. Sovik hat Artikel veröffentlicht und hält ein Patent zur ML-Modellüberwachung. Er verfügt über einen Doppel-Master-Abschluss der University of South Florida, Universität Freiburg, Schweiz, und einen Bachelor-Abschluss des Indian Institute of Technology, Kharagpur. Außerhalb der Arbeit reist Sovik gerne, unternimmt Fährfahrten und schaut sich Filme an.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
EVM-Finanzen. Einheitliche Schnittstelle für dezentrale Finanzen. Hier zugreifen.
Quantum Media Group. IR/PR verstärkt. Hier zugreifen.
PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/

Zeitstempel: 13. Juni 2023

Zeitstempel: 1. Dezember 2023

Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen | Amazon Web Services

Neuauflage von Plato

Lösungsüberblick

Voraussetzungen:

Stellen Sie mit SQLAlchemy eine Verbindung zu Datenbanken her

Generieren Sie dynamische Eingabeaufforderungsvorlagen

Kettensequenz 1: Ermitteln Sie Quellmetadaten für die Benutzerabfrage mithilfe von LangChain und einem LLM

Kettensequenz 2: Antworten von den Datenquellen abrufen, um die Benutzeranfrage zu beantworten

Aufräumen

Zusammenfassung

Anhang

Über die Autoren

Mehr von AWS Maschinelles Lernen

Erstellen Sie generative KI-Agenten mit Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex und LangChain | Amazon Web Services

Verwenden Sie Amazon SageMaker Data Wrangler in Amazon SageMaker Studio mit einer standardmäßigen Lebenszykluskonfiguration

Cloudbasierte Rekonstruktion medizinischer Bildgebung mit tiefen neuronalen Netzen

Erkunden Sie die Funktionen von Amazon SageMaker Data Wrangler mit Beispieldatensätzen

Erstellen Sie mithilfe dieses No-Code-Workflows Videountertitel mit Amazon Transcribe

Trainieren Sie ein Zeitreihen-Prognosemodell schneller mit Amazon SageMaker Canvas Quick Build

Erhöhen Sie die Leistung von ML-Modellen und reduzieren Sie die Trainingszeit mit den integrierten Algorithmen von Amazon SageMaker mit vortrainierten Modellen

Verwenden Sie maschinelles Lernen, um Anomalien zu erkennen und Ausfallzeiten mit Amazon Timestream und Amazon Lookout for Equipment vorherzusagen

Sichere vorsignierte URLs von Amazon SageMaker Studio Teil 3: Privater API-Zugriff für mehrere Konten auf Studio

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto