Reinventar la experiencia de los datos: utilice IA generativa y una arquitectura de datos moderna para desbloquear conocimientos

Reeditado por Platón

seguidores: 0

La implementación de una arquitectura de datos moderna proporciona un método escalable para integrar datos de fuentes dispares. Al organizar los datos por dominios comerciales en lugar de infraestructura, cada dominio puede elegir herramientas que se adapten a sus necesidades. Las organizaciones pueden maximizar el valor de su arquitectura de datos moderna con soluciones de IA generativa mientras innovan continuamente.

Las capacidades de lenguaje natural permiten a los usuarios no técnicos consultar datos a través de un inglés conversacional en lugar de SQL complejo. Sin embargo, obtener todos los beneficios requiere superar algunos desafíos. Los modelos de lenguaje e inteligencia artificial deben identificar las fuentes de datos adecuadas, generar consultas SQL efectivas y producir respuestas coherentes con resultados integrados a escala. También necesitan una interfaz de usuario para preguntas en lenguaje natural.

En general, implementar una arquitectura de datos moderna y técnicas de IA generativa con AWS es un enfoque prometedor para recopilar y difundir información clave de datos diversos y expansivos a escala empresarial. La última oferta de IA generativa de AWS es lecho rocoso del amazonas, que es un servicio totalmente administrado y la forma más fácil de crear y escalar aplicaciones de IA generativa con modelos básicos. AWS también ofrece modelos básicos a través de JumpStart de Amazon SageMaker as Amazon SageMaker puntos finales La combinación de modelos de lenguaje extenso (LLM), incluida la facilidad de integración que ofrece Amazon Bedrock, y una infraestructura de datos escalable y orientada al dominio lo posiciona como un método inteligente para aprovechar la abundante información contenida en varias bases de datos de análisis y lagos de datos.

En la publicación, mostramos un escenario en el que una empresa implementó una arquitectura de datos moderna con datos que residen en múltiples bases de datos y API, como datos legales en Servicio de almacenamiento simple de Amazon (Amazon S3), recursos humanos en Servicio de base de datos relacional de Amazon (Amazon RDS), ventas y marketing en Desplazamiento al rojo de Amazon, datos del mercado financiero en una solución de almacén de datos de terceros en Copo de nievey datos de productos como una API. Esta implementación tiene como objetivo mejorar la productividad de los análisis de negocios, los propietarios de productos y los expertos en dominios de negocios de la empresa. Todo esto logrado mediante el uso de IA generativa en esta arquitectura de malla de dominio, que permite a la empresa alcanzar sus objetivos comerciales de manera más eficiente. Esta solución tiene la opción de incluir LLM de JumpStart como punto final de SageMaker, así como modelos de terceros. Brindamos a los usuarios empresariales un medio para hacer preguntas basadas en hechos sin tener un conocimiento subyacente de los canales de datos, abstrayendo así las complejidades de escribir consultas SQL simples a complejas.

Resumen de la solución

Una arquitectura de datos moderna en AWS aplica inteligencia artificial y procesamiento de lenguaje natural para consultar múltiples bases de datos de análisis. Mediante el uso de servicios como Amazon Redshift, Amazon RDS, Snowflake, Atenea amazónicay Pegamento AWS, crea una solución escalable para integrar datos de varias fuentes. Usando LangChain, una poderosa biblioteca para trabajar con LLM, que incluye modelos básicos de Amazon Bedrock y JumpStart en Estudio Amazon SageMaker cuadernos, se construye un sistema donde los usuarios pueden hacer preguntas comerciales en inglés natural y recibir respuestas con datos extraídos de las bases de datos relevantes.

El siguiente diagrama ilustra la arquitectura.

Reinventar la experiencia de los datos: utilice IA generativa y una arquitectura de datos moderna para desbloquear conocimientos | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

La arquitectura híbrida utiliza varias bases de datos y LLM, con modelos básicos de Amazon Bedrock y JumpStart para la identificación de fuentes de datos, la generación de SQL y la generación de texto con resultados.

El siguiente diagrama ilustra los pasos específicos del flujo de trabajo para nuestra solución.

Los pasos son los siguientes:

Un usuario comercial proporciona un mensaje de pregunta en inglés.
Un rastreador de AWS Glue está programado para ejecutarse a intervalos frecuentes para extraer metadatos de las bases de datos y crear definiciones de tablas en el Catálogo de datos de AWS Glue. El catálogo de datos se ingresa en la secuencia de cadena 1 (consulte el diagrama anterior).
LangChain, una herramienta para trabajar con LLM y avisos, se usa en los cuadernos de Studio. LangChain requiere que se defina un LLM. Como parte de la Secuencia en cadena 1, los metadatos del catálogo de datos y la solicitud se pasan a un LLM, alojado en un extremo de SageMaker, para identificar la base de datos y la tabla relevantes mediante LangChain.
La base de datos y la tabla solicitadas e identificadas se pasan a la Secuencia en cadena 2.
LangChain establece una conexión con la base de datos y ejecuta la consulta SQL para obtener los resultados.
Los resultados se pasan al LLM para generar una respuesta en inglés con los datos.
El usuario recibe una respuesta en inglés a su aviso, consultando datos de diferentes bases de datos.

Las siguientes secciones explican algunos de los pasos clave con el código asociado. Para profundizar en la solución y el código de todos los pasos que se muestran aquí, consulte el Repositorio GitHub. El siguiente diagrama muestra la secuencia de pasos seguidos:

Requisitos previos

Puede utilizar cualquier base de datos que sea compatible con SQLAlchemy para generar respuestas de LLM y LangChain. Sin embargo, estas bases de datos deben tener sus metadatos registrados en AWS Glue Data Catalog. Además, deberá tener acceso a los LLM a través de claves JumpStart o API.

Conéctese a bases de datos usando SQLAlchemy

LangChain usa SQLAlchemy para conectarse a bases de datos SQL. Inicializamos la función SQLDatabase de LangChain creando un motor y estableciendo una conexión para cada fuente de datos. El siguiente es un ejemplo de cómo conectarse a un Edición compatible con MySQL de Amazon Aurora base de datos sin servidor e incluir solo la tabla de empleados:

#connect to AWS Aurora MySQL
cluster_arn = <cluster_arn>
secret_arn = <secret_arn>
engine_rds=create_engine('mysql+auroradataapi://:@/employees',echo=True,
  connect_args=dict(aurora_cluster_arn=cluster_arn, secret_arn=secret_arn))
dbrds = SQLDatabase(engine_rds, include_tables=['employees'])

A continuación, creamos indicaciones utilizadas por Chain Sequence 1 para identificar la base de datos y el nombre de la tabla en función de la pregunta del usuario.

Generar plantillas de mensajes dinámicos

Usamos el catálogo de datos de AWS Glue, que está diseñado para almacenar y administrar información de metadatos, para identificar el origen de los datos para una consulta de usuario y generar solicitudes para la secuencia de cadena 1, como se detalla en los siguientes pasos:

Creamos un catálogo de datos rastreando los metadatos de múltiples fuentes de datos usando el Conexión Jdbc utilizado en la demostración.
Con la biblioteca Boto3, creamos una vista consolidada del catálogo de datos a partir de múltiples fuentes de datos. El siguiente es un ejemplo de cómo obtener los metadatos de la tabla de empleados del Catálogo de datos para la base de datos Aurora MySQL:

 #retrieve metadata from glue data catalog
  glue_tables_rds = glue_client.get_tables(DatabaseName=<database_name>, MaxResults=1000)
    for table in glue_tables_rds['TableList']:
        for column in table['StorageDescriptor']['Columns']:
             columns_str=columns_str+'n'+('rdsmysql|employees|'+table['Name']+"|"+column['Name'])

Un catálogo de datos consolidado tiene detalles sobre la fuente de datos, como el esquema, los nombres de las tablas y los nombres de las columnas. La siguiente es una muestra de la salida del catálogo de datos consolidado:

database|schema|table|column_names
redshift|tickit|tickit_sales|listid
rdsmysql|employees|employees|emp_no
....
s3|none|claims|policy_id

Pasamos el catálogo de datos consolidado a la plantilla de solicitud y definimos las solicitudes utilizadas por LangChain:

prompt_template = """
From the table below, find the database (in column database) which will contain the data (in corresponding column_names) to answer the question {query} n """+glue_catalog +""" Give your answer as database == n Also,give your answer as database.table =="""

Secuencia de cadena 1: Detectar metadatos de origen para la consulta del usuario mediante LangChain y un LLM

Pasamos la plantilla de solicitud generada en el paso anterior a la solicitud, junto con la consulta del usuario al modelo LangChain, para encontrar la mejor fuente de datos para responder la pregunta. LangChain utiliza el modelo LLM de nuestra elección para detectar metadatos de origen.

Use el siguiente código para usar un LLM de JumpStart o modelos de terceros:

#define your LLM model here
llm = <LLM>
#pass prompt template and user query to the prompt
PROMPT = PromptTemplate(template=prompt_template, input_variables=["query"])
# define llm chain
llm_chain = LLMChain(prompt=PROMPT, llm=llm)
#run the query and save to generated texts
generated_texts = llm_chain.run(query)

El texto generado contiene información como la base de datos y los nombres de las tablas en los que se ejecuta la consulta del usuario. Por ejemplo, para la consulta del usuario "Nombre de todos los empleados con fecha de nacimiento este mes", generated_text tiene la información database == rdsmysql y database.table == rdsmysql.employees.

A continuación, pasamos los detalles del dominio de recursos humanos, la base de datos Aurora MySQL y la tabla de empleados a Chain Sequence 2.

Secuencia en cadena 2: recuperar respuestas de las fuentes de datos para responder a la consulta del usuario

A continuación, ejecutamos la cadena de base de datos SQL de LangChain para convertir texto a SQL e implícitamente ejecutamos el SQL generado contra la base de datos para recuperar los resultados de la base de datos en un lenguaje legible simple.

Comenzamos con la definición de una plantilla de solicitud que instruye al LLM para generar SQL en un dialecto sintácticamente correcto y luego ejecutarlo en la base de datos:

_DEFAULT_TEMPLATE = """Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer.
Only use the following tables:
{table_info}
If someone asks for the sales, they really mean the tickit.sales table.
Question: {input}"""
#define the prompt
PROMPT = PromptTemplate( input_variables=["input", "table_info", "dialect"], template=_DEFAULT_TEMPLATE)

Finalmente, pasamos el LLM, la conexión de la base de datos y el aviso a la cadena de la base de datos SQL y ejecutamos la consulta SQL:

db_chain = SQLDatabaseChain.from_llm(llm, db, prompt=PROMPT)
response=db_chain.run(query)

Por ejemplo, para la consulta del usuario "Nombre de todos los empleados con fecha de nacimiento este mes", la respuesta es la siguiente:

Question: Name all employees with birth date this month SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); User Response:
The employees with birthdays this month are:
Christian Koblick
Tzvetan Zielinski

Limpiar

Después de ejecutar la arquitectura de datos moderna con IA generativa, asegúrese de limpiar los recursos que no se utilizarán. Cierre y elimine las bases de datos utilizadas (Amazon Redshift, Amazon RDS, Snowflake). Además, elimine los datos en Amazon S3 y detenga cualquier instancia de notebook de Studio para no incurrir en cargos adicionales. Si usó JumpStart para implementar un LLM como punto final en tiempo real de SageMaker, elimine el punto final a través de la consola de SageMaker o Studio.

Conclusión

En esta publicación, integramos una arquitectura de datos moderna con IA generativa y LLM dentro de SageMaker. Esta solución utiliza varios modelos básicos de texto a texto de JumpStart, así como modelos de terceros. Este enfoque híbrido identifica las fuentes de datos, escribe consultas SQL y genera respuestas con los resultados de las consultas. Utiliza Amazon Redshift, Amazon RDS, Snowflake y LLM. Para mejorar la solución, puede agregar más bases de datos, una interfaz de usuario para consultas en inglés, ingeniería rápida y herramientas de datos. Esto podría convertirse en una forma inteligente y unificada de obtener información de múltiples almacenes de datos. Para profundizar en la solución y el código que se muestra en esta publicación, consulte el Repositorio GitHub . También, refiérase a lecho rocoso del amazonas para casos de uso en IA generativa, modelos básicos y modelos de lenguaje extenso.

Apéndice

Indicaciones de ejemplo

Dominio	Base de datos/API	Rápido	SQL (Generado por LLM)	Salida
Ventas y Marketing	Desplazamiento al rojo de Amazon	¿Cuántas ventas de boletos hay?	`SELECT COUNT(*) AS total_sales` `FROM tickit.sales;`	`There are 172,456 ticket sales.`
Ventas y Marketing	Desplazamiento al rojo de Amazon	¿Cuál fue la comisión total por la venta de boletos en el año 2008?	`SELECT SUM(commission) AS total_commission` `FROM tickit.sales` `WHERE EXTRACT(YEAR FROM saletime) = 2008`	`The total commission for ticket sales in the year 2008 was $16,614,814.65.`
Legal	S3	¿Cuántos fraudes ocurrieron en el año 2023?	`SELECT count(*)` `FROM claims` `WHERE extract(year from write_time) = 2023 AND fraud = 1;`	`There were 164 fraud claims in 2023.`
Legal	S3	¿Cuántas pólizas se reclamaron este año?	`SELECT count(*)` `FROM claims;`	`There were 5000 claims made this year.`
Recursos Humanos	Amazon Aurora MySQL	Nombre de todos los empleados con fecha de nacimiento este mes	`SELECT * FROM employees` `WHERE MONTH(birth_date) = MONTH(CURRENT_DATE());`	`The employees with birthdays this month are:` `Christian Koblick` `Tzvetan Zielinski` `Kazuhito Cappelletti` `Yinghua Dredge`
Recursos Humanos	Amazon Aurora MySQL	¿Cuántos empleados se contrataron antes de 1990?	`SELECT COUNT(*) AS 'Number of employees hired before 1990'` `FROM employees` `WHERE hire_date < '1990-01-01'`	`29 employees were hired before 1990.`
Finanzas e inversiones	Copo de nieve	¿Qué acción se desempeñó mejor y peor en mayo de 2013?	`SELECT name, MAX(close) AS max_close, MIN(close) AS min_close` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-05-01' AND '2013-05-31'` `GROUP BY name` `ORDER BY max_close DESC, min_close ASC`	`The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22.`
Finanzas e inversiones	Copo de nieve	¿Cuál es el volumen promedio de acciones negociadas en julio de 2013?	`SELECT AVG(volume) AS average_volume` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-07-01' AND '2013-07-31'`	`The average volume of stocks traded in July 2013 was 4,374,177`
Producto – Clima	API	¿Cómo es el clima ahora mismo en la ciudad de Nueva York en grados Fahrenheit?

Acerca de los autores

Navneet Tuteja es especialista en datos en Amazon Web Services. Antes de unirse a AWS, Navneet trabajó como facilitador para organizaciones que buscaban modernizar sus arquitecturas de datos e implementar soluciones integrales de inteligencia artificial y aprendizaje automático. Tiene un título en ingeniería de la Universidad Thapar, así como una maestría en estadística de la Universidad Texas A&M.

Sovik Kumar Nath es un arquitecto de soluciones de IA/ML con AWS. Tiene una amplia experiencia en el diseño de soluciones integrales de aprendizaje automático y análisis empresarial en finanzas, operaciones, marketing, atención médica, gestión de la cadena de suministro e IoT. Sovik ha publicado artículos y posee una patente en el monitoreo de modelos ML. Tiene doble maestría de la Universidad del Sur de Florida, Universidad de Friburgo, Suiza, y una licenciatura del Instituto Indio de Tecnología, Kharagpur. Fuera del trabajo, a Sovik le gusta viajar, viajar en ferry y ver películas.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
EVM Finanzas. Interfaz unificada para finanzas descentralizadas. Accede Aquí.
Grupo de medios cuánticos. IR/PR amplificado. Accede Aquí.
PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/

Sello de tiempo: Sábado, Junio 13, 2023

Sello de tiempo: 2 de mayo de 2024

Reinventar la experiencia de los datos: utilice la IA generativa y la arquitectura de datos moderna para desbloquear conocimientos | Servicios web de Amazon

Reeditado por Platón

Resumen de la solución

Requisitos previos

Conéctese a bases de datos usando SQLAlchemy

Generar plantillas de mensajes dinámicos

Secuencia de cadena 1: Detectar metadatos de origen para la consulta del usuario mediante LangChain y un LLM

Secuencia en cadena 2: recuperar respuestas de las fuentes de datos para responder a la consulta del usuario

Limpiar

Conclusión

Apéndice

Acerca de los autores

Mas de Aprendizaje automático de AWS

Amazon SageMaker Automatic Model Tuning ahora elige automáticamente las configuraciones de ajuste para mejorar la usabilidad y la rentabilidad | Servicios web de Amazon

Prácticas recomendadas para el entrenamiento de aceleración de TensorFlow 1.x en Amazon SageMaker

Utilice Amazon Lex para capturar direcciones de calles

Genere un análisis contrafáctico de la respuesta del maíz al nitrógeno con las soluciones JumpStart de Amazon SageMaker

Abode utiliza Amazon Rekognition Streaming Video Events para proporcionar notificaciones en tiempo real a sus clientes de hogares inteligentes

Los modelos y algoritmos de Amazon SageMaker JumpStart ahora están disponibles a través de la API

Amazon SageMaker Automatic Model Tuning ahora proporciona un ajuste de hiperparámetros hasta tres veces más rápido con Hyperband

Acelere el tiempo de obtención de información empresarial con la conexión directa de Amazon SageMaker Data Wrangler a Snowflake | Servicios web de Amazon

Amazon Personalize lanza nuevas recetas que admiten catálogos de artículos más grandes con menor latencia | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta