Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Inteligencia artificial generativa (IA generativa) los modelos han demostrado capacidades impresionantes para generar texto, imágenes y otros contenidos de alta calidad. Sin embargo, estos modelos requieren cantidades masivas de datos de entrenamiento limpios y estructurados para alcanzar su máximo potencial. La mayoría de los datos del mundo real existen en formatos no estructurados, como archivos PDF, que requieren un procesamiento previo antes de poder utilizarlos de forma eficaz.

Según la IDC, los datos no estructurados representan más del 80% de todos los datos comerciales en la actualidad. Esto incluye formatos como correos electrónicos, PDF, documentos escaneados, imágenes, audio, video y más. Si bien estos datos contienen información valiosa, su naturaleza no estructurada dificulta que los algoritmos de IA los interpreten y aprendan de ellos. De acuerdo a un Encuesta 2019 de Deloitte, sólo el 18% de las empresas informaron que podían aprovechar los datos no estructurados.

A medida que la adopción de la IA continúa acelerándose, el desarrollo de mecanismos eficientes para digerir y aprender de datos no estructurados se vuelve aún más crítico en el futuro. Esto podría implicar mejores herramientas de preprocesamiento, técnicas de aprendizaje semisupervisado y avances en el procesamiento del lenguaje natural. Las empresas que utilicen sus datos no estructurados de forma más eficaz obtendrán importantes ventajas competitivas de la IA. Los datos limpios son importantes para un buen rendimiento del modelo. Los textos extraídos todavía contienen grandes cantidades de galimatías y texto repetitivo (por ejemplo, leer HTML). Los datos extraídos de Internet a menudo contienen muchas duplicaciones. Los datos de las redes sociales, reseñas o cualquier contenido generado por el usuario también pueden contener contenidos tóxicos y sesgados, y es posible que deba filtrarlos mediante algunos pasos de preprocesamiento. También podría haber una gran cantidad de contenidos de baja calidad o textos generados por robots, que se pueden filtrar utilizando metadatos adjuntos (por ejemplo, filtrar las respuestas de servicio al cliente que recibieron calificaciones bajas de los clientes).

La preparación de datos es importante en múltiples etapas de la generación aumentada de recuperación (RAG) modelos. Los documentos fuente de conocimiento necesitan un procesamiento previo, como limpiar el texto y generar incrustaciones semánticas, para que puedan indexarse y recuperarse de manera eficiente. La consulta en lenguaje natural del usuario también requiere preprocesamiento, por lo que puede codificarse en un vector y compararse con incrustaciones de documentos. Después de recuperar los contextos relevantes, es posible que necesiten un procesamiento previo adicional, como el truncamiento, antes de concatenarse con la consulta del usuario para crear el mensaje final para el modelo básico. Lienzo de Amazon SageMaker ahora admite capacidades integrales de preparación de datos impulsadas por Wrangler de datos de Amazon SageMaker. Con esta integración, SageMaker Canvas ofrece a los clientes un espacio de trabajo sin código de extremo a extremo para preparar datos, crear y utilizar ML y modelos básicos para acelerar el tiempo desde los datos hasta la información empresarial. Ahora puede descubrir y agregar fácilmente datos de más de 50 fuentes de datos, y explorar y preparar datos utilizando más de 300 análisis y transformaciones integrados en la interfaz visual de SageMaker Canvas.

Resumen de la solución

En esta publicación, trabajamos con un conjunto de datos de documentación en PDF:lecho rocoso del amazonas guía del usuario. Además, mostramos cómo preprocesar un conjunto de datos para RAG. Específicamente, limpiamos los datos y creamos artefactos RAG para responder las preguntas sobre el contenido del conjunto de datos. Considere el siguiente problema de aprendizaje automático (ML): el usuario hace una pregunta sobre un modelo de lenguaje grande (LLM): "¿Cómo filtrar y buscar modelos en Amazon Bedrock?". LLM no ha visto la documentación durante la etapa de entrenamiento o ajuste, por lo que no podría responder la pregunta y lo más probable es que tenga alucinaciones. Nuestro objetivo con esta publicación es encontrar un fragmento de texto relevante del PDF (es decir, RAG) y adjuntarlo al mensaje, permitiendo así que LLM responda preguntas específicas de este documento.

A continuación, le mostramos cómo puede realizar todos estos pasos principales de preprocesamiento desde Lienzo de Amazon SageMaker (alimentado por Wrangler de datos de Amazon SageMaker):

Extracción de texto de un documento PDF (con tecnología de Textract)
Eliminar información confidencial (con tecnología de Comprehend)
Divide el texto en pedazos.
Cree incrustaciones para cada pieza (con tecnología de Bedrock).
Cargar incrustaciones en una base de datos vectorial (con tecnología de OpenSearch)

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Requisitos previos

Para este tutorial, debe tener lo siguiente:

Note: Cree dominios del servicio OpenSearch siguiendo las instrucciones esta página. Para simplificar, elijamos la opción con un nombre de usuario y contraseña maestros para un control de acceso detallado. Una vez creado el dominio, cree un índice vectorial con las siguientes asignaciones y la dimensión vectorial 1536 se alineará con las incrustaciones de Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Tutorial

Construir un flujo de datos

En esta sección, cubrimos cómo podemos crear un flujo de datos para extraer texto y metadatos de archivos PDF, limpiar y procesar los datos, generar incrustaciones utilizando Amazon Bedrock e indexar los datos en Amazon OpenSearch.

Inicie el lienzo de SageMaker

Para iniciar SageMaker Canvas, complete los siguientes pasos:

En el Amazonas Consola de SageMaker, escoger dominios en el panel de navegación.
Elige tu dominio.
En el menú de inicio, elija Canvas.

Crear un flujo de datos

Complete los siguientes pasos para crear un flujo de datos en SageMaker Canvas:

En la página de inicio de SageMaker Canvas, elija Wrangler de datos.
Elige Crear en el lado derecho de la página, luego proporcione un nombre de flujo de datos y seleccione Crear.
Esto aterrizará en una página de flujo de datos.
Elige Importar fechas, seleccione datos tabulares.

Ahora importemos los datos del depósito de Amazon S3:

Elige Importar fechas y seleccionar Tabular de la lista desplegable.
Fuente de datos y seleccionar Amazon S3 de la lista desplegable.
Navegue hasta el archivo de metadatos con ubicaciones de archivos PDF y elija el archivo.
Ahora el archivo de metadatos está cargado en el flujo de datos de preparación de datos y podemos proceder a agregar los siguientes pasos para transformar los datos y indexarlos en Amazon. Opensearch. En este caso, el archivo tiene los siguientes metadatos, con la ubicación de cada archivo en el directorio de Amazon S3.

Para agregar una nueva transformación, complete los siguientes pasos:

Elija el signo más y elija Agregar transformación.
Elige Añadir paso y elige Transformación personalizada.
Puede crear una transformación personalizada utilizando Pandas, PySpark, funciones definidas por el usuario de Python y SQL PySpark. Elegir Pitón (PySpark) para este caso de uso.
Introduzca un nombre para el paso. Desde los fragmentos de código de ejemplo, busque y seleccione extraer texto de pdf. Realice los cambios necesarios en el fragmento de código y seleccione Añada.
Agreguemos un paso para redactar datos de información de identificación personal (PII) de los datos extraídos aprovechando Amazon Comprehend. Escoger Añadir paso y elige Transformación personalizada. Y seleccione Python (PySpark).

Desde los fragmentos de código de ejemplo, busque y seleccione enmascarar IIP. Realice los cambios necesarios en el fragmento de código y seleccione Agregar.

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

El siguiente paso es fragmentar el contenido del texto. Elegir Añadir paso y elige Transformación personalizada. Y seleccione Python (PySpark).

Desde los fragmentos de código de ejemplo, busque y seleccione Texto fragmentado. Realice los cambios necesarios en el fragmento de código y seleccione Agregar.

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Convirtamos el contenido del texto en incrustaciones vectoriales usando el lecho rocoso del amazonas Modelo Titan Embeddings. Elegir Añadir paso y elige Transformación personalizada. Y seleccione Python (PySpark).

Desde los fragmentos de código de ejemplo, busque y seleccione Genera incrustación de texto con Bedrock. Realice los cambios necesarios en el fragmento de código y seleccione Agregar.

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Ahora tenemos incrustaciones de vectores disponibles para el contenido del archivo PDF. Sigamos adelante e indexemos los datos en Amazon OpenSearch. Elegir Añadir paso y elige Transformación personalizada. Y seleccione Python (PySpark). Eres libre de reescribir el siguiente código para utilizar tu base de datos vectorial preferida. Para simplificar, utilizamos el nombre de usuario y la contraseña maestros para acceder a las API de OpenSearch; para cargas de trabajo de producción, seleccione la opción de acuerdo con las políticas de su organización.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Finalmente el flujo de datos creado sería el siguiente:

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Con este flujo de datos, los datos del archivo PDF se leyeron e indexaron con incrustaciones de vectores en Amazon OpenSearch. Ahora es el momento de que creemos un archivo con consultas para consultar los datos indexados y guardarlos en la ubicación de Amazon S3. Apuntaremos nuestro flujo de datos de búsqueda al archivo y generaremos un archivo con los resultados correspondientes en un nuevo archivo en una ubicación de Amazon S3.

Preparando un mensaje

Después de crear una base de conocimientos a partir de nuestro PDF, podemos probarla buscando en la base de conocimientos algunas consultas de muestra. Procesaremos cada consulta de la siguiente manera:

Generar incrustación para la consulta (con tecnología de Amazon Bedrock)
Consultar la base de datos de vectores para el contexto del vecino más cercano (con tecnología de Amazon OpenSearch)
Combine la consulta y el contexto en el mensaje.
Consulta LLM con un mensaje (con tecnología de Amazon Bedrock)
En la página de inicio de SageMaker Canvas, elija Preparación de datos.
Elige Crear en el lado derecho de la página, luego proporcione un nombre de flujo de datos y seleccione Crear.

Ahora carguemos las preguntas de los usuarios y luego creemos un mensaje combinando la pregunta y los documentos similares. Este mensaje se proporciona al LLM para generar una respuesta a la pregunta del usuario.

Carguemos un archivo csv con preguntas de los usuarios. Elegir Datos de importacion y seleccionar Tabular de la lista desplegable.
Fuente de datos, y seleccionar Amazon S3 de la lista desplegable. Alternativamente, puede optar por cargar un archivo con consultas de los usuarios.
Agreguemos una transformación personalizada para convertir los datos en incrustaciones vectoriales, seguida de una búsqueda de incrustaciones relacionadas desde Amazon OpenSearch, antes de enviar un mensaje a Amazon Bedrock con la consulta y el contexto de la base de conocimientos. Para generar incrustaciones para la consulta, puede utilizar el mismo fragmento de código de ejemplo. Generar incrustación de texto con Bedrock mencionado en el Paso #7 arriba.

Invoquemos la API de Amazon OpenSearch para buscar documentos relevantes para las incrustaciones de vectores generadas. Agregue una transformación personalizada con Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Agreguemos una transformación personalizada para llamar a la API de Amazon Bedrock para responder a la consulta, pasando los documentos de la base de conocimientos de Amazon OpenSearch. Desde los fragmentos de código de ejemplo, busque y seleccione Consulta Bedrock con contexto. Realice los cambios necesarios en el fragmento de código y seleccione Agregar.

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

En resumen, el flujo de datos de respuesta a preguntas basado en RAG es el siguiente:

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Los profesionales del aprendizaje automático dedican mucho tiempo a elaborar código de ingeniería de características, aplicándolo a sus conjuntos de datos iniciales, entrenando modelos en los conjuntos de datos diseñados y evaluando la precisión del modelo. Dada la naturaleza experimental de este trabajo, incluso el proyecto más pequeño da lugar a múltiples iteraciones. El mismo código de ingeniería de características a menudo se ejecuta una y otra vez, lo que desperdicia tiempo y recursos informáticos al repetir las mismas operaciones. En organizaciones grandes, esto puede causar una pérdida de productividad aún mayor porque diferentes equipos a menudo ejecutan trabajos idénticos o incluso escriben código de ingeniería de funciones duplicado porque no tienen conocimiento del trabajo anterior. Para evitar el reprocesamiento de funciones, exportaremos nuestro flujo de datos a Amazon Canalización de SageMaker. Vamos a seleccionar el Botón + a la derecha de la consulta. Seleccione exportar flujo de datos y elija Ejecutar canalización de SageMaker (a través del cuaderno Jupyter).

Simplifique la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Limpiar

Para evitar incurrir en cargos futuros, elimine o cierre los recursos que creó mientras seguía esta publicación. Referirse a Cerrar sesión en Amazon SageMaker Canvas para más información.

Conclusión

En esta publicación, le mostramos cómo funcionan las capacidades de un extremo a otro de Amazon SageMaker Canvas al asumir el rol de un profesional de datos que prepara datos para un LLM. La preparación interactiva de datos permitió limpiar, transformar y analizar rápidamente los datos para diseñar características informativas. Al eliminar las complejidades de la codificación, SageMaker Canvas permitió una iteración rápida para crear un conjunto de datos de entrenamiento de alta calidad. Este flujo de trabajo acelerado condujo directamente a la creación, capacitación e implementación de un modelo de aprendizaje automático de alto rendimiento para lograr un impacto empresarial. Con su preparación integral de datos y su experiencia unificada desde datos hasta conocimientos, SageMaker Canvas permite a los usuarios mejorar sus resultados de aprendizaje automático.

Le animamos a aprender más explorando Wrangler de datos de Amazon SageMaker, Lienzo de Amazon SageMaker, Titán Amazonas modelos, lecho rocoso del amazonasy Amazon Servicio de búsqueda abierta para crear una solución utilizando la implementación de muestra proporcionada en esta publicación y un conjunto de datos relevante para su negocio. Si tiene preguntas o sugerencias, deje un comentario.

Acerca de los autores

Ajjay Govindaram es arquitecto sénior de soluciones en AWS. Trabaja con clientes estratégicos que usan AI/ML para resolver problemas comerciales complejos. Su experiencia radica en brindar dirección técnica y asistencia en el diseño para implementaciones de aplicaciones de IA/ML de modestas a grandes escalas. Su conocimiento abarca desde arquitectura de aplicaciones hasta big data, análisis y aprendizaje automático. Le gusta escuchar música mientras descansa, experimentar el aire libre y pasar tiempo con sus seres queridos.

Nikita Ivkina es un científico aplicado sénior en Amazon SageMaker Data Wrangler con intereses en el aprendizaje automático y los algoritmos de limpieza de datos.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/

Sello de tiempo: 27 de noviembre.

Mas de Aprendizaje automático de AWS

Promueva el descubrimiento y la reutilización de características en toda su organización utilizando Amazon SageMaker Feature Store y su capacidad de metadatos a nivel de características PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Promueva el descubrimiento y la reutilización de funciones en toda su organización utilizando Amazon SageMaker Feature Store y su capacidad de metadatos a nivel de funciones

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1606966

Sello de tiempo: 3 de Agosto, 2022

Proteja sus índices de Amazon Kendra con la ACL mediante una clave secreta compartida de JWT

Aprendizaje automático de AWS

Nodo de origen: 1819917

Sello de tiempo: 29 de marzo, 2023

Reeditado por Platón

Promueva el descubrimiento y la reutilización de funciones en toda su organización utilizando Amazon SageMaker Feature Store y su capacidad de metadatos a nivel de funciones

Ajuste e implemente un modelo de resúmenes utilizando los contenedores Hugging Face de Amazon SageMaker con su propia secuencia de comandos.

Utilice Amazon Lex para capturar direcciones de calles

Detección de anomalías con Amazon SageMaker Edge Manager utilizando AWS IoT Greengrass V2

Resuelva problemas comerciales de principio a fin mediante el aprendizaje automático en las soluciones JumpStart de Amazon SageMaker

Busque respuestas con precisión utilizando Amazon Kendra S3 Connector con compatibilidad con VPC

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta