Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Intelligence artificielle générative (IA générative) les modèles ont démontré des capacités impressionnantes à générer du texte, des images et d’autres contenus de haute qualité. Cependant, ces modèles nécessitent d’énormes quantités de données d’entraînement propres et structurées pour atteindre leur plein potentiel. La plupart des données du monde réel existent dans des formats non structurés comme les PDF, qui nécessitent un prétraitement avant de pouvoir être utilisés efficacement.

Selon IDC, les données non structurées représentent aujourd'hui plus de 80 % de toutes les données d'entreprise. Cela inclut des formats tels que les e-mails, les PDF, les documents numérisés, les images, l'audio, la vidéo, etc. Bien que ces données contiennent des informations précieuses, leur nature non structurée rend difficile leur interprétation et l’apprentissage par les algorithmes d’IA. Selon un Sondage 2019 de Deloitte, seules 18 % des entreprises déclarent pouvoir tirer parti des données non structurées.

Alors que l’adoption de l’IA continue de s’accélérer, le développement de mécanismes efficaces pour digérer et apprendre à partir de données non structurées deviendra encore plus crucial à l’avenir. Cela pourrait impliquer de meilleurs outils de prétraitement, des techniques d’apprentissage semi-supervisé et des progrès dans le traitement du langage naturel. Les entreprises qui utilisent leurs données non structurées le plus efficacement bénéficieront d’avantages concurrentiels significatifs grâce à l’IA. Des données propres sont importantes pour de bonnes performances du modèle. Les textes extraits contiennent encore de grandes quantités de charabia et de texte passe-partout (par exemple, lire du HTML). Les données récupérées sur Internet contiennent souvent de nombreuses duplications. Les données des réseaux sociaux, les avis ou tout contenu généré par les utilisateurs peuvent également contenir des contenus toxiques et biaisés, et vous devrez peut-être les filtrer à l'aide de certaines étapes de prétraitement. Il peut également y avoir de nombreux contenus de mauvaise qualité ou des textes générés par des robots, qui peuvent être filtrés à l'aide des métadonnées associées (par exemple, filtrer les réponses du service client qui ont reçu de faibles notes de la part des clients).

La préparation des données est importante à plusieurs étapes de la génération augmentée de récupération (CHIFFON) des modèles. Les documents sources de connaissances nécessitent un prétraitement, comme le nettoyage du texte et la génération d'intégrations sémantiques, afin qu'ils puissent être indexés et récupérés efficacement. La requête en langage naturel de l'utilisateur nécessite également un prétraitement, afin qu'elle puisse être codée dans un vecteur et comparée aux intégrations de documents. Après avoir récupéré les contextes pertinents, ils peuvent nécessiter un prétraitement supplémentaire, comme la troncature, avant d'être concaténés à la requête de l'utilisateur afin de créer l'invite finale pour le modèle de base. Toile Amazon SageMaker prend désormais en charge des fonctionnalités complètes de préparation de données optimisées par Gestionnaire de données Amazon SageMaker. Grâce à cette intégration, SageMaker Canvas offre aux clients un espace de travail sans code de bout en bout pour préparer les données, créer et utiliser des modèles de ML et de fondations afin d'accélérer le passage des données aux informations commerciales. Vous pouvez désormais facilement découvrir et regrouper des données provenant de plus de 50 sources de données, et explorer et préparer des données à l'aide de plus de 300 analyses et transformations intégrées dans l'interface visuelle de SageMaker Canvas.

Vue d'ensemble de la solution

Dans cet article, nous travaillons avec un ensemble de données de documentation PDF :Socle amazonien mode d'emploi. De plus, nous montrons comment prétraiter un ensemble de données pour RAG. Plus précisément, nous nettoyons les données et créons des artefacts RAG pour répondre aux questions sur le contenu de l'ensemble de données. Considérez le problème d'apprentissage automatique (ML) suivant : l'utilisateur pose une question de modèle de langage étendu (LLM) : « Comment filtrer et rechercher des modèles dans Amazon Bedrock ? » LLM n'a pas vu la documentation pendant la phase de formation ou de mise au point, il ne serait donc pas en mesure de répondre à la question et aurait très probablement des hallucinations. Notre objectif avec cet article est de trouver un morceau de texte pertinent à partir du PDF (c'est-à-dire RAG) et de le joindre à l'invite, permettant ainsi à LLM de répondre aux questions spécifiques à ce document.

Ci-dessous, nous montrons comment vous pouvez effectuer toutes ces principales étapes de prétraitement à partir de Toile Amazon SageMaker (alimenté par Gestionnaire de données Amazon SageMaker):

Extraire du texte d'un document PDF (propulsé par Texttract)
Supprimer les informations sensibles (propulsé par Comprehend)
Découpez le texte en morceaux.
Créez des intégrations pour chaque pièce (propulsées par Bedrock).
Téléchargez l'intégration dans une base de données vectorielle (propulsée par OpenSearch)

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pré-requis

Pour cette procédure pas à pas, vous devez disposer des éléments suivants :

Notes: Créez des domaines OpenSearch Service en suivant les instructions ici. Pour plus de simplicité, choisissons l'option avec un nom d'utilisateur et un mot de passe principaux pour un contrôle d'accès plus précis. Une fois le domaine créé, créez un index vectoriel avec les mappages suivants, et la dimension vectorielle 1536 s'aligne sur les intégrations Amazon Titan :

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Procédure pas à pas

Créer un flux de données

Dans cette section, nous expliquons comment créer un flux de données pour extraire le texte et les métadonnées des PDF, nettoyer et traiter les données, générer des intégrations à l'aide d'Amazon Bedrock et indexer les données dans Amazon OpenSearch.

Lancer SageMaker Canvas

Pour lancer SageMaker Canvas, procédez comme suit :

Sur l'Amazonie Console Sage Maker, choisissez Domaines dans le volet de navigation.
Choisissez votre domaine.
Dans le menu de lancement, choisissez Toile.

Créer un flux de données

Effectuez les étapes suivantes pour créer un flux de données dans SageMaker Canvas :

Sur la page d'accueil de SageMaker Canvas, choisissez Traqueur de données.
Selectionnez Création sur le côté droit de la page, puis donnez un nom de flux de données et sélectionnez Création.
Cela atterrira sur une page de flux de données.
Selectionnez Importer des dates, sélectionnez les données tabulaires.

Importons maintenant les données du compartiment Amazon S3 :

Selectionnez Importer des dates et sélectionnez Tabulaire dans la liste déroulante.
La source de données et sélectionnez Amazon S3 dans la liste déroulante.
Accédez au fichier de métadonnées avec les emplacements des fichiers PDF et choisissez le fichier.
Le fichier de métadonnées est maintenant chargé dans le flux de données de préparation des données et nous pouvons procéder à l'ajout des étapes suivantes pour transformer les données et l'index en Amazon. Opensearch. Dans ce cas, le fichier contient les métadonnées suivantes, avec l'emplacement de chaque fichier dans le répertoire Amazon S3.

Pour ajouter une nouvelle transformation, procédez comme suit :

Choisissez le signe plus et choisissez Ajouter une transformation.
Selectionnez Ajouter une étape et choisissez Transformation personnalisée.
Vous pouvez créer une transformation personnalisée à l'aide de Pandas, PySpark, des fonctions définies par l'utilisateur Python et de SQL PySpark. Choisir Python (PySpark) pour ce cas d'utilisation.
Entrez un nom pour l'étape. À partir des exemples d'extraits de code, parcourez et sélectionnez extraire le texte d'un pdf. Apportez les modifications nécessaires à l'extrait de code et sélectionnez Ajouter.
Ajoutons une étape pour supprimer les données d'informations personnelles identifiables (PII) des données extraites en exploitant Amazon comprendre. Choisir Ajouter une étape et choisissez Transformation personnalisée. Et sélectionnez Python (PySpark).

À partir des exemples d'extraits de code, parcourez et sélectionnez masque PII. Apportez les modifications nécessaires à l'extrait de code et sélectionnez Ajouter.

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'étape suivante consiste à décomposer le contenu du texte. Choisir Ajouter une étape et choisissez Transformation personnalisée. Et sélectionnez Python (PySpark).

À partir des exemples d'extraits de code, parcourez et sélectionnez Texte en morceaux. Apportez les modifications nécessaires à l'extrait de code et sélectionnez Ajouter.

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Convertissons le contenu du texte en intégrations vectorielles à l'aide du Socle amazonien Modèle d'intégration Titan. Choisir Ajouter une étape et choisissez Transformation personnalisée. Et sélectionnez Python (PySpark).

À partir des exemples d'extraits de code, parcourez et sélectionnez Générez du texte intégré avec Bedrock. Apportez les modifications nécessaires à l'extrait de code et sélectionnez Ajouter.

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous disposons désormais d'intégrations vectorielles disponibles pour le contenu du fichier PDF. Allons-y et indexons les données dans Amazon OpenSearch. Choisir Ajouter une étape et choisissez Transformation personnalisée. Et sélectionnez Python (PySpark). Vous êtes libre de réécrire le code suivant pour utiliser votre base de données vectorielles préférée. Pour plus de simplicité, nous utilisons le nom d'utilisateur et le mot de passe principaux pour accéder aux API OpenSearch. Pour les charges de travail de production, sélectionnez l'option en fonction des politiques de votre organisation.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Finalement, le flux de données créé serait le suivant :

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Avec ce flux de données, les données du fichier PDF ont été lues et indexées avec des intégrations vectorielles dans Amazon OpenSearch. Il est maintenant temps pour nous de créer un fichier avec des requêtes pour interroger les données indexées et les enregistrer à l'emplacement Amazon S3. Nous dirigerons notre flux de données de recherche vers le fichier et générerons un fichier avec les résultats correspondants dans un nouveau fichier dans un emplacement Amazon S3.

Préparation d'une invite

Après avoir créé une base de connaissances à partir de notre PDF, nous pouvons la tester en recherchant quelques exemples de requêtes dans la base de connaissances. Nous traiterons chaque requête comme suit :

Générer l'intégration pour la requête (propulsé par Amazon Bedrock)
Base de données vectorielles de requête pour le contexte du voisin le plus proche (optimisé par Amazon OpenSearch)
Combinez la requête et le contexte dans l'invite.
Interrogez LLM avec une invite (propulsé par Amazon Bedrock)
Sur la page d'accueil de SageMaker Canvas, choisissez Préparation des données.
Selectionnez Création sur le côté droit de la page, puis donnez un nom de flux de données et sélectionnez Création.

Chargeons maintenant les questions de l'utilisateur, puis créons une invite en combinant la question et les documents similaires. Cette invite est fournie au LLM pour générer une réponse à la question de l'utilisateur.

Chargons un fichier csv avec les questions des utilisateurs. Choisir Importer des données et sélectionnez Tabulaire dans la liste déroulante.
La source de données, et sélectionnez Amazon S3 dans la liste déroulante. Vous pouvez également choisir de télécharger un fichier contenant les requêtes des utilisateurs.
Ajoutons une transformation personnalisée pour convertir les données en intégrations vectorielles, suivies d'une recherche des intégrations associées à partir d'Amazon OpenSearch, avant d'envoyer une invite à Amazon Bedrock avec la requête et le contexte de la base de connaissances. Pour générer des intégrations pour la requête, vous pouvez utiliser le même exemple d'extrait de code Générer du texte intégré avec Bedrock mentionné à l’étape 7 ci-dessus.

Invoquons l'API Amazon OpenSearch pour rechercher dans les documents pertinents les intégrations vectorielles générées. Ajoutez une transformation personnalisée avec Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Ajoutons une transformation personnalisée pour appeler l'API Amazon Bedrock pour la réponse aux requêtes, en transmettant les documents de la base de connaissances Amazon OpenSearch. À partir des exemples d'extraits de code, parcourez et sélectionnez Interrogez Bedrock avec le contexte. Apportez les modifications nécessaires à l'extrait de code et sélectionnez Ajouter.

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

En résumé, le flux de données de réponse aux questions basé sur RAG est le suivant :

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Les praticiens du ML passent beaucoup de temps à créer du code d'ingénierie de fonctionnalités, à l'appliquer à leurs ensembles de données initiaux, à former des modèles sur les ensembles de données créés et à évaluer la précision du modèle. Compte tenu de la nature expérimentale de ce travail, même le plus petit projet donne lieu à de multiples itérations. Le même code d’ingénierie de fonctionnalités est souvent exécuté encore et encore, ce qui fait perdre du temps et des ressources de calcul à répéter les mêmes opérations. Dans les grandes organisations, cela peut entraîner une perte de productivité encore plus importante, car différentes équipes exécutent souvent des tâches identiques ou même écrivent du code d'ingénierie de fonctionnalités en double parce qu'elles n'ont aucune connaissance des travaux antérieurs. Pour éviter le retraitement des fonctionnalités, nous exporterons notre flux de données vers un Amazon Pipeline SageMaker. Choisissons le Bouton + à droite de la requête. Sélectionnez Exporter le flux de données et choisissez Exécuter le pipeline SageMaker (via le bloc-notes Jupyter).

Simplifiez la préparation des données pour l'IA générative avec Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nettoyer

Pour éviter d'encourir des frais futurs, supprimez ou fermez les ressources que vous avez créées en suivant ce message. Faire référence à Déconnexion d'Amazon SageMaker Canvas pour plus de détails.

Conclusion

Dans cet article, nous vous avons montré comment exploiter les capacités de bout en bout d'Amazon SageMaker Canvas en assumant le rôle d'un professionnel des données préparant les données pour un LLM. La préparation interactive des données a permis de nettoyer, transformer et analyser rapidement les données pour concevoir des fonctionnalités informatives. En supprimant les complexités de codage, SageMaker Canvas a permis une itération rapide pour créer un ensemble de données de formation de haute qualité. Ce flux de travail accéléré a conduit directement à la création, à la formation et au déploiement d'un modèle d'apprentissage automatique performant pour un impact commercial. Grâce à sa préparation complète des données et à son expérience unifiée, des données aux informations, SageMaker Canvas permet aux utilisateurs d'améliorer leurs résultats en matière de ML.

Nous vous encourageons à en savoir plus en explorant Gestionnaire de données Amazon SageMaker, Toile Amazon SageMaker, Titan d'Amazonie modèles, Socle amazonienet Amazon Service OpenSearch pour créer une solution en utilisant l'exemple d'implémentation fourni dans cet article et un ensemble de données pertinent pour votre entreprise. Si vous avez des questions ou des suggestions, veuillez laisser un commentaire.

À propos des auteurs

Ajjay Govindaram est architecte de solutions senior chez AWS. Il travaille avec des clients stratégiques qui utilisent l'IA/ML pour résoudre des problèmes commerciaux complexes. Son expérience consiste à fournir une direction technique ainsi qu'une assistance à la conception pour les déploiements d'applications AI/ML à petite et grande échelle. Ses connaissances vont de l'architecture d'application au big data, à l'analyse et à l'apprentissage automatique. Il aime écouter de la musique tout en se reposant, profiter du plein air et passer du temps avec ses proches.

Nikita Ivkine est un scientifique appliqué senior chez Amazon SageMaker Data Wrangler avec des intérêts dans l'apprentissage automatique et les algorithmes de nettoyage des données.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/

Horodatage: 27 novembre 2023

Horodatage: 1 février 2023

AWS Deep Learning Challenge voit une utilisation innovante et percutante des instances Amazon EC2 DL1

Cluster source:

Apprentissage automatique AWS

Nœud source: 1637640

Horodatage: 24 août 2022

Republié par Platon

Améliorez la formation et l'inférence de l'IA pour la découverte de médicaments via Amazon EKS et Karpenter | Services Web Amazon

Modèles de transformateur Host Hugging Face à l'aide de l'inférence sans serveur Amazon SageMaker

Améliorez l'efficacité de la révision et de l'approbation du code grâce à l'IA générative à l'aide d'Amazon Bedrock | Services Web Amazon

Augmentez les transactions frauduleuses à l'aide de données synthétiques dans Amazon SageMaker

Extraire des informations de SAP ERP avec des solutions ML sans code avec Amazon AppFlow et Amazon SageMaker Canvas

Utiliser Amazon SageMaker Data Wrangler dans Amazon SageMaker Studio avec une configuration de cycle de vie par défaut

AWS Deep Learning Challenge voit une utilisation innovante et percutante des instances Amazon EC2 DL1

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte