Przeprowadzaj transformacje wsadowe za pomocą dużych modeli językowych generowania tekstu i tekstu Amazon SageMaker Jumpstart | Usługi sieciowe Amazona

Przeprowadzaj transformacje wsadowe za pomocą dużych modeli językowych generowania tekstu i tekstu Amazon SageMaker Jumpstart | Usługi sieciowe Amazona

Dzisiaj z przyjemnością ogłaszamy, że możesz teraz wykonywać przekształcenia wsadowe za pomocą Amazon SageMaker JumpStart duże modele językowe (LLM) do generowania Text2Text. Przekształcenia wsadowe są przydatne w sytuacjach, w których odpowiedzi nie muszą być udzielane w czasie rzeczywistym, dlatego można wnioskować wsadowo dla dużych zestawów danych zbiorczo. W przypadku transformacji wsadowej uruchamiane jest zadanie wsadowe, które pobiera wsadowe dane wejściowe jako zestaw danych i wstępnie przeszkolony model oraz generuje prognozy dla każdego punktu danych w zestawie danych. Transformacja wsadowa jest opłacalna, ponieważ w przeciwieństwie do hostowanych w czasie rzeczywistym punktów końcowych, które mają stały sprzęt, klastry transformacji wsadowej są usuwane po zakończeniu zadania, dlatego sprzęt jest używany tylko na czas trwania zadania wsadowego.

W niektórych przypadkach żądania wnioskowania w czasie rzeczywistym można grupować w małe partie w celu przetwarzania wsadowego w celu tworzenia odpowiedzi w czasie rzeczywistym lub prawie w czasie rzeczywistym. Na przykład, jeśli potrzebujesz przetwarzać ciągły strumień danych z niskimi opóźnieniami i wysoką przepustowością, wywołanie punktu końcowego w czasie rzeczywistym dla każdego żądania osobno wymagałoby więcej zasobów i może zająć więcej czasu, aby przetworzyć wszystkie żądania, ponieważ przetwarzanie odbywa się szeregowo . Lepszym rozwiązaniem byłoby pogrupowanie niektórych żądań i wywołanie punktu końcowego w czasie rzeczywistym w trybie wnioskowania wsadowego, który przetwarza żądania w jednym przejściu modelu do przodu i zwraca zbiorczą odpowiedź na żądanie w czasie rzeczywistym lub prawie rzeczywistym . Opóźnienie odpowiedzi będzie zależeć od liczby zgrupowanych żądań i rozmiaru pamięci instancji, dlatego możesz dostosować rozmiar partii do wymagań biznesowych dotyczących opóźnień i przepustowości. Nazywamy to wnioskowanie wsadowe w czasie rzeczywistym ponieważ łączy w sobie koncepcję przetwarzania wsadowego, a jednocześnie zapewnia odpowiedzi w czasie rzeczywistym. Dzięki wnioskowaniu wsadowemu w czasie rzeczywistym można osiągnąć równowagę między niskimi opóźnieniami a wysoką przepustowością, co pozwala na terminowe i wydajne przetwarzanie dużych ilości danych.

Szybka transformacja wsadowa dla modeli Text2Text Generation umożliwia przekazywanie hiperparametrów wsadowych przez zmienne środowiskowe, które jeszcze bardziej zwiększają przepustowość i minimalizują opóźnienia.

JumpStart zapewnia wstępnie wytrenowane modele typu open source dla szerokiej gamy typów problemów, które pomogą Ci rozpocząć pracę z uczeniem maszynowym (ML). Te modele można stopniowo trenować i dostrajać przed wdrożeniem. JumpStart zapewnia również szablony rozwiązań, które konfigurują infrastrukturę dla typowych przypadków użycia, oraz wykonywalne przykładowe notatniki dla ML z Amazon Sage Maker. Możesz uzyskać dostęp do wstępnie wytrenowanych modeli, szablonów rozwiązań i przykładów za pośrednictwem strony docelowej JumpStart w Studio Amazon SageMaker. Możesz także uzyskać dostęp do modeli JumpStart za pomocą SageMaker Python SDK.

W tym poście pokazujemy, jak korzystać z najnowocześniejszych wstępnie przeszkolonych text2text Modele FLAN T5 od Hugging Face do przekształcania wsadowego i wnioskowania wsadowego w czasie rzeczywistym.

Omówienie rozwiązania

Notatnik przedstawiający transformację wsadową wstępnie przeszkolonych modeli Text2Text FLAN T5 z Przytulanie Twarzy w dostępnych poniżej Repozytorium GitHub. Ten notatnik wykorzystuje dane z Hugging Face cnn_dailymail zestaw danych dla zadania podsumowania tekstu przy użyciu SageMaker SDK.

Poniżej przedstawiono kluczowe kroki wdrażania transformacji wsadowej i wnioskowania wsadowego w czasie rzeczywistym:

  1. Skonfiguruj wymagania wstępne.
  2. Wybierz wstępnie przeszkolony model.
  3. Pobierz artefakty dla modelu.
  4. Określ hiperparametry zadania transformacji wsadowej.
  5. Przygotuj dane do przekształcenia wsadowego.
  6. Uruchom zadanie transformacji wsadowej.
  7. Oceń podsumowanie za pomocą a CZERWONA (Podwójne studium zorientowane na przypomnienie dla oceny Gisting).
  8. Wykonuj wnioskowanie wsadowe w czasie rzeczywistym.

Skonfiguruj wymagania wstępne

Przed uruchomieniem notebooka należy wykonać kilka początkowych kroków konfiguracyjnych. Skonfigurujmy rolę wykonawczą SageMaker, aby miała uprawnienia do uruchamiania usług AWS w Twoim imieniu:

sagemaker_session = Session()
aws_role = sagemaker_session.get_caller_identity_arn()
aws_region = boto3.Session().region_name
sess = sagemaker.Session()

Wybierz wstępnie przeszkolony model

Używamy modelu huggingface-text2text-flan-t5-large jako modelu domyślnego. Opcjonalnie możesz pobrać listę dostępnych modeli Text2Text na JumpStart i wybrać preferowany model. Ta metoda zapewnia prosty sposób wybierania różnych identyfikatorów modeli przy użyciu tego samego notebooka. Do celów demonstracyjnych używamy modelu huggingface-text2text-flan-t5-large:

model_id, model_version, = ( "huggingface-text2text-flan-t5-large", "*",
)

Pobierz artefakty dla modelu

Dzięki SageMaker możemy przeprowadzać wnioskowanie na podstawie wstępnie wytrenowanego modelu, nawet bez uprzedniego dostrajania go na nowym zbiorze danych. Zaczynamy od odzyskania deploy_image_uri, deploy_source_uri, model_uri dla wstępnie wytrenowanego modelu:

inference_instance_type = "ml.p3.2xlarge" # Retrieve the inference docker container uri. This is the base HuggingFace container image for the default model above.
deploy_image_uri = image_uris.retrieve(
region=None,
framework=None, # automatically inferred from model_id
image_scope="inference",
model_id=model_id,
model_version=model_version,
instance_type=inference_instance_type,
) # Retrieve the model uri.
model_uri = model_uris.retrieve(
model_id=model_id, model_version=model_version, model_scope="inference"
) #Create the SageMaker model instance
model = Model(
image_uri=deploy_image_uri,
model_data=model_uri,
role=aws_role,
predictor_cls=Predictor)

Określ hiperparametry zadania transformacji wsadowej

Możesz przekazać dowolny podzbiór hiperparametrów jako zmienne środowiskowe do zadania transformacji wsadowej. Te hiperparametry można również przekazać w ładunku JSON. Jeśli jednak ustawiasz zmienne środowiskowe dla hiperparametrów, jak pokazano w poniższym kodzie, zaawansowane hiperparametry z poszczególnych przykładów w ładunku wierszy JSON nie będą używane. Jeśli chcesz użyć hiperparametrów z ładunku, możesz chcieć ustawić hyper_params_dict zamiast tego parametr jako null.

#Specify the Batch Job Hyper Params Here, If you want to treate each example hyperparameters different please pass hyper_params_dict as None
hyper_params = {"batch_size":4, "max_length":50, "top_k": 50, "top_p": 0.95, "do_sample": True}
hyper_params_dict = {"HYPER_PARAMS":str(hyper_params)}

Przygotuj dane do przekształcenia wsadowego

Teraz jesteśmy gotowi do załadowania cnn_dailymail zestaw danych z Hugging Face:

cnn_test = load_dataset('cnn_dailymail','3.0.0',split='test')

Przeglądamy każdy wpis danych i tworzymy dane wejściowe w wymaganym formacie. Tworzymy articles.jsonl plik jako plik danych testowych zawierający artykuły, które należy podsumować jako ładunek wejściowy. Podczas tworzenia tego pliku dołączamy monit "Briefly summarize this text:" do każdego wiersza wejściowego testu. Jeśli chcesz mieć różne hiperparametry dla każdego wejścia testowego, możesz dołączyć te hiperparametry w ramach tworzenia zestawu danych.

Tworzymy highlights.jsonl jako podstawowy plik prawdy zawierający najciekawsze fragmenty każdego artykułu przechowywanego w pliku testowym articles.jsonl. Przechowujemy oba pliki testowe w formacie Usługa Amazon Simple Storage (Amazon S3) wiadro. Zobacz następujący kod:

#You can specify a prompt here
prompt = "Briefly summarize this text: "
#Provide the test data and the ground truth file name
test_data_file_name = "articles.jsonl"
test_reference_file_name = 'highlights.jsonl' test_articles = []
test_highlights =[] # We will go over each data entry and create the data in the input required format as described above
for id, test_entry in enumerate(cnn_test): article = test_entry['article'] highlights = test_entry['highlights'] # Create a payload like this if you want to have different hyperparameters for each test input # payload = {"id": id,"text_inputs": f"{prompt}{article}", "max_length": 100, "temperature": 0.95} # Note that if you specify hyperparameter for each payload individually, you may want to ensure that hyper_params_dict is set to None instead payload = {"id": id,"text_inputs": f"{prompt}{article}"} test_articles.append(payload) test_highlights.append({"id":id, "highlights": highlights}) with open(test_data_file_name, "w") as outfile: for entry in test_articles: outfile.write("%sn" % json.dumps(entry)) with open(test_reference_file_name, "w") as outfile: for entry in test_highlights: outfile.write("%sn" % json.dumps(entry)) # Uploading the data s3 = boto3.client("s3")
s3.upload_file(test_data_file_name, output_bucket, os.path.join(output_prefix + "/batch_input/articles.jsonl"))

Uruchom zadanie transformacji wsadowej

Kiedy rozpoczynasz zadanie transformacji wsadowej, SageMaker uruchamia niezbędne zasoby obliczeniowe do przetwarzania danych, w tym instancje CPU lub GPU, w zależności od wybranego typu instancji. Podczas zadania transformacji wsadowej SageMaker automatycznie udostępnia i zarządza zasobami obliczeniowymi wymaganymi do przetwarzania danych, w tym instancjami, pamięcią masową i zasobami sieciowymi. Po zakończeniu zadania transformacji wsadowej zasoby obliczeniowe są automatycznie czyszczone przez SageMaker. Oznacza to, że instancje i pamięć masowa używane podczas zadania są zatrzymywane i usuwane, co uwalnia zasoby i minimalizuje koszty. Zobacz następujący kod:

# Creating the Batch transformer object
batch_transformer = model.transformer( instance_count=1, instance_type=inference_instance_type, output_path=s3_output_data_path, assemble_with="Line", accept="text/csv", max_payload=1, env = hyper_params_dict
) # Making the predications on the input data
batch_transformer.transform(s3_input_data_path, content_type="application/jsonlines", split_type="Line") batch_transformer.wait()

Poniżej znajduje się jeden przykładowy rekord z articles.jsonl plik testowy. Zauważ, że rekord w tym pliku ma identyfikator pasujący do predict.jsonl rekordy plików, które pokazują podsumowanie rekordu jako dane wyjściowe z modelu Hugging Face Text2Text. Podobnie, plik prawdy podstawowej ma również pasujący identyfikator dla rekordu danych. Dopasowany identyfikator w pliku testowym, pliku prawdy podstawowej i pliku wyjściowym umożliwia łączenie rekordów wejściowych z rekordami wyjściowymi w celu łatwej interpretacji wyników.

Poniżej znajduje się przykładowy rekord wejściowy przewidziany do podsumowania:

{"id": 0, "text_inputs": "Briefly summarize this text: (CNN)The Palestinian Authority officially became the 123rd member of the International Criminal Court on Wednesday, a step that gives the court jurisdiction over alleged crimes in Palestinian territories. The formal accession was marked with a ceremony at The Hague, in the Netherlands, where the court is based. The Palestinians signed the ICC's founding Rome Statute in January, when they also accepted its jurisdiction over alleged crimes committed "in the occupied Palestinian territory, including East Jerusalem, since June 13, 2014." Later that month, the ICC opened a preliminary examination into the situation in Palestinian territories, paving the way for possible war crimes investigations against Israelis. As members of the court, Palestinians may be subject to counter-charges as well. Israel and the United States, neither of which is an ICC member, opposed the Palestinians' efforts to join the body. But Palestinian Foreign Minister Riad al-Malki, speaking at Wednesday's ceremony, said it was a move toward greater justice. "As Palestine formally becomes a State Party to the Rome Statute today, the world is also a step closer to ending a long era of impunity and injustice," he said, according to an ICC news release. "Indeed, today brings us closer to our shared goals of justice and peace." Judge Kuniko Ozaki, a vice president of the ICC, said acceding to the treaty was just the first step for the Palestinians. "As the Rome Statute today enters into force for the State of Palestine, Palestine acquires all the rights as well as responsibilities that come with being a State Party to the Statute. These are substantive commitments, which cannot be taken lightly," she said. Rights group Human Rights Watch welcomed the development. "Governments seeking to penalize Palestine for joining the ICC should immediately end their pressure, and countries that support universal acceptance of the court's treaty should speak out to welcome its membership," said Balkees Jarrah, international justice counsel for the group. "What's objectionable is the attempts to undermine international justice, not Palestine's decision to join a treaty to which over 100 countries around the world are members." In January, when the preliminary ICC examination was opened, Israeli Prime Minister Benjamin Netanyahu described it as an outrage, saying the court was overstepping its boundaries. The United States also said it "strongly" disagreed with the court's decision. "As we have said repeatedly, we do not believe that Palestine is a state and therefore we do not believe that it is eligible to join the ICC," the State Department said in a statement. It urged the warring sides to resolve their differences through direct negotiations. "We will continue to oppose actions against Israel at the ICC as counterproductive to the cause of peace," it said. But the ICC begs to differ with the definition of a state for its purposes and refers to the territories as "Palestine." While a preliminary examination is not a formal investigation, it allows the court to review evidence and determine whether to investigate suspects on both sides. Prosecutor Fatou Bensouda said her office would "conduct its analysis in full independence and impartiality." The war between Israel and Hamas militants in Gaza last summer left more than 2,000 people dead. The inquiry will include alleged war crimes committed since June. The International Criminal Court was set up in 2002 to prosecute genocide, crimes against humanity and war crimes. CNN's Vasco Cotovio, Kareem Khadder and Faith Karimi contributed to this report."}

Poniżej przedstawiono przewidywany wynik z podsumowaniem:

{'id': 0, 'generated_texts': ['The Palestinian Authority officially became a member of the International Criminal Court on Wednesday, a step that gives the court jurisdiction over alleged crimes in Palestinian territories.']}

Poniżej znajduje się podsumowanie prawdy podstawowej do celów oceny modelu:

{"id": 0, "highlights": "Membership gives the ICC jurisdiction over alleged crimes committed in Palestinian territories since last June .nIsrael and the United States opposed the move, which could open the door to war crimes investigations against Israelis ."}

Następnie używamy podstawowej prawdy i przewidywanych wyników do oceny modelu.

Oceń model za pomocą wyniku ROUGE¶

CZERWONA, czyli Recall-Oriented Understudy for Gisting Evaluation, to zestaw wskaźników i pakiet oprogramowania służący do oceny automatycznego podsumowania i tłumaczenia maszynowego w przetwarzaniu języka naturalnego. Metryki porównują automatycznie wygenerowane streszczenie lub tłumaczenie z referencyjnym streszczeniem lub tłumaczeniem (stworzonym przez człowieka) lub zestawem odniesień.

W poniższym kodzie łączymy przewidywane i oryginalne podsumowania, łącząc je na wspólnym kluczu id i użyj tego do obliczenia wyniku ROUGE:

# Downloading the predictions
s3.download_file(
output_bucket, output_prefix + "/batch_output/" + "articles.jsonl.out", "predict.jsonl"
) with open('predict.jsonl', 'r') as json_file:
json_list = list(json_file) # Creating the prediction list for the dataframe
predict_dict_list = []
for predict in json_list:
if len(predict) > 1:
predict_dict = ast.literal_eval(predict)
predict_dict_req = {"id": predict_dict["id"], "prediction": predict_dict["generated_texts"][0]}
predict_dict_list.append(predict_dict_req) # Creating the predictions dataframe
predict_df = pd.DataFrame(predict_dict_list) test_highlights_df = pd.DataFrame(test_highlights) # Combining the predict dataframe with the original summarization on id to compute the rouge score
df_merge = test_highlights_df.merge(predict_df, on="id", how="left") rouge = evaluate.load('rouge')
results = rouge.compute(predictions=list(df_merge["prediction"]),references=list(df_merge["highlights"]))
print(results)
{'rouge1': 0.32749078992945646, 'rouge2': 0.126038645005132, 'rougeL': 0.22764277967933363, 'rougeLsum': 0.28162915746368966}

Wykonuj wnioskowanie wsadowe w czasie rzeczywistym

Następnie pokażemy, jak uruchomić wnioskowanie wsadowe w czasie rzeczywistym na punkcie końcowym, udostępniając dane wejściowe jako listę. Używamy tego samego identyfikatora modelu i zestawu danych, co wcześniej, z wyjątkiem tego, że pobieramy kilka rekordów z testowego zestawu danych i używamy ich do wywołania punktu końcowego w czasie rzeczywistym.

Poniższy kod pokazuje, jak utworzyć i wdrożyć punkt końcowy w czasie rzeczywistym na potrzeby wnioskowania wsadowego w czasie rzeczywistym:

from sagemaker.utils import name_from_base
endpoint_name = name_from_base(f"jumpstart-example-{model_id}")
# deploy the Model. Note that we need to pass Predictor class when we deploy model through Model class,
# for being able to run inference through the sagemaker API.
model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name
)

Następnie przygotowujemy nasz ładunek wejściowy. W tym celu wykorzystujemy dane, które przygotowaliśmy wcześniej, wyodrębniamy pierwsze 10 testowych danych wejściowych i dołączamy dane wejściowe tekstowe z hiperparametrami, których chcemy użyć. Dostarczamy ten ładunek w czasie rzeczywistym invoke_endpoint. Ładunek odpowiedzi jest następnie zwracany jako lista odpowiedzi. Zobacz następujący kod:

#Provide all the text inputs to the model as a list
text_inputs = [entry["text_inputs"] for entry in test_articles[0:10]] # The information about the different Parameters is provided above
payload = { "text_inputs": text_inputs, "max_length": 50, "num_return_sequences": 1, "top_k": 50, "top_p": 0.95, "do_sample": True, "batch_size": 4
} def query_endpoint_with_json_payload(encoded_json, endpoint_name):
client = boto3.client("runtime.sagemaker")
response = client.invoke_endpoint(
EndpointName=endpoint_name, ContentType="application/json", Body=encoded_json
)
return response query_response = query_endpoint_with_json_payload(
json.dumps(payload).encode("utf-8"), endpoint_name=endpoint_name
) def parse_response_multiple_texts(query_response):
model_predictions = json.loads(query_response["Body"].read())
return model_predictions generated_text_list = parse_response_multiple_texts(query_response)
print(*generated_text_list, sep='n')

Sprzątać

Po przetestowaniu punktu końcowego upewnij się, że usunięto punkt końcowy wnioskowania SageMaker i usuń model, aby uniknąć naliczania opłat.

Wnioski

W tym notatniku przeprowadziliśmy transformację wsadową, aby zaprezentować model generatora tekst2tekst przytulania twarzy dla zadań podsumowujących. Transformacja wsadowa jest korzystna w uzyskiwaniu wniosków z dużych zestawów danych bez konieczności posiadania trwałego punktu końcowego. Połączyliśmy rekordy wejściowe z wnioskami, aby pomóc w interpretacji wyników. Użyliśmy wyniku ROUGE, aby porównać podsumowanie danych testowych z podsumowaniem wygenerowanym przez model.

Ponadto zademonstrowaliśmy wnioskowanie wsadowe w czasie rzeczywistym, w którym można wysłać niewielką partię danych do punktu końcowego w czasie rzeczywistym, aby osiągnąć równowagę między opóźnieniem a przepustowością w scenariuszach takich jak przesyłanie strumieniowe danych wejściowych. Wnioskowanie wsadowe w czasie rzeczywistym pomaga zwiększyć przepustowość dla żądań w czasie rzeczywistym.

Wypróbuj transformację wsadową za pomocą modeli Text2Text Generation w SageMaker już dziś i daj nam znać swoją opinię!


O autorach

Wykonuj transformacje wsadowe za pomocą dużych modeli językowych Amazon SageMaker Jumpstart Text2Text Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Hemanta Singha jest inżynierem uczenia maszynowego z doświadczeniem we wbudowanych algorytmach Amazon SageMaker JumpStart i Amazon SageMaker. Uzyskał tytuł magistra w Courant Institute of Mathematical Sciences i B.Tech w IIT Delhi. Ma doświadczenie w pracy nad różnorodnymi problemami uczenia maszynowego w dziedzinie przetwarzania języka naturalnego, wizji komputerowej i analizy szeregów czasowych.

Wykonuj transformacje wsadowe za pomocą dużych modeli językowych Amazon SageMaker Jumpstart Text2Text Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Rachna Czadha jest głównym architektem rozwiązań AI/ML w dziale Strategic Accounts w AWS. Rachna jest optymistą, który wierzy, że etyczne i odpowiedzialne korzystanie z AI może w przyszłości poprawić społeczeństwo i przynieść dobrobyt gospodarczy i społeczny. W wolnym czasie Rachna lubi spędzać czas z rodziną, spacerować i słuchać muzyki.

Wykonuj transformacje wsadowe za pomocą dużych modeli językowych Amazon SageMaker Jumpstart Text2Text Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Dr Ashish Khetan jest starszym naukowcem z wbudowanymi algorytmami Amazon SageMaker i pomaga rozwijać algorytmy uczenia maszynowego. Doktoryzował się na University of Illinois Urbana-Champaign. Jest aktywnym badaczem uczenia maszynowego i wnioskowania statystycznego oraz opublikował wiele artykułów na konferencjach NeurIPS, ICML, ICLR, JMLR, ACL i EMNLP.

Znak czasu:

Więcej z Uczenie maszynowe AWS