Amazon SageMaker JumpStart oferuje teraz notatniki Amazon Comrehend do niestandardowej klasyfikacji i wykrywania niestandardowych jednostek

Opublikowane ponownie przez Plato

Obserwuje: 0

Amazon Comprehend to usługa przetwarzania języka naturalnego (NLP), która wykorzystuje uczenie maszynowe (ML) do odkrywania szczegółowych informacji z tekstu. Amazon Comprehend zapewnia niestandardowe funkcje, rozpoznawanie jednostek niestandardowych, klasyfikacja niestandardowa, wstępnie przeszkolone interfejsy API takie jak wyodrębnianie kluczowych fraz, analiza tonacji, rozpoznawanie jednostek i inne, dzięki czemu możesz łatwo zintegrować NLP ze swoimi aplikacjami.

Niedawno dodaliśmy notatniki związane z Amazon Comprehend Amazon SageMaker JumpStart notebooki, które pomogą Ci szybko rozpocząć korzystanie z niestandardowego klasyfikatora Amazon Comprehend i niestandardowego narzędzia do rozpoznawania jednostek. Klasyfikacji niestandardowej można używać do organizowania dokumentów w zdefiniowane przez siebie kategorie (klasy). Rozpoznawanie jednostek niestandardowych rozszerza możliwości wstępnie wyszkolonego interfejsu API wykrywania jednostek Amazon Comprehend, pomagając zidentyfikować typy jednostek, które są unikalne dla Twojej domeny lub firmy, a które nie należą do wstępnie ustawionego ogólnego typy jednostek.

W tym poście pokazujemy, jak używać JumpStart do tworzenia niestandardowych modeli klasyfikacji Amazon Comprehend i niestandardowych modeli wykrywania jednostek w ramach potrzeb NLP w przedsiębiorstwie.

SageMaker Szybki start

Połączenia Studio Amazon SageMaker Strona docelowa zapewnia opcję korzystania z funkcji JumpStart. JumpStart zapewnia szybki sposób na rozpoczęcie pracy, udostępniając wstępnie wytrenowane modele dla różnych typów problemów. Możesz trenować i dostrajać te modele. JumpStart zapewnia również inne zasoby, takie jak notatniki, blogi i filmy.

Notatniki JumpStart to zasadniczo przykładowy kod, którego można użyć jako punktu wyjścia do szybkiego rozpoczęcia pracy. Obecnie udostępniamy ponad 40 notatników, których można używać w obecnej postaci lub dostosowywać do potrzeb. Notesy możesz znaleźć za pomocą wyszukiwania lub panelu widoku z kartami. Po znalezieniu notebooka, którego chcesz użyć, możesz go zaimportować, dostosować do swoich wymagań oraz wybrać infrastrukturę i środowisko, w których ma działać notebook.

Rozpocznij pracę z notesami JumpStart

Aby rozpocząć korzystanie z JumpStart, przejdź do Amazon Sage Maker konsola i otwórz Studio. Odnosić się do Rozpocznij pracę z SageMaker Studio aby uzyskać instrukcje dotyczące rozpoczynania pracy ze Studio. Następnie wykonaj następujące kroki:

W Studio przejdź do strony uruchamiania JumpStart i wybierz Przejdź do SageMaker JumpStart.

Dostępnych jest wiele sposobów wyszukiwania. Możesz użyć zakładek na górze, aby dostać się do tego, co chcesz, lub użyć pola wyszukiwania, jak pokazano na poniższym zrzucie ekranu.

Aby znaleźć zeszyty, przejdź do Notebooki patka.

Przejdź do zakładki Notatniki

W chwili pisania tego tekstu JumpStart oferuje 47 notebooków. Możesz użyć filtrów, aby znaleźć notatniki związane z Amazon Comprehend.

Na Typ zawartości wybierz z menu rozwijanego Notatnik.

Jak widać na poniższym zrzucie ekranu, obecnie mamy dwa notebooki Amazon Comprehend.

Znajdź zeszyty do zrozumienia

W poniższych sekcjach zapoznamy się z obydwoma notebookami.

Niestandardowy klasyfikator Amazon Comprehen

W tym notatniku pokazujemy, jak używać niestandardowy interfejs API klasyfikatora stworzyć model klasyfikacji dokumentów.

Niestandardowy klasyfikator to w pełni zarządzana funkcja Amazon Comprehend, która umożliwia tworzenie niestandardowych modeli klasyfikacji tekstu, które są unikalne dla Twojej firmy, nawet jeśli masz niewielką wiedzę lub nie masz jej wcale. Niestandardowy klasyfikator opiera się na istniejących możliwościach Amazon Comprehend, które są już wytrenowane na dziesiątkach milionów dokumentów. Abstrahuje wiele ze złożoności wymaganej do zbudowania modelu klasyfikacji NLP. Niestandardowy klasyfikator automatycznie ładuje i sprawdza dane szkoleniowe, wybiera odpowiednie algorytmy uczenia maszynowego, trenuje model, znajduje optymalne hiperparametry, testuje model i dostarcza metryki wydajności modelu. Niestandardowy klasyfikator Amazon Comprehend zapewnia również łatwą w użyciu konsolę dla całego przepływu pracy ML, w tym oznaczania tekstu za pomocą Amazon SageMaker Ground Prawda, uczenie i wdrażanie modelu oraz wizualizację wyników testów. Za pomocą niestandardowego klasyfikatora Amazon Comprehend możesz zbudować następujące modele:

Wieloklasowy model klasyfikacji – W klasyfikacji wieloklasowej każdy dokument może mieć przypisaną jedną i tylko jedną klasę. Poszczególne klasy wzajemnie się wykluczają. Na przykład film można sklasyfikować jako dokument lub science fiction, ale nie oba jednocześnie.
Model klasyfikacji wielu etykiet – W klasyfikacji wieloetykietowej poszczególne klasy reprezentują różne kategorie, ale kategorie te są w jakiś sposób powiązane i nie wykluczają się wzajemnie. W rezultacie każdy dokument ma przypisaną co najmniej jedną klasę, ale może mieć ich więcej. Na przykład film może być po prostu filmem akcji lub jednocześnie filmem akcji, filmem science fiction i komedią.

Ten notes nie wymaga specjalistycznej wiedzy z zakresu uczenia maszynowego, aby wyszkolić model z przykładowym zestawem danych lub z własnym zestawem danych specyficznym dla Twojej firmy. Możesz używać operacji API omówionych w tym notatniku we własnych aplikacjach.

Rozpoznawanie jednostek niestandardowych Amazon

W tym notatniku pokazujemy, jak używać niestandardowy interfejs API rozpoznawania jednostek stworzyć model rozpoznawania jednostek.

Niestandardowe rozpoznawanie jednostek rozszerza możliwości Amazon Comprehend, pomagając zidentyfikować określone typy jednostek, które nie znajdują się w wstępnie ustawionych ogólnych typach jednostek. Oznacza to, że możesz analizować dokumenty i wyodrębniać encje, takie jak kody produktów lub encje specyficzne dla Twojej firmy, które pasują do Twoich konkretnych potrzeb.

Samodzielne zbudowanie dokładnego niestandardowego narzędzia do rozpoznawania jednostek może być złożonym procesem, wymagającym przygotowania dużych zestawów ręcznie opatrzonych adnotacjami dokumentów szkoleniowych oraz wybrania odpowiednich algorytmów i parametrów do szkolenia modeli. Amazon Comprehend pomaga zmniejszyć złożoność, zapewniając automatyczną adnotację i rozwój modelu w celu stworzenia niestandardowego modelu rozpoznawania jednostek.

Przykładowy notatnik pobiera zestaw danych szkoleniowych w formacie CSV i uruchamia wnioskowanie na podstawie wprowadzonego tekstu. Amazon Comprehend obsługuje również zaawansowany przypadek użycia, który pobiera dane z adnotacjami Ground Truth do celów szkoleniowych i umożliwia bezpośrednie wnioskowanie na temat plików PDF i dokumentów Word. Aby uzyskać więcej informacji, patrz Zbuduj niestandardowy aparat rozpoznawania encji dla dokumentów PDF za pomocą Amazon Comprehend.

Amazon Comprehend obniżył limity adnotacji i pozwolił uzyskać bardziej stabilne wyniki, szczególnie w przypadku kilku podpróbek. Aby uzyskać więcej informacji na temat tego ulepszenia, zobacz Amazon Comprehend ogłasza niższe limity adnotacji dla niestandardowego rozpoznawania jednostek.

Używaj, dostosowuj i wdrażaj notebooki Amazon Comprehend JumpStart

Po wybraniu notatnika Amazon Comprehend, którego chcesz użyć, wybierz Importuj notatnik. Gdy to zrobisz, możesz zobaczyć uruchamianie jądra notebooka.

Importuj notatnik

Zaimportowanie notatnika powoduje wybór instancji notatnika, jądra i obrazu używanego do uruchamiania notatnika. Po zainicjowaniu obsługi domyślnej infrastruktury można zmienić wybory zgodnie z własnymi wymaganiami.

Notatnik w Twoim SageMaker Studio

Teraz przejrzyj konspekt notatnika i uważnie przeczytaj sekcje dotyczące konfiguracji wymagań wstępnych, konfiguracji danych, uczenia modelu, uruchamiania wnioskowania i zatrzymywania modelu. Możesz dostosować wygenerowany kod do swoich potrzeb.

W zależności od wymagań możesz dostosować następujące sekcje:

Uprawnienia – W przypadku aplikacji produkcyjnej zalecamy ograniczenie zasad dostępu tylko do tych, które są potrzebne do uruchomienia aplikacji. Uprawnienia można ograniczać na podstawie przypadku użycia, takiego jak uczenie lub wnioskowanie, oraz konkretnych nazw zasobów, takich jak pełny Usługa Amazon Simple Storage (Amazon S3) nazwa zasobnika lub wzorzec nazwy zasobnika S3. Powinieneś również ograniczyć dostęp do niestandardowego klasyfikatora lub operacji SageMaker tylko do tych, których potrzebuje Twoja aplikacja.
Dane i lokalizacja – Przykładowy notatnik zawiera przykładowe dane i lokalizacje S3. W zależności od wymagań możesz używać własnych danych do szkolenia, walidacji i testowania oraz w razie potrzeby korzystać z różnych lokalizacji S3. Podobnie podczas tworzenia modelu można zdecydować się na przechowywanie modelu w różnych lokalizacjach. Upewnij się tylko, że nadałeś odpowiednie uprawnienia dostępu do zasobników S3.
Etapy przetwarzania wstępnego – Jeśli używasz różnych danych do uczenia i testowania, możesz dostosować kroki przetwarzania wstępnego do swoich wymagań.
Testowanie danych – Możesz przynieść własne dane wnioskowania do testów.
Sprzątać – Usuń zasoby uruchomione przez notebook, aby uniknąć powtarzających się opłat.

Wnioski

W tym poście pokazaliśmy, jak używać JumpStart do nauki i szybkiego korzystania z interfejsów API Amazon Comprehend, ułatwiając znajdowanie i uruchamianie notatników związanych z Amazon Comprehend w Studio, mając jednocześnie możliwość modyfikowania kodu w razie potrzeby. Notatniki używają przykładowych zestawów danych z ogłoszeniami o produktach AWS i przykładowymi artykułami z wiadomościami. Możesz użyć tego notatnika, aby dowiedzieć się, jak korzystać z interfejsów API Amazon Comprehend w notatniku Pythona, lub możesz użyć go jako punktu wyjścia i dalej rozwijać kod dla swoich unikalnych wymagań i wdrożeń produkcyjnych.

Możesz zacząć korzystać z JumpStart i skorzystać z ponad 40 notatników na różne tematy we wszystkich regionach, w których Studio jest dostępne bez dodatkowych kosztów.

O autorach

Autorka – Lana Zhang Lana Zhang jest starszym architektem rozwiązań w zespole AWS WWSO AI Services ze specjalistyczną wiedzą w zakresie sztucznej inteligencji i uczenia maszynowego w celu moderowania i rozpoznawania treści. Pasjonuje się promowaniem usług AWS AI i pomaganiem klientom w przekształcaniu ich rozwiązań biznesowych.

Autor – Meenakshisundaram Thandavarayan Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML w AWS. Pomaga zaawansowanym technologicznie strategicznym klientom w ich podróży AI i ML. Jest pasjonatem sztucznej inteligencji opartej na danych

Autor - Rachna Chadha Rachna Czadha jest głównym architektem rozwiązań AI/ML w obszarze kont strategicznych w AWS. Rachna jest optymistą, który wierzy, że etyczne i odpowiedzialne korzystanie z AI może w przyszłości poprawić społeczeństwo i przynieść dobrobyt gospodarczy i społeczny. W wolnym czasie Rachna lubi spędzać czas z rodziną, spacerować i słuchać muzyki.

Znak czasu: 12 grudnia 2022 r.13 grudnia 2022 r.

Znak czasu: Kwiecień 19, 2023

Amazon SageMaker JumpStart oferuje teraz notebooki Amazon Comprehend do niestandardowej klasyfikacji i wykrywania niestandardowych jednostek

Opublikowane ponownie przez Plato

SageMaker Szybki start

Rozpocznij pracę z notesami JumpStart

Niestandardowy klasyfikator Amazon Comprehen

Rozpoznawanie jednostek niestandardowych Amazon

Używaj, dostosowuj i wdrażaj notebooki Amazon Comprehend JumpStart

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Zmaksymalizuj wydajność stabilnej dyfuzji i obniż koszty wnioskowania dzięki AWS Inferentia2 | Usługi sieciowe Amazona

Rurociąg powiększania obrazu dla Amazon Lookout for Vision

Utwórz aplikację do podsumowania dokumentów HCLS za pomocą Falcona, korzystając z Amazon SageMaker JumpStart | Usługi internetowe Amazona

Generuj obrazy z tekstu za pomocą stabilnego modelu dyfuzji w Amazon SageMaker JumpStart

Poznaj możliwości Amazon SageMaker Data Wrangler z przykładowymi zestawami danych

Usprawnij edycję treści dzięki Contentful i Amazon Bedrock | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto