Amazon Transcribe kündigt ein neues modellbasiertes ASR-System der Speech Foundation an, das die Unterstützung auf über 100 Sprachen erweitert

Neuauflage von Plato

Verfolger: 0

Amazon Transcribe ist ein vollständig verwalteter automatischer Spracherkennungsdienst (ASR), der es Ihnen erleichtert, Ihren Anwendungen Sprach-zu-Text-Funktionen hinzuzufügen. Wir freuen uns, heute ein sprachbasiertes Sprachfundamentsystem der nächsten Generation der nächsten Generation vorstellen zu können, das die automatische Spracherkennung auf mehr als XNUMX % erweitert 100 Sprachen. In diesem Beitrag besprechen wir einige der Vorteile dieses Systems, wie Unternehmen es nutzen und wie man damit anfängt. Nachfolgend finden Sie auch ein Beispiel für die Transkriptionsausgabe.

Das Sprachgrundlagenmodell von Transcribe wird mit erstklassigen, selbstüberwachten Algorithmen trainiert, um die inhärenten universellen Muster der menschlichen Sprache über Sprachen und Akzente hinweg zu lernen. Es basiert auf Millionen Stunden unbeschrifteter Audiodaten aus über 100 Sprachen. Die Trainingsrezepte werden durch intelligentes Datensampling optimiert, um die Trainingsdaten zwischen den Sprachen auszugleichen und sicherzustellen, dass traditionell unterrepräsentierte Sprachen auch ein hohes Genauigkeitsniveau erreichen.

Carbyne ist ein Softwareunternehmen, das cloudbasierte, unternehmenskritische Contact-Center-Lösungen für Notrufhelfer entwickelt. Die Mission von Carbyne ist es, Notfallhelfern dabei zu helfen, Leben zu retten, und Sprache darf ihren Zielen nicht im Weg stehen. So nutzen sie Amazon Transcribe, um ihre Mission zu verfolgen:

„Die KI-gestützte Carbyne Live Audio Translation zielt direkt darauf ab, die Notfallhilfe für die 68 Millionen Amerikaner zu verbessern, die zu Hause eine andere Sprache als Englisch sprechen, zusätzlich zu den bis zu 79 Millionen ausländischen Besuchern, die das Land jährlich besuchen. Durch die Nutzung des neuen mehrsprachigen Basismodells von Amazon Transcribe mit ASR ist Carbyne noch besser für die Demokratisierung lebensrettender Notfalldienste gerüstet, denn Every. Person. Zählt.“

– Alex Dizengof, Mitbegründer und CTO von Carbyne.

Durch die Nutzung des Sprachgrundlagenmodells liefert Amazon Transcribe in den meisten Sprachen eine deutliche Verbesserung der Genauigkeit zwischen 20 % und 50 %. Bei der Telefonie, einem anspruchsvollen und datenarmen Bereich, liegt die Genauigkeitsverbesserung zwischen 30 % und 70 %. Neben einer erheblichen Verbesserung der Genauigkeit bietet dieses große ASR-Modell auch eine Verbesserung der Lesbarkeit durch genauere Interpunktion und Großschreibung. Mit dem Aufkommen der generativen KI nutzen Tausende von Unternehmen Amazon Transcribe, um umfassende Erkenntnisse aus ihren Audioinhalten zu gewinnen. Mit deutlich verbesserter Genauigkeit und Unterstützung für über 100 Sprachen wird sich Amazon Transcribe positiv auf alle derartigen Anwendungsfälle auswirken. Alle bestehenden und neuen Kunden, die Amazon Transcribe im Batch-Modus verwenden, können auf die modellbasierte Spracherkennung von Speech Foundation zugreifen, ohne dass Änderungen am API-Endpunkt oder an den Eingabeparametern erforderlich sind.

Das neue ASR-System bietet in allen über 100 Sprachen mehrere Schlüsselfunktionen in Bezug auf Benutzerfreundlichkeit, Anpassung, Benutzersicherheit und Datenschutz. Dazu gehören Funktionen wie automatische Interpunktion, benutzerdefiniertes Vokabular, automatische Spracherkennung, Sprechertagebuch, Konfidenzbewertungen auf Wortebene und benutzerdefinierter Vokabularfilter. Die erweiterte Unterstützung des Systems für unterschiedliche Akzente, Geräuschumgebungen und akustische Bedingungen ermöglicht Ihnen eine genauere Ausgabe und hilft Ihnen dadurch, Sprachtechnologien effektiv in Ihre Anwendungen einzubetten.

Dank der hohen Genauigkeit von Amazon Transcribe über verschiedene Akzente und Geräuschbedingungen hinweg, der Unterstützung einer großen Anzahl von Sprachen und der breiten Palette an Mehrwertfunktionen werden Tausende von Unternehmen in die Lage versetzt, dies zu tun Erschließen Sie umfassende Erkenntnisse aus ihren Audioinhalten und erhöhen Sie die Zugänglichkeit und Auffindbarkeit ihrer Audio- und Videoinhalte in verschiedenen Domänen. Beispielsweise transkribieren und analysieren Contact Center Kundenanrufe, um Erkenntnisse zu gewinnen und anschließend das Kundenerlebnis und die Produktivität der Agenten zu verbessern. Inhaltsproduzenten und Medienverteiler generieren mithilfe von Amazon Transcribe automatisch Untertitel, um die Zugänglichkeit von Inhalten zu verbessern.

Beginnen Sie mit Amazon Transcribe

Sie können die Verwendung AWS-Befehlszeilenschnittstelle (AWS-CLI), AWS-Managementkonsoleund verschiedene AWS-SDKs für Batch-Transkriptionen verwenden und weiterhin verwenden StartTranscriptionJob API, um Leistungsvorteile aus dem erweiterten ASR-Modell zu ziehen, ohne dass Sie Code- oder Parameteränderungen auf Ihrer Seite vornehmen müssen. Weitere Informationen zur Verwendung der AWS CLI und der Konsole finden Sie unter Transkribieren mit der AWS CLI und Transkribieren mit der AWS Management Console, Bzw.

Der erste Schritt besteht darin, Ihre Mediendateien in ein hochzuladen Amazon Simple Storage-Service (Amazon S3) Bucket, ein Objektspeicherdienst zum Speichern und Abrufen beliebiger Datenmengen von überall. Amazon S3 bietet branchenführende Haltbarkeit, Verfügbarkeit, Leistung, Sicherheit und praktisch unbegrenzte Skalierbarkeit zu sehr niedrigen Kosten. Sie können Ihr Transkript in Ihrem eigenen S3-Bucket speichern oder Amazon Transcribe einen sicheren Standard-Bucket verwenden lassen. Weitere Informationen zur Verwendung von S3-Buckets finden Sie unter Erstellen, Konfigurieren und Arbeiten mit Amazon S3-Buckets.

Transkriptionsausgabe

Amazon Transcribe verwendet für seine Ausgabe die JSON-Darstellung. Das Transkriptionsergebnis wird in zwei verschiedenen Formaten bereitgestellt: Textformat und Einzelstückformat. Am API-Endpunkt oder den Eingabeparametern ändert sich nichts.

Das Textformat stellt das Transkript als Textblock bereit, während das Einzelstückformat das Transkript in Form zeitlich geordneter transkribierter Elemente zusammen mit zusätzlichen Metadaten pro Element bereitstellt. Beide Formate liegen in der Ausgabedatei parallel vor.

Abhängig von den Funktionen, die Sie beim Erstellen des Transkriptionsauftrags auswählen, erstellt Amazon Transcribe zusätzliche und erweiterte Ansichten des Transkriptionsergebnisses. Sehen Sie sich den folgenden Beispielcode an:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Die Ansichten sind wie folgt:

Transkripte – Vertreten durch die transcripts Element enthält es nur das Textformat des Transkripts. In Szenarien mit mehreren Sprechern und mehreren Kanälen wird die Verkettung aller Transkripte in einem einzigen Block bereitgestellt.
Referenten – Vertreten durch die speaker_labels -Element enthält es den Text und die aufgeschlüsselten Formate des Transkripts, gruppiert nach Sprecher. Es ist nur verfügbar, wenn die Multi-Lautsprecher-Funktion aktiviert ist.
Kanäle – Vertreten durch die channel_labels -Element enthält es den Text und die aufgeschlüsselten Formate des Transkripts, gruppiert nach Kanal. Es ist nur verfügbar, wenn die Mehrkanalfunktion aktiviert ist.
Artikel – Vertreten durch die items Element enthält es nur das aufgeschlüsselte Format des Transkripts. In Szenarien mit mehreren Sprechern und mehreren Kanälen werden Elemente mit zusätzlichen Eigenschaften angereichert, die Sprecher und Kanal angeben.
Segmente – Vertreten durch die segments -Element enthält es den Text und die aufgeschlüsselten Formate des Transkripts, gruppiert nach alternativer Transkription. Es ist nur verfügbar, wenn die Funktion „Alternative Ergebnisse“ aktiviert ist.

Zusammenfassung

Bei AWS entwickeln wir im Namen unserer Kunden ständig Innovationen. Durch die Erweiterung der Sprachunterstützung in Amazon Transcribe auf über 100 Sprachen ermöglichen wir unseren Kunden, Benutzer mit unterschiedlichem sprachlichem Hintergrund zu bedienen. Dies verbessert nicht nur die Zugänglichkeit, sondern eröffnet auch neue Möglichkeiten für die Kommunikation und den Informationsaustausch auf globaler Ebene. Weitere Informationen zu den in diesem Beitrag besprochenen Funktionen finden Sie hier Funktionsseite und Was gibt es Neues?.

Über die Autoren

Sumit Kumar ist Principal Product Manager, Technical beim AWS AI Language Services-Team. Er verfügt über 10 Jahre Erfahrung im Produktmanagement in verschiedenen Bereichen und ist begeistert von KI/ML. Außerhalb der Arbeit reist Sumit gerne und spielt gerne Cricket und Rasentennis.

Amazon Transcribe kündigt ein neues, auf einem Sprachfundament-Modell basierendes ASR-System an, das die Unterstützung auf über 100 Sprachen erweitert | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Vivek Singh ist Senior Manager, Produktmanagement beim AWS AI Language Services-Team. Er leitet das Amazon Transcribe-Produktteam. Bevor er zu AWS kam, hatte er Produktmanagementfunktionen bei verschiedenen anderen Amazon-Organisationen inne, beispielsweise in den Bereichen Verbraucherzahlungen und Einzelhandel. Vivek lebt in Seattle, WA und liebt Laufen und Wandern.