In der Artikelansicht werden Artikel in Form einer zeitlich geordneten Liste bereitgestellt, wobei jeder Artikel zusätzliche Metadateninformationen enthält:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Die Metadaten lauten wie folgt:
- Typ – Der Typwert gibt an, ob es sich bei dem spezifischen Element um ein Satzzeichen oder eine Aussprache handelt. Beispiele für unterstützte Satzzeichen sind Komma, Punkt und Fragezeichen.
- Alternativen – Ein Array von Objekten, die die tatsächliche Transkription zusammen mit dem Konfidenzniveau enthalten, geordnet nach Konfidenzniveau. Wenn die Funktion „Alternative Ergebnisse“ nicht aktiviert ist, enthält diese Liste immer nur ein Element.
- Höchste Sicherheit – Ein Hinweis darauf, wie sicher Amazon Transcribe hinsichtlich der Korrektheit der Transkription ist. Es werden Werte von 0 bis 1 verwendet, wobei 1 eine 100-prozentige Konfidenz angibt.
- Inhalt – Das transkribierte Wort.
- Startzeit – Ein Zeitzeiger der Audio- oder Videodatei, der den Anfang des Elements im ss.SSS-Format angibt.
- Endzeit – Ein Zeitzeiger der Audio- oder Videodatei, der das Ende des Elements im ss.SSS-Format angibt.
- Kanalbezeichnung – Die Kanalkennung, die nur dann im Element vorhanden ist, wenn die Kanalidentifizierungsfunktion in der Jobkonfiguration aktiviert wurde.
- Lautsprecheretikett – Die Lautsprecher-ID, die nur dann im Element vorhanden ist, wenn die Lautsprecherpartitionierungsfunktion in der Jobkonfiguration aktiviert wurde.
Absätze identifizieren
Die Identifizierung von Absätzen basiert auf Metadateninformationen in der Elementansicht. Insbesondere nutzen wir Start- und Endzeitinformationen sowie Transkriptionstyp und -inhalt, um Sätze zu identifizieren und dann zu entscheiden, welche Sätze die besten Kandidaten für Absatzeinstiegspunkte sind.
Ein Satz wird als eine Liste von Transkriptionselementen betrachtet, die zwischen Satzzeichenelementen steht, die einen Punkt anzeigen. Ausgenommen hiervon sind der Anfang und das Ende des Transkripts, bei denen es sich standardmäßig um Satzgrenzen handelt. Die folgende Abbildung zeigt ein Beispiel dieser Elemente.
Die Identifizierung von Sätzen ist mit Amazon Transcribe unkompliziert, da die Interpunktion neben den Interpunktionstypen Komma, Punkt und Fragezeichen eine sofort einsatzbereite Funktion ist. In diesem Konzept verwenden wir einen Punkt als Satzgrenze.
Nicht jeder Satz sollte ein Absatzpunkt sein. Um Absätze zu identifizieren, führen wir auf Satzebene eine neue Erkenntnis ein, die als Startverzögerung bezeichnet wird, wie in der folgenden Abbildung dargestellt. Wir verwenden eine Startverzögerung, um die Zeitverzögerung zu definieren, die der Sprecher bei der Aussprache des aktuellen Satzes im Vergleich zum vorherigen einführt.
Für die Berechnung der Startverzögerung sind pro Sprecher die Startzeit des aktuellen Satzes und die Endzeit des vorherigen Satzes erforderlich. Da Amazon Transcribe Start- und Endzeiten pro Element bereitstellt, erfordert die Berechnung die Verwendung des ersten bzw. letzten Elements des aktuellen bzw. vorherigen Satzes.
Wenn wir die Startverzögerungen jedes Satzes kennen, können wir statistische Analysen anwenden und die Bedeutung jeder Verzögerung im Vergleich zur Gesamtpopulation der Verzögerungen ermitteln. In unserem Kontext sind erhebliche Verzögerungen solche, die über die typische Dauer der Bevölkerung hinausgehen. Die folgende Grafik zeigt ein Beispiel.
Für dieses Konzept entscheiden wir uns, die Sätze mit Startverzögerungen, die über dem Mittelwert liegen, als signifikant zu akzeptieren und am Anfang jedes solchen Satzes einen Absatzpunkt einzuführen. Neben dem Mittelwert gibt es noch andere Optionen, wie z. B. das Akzeptieren aller Startverzögerungen, die größer als der Median oder das dritte Quantil oder der obere Zaunwert der Grundgesamtheit sind.
Wir fügen dem Absatzidentifizierungsprozess einen weiteren zusätzlichen Schritt hinzu und berücksichtigen dabei die Anzahl der Wörter, die in jedem Absatz enthalten sind. Wenn Absätze eine erhebliche Anzahl von Wörtern enthalten, führen wir eine Teilungsoperation durch und fügen so dem Endergebnis einen weiteren Absatz hinzu.
Im Zusammenhang mit Wortzahlen definieren wir die Wortzahlen als signifikant, die den oberen Grenzwert überschreiten. Wir treffen diese Entscheidung bewusst, sodass wir Aufteilungsvorgänge auf die Absätze beschränken, die sich in unseren Ergebnissen tatsächlich als Ausreißer verhalten. Die folgende Grafik zeigt ein Beispiel.
Die Teilungsoperation wählt den neuen Absatzeinstiegspunkt unter Berücksichtigung der maximalen Einsicht in die Satzanfangsverzögerung aus. Auf diese Weise wird der neue Absatz an dem Satz eingeleitet, der die maximale Startverzögerung innerhalb des aktuellen Absatzes aufweist. Teilungen können wiederholt werden, bis keine Wortanzahl die ausgewählte Grenze überschreitet, in unserem Fall den oberen Zaunwert. Die folgende Abbildung zeigt ein Beispiel.
Zusammenfassung
In diesem Beitrag haben wir ein Konzept vorgestellt, mit dem Sie Ihren Transkripten automatisch und ohne manuellen Eingriff Absätze hinzufügen können, basierend auf den Metadaten, die Amazon Transcribe zusammen mit dem eigentlichen Transkript bereitstellt.
Dieses Konzept ist nicht sprach- oder akzentspezifisch, da es auf nichtsprachlichen Metadaten basiert, um Absatzeinstiegspunkte vorzuschlagen. Zukünftige Variationen können grammatikalische oder semantische Informationen zu einem Fall pro Sprache enthalten und so die Absatzidentifizierungslogik weiter verbessern.
Wenn Sie Feedback zu diesem Beitrag haben, senden Sie Ihre Kommentare im Kommentarbereich. Wir freuen uns von Ihnen zu hören. Kasse Amazon Transcribe-Funktionen für zusätzliche Funktionen, die Ihnen helfen, den größtmöglichen Nutzen aus Ihren Transkripten zu ziehen.
Über die Autoren
Kostas Tzouvanas ist Enterprise Solution Architect bei Amazon Web Services. Er unterstützt Kunden bei der Entwicklung cloudbasierter Lösungen, um ihr Geschäftspotenzial auszuschöpfen. Sein Schwerpunkt liegt auf Handelsplattformen und Hochleistungsrechnersystemen. Seine Leidenschaft gilt auch der Genomik und Bioinformatik.
Pavlos Kaimakis ist ein Enterprise Solutions Architect, der sich um Unternehmenskunden in GR/CY/MT kümmert und sie mit seiner Erfahrung bei der Entwicklung und Implementierung von Lösungen unterstützt, die ihnen einen Mehrwert bieten. Pavlos hat die meiste Zeit seiner Karriere im Produkt- und Kundensupportbereich verbracht – sowohl aus technischer als auch aus Managementperspektive. Pavlos liebt das Reisen und ist immer bereit, neue Orte auf der Welt zu erkunden.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
- Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
- Kaufen und verkaufen Sie Anteile an PRE-IPO-Unternehmen mit PREIPO®. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :hast
- :Ist
- :nicht
- $UP
- 1
- 100
- 22
- 7
- 9
- a
- LiveBuzz
- Akzeptieren
- akzeptieren
- Erreichen
- präsentieren
- hinzufügen
- Hinzufügen
- Zusätzliche
- Nach der
- Alle
- entlang
- ebenfalls
- Alternative
- Alternativen
- immer
- Amazon
- Amazon Transcribe
- Amazon Web Services
- Betrag
- an
- Analyse
- und
- auseinander
- Bewerben
- SIND
- Feld
- AS
- At
- Audio-
- Im Prinzip so, wie Sie es von Google Maps kennen.
- basierend
- BE
- weil
- Anfang
- BESTE
- zwischen
- Größte
- beide
- Grenzen
- Grenze
- Box
- Geschäft
- by
- namens
- CAN
- Kandidaten
- Karriere
- Häuser
- Kanal
- aus der Ferne überprüfen
- Bemerkungen
- Vergleich
- Computing
- konzept
- Vertrauen
- zuversichtlich
- Konfiguration
- Berücksichtigung
- betrachtet
- Berücksichtigung
- enthalten
- enthalten
- Inhalt
- Kontext
- Strom
- Kunde
- Kundensupport
- Kunden
- entscheidet
- Entscheidung
- Standard
- verzögern
- Verzögerungen
- Design
- Dokument
- Antrieb
- Dauer
- jeder
- freigegeben
- Ende
- Entwicklung
- Eine Verbesserung der
- Unternehmen
- Eintrag
- Jedes
- Beispiel
- Beispiele
- überschreiten
- übersteigt
- Exponate
- existiert
- ERFAHRUNGEN
- Möglichkeiten sondieren
- Merkmal
- Eigenschaften
- Feedback
- Abbildung
- Reichen Sie das
- Finale
- Vorname
- Setzen Sie mit Achtsamkeit
- Folgende
- folgt
- Aussichten für
- unten stehende Formular
- Format
- vorwärts
- für
- voller
- weiter
- Zukunft
- Genomik
- bekommen
- Graph
- mehr
- Haben
- he
- Hörtests
- Hilfe
- hilft
- hi
- GUTE
- seine
- Ultraschall
- HTTPS
- Login
- Kennzeichnung
- identifizieren
- if
- implementieren
- in
- das
- zeigen
- zeigt
- Indikation
- Information
- Einblick
- Intervention
- in
- einführen
- eingeführt
- Stellt vor
- IT
- Artikel
- Job
- jpg
- Sprache
- Nachname
- Niveau
- Gefällt mir
- Liste
- Logik
- aussehen
- suchen
- liebt
- Main
- um
- Management
- manuell
- Kennzeichen
- max
- maximal
- bedeuten
- Metadaten
- mehr
- vor allem warme
- Neu
- nicht
- Anzahl
- Objekte
- of
- on
- EINEM
- einzige
- Betrieb
- Einkauf & Prozesse
- Optionen
- or
- Andere
- UNSERE
- übrig
- besondere
- leidenschaftlich
- Leistung
- Perspektive
- Länder/Regionen
- Plattformen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Points
- Punkte
- Bevölkerung
- Post
- Potenzial
- Gegenwart
- vorgeführt
- früher
- Prozessdefinierung
- Produkt
- vorausgesetzt
- bietet
- Frage
- wiederholt
- erfordert
- beziehungsweise
- eine Beschränkung
- Folge
- Die Ergebnisse
- Führen Sie
- Abschnitt
- Bibliotheken
- ausgewählt
- Satz
- Lösungen
- sollte
- Konzerte
- Bedeutung
- signifikant
- So
- Lösung
- Lösungen
- Speaker
- spezifisch
- verbrachte
- gespalten
- Spagat
- Anfang
- statistisch
- Schritt
- Stoppen
- einfach
- abschicken
- so
- vorschlagen
- Support
- Unterstützte
- Unterstützung
- Systeme und Techniken
- Einnahme
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- die Welt
- ihr
- Sie
- dann
- Dort.
- damit
- Diese
- Dritte
- fehlen uns die Worte.
- diejenigen
- Zeit
- mal
- zu
- Gesamt
- Trading
- Handelsplattformen
- Abschrift
- wirklich
- tippe
- Typen
- typisch
- bis
- Anwendungsbereich
- -
- verwendet
- Nutzen
- Wert
- Werte
- Video
- Anzeigen
- wurde
- Weg..
- we
- Netz
- Web-Services
- willkommen
- wann
- welche
- werden wir
- mit
- ohne
- Word
- Worte
- weltweit wie ausgehandelt und gekauft ausgeführt wird.
- Du
- Ihr
- Zephyrnet