Texte und Beschriftungen > Transkription hinzufügen

STAGES Lassen Sie zu Videos oder zu Soundobjekten mit Sprache oder Gesang automatische Beschriftungen generieren und machen Sie so Sprache in Textform sichtbar. So lassen sich Untertitel direkt im Video anzeigen und individuell gestalten. Das Erstellen von Karaoke-Videos oder das Bebildern von Podcasts sind weitere mögliche Anwendungsfälle.

Die automatische Transkription wird mit Hilfe Künstlicher Intelligenz (KI) erstellt. Ihre Audiodaten werden auf Ihrem Gerät transcodiert. Je nach Größe des Sprachmodells werden dafür große Mengen Arbeitsspeicher (ca. 7 GB) und viel Rechenleistung benötigt.

symbol-hint

Beim ersten Start der KI-gestützten Transkription wird die dafür nötige Software einmalig heruntergeladen (Onlineverbindung nötig) und auf Ihrem Rechner gespeichert (ca. 400 MB). Sie steht danach dauerhaft im Programm zur Verfügung.

Automatisches Transkribieren

Automatische Transkription in der Timeline starten

Fügen Sie ein Soundobjekt (z.B. ein Lied mit Gesang), eine Sprachaufnahme oder ein Video, in dem gesprochen wird, in die Timeline ein.

Um das Transkribieren zu starten, klicken Sie das Video oder das Sound-Objekt in der Timeline mit rechts an und wählen Transkription automatisch erzeugen.

Automatische Transkription in den Eigenschaften starten

Alternativ gehen Sie in den Objekt-Eigenschaften am Reiter Text auf das Plus-Symbol und wählen dort Neue Spur automatisch transkribieren.

Einstellungen für die Transkription

Eigenschaften für die Transkription

Im nächsten Schritt können Sie das Sprachmodell auswählen und damit beeinflussen, mit welcher Genauigkeit und wie schnell der Text analysiert werden soll.

Die Berechnung kann in der CPU durchgeführt werden oder - so technisch möglich - durch die Grafikkarte. Wie lange die Transkription dauert, ist neben der gewählten Modelleinstellungen auch abhängig von der Leistungsfähigkeit Ihrer Hardware und dem Umfang des zu transkribierenden Textes.

Geben Sie an, in welcher Sprache die Sprache oder der Gesang in Ihrer Video- oder Sounddatei vorliegt. Das kann die Genauigkeit der Transkription erhöhen.

Mit der Segmentierung legen Sie fest, wie viele Timing-Marken generiert werden. Bei der Segmentierung Wörter erhält jedes Wort eine Zeitmarke. Bei der Auswahl Absätze erhalten Sie den Text mit einer Separation in längere Phrasen. Wörter und Absätze kennzeichnet Absätze, die wiederum wortweise segmentiert sind.

In den meisten Fällen empfiehlt sich die Segmentierung in Wörter und Absätze.

Mehr zum Text-Timing erfahren Sie im gleichnamigen Kapitel.

Mit OK starten Sie die Transkription.

Transkriptionssymbol an der Timeline

Die Transkription findet im Hintergrund statt.

Am unteren Rand der Timeline sehen Sie während des Vorgangs ein animiertes Transkriptionssymbol. Durch einen Klick auf das Symbol, können Sie den Fortschritt der Transkription beobachten oder die Transkription abbrechen.

Steht eine Transkription bereit, erhalten Sie hier eine entsprechende Meldung.

Sprachmodell wird heruntergeladen

Bei der ersten Verwendung eines Sprachmodells wird dieses zunächst heruntergeladen (Internetverbindung nötig).

Ist das Herunterladen beendet, startet automatisch die Transkription. Es wird immer das gesamte Objekt transkribiert, unabhängig davon, ob es in der Timeline geschnitten ist oder nicht.

Mit Schließen können Sie das Fenster schließen und während des Herunterladens oder während der Transkription weiter am Projekt arbeiten.

Es können auch mehrere Transkriptionen parallel gestartet werden. Diese werden zusammen aufgelistet und nacheinander abgearbeitet.

Transkription übernehmen

Sobald der Text fertig verschriftlicht wurde, erhalten Sie einen Hinweis. Mit dem Button Einfügen, wird die Transkription in das Projekt übernommen.

Gehen Sie in die Eigenschaften des transkribierten Objektes. Dort können Sie nun den Text und dessen Text-Timing in den Objekt-Eigenschaften am Reiter Text sehen.

Spielen Sie das transkribierte Objekte ab, um das Ergebnis zu überprüfen. Mit welcher Formatierung der Text eingeblendet wird, ergibt sich aus den Einstellungen bei den Text-Eigenschaften des Objektes.

Fertige Transkription in der Keyframespur

Auch in der Keyframespur des Objektes sehen Sie den Textinhalt und dessen Timing.

Prüfen Sie den erzeugten Text in den Objekt-Text-Eigenschaften und nehmen Sie bei Bedarf Korrekturen am Inhalt vor. Auch die generierten Timings können individuell angepasst werden - entweder in den Eigenschaften an den Zeitmarken oder an den Marken in der Keyframespur.

Mehr zum Text-Timing erfahren Sie im gleichnamigen Kapitel.

Transkription entfernen

Um eine Transkription zu entfernen, klicken Sie das Video in der Timeline mit rechts an und wählen Transkription entfernen. Entfernt wird dann die Textspur, die aktuell in den Eigenschaften ausgewählt ist. Alternativ gehen Sie in die Eigenschaften des Objektes an den Reiter Text, wählen die zu löschende Textspur aus und klicken auf das Mülleimer-Symbol.

Vorhandene Transkriptionsdatei laden

Sollten bereits Untertitel-Dateien (*.srt,*.vtt o.ä.) für ein Video vorliegen, können Sie diese auch in Ihr Projekt laden. Klicken Sie das Video in der Timeline mit rechts an und wählen Sie Transkription laden. Wählen Sie die gewünschte Datei von Ihrem Rechner aus. Sie können die Untertitel-Datei auch in den Eigenschaften des Videos, am Reiter Text über das Plus-Symbol laden.