KIT-Bibliothek
Audio-/Videodatei publizieren
Anleitung zum Publizieren

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 11.11.2015, Vorlesung 08

Autor

Sebastian Stüker

Beteiligtes Institut

Institut für Anthropomatik und Robotik (IAR)

Genre

Vorlesung

Beschreibung

08: Vorlesung |
0:00:00 Starten
0:00:24 Wiederholung: Laplace Transformation, Kurzzeitspektralanalyse
0:06:06 Quelle Filter Modell der Sprache
0:07:40 Helmholtzresonator
0:12:25 Vokaldreieck
0:18:34 Lineare Vorhersage (LPC)
0:26:46 Interpretation der LPC Koeffizienten
0:29:04 All-Pole Modell
0:30:16 LPC Beispiel
0:35:33 Cesptrum
0:51:39 Diskrete Cosinustransformation
0:59:11 Beispiel: Berechnung MFCC Koeffizienten
1:00:02 Filterbank im Leistungsbetrags-Spektrum (Mel-Filterbank)
1:00:41 Logarithmus auf Leistungsbetragsspektrum
1:01:29 Cepstral-Koeffizienten
1:03:19 Log-Spektrum rekonstruiert von (geliftertem) Cepstrum
1:03:44 Vergleich Verschiedener Spektren
1:04:21 Typische Vorverarbeitung
1:13:00 Dynamische Merkmale
1:14:10 Autokorrelation
1:21:18 Nulldurchgangsrate
1:23:15 Hauptkomponentenanalyse (PCA)

Laufzeit (hh:mm:ss)

01:23:50

Serie

Grundlagen der Automatischen Spracherkennung, WS 2015/2016

Publiziert am

17.11.2015

Fachgebiet

Informatik

Lizenz

KITopen-Lizenz

Auflösung 1280 x 720 Pixel
Seitenverhältnis 16:9
Audiobitrate 107407 bps
Audio Kanäle 2
Audio Codec aac
Audio Abtastrate 48000 Hz
Gesamtbitrate 913306 kbps
Farbraum yuv420p
Container mov,mp4,m4a,3gp,3g2,mj2
Medientyp video/mp4
Dauer 5030 s
Dateiname DIVA-2015-776_hd.mp4
Dateigröße 4.096 byte
Bildwiederholfrequenz 25
Videobitrate 799805 kbps
Video Codec h264

Embed-Code

Grundlagen der Automatischen Spracherkennung, WS 2015/2016 Folgen 1-22 von 22