KIT-Bibliothek
Audio-/Videodatei publizieren
Anleitung zum Publizieren

Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2016/17, 09.11.2016, 07

Autor

Sebastian Stüker

Herausgeber

KIT | Webcast

Beteiligtes Institut

Institut für Anthropomatik und Robotik (IAR)

Genre

Vorlesung

Beschreibung

07 |
0:00:00 Starten
0:00:17 Spektrogramm
0:00:58 Oberschwingung, Harmonische
0:03:14 Mel Skalierung
0:07:18 Effekt der Fensterlänge
0:12:44 Quelle Filter Modell der Sprache
0:15:24 Helmholtzresonator
0:17:08 Vokaldreieck
0:21:30 Lineare Vorhersage (LPC)
0:28:54 Interpretation der LPC Koeffizienten
0:30:47 All-Pole Modell
0:30:53 LPC Beispiel
0:33:45 Cepstrum
0:50:02 Diskrete Cosinustransformation
0:51:03 Beispiel: Berechnung MFCC Koeffizienten
0:51:35 Filterbank im Leistungsbetrags-Spektrum
0:51:52 Mel-Filterbank
0:51:59 Logarithmus auf Leistungsbetragsspektrum
0:52:31 Cepstral-Koeffizienten
0:53:17 Log-Spektrum rekonstruiert von (geliftertem) Cepstrum
0:53:35 Vergleich Verschiedener Spektren
0:54:34 Typische Vorverarbeitung
1:05:14 Spektrogramm
1:05:48 Dynamische Merkmale
1:07:36 Autokorrelation
1:12:57 Nulldurchgangsrate
1:15:36 Hauptkomponentenanalyse (PCA)
1:24:51 Lineare Diskriminanzanalyse

Laufzeit (hh:mm:ss)

01:25:20

Serie

Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2016/17

Publiziert am

21.11.2016

Fachgebiet

Informatik

Lizenz

KITopen-Lizenz

Auflösung 1280 x 720 Pixel
Seitenverhältnis 16:9
Audiobitrate 101255 bps
Audio Kanäle 2
Audio Codec aac
Audio Abtastrate 48000 Hz
Gesamtbitrate 907188 kbps
Farbraum yuv420p
Container mov,mp4,m4a,3gp,3g2,mj2
Medientyp video/mp4
Dauer 5120 s
Dateiname DIVA-2016-732_hd.mp4
Dateigröße 4.096 byte
Bildwiederholfrequenz 25
Videobitrate 799840 kbps
Video Codec h264

Embed-Code

Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2016/17 Folgen 1-19 von 19