KIT-Bibliothek
Audio-/Videodatei publizieren

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 11.11.2015, Vorlesung 08

Autor

Sebastian Stüker

Beteiligtes Institut

Institut für Anthropomatik und Robotik (IAR)

Genre

Vorlesung

Beschreibung

  • 0:00:00 Starten
  • 0:00:24 Wiederholung: Laplace Transformation, Kurzzeitspektralanalyse
  • 0:06:06 Quelle Filter Modell der Sprache
  • 0:07:40 Helmholtzresonator
  • 0:12:25 Vokaldreieck
  • 0:18:34 Lineare Vorhersage (LPC)
  • 0:26:46 Interpretation der LPC Koeffizienten
  • 0:29:04 All-Pole Modell
  • 0:30:16 LPC Beispiel
  • 0:35:33 Cesptrum
  • 0:51:39 Diskrete Cosinustransformation
  • 0:59:11 Beispiel: Berechnung MFCC Koeffizienten
  • 1:00:02 Filterbank im Leistungsbetrags-Spektrum (Mel-Filterbank)
  • 1:00:41 Logarithmus auf Leistungsbetragsspektrum
  • 1:01:29 Cepstral-Koeffizienten
  • 1:03:19 Log-Spektrum rekonstruiert von (geliftertem) Cepstrum
  • 1:03:44 Vergleich Verschiedener Spektren
  • 1:04:21 Typische Vorverarbeitung
  • 1:13:00 Dynamische Merkmale
  • 1:14:10 Autokorrelation
  • 1:21:18 Nulldurchgangsrate
  • 1:23:15 Hauptkomponentenanalyse (PCA)

Laufzeit (hh:mm:ss)

01:23:50

Serie

Grundlagen der Automatischen Spracherkennung, WS 2015/2016

Publiziert am

17.11.2015

Fachgebiet

Informatik

Lizenz

KITopen-Lizenz

Auflösung 1280 x 720 Pixel
Seitenverhältnis 16:9
Audiobitrate 107407 bps
Audio Kanäle 2
Audio Codec aac
Audio Abtastrate 48000 Hz
Gesamtbitrate 913306 bps
Farbraum yuv420p
Container mov,mp4,m4a,3gp,3g2,mj2
Medientyp video/mp4
Dauer 5030 s
Dateiname DIVA-2015-776_hd.mp4
Dateigröße 4.096 byte
Bildwiederholfrequenz 25
Videobitrate 799805 bps
Video Codec h264

Mediathek-URL

Embed-Code

Grundlagen der Automatischen Spracherkennung, WS 2015/2016 Folgen 1-22 von 22