WEBVTT

00:07.930 --> 00:09.650
Was wollen wir heute machen?

00:09.750 --> 00:12.030
Heute fangen wir erstmal ganz langsam an.

00:12.270 --> 00:14.610
Erstmal gibt es ein bisschen was Organisatorisches zu besprechen.

00:15.970 --> 00:18.770
Danach werde ich einen kleinen Überblick geben über die Literatur.

00:19.410 --> 00:22.670
Also es ist ganz wichtig, dass ihr euch nicht nur auf die

00:22.670 --> 00:23.910
Vorlesungsfolien verlasst.

00:24.310 --> 00:26.730
Es ist ganz wichtig, zusätzliche Literatur zu lesen.

00:27.830 --> 00:31.610
Zum einen kann man alles das, was für die Spracherkennung wichtig ist,

00:31.670 --> 00:32.770
nicht auf so Folien packen.

00:32.770 --> 00:38.270
Zum anderen bin auch ich nicht derjenige, der vielleicht alles so

00:38.270 --> 00:41.450
genau erklären kann, dass ihr es sofort versteht anhand der Vorlesung

00:41.450 --> 00:42.870
oder auch nur anhand der Folien.

00:43.510 --> 00:46.230
Und deswegen ist es auch ganz wichtig, dass man das Ganze teilweise

00:46.230 --> 00:48.610
noch im Detail nachliest in der Fachliteratur.

00:48.950 --> 00:51.250
Plus um vielleicht auch nochmal andere Blickwinkel zu bekommen.

00:51.430 --> 00:54.270
Also gerade bei den komplizierteren Sachen, da gibt es

00:54.270 --> 00:57.850
unterschiedliche Autoren, unterschiedliche Wissenschaftler haben etwas

00:57.850 --> 00:59.430
anderen Blickwinkel auf die ganze Sache.

00:59.430 --> 01:01.690
Und das ist manchmal ganz interessant zu sehen, welche

01:01.690 --> 01:03.070
unterschiedlichen Blickwinkel es gibt.

01:03.390 --> 01:04.690
Und das hilft auch beim Verständnis.

01:05.890 --> 01:08.330
Dann werden wir uns erstmal um automatische Spracherkennung kümmern.

01:08.390 --> 01:09.110
Was ist das überhaupt?

01:09.410 --> 01:10.750
Und wofür brauche ich es überhaupt?

01:11.690 --> 01:14.170
Welche Vorteile hat automatische Spracherkennung?

01:14.570 --> 01:16.690
Welche Nachteile hat automatische Spracherkennung?

01:17.410 --> 01:20.250
Plus wir werden so etwas machen wie eine Taxonomie der Sprache.

01:20.690 --> 01:24.150
Sprich wir werden sehen, was für Arten von Sprache gibt es überhaupt?

01:24.610 --> 01:26.510
Wie teilen wir diese Arten von Sprache ein?

01:26.510 --> 01:30.650
Und abhängig davon, wie wir diese Arten von Sprache einteilen, leiten

01:30.650 --> 01:33.230
wir dann ab, welche verschiedenen Aufgaben für automatische

01:33.230 --> 01:34.310
Spracherkennung gibt es.

01:34.690 --> 01:37.350
Und davon abgeleitet wieder, was für verschiedene Arten von

01:37.350 --> 01:40.730
automatischen Spracherkennungsprogrammen kann ich denn bauen, muss ich

01:40.730 --> 01:41.110
denn bauen.

01:42.390 --> 01:46.590
Und dann die beliebte Frage ist, wir werden herausstellen, dass

01:46.590 --> 01:48.350
automatische Spracherkennung schwierig ist.

01:48.430 --> 01:49.910
Und die Frage ist, warum ist das schwierig?

01:49.910 --> 01:54.630
Sieht nach einer trivialen Frage aus, aber die Antwort darauf war

01:54.630 --> 01:57.190
zumindest, als ich sie das erste Mal beantworten musste, nicht ganz so

01:57.190 --> 01:57.510
trivial.

01:58.070 --> 02:00.870
Ich wurde da ziemlich kalt erwischt, als mir diese Frage mal gestellt

02:00.870 --> 02:01.150
wurde.

02:01.950 --> 02:04.570
Und je nachdem, wie viel Zeit wir haben heute, wie weit wir heute

02:04.570 --> 02:07.550
kommen werden, würde ich versuchen, gegen Ende noch ein kleines

02:07.550 --> 02:08.510
Experiment zu machen.

02:08.790 --> 02:12.390
Nur da mich jetzt gerade hier der Lautsprecher im Stich hell lässt,

02:13.050 --> 02:15.270
werden wir das wahrscheinlich dann auch nächste Woche verschieben

02:15.270 --> 02:15.510
müssen.

02:18.290 --> 02:20.670
Also organisatorisches, ihr habt alle den Vorlesungshörsaal gefunden.

02:20.830 --> 02:24.410
Das heißt, ihr wisst alle, dass es montags von 11.30 Uhr bis 13.00 Uhr

02:24.410 --> 02:28.710
und dann mittwochs 15.45 Uhr bis 17.15 Uhr jeweils hier stattfinden

02:28.710 --> 02:28.970
wird.

02:30.310 --> 02:33.690
Unser Institut hat eine Webseite, isl-ira-uka.de.

02:34.250 --> 02:38.050
Dort sind auch die einzelnen Vorlesungen und Seminare, Praktika, die

02:38.050 --> 02:39.410
wir anbieten, aufgelistet.

02:40.090 --> 02:42.190
Und von dort, ganz wichtig, geht es auch in den

02:42.190 --> 02:44.510
Vorlesungsarbeitsbereich im Studienportal.

02:45.730 --> 02:47.950
Dieser Vorlesungsarbeitsbereich, den werde ich heute im Laufe des

02:47.950 --> 02:48.970
Tages freischalten.

02:49.590 --> 02:52.950
Und im Vorlesungsarbeitsbereich findet ihr dann immer relativ

02:52.950 --> 02:57.210
kurzfristig, je nachdem wie schnell ich bin nach den Vorlesungen, die

02:57.210 --> 02:59.910
Vorlesungsfolien der jeweiligen Vorlesung.

03:00.170 --> 03:04.010
Plus ich werde sämtliche sonstige Literatur, die ich empfehle und auf

03:04.010 --> 03:06.850
die ich verweise und die ich verwende, werde ich da auch auf dieser

03:06.850 --> 03:07.850
Webseite auflisten.

03:08.130 --> 03:12.310
So dass ihr immer die zusätzliche Literatur habt und wisst, wo ihr die

03:12.310 --> 03:12.610
findet.

03:13.890 --> 03:15.930
Dann, was ist, wenn ihr noch eine Frage habt?

03:16.030 --> 03:18.330
Ihr könnt natürlich immer nach der Vorlesung zu mir kommen und Fragen

03:18.330 --> 03:18.670
stellen.

03:19.250 --> 03:22.350
Ich biete allerdings auch eine Sprechstunde an, Dienstags 14 Uhr

03:22.350 --> 03:22.950
offiziell.

03:23.430 --> 03:24.150
Wo findet man mich?

03:24.250 --> 03:27.430
Man findet mich im Gebäude 5020, das ist die Kinderklinik, da

03:27.430 --> 03:30.370
gegenüber von der Haupteinfahrt der Uni, das große alte Gebäude.

03:30.870 --> 03:33.890
Im zweiten OG, Nordflügel, das heißt, wenn ihr die Treppe hoch geht,

03:33.990 --> 03:38.170
müsst ihr links rein in den Flügel, dann ein bisschen den Flur lang

03:38.170 --> 03:39.670
und dann geht es links nochmal eine Treppe runter.

03:39.670 --> 03:42.130
Da, Zimmer 231, findet ihr mich.

03:42.530 --> 03:45.110
Ihr könnt auch jederzeit gerne versuchen, außerhalb der Sprechstunde

03:45.110 --> 03:46.130
vorbeizukommen.

03:46.610 --> 03:49.050
Besser ist es sicherlich, wenn er vorher einmal kurz anruft, um zu

03:49.050 --> 03:51.050
gucken, ob ich auch wirklich da bin oder auch Zeit habe.

03:51.330 --> 03:54.710
Weil manchmal oder häufig bin ich auch relativ viel unterwegs oder

03:54.710 --> 03:57.570
habe halt andere Termine, aber ich bin jetzt nicht sklavisch an diesem

03:57.570 --> 03:59.050
Dienstag 14 Uhr Termin gebunden.

03:59.490 --> 04:02.850
Einfach kleine E-Mail schreiben, vorher kurz Bescheid sagen und

04:02.850 --> 04:03.590
vorbeikommen.

04:04.070 --> 04:07.610
Und ganz wichtig, was ich sehr enttäuschend fand in den bisherigen

04:07.610 --> 04:10.730
Vorlesungen der vergangenen Jahre, wir haben diesen schicken

04:10.730 --> 04:15.030
Vorlesungsarbeitsbereich, da gibt es ein Wiki, ein Diskussionsforum,

04:15.230 --> 04:16.630
das hat bisher noch kein Mensch benutzt.

04:17.870 --> 04:21.850
Also vielleicht, wenn jetzt die nächste Generation, die mit sozialen

04:21.850 --> 04:25.530
Netzwerken und Web 2.0 zurechtkommt, vielleicht muss ich dann einen

04:25.530 --> 04:26.430
Twitter -Kanal einrichten.

04:26.550 --> 04:29.110
Vielleicht ist das, womit die Leute heutzutage umgehen.

04:29.190 --> 04:32.690
Vielleicht ist so ein Diskussionsforum schon viel zu veraltet und weiß

04:32.690 --> 04:33.890
keiner mehr, was damit anfangen soll.

04:34.170 --> 04:36.930
Aber ich würde halt vorschlagen, auch mal versuchen, das

04:36.930 --> 04:38.210
auszuprobieren und zu nutzen.

04:38.210 --> 04:41.610
Weil wenn irgendjemand eine Frage hat und ihm etwas unklar ist, dann

04:41.610 --> 04:43.590
ist die Wahrscheinlichkeit relativ hoch, dass er nicht der Einzige

04:43.590 --> 04:46.790
ist, sondern dass ich es geschafft habe, auch genügend andere Leute zu

04:46.790 --> 04:47.210
verwirren.

04:47.650 --> 04:50.170
Oder, was sicherlich auch häufig genug vorkommt, ist, dass ich auch

04:50.170 --> 04:50.830
mal einen Fehler mache.

04:51.830 --> 04:53.130
Ist keiner perfekt.

04:53.590 --> 04:54.850
Die Literatur ist nicht perfekt.

04:54.970 --> 04:57.810
Wenn man so in die Literatur reinschaut, wird man da auch noch

04:57.810 --> 04:58.930
genügend Fehler drin finden.

04:58.930 --> 05:02.110
Man wird, wenn man jetzt durch meine Vorlesung geht, genügend Fehler

05:02.110 --> 05:02.410
finden.

05:02.750 --> 05:05.950
Wenn also an jemandem ein Fehler auffällt, dann ist es gut, wenn er

05:05.950 --> 05:08.570
nicht nur mir Bescheid sagt, sondern vielleicht auch deine Diskussion

05:08.570 --> 05:08.930
anstößt.

05:09.850 --> 05:12.450
Plus sind nicht immer alle Sachen schwarz und weiß, richtig und

05:12.450 --> 05:12.730
falsch.

05:12.990 --> 05:14.990
Es gibt auch viele interessante Aspekte, die man vielleicht ein

05:14.990 --> 05:15.910
bisschen diskutieren möchte.

05:16.370 --> 05:19.650
Deswegen ruhig mal da die ganzen vielen Möglichkeiten nutzen, die

05:19.650 --> 05:22.190
dieser Vorlesungsarbeitsbereich bietet.

05:22.810 --> 05:26.450
Wie gesagt, jetzt noch nicht freigeschaltet, aber heute Nachmittag

05:26.450 --> 05:27.950
wird er dann freigeschaltet sein werden.

05:29.190 --> 05:30.870
Also, zur Vorlesung selber.

05:31.890 --> 05:32.830
Prinzipielle Master.

05:33.010 --> 05:35.290
Jetzt von Bayer Rasmus wurde ich schon gefragt, ob Bachelor auch in

05:35.290 --> 05:35.710
Ordnung ist.

05:35.730 --> 05:37.110
Ist auch hundertprozentig in Ordnung.

05:37.610 --> 05:41.750
Für die Studiengänge hier ist es eine Vorlesung im Masterstudiengang.

05:42.090 --> 05:46.750
Gibt es noch Diplomstudiengangs 1, 2?

05:48.070 --> 05:49.310
Okay, du kennst das sowieso alle.

05:51.830 --> 05:54.610
Im Diplomstudiengang ist es in den Vertiefungsfächern kognitive

05:54.610 --> 05:56.070
Systeme und Anthropomatik.

05:56.650 --> 05:59.630
Wenn man im Masterstudiengang ist, ist das ganze eingebunden in diese

05:59.630 --> 06:00.530
Modulstruktur.

06:01.070 --> 06:03.950
Da gibt es diese vier Module, in denen es angeboten wird, also

06:03.950 --> 06:07.650
kognitive Systeme für Mensch-Maschine-Kommunikation, multimodale

06:07.650 --> 06:10.250
Mensch -Maschine-Interaktion, Sprachverarbeitung.

06:10.830 --> 06:13.810
Und dann gibt es noch zusätzlich ein Modul, das heißt genauso wie die

06:13.810 --> 06:14.330
Vorlesung.

06:14.610 --> 06:16.490
Und in diesem Modul ist nur die Vorlesung drin.

06:17.150 --> 06:19.670
Wenn man also nicht irgendwie die Vorlesung mit irgendwas anderem

06:19.670 --> 06:24.250
prüfen möchte, was in irgendeinem der anderen Module drin ist, sondern

06:24.250 --> 06:27.890
nur für sich alleine und passt halt nicht, dann kann man auch die

06:27.890 --> 06:31.250
Vorlesung hier als sein eigenes Modul prüfen.

06:31.910 --> 06:34.890
Dementsprechend für die Vorlesung gibt es sechs ECTS, hat vier

06:34.890 --> 06:37.810
Semesterwochenstunden und Erasmus-Studenten hatten wir schon

06:37.810 --> 06:38.470
abgefrühstückt.

06:39.330 --> 06:41.290
Da wissen wir auch, wie das funktioniert.

06:42.430 --> 06:47.550
Dann, die Vorlesung selber schwebt nicht alleine im Raum, sondern es

06:47.550 --> 06:52.550
gibt ein paar begleitende Veranstaltungen dieses Semester.

06:52.550 --> 06:56.210
Da wäre zum einen ein Praktikum, nennt sich Praktikum Automatische

06:56.210 --> 07:01.710
Spracherkennung, findet montags statt von 14 bis 15.30 Uhr bei uns im

07:01.710 --> 07:03.030
Institut.

07:03.910 --> 07:08.750
Dieses Praktikum dient dazu, um mit dem Spracherkennungstoolkit, das

07:08.750 --> 07:12.310
wir bei uns am Institut entwickeln, sich vertraut zu machen.

07:12.510 --> 07:14.670
Um zu lernen, wie man mit diesem Toolkit dann ein

07:14.670 --> 07:19.090
Spracherkennungssystem trainiert und testet und baut.

07:19.830 --> 07:22.930
Ist also im Prinzip das praktische Gegenstück zu der ganzen Theorie,

07:23.110 --> 07:25.570
die ihr hier in der Vorlesung lernt.

07:25.730 --> 07:29.670
Alles, was in der Vorlesung theoretisch behandelt wird, wird meistens

07:29.670 --> 07:32.950
auch in dem Praktikum behandelt.

07:33.230 --> 07:35.370
Ein paar Sachen machen wir hier in der Vorlesung, die weiter

07:35.370 --> 07:37.050
fortgeschritten sind als im Praktikum.

07:37.570 --> 07:40.110
Viele Sachen, die man im Praktikum macht, sind auch einfach nur so ein

07:40.110 --> 07:43.310
kleiner schwarzer Kasten, wo man auf den Knopf drückt, ohne dass man

07:43.310 --> 07:45.670
jetzt genau die Theorie verstehen muss, wie das da innen drin

07:45.670 --> 07:46.210
funktioniert.

07:47.170 --> 07:50.650
Aber wenn man die Vorlesung hört, dann sieht man relativ schnell, wie

07:50.650 --> 07:54.470
sich jetzt da die Theorie in diesem Toolkit, das wir da bei uns

07:54.470 --> 07:56.230
entwickeln, abbildet.

07:56.950 --> 08:01.210
Es ist so, das Praktikum geht schneller voran als die Vorlesung.

08:02.190 --> 08:06.010
Vor allem zum Anfang hin hinkt die Vorlesung halt ein bisschen dem

08:06.010 --> 08:06.830
Praktikum hinterher.

08:06.830 --> 08:08.550
Es muss aber niemanden abschrecken.

08:08.650 --> 08:12.790
Wie gesagt, die Sachen im Praktikum werden auch jeweils erklärt und

08:12.790 --> 08:16.490
alles theoretisches Wissen, was man für das Praktikum braucht, bekommt

08:16.490 --> 08:18.150
man auch im Praktikum so mitgeteilt.

08:18.690 --> 08:21.090
Und wenn dann später die Themen in der Vorlesung kommen, dann fallen

08:21.090 --> 08:24.170
vielleicht die Steinchen wieder besser zusammen, sodass sich da besser

08:24.170 --> 08:24.950
das Puzzle ergibt.

08:26.510 --> 08:30.650
Dann haben wir auch noch insgesamt drei begleitende Seminare.

08:31.290 --> 08:33.990
Einmal gibt es das Seminar Multilinguale Spracherkennung.

08:33.990 --> 08:37.710
Da beschäftigt man sich dann halt viel mit solchen Themen, wie man

08:37.710 --> 08:41.350
Spracherkenner für mehrere Sprachen bauen kann oder wie man mehrere

08:41.350 --> 08:44.330
Sprachen nutzen kann, um einen Spracherkenner in einer neuen Sprache

08:44.330 --> 08:44.810
zu bauen.

08:45.510 --> 08:47.630
Ist als klassisches Seminar aufgebaut.

08:47.790 --> 08:52.030
Das heißt, ihr bekommt Material zum Lesen, Paper, Dissertationen,

08:52.090 --> 08:53.430
Diplomarbeiten oder Ähnliches.

08:53.430 --> 08:57.730
Ihr bereitet das Material zu einem Thema auf und präsentiert das dann

08:57.730 --> 09:03.730
zum Ende hin des Seminars in einem halbstündig 40-minütigen Vortrag.

09:05.130 --> 09:08.870
Findet immer Dienstag statt, 14 bis 15.30 Uhr.

09:12.310 --> 09:15.650
Moment, das ist der falsche Termin.

09:16.730 --> 09:18.710
Entschuldigung, das ist nämlich nicht Dienstag, sondern Donnerstag.

09:19.950 --> 09:20.890
Da geht es schon los.

09:23.390 --> 09:26.770
Das ist nämlich Donnerstag, 14 bis 15.30 Uhr.

09:30.680 --> 09:32.060
Auch wieder bei uns im Labor.

09:32.140 --> 09:34.020
Wer Interesse hat, einfach mir eine E-Mail schreiben.

09:34.420 --> 09:39.820
Wir treffen uns eigentlich erst nächste Woche zum ersten Termin.

09:40.240 --> 09:43.300
Die ganzen Seminare, die ganzen Praktika, das erste Treffen ist immer

09:43.300 --> 09:44.720
dann in der zweiten Vorlesungswoche.

09:45.220 --> 09:46.520
Also nächste Woche geht es erst los.

09:48.700 --> 09:49.700
Auch mit dem Praktikum.

09:50.080 --> 09:52.800
Praktikum, Seminar, das wird sonst zu hektisch, wenn man das alles in

09:52.800 --> 09:56.220
der ersten Vorlesungswoche macht, bis sich das alles eingelaufen hat.

09:56.320 --> 09:58.280
Deswegen, das macht man in Ruhe in der zweiten Vorlesungswoche.

10:02.540 --> 10:05.100
Doch, müsste drei ECTS haben, das haben wir nämlich geändert.

10:05.240 --> 10:05.700
Aus irgendeinem Grund.

10:05.760 --> 10:09.960
Wir hatten es mal mit zwei ECTS angeboten, aber da sieht man gleich,

10:10.040 --> 10:10.840
das sind alte Folien.

10:11.920 --> 10:13.900
Es ist inzwischen auf drei ECTS hochgenommen.

10:14.040 --> 10:16.500
Es war auch mal fälschlicherweise im Modulhandbuch für das

10:16.500 --> 10:18.740
Sommersemester drin, obwohl es eigentlich immer für das Wintersemester

10:18.740 --> 10:19.480
angekündigt war.

10:19.620 --> 10:22.420
Jetzt passt es auch im Modulhandbuch, dass es auch im richtigen

10:22.420 --> 10:23.540
Semester angekündigt wird.

10:26.120 --> 10:28.980
Wie gesagt, wer Interesse hat an irgendeinem Seminar oder Praktikum,

10:29.040 --> 10:31.980
das ich hier anpreise, einfach mir eine E-Mail schreiben oder halt zum

10:31.980 --> 10:34.940
ersten Termin kommen und Plätze sind genügend frei.

10:37.000 --> 10:40.600
Dann gibt es ein Seminar, das nennt sich Neuronale Netze und

10:40.600 --> 10:41.700
künstliche Intelligenz.

10:41.860 --> 10:44.340
Jetzt denkt man sich, das hat ja jetzt erstmal allgemein mit

10:44.340 --> 10:45.860
Spracherkennung direkt nichts zu tun.

10:45.960 --> 10:47.940
Das ist ja mehr so maschinelles Lernen im Allgemeinen.

10:48.580 --> 10:52.420
Aber gerade in diesem Seminar geht es darum, dass wir uns einmal

10:52.420 --> 10:55.640
neuronale Netze unter den Aspekten der automatischen Spracherkennung

10:55.640 --> 10:56.340
genau anschauen.

10:56.340 --> 11:01.600
Und, da wir es zusammen mit dem Tamim Ast vormachen, schauen wir es

11:01.600 --> 11:03.320
uns auch an unter dem Aspekt der Robotik.

11:03.500 --> 11:05.960
Das heißt, die Themen, die wir in diesem Seminar aufarbeiten werden,

11:06.360 --> 11:08.740
werden so hauptsächlich sein, Themen aus dem Bereich der

11:08.740 --> 11:11.340
Spracherkennung und aus dem Bereich der Robotik.

11:12.540 --> 11:15.980
Hat den Hintergrund, dass so die letzten zwei, drei Jahre neuronale

11:15.980 --> 11:19.620
Netze für automatische Spracherkennung wieder ein ganz heißes Thema

11:19.620 --> 11:20.180
geworden sind.

11:20.180 --> 11:24.620
Also lange Zeit wurden die vernachlässigt, wurden nicht benutzt.

11:24.720 --> 11:26.760
Es gab andere Techniken, die besser funktioniert haben.

11:27.260 --> 11:31.660
Und plötzlich vor so zwei, drei Jahren kam der große Durchbruch, dass

11:31.660 --> 11:34.240
plötzlich neuronale Netze wieder super gut funktionieren für

11:34.240 --> 11:36.000
automatische Spracherkennung.

11:36.360 --> 11:38.840
Wie man schon vor zwanzig Jahren, dreißig Jahren behauptet hat.

11:39.400 --> 11:41.960
Und seitdem ist das wieder ein ganz hoch aktuelles Thema.

11:41.960 --> 11:45.760
Und das wollen wir uns in diesem Seminar auch ein bisschen anschauen.

11:46.040 --> 11:50.060
Die Entwicklungen der letzten zwei, drei Jahre und vielleicht auch die

11:50.060 --> 11:52.780
Parallelen ziehen zu den Entwicklungen, die wir so vor zwanzig,

11:52.820 --> 11:53.680
dreißig Jahren schon hatten.

12:00.380 --> 12:01.060
Bedingt.

12:02.120 --> 12:03.580
Maschinelles Lernen schon gehört.

12:06.000 --> 12:09.680
Da können neuronale Netze in der Regel auch... Schon mal ein Multilea

12:09.680 --> 12:10.540
Perzeptron gehört?

12:11.380 --> 12:12.820
Ein Multilea Perzeptron?

12:13.540 --> 12:14.580
Schon mal gehört, den Begriff?

12:15.180 --> 12:15.780
Perzeptron?

12:19.400 --> 12:22.660
In kognitive Systeme kam eigentlich auch das Multilea Perzeptron, weil

12:22.660 --> 12:25.840
ich weiß, hin und wieder habe ich in kognitive Systeme die Ehre

12:25.840 --> 12:28.760
gehabt, Backpropagation vorstellen zu dürfen als Vertretung.

12:31.480 --> 12:34.680
Das reicht eigentlich fast schon aus, um das Seminar zu machen.

12:36.520 --> 12:40.500
Man muss sich ja sowieso anhand der Literatur die Sachen aneignen und

12:40.500 --> 12:43.880
aufbereiten und kann dann so ein paar vereinzelte Sachen nachschauen.

12:43.880 --> 12:45.760
Und das war ausgerechnet das, was man jetzt braucht, schon in der

12:45.760 --> 12:49.100
Vorlesung dran war, die Chancen sind sowieso eher mittelmäßig.

12:55.510 --> 12:58.030
Ja, die im Vorlesungsverzeihung, aber die ist eigentlich immer im

12:58.030 --> 12:58.670
Sommersemester.

12:59.370 --> 13:02.450
Also sie sollte eigentlich im Wintersemester sein und dann hatte sich

13:02.450 --> 13:04.570
der Herr Weibel kurzfristig entschieden, dass sie doch eigentlich ins

13:04.570 --> 13:07.150
Sommersemester soll und jetzt ist sie im Sommersemester.

13:08.510 --> 13:09.750
Deswegen war sie im letzten Sommersemester.

13:10.750 --> 13:13.170
Das Problem ist das ganze im Modulhandbuch nachzubilden.

13:13.250 --> 13:16.450
Es dauert immer so ein halbes Jahr, bis das eingepflegt ist und dann,

13:17.170 --> 13:19.270
wenn das mal da drin ist, das wieder rauszubekommen, ist schwierig.

13:19.510 --> 13:23.250
Nein, also er hatte kurzfristig vor Beginn des letzten Sommersemesters

13:23.250 --> 13:25.270
entschieden, dass er sie im Sommersemester halten will.

13:25.370 --> 13:27.510
Also war sie jetzt im Sommersemester und wird dann dementsprechend

13:27.510 --> 13:30.090
auch wieder im nächsten Sommersemester angeboten werden.

13:34.390 --> 13:39.670
Dann, letztes begleitendes Seminar ist nicht ganz so ein Seminar im

13:39.670 --> 13:40.410
klassischen Sinne.

13:41.090 --> 13:45.450
Es ist sowas in der Art wie eine Paper Reading Group, wo wir uns

13:45.450 --> 13:53.210
wöchentlich treffen und allgemein Artikel, aktuelle Publikationen zum

13:53.210 --> 13:55.200
Thema automatische Spracherkennung aufbereiten.

13:55.200 --> 13:59.780
An dem Seminar nehmen auch die Mitarbeiter am Institut alle teil und

13:59.780 --> 14:05.800
stellen immer reihum jede Woche ein paar Artikel vor, die sie auf

14:05.800 --> 14:07.920
Konferenzen gesehen haben und die sie interessant fanden.

14:08.420 --> 14:11.920
Jetzt ist das Problem, ich muss das noch abklären, ob das für

14:11.920 --> 14:13.220
Studenten anrechenbar ist.

14:13.340 --> 14:14.640
Also teilnehmen dürft ihr auf alle Fälle.

14:14.800 --> 14:18.160
Jederzeit herzlich willkommen da vorbeizukommen und sich das anzuhören

14:18.160 --> 14:18.880
und anzuschauen.

14:18.880 --> 14:23.500
Die Frage ist, ob ihr das Ganze anrechnen lassen könnt.

14:23.880 --> 14:27.140
Es kann sein, dass man sich das anrechnen lassen kann im Rahmen des

14:27.140 --> 14:28.920
generischen Seminarmoduls.

14:29.520 --> 14:31.800
Das muss ich aber noch abklären mit dem Studiensekretariat.

14:33.600 --> 14:35.840
Nichtsdestotrotz, wer sich interessiert für das Thema automatische

14:35.840 --> 14:39.300
Spracherkennung und Interesse hat, kann jederzeit dann vorbeikommen.

14:39.720 --> 14:42.220
Am besten vorher mir Bescheid sagen, weil ich kann nicht garantieren,

14:42.360 --> 14:44.960
dass das nicht hin und wieder ausfällt der Termin, weil entweder die

14:44.960 --> 14:47.740
Leute alle auf Projekttreffen sind oder krank oder sonst irgendwas.

14:49.340 --> 14:51.520
Aber ich kläre das auch noch ab, ob man das prüfen kann.

14:52.040 --> 14:54.260
Wer Interesse hat, einfach sich bei mir melden, dann kriegen wir das

14:54.260 --> 14:54.600
schon hin.

14:58.540 --> 14:59.960
Am besten mich nochmal dran erinnern.

15:00.860 --> 15:02.680
Es müsste eigentlich prüfbar sein.

15:02.760 --> 15:04.680
Es ist zwar im Vorlesungsverzeichnis, aber es ist nicht im

15:04.680 --> 15:05.640
Modulhandbuch.

15:05.740 --> 15:08.580
Aber wenn ich ein Seminar habe, das nicht im Modulhandbuch ist, meine

15:08.580 --> 15:12.020
ich, müsste ich das in diesem generischen Seminarmodul, das es da

15:12.020 --> 15:14.600
gibt, anrechnen lassen können.

15:14.600 --> 15:17.040
Es ist auf alle Fälle unbenotet, das Seminar.

15:18.020 --> 15:20.480
Und für den Studenten, der teilnimmt, wird das so ablaufen wie ein

15:20.480 --> 15:21.500
normales anderes Seminar.

15:21.600 --> 15:25.540
Er wird Artikel bekommen zu einem bestimmten Thema, wird die

15:25.540 --> 15:28.200
entsprechend aufbereiten müssen und dann so eine halbe Stunde, 45

15:28.200 --> 15:32.540
Minuten ungefähr dazu referieren und dieses Thema dann entsprechend

15:32.540 --> 15:32.980
vorstellen.

15:34.940 --> 15:36.840
Wer weiß nicht, wo die Kinderklinik ist?

15:38.840 --> 15:40.880
Okay, weil ansonsten hätte ich noch ein schickes Bild.

15:41.060 --> 15:46.600
Also wir sind da und mein Zimmer ist genau genommen da.

15:48.220 --> 15:49.300
Damit mich auch alle finden.

15:49.400 --> 15:53.480
Man hat, wenn man die Treppe hochkommt, eine 50-50 Chance, in den

15:53.480 --> 15:55.820
richtigen Flur zu laufen und die meisten nehmen wir den falschen Flur.

15:56.320 --> 15:58.240
Und wenn man dann im richtigen Flur ist, dann ist man immer noch nicht

15:58.240 --> 16:00.520
im richtigen Flur, weil man nochmal eine Halbtreppe runter muss, damit

16:00.520 --> 16:01.100
man mich findet.

16:02.000 --> 16:04.540
Aber wenn ihr da seid, einfach rumfragen, die Leute finden mich dann

16:04.540 --> 16:05.000
schon irgendwie.

16:07.120 --> 16:08.500
Zum Thema Literatur.

16:08.700 --> 16:10.260
Was sollte man sonst noch so lesen?

16:10.320 --> 16:13.540
Was kann man so die Vorlesung begleitend mitlesen?

16:13.600 --> 16:14.000
Was hilft?

16:14.620 --> 16:17.520
Zum einen das obere Buch, das ist ein ziemlich dicker Schinken.

16:17.620 --> 16:19.820
Ich habe es mir diesmal gespart, die Sachen mitzubringen.

16:20.240 --> 16:24.980
Das ist so ein dicker blauer Band, der sehr sehr umfangreich ist.

16:24.980 --> 16:27.580
Der enthält nicht nur Sachen zur automatischen Spracherkennung,

16:27.680 --> 16:32.060
sondern auch zur Sprachsynthese und deutlich mehr Themen, als wir hier

16:32.060 --> 16:33.380
in der Vorlesung besprechen werden.

16:34.380 --> 16:36.680
Nichtsdestotrotz ist das ein sehr gutes Referenzbuch, wenn man mal was

16:36.680 --> 16:39.300
nachschlagen will, weil es eben sehr umfassend ist, sehr umfangreich

16:39.300 --> 16:39.560
ist.

16:40.320 --> 16:43.680
Gerade in manchen Bereichen geht es sehr mathematisch vor und es ist

16:43.680 --> 16:47.340
teilweise sehr signallastig, was einfach daran liegt, dass zum

16:47.340 --> 16:50.000
Beispiel der Alex Acero jemand ist, der aus der Signalverarbeitung

16:50.000 --> 16:53.660
kommt und einen sehr starken Blick hat auf die Signalverarbeitung des

16:53.660 --> 16:56.600
Sprachsignals für die automatische Spracherkennung.

16:57.200 --> 16:59.480
Es ist aber ein sehr empfehlenswertes Buch, sollte es auch genügend

16:59.480 --> 17:01.420
Exemplare in der Bibliothek geben.

17:01.880 --> 17:04.660
Wenn es in der Informatikbibliothek nicht mehr da ist, dann in der

17:04.660 --> 17:07.620
Hauptbibliothek sollte es auch noch entsprechende Exemplare dazu

17:07.620 --> 17:07.860
geben.

17:08.720 --> 17:13.700
Dann, das nächste Buch ist kein Buch als solches, sondern es ist eine

17:13.700 --> 17:18.820
Sammlung von Papers, zusammengefasst und herausgegeben von dem Herrn

17:18.820 --> 17:20.360
Weibel und dem Herrn Kai-Fu Lee.

17:21.280 --> 17:24.540
Herr Weibel kennt alle wahrscheinlich dem Namen nach, der Herr Kai-Fu

17:24.540 --> 17:29.400
Lee ist auch ein Veteran der automatischen Spracherkennung, war früher

17:29.400 --> 17:33.880
an der Carnegie Mellon University, ging dann irgendwann weg, ich

17:33.880 --> 17:39.180
glaube, zu Google und macht aber inzwischen was komplett anderes,

17:39.320 --> 17:41.860
macht keine Spracherkennung mehr, glaubt irgendwas in Richtung

17:41.860 --> 17:44.120
Investmentbanking oder so, also macht was völlig anderes, aber

17:44.120 --> 17:47.740
nichtsdestotrotz auch ein Pionier und Veteran der automatischen

17:47.740 --> 17:48.380
Spracherkennung.

17:48.820 --> 17:51.300
Und diese Papersammlung ist schon ein bisschen älter, die kommt aus

17:51.300 --> 17:55.240
den 80er Jahren, Ende der 80er Jahre, 88, 89, so um den Dreh rum.

17:56.480 --> 18:00.820
Nichtsdestotrotz sehr lesenswert, es gibt einige Themen, zu denen es

18:00.820 --> 18:04.620
sehr gute Übersichtspaper gibt in diesem Buch, zum Beispiel zum

18:04.620 --> 18:06.060
Bereich der Hidden Markov Modelle.

18:06.620 --> 18:08.920
Wer kann sich noch an den Termen Hidden Markov Modelle erinnern,

18:09.040 --> 18:10.600
müsste in kognitive Systeme gefallen sein.

18:10.860 --> 18:13.120
Wenn einem mal wirklich interessiert, wie das so gut funktioniert,

18:13.520 --> 18:16.520
gibt es zum Beispiel in diesem Band ein sehr gutes Tutorial, nennt

18:16.520 --> 18:19.480
sich sinnigerweise A Tutorial in Hidden Markov Models and the

18:19.480 --> 18:21.860
Applications to Speech Recognition von dem Herrn Rabiner.

18:21.860 --> 18:24.340
Ist etwas sehr lesenswertes, werde ich auch nochmal darauf

18:24.340 --> 18:26.300
zurückkommen und nochmal darauf hinweisen.

18:26.700 --> 18:29.340
Ist also etwas, was sich wirklich sehr gut lesen lässt.

18:30.240 --> 18:34.800
Dann, das dritte ist wieder ein Buch von dem Fred Jelinek, der im

18:34.800 --> 18:38.800
vielen Bereich der Sprachmodellierung gemacht hat für automatische

18:38.800 --> 18:42.040
Spracherkennung, aber auch allgemein, wenn es um statistische Methoden

18:42.040 --> 18:43.860
geht, in der Spracherkennung sehr viel gemacht hat.

18:43.860 --> 18:48.620
Er ist vor zwei Jahren verstorben, war bis dahin immer noch Professor

18:48.620 --> 18:50.940
an der Johns Hopkins University.

18:51.860 --> 18:54.980
Ich werde auf einzelne Kapitel in diesem Buch zurückkommen,

18:55.260 --> 18:57.560
insbesondere dann später im Bereich der Sprachmodellierung.

18:58.740 --> 18:59.760
Dann, das vierte Buch.

18:59.860 --> 19:02.420
Endlich mal ein Buch auf Deutsch für all diejenigen, die mit Englisch

19:02.420 --> 19:03.280
auf Kriegsfuß stehen.

19:03.540 --> 19:06.680
Ist von dem Herrn Schukatala Marzini, nennt sich automatische

19:06.680 --> 19:07.440
Spracherkennung.

19:09.960 --> 19:12.540
Es gibt Leute, die mögen das Buch, es gibt Leute, die mögen das Buch

19:12.540 --> 19:12.800
nicht.

19:13.460 --> 19:14.580
Ist ganz unterschiedlich.

19:14.720 --> 19:17.460
Ich persönlich habe damals, als ich mich auf die Prüfung vorbereitet

19:17.460 --> 19:19.260
habe, auch sehr viel in das Buch reingeschaut.

19:20.160 --> 19:23.320
Sind auch einzelne Themen drin, die sehr gut aufbereitet sind, meiner

19:23.320 --> 19:23.920
Meinung nach.

19:24.300 --> 19:27.500
Und hat einen ganz großen Vorteil, wenn man nach sucht, und ich werde

19:27.500 --> 19:30.300
den Link reinstellen, kann man das Ganze sich als PDF im Netz

19:30.300 --> 19:32.800
runterladen, hat der Herr Schukatala Marzini entsprechend

19:32.800 --> 19:34.060
reingestellt.

19:34.920 --> 19:40.560
Und dann das letzte ist kein fertiges Buch, sondern eine Art Skript

19:40.560 --> 19:43.760
-Lehrbuch, das der Herr Roginer geschrieben hatte, zu dieser

19:43.760 --> 19:48.740
Vorlesung, als er sie noch gehalten hatte, vor so fünf, sechs Jahren

19:48.740 --> 19:49.120
ungefähr.

19:50.240 --> 19:54.180
Ist leider nie hundertprozentig ganz fertig geworden, aber in der

19:54.180 --> 19:58.180
Rohfassung werde ich es entsprechend zum Download im Vorlesungs

19:58.180 --> 19:59.120
-Arbeitsbereich anbieten.

20:00.240 --> 20:03.960
Ist auch ein sehr schöner Einstieg in die Materie, bereitet die Themen

20:03.960 --> 20:04.680
sehr gut auf.

20:05.800 --> 20:08.660
Man wird auch viele Dinge dann wiederfinden, die sich heute auch noch

20:08.660 --> 20:10.120
in der Vorlesung befinden.

20:10.120 --> 20:14.780
Also auch etwas, wo man sich schön daran orientieren kann, gerade als

20:14.780 --> 20:17.060
Anfänger im Bereich der automatischen Spracherkennung.

20:18.660 --> 20:23.380
Gut, kommen wir jetzt zum eigentlichen Thema, automatische

20:23.380 --> 20:23.960
Spracherkennung.

20:24.360 --> 20:26.020
Was ist automatische Spracherkennung?

20:27.160 --> 20:27.680
Wer weiß das?

20:28.460 --> 20:30.520
Wer kann das definieren, was das sein soll?

20:33.820 --> 20:35.940
Was stellst du dir unter automatische Spracherkennung vor?

20:39.730 --> 20:40.870
Was bedeutet Erkennung?

20:40.990 --> 20:41.870
Was erkenne ich?

20:49.490 --> 20:52.250
Ja, Wörter ist schon mal gut, also ich erkenne Wörter.

20:53.430 --> 20:55.330
Jetzt fragt mich einer, was soll die blödsinnige Frage?

20:55.730 --> 20:58.970
Die Frage ist gar nicht so dumm, dass ich die stelle, weil ich hatte

20:58.970 --> 21:02.910
auch schon mal Leute in der Prüfung nach der Vorlesung, die habe ich

21:02.910 --> 21:05.070
gefragt, was kommt bei so einem automatischen Spracherkenner hinten

21:05.070 --> 21:05.370
raus?

21:05.950 --> 21:08.730
Und da kam nicht als Antwort Wörter, sondern da kam als Antwort eine

21:08.730 --> 21:08.990
Zahl.

21:10.250 --> 21:13.470
Ist natürlich weniger sinnvoll, also Wörter ist schon mal das, was wir

21:13.470 --> 21:14.190
gerne rausholen wollen.

21:14.250 --> 21:15.150
Wir wollen Wörter erkennen.

21:15.230 --> 21:17.570
Wir wollen Wörter, die gesprochen wurden, erkennen in der

21:17.570 --> 21:18.730
automatischen Spracherkennung.

21:19.990 --> 21:23.070
Ich habe noch nie in irgendeinem Lehrbuch irgendwie eine Definition

21:23.070 --> 21:26.350
als solches gesehen, so schön formal, wie man das vielleicht bei

21:26.350 --> 21:27.350
Mathematikern oder so kennt.

21:27.470 --> 21:29.990
Deswegen habe ich mir selber eine aus den Fingern gesaugt.

21:29.990 --> 21:33.850
Und ich sage halt, automatische Spracherkennung ist erstmal die

21:33.850 --> 21:35.070
automatische Umwandlung.

21:35.190 --> 21:36.670
Deswegen automatische Spracherkennung.

21:37.890 --> 21:41.130
Menschlicher, gesprochener Sprache und dann in die dazugehörige

21:41.130 --> 21:43.510
Wortsequenz in maschinenverarbeitbarer Form.

21:44.810 --> 21:45.710
Also, was haben wir da drin?

21:45.770 --> 21:47.030
Das Automatische ist schon mal wichtig.

21:47.170 --> 21:48.270
Soll von einem Rechner passieren.

21:48.410 --> 21:50.930
Es soll kein Mensch sein, der irgendwie unterstützt vom Rechner das

21:50.930 --> 21:51.790
hinreicht.

21:52.750 --> 21:54.110
Dann gesprochene Sprache.

21:54.810 --> 21:55.730
Warum ist das so wichtig?

21:55.870 --> 21:57.290
Da heißt es Speech Recognition.

21:57.370 --> 21:58.690
Warum sage ich gesprochene Sprache?

21:59.330 --> 22:00.430
Kommen wir nachher noch drauf.

22:00.810 --> 22:03.690
Und dann, ich will halt die Wortsequenz, die gesprochen wurde, soll

22:03.690 --> 22:04.210
rauskommen.

22:04.510 --> 22:07.190
Und sie soll irgendwie in maschinenverarbeitbarer Form rauskommen.

22:07.670 --> 22:10.490
Das heißt also, wenn man sagt, hinterher aus dem Spracherkenner kommt

22:10.490 --> 22:13.030
eine Zahl raus, ist das wahrscheinlich nicht ganz so verkehrt, weil

22:13.030 --> 22:15.410
alles, was irgendwie maschinenverarbeitbar ist, in irgendeiner Form

22:15.410 --> 22:15.790
eine Zahl.

22:15.890 --> 22:17.510
Und die Zahl muss dann wieder so kodiert sein.

22:18.130 --> 22:20.050
Oder ich brauche irgendeinen Code, dass dann hinterher aus den vielen

22:20.050 --> 22:23.530
Zahlen, die rauskommen, dann entsprechend die entsprechende

22:23.530 --> 22:24.550
Wortsequenz rauskommt.

22:25.730 --> 22:27.230
Jetzt ganz wichtig.

22:27.830 --> 22:30.810
Etwas, was mich immer persönlich sehr, sehr, sehr stört.

22:31.270 --> 22:34.270
Jedes Mal, wenn ich eine Werbebroschüre in die Hand nehme, bei jeder

22:34.270 --> 22:36.970
zweiten Werbebroschüre, stößt mir das sauer auf.

22:38.030 --> 22:41.510
Wenn irgendein Marketingfuzzi daherkommt und Spracherkennungstechnik

22:41.510 --> 22:44.110
verkaufen will oder behauptet, in seinem Produkt sei

22:44.110 --> 22:47.450
Spracherkennungstechnik drin, dann erzählt er immer was von Voice

22:47.450 --> 22:48.430
Recognition sehr häufig.

22:48.690 --> 22:51.970
Dann sieht man häufig im Werbeprospekt, our latest voice recognition

22:51.970 --> 22:52.570
technology.

22:53.190 --> 22:54.430
Das ist falsch.

22:54.630 --> 22:57.650
Voice Recognition auf gut Deutsch heißt Stimmenerkennung oder

22:57.650 --> 22:58.430
Stimmerkennung.

22:59.570 --> 23:01.450
Warum machen wir keine Stimmerkennung?

23:01.570 --> 23:03.570
Und da hattest du schon das richtige Stichwort gesagt gleich am

23:03.570 --> 23:03.870
Anfang.

23:07.010 --> 23:07.890
Genau, sprecherunabhängig.

23:08.110 --> 23:11.030
Wir wollen bei so automatischen Spracherkennungssystemen, kommt es uns

23:11.030 --> 23:12.490
nicht darauf an, wer reinspricht.

23:12.890 --> 23:15.670
Also ich will nicht unbedingt hinterher annotieren, das war die Stimme

23:15.670 --> 23:16.330
von Willi Müller.

23:17.010 --> 23:20.630
Ich will auch nicht annotieren, ob er in hoher Stimmlage gesprochen

23:20.630 --> 23:23.190
hat oder tiefer Stimmlage, ob das ein Tenor war oder ein Sopran.

23:23.490 --> 23:24.390
Interessiert mich auch nicht.

23:24.750 --> 23:27.330
Bei der reinen Spracherkennung interessiert mich nur die Wortsequenz.

23:27.730 --> 23:30.310
Hat also von der Stimme überhaupt nichts zu tun.

23:30.950 --> 23:32.230
Stimme kann auch viel mehr sein.

23:32.310 --> 23:37.970
Wenn einer irgendwie da lustig mit la la la eine Melodie trellert,

23:38.070 --> 23:39.730
dann ist das für mich keine Spracherkennung, weil das keine

23:39.730 --> 23:40.730
gesprochene Sprache ist.

23:40.970 --> 23:45.830
Wenn einer irgendwie Töne produziert, da auf A die Tonleiter hoch und

23:45.830 --> 23:48.390
runter geht, dann ist das sicherlich unter Umständen eine schöne

23:48.390 --> 23:52.170
Stimme und eine schöne Aufgabe, diese Stimme dann zu erkennen und

23:52.170 --> 23:53.370
vielleicht der Tonleiter zu folgen.

23:53.450 --> 23:55.550
Mit Spracherkennung hat das überhaupt nichts zu tun, weil keine

23:55.550 --> 23:56.730
gesprochene Sprache drin ist.

23:58.650 --> 24:00.510
Und warum jetzt gesprochene Sprache?

24:00.730 --> 24:02.950
Warum lege ich da so großen Wert drauf?

24:02.970 --> 24:04.350
Was gibt es denn sonst noch für Sprache?

24:05.090 --> 24:08.210
Und da haben wir das Problem, dass wir da eine Ambiguität im Deutschen

24:08.210 --> 24:08.490
haben.

24:09.530 --> 24:11.290
Es gibt nämlich Sprache und es gibt Sprache.

24:12.030 --> 24:13.870
Im Englischen habe ich diese Ambiguität nicht.

24:14.030 --> 24:17.710
Im Englischen habe ich das Wort Speech und ich habe das Wort Language.

24:18.850 --> 24:21.350
Und Speech ist immer das Gesprochene.

24:22.470 --> 24:26.550
Da geht es darum, Konzepte in gesprochener Sprache, in gesprochenen

24:26.550 --> 24:28.330
Wörtern irgendwie zu transportieren.

24:29.030 --> 24:32.050
Wenn ich irgendwas auf ein Blatt Papier schreibe in den Text, das ist

24:32.050 --> 24:34.870
dann keine Speech mehr, weil eben keine gesprochene Sprache da ist.

24:35.450 --> 24:37.550
Im Deutschen ist das nach wie vor Sprache.

24:37.890 --> 24:40.850
Im Deutschen wären Speech und Language, also Language als das

24:40.850 --> 24:46.830
abstrakte Konzept, wie ich Gedanken irgendwie in einer kodierten Form

24:46.830 --> 24:47.470
fassen kann.

24:48.310 --> 24:52.030
Und Sprache umfasst natürlich auch teilweise die Aussprache einer

24:52.030 --> 24:55.650
Sprache, es umfasst die Grammatik, es umfasst aber auch die textuelle

24:55.650 --> 24:57.230
Form, die Rechtschreibung etc.

24:57.230 --> 25:01.070
Und kann also auch Texte betreffen, die niedergeschrieben wurden, die

25:01.070 --> 25:02.190
nichts mit Sprache zu tun haben.

25:02.370 --> 25:04.350
Das ist alles unter Language aufgefasst.

25:04.450 --> 25:07.110
Und im Deutschen unterscheiden wir halt nicht zwischen Sprache, die

25:07.110 --> 25:10.330
gesprochen ist und Sprache, die geschrieben ist und den gesamten

25:10.330 --> 25:15.310
abstrakten Sprachbegriff umfasst und deswegen gesprochene Sprache.

25:16.570 --> 25:21.070
Gut, jetzt habe ich jetzt schon hier über eine halbe Stunde geredet,

25:21.210 --> 25:25.570
alle eingeschlafen und damit wir wieder ein bisschen aufwachen.

25:27.210 --> 25:31.170
Wer kann sich erinnern, was stand als nächstes auf der Tagesordnung?

25:32.310 --> 25:34.890
Also wenn wir jetzt Sprache gegen Sprache haben und wir haben jetzt

25:34.890 --> 25:37.510
eine Definition erstmal der automatischen Spracherkennung, also wir

25:37.510 --> 25:40.210
wissen, es geht darum gesprochene Sprache irgendwie durch den Rechner

25:40.210 --> 25:41.450
niederschreiben zu lassen.

25:41.450 --> 25:43.990
Ist natürlich die Frage, und wozu soll das gut sein?

25:44.450 --> 25:46.890
Was gibt es für Anwendungen für automatische Spracherkennung?

25:48.250 --> 25:51.490
Und inzwischen ist es so, dass wir diese Anwendungen die menschliche

25:51.490 --> 25:54.670
Welt schon so weit durchdrungen haben, dass praktisch jeder Mensch,

25:54.730 --> 25:57.830
der mal in irgendeiner Form mit Spracherkennungstechnologie in Kontakt

25:57.830 --> 25:58.350
gekommen ist.

25:58.410 --> 26:00.390
Vor zehn Jahren war das unter Umständen noch nicht so der Fall.

26:00.490 --> 26:04.450
Da waren es meistens die, die Pech hatten und sind mit dieser

26:04.450 --> 26:06.210
Technologie ins Begriff bekommen.

26:06.210 --> 26:09.190
Aber inzwischen hat sich das schon so weit verbreitet, dass jeder

26:09.190 --> 26:10.450
schon mal irgendwie Kontakt mit hatte.

26:10.950 --> 26:14.330
Deswegen setzen sich einfach jetzt immer mal drei Leute zusammen und

26:14.330 --> 26:17.590
überlegen sich jetzt mal drei Minuten lang, was alles für Anwendungen

26:17.590 --> 26:20.110
es für automatische Spracherkennung geben könnte.

26:20.410 --> 26:22.530
Einfach mal, wie gesagt, immer drei Mann zusammensetzen.

26:22.790 --> 26:23.410
Stift, Papier.

26:23.510 --> 26:24.950
Wer keinen Stift hat, ist keine Ausrede.

26:25.010 --> 26:26.030
Ich habe Stift, ich habe Papier.

26:27.910 --> 26:32.030
Und einfach sich jetzt mal so drei Minuten überlegen, was für

26:32.030 --> 26:34.570
Anwendungen für automatische Spracherkennung gibt es.

26:34.870 --> 26:39.250
Es kann entweder sein, was euch schon mal begegnet ist, wo ihr schon

26:39.250 --> 26:41.270
mal irgendwie Kontakt hattet mit Spracherkennung.

26:41.610 --> 26:44.850
Oder es kann auch sein, was ihr gerne hättet, also was ihr vielleicht

26:44.850 --> 26:49.110
wollt, welche Anwendungen man mit automatischer Spracherkennung denn

26:49.110 --> 26:51.070
sollte bauen können, wollen, müssen.

27:00.870 --> 27:05.130
Zettel, Stift und einfach überlegen, was für Anwendungen gibt es für

27:05.130 --> 27:06.990
Spracherkennung, was könnt ihr euch vorstellen.

27:07.510 --> 27:10.050
Also entweder was habt ihr schon mal gesehen, womit habt ihr schon mal

27:10.050 --> 27:12.590
zusammengearbeitet oder was hättet ihr gerne.

27:12.950 --> 27:15.910
Einfach mal aufschreiben, so Brainstorming, einfach unterschreiben,

27:16.030 --> 27:20.930
welche allen Arten von Programmen, Anwendungen und so weiter ihr euch

27:20.930 --> 27:23.830
vorstellen könnt, die automatische Spracherkennung brauchen.

27:24.630 --> 27:27.210
Einfach so mal drei Minuten, einfach mal nur der Reihe nach

27:27.210 --> 27:30.450
runterschreiben und danach gucken wir, sagen wir mal, was wir alles so

27:30.450 --> 27:31.030
zusammenfinden.

27:44.260 --> 27:46.500
Okay, Zeit ist um.

27:49.160 --> 27:51.360
Dann schauen wir mal, dann sammeln wir mal so langsam.

27:52.020 --> 27:55.740
Fangen wir mal an, einfach der Reihe nach mal eine Anwendung nennen,

27:57.740 --> 27:59.080
telefonische Kundenberatung.

28:05.890 --> 28:08.170
Dann die nächste Gruppe, was habt ihr?

28:10.690 --> 28:11.290
Robotik.

28:16.820 --> 28:21.680
Dann nächste Gruppe, Speech-to-Speech-Translation, ich bin mal so

28:21.680 --> 28:29.420
Speech -to-Speech-Translation, STST, findet man häufig, kann man sich

28:29.420 --> 28:29.940
gleich merken.

28:29.940 --> 28:34.280
Dann nächste Gruppe, was für eine Anwendung?

28:39.140 --> 28:41.900
Okay, genau.

28:42.540 --> 28:46.460
Das Ganze kommt in den Begriff Computer Assisted Language Learning,

28:46.540 --> 28:47.500
gibt es einen tollen Begriff für.

28:48.740 --> 28:51.080
Auch wieder eine tolle Abkürzung, kann man sogar aussprechen, Call.

28:52.020 --> 28:55.020
Okay, dann Entschuldigung, was war deine Anwendung?

28:56.880 --> 28:57.400
Translation.

28:58.580 --> 28:59.940
Okay, gut, sehr gut.

29:00.540 --> 29:01.940
Dann, was hattet ihr so?

29:08.070 --> 29:08.590
Transkription.

29:09.370 --> 29:12.890
Ich nenne es mal Diktat oder allgemein...

29:12.890 --> 29:13.030
Ha?

29:14.890 --> 29:15.410
Okay.

29:16.850 --> 29:22.270
Ja, das Problem mit dem Wort Transkription ist, dass ganz häufig auch

29:22.270 --> 29:23.930
Spracherkennung auch Transkription nennt.

29:24.030 --> 29:26.790
Also man nennt es manchmal Speech-to-Text oder auch einfach den

29:26.790 --> 29:27.970
Transcription -Task.

29:27.970 --> 29:29.970
Dann ihr beide, was hattet ihr?

29:50.250 --> 29:50.790
Computersteuerung.

29:51.170 --> 29:51.890
Ja, super.

29:52.870 --> 29:53.950
Also Computersteuerung.

29:55.190 --> 29:56.490
Ich nenne es mal allgemein Steuerung.

30:02.570 --> 30:04.290
Okay, welche Gruppe da?

30:05.090 --> 30:07.810
Hinten ist noch eine, die... ihr hattet noch nichts, richtig?

30:11.580 --> 30:12.020
Protokollieren.

30:12.160 --> 30:12.880
Das ist eine schöne Sache.

30:13.040 --> 30:14.480
Ja, tolle Anwendung.

30:28.690 --> 30:29.630
Ne, eben nicht.

30:29.730 --> 30:31.310
Diktat und Protokoll, zwei unterschiedliche Lesern.

30:31.750 --> 30:34.910
Beim Diktat sitze ich da und diktiere einen Brief zum Beispiel oder

30:34.910 --> 30:35.250
ein Buch.

30:35.550 --> 30:39.110
Sehr geehrte Frau Müller, betreffend Ihr Schreiben vom 23.07.

30:39.210 --> 30:42.390
müssen wir Ihnen leider mitteilen, dass wir nicht in der Lage sind, zu

30:42.390 --> 30:44.210
diesen Konditionen den Auftrag anzunehmen.

30:44.210 --> 30:48.490
Bei einem Protokoll sitzen fünf Mann um den Tisch, halten ein Treffen

30:48.490 --> 30:52.790
ab, diskutieren irgendwas, besprechen irgendwas und am Ende gibt die

30:52.790 --> 30:56.270
Maschine Dir Mitschrift und sagt, erst hat der Herr Müller darauf

30:56.270 --> 30:59.430
bestanden, aber danach kam der Herr Meier und wollte das andere Thema

30:59.430 --> 31:02.430
haben und dann wurde der Herr Schmidt wütend und hat wild rumgebrüllt

31:02.430 --> 31:05.630
und dann hat der Herr Schulze meditierend eingegriffen.

31:05.630 --> 31:06.570
Das ist ein Protokoll.

31:07.450 --> 31:10.470
Das sind also zwei völlig unterschiedliche Sachen und wir werden

31:10.470 --> 31:12.870
nachher auch ein bisschen einteilen, worin die sich in der Sprache,

31:12.870 --> 31:14.190
die da vorkommt, auch unterscheidet.

31:14.330 --> 31:17.150
Und dementsprechend sind das auch zwei sehr, sehr unterschiedlich

31:17.150 --> 31:18.750
schwierige Aufgaben, wenn es darum geht.

31:19.590 --> 31:21.130
Hat noch irgendjemand irgendwas Interessantes?

31:25.310 --> 31:25.710
Überwachung.

31:27.470 --> 31:30.270
Ihr habt alle zu viel Zeitung gelesen in letzter Zeit, oder?

31:41.320 --> 31:44.180
Und da ist es dann eine Vorstufe.

31:44.700 --> 31:47.720
Das Natural Language Understanding baut darauf auf, aber dann ist es

31:47.720 --> 31:49.740
eine Vorstufe.

31:50.760 --> 31:52.520
Und jetzt raten wir mal, wie man Natural Language Understanding

31:52.520 --> 31:53.100
abkürzt.

31:56.550 --> 31:56.910
Genau.

31:58.830 --> 32:00.910
Nächste Abkürzung, die man sich merken kann, kommt häufig.

32:01.090 --> 32:01.830
Natural Language Understanding.

32:02.690 --> 32:07.270
Okay, jetzt schauen wir uns mal an, mit welcher Aufteilung... also da

32:07.270 --> 32:09.730
sind schon sehr viele Sachen gefallen, die ich auch bei mir auf der

32:09.730 --> 32:10.250
Liste habe.

32:11.230 --> 32:13.910
Ich will noch auf ein paar vielleicht kleine Besonderheiten ein

32:13.910 --> 32:14.390
bisschen eingehen.

32:14.950 --> 32:17.630
Bei mir steht als allererstes auf der Liste Diktat.

32:18.230 --> 32:20.910
Und warum steht bei mir als allererstes auf der Liste Diktat?

32:21.330 --> 32:25.830
Weil die Diktatanwendung so im Großen und Ganzen die erste Anwendung

32:25.830 --> 32:28.970
war, für die man überhaupt automatische Spracherkennungssysteme gebaut

32:28.970 --> 32:29.250
hat.

32:29.790 --> 32:34.010
Also was man wollte in guten alten Urzeiten war eine automatische

32:34.010 --> 32:34.690
Schreibmaschine.

32:35.190 --> 32:38.610
Dass man halt nicht mehr tippen muss und den Fingersystem lernen muss,

32:38.630 --> 32:41.450
sondern dass man einfach spricht und am Ende hat man das, was man

32:41.450 --> 32:43.690
gesprochen hat, diktiert hat, niedergeschrieben.

32:44.550 --> 32:46.850
Und jetzt was ganz wichtiges, Markus, für dich.

32:47.610 --> 32:49.710
Du schreibst ja auf, weil ich vergesse es jedes Mal.

32:52.010 --> 32:54.850
Was glaubt ihr, wann wurde das erste Mal so eine Diktatanwendung

32:54.850 --> 32:56.010
gebaut?

32:59.010 --> 32:59.790
Welches Jahrhundert?

33:01.990 --> 33:02.390
1950.

33:03.330 --> 33:05.190
Jemand was anderes zu bieten?

33:10.250 --> 33:12.630
Das ist jetzt das, wo er mich dran erinnern muss.

33:12.710 --> 33:16.510
Wir fliegen Ende dieser Woche in die USA, in die Carnegie Mell, in das

33:16.510 --> 33:16.990
Labor.

33:17.690 --> 33:20.570
Und da ist es, wenn man die Treppe hochläuft, haben die diesen schönen

33:20.570 --> 33:25.290
Artikel an der Wand hängen, aus dem Scientific American des Jahres

33:25.290 --> 33:26.830
1887.

33:28.010 --> 33:35.510
Wo jemand eben schon genau das versucht hat, 1887, 1880, versucht hat,

33:35.590 --> 33:37.310
eine automatische Schreibmaschine zu bauen.

33:37.590 --> 33:39.910
Das war natürlich damals noch nichts mit Computern, sondern das war

33:39.910 --> 33:43.530
was Mechanisches, wo man versucht hat, mit mechanischen akustischen

33:43.530 --> 33:46.950
Filterbänken dann so eine Schreibmaschine eben zu bauen.

33:47.570 --> 33:50.570
Und der Artikel, der hängt halt da in dem Labor und wenn wir da sind,

33:50.650 --> 33:52.990
den legen wir uns diesmal über einen Fotokopierer, den bringe ich mal

33:52.990 --> 33:53.850
mit, weil den hätte ich gerne.

33:53.850 --> 33:55.330
Das finde ich nämlich spannend.

33:55.490 --> 33:56.290
Das ist nämlich eine klasse Sache.

33:57.470 --> 34:00.470
Ansonsten, wenn es darum geht, sowas mit Computern zu machen, 50er

34:00.470 --> 34:06.630
Jahre, ja, aber ein bisschen später, dass eigentlich wirkliche

34:06.630 --> 34:07.590
Diktatanwendung kam.

34:07.650 --> 34:10.690
In so den 50er Jahren, das waren erst am Anfang immer noch so kleine

34:10.690 --> 34:14.510
Spracherkennungssysteme, wo man so einzelne Wörter, einzelne Vokale

34:14.510 --> 34:16.610
oder einzelne Phoneme versucht hat zu erkennen.

34:16.610 --> 34:20.170
Aber so richtig kontinuierliche, diktierte Sprache war zu dem

34:20.170 --> 34:23.990
Zeitpunkt noch sehr, sehr schwierig und auch sehr, sehr unzuverlässig

34:23.990 --> 34:26.770
und hat auch die damaligen Rechner noch deutlich überlastet.

34:27.730 --> 34:29.370
Wo findet man heutzutage Diktat?

34:30.430 --> 34:32.990
Hat irgendeiner hier schon mal so eine Diktatsoftware ausprobiert?

34:32.990 --> 34:35.470
Ja, was?

34:35.670 --> 34:35.970
Welche?

34:38.790 --> 34:40.990
Ne, aber was hast du für eine Anwendung schon mal ausprobiert?

34:43.770 --> 34:45.090
Ah, ok.

34:45.770 --> 34:46.950
Wie bist du da rangekommen?

34:48.010 --> 34:48.630
Ah, ok.

34:48.710 --> 34:50.710
Gut, du zählst nicht, du weißt zu viel.

34:52.430 --> 34:55.810
Hat irgendjemand sonst schon mal mit so einem Diktiersystem, das man

34:55.810 --> 34:57.190
so für den Konsumer bekommt, gearbeitet?

34:58.750 --> 35:01.810
Zum Beispiel, das Dragon Dictate auf dem iPhone.

35:01.990 --> 35:02.770
Und hat das gut funktioniert?

35:05.350 --> 35:06.810
Inzwischen funktioniert es so halbwegs.

35:11.120 --> 35:11.500
Gut,

35:16.730 --> 35:18.150
aber es ist dann wieder kein Diktiersystem.

35:18.290 --> 35:19.870
Also mir geht es jetzt so richtig um Diktiersystem.

35:20.450 --> 35:24.870
So richtig so, weiß ich, Dragon Naturally Speaking und sowas in der

35:24.870 --> 35:25.010
Art.

35:25.070 --> 35:25.910
IBM Viya Voice.

35:26.390 --> 35:27.710
Das sind so diese Diktatanwendungen.

35:27.710 --> 35:30.370
Und warum ich da jetzt so ein bisschen frage, ob das schon mal jemand

35:30.370 --> 35:30.910
gemacht hat.

35:31.610 --> 35:34.370
Hat schon mal einer größere Texte so diktiert mit so einem Ding?

35:37.430 --> 35:40.210
Ne, fragt sich jeder warum, weil ihr schreibt wie die Weltmeister.

35:40.290 --> 35:42.810
Ihr schreibt Bachelorarbeiten, ihr schreibt Masterarbeiten, ihr müsst

35:42.810 --> 35:44.190
Seminarausarbeitungen schreiben.

35:44.650 --> 35:48.070
Warum hat keiner dafür eine Art Spracherkennungssoftware verwendet?

35:51.120 --> 35:51.920
Ja, und?

35:56.130 --> 35:56.570
Genau.

35:57.010 --> 35:59.970
Und dass es schwierig ist Sachen zu löschen und wieder einzufügen.

36:00.070 --> 36:01.510
Was sagt dir das über dein Diktieren?

36:05.140 --> 36:05.580
Richtig.

36:06.060 --> 36:09.420
Das ist nämlich die große Illusion, keiner von uns kann wirklich gut

36:09.420 --> 36:09.940
diktieren.

36:10.160 --> 36:12.760
Also die Leute, die diktieren können, das sind meistens irgendwelche

36:12.760 --> 36:16.880
Manager, die halt täglich fünfmal den gleichen Brief schreiben, nur

36:16.880 --> 36:19.560
mit leicht geänderten Inhalten und die schon im Kopf gut vorformuliert

36:19.560 --> 36:20.600
haben, was da jetzt rein muss.

36:20.600 --> 36:24.120
Aber gerade wenn man so längere Texte diktieren will, so arbeiten wir

36:24.120 --> 36:24.240
nicht.

36:24.320 --> 36:26.860
Wir formulieren nicht den Text bei uns im Kopf vor und dann wird der

36:26.860 --> 36:28.440
in einem so runtergesprochen.

36:28.840 --> 36:31.520
Sondern was wir machen ist, wir springen viel hin und her, setzen

36:31.520 --> 36:35.760
Bausteine neu zusammen, setzen neue Sätze zusammen, stellen um und so

36:35.760 --> 36:36.400
weiter und so fort.

36:36.820 --> 36:39.620
Und das dann alles mit Sprache zu machen, ist halt extrem schwierig.

36:40.500 --> 36:45.100
Deswegen, so Diktat ist meistens heutzutage nicht in jedem Haushalt

36:45.100 --> 36:46.820
vorhanden, wie man das früher mal geträumt hat.

36:47.380 --> 36:50.020
Microsoft und Apple, die haben alle mal mit ihren Betriebssystemen

36:50.020 --> 36:53.560
Spracherkennungssoftware mitgegeben, damit man auch in Word oder in

36:53.560 --> 36:56.160
welchem Textverarbeitungsprogramm auch immer da halt Texte diktieren

36:56.160 --> 36:57.680
kann, hat sich nie durchgesetzt.

36:58.000 --> 37:00.600
Zum einen natürlich, weil die Technik halt komplex ist und immer noch

37:00.600 --> 37:03.160
sehr fehlerbehaftet, zum anderen aber auch, weil wir Menschen halt

37:03.160 --> 37:04.080
nicht so richtig diktieren.

37:04.760 --> 37:08.280
Diktiert wird nur in wirklich wenigen speziellen Anwendungsbereichen.

37:08.900 --> 37:11.800
Also zum Beispiel im Sekretariat im Vorzimmer von irgendeinem

37:11.800 --> 37:15.740
Geschäftsführer, der sonst auch gewohnt ist und das jahrelang geübt

37:15.740 --> 37:17.760
hat, seine Briefe runter zu diktieren.

37:18.440 --> 37:21.800
Für sowas könnte man versuchen, Spracherkennungssoftware zu verwenden.

37:22.340 --> 37:24.120
Oder halt in Anwaltskanzleien zum Beispiel.

37:24.460 --> 37:25.580
Warum in Anwaltskanzleien?

37:25.620 --> 37:27.180
Was ist das Schöne an Anwaltskanzleien?

37:28.600 --> 37:30.480
Hat schon mal einer einen Brief bekommen von einem Anwalt?

37:32.920 --> 37:36.020
Sehr beschränkte Domäne, plus es steht sowieso immer genau das Gleiche

37:36.020 --> 37:36.160
drin.

37:36.160 --> 37:41.500
Also das sind dann eine beschränkte Anzahl an Brieftypen und je

37:41.500 --> 37:44.300
nachdem, wenn der eine halt spezialisiert ist auf, keine Ahnung,

37:45.280 --> 37:48.420
Geschwindigkeitsüberschreitung und der andere macht halt, keine

37:48.420 --> 37:51.960
Ahnung, welchen Kleckerklam auch immer, Ladendiebstähle oder der

37:51.960 --> 37:53.860
nächste macht, keine Ahnung, Mietrecht.

37:54.260 --> 37:56.820
Das ist immer eine sehr beschränkte Domäne und das sind immer wieder

37:56.820 --> 37:59.980
die gleichen Textbausteine, die einfach nur in neuer Konfiguration mit

37:59.980 --> 38:02.980
vielleicht leichten Änderungen zusammengearbeitet, äh, zusammengebaut

38:02.980 --> 38:03.200
werden.

38:03.200 --> 38:05.280
Das kann man gut diktieren, das kann man gut erkennen.

38:05.760 --> 38:06.840
Oder halt Ärzteberichte.

38:08.320 --> 38:09.960
Und welche Ärzteberichte insbesondere?

38:14.420 --> 38:15.720
Ja und welche besondere?

38:16.860 --> 38:20.320
Genau, also Radiologen sind da besonders, äh, gut für, weil

38:20.320 --> 38:22.760
Radiologen, die machen im Prinzip den ganzen Tag nix anderes.

38:22.900 --> 38:25.300
Die machen entweder Bilder, aber die Bilder machen sie meistens nicht

38:25.300 --> 38:26.860
selber, das macht das technische Personal.

38:27.240 --> 38:28.600
Und das macht der Radiologe.

38:28.660 --> 38:30.800
Der Radiologe guckt sich das Bild hinterher an und stellt eine

38:30.800 --> 38:31.300
Diagnose.

38:32.240 --> 38:36.100
Er stellt einen Bericht aufgrund des Bildes, den er sieht und der

38:36.100 --> 38:38.280
Diagnose, die er gestellt hat und das geht dann wieder zurück an

38:38.280 --> 38:40.960
irgendeinen anderen Facharzt, der dann basierend darauf sich halt den

38:40.960 --> 38:43.160
Bericht anschaut, das Bild anschaut und dann entscheidet, was gemacht

38:43.160 --> 38:43.380
wird.

38:43.820 --> 38:49.340
Und für die, die haben auch ein sehr eingeschränktes Vokabular, äh,

38:49.580 --> 38:54.080
sehr vorhersagbar, also es ist immer, die nehmen auch immer eine sehr

38:54.080 --> 38:56.660
formelhafte Sprache, weil das muss ja hinterher der andere Facharzt

38:56.660 --> 38:59.200
auch verstehen können und da eignigt man sich halt auf so eine

38:59.200 --> 39:02.860
gemeinsame Sprache, dass das möglichst eindeutig ist, was hinterher

39:02.860 --> 39:03.520
bei herauskommt.

39:04.980 --> 39:08.320
Und dafür eignen sich die halt ganz gut und da kann man auch gut, wie

39:08.320 --> 39:09.580
man halt an dieser Firma M.

39:09.720 --> 39:12.840
Model sieht, sehr gut gutes Geld mit verdienen, aus dem ganz einfachen

39:12.840 --> 39:13.220
Grunde.

39:14.080 --> 39:17.160
Früher war es so, da hat der Arzt seinen Bericht auf Tonband

39:17.160 --> 39:19.860
gesprochen, dann kam das Tonband über Nacht zu irgendeiner Sekretärin,

39:19.920 --> 39:22.300
die hat es halt runtergetippt, ging dann zurück an den Arzt, der hat

39:22.300 --> 39:24.720
es nochmal korrekturgelesen, muss das Ganze dann unterschreiben, weil

39:24.720 --> 39:27.400
wenn da was Falsches drinsteht, kann es Menschenleben kosten, also das

39:27.400 --> 39:30.720
muss nochmal abgesegnet und abgezeichnet werden letztendlich.

39:31.580 --> 39:32.600
Und dann ging das zurück.

39:32.740 --> 39:34.660
Und diese Sekretärin, die kostet halt viel Geld.

39:35.060 --> 39:37.580
Und wenn man das halt durch die Maschine ersetzen kann, selbst wenn

39:37.580 --> 39:40.080
hinterher nochmal jemand drüber gucken muss, aber statt das alles

39:40.080 --> 39:42.420
runterzutippen vielleicht nur noch ein paar Korrekturen machen muss

39:42.420 --> 39:45.700
und ansonsten macht das die Maschine, kann man sehr viel Geld und dann

39:45.700 --> 39:47.200
am Ende auch sehr viel Zeit sparen.

39:47.200 --> 39:50.180
Deswegen hat sich sowas gerade im Bereich der Radiologie und auch bei

39:50.180 --> 39:53.180
größeren Krankenhäusern, OP-Berichte, aber wie gesagt, auch

39:53.180 --> 39:56.840
insbesondere bei Radiologie doch sehr durchgesetzt.

39:57.380 --> 40:00.060
Da du da Praktikum gemacht hast, weißt du wahrscheinlich auch, was ist

40:00.060 --> 40:02.260
das Problem bei den Ärzteberichten.

40:05.200 --> 40:06.560
Aber die sind vorhersehbar.

40:06.720 --> 40:09.860
Also da guckst du halt mal die Ärzteberichte der letzten 30 Jahre

40:09.860 --> 40:12.520
durch und dann wirst du meistens alle Termini zusammen haben.

40:12.520 --> 40:16.160
Es gibt noch einen ganz anderen Grund, weil die machen den ganzen Tag

40:16.160 --> 40:19.920
nichts anderes als solche Berichte runterzudiktieren.

40:20.560 --> 40:24.220
Das ist halt langweilig und stupide und keine wirklich sonderlich

40:24.220 --> 40:24.960
interessante Aufgabe.

40:25.060 --> 40:27.500
Die interessante Aufgabe ist, sich das Bild anzuschauen und zu gucken,

40:27.600 --> 40:28.280
was da kaputt ist.

40:28.340 --> 40:30.480
Aber die interessante Aufgabe ist nicht, diesen blöden Text zu

40:30.480 --> 40:33.040
diktieren, was ich jetzt dutzendfach am Tag machen muss.

40:33.040 --> 40:37.220
Ein befreundeter Arzt von mir, der auch in den USA jetzt praktiziert,

40:37.600 --> 40:41.100
hat mir mal gesagt, das, was so die Radiologen da diktieren, und

40:41.100 --> 40:43.660
früher haben die das halt auch viel so über Telefon gemacht und dann

40:43.660 --> 40:46.180
wurde das auf Band aufgezeichnet und dann per Hand transkribiert, was

40:46.180 --> 40:49.120
die Radiologen so transkribieren, das ist so das Schlimmste, was man

40:49.120 --> 40:50.080
sich jemals anhören kann.

40:50.080 --> 40:54.740
Die häufig nuscheln und leiern die und das ist einfach nur noch so

40:54.740 --> 40:55.540
runtergerattert.

40:55.760 --> 40:58.960
Das ist schon als Mensch extrem schwierig zu verstehen.

40:59.100 --> 41:02.320
Und was hat er gemeint, was ihn am meisten erschreckt hat, ist dann so

41:02.320 --> 41:04.900
ein Arzt in einem Krankenhaus, der ist dann auch relativ gehetzt immer

41:04.900 --> 41:07.080
und hat wenig Zeit und muss immer von Termin zu Termin.

41:07.420 --> 41:09.640
Und wenn der dann halt mal am Telefon hängt und seinen Bericht

41:09.640 --> 41:12.160
runterdiktiert, dann hat er auch gerade Zeit und isst währenddessen

41:12.160 --> 41:13.140
auch schnell nochmal was.

41:15.040 --> 41:17.800
Und dementsprechend ist es dann doch wieder ein bisschen schwieriger,

41:17.860 --> 41:18.900
das Ganze zu erkennen.

41:20.000 --> 41:22.220
Dann Steuerung hatten wir irgendwo.

41:22.700 --> 41:23.740
Genau, hier Steuerung.

41:23.920 --> 41:27.120
Also allgemein Steuerung von Geräten und zwar möglichst ohne Hände.

41:27.940 --> 41:32.120
Also Desktop-PC, so wie das Microsoft mal oder Apple gemacht hat, hat

41:32.120 --> 41:33.380
sich nie so richtig durchgesetzt.

41:35.300 --> 41:37.020
Dann Mobiltelefone, da ist es schon interessanter.

41:37.160 --> 41:39.700
Ich meine, früher die Mobiltelefone, da hat man dann seine Zehn

41:39.700 --> 41:42.680
-Zeichen -Tastatur drauf, seine Zehn-Ziffern-Tastatur drauf und war

41:42.680 --> 41:43.620
klein und knibbelig.

41:44.480 --> 41:46.760
Gut, die Jugend war dann hinterher relativ schnell dabei, dann

41:46.760 --> 41:49.540
trotzdem darauf SMS in unglaublicher Geschwindigkeit tippen zu können.

41:50.020 --> 41:52.680
Heutzutage hat man die Smartphones mit voller Tastatur und allem

41:52.680 --> 41:52.960
Pipapo.

41:53.160 --> 41:55.700
Aber gerade wenn man so ein kleines Ding hat, ich meine, da ist schon

41:55.700 --> 41:58.720
ein Mikrofon drin, das ist dafür eigentlich originär gedacht, um

41:58.720 --> 41:59.600
Sprache zu übertragen.

41:59.600 --> 42:03.260
Sowas mit Sprache zu steuern sollte eigentlich eine ganz nette Sache

42:03.260 --> 42:03.560
sein.

42:03.820 --> 42:05.400
Oder auch sowas wie Navigationssysteme.

42:05.460 --> 42:07.480
Also alles, wo ich so einen kleinen Kasten habe, wo keine große

42:07.480 --> 42:11.260
Tastatur dran kommt, wo keine Maus dran kommt, da ist das extrem

42:11.260 --> 42:11.680
schwierig.

42:11.960 --> 42:14.680
Durch die Touch-Displays ist es natürlich wieder ein bisschen

42:14.680 --> 42:15.600
einfacher geworden.

42:16.700 --> 42:18.280
Das ist so ein bisschen so ein Wettrennen.

42:18.340 --> 42:21.640
Aber es gab lange Zeit, da gab es halt nicht so schöne Touch-Screens,

42:21.740 --> 42:22.920
wo man drauf rumschmieren konnte.

42:23.060 --> 42:24.980
Da hatte man nur so einen kleinen Bildschirm und so einen kleinen

42:24.980 --> 42:27.400
Kasten und da musste man irgendwie Sachen eingeben können.

42:27.900 --> 42:30.620
Und das halt mit so Knöpfen ist unter Umständen schwierig, weil klein

42:30.620 --> 42:33.140
und nicht nur weniger und dann mit Sprache ging das einfacher.

42:33.800 --> 42:35.060
Dann das letzte System.

42:35.180 --> 42:36.200
Pick-The-Voice-Systeme.

42:36.240 --> 42:37.520
Hat da schon mal jemand was von gehört?

42:39.600 --> 42:42.320
Sind alle Studenten hier, alle reiche Informatiker.

42:42.840 --> 42:45.340
Bei euch hat noch keiner bei Amazon in Pforzheim gearbeitet,

42:45.480 --> 42:46.420
wahrscheinlich im Lager, oder?

42:47.320 --> 42:50.160
Weil hier Weihnachten-Ferien-Jobs suchen, sind mal Leute, die jetzt

42:50.160 --> 42:51.460
die ganzen Weihnachtspakete packen.

42:52.900 --> 42:55.740
Da bin ich auch nur durch Zufall drauf gestoßen.

42:55.840 --> 42:58.980
Das ist so eine Anwendung von Spracherkennung, die ich immer aufführe,

42:59.080 --> 43:03.120
um zu zeigen, dass die wahren Anwendungen von Spracherkennung, für die

43:03.120 --> 43:05.700
es besonders gut geeignet ist und für die es besonders interessant

43:05.700 --> 43:08.660
ist, nicht so diese offensichtlichen Sachen sind wie Diktat und

43:08.660 --> 43:11.820
automatische Schreibmaschine, sondern dass die von uns

43:11.820 --> 43:14.520
Normalsterblichen meistens gut versteckt liegen.

43:14.520 --> 43:18.020
Und an diese Pick-The-Voice-Systeme bin ich dadurch gekommen, dass

43:18.020 --> 43:22.020
mich mal ein Kommilitone, der seine Diplomarbeit gemacht hatte, zu

43:22.020 --> 43:22.840
Rate gezogen hat.

43:22.980 --> 43:25.420
Der hatte seine Diplomarbeit bei den Wirtschaftswissenschaftlern

43:25.420 --> 43:29.000
gemacht, nämlich gerade zu solchen Pick-The-Voice-Systemen, und da

43:29.000 --> 43:29.960
ging es um Spracherkennung.

43:30.080 --> 43:32.300
Und dann hat er sich die Leute, die diese Pick-The-Voice-Systeme

43:32.300 --> 43:36.860
anbieten, mal herkommen lassen, die Vertreter, die Handelsvertreter

43:36.860 --> 43:37.380
von Deutschland.

43:37.380 --> 43:41.180
Und die sollten ihnen ihre Systeme vorstellen, damit er die dann bei

43:41.180 --> 43:42.840
sich in der Diplomarbeit so vergleichen konnte.

43:43.660 --> 43:46.040
Und da er nicht wollte, dass die Marketingleute ihm irgendwelchen

43:46.040 --> 43:48.360
Blödsinn erzählen, hat er mich gefragt, ob ich da nicht mal reinhören

43:48.360 --> 43:50.360
könnte, ob das dann alles so Sinn macht, was sie erzählt.

43:50.800 --> 43:52.740
Gut, was sind Pick-The-Voice-Systeme und was haben die mit

43:52.740 --> 43:53.600
Spracherkennung zu tun?

43:54.280 --> 43:55.300
Man muss sich das so vorstellen.

43:55.380 --> 43:57.220
Bei Amazon bestelle ich jetzt fünf Sachen.

43:57.340 --> 44:00.820
Eine Kaffeemaschine, zwei Bücher, eine CD und einen iPod.

44:01.740 --> 44:04.460
Das Ganze kommt alles in ein Paket und wird mir zugeschickt.

44:04.940 --> 44:07.720
Und um dieses Paket jetzt zu packen, gibt es dieses riesen

44:07.720 --> 44:08.820
Hochregallager.

44:09.020 --> 44:10.220
Überall über Deutschland verteilt.

44:10.960 --> 44:12.500
Eines der neuesten ist in Pforzheim.

44:13.380 --> 44:15.860
Da stehen in großen Regalen überall diese ganzen Geräte rum.

44:16.000 --> 44:18.360
Und jetzt müssen die ganzen Geräte aus den Regalen und aus den

44:18.360 --> 44:21.360
Regalfächern in dieses eine Paket rein, das an mich soll.

44:22.300 --> 44:25.900
Ganz früh hat man das so gemacht, Blatt ausgedruckt, mit was alles in

44:25.900 --> 44:29.880
dieses Paket rein soll, so mit Häkchen dran setzen und in welchem

44:29.880 --> 44:32.200
Regalfach, in welchem Gang man das Ding findet.

44:32.960 --> 44:34.840
Mit ein bisschen Intelligenz noch dahinter, dass die in der

44:34.840 --> 44:37.760
Reihenordnung auf dem Zettel sind, dass ich nicht so weit laufen muss.

44:38.080 --> 44:41.280
Und dann ist ein Mensch mit Einkaufswagen oder was Einkaufswagen

44:41.280 --> 44:44.680
-ähnlichem losgedüst, durch dieses Regallager, hat geguckt, erste

44:44.680 --> 44:49.060
Zeile, ich muss zu Regal 13 in Gang 25 und zwei Dinge aus Fach 36

44:49.060 --> 44:49.440
rausnehmen.

44:50.400 --> 44:53.940
Zwei Dinge rausgenommen, abgehakt, aufgefallen, oh, im Fach liegt

44:53.940 --> 44:56.360
jetzt noch eins übrig, dann macht er vielleicht noch eine kleine Notiz

44:56.360 --> 44:58.040
hier, nur noch eins übrig, Fach muss man auffüllen.

44:58.460 --> 45:01.900
Und tack, tack, tack, läuft weiter zum nächsten Regal und packt dann

45:01.900 --> 45:04.340
halt seinen Einkaufswagen zusammen und am Ende wird der Einkaufswagen

45:04.340 --> 45:07.680
dann automatisch in so ein Paket zusammengebastelt und dann an mich

45:07.680 --> 45:08.540
versendet.

45:09.300 --> 45:12.520
Jetzt kommen so schlaue Wirtschaftswissenschaftler her und die sind

45:12.520 --> 45:14.900
immer mit der Stoppuhr zur Hand und gucken immer, was so das alles

45:14.900 --> 45:16.260
kostet, jeder einzelne Arbeitsschritt.

45:16.260 --> 45:18.820
Und die haben halt festgestellt, wenn jetzt der andere mit seinem

45:18.820 --> 45:23.600
Einkaufswagen durch die Gegend läuft, dann ist das, wenn man das über

45:23.600 --> 45:26.460
die Zeit hinweg aufsummiert, relativ viel Zeit, die er dafür braucht.

45:26.760 --> 45:31.120
Zettel gucken, wo muss ich denn hin, welches Regal, dann das Ding

45:31.120 --> 45:34.700
rausnehmen aus dem Regal, reinlegen in den Einkaufswagen, dann wieder

45:34.700 --> 45:37.740
Hände raus aus dem Einkaufswagen, Stift in die Hand nehmen, abhaken,

45:38.140 --> 45:40.580
gucken, wo muss ich denn als nächstes hin, loslaufen.

45:40.580 --> 45:42.540
Und haben sich gedacht, das muss doch schneller gehen.

45:43.240 --> 45:47.720
Und schneller geht das, indem Sie dem jetzt einen Kopfhörer aufsetzen

45:47.720 --> 45:50.460
und ein Mikrofon an die Hand tackern und jetzt hat er keinen Zettel

45:50.460 --> 45:53.600
mehr, auf dem draufsteht, was er machen muss, sondern jetzt bekommt er

45:53.600 --> 45:59.920
per Audio gesagt, laufe zu Gang 36, Regal 3x34, nimm zwei Dinger raus.

46:00.680 --> 46:04.580
Und dann kann er also laufen, kriegt das gehört, hört das, kann

46:04.580 --> 46:06.820
loslaufen, muss seine Hände nicht mehr von dem Wagen nehmen,

46:06.900 --> 46:09.200
irgendwelche Zettel in die Hand nehmen, auf den Zettel gucken, sondern

46:09.200 --> 46:13.980
kann einfach loslaufen, geht hin zu dem Regal und während er schon das

46:13.980 --> 46:16.960
Zeug jetzt aus dem Fach rausnimmt und in diesen Einkaufswagen

46:16.960 --> 46:21.900
reinlegt, kann er sagen, war bei Fach 53-16, habe zwei Dinger

46:21.900 --> 46:24.700
rausgenommen, sind noch zwei übrig, muss man auffüllen.

46:25.700 --> 46:28.620
Und er kann das schon sagen, während er das Zeug noch in den Wagen

46:28.620 --> 46:31.200
hebt, er muss jetzt nicht irgendwie wieder ein Häkchen setzen und da

46:31.200 --> 46:34.500
was abstreichen, sondern sobald er das reingelegt hat, kann er gleich

46:34.500 --> 46:37.560
wieder Hand an die Griffe, kriegt über Audio, laufe jetzt weiter

46:37.560 --> 46:39.040
geradeaus zu Regal usw.

46:39.100 --> 46:39.820
und kann losfahren.

46:39.820 --> 46:42.360
Und dann kann man halt nachrechnen, wenn man halt so einen

46:42.360 --> 46:46.000
Riesenhochregallager hat, wo täglich so und so viele tausend Pakete

46:46.000 --> 46:48.840
gepackt werden, dass wenn man das auf die Art und Weise macht, dann

46:48.840 --> 46:53.420
kann der halt statt 25 Pakete 30 Pakete am Tag packen oder sowas.

46:53.420 --> 46:58.960
Und das summiert sich halt auf und bringt für die halt eine

46:58.960 --> 47:01.060
Kostenoptimierung und damit eine Gewinnmaximierung.

47:01.460 --> 47:03.560
Ist eine Anwendung, hätte ich nie im Leben dran gedacht.

47:03.740 --> 47:05.600
Ich meine, ich mache auch schon Spracherkennung für eine Weile, wäre

47:05.600 --> 47:07.560
ich so nie drauf gekommen, dass das eine Anwendung für

47:07.560 --> 47:08.860
Spracherkennungssysteme ist.

47:09.320 --> 47:12.720
Ist aber eine, die auch, da gibt es jetzt zwei, drei Firmen am Markt,

47:12.820 --> 47:15.440
die sich da ganz gut mit über Wasser halten, indem die halt Amazon und

47:15.440 --> 47:18.860
die ganzen Versandhäuser mit sowas halt ausstatten.

47:19.900 --> 47:21.780
Deswegen da einfach nochmal die Lektion.

47:22.980 --> 47:25.700
Interessante, nützliche Anwendungen für Spracherkennung sind nicht

47:25.700 --> 47:28.200
unbedingt immer die offensichtlichen, sondern man muss schon mal ein

47:28.200 --> 47:30.520
bisschen mit offenen Augen durch die Welt laufen und gucken, was so in

47:30.520 --> 47:34.060
diesen ganzen Industriebetrieben da alles läuft oder irgendwo in

47:34.060 --> 47:38.320
anderen Bereichen, wo man als Malerkonsument nicht so hinkommt und

47:38.320 --> 47:40.880
schauen, was kann man da alles so mit Spracherkennung machen und da

47:40.880 --> 47:43.340
gibt es viele Bereiche, da wird einem auffallen, da kann man

47:43.340 --> 47:45.880
Spracherkennungstechnik gut anwenden.

47:47.180 --> 47:50.560
Dann Sprachübersetzung, Speech-to-Speech-Translation ist auch schon

47:50.560 --> 47:50.920
gefallen.

47:51.680 --> 47:54.900
Jetzt muss man aufpassen, Speech-to-Speech-Translation ist schon

47:54.900 --> 47:56.620
Sprach -zu-Sprach-Übersetzung.

47:57.040 --> 48:01.700
Wenn wir uns jetzt für Spracherkennung interessieren, dann

48:01.700 --> 48:02.980
interessiert uns erstmal nur die Sprachübersetzung.

48:02.980 --> 48:06.040
Sprachübersetzung, ob ich dann das Ergebnis als Text ausgebe oder als

48:06.040 --> 48:08.640
synthetisiertes Audio, interessiert mich in dem Augenblick nicht.

48:09.060 --> 48:13.180
Da spricht man dann von Sprachübersetzung oder dann im Englischen, wie

48:13.180 --> 48:14.080
würde das heißen?

48:15.420 --> 48:16.400
Sprachübersetzung im Englischen?

48:19.780 --> 48:22.020
Ja, aber Sprachübersetzung, also Translation ist Übersetzung.

48:29.520 --> 48:33.120
Was war der Unterschied zwischen Language und Speech?

48:35.360 --> 48:37.460
Ist Language oder Speech der richtige Ausdruck?

48:39.680 --> 48:42.180
Speech-Translation würde man sagen, jetzt Sprachübersetzung.

48:43.000 --> 48:45.780
Würde jeder normale, sterbliche Mensch machen.

48:45.840 --> 48:47.940
Wenn man das macht, hat man die Literatur verloren, weil aus

48:47.940 --> 48:52.360
irgendeinem Grund hat sich durchgesetzt Spoken Language Translation.

48:53.300 --> 48:54.040
Warum auch immer.

48:56.360 --> 48:57.480
Weil es gibt den Begriff Speech.

48:57.720 --> 49:02.660
Speech ist Spoken Language, aber ist Spoken Language Translation, SLT

49:02.660 --> 49:04.760
ist der Begriff, nicht Speech Translation, ST.

49:05.100 --> 49:07.840
Wahrscheinlich ist ST zu kurz, kann man sich nichts darunter

49:07.840 --> 49:08.320
vorsetzen.

49:09.720 --> 49:11.860
Gibt es in den unterschiedlichen Formen und Farben.

49:12.460 --> 49:15.420
Das Ding hier ist schon ein bisschen ein älteres Semester, das ist so

49:15.420 --> 49:18.420
aus dem Jahr 2003, 2004.

49:20.580 --> 49:25.200
Da war die Idee, dass man so etwas für Touristen anbietet und damals

49:25.200 --> 49:29.820
gab es noch kein iPhone und keine Tablets und sowas oder wirklich so

49:29.820 --> 49:32.560
tragbare, powervolle, starke Rechner.

49:32.560 --> 49:37.800
Damals war hier dieser Ding von HP, der iPad, war damals der Stand der

49:37.800 --> 49:38.160
Technik.

49:38.360 --> 49:41.800
Wer sowas hatte, der war reich und cool und das war ein tolles Ding.

49:42.760 --> 49:48.240
Hatte schon mit Touchscreen einen kleinen tragbaren Rechner und ganz

49:48.240 --> 49:49.540
toll hat er Funklern drin.

49:49.740 --> 49:53.660
War aber eine ganz große Revolution, dass da schon WLAN drin war.

49:54.320 --> 49:57.100
Jetzt war das Ding noch zu klein, als dass man da wirklich ein

49:57.100 --> 49:59.800
Spracherkennungssystem und ein Übersetzungssystem drauflaufen lassen

49:59.800 --> 50:00.080
konnte.

50:00.180 --> 50:03.160
Deswegen hatte man das so gemacht, dass das Ding im Prinzip nur zur

50:03.160 --> 50:06.140
Aufnahme diente und hinterher zur Anzeige des Ergebnisses.

50:06.420 --> 50:09.700
Aber die eigentliche Erkennung und Übersetzung, die lief dann auf

50:09.700 --> 50:12.920
irgendeinem Server, der über das WLAN entsprechend angeboten war.

50:13.560 --> 50:18.880
Inzwischen gibt es das Ganze auch schon auf kleinen tragbaren Geräten,

50:18.960 --> 50:21.240
iPhones und jeder, der bei Herrn Weibel schon in der Vorlesung war,

50:21.440 --> 50:23.200
wird Jibbigo sicherlich schon mehrmals gehört haben.

50:23.360 --> 50:27.780
Das als ein Produkt, als Übersetzungs-App auf dem iPhone oder auch auf

50:27.780 --> 50:28.140
Android.

50:28.640 --> 50:31.160
Kann also jetzt und ohne, dass man irgendwelche Internetverbindungen

50:31.160 --> 50:31.440
braucht.

50:31.560 --> 50:33.920
Es gibt viele Anwendungen, die machen das über Internetverbindungen.

50:34.660 --> 50:38.580
Es gibt nur eine letztendlich, die es nur komplett auf dem mobilen

50:38.580 --> 50:40.520
Gerät macht, ohne dass ich eine Netzverbindung brauche.

50:40.520 --> 50:43.540
Eine andere Sache, die wir haben, ist das Ganze als

50:43.540 --> 50:44.600
Vorlesungsübersetzer.

50:45.140 --> 50:50.240
Und das Ganze läuft als Dienst in der Form, dass die Sprache zum

50:50.240 --> 50:53.320
Beispiel von Audimax aufgenommen wird, wird über das Netzwerk bei uns

50:53.320 --> 50:56.980
in den Serverraum am Institut geschickt und dort wird dann die Sprache

50:56.980 --> 51:00.620
erkannt auf großen Servern, übersetzt und das Ergebnis wird dann der

51:00.620 --> 51:03.480
Übersetzung als Webseite zur Verfügung gestellt.

51:04.000 --> 51:07.860
Werde ich irgendwann hier im Laufe der Vorlesung euch auch noch

51:07.860 --> 51:09.860
vorstellen und werden wir hier als Dienst anbieten.

51:10.240 --> 51:12.700
Nur wie ihr seht, haben die hier vor kurzem den Raum ein bisschen

51:12.700 --> 51:15.500
umgebaut und wir müssen jetzt erstmal wieder gucken, dass wir hier

51:15.500 --> 51:18.000
unsere Technik, die halt die Audioaufnahme macht und das Ganze dann

51:18.000 --> 51:22.200
weiter verbreitet entsprechend wieder in Betrieb nehmen und schauen,

51:22.320 --> 51:23.360
dass das Ganze dann wieder läuft.

51:23.780 --> 51:26.180
Und sobald das funktioniert, habt ihr dann auch ein

51:26.180 --> 51:28.720
Sprachübersetzungssystem hier zur Verfügung, dass meine Sprache

51:28.720 --> 51:31.240
automatisch dann von Deutsch nach Englisch übersetzt.

51:33.880 --> 51:36.480
Dann hatten wir Telefon-Kundenbetreuung.

51:38.020 --> 51:40.680
Allgemein, das sind zwei Sachen, die da zusammenkommen.

51:40.760 --> 51:43.520
Das eine ist, was ich als Bedienung über das Telefon hatte.

51:46.600 --> 51:50.540
Wenn man halt entfernt ist von zu Hause und man will irgendwas ändern,

51:50.660 --> 51:53.540
zum Beispiel zu Hause, Rollladen hoch, runter, Heizung an, aus, Herd

51:53.540 --> 51:57.160
an, aus, dann bietet sich halt das Telefon an, um das zu machen.

51:58.580 --> 52:01.340
Früher war das noch wichtiger, weil man da halt noch nicht so

52:01.340 --> 52:05.020
Internetverbindungen jederzeit hatte in der Hosentasche, so wie das

52:05.020 --> 52:05.480
heute ist.

52:05.560 --> 52:08.020
Früher hatte man immer nur ein Telefon dabei und dann kann man solche

52:08.020 --> 52:09.320
Sachen eben über das Telefon machen.

52:09.320 --> 52:13.580
Genauso war das Ganze mit Fahrplanabfragen oder Kinoprogramm.

52:13.700 --> 52:16.400
Da war es halt früher so, da konnte man noch nicht übers Internet

52:16.400 --> 52:17.360
irgendwas reservieren.

52:18.820 --> 52:21.580
Für das Kino zum Beispiel die Eintrittskarte und den Sitzplatz.

52:21.980 --> 52:24.420
Da gab es dann Telefonsysteme, wo man anrufen konnte.

52:24.960 --> 52:26.920
Ganz früher saß dann ein Mensch und hat die Bestellung

52:26.920 --> 52:27.540
entgegengenommen.

52:27.680 --> 52:31.740
Später waren dann da automatische Systeme, die man entweder vor

52:31.740 --> 52:34.280
Spracherkennung noch mit den Tasten am Telefon bedienen konnte.

52:34.280 --> 52:37.600
Oder als es Spracherkennung gab, konnte man da halt reinsprechen und

52:37.600 --> 52:40.800
hat halt dann erkannt, welchen Film man wollte und wieviel Sitze man

52:40.800 --> 52:44.000
haben wollte und wie die Kreditkarte ist und so weiter und so fort.

52:44.580 --> 52:47.440
Oder was es früher auch mal gab, das war Anrufbeantworter.

52:47.580 --> 52:50.420
Ich weiß keiner mehr, was ein Anrufbeantworter ist, oder?

52:50.680 --> 52:52.420
Hat noch irgendeiner einen Anrufbeantworter zu Hause?

52:54.120 --> 52:54.960
Nicht mehr, ja.

52:55.100 --> 52:56.840
Das ist leider das, was ich befürchte.

52:57.060 --> 52:59.360
Also früher gab es so Kästen, die hat man ans Telefon gehangen und

52:59.360 --> 53:01.960
wenn man nicht zu Hause war, haben die abgenommen und eine Nachricht

53:01.960 --> 53:03.960
auf Kassette aufgezeichnet, später dann digital.

53:04.520 --> 53:07.300
Und wenn man dann irgendwo weit weg war, man wollte wissen, wer hat

53:07.300 --> 53:09.540
einem zu Hause aufs Telefon gesprochen, wer wollte einen erreichen,

53:09.880 --> 53:12.000
dann konnte man den zu Hause bei sich anrufen.

53:12.100 --> 53:14.980
Der Anrufbeantworter ist wieder rangegangen, dann hat man seinen PIN

53:14.980 --> 53:17.420
-Code eingegeben übers Telefon und dann konnte man die Nachrichten,

53:17.440 --> 53:19.180
die da aufgenommen wurden, abhören.

53:19.660 --> 53:22.200
Und statt, dass man das halt mit so Tastenkombinationen macht, konnte

53:22.200 --> 53:24.320
man das halt dann auch per Sprache machen und dann fragen, was sind

53:24.320 --> 53:26.900
die neuesten Nachrichten oder Nachrichten löschen oder und so weiter

53:26.900 --> 53:27.400
und so fort.

53:29.280 --> 53:32.480
Und dann natürliche sprachliche Interaktionen kann man natürlich auch

53:32.480 --> 53:34.540
über das Telefon machen und dann kommen wir so ein bisschen in den

53:34.540 --> 53:38.320
Bereich der Kundenbetreuung und auch in den Bereich der Robotik.

53:38.320 --> 53:40.220
Was ist das Interessante bei der Robotik?

53:40.260 --> 53:42.300
Bei der Robotik ist das Interessante, ich will mit dem Roboter

53:42.300 --> 53:42.660
sprechen.

53:44.260 --> 53:46.360
Angenommen, ich habe einen Roboter im Haushalt und der soll den Tisch

53:46.360 --> 53:48.920
decken, dann will ich dem nicht mit Tastatur sagen, jetzt deckt mir

53:48.920 --> 53:51.420
den Tisch und hol mir fünf Gläser, sondern ich will ihm einfach

53:51.420 --> 53:54.120
natürlichsprachlich sagen, bitte deckt mir den Tisch für drei Leute.

53:54.500 --> 53:56.840
Ohne, dass ich jetzt irgendwie tippen muss und in irgendeiner Maske

53:56.840 --> 53:57.980
was auswählen muss.

53:59.580 --> 54:01.800
Und ähnlich ist es dann auch, wenn man Kundenbetreuung macht, dann

54:01.800 --> 54:02.540
über das Telefon.

54:04.120 --> 54:07.000
Man will den Kunden irgendeinen Dienst anbieten, was weiß ich, melden,

54:07.080 --> 54:09.640
dass das Telefon nicht funktioniert oder melden, dass der

54:09.640 --> 54:12.800
Fernsehkabelanschluss nicht funktioniert oder dass irgendwie die

54:12.800 --> 54:14.560
Rechnung falsch war und so weiter und so fort.

54:14.860 --> 54:17.960
Und jeder, der schon mal bei der Deutschen Telekom angerufen hat, der

54:17.960 --> 54:20.460
kennt inzwischen diese Systeme, wo man nicht mehr auf der Tastatur

54:20.460 --> 54:23.240
drücken muss, um sich durch irgendwelche Menüs durchzuhangeln, sondern

54:23.240 --> 54:26.380
der fragt einen dann immer, was ist ihr Anliegen und dann brüllen die

54:26.380 --> 54:30.860
Leute rein, die Rechnung ist falsch und dann versucht der einen dann

54:30.860 --> 54:32.940
entsprechend weiter zu verbinden.

54:36.820 --> 54:39.940
Hat viele große Herausforderungen, man kann halt viel Geld sparen,

54:40.060 --> 54:42.020
weil man halt keinen Menschen mehr da sitzen haben muss.

54:42.560 --> 54:45.960
Man kann aber auch sehr viel falsch machen, weil die Leute, die bei

54:45.960 --> 54:48.000
der Kundenbetreuung anrufen, was sind die in der Regel schon?

54:50.420 --> 54:51.140
Ja, unzufrieden.

54:51.440 --> 54:52.540
Die haben ein Problem.

54:53.280 --> 54:55.840
Die wollen, dass sich sofort jemand um ihr Problem kümmert.

54:56.300 --> 54:59.240
Die wollen sich nicht erst noch durch so ein dappiges Telefonsystem

54:59.240 --> 55:02.600
durchhangeln, das einen eh nicht versteht, wo man dann plötzlich

55:02.600 --> 55:04.740
rausfliegt und dann muss man nochmal anrufen und sich wieder

55:04.740 --> 55:06.380
durchhangeln und dann versteht es einen wieder falsch.

55:07.080 --> 55:09.740
Also wenn man sich so Aufnahmen mal anhört, was so ankommt bei so

55:09.740 --> 55:15.420
Telefonzentralen, die sowas haben, da kommen interessante Anrufe

55:15.420 --> 55:16.240
teilweise zustande.

55:16.780 --> 55:19.400
Und es gibt auch Leute, die machen das mit Absicht.

55:19.920 --> 55:22.860
So schlaue Leute haben schnell herausgefunden, wenn diese Systeme

55:22.860 --> 55:25.100
nicht funktionieren, die haben Rückfallmechanismus.

55:25.280 --> 55:27.200
Also wenn das System dann einfach nicht versteht und nicht

55:27.200 --> 55:30.460
herauskriegt, was will der Benutzer, dann wird man direkt mit einem

55:30.460 --> 55:31.100
Menschen verbunden.

55:31.740 --> 55:34.140
Deswegen das Einfachste, was manche Leute machen, ist, wenn sie so ein

55:34.140 --> 55:36.240
System an der Leitung haben, dass sie entweder nichts sagen oder

55:36.240 --> 55:38.720
irgendwelchen Blödsinn reinbabbeln, damit das System halt merkt, es

55:38.720 --> 55:40.880
kommt nicht zurecht und einen möglichst schnell mit einem Menschen

55:40.880 --> 55:41.280
verbindet.

55:43.460 --> 55:46.980
Dann, wir hatten Lernen, Computer Assisted Language Learning,

55:47.080 --> 55:48.000
Fremdsprachenlernen.

55:48.560 --> 55:51.460
Das kann man machen für Fremdsprachenlernen, halt sowas wie Rosetta

55:51.460 --> 55:51.860
Stone.

55:52.560 --> 55:54.380
Die immer behaupten, sie haben bei sich Sprachen... wer hat denn

55:54.380 --> 55:55.260
Rosetta Stone gesagt?

55:55.740 --> 55:56.860
Das war da hinten irgendwo, genau.

55:57.200 --> 55:58.120
Schon mal mitgearbeitet?

55:59.120 --> 56:00.140
Machen die Spracherkennung?

56:02.360 --> 56:06.380
Also auf der Box steht groß drauf mit toller, neuer, neuster Rosetta

56:06.380 --> 56:07.760
Stone Spracherkennungstechnik.

56:08.780 --> 56:10.040
Machen die Spracherkennung?

56:16.400 --> 56:21.020
Also bei den letzten Dingen, die ich nochmal ausprobiert hatte, machen

56:21.020 --> 56:24.480
sie das nicht, was sie da versuchen ist, ein Gütemaß für die

56:24.480 --> 56:25.280
Aussprache zu geben.

56:26.160 --> 56:27.880
Aber in der Regel die Wörter erkennen.

56:29.660 --> 56:30.480
Machen sie das inzwischen?

56:37.890 --> 56:39.230
Und mit welcher Aufgabe?

56:39.350 --> 56:40.550
Was ist die Aufgabe?

56:40.730 --> 56:41.330
Also was sagen die?

56:45.170 --> 56:48.130
Ja gut, also man weiß immer, was man dabei rauskommt.

56:48.530 --> 56:51.090
Deswegen, die Sachen, die ich kenne, ist halt von Rosetta Stone, da

56:51.090 --> 56:53.570
wird halt ein Wort angezeigt, das muss man dann halt vorlesen.

56:54.230 --> 56:56.970
Und dann kriegt hinterher so ein Zeiger von Rot bis Grün und sagt

56:56.970 --> 56:58.730
einem, ob es gut oder schlecht ausgesprochen wurde.

56:59.470 --> 57:01.390
Nur wie die das intern machen, die arbeiten da nicht mit

57:01.390 --> 57:01.990
Spracherkennung.

57:01.990 --> 57:05.610
Sondern was die einfach gucken ist, zum einen gucken die den

57:05.610 --> 57:08.970
Prosodieverlauf nach, ob der ungefähr zusammenpasst, plus da machen

57:08.970 --> 57:11.870
sie vielleicht noch so einen Vergleich zwischen dem Referenzmuster und

57:11.870 --> 57:13.130
dem, was gesagt wurde.

57:14.030 --> 57:16.230
Aber gerade das, was da Rosetta Stone macht, also es gibt

57:16.230 --> 57:21.570
Forschungsprototypen, die sind da glaube ich deutlich ausgefuchster

57:21.570 --> 57:23.930
als das, was Rosetta Stone macht und die arbeiten auch mit echter

57:23.930 --> 57:24.150
Spracherkennung.

57:24.150 --> 57:27.350
Ein Beispiel dafür ist dieser Lesetutor.

57:27.730 --> 57:30.370
Der richtet sich jetzt nicht an Fremdsprachenlerner, sondern er

57:30.370 --> 57:33.530
richtet sich an Kinder, die eine Sprache lernen, in diesem Fall

57:33.530 --> 57:35.310
insbesondere Englisch, in den USA.

57:35.790 --> 57:40.450
Und soll einfach ein Werkzeug dafür sein, dass man halt übt, lesen zu

57:40.450 --> 57:40.590
lernen.

57:40.670 --> 57:44.090
Dass man Texte vorliest und das System muss halt erkennen, werden die

57:44.090 --> 57:46.310
jetzt richtig vorgelesen oder werden die falsch vorgelesen.

57:46.310 --> 57:48.750
Und wenn ein Fehler gemacht wird, dann wird halt der Fehler gezeigt

57:48.750 --> 57:52.550
und dann wird eine Hilfestellung gegeben, wie man das Wort denn jetzt

57:52.550 --> 57:54.670
hätte richtig aussprechen müssen und so weiter und so fort.

57:55.210 --> 57:58.230
In den USA, in der Carnegie Mellon gibt es dann ein Projekt, das läuft

57:58.230 --> 58:01.090
schon seit über einem Jahrzehnt glaube ich inzwischen, ist auch schon

58:01.090 --> 58:04.910
wirklich auf großer Ebene in Schulen ausprobiert worden.

58:05.270 --> 58:08.910
Und ist insofern inzwischen für so ein bisschen in den Bereich des

58:08.910 --> 58:11.690
Computer Assisted Language Learnings für Fremdsprachen reingekommen,

58:11.950 --> 58:13.970
als es inzwischen auch in Afrika angewendet wird.

58:13.970 --> 58:16.910
Also es gibt jetzt Klassenzimmer in Afrika, wo die Kinder halt auch

58:16.910 --> 58:19.430
Englisch lernen und da haben die das dann auch schon mal ausprobiert,

58:19.490 --> 58:23.390
ob man mit diesem Lesetutor halt den Kindern helfen kann, Englisch

58:23.390 --> 58:24.310
besser lesen zu können.

58:25.230 --> 58:28.190
Dann ein ganz wichtiger Bereich, wann immer man seine Hände nicht frei

58:28.190 --> 58:28.390
hat.

58:29.610 --> 58:32.530
Und das ist häufig der Fall bei Behinderten, wenn also die ihre Hände

58:32.530 --> 58:35.490
nicht bewegen können, aufgrund irgendwelcher Einschränkungen oder

58:35.490 --> 58:41.050
Schwierigkeiten haben, so eine komplexe, knopfbasierte oder irgendwie

58:41.050 --> 58:43.230
GUI -basierte Computeroberfläche zu bedienen.

58:43.230 --> 58:49.690
Dann kann man das Ganze schön mit Sprache machen, wenn die jeweils gut

58:49.690 --> 58:50.210
sprechen können.

58:50.650 --> 58:52.690
Kann natürlich auch sein, dass bei bestimmten Behinderungen dann die

58:52.690 --> 58:54.350
Sprachproduktion auch eingeschränkt ist.

58:54.750 --> 58:56.810
Und das ist wiederum ein eigener Bereich der automatischen

58:56.810 --> 58:59.750
Spracherkennung, wo man dann versucht, solche Sprache gut zu erkennen,

58:59.850 --> 59:04.370
die halt in irgendeiner Form nicht so wohl geformt ist, sondern anders

59:04.370 --> 59:08.670
geformt ist, aufgrund von muskulären oder irgendwelchen anatomischen

59:08.670 --> 59:11.750
Einschränkungen, die halt die Sprachproduktion stören.

59:12.390 --> 59:15.550
Und dann funktioniert das Ganze auch umgekehrt bei Sehgeschädigten.

59:15.690 --> 59:19.870
Die können zwar ihre Hände gut bewegen, aber die sehen nicht, was auf

59:19.870 --> 59:20.890
der Oberfläche ist unter Umständen.

59:21.590 --> 59:23.890
Also die wissen halt jetzt nicht, dass da irgendwie eine Dialogbox

59:23.890 --> 59:25.710
ist, wo man Okay oder Abbrechen klicken kann.

59:26.110 --> 59:28.770
Da kann man dann halt entsprechend versuchen, die wichtigen

59:28.770 --> 59:30.450
Informationen als Sprache auszugeben.

59:31.010 --> 59:34.590
Und dann, anstatt jetzt hier dem irgendwie per Pfeifton zu sagen, ob

59:34.590 --> 59:37.310
er jetzt mit seinem Mauszeiger in der Nähe des Knopfes ist oder nicht,

59:37.590 --> 59:40.110
kann man natürlich dann auch einfach die Eingabe Okay, Abbrechen oder

59:40.110 --> 59:41.690
was auch immer reinsprechen.

59:44.590 --> 59:47.730
Dann ein Bereich, den wir noch gar nicht hatten, glaube ich, ist die

59:47.730 --> 59:49.290
Indizierung von Inhalten.

59:49.930 --> 59:51.490
Also denken wir zum Beispiel mal an YouTube.

59:52.070 --> 59:56.230
Da hat man jetzt ein Archiv von ganz, ganz vielen Videos.

59:56.750 --> 59:58.610
Und jetzt will man in diesen Videos was finden.

59:58.730 --> 01:00:00.970
Man will jetzt irgendein Video zu einem bestimmten Schlagwort finden.

01:00:01.290 --> 01:00:02.370
Wie funktioniert das bei YouTube?

01:00:03.150 --> 01:00:07.190
Wenn ich bei YouTube eingebe, süßes Kätzchen, und dann kommen lauter

01:00:07.190 --> 01:00:11.150
Videos von süßen Kätzchen, woher weiß YouTube, dass in diesen Videos

01:00:11.150 --> 01:00:12.370
süße Kätzchen zu sehen sind?

01:00:16.400 --> 01:00:18.740
Genau, da hat also irgendein Benutzer halt hingeschrieben, Stichwort

01:00:18.740 --> 01:00:19.420
süßes Kätzchen.

01:00:20.160 --> 01:00:22.740
Und genauso, wenn jetzt irgendwas gesprochen wird, was weiß ich,

01:00:23.180 --> 01:00:27.320
Barack Obama über die Lage der Nation oder sowas, das muss alles per

01:00:27.320 --> 01:00:28.000
Hand getaggt sein.

01:00:28.380 --> 01:00:31.700
Wenn ich jetzt nach irgendeiner Wortsequenz suche, was weiß ich, I

01:00:31.700 --> 01:00:33.560
have a dream, ich will das suchen.

01:00:34.300 --> 01:00:37.540
Wenn das nicht irgendein Mensch per Hand als Tag dahingeschrieben hat,

01:00:37.760 --> 01:00:39.120
dann werde ich dieses Video nicht finden.

01:00:39.700 --> 01:00:41.980
Und das ist ein riesen Verlust.

01:00:42.160 --> 01:00:46.380
Also es gibt jetzt immer mehr Inhalte, die nicht mehr so textbasiert

01:00:46.380 --> 01:00:48.960
sind, wie das früher beim World Wide Web der Fall war, sondern es gibt

01:00:48.960 --> 01:00:52.020
jetzt so Multimedia-Inhalte, wo ich Video und Audio habe.

01:00:52.760 --> 01:00:55.600
Und diese Inhalte, die ich auf der Audiospur habe und die ich im Video

01:00:55.600 --> 01:00:57.460
habe, sind erstmal der Suche entzogen.

01:00:57.580 --> 01:00:58.240
Die kann ich nicht finden.

01:00:58.800 --> 01:01:01.780
Damit ich die finden kann, muss ich entweder jetzt erstmal das Video

01:01:01.780 --> 01:01:04.380
erkennen, um halt zu sehen, dass da, keine Ahnung, süßes Kätzchen

01:01:04.380 --> 01:01:07.020
drauf ist oder dass da ein Fußballspiel stattfindet.

01:01:07.220 --> 01:01:10.080
Oder wenn ich nach textuellen Sachen suche, muss ich halt die Sprache,

01:01:10.160 --> 01:01:13.100
die in den Videos ist, erkennen, um sie dann hinterher indizierbar zu

01:01:13.100 --> 01:01:13.300
machen.

01:01:14.240 --> 01:01:17.020
Ein Beispiel wieder der Vorlesungsübersetzer.

01:01:17.280 --> 01:01:19.800
Wir archivieren die Vorlesungen auch, die wir haben oder zum Beispiel

01:01:19.800 --> 01:01:22.120
auch diese Vorlesungen, die jetzt auf iTunes U gestellt werden.

01:01:22.720 --> 01:01:25.200
Angenommen, ich suche jetzt irgendein Thema in dieser Vorlesungsreihe

01:01:25.200 --> 01:01:26.120
von 30 Vorlesungen.

01:01:26.900 --> 01:01:30.580
Tippe ich das ein, kann ich aber nur dann finden, wenn irgendwie ich

01:01:30.580 --> 01:01:32.640
eine Verschriftung dessen habe, was ich gesagt habe.

01:01:33.120 --> 01:01:36.040
Kann zur Not ein bisschen nach den Vorlesungsfolien gehen, aber es

01:01:36.040 --> 01:01:38.580
gibt auch viele Vorlesungen in vielen Fachbereichen, da gibt es nicht

01:01:38.580 --> 01:01:41.000
so Vorlesungsfolien, wo alles das, was ich sage, nochmal in

01:01:41.000 --> 01:01:44.320
Stichwortpunkten draufsteht, sondern die Freireden und irgendwelches

01:01:44.320 --> 01:01:46.020
anderes unterstützendes Material haben.

01:01:46.720 --> 01:01:51.380
Und für solche Dinge wäre halt diese Indizierung interessant.

01:01:52.140 --> 01:01:54.280
Und dann hatten wir hier Protokoll.

01:01:54.960 --> 01:01:59.020
Und dieses Protokoll läuft bei mir, wenn ich dran denke, immer in dem

01:01:59.020 --> 01:02:01.860
Stichwort intelligente Räume, intelligente Umgebung.

01:02:02.420 --> 01:02:03.500
Was soll das sein?

01:02:03.620 --> 01:02:06.760
Ein intelligenter Raum, das soll ein Raum sein, der ähnlich wie ein

01:02:06.760 --> 01:02:11.660
Butler im Hintergrund die Menschen in diesem Raum beobachtet und deren

01:02:11.660 --> 01:02:12.620
Bedürfnisse erkennt.

01:02:13.200 --> 01:02:15.820
Also wenn sie zum Beispiel feststellt, dass jetzt hier in der

01:02:15.820 --> 01:02:22.160
Vorlesung alle einschlafen, weil wir inzwischen schon fast Stunde 15

01:02:22.160 --> 01:02:26.100
hier vorne ich hier den Unterhalter gespielt habe, dann kann man

01:02:26.100 --> 01:02:29.020
entweder den Sauerstoffgehalt erhöhen oder wenn ich in einem Meeting

01:02:29.020 --> 01:02:31.440
bin, wo die Leute einschlafen, dann kann der Roboter kommen und

01:02:31.440 --> 01:02:33.820
schnell die Kaffeetassen nachfüllen oder das Fenster kippen.

01:02:34.560 --> 01:02:37.000
Oder wenn einer sagt, er hat Durst, dann kommt er gleich an mit der

01:02:37.000 --> 01:02:38.520
Wasserflasche und gießt dem Wasser nach.

01:02:39.200 --> 01:02:40.000
Lauter solche Sachen.

01:02:40.160 --> 01:02:43.080
Oder es steht einer an der Tafel und stellt fest, die Kreide geht aus,

01:02:43.180 --> 01:02:45.220
dann geht gleich irgendwo die Schublade auf und kommt eine neue

01:02:45.220 --> 01:02:46.060
Kreideschachtel raus.

01:02:46.600 --> 01:02:48.760
All solche Dinge kann man über intelligente Räume machen.

01:02:48.760 --> 01:02:52.460
Und eine Sache, die wir auch am Institut mal in solchen intelligenten

01:02:52.460 --> 01:02:54.720
Räumen gemacht haben, ist eben die Protokollerstellung von

01:02:54.720 --> 01:02:55.240
Besprechungen.

01:02:55.560 --> 01:02:57.880
Also angenommen, da sind fünf Leute, die sitzen um den Tisch rum,

01:02:58.980 --> 01:03:01.580
halten dann eine Besprechung ab und nachher will ich ein Protokoll

01:03:01.580 --> 01:03:01.820
haben.

01:03:02.480 --> 01:03:05.060
Normalerweise muss sich immer irgendein armer Tropf hinsetzen und dann

01:03:05.060 --> 01:03:06.320
per Hand das Protokoll erstellen.

01:03:07.620 --> 01:03:09.940
Schöner wäre es, wenn die Maschine das machen könnte und vielleicht

01:03:09.940 --> 01:03:12.000
auch noch ein bisschen mehr Informationen festhalten könnte.

01:03:12.000 --> 01:03:14.800
Also nicht nur das, was gesprochen wurde, sondern vielleicht auch

01:03:14.800 --> 01:03:18.560
multimodal, war der Mensch jetzt wütend oder wohlgelaunt, wer hat wen

01:03:18.560 --> 01:03:21.980
angeguckt, wer hat an wen welche Worte gerichtet.

01:03:24.540 --> 01:03:27.820
Gut, damit haben wir im Prinzip alles, was ihr gesagt hattet, hatte

01:03:27.820 --> 01:03:29.820
ich auch irgendwie auf drauf.

01:03:30.160 --> 01:03:33.440
Einzige Vorstufe von Natural Language Understanding hatte ich jetzt

01:03:33.440 --> 01:03:34.140
bei mir nicht drauf.

01:03:35.100 --> 01:03:38.080
Ich weiß, der Iwiza Rogine hat das bei sich mal in den Folien drauf

01:03:38.080 --> 01:03:40.400
gehabt, aus irgendeinem Grund hatte ich es mal runtergenommen.

01:03:40.400 --> 01:03:44.840
Aber gerade da dieses Natural Language Understanding ist insofern

01:03:44.840 --> 01:03:46.880
wichtig, dass man sich jetzt den Unterschied klar macht zwischen

01:03:46.880 --> 01:03:50.260
Spracherkennung und Verständnis natürlicher Sprache.

01:03:50.800 --> 01:03:53.940
Bei der Spracherkennung interessiert mich der Inhalt des Gesagten

01:03:53.940 --> 01:03:54.380
erstmal nicht.

01:03:54.500 --> 01:03:56.920
Ich will nur, dass die korrekte Wortfolge dahin geschrieben wird.

01:03:57.540 --> 01:03:59.660
Ich weiß aber noch lange nicht, was diese Wortfolge bedeutet.

01:03:59.960 --> 01:04:02.080
Das kann automatische Spracherkennung nicht leisten.

01:04:02.080 --> 01:04:03.800
Viele Menschen setzen das gleich.

01:04:03.900 --> 01:04:09.000
Wenn ich einen Satz als Mensch erkannt habe, dann weiß ich meistens

01:04:09.000 --> 01:04:09.800
auch, was er bedeutet.

01:04:10.940 --> 01:04:13.760
Die Maschine, die Spracherkennung betreibt, kann ihn erstmal nur

01:04:13.760 --> 01:04:17.300
hinschreiben und für den sind das einfach nur Buchstaben auf dem

01:04:17.300 --> 01:04:19.960
Papier, die überhaupt keine Bedeutung haben.

01:04:19.960 --> 01:04:22.960
Und um dann wirklich teilweise intelligente Sachen rausholen zu

01:04:22.960 --> 01:04:27.020
können, zum Beispiel um einen Roboter dann richtig bedienen zu können,

01:04:27.100 --> 01:04:29.280
dann reicht es nicht, wenn er nur das Gesprochene niedergeschrieben

01:04:29.280 --> 01:04:31.300
hat, sondern er muss auch verstehen, was gemeint war.

01:04:31.400 --> 01:04:32.260
Was will der Mensch von mir?

01:04:32.360 --> 01:04:33.220
Was ist die Intention?

01:04:33.860 --> 01:04:36.620
Was ist das, was er jetzt von mir erwartet wird?

01:04:36.700 --> 01:04:38.320
Welche nächste Aktion soll ich ausführen?

01:04:38.500 --> 01:04:39.400
Soll ich was antworten?

01:04:39.480 --> 01:04:39.780
Etc.

01:04:40.340 --> 01:04:43.660
Und deswegen Natural Language Understanding ist nochmal ein eigener,

01:04:43.720 --> 01:04:47.180
großer, schwieriger Forschungsbereich.

01:05:00.450 --> 01:05:03.150
Wenn ich das könnte, wäre es sehr sinnvoll.

01:05:03.850 --> 01:05:08.050
Also ich persönlich behaupte, Sprache kann man nur dann wirklich

01:05:08.050 --> 01:05:13.070
zuverlässig und fehlerfrei unter schwierigen Umständen erkennen, wenn

01:05:13.070 --> 01:05:15.050
ich auch gleichzeitig verstehe, was gesagt wurde.

01:05:15.730 --> 01:05:17.310
Weil das ist das, was der Mensch macht.

01:05:18.010 --> 01:05:22.050
Bei uns ist es nicht so, da kommt eine Schallwelle an und dann nehmen

01:05:22.050 --> 01:05:25.050
wir diese Schallwelle auf und filtern sie so, dass sämtliche Geräusche

01:05:25.050 --> 01:05:28.710
weg sind und dass das Sprecherabhängige weg ist und dann mache ich

01:05:28.710 --> 01:05:31.290
daraus eine Wortsequenz und dann habe ich die Wortsequenz und verstehe

01:05:31.290 --> 01:05:34.850
das, was da gesagt wurde, sondern das ist ein interaktiver Prozess.

01:05:35.930 --> 01:05:40.910
Und viele Lücken, die ich habe, also Störgeräusche oder was, ich habe

01:05:40.910 --> 01:05:43.590
das eine Wort nicht richtig verstanden, aus dem Zusammenhang kann ich

01:05:43.590 --> 01:05:45.270
mir das Wort jederzeit wieder rekonstruieren.

01:05:46.190 --> 01:05:48.730
Das heißt, ich kann als Mensch wirklich nur deshalb so gut Sprache

01:05:48.730 --> 01:05:50.670
erkennen, weil ich gleichzeitig auch den Inhalt verstehe.

01:05:51.410 --> 01:05:54.510
Wir haben aber im Augenblick das Problem, dass das, was Natural

01:05:54.510 --> 01:05:58.250
Language Understanding wirklich kann, noch sehr beschränkt ist.

01:05:59.250 --> 01:06:02.070
Und dieses Feedback zwischen Spracherkennung und Natural Language

01:06:02.070 --> 01:06:04.890
Understanding, da wissen wir einfach noch nicht, wie es geht.

01:06:04.950 --> 01:06:07.150
Wir haben nicht die Modelle und die Techniken dafür, um es bauen zu

01:06:07.150 --> 01:06:07.350
können.

01:06:07.350 --> 01:06:10.390
Wenn man das bauen könnte, wäre super, wäre ideal.

01:06:11.050 --> 01:06:13.670
Nur meistens ist es so, dass dieses Natural Language Understanding nur

01:06:13.670 --> 01:06:16.990
auf einer sehr kleinen, eingeschränkten Domäne funktioniert, während

01:06:16.990 --> 01:06:19.890
Spracherkennungssysteme schon relativ große Domänen abdecken können.

01:06:20.530 --> 01:06:23.490
Ich kann also mit Spracherkennungssystemen deutlich mehr erkennen, als

01:06:23.490 --> 01:06:25.730
ich hinterher mit Natural Language Understanding Systemen überhaupt

01:06:25.730 --> 01:06:28.690
verstehen kann, selbst wenn ich die hundertprozentig korrekte

01:06:28.690 --> 01:06:29.410
Niederschrift habe.

01:06:31.210 --> 01:06:33.990
Das ist einfach, wir Menschen können Sprache erkennen, weil wir großes

01:06:33.990 --> 01:06:36.530
Hintergrundwissen haben, aber in der Informatik wissen wir einfach

01:06:36.530 --> 01:06:39.470
noch nicht, wie wir dieses Hintergrundwissen repräsentieren sollen,

01:06:40.050 --> 01:06:42.950
wie wir es sammeln und lernen sollen und dann, wie wir es auch noch

01:06:42.950 --> 01:06:43.610
anwenden wollen.

01:06:44.510 --> 01:06:45.130
Das wissen wir noch nicht.

01:06:45.330 --> 01:06:46.290
Offene Forschungsfrage.

01:06:47.530 --> 01:06:52.170
Gut, und jetzt zum Abschluss der Vorlesung nochmal drei Minuten Zeit.

01:06:52.290 --> 01:06:56.010
Wir wissen jetzt Vor- und Nachteile von automatischer Spracherkennung.

01:06:57.430 --> 01:06:59.850
Wieder die drei Mann zusammensetzen, drei Minuten.

01:07:00.390 --> 01:07:02.950
Was sind die Vorteile von Spracherkennung, was sind die Nachteile von

01:07:02.950 --> 01:07:03.570
Spracherkennung?

01:07:07.730 --> 01:07:10.950
Also wir fangen an mit den positiven Sachen, mit den Vorteilen.

01:07:11.530 --> 01:07:13.050
Nachteile könnt ihr wahrscheinlich genug nennen.

01:07:19.130 --> 01:07:21.510
Also wir sparen Menschen ein.

01:07:21.590 --> 01:07:22.950
Ok, ökonomisch.

01:07:28.070 --> 01:07:30.450
Wir machen Menschen arbeitslos.

01:07:30.810 --> 01:07:31.950
Das ist der erste Vorteil.

01:07:32.470 --> 01:07:33.010
Was habt ihr?

01:07:35.430 --> 01:07:36.250
Zeitersparnis.

01:07:41.150 --> 01:07:42.550
Warum Zeitersparnis?

01:07:42.610 --> 01:07:44.630
Warum spare ich Zeit durch Spracherkennung?

01:07:48.530 --> 01:07:49.010
Genau.

01:07:53.540 --> 01:07:54.260
Ne, ne.

01:07:55.180 --> 01:07:57.980
Kommen wir gleich zu euch.

01:08:00.260 --> 01:08:00.960
Zeitersparnis, ok.

01:08:01.160 --> 01:08:02.380
Pech gehört umgelaufen.

01:08:04.820 --> 01:08:06.160
Händefrei, Händefrei ist gut.

01:08:07.460 --> 01:08:08.100
Da haben wir auch noch was.

01:08:14.610 --> 01:08:15.770
Ok, nächste Gruppe.

01:08:15.950 --> 01:08:16.710
Was haltet ihr?

01:08:16.710 --> 01:08:17.130
Ah,

01:08:24.090 --> 01:08:24.470
bequemer.

01:08:24.710 --> 01:08:25.350
Ah, ok, ja.

01:08:26.610 --> 01:08:28.510
Nehmen wir es mal ergonomisch, klingt auch gut.

01:08:32.800 --> 01:08:33.760
Ok, nächstes.

01:08:35.480 --> 01:08:36.520
Da hinten, ihr beiden.

01:08:43.980 --> 01:08:45.040
Was haltet ihr?

01:08:47.910 --> 01:08:50.270
Ja, natürlich ist es auch gut.

01:08:50.270 --> 01:08:53.030
Ja, so ungefähr.

01:08:55.910 --> 01:08:58.090
Ergonomisch muss nicht unbedingt gleich natürlich sein.

01:08:58.650 --> 01:09:00.550
Das sind schon zwei unterschiedliche Aspekte.

01:09:00.710 --> 01:09:03.090
Also eine Tastatur kann auch ergonomisch sein, aber ist in keinem Fall

01:09:03.090 --> 01:09:04.490
mehr natürlich unbedingt.

01:09:14.190 --> 01:09:16.470
Vernetzung von Informationen, das ist doch super.

01:09:28.030 --> 01:09:29.550
Dann bei euch da hinten.

01:09:32.250 --> 01:09:37.690
Nix, nutzt nix und habt ihr noch Vorteile?

01:09:45.270 --> 01:09:46.310
Genau, Barrierefreiheit.

01:09:47.350 --> 01:09:47.670
Nehmen wir es mal.

01:09:54.520 --> 01:09:57.820
Das ist so der Begriff dafür, wenn man irgendwas für behinderte,

01:09:58.280 --> 01:10:00.920
eingeschränkte, irgendwie motorisch eingeschränkte Menschen zugänglich

01:10:00.920 --> 01:10:02.140
macht, das nennt man dann barrierefrei.

01:10:03.220 --> 01:10:05.900
Ok, dann schauen wir mal, was ich bei mir auf der Vorteilsliste hatte.

01:10:07.240 --> 01:10:10.200
Und das erste ist eben gerade die Geschwindigkeit, hohe Bandbreite.

01:10:10.720 --> 01:10:13.400
Und jetzt war gerade die Sache, es gibt Menschen, die können schneller

01:10:13.400 --> 01:10:15.300
tippen, als andere sprechen können.

01:10:18.680 --> 01:10:19.860
Das ist nämlich das Interessante.

01:10:19.920 --> 01:10:24.640
Was man hier sieht, ist für die drei Modalitäten, Tastatur,

01:10:24.840 --> 01:10:29.620
Stenografie und Sprache, der Mittelwert und der Rekord, den jemand

01:10:29.620 --> 01:10:30.080
daran hält.

01:10:30.080 --> 01:10:34.740
Und wenn jetzt Zehnfingerschreibsystem ist, so ein gut gelernter

01:10:34.740 --> 01:10:39.140
Zehnfingerschreibsystemschreiber, der ein bisschen in Übung ist, der

01:10:39.140 --> 01:10:43.300
schafft 200 Zeichen pro Minute und so der Weltrekord im

01:10:43.300 --> 01:10:45.940
Maschinenschreiben liegt so ungefähr bei 1000 Zeichen pro Minute.

01:10:48.220 --> 01:10:49.400
Stenografie ist nochmal schneller.

01:10:50.040 --> 01:10:53.300
Das ist der Grund, warum viele Sekretären früher noch Stenografie

01:10:53.300 --> 01:10:53.940
gelernt haben.

01:10:54.200 --> 01:10:55.620
Ich weiß nicht, wie das heutzutage der Fall ist.

01:10:55.680 --> 01:10:57.800
Heutzutage gibt es so viele Sekretäre, die müssen nicht mehr so viel

01:10:57.800 --> 01:10:59.580
schreiben, die Manager müssen jetzt alles selber schreiben.

01:11:00.240 --> 01:11:03.300
Aber früher haben viele noch Stenografie gelernt, weil man nämlich im

01:11:03.300 --> 01:11:06.720
Mittel schneller ist und dann der Weltrekord bei der Stenografie

01:11:06.720 --> 01:11:08.960
nochmal deutlich schneller ist, doppelt so schnell ist, als wir bei

01:11:08.960 --> 01:11:10.460
der Maschine schreiben.

01:11:10.460 --> 01:11:14.400
Und bei der Sprache, wir Menschen können extrem schnell sprechen.

01:11:14.760 --> 01:11:17.280
Also wenn ich jetzt nicht gerade jemanden habe, der irgendwie

01:11:17.280 --> 01:11:21.020
eingeschränkt ist in seiner Sprache, der einen Sprachdefekt hat,

01:11:21.140 --> 01:11:24.760
sondern normalen Durchschnittsmenschen, der kann problemlos 1000

01:11:24.760 --> 01:11:29.040
Zeichen pro Minute daher plappern und Weltrekord im Schnellsprechen,

01:11:29.100 --> 01:11:30.860
der liegt so bei 4000 Zeichen pro Minute.

01:11:30.860 --> 01:11:35.240
Das heißt also, der durchschnittliche Sprecher, der ist so schnell wie

01:11:35.240 --> 01:11:37.460
der schnellste Mensch, der eine Schreibmaschine schreiben kann.

01:11:37.900 --> 01:11:40.320
Also der schnellste Mensch, der eine Schreibmaschine schreiben kann,

01:11:40.640 --> 01:11:43.660
der kann gerade so einem mittelmäßigen Menschen folgen, aber der

01:11:43.660 --> 01:11:45.720
könnte niemals mit dem schnellsten Schnellsprecher der Welt

01:11:45.720 --> 01:11:46.860
hinterherkommen.

01:11:47.800 --> 01:11:50.380
Deswegen, Sprache hat eine ungemein hohe Bandbreite.

01:11:51.620 --> 01:11:53.600
Dann, Hände und Augen sind frei.

01:11:54.420 --> 01:11:57.240
Da war Hände frei, Augen sind gegebenenfalls auch frei.

01:11:57.360 --> 01:11:58.260
Ist auch ein Riesenvorteil.

01:11:58.600 --> 01:11:59.340
Zum Beispiel im Auto.

01:12:00.320 --> 01:12:04.240
Da kann ich das System bedienen und ich kann es, wenn ich natürlich

01:12:04.240 --> 01:12:06.820
sprachlich die Anforderungen mache, es so bedienen, dass ich nicht auf

01:12:06.820 --> 01:12:09.340
dem Display gucken muss und dann dem Vordermann hinten reinfahre.

01:12:10.420 --> 01:12:13.240
Dann, wir haben einen zusätzlichen Kanal.

01:12:13.760 --> 01:12:17.520
Das passt, finde ich, ganz gut rein, zum einen in diese Vernetzung von

01:12:17.520 --> 01:12:21.920
Informationen, weil da vernetzt man nämlich diesen Sprachkanal mit

01:12:21.920 --> 01:12:26.060
Text, hat dann plötzlich zwei verschiedene Modalitäten, plus ich habe

01:12:26.060 --> 01:12:29.760
halt den Vorteil, dass ich auch manche Sachen mit Händen und Sprechen

01:12:29.760 --> 01:12:30.240
machen kann.

01:12:32.140 --> 01:12:36.440
Wenn ich jetzt so ein Tablet habe, sage, lösche dieses Wort, mache

01:12:36.440 --> 01:12:40.440
dieses Wort fett, dann kann ich halt zeigen, zusammen mit Sprache

01:12:40.440 --> 01:12:42.440
verbinden und kann zwei Sachen gleichzeitig machen.

01:12:43.160 --> 01:12:46.560
Oder ich sitze zum Beispiel, es gibt so Systeme mit Augmented Reality,

01:12:46.720 --> 01:12:50.340
wenn ich jetzt irgendwo ein Düsentriebwerk zerlegt habe und muss da

01:12:50.340 --> 01:12:52.440
irgendwie was ändern, dann habe ich dann so eine Brille auf und der

01:12:52.440 --> 01:12:55.320
zeigt mir da, die Schraube muss ich losdrehen und da muss ich was

01:12:55.320 --> 01:12:58.160
machen und dann kann ich dem System unter Umständen noch sagen, was

01:12:58.160 --> 01:13:03.800
weiß ich, jetzt mal gerade Gas an oder Gas aus, Strom an, Strom aus

01:13:03.800 --> 01:13:06.380
oder solche Sachen oder zeigt mir die nächste Seite vom Handbuch und

01:13:06.380 --> 01:13:10.820
kann gleichzeitig da in dem Triebwerk meine Schrauben drehen.

01:13:13.140 --> 01:13:17.160
Und dann die natürliche Eingabe, ist einfach das Schöne, wir Menschen

01:13:17.160 --> 01:13:20.240
können sprechen, seitdem wir so ungefähr drei Jahre alt sind, so mit

01:13:20.240 --> 01:13:23.760
anderthalb, zwei Jahren fangen wir an zu sprechen, mit sechs Jahren

01:13:23.760 --> 01:13:27.160
ist das schon relativ vernünftig, was dabei rauskommt und seitdem

01:13:27.160 --> 01:13:29.660
können wir sprechen und wir wissen, wie man spricht.

01:13:29.660 --> 01:13:32.520
Wenn ich Schreibmaschine lernen will, muss ich einen Kurs belegen und

01:13:32.520 --> 01:13:33.960
mühsam Schreibmaschine schreiben lernen.

01:13:34.680 --> 01:13:38.020
Und wenn ich das jetzt nicht habe, dann kann ich auch einem Laien

01:13:38.020 --> 01:13:41.940
ermöglichen, etwas zu bedienen, mit so einem Roboter zu interagieren,

01:13:42.120 --> 01:13:44.920
ohne dass der vorher erstmal ein kleines Informatikstudium absolviert

01:13:44.920 --> 01:13:47.060
haben muss, damit er weiß, wie er jetzt diesen Roboter entsprechend

01:13:47.060 --> 01:13:49.320
programmiert und wie er den Anweisungen bringt.

01:13:49.860 --> 01:13:52.640
Dann eine Sache, die noch fehlt, ist tragbar.

01:13:53.260 --> 01:13:54.860
So ein Mikrofon, das ist nicht groß.

01:13:55.600 --> 01:13:58.360
Eine Tastatur, das ist so ein Oschi und kleine Tastaturen sind auch

01:13:58.360 --> 01:13:59.240
noch einmal deutlich größer.

01:13:59.660 --> 01:14:02.560
So ein Mikrofon passt in Google Glasses rein, kann ich tragen,

01:14:02.840 --> 01:14:03.860
funktioniert super einfach.

01:14:06.940 --> 01:14:09.300
Gut, damit für heute genug.

01:14:09.780 --> 01:14:11.480
Nächste Woche kommen wir dann zu den Nachteilen.

01:14:11.620 --> 01:14:13.580
Das heißt also, Zettel nicht wegwerfen, sondern nächste Woche

01:14:13.580 --> 01:14:13.980
mitbringen.

01:14:14.940 --> 01:14:18.680
Dann schauen wir nochmal, was wir an Nachteilen haben und wie die

01:14:18.680 --> 01:14:19.400
Nachteile da sind.

