WEBVTT

00:01.090 --> 00:04.470
Herzlich willkommen zu diesem Video über die Maximum-Likelihood

00:04.470 --> 00:04.990
-Schätzung.

00:05.610 --> 00:09.750
Der Zusatz elementar bedeutet, dass wir zum Verständnis dieses

00:09.750 --> 00:14.630
Schätzprinzips und dieses Videos keinerlei Kenntnisse der Maß- und

00:14.630 --> 00:16.590
Integrationstheorie benötigen.

00:16.590 --> 00:20.890
Maximum-Likelihood-Schätzung, im folgenden Kurz mit ML-Schätzung

00:20.890 --> 00:26.270
abgekürzt, ist ein Prinzip, ein Konzept, um Schätzer für Parameter

00:26.270 --> 00:30.670
innerhalb eines parametrischen statistischen Modells zu konstruieren.

00:30.670 --> 00:35.810
Das im beigen Kästchen stehende statistische Modell besteht dabei aus

00:35.810 --> 00:39.970
einem durch ein kalligrafisches X gekennzeichneten Stichprobenraum,

00:40.250 --> 00:45.070
der eine nicht leere abzehbare Menge ist, sowie aus einer Familie von

00:45.070 --> 00:48.790
Wahrscheinlichkeitsmaßen auf dem System aller Teilmengen des

00:48.790 --> 00:49.770
Stichprobenraums.

00:50.570 --> 00:53.850
Dabei sind die Wahrscheinlichkeitsmaße durch einen Parameter θ

00:53.850 --> 00:54.590
indiziert.

00:54.590 --> 00:58.790
Wer hiermit noch nicht vertraut ist, kann sich zum Beispiel mein Video

00:58.790 --> 01:00.390
über Schätztheorie ansehen.

01:01.030 --> 01:04.810
Die Maximum-Likelihood-Schätzmethode wurde vom britischen Statistiker

01:04.810 --> 01:08.570
Fischer bekannt gemacht und mathematisch genauer untersucht.

01:09.230 --> 01:12.610
Sie war aber als Idee unter anderem schon Karl Friedrich Gauss

01:12.610 --> 01:13.110
bekannt.

01:13.110 --> 01:16.590
Das Schätzprinzip lässt sich wie folgt formulieren.

01:17.130 --> 01:21.210
Halte bei gegebenen Daten dasjenige Modell, sprich

01:21.210 --> 01:26.090
Wahrscheinlichkeitsmaß, für das glaubwürdigste, das den Daten die

01:26.090 --> 01:27.930
größte Wahrscheinlichkeit verleiht.

01:28.370 --> 01:32.930
Die Daten sind hier die Elemente im Stichprobenraum und meister Zufall

01:32.930 --> 01:37.670
hat diese Daten unter Verwendung eines dieser Wahrscheinlichkeitsmaße

01:37.670 --> 01:39.050
Pθ erzeugt.

01:39.050 --> 01:44.490
Wir wüssten gern, welches θ im Parameterraum Großθ und somit welches

01:44.490 --> 01:47.010
Wahrscheinlichkeitsmaß Pθ vorliegt.

01:47.890 --> 01:53.110
Das Prinzip ist einleuchtend und man versteht es meines Erachtens,

01:53.530 --> 01:57.810
wenn man es sich an einem Beispiel, das ich als Verständnisprüfstein

01:57.810 --> 01:59.370
bezeichnet habe, klar macht.

01:59.990 --> 02:04.370
Man stelle sich vor, n unabhängige Bernoulli-Versuche mit unbekannter

02:04.370 --> 02:07.370
Trefferwahrscheinlichkeit P würden ausgeführt.

02:07.370 --> 02:10.650
Insgesamt seien dabei k Treffer aufgetreten.

02:11.210 --> 02:14.730
In der Schule nennt man das hier die Formel von Bernoulli.

02:15.890 --> 02:21.310
Die kennt jeder, aber nur so, dass n und p gegeben sind und man die

02:21.310 --> 02:25.010
Wahrscheinlichkeit dafür ausrechnen soll, dass k Treffer auftreten.

02:25.490 --> 02:29.530
Jetzt sind aber n und k bekannt und p ist unbekannt.

02:29.530 --> 02:35.910
Was gegeben ist, also die Daten, ist hier die Trefferanzahl k und der

02:35.910 --> 02:38.830
Parameter θ im statistischen Modell ist hier das p.

02:39.510 --> 02:44.590
Und zu jedem p gehört die Binomialverteilung mit Parametern n und p.

02:45.830 --> 02:48.670
Was besagt das Maximum-Leibniz-Schätzprinzip?

02:49.250 --> 02:54.510
Suche nach dem Modell, das den Daten, also hier der Trefferanzahl k,

02:54.870 --> 02:56.770
die größte Wahrscheinlichkeit verleiht.

02:56.770 --> 03:01.770
Das heißt aber, maximiere diese Wahrscheinlichkeit bezüglich p und

03:01.770 --> 03:06.130
siehe den Wert von p an, für den diese Wahrscheinlichkeit maximal

03:06.130 --> 03:06.530
wird.

03:07.970 --> 03:11.730
Der Sichtweise, dass man die Wahrscheinlichkeit als Funktion von p

03:11.730 --> 03:15.990
ansieht, wird dadurch Rechnung getragen, dass man sie anders

03:15.990 --> 03:17.770
hinschreibt, nämlich so.

03:19.290 --> 03:23.250
Dabei steht der Buchstabe L für Likelihood, eines der Worte für

03:23.250 --> 03:24.910
Wahrscheinlichkeit im Englischen.

03:24.910 --> 03:29.570
Wenn man hier bezüglich p maximiert, erhält man den sogenannten

03:29.570 --> 03:35.090
Maximum -Leibniz-Schätzwert für p und der wird mit p' bezeichnet und

03:35.090 --> 03:36.250
hängt von k ab.

03:36.910 --> 03:41.610
Es ergibt sich mit etwas Rechnung, dass p' von k gleich der relativen

03:41.610 --> 03:42.890
Trefferhäufigkeit ist.

03:43.450 --> 03:46.470
Ausführlich habe ich das im Video mit dem Titel Statistik

03:46.470 --> 03:50.230
Grundprobleme am Beispiel der Binomialverteilung gemacht.

03:51.010 --> 03:56.090
Hat man also etwa in 100 Versuchen 38 Treffer erzielt, so ist der nach

03:56.090 --> 04:01.210
der Maximum-Leibniz-Methode gewonnene Schätzwert für p gleich 0,38.

04:01.850 --> 04:05.450
Diesen Schätzwert hätte natürlich auch der sprichwörtliche gesunde

04:05.450 --> 04:09.390
Menschenverstand genannt, aber die Maximum-Leibniz-Schätzmethode

04:09.390 --> 04:13.370
funktioniert auch in komplizierteren Situationen, in denen nicht

04:13.370 --> 04:15.910
unmittelbar klar ist, was zu tun ist.

04:16.690 --> 04:18.130
Noch ein wichtiger Punkt.

04:18.750 --> 04:23.850
Die Frage, wie groß p ist, lässt sich prinzipiell nicht beantworten,

04:24.230 --> 04:28.270
denn die oben stehende Wahrscheinlichkeit ist, sofern mindestens ein

04:28.270 --> 04:33.170
Treffer und mindestens eine Niete erzielt wurde, für jedes p, das

04:33.170 --> 04:36.710
größer als 0 und kleiner als 1 ist, positiv.

04:37.500 --> 04:42.370
Das heißt ganz konkret, 38 Treffer in 100 Versuchen können

04:42.370 --> 04:47.550
grundsätzlich von jedem p herrühren, sie sind nur unter gewissen p´s

04:47.550 --> 04:51.470
wahrscheinlicher als unter anderen und am wahrscheinlichsten sind sie,

04:51.650 --> 04:53.650
wenn p gleich 0,38 ist.

04:54.430 --> 04:58.210
Es geht also nur um die mehr oder weniger gute Verträglichkeit von

04:58.210 --> 05:02.670
Daten mit einem nie exakt zutreffenden Modell.

05:03.950 --> 05:07.670
Wir kommen jetzt zur allgemeinen Definition der Maximum-Leibniz

05:07.670 --> 05:12.290
-Schätzung und dazu nehme ich als Memo auf die nächste Folie, was ein

05:12.290 --> 05:16.790
statistisches Modell ist und was allgemein ein Schätzer für den

05:16.790 --> 05:21.110
Parameter θ ist, nämlich eine auf dem Stichprobenraum definierte

05:21.110 --> 05:25.350
Abbildung t, die Werte in einer Menge θ-Schlange annimmt.

05:25.910 --> 05:28.710
Dabei ist θ-Schlange eine Obermenge von θ.

05:28.710 --> 05:33.710
Dass manchmal Schätzwerte möglich sind, die nicht zu θ gehören, hatte

05:33.710 --> 05:35.790
ich im Video zur Schätztheorie thematisiert.

05:36.870 --> 05:39.790
So nimmt man oft bei bei Nulliversuchen an, dass die

05:39.790 --> 05:44.310
Trefferwahrscheinlichkeit größer als 0 und kleiner als 1 ist, aber die

05:44.310 --> 05:48.750
relative Trefferhäufigkeit aus Endversuchen kann durchaus gleich 0

05:48.750 --> 05:53.610
oder 1 sein, sodass die Randpunkte des Einheitsintervalls Schätzwerte

05:53.610 --> 05:58.650
sein können, obwohl der Parameter Raum θ das offene Einheitsintervall

05:58.650 --> 05:58.910
ist.

05:59.810 --> 06:00.910
Noch ein weiterer Punkt.

06:01.310 --> 06:05.190
Der Stichprobenraum wird im folgenden immer eine Teilmenge eines r

06:05.190 --> 06:08.750
hoch n sein, wobei n für den Stichprobenumfang steht.

06:09.270 --> 06:13.930
Wenn gleich ein Zufallsvektor x auftritt, so ist der stets als

06:13.930 --> 06:16.890
identische Abbildung auf dem Stichprobenraum definiert.

06:16.890 --> 06:22.690
Wir fassen also die Daten x im Stichprobenraum als Realisierungen

06:22.690 --> 06:25.310
dieses trivialen Zufallsvektors auf.

06:26.650 --> 06:29.610
Nun zur Definition der Maximum-Likelihood-Schätzung.

06:30.150 --> 06:35.190
Es liege ein statistisches Modell vor und x sei ein festes Element im

06:35.190 --> 06:38.310
Stichprobenraum, das für die gegebenen Daten steht.

06:38.850 --> 06:43.590
Dann nennt man eine mit Lx bezeichnete Funktion, die auf dem

06:43.590 --> 06:48.230
Parameterraum definiert ist und Werte im Einheitsintervall annimmt,

06:48.670 --> 06:54.310
wobei für jedes θ Lx von θ gleich der unter dem Parameterwert θ

06:54.310 --> 06:58.830
berechneten Wahrscheinlichkeit ist, dass der Zufallsvektor den Wert x

06:58.830 --> 07:04.890
annimmt, Likelihood-Funktion für θ zur Beobachtung x gleich x.

07:04.890 --> 07:11.050
Die Sichtweise ist klar, die Daten x sind gegeben und man variiert die

07:11.050 --> 07:13.910
Modelle in Abhängigkeit des Parameters θ.

07:15.390 --> 07:21.830
Wenn es zu x ein von x abhängendes θ-Dach im Parameterraum gibt, das

07:21.830 --> 07:26.710
eventuell auch zu einer Obermenge von θ gehören kann und für das die

07:26.710 --> 07:32.270
Likelihood -Funktion maximal wird, so heißt θ-Dach von x Maximum

07:32.270 --> 07:34.870
-Likelihood -Schätzwert für θ zu x.

07:35.690 --> 07:40.390
Im Allgemeinen steht hier anstelle des Supremums ein Maximum, aber das

07:40.390 --> 07:42.070
muss nicht immer angenommen werden.

07:42.630 --> 07:47.330
Wichtig ist, dass auch für den Fall, dass θ-Dach von x nicht in θ

07:47.330 --> 07:51.730
liegt, ein Wahrscheinlichkeitsmaß mit Index θ-Dach von x vorhanden

07:51.730 --> 07:55.790
ist, das heißt die Likelihood-Funktion muss auch auf der potenziell

07:55.790 --> 07:58.450
echten Obermenge von θ definiert sein.

07:59.990 --> 08:02.650
Wir kommen jetzt von den Schätzwerten zum Schätzer.

08:03.410 --> 08:08.770
Ein Schätzer θ-Dach, der für jedes x die Gleichung 1 erfüllt, heißt

08:08.770 --> 08:11.250
Maximum -Likelihood-Schätzer für θ.

08:13.050 --> 08:17.090
Als erstes Beispiel für ein Maximum-Likelihood-Schätzer diene der

08:17.090 --> 08:20.130
sogenannte Schlechtanteil in der Qualitätskontrolle.

08:20.130 --> 08:25.250
Eine typische Situation ist die, dass eine Warensendung mit Groß-N

08:25.250 --> 08:27.230
-Teilen eintrifft, z.B.

08:27.490 --> 08:31.350
irgendwelche Bauteile, und jedes dieser Teile kann entweder defekt

08:31.350 --> 08:32.390
oder intakt sein.

08:33.050 --> 08:37.630
Man entnimmt dieser Sendung eine Stichprobe, indem man n mal rein

08:37.630 --> 08:42.730
zufällig zieht und auf Intaktheit prüft, ohne das jeweils entnommene

08:42.730 --> 08:44.010
Teil zurückzulegen.

08:44.570 --> 08:48.310
Der Parameterraum ist hier die Menge der ganzen Zahlen von 0 bis n.

08:48.310 --> 08:53.350
Dabei bezeichnet der Parameter θ die Anzahl der defekten Teile in der

08:53.350 --> 08:54.010
Lieferung.

08:54.750 --> 08:58.570
Die Zufallsvariable xj nimmt den Wert 1 bzw.

08:58.810 --> 09:04.310
0 an, je nachdem, ob das j-entnommene Teil defekt oder intakt ist.

09:05.170 --> 09:09.170
Die x1 bis xn fassen wir zu einem Zufallsvektor x zusammen.

09:09.850 --> 09:14.450
Der Stichprobenraum ist hier die Menge aller n-Tupel aus 1 und 0.

09:15.310 --> 09:21.050
Es sei nun ein konkretes, solches n-Tupel gegeben und in diesem Tupel

09:21.050 --> 09:25.730
mögen genau k1-en auftreten, was man durch die Bedingung im blauen

09:25.730 --> 09:27.150
Kästchen ausdrücken kann.

09:27.630 --> 09:32.310
Mit anderen Worten, die Stichprobe ergibt genau k defekte Teile.

09:33.210 --> 09:36.910
Wie wahrscheinlich ist es unter der Annahme, dass sich in der

09:36.910 --> 09:42.450
Lieferung insgesamt θ defekte Teile befinden, dass wir dieses konkrete

09:42.450 --> 09:48.530
n -Tupel erhalten, das genau k1-en und damit n-k0-en aufweist.

09:50.070 --> 09:54.830
Nun im Zufall ist es völlig egal, ob man genauer hinsieht und alle

09:54.830 --> 10:00.450
Teile gedanklich von 1 bis N durchnummeriert und den θ defekten Teilen

10:00.450 --> 10:03.290
die Nummern von 1 bis θ zuordnet.

10:03.290 --> 10:07.990
Dann sind die Ergebnisse einer Stichprobe aber n-Tupel mit lauter

10:07.990 --> 10:12.810
verschiedenen Nummern, also kleinen n-Permutationen der Zahlen von 1

10:12.810 --> 10:18.610
bis N ohne Wiederholung und wir müssen einen Quotienten aus günstigen

10:18.610 --> 10:22.150
und insgesamt möglichen solcher Permutationen bilden.

10:22.790 --> 10:26.630
Dabei steht an der j-Stelle so einer Permutation die Nummer des Teils,

10:26.910 --> 10:28.430
das wir als j ziehen.

10:29.530 --> 10:33.630
Insgesamt haben wir also für die erste Stelle Groß-N-Möglichkeiten,

10:34.010 --> 10:36.910
für die zweite dann noch Groß-N-1 usw.

10:37.710 --> 10:42.170
Wenn wir die übliche Notation für absteigende Faktorielle verwenden,

10:42.750 --> 10:48.050
also T hoch 0 unterstrichen gleich 1 und für L größer gleich 1 T hoch

10:48.050 --> 10:51.790
L unterstrichen gleich T mal T-1 usw.

10:51.910 --> 10:56.590
bis L Faktoren vorliegen, so ist die Anzahl aller möglichen Tupel

10:56.590 --> 10:59.010
durch diesen Nenner gegeben.

11:00.110 --> 11:04.450
Da die Multiplikation kommutativ ist, können wir ohne Beschränkung der

11:04.450 --> 11:09.050
Allgemeiner die ersten k-Plätze im Tupel mit Nummern aus dem Bereich

11:09.050 --> 11:14.430
von 1 bis θ und die restlichen n-k-Plätze mit höheren Nummern

11:14.430 --> 11:14.970
besetzen.

11:15.550 --> 11:19.530
Dieses Symmetrieargument und die Multiplikationsformel der

11:19.530 --> 11:24.710
Kombinatorik zeigen, dass die Anzahl der günstigen Fälle durch diesen

11:24.710 --> 11:26.130
Zähler gegeben ist.

11:27.790 --> 11:32.350
Ich nehme dieses Resultat einmal als Memo auf die nächste Folie.

11:34.230 --> 11:37.470
Wie sieht nun der Maximum-Likelihood-Schätzer für θ aus?

11:38.270 --> 11:41.950
Eine simple Hochrechnung, die der sprichwörtliche gesunde

11:41.950 --> 11:46.370
Menschenverstand nahelegt, ergibt sich, wenn man sagt, der relative

11:46.370 --> 11:51.130
Anteil der defekten Teile in der Stichprobe sollte ungefähr den

11:51.130 --> 11:54.570
Schlechtanteil in der gesamten Lieferung widerspiegeln.

11:55.450 --> 12:01.150
Durch Hochmultiplizieren mit N würde man also diesen mit θ-Stern von k

12:01.150 --> 12:05.250
bezeichneten Schätzwert für die Anzahl der defekten Teile in der

12:05.250 --> 12:06.230
Lieferung erhalten.

12:07.130 --> 12:11.390
Nebenbei sei gesagt, dass dieses Schätzverfahren erwartungstreu ist,

12:11.810 --> 12:15.410
denn k ist Realisierung einer Zufallsvariablen mit einer

12:15.410 --> 12:19.930
hypergeometrischen Verteilung und der Erwartungswert dieser Verteilung

12:19.930 --> 12:25.310
ist n, also die Anzahl der Ziehungen, mal dem Schlechtanteil θ

12:25.310 --> 12:27.730
dividiert durch N in der Lieferung.

12:28.310 --> 12:31.650
Das heißt, der Erwartungswert des Schätzers θ-Stern ist θ.

12:32.930 --> 12:37.450
Der Schätzer θ-Stern hat aber den Nachteil, dass die Schätzwerte unter

12:37.450 --> 12:41.990
Umständen keine ganzen Zahlen sind und so würde man diesen Schätzwert

12:41.990 --> 12:46.370
wohl modifizieren und etwa auf die nächst kleinere ganze Zahl

12:46.370 --> 12:47.110
abrunden.

12:48.090 --> 12:50.150
Doch jetzt zur Maximum-Likelihood-Schätzung.

12:50.570 --> 12:54.410
Wir betrachten zunächst den Fall, dass k gleich 0 ist, also kein

12:54.410 --> 12:56.630
defektes Teil in der Stichprobe ist.

12:57.110 --> 13:01.070
In diesem Fall ist die Likelihood-Funktion durch diesen Quotienten

13:01.070 --> 13:05.630
gegeben und der wird maximal, wenn wir θ gleich 0 setzen.

13:05.630 --> 13:09.430
Dieser Schätzwert stimmt mit θ-Stern überein.

13:10.390 --> 13:15.190
Im anderen Extremfall, dass k gleich N ist, nimmt die im Memo stehende

13:15.190 --> 13:19.970
Likelihood -Funktion diese Gestalt an und sie wird maximal für den

13:19.970 --> 13:21.690
Wert θ gleich N.

13:22.490 --> 13:26.570
Auch in diesem Fall besteht Übereinstimmung mit dem durch simples

13:26.570 --> 13:28.530
Hochrechnen erhaltenen Schätzwert.

13:29.530 --> 13:34.230
Im verbleibenden Fall maximieren wir die Likelihood-Funktion, indem

13:34.230 --> 13:37.690
wir den Quotienten der Likelihood-Funktion für zwei

13:37.690 --> 13:40.610
aufeinanderfolgende Werte von θ bilden.

13:41.390 --> 13:46.610
Einsetzen aus dem Memo liefert diese Darstellung und wenn man jetzt

13:46.610 --> 13:49.750
ein wenig rechnet, ergibt sich diese Gestalt.

13:51.270 --> 13:54.330
Wir vergleichen jetzt diesen Quotienten mit dem Wert 1.

13:54.330 --> 13:59.870
Eine direkte Rechnung liefert, dass dieser Quotient genau dann größer

13:59.870 --> 14:05.510
als 1 ist, wenn θ kleiner als dieser Ausdruck ist und der Quotient ist

14:05.510 --> 14:09.790
genau dann gleich 1, wenn θ diese Gestalt besitzt.

14:10.030 --> 14:13.210
Das geht natürlich nur, wenn der Term rechts vom Gleichheitszeichen

14:13.210 --> 14:14.710
eine ganze Zahl ist.

14:15.510 --> 14:20.110
Auf dem Zahlenstrahl sieht das Ganze so aus, dass wir äquidistante

14:20.110 --> 14:25.870
Abstände für die Werte von θ haben und hier seien etwa θ und θ plus 1.

14:27.090 --> 14:31.670
Wir betrachten zunächst den Fall, dass dieser Ausdruck hier oben keine

14:31.670 --> 14:32.810
ganze Zahl ist.

14:33.230 --> 14:37.570
Dann liegt er zwischen zwei Werten von θ und auch der um 1 größere

14:37.570 --> 14:37.930
Wert.

14:39.210 --> 14:42.710
Dann ist aber klar, für welchen Wert von θ die Likelihood-Funktion

14:42.710 --> 14:43.730
maximal wird.

14:43.730 --> 14:48.730
In der genau dann-wenn-Beziehung ganz oben steht ja, die Likelihood

14:48.730 --> 14:53.910
-Funktion nimmt an der Stelle θ plus 1 einen größeren Wert an, als an

14:53.910 --> 14:57.990
der Stelle θ, wenn θ kleiner als dieser Wert hier ist.

14:58.910 --> 15:02.950
Das heißt aber, dass die Likelihood-Funktion an dieser Stelle hier

15:02.950 --> 15:07.830
maximal wird und das ist die größte ganze Zahl kleiner gleich diesem

15:07.830 --> 15:08.210
Wert.

15:09.350 --> 15:13.610
Somit ergibt sich der Maximum-Likelihood-Schätzwert zu diesem

15:13.610 --> 15:19.470
Ausdruck, wenn k mal N plus 1 durch n keine ganze Zahl ist.

15:21.110 --> 15:24.850
Im verbleibenden Fall sieht die Situation so aus.

15:26.550 --> 15:31.350
Und jetzt zeigt die zweite genau dann-wenn-Beziehung, dass das Maximum

15:31.350 --> 15:35.830
der Likelihood-Funktion an diesen beiden Stellen angenommen wird.

15:37.050 --> 15:41.070
Wir haben also jetzt zwei mögliche Maximum-Likelihood-Schätzwerte.

15:41.870 --> 15:46.250
Wir können beide Fälle zusammenfassen und sagen, dass diese Definition

15:46.250 --> 15:48.950
ein Maximum-Likelihood-Schätzwert liefert.

15:51.310 --> 15:55.550
Sehen wir uns noch einmal den durch Hochrechnen und Anschließen des

15:55.550 --> 16:00.030
Abrunden gewonnenen Schätzwert θ-Stern an, so ist wegen dieser

16:00.030 --> 16:04.610
Ungleichung θ-Dach von k größer gleich θ-Stern von k.

16:04.610 --> 16:10.190
Dieser Wert ist aber wiederum höchstens gleich θ-Stern von k plus 1.

16:11.230 --> 16:15.070
Beide Schätzwerte liegen also höchstens um 1 auseinander.

16:16.310 --> 16:20.070
Dieses Beispiel hat gezeigt, wie man vorgehen kann, wenn der

16:20.070 --> 16:24.210
Parameterraum θ aus endlich vielen ganzzahligen Werten besteht.

16:24.950 --> 16:29.110
Oft ist θ jedoch ein offenes Intervall und die Likelihood-Funktion ist

16:29.110 --> 16:31.810
eine differenzierbare Funktion des Parameters.

16:31.810 --> 16:36.630
In solchen Fällen ist es ratsam, die sogenannte Log-Likelihood

16:36.630 --> 16:37.850
-Funktion zu betrachten.

16:38.410 --> 16:42.590
Diese ergibt sich ganz einfach, indem man den natürlichen Logarithmus

16:42.590 --> 16:47.250
der Likelihood-Funktion bildet und dann diese Funktion bezüglich θ

16:47.250 --> 16:48.230
maximiert.

16:48.950 --> 16:53.190
Das kann man machen, weil wegen der strengen Monotonie der Logarithmus

16:53.190 --> 16:56.910
-Funktion beide Funktionen ihre Maxima an der gleichen Stelle

16:56.910 --> 16:57.330
annehmen.

16:57.330 --> 17:02.290
Die Bildung der Log-Likelihood-Funktion ist vorteilhaft, wenn θ ein

17:02.290 --> 17:06.470
Intervall ist und die Likelihood-Funktion differenzierbar ist, und

17:06.470 --> 17:10.470
zwar insbesondere dann, wenn die Komponenten des Zufallsvektors

17:10.470 --> 17:12.290
stochastisch unabhängig sind.

17:12.970 --> 17:17.550
In diesem Fall ist ja die Likelihood-Funktion, die in Abhängigkeit von

17:17.550 --> 17:21.870
θ diese Wahrscheinlichkeit beschreibt, das Produkt dieser

17:21.870 --> 17:22.750
Wahrscheinlichkeit.

17:23.710 --> 17:28.290
Der Logarithmus macht aus diesem Produkt eine Summe von Logarithmen

17:28.290 --> 17:33.050
und eine Summe ist meist leichter zu differenzieren als ein Produkt.

17:34.510 --> 17:38.590
Sehen wir uns das Ganze in Aktion an, und zwar im Zusammenhang mit der

17:38.590 --> 17:42.590
geometrischen Verteilung, die die Anzahl der Nieten vor dem ersten

17:42.590 --> 17:45.390
Treffer in unabhängigen Bernoulli-Versuchen beschreibt.

17:45.390 --> 17:50.990
Seien dazu x1 bis xn unabhängige Zufallsvariablen mit der gleichen

17:50.990 --> 17:53.470
geometrischen Verteilung mit Parameter θ.

17:54.290 --> 17:57.610
Wir möchten also die Trefferwahrscheinlichkeit bei Bernoulli-Versuchen

17:57.610 --> 18:02.850
dadurch schätzen, dass wir n-mal feststellen, wie viele Fehlversuche

18:02.850 --> 18:05.070
wir vor dem ersten Treffer benötigt haben.

18:05.850 --> 18:10.210
Das seien dazu unsere Daten, die wir zu einem Vektor zusammenfassen,

18:10.650 --> 18:13.710
und x sei der entsprechende Zufallsvektor.

18:14.510 --> 18:19.310
Die Likelihood-Funktion ist nach Definition dieser Ausdruck, und wegen

18:19.310 --> 18:22.010
der Unabhängigkeit gilt diese Gleichheit.

18:22.670 --> 18:26.130
Das sind die jeweiligen Wahrscheinlichkeiten aus der geometrischen

18:26.130 --> 18:30.890
Verteilung, also die Wahrscheinlichkeiten für xj Nieten und dann einen

18:30.890 --> 18:34.410
Treffer, und das können wir in dieser Form schreiben.

18:36.170 --> 18:40.650
Wenn wir jetzt logarithmieren, folgt diese Darstellung für die Log

18:40.650 --> 18:41.590
-Likelihood -Funktion.

18:42.510 --> 18:48.890
Leiten wir nach θ ab, so ergibt sich das hier, und diese Ableitung ist

18:48.890 --> 18:54.010
als notwendige Bedingung für ein Maximum gleich Null, genau dann, wenn

18:54.010 --> 18:56.810
θ gleich dem rechts stehenden Quotienten ist.

18:57.750 --> 19:01.570
Haben wir also im Mittel 8 Nieten vor dem ersten Treffer beobachtet,

19:02.050 --> 19:05.150
so ist der Schätzwert für die Trefferwahrscheinlichkeit gleich ein

19:05.150 --> 19:05.790
Neuntel.

19:06.830 --> 19:10.870
Anhand der Gestalt der Ableitung erkennt man übrigens schnell, dass

19:10.870 --> 19:15.650
die Likelihood-Funktion genau ein Maximum besitzt, das für θ' von x

19:15.650 --> 19:16.570
angenommen wird.

19:17.210 --> 19:22.250
Setzen wir für die xj die Zufallsvariablen ein, so erhalten wir den

19:22.250 --> 19:25.770
mit θN' bezeichneten Maximum-Likelihood-Schätzer.

19:26.530 --> 19:30.890
Für die, die etwas tiefer bohren möchten, sei gesagt, dass dieser

19:30.890 --> 19:34.290
Schätzer nicht erwartungstreu ist, sondern die

19:34.290 --> 19:37.090
Trefferwahrscheinlichkeit systematisch überschätzt.

19:37.090 --> 19:42.390
Das liegt daran, dass dieser Quotient hier eine konvexe Funktion des

19:42.390 --> 19:46.290
arithmetischen Mittels ist, so wie an der Jensen'schen Ungleichung.

19:47.530 --> 19:50.810
Abschließend sei gesagt, dass sich das Maximum-Likelihood

19:50.810 --> 19:55.170
-Schätzprinzip natürlich nicht auf diskrete Verteilungen beschränkt.

19:55.730 --> 19:59.870
Liegt ein statistisches Modell mit einer Familie von absolut stetigen

19:59.870 --> 20:03.330
Verteilungen vor, wie etwa der Normalverteilung oder der

20:03.330 --> 20:08.110
Exponentialverteilung, so maximiert man bei gegebenen Daten die

20:08.110 --> 20:12.030
Wahrscheinlichkeitsdichte als Funktion der beiden Parameter bei der

20:12.030 --> 20:13.750
Normalverteilung bzw.

20:14.110 --> 20:16.870
des Parameters bei der Exponentialverteilung.

20:17.730 --> 20:21.570
Damit wären wir am Ende dieses schon recht langen Videos angekommen.

20:21.790 --> 20:25.250
Ich bedanke mich ganz herzlich fürs Zuschauen und für Hinweise und

20:25.250 --> 20:27.850
konstruktive Kritik bin ich wie immer dankbar.

