Wahrscheinlichkeitstheorie, Statistik Und Datenanalyse

Wahrscheinlichkeitstheorie, Statistik und Datenanalyse
Prof. Dr. Wolfgang von der Linden DI Alexander Prll 10. Dezember 2002
Inhaltsverzeichnis
I
1
Einfhrung
Statistische und klassische Denition von Wahrscheinlichkeit 1.1 Klassische Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bertrand Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Statistische Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Denition von Mittelwert, Momenten und marginaler Verteilung 2.1 Verteilungen einer diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Verteilungen mehrerer diskreter Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfhrung in die Kombinatorik 3.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Geordnete Stichproben . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Unterpopulationen und Partitionierungen . . . . . . . . . . . 3.3.1 Vollstndige Paarungen einer Population . . . . . . . 3.3.2 Beispiel: der Random-Walk . . . . . . . . . . . . . . . 3.3.3 Beispiel: Korrektur bei der Informationsbertragung 3.4 Anwendung auf Besetzungszahl-Probleme . . . . . . . . . . 3.5 Geometrische und hypergeometrische Verteilung . . . . . . 3.5.1 Fragestellung 1 ohne Zurcklegen . . . . . . . . . . . 3.5.2 Fragestellung 1 mit Zurcklegen . . . . . . . . . . . . 3.5.3 Fragestellung 2 ohne Zurcklegen . . . . . . . . . . . 3.5.4 Fragestellung 2 mit Zurcklegen . . . . . . . . . . . . Grenzwertstze 4.1 Stirlingsche Formel . . . . . . . . . . 4.2 Lokaler Grenzwertsatz (de Moivre) . 4.3 Integralsatz von de-Moivre . . . . . 4.4 Bernoullis Gesetz der groen Zahlen 4.5 Der Satz von Poisson . . . . . . . . .
11
13 13 16 18 21 21 25 29 29 31 32 33 39 39 42 43 47 47 47 49 52 55 55 56 58 61 62
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Begriffsdenitionen und Diskussion 5.1 Das Schtzexperiment mit drei Urnen . . . . . . . . . . . . . . . . 5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie 5.2.1 Orthodoxe Statistik . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Signikanz-Test . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Bayessche Wahrscheinlichkeitstheorie . . . . . . . . . . . . Boolsche Algebren und Borel-Krper 6.1 Halbordnung . . . . . . . . . . . 6.2 Boolsche Algebra . . . . . . . . . 6.2.1 Beispiele: . . . . . . . . . . 6.2.2 Normierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
67 67 71 71 72 75 79 79 80 84 85 87 88 89 93 93 94 94 95 102 102 103 104 104 106 106 108 111 113 115 121 121 122 123 124
Axiomatische Wahrscheinlichkeitstheorie 7.1 Regeln der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . 7.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . Bayessche Wahrscheinlichkeitstheorie 8.1 Was ist Wahrscheinlichkeit? . . . . . . . . . 8.2 Das Universalgesetz der Wahrscheinlichkeitstheorie . . . . . . . . . 8.3 Aussagenlogik . . . . . . . . . . . . . . . . . 8.4 Herleitung der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . 8.5 Spezielle Propositionen . . . . . . . . . . . . 8.5.1 Indizierte Propositionen . . . . . . . 8.5.2 Kontinuierliche Propositionen . . . 8.6 Einfache Beispiele . . . . . . . . . . . . . . . 8.6.1 Propagatoren . . . . . . . . . . . . . 8.6.2 Das 3 Tren Problem . . . . . . . . . 8.6.3 Detektor fr seltene Teilchen . . . . 8.6.4 Ist die Mnze symmetrisch? . . . . . 8.6.5 Produktionsrate des Wettbewerbers 8.6.6 Anzahl der Fische . . . . . . . . . . . 8.6.7 Beste Auswahl aus N Vorschlgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kontinuierliche Variablen 9.1 Verteilungsfunktion und Dichtefunktion . . . . . 9.1.1 Beispiel eines kontinuierlichen Problems 9.1.2 Beispiel eines diskreten Problems . . . . 9.2 Weitere Denitionen . . . . . . . . . . . . . . . . 9.2.1 Denition von Mittelwert, Momenten und marginaler Verteilung . . . . . . . . 9.2.2 Denition einer Stichprobe . . . . . . . .
. . . . . . . . . . . . . 124 . . . . . . . . . . . . . 125
9.3 9.4
9.5
9.6
Ordnungs-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Wahrscheinlichkeitsverteilung von Maximalwerten . . Gngige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . 9.4.1 Gleich-Verteilung im Intervall [a, b] . . . . . . . . . . . . 9.4.2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.3 -Verteilung, 2 -Verteilung . . . . . . . . . . . . . . . . 9.4.4 Exponential-Verteilung . . . . . . . . . . . . . . . . . . 9.4.5 Normal-Verteilung . . . . . . . . . . . . . . . . . . . . . 9.4.6 Student-t-Verteilung, Cauchy-Verteilung . . . . . . . . 9.4.7 Multivariate Normal-Verteilung . . . . . . . . . . . . . Transformationseigenschaften . . . . . . . . . . . . . . . . . . . 9.5.1 Beispiele mit einer Variablen . . . . . . . . . . . . . . . 9.5.2 Beispiel mit zwei Variablen . . . . . . . . . . . . . . . . Aufenthaltswahrscheinlichkeit des harmonischen Oszillators .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
125 126 127 127 128 131 135 135 139 141 143 143 144 145
10 Der zentrale Grenzwertsatz 10.1 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Alternative Beschreibung einer Zufalls-Variablen . . . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Das Shift-Theorem . . . . . . . . . . . . . . . . . . . . . . . 10.1.3 Erzeugung von Momenten . . . . . . . . . . . . . . . . . . 10.2 Summe von Zufalls-Variablen . . . . . . . . . . . . . . . . . . . . . 10.2.1 Beispiel: Summe von exponentiell verteilten Zufallszahlen 10.2.2 Beispiel: Summe gleichverteilter Zufallszahlen . . . . . . . 10.2.3 Monte-Carlo-Integration . . . . . . . . . . . . . . . . . . . . 10.3 Zentraler Grenzwertsatz: multivariater Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Laser-Speckle 11.1 Das Statistische Modell . . . . . . . . . . . . . . . . . 11.2 Signal-zu-Rauschen (S/R) Verhltnis . . . . . . . . 11.3 Verbesserung des Signal-zu-Rauschen Verhltnisses 11.4 Die Standard-Form der 2 -Verteilung . . . . . . . .
149 . . . 149 . . . . . . . . . . . . . . . . . . . . . 149 150 150 155 161 162 164
. . . 166 167 167 171 171 172
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
II
Poisson
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
175
177 177 178 179 179 180
12 Poisson-Prozess, Poisson-Punkte und Wartezeiten 12.1 Stochastische Prozesse . . . . . . . . . . . . . . 12.2 Poisson Punkte . . . . . . . . . . . . . . . . . . 12.3 Intervall-Verteilung der Poisson-Punkte . . . . 12.3.1 Alternative Sicht der Poisson Punkte . . 12.4 Wartezeiten-Paradoxon . . . . . . . . . . . . . .
12.4.1 Verteilung der Intervall-Lngen eines zufllig ausgewhlten Intervalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5 Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.6 Ordnungsstatistik des Poisson-Prozesses . . . . . . . . . . . . . . . . . 12.7 Alternative Herleitung des Poisson-Prozesses . . . . . . . . . . . . . . . 12.8 Shot-Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.9 Die Hartnckigkeit des Pechs . . . . . . . . . . . . . . . . . . . . . . . . 12.10Schtzen der Halbwertszeit aus einer Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
181 182 183 183 186 187 189
III
Zuweisen von Wahrscheinlichkeiten
193
195
13 Vorbemerkungen
14 Uninformative Prioren fr Parameter 197 14.1 Jeffreys Prior fr Skalen-Variablen . . . . . . . . . . . . . . . . . . . . . 198 14.2 Prior fr die Parameter einer Geraden . . . . . . . . . . . . . . . . . . . 200 15 Der entropische Prior fr diskrete Probleme 15.1 Shannon-Entropie . . . . . . . . . . . . . 15.2 Eigenschaften der Shannon-Entropie . . 15.3 Axiomatische Ableitung der Shannon-Entropie . . . . . . . . . . 15.4 Eigenschaften der Entropie . . . . . . . 15.5 MaxentPrinzip . . . . . . . . . . . . . . . 15.6 Maxwell-Boltzmann-Verteilung . . . . . 15.7 Bose-Einstein-Verteilung . . . . . . . . . 15.8 Fermi-Dirac-Verteilung . . . . . . . . . . 15.9 Vergleich mit Zufallsexperiment . . . . 16 Maxent bei kontinuierlichen Variablen 17 Das invariante Riemann-Ma 205 . . . . . . . . . . . . . . . . . . 206 . . . . . . . . . . . . . . . . . . 210 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 217 218 221 222 224 225 229 237
18 Fehlerbehaftete berprfbare Information 239 18.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 18.1.1 Invertieren der Laplace-Transformation . . . . . . . . . . . . . . 253 18.1.2 Abel-Inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
IV
Parameterschtzen
261
19 Entscheidungstheorie 263 19.1 Elemente der Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . 263
19.1.1 Beispiel: Qualittskontrolle . . . . . . . . . . . . . . . . . . . . . 265 19.1.2 Beispiel: Optimale Produktionsrate . . . . . . . . . . . . . . . . 267 20 Parameter-Schtzen 20.1 Unverzerrte Schtzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2 Maximum-Likelihood Schtzwert . . . . . . . . . . . . . . . . . . . . . . 20.2.1 Beispiel: univariate Normal-Verteilung . . . . . . . . . . . . . . 20.2.2 Beispiel: Halbwertszeit eines Poissonprozesses . . . . . . . . . . 20.2.3 Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2.4 Bernoulli-Problem . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2.5 Abbruchskriterien bei Experimenten . . . . . . . . . . . . . . . . 20.2.6 Least-Squares-Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.3 Cramer-Rao Untergrenze des Schtzfehlers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.3.1 Wann wird die CR-Grenze erreicht? . . . . . . . . . . . . . . . . 20.3.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.4 Parameter-Schtzen im Rahmen der Wahrscheinlichkeitstheorie . . . . 20.4.1 Nchste-Nachbar-Abstnde von d-dimensionalen PoissonPunkten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.4.2 Beispiel: Bernoulli-Problem . . . . . . . . . . . . . . . . . . . . . 20.4.3 Risiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.4.4 Vertrauensintervall . . . . . . . . . . . . . . . . . . . . . . . . . . 20.5 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.5.1 Schtzen einer Konstanten . . . . . . . . . . . . . . . . . . . . . . 20.5.2 Schtzen der Parameter einer Geraden . . . . . . . . . . . . . . 20.5.3 Vorhersagen bei einem linearen Modell . . . . . . . . . . . . . . 20.5.4 Zahl der Datenpunkte innerhalb des Fehlerband . . . . . . . . . 20.6 Parameter-Schtzen von nichtlinearen Modellen . . . . . . . . . . . . . 20.7 Fehler in Abszisse und Ordinate . . . . . . . . . . . . . . . . . . . . . . 20.7.1 Leuchtturm Problem . . . . . . . . . . . . . . . . . . . . . . . . . 20.8 Ausreier-tolerante Parameter-Schtzung . . . . . . . . . . . . . . . . . 20.8.1 Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.8.2 Beispiel: Schtzen des Mittelwerts . . . . . . . . . . . . . . . . . 20.8.3 Beispiel: Geradent . . . . . . . . . . . . . . . . . . . . . . . . . . 271 271 272 272 272 273 274 275 279 280 283 284 286 289 291 291 292 292 295 296 298 302 303 304 304 307 309 310 311
Hypothesentests
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
315
317 317 317 318 321 324
21 Stichproben-Verteilungen 21.1 Mittelwert und Median . . . . . . . . . . . . . . . 21.1.1 Verteilung des Stichproben-Mittelwertes 21.1.2 Varianz der Stichproben-Mittelwerte . . . 21.1.3 Verteilung des Stichproben-Medians . . . 21.1.4 Varianz des Stichproben-Medians . . . .
21.2 Verteilung von Mittelwert und Varianz in normalen Stichproben 21.2.1 Stichproben-Mittelwert . . . . . . . . . . . . . . . . . . . 21.2.2 Stichproben-Varianz, 2 -Statistik . . . . . . . . . . . . . . 21.2.3 Beispiel fr 2 -Test . . . . . . . . . . . . . . . . . . . . . . 21.3 z -Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 Student-t Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.5 Snedecors F -Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 21.6 Fehler-Fortpanzung . . . . . . . . . . . . . . . . . . . . . . . . . 22 Orthodoxe Hypothesen Tests 22.1 Einfhrung am Beispiel des z -Tests . . . . . . . . . . . . . . 22.1.1 Indirekter Schluss . . . . . . . . . . . . . . . . . . . . 22.1.2 Fehler erster und zweiter Art . . . . . . . . . . . . . 22.1.3 Allgemeines Prinzip der statistischen Tests . . . . . 22.2 2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2.1 Vergleich mit theoretischen Modellen . . . . . . . . 22.2.2 Test von Verteilungen . . . . . . . . . . . . . . . . . 22.2.3 Test von Verteilungen mit unbekannten Parametern 22.2.4 Kontingenz-Tabellen . . . . . . . . . . . . . . . . . . 22.2.5 Vierfelder-Test . . . . . . . . . . . . . . . . . . . . . . 22.2.6 Simpsons Paradoxon . . . . . . . . . . . . . . . . . . 22.3 t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.3.1 Vergleich von Mittelwerten . . . . . . . . . . . . . . 22.4 F -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.5 Kritik an der Test-Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
329 331 331 333 334 336 338 341 345 345 346 347 351 352 354 355 360 362 364 365 367 367 370 372 375 378 380 381 384 384 386 389 391
23 Wahrscheinlichkeitstheoretische Hypothesen Tests 23.1 Stimmt der vorgegebene Mittelwert? . . . . . . . . . . . . . . . 23.1.1 Der Ockham-Faktor . . . . . . . . . . . . . . . . . . . . 23.2 Stimmt der angegebene Mittelwerte bei unbekannter Varianz 23.3 Sind die Mittelwerte gleich? . . . . . . . . . . . . . . . . . . . . 23.3.1 Berechnung der marginalen Likelihood zu H . . . . . . 23.3.2 Berechnung der marginalen Likelihood zu H . . . . . . 23.4 Sind die Varianzen gleich, ungeachtet der Mittelwerte? . . . . 23.4.1 Beispiel: Hat sich die Messapparatur verstellt? . . . . .
24 Modell-Vergleich 393 24.1 Bekannte Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 24.1.1 Steepest Descent Nherung . . . . . . . . . . . . . . . . . . . . . 394
VI
Literatur
399
WAHRSCHEINLICHKEITSTHEORIE , S TATISTIK UND D ATENANALYSE
T HERE ARE THREE LIES :
LIES , DAMNED LIES AND STATISTICS .
(D ISRAELI , M ARK
T WAIN )
10
Teil I Einfhrung
11
Kapitel 1 Statistische und klassische Denition von Wahrscheinlichkeit

1.1 Klassische Denition
Die erste quantitative Denition des Begriffes Wahrscheinlichkeit geht auf Blaise Pascal (1623 - 1662) und Pierre de Fermat (1601 - 1665) zurck. Sie wurden von Antoine Gombauld Chevalier de Mr, Sieur de Baussay (1607-1685) ermahnt, dass die Mathematik nicht im Einklang mit dem praktischen Leben sei. Das praktische Leben war fr den Edelmann das Glcksspiel. Ihn interessierte besonders ein damals bliches Wrfelspiel, bei dem die Bank gewinnt, wenn bei viermaligem Wrfeln mindestens einmal die Augenzahl 6 erscheint. Pascal und Fermat haben sich mit dieser und hnlichen Fragen auseinandergesetzt und damit die klassische Wahrscheinlichkeitstheorie begrndet.
Def. 1.1 (Klassische Denition von Wahrscheinlichkeit) Ein Ereignis trete zufllig auf. Die Wahrscheinlichkeit fr das Auftreten des Ereignisses E ist deniert durch den Quotienten aus der Anzahl g der fr das Ereignis gnstigen und der Zahl m der mglichen Flle g m
P =
Beispiel: Wahrscheinlichkeit fr Herz in einem Skat-Spiel ist P =
8 32
=1 . 4
13
Fr die klassische Wahrscheinlichkeit lassen sich fr zwei beliebige Ereignisse A und B folgende Regeln ableiten P (A B ) = nA + nB nAB = P (A) + P (B ) P (A B ) N 0 =0 unmgliches Ereignis, N: Null-Element P (N ) = N N P (E ) = =1 sicheres Ereignis, E: Eins-Element N 0 P (A) 1 folgt aus der Denition nAB P (A B ) P (A|B ) = = . nB P (B ) (1.1a) (1.1b) (1.1c) (1.1d) (1.1e)
Das Symbol P (A|B ) steht fr die BEDINGTE WAHRSCHEINLICHKEIT fr A, vorausgesetzt das Ereignis B liegt vor. In der klassischen Wahrscheinlichkeitstheorie heit das, dass wir die mglichen Ereignisse vorsortieren. Wir bercksichtigen nur noch solche, die die Bedingung B erfllen, das seien nB Ereignisse. Von diesen interessieren uns nun gerade solche, die auch gleichzeitig A erfllen. Damit ist die Zahl der gnstigen Flle gleich der Zahl der Flle, die sowohl A als auch B erfllen, also nAB . Def. 1.2 (Exklusive Ereignisse) Sich gegenseitig ausschlieende Ereignisse, d.h. A B = N , wollen wir in Anlehnung an die englische Nomenklatur kurz EXKLUSIV nennen. Def. 1.3 (Komplementre Ereignisse) Ein Ereignis A ist komplementr zu A, wenn gilt A A = E; und AA=N .
Aus der Summenregel folgt fr exklusive Ereignisse eine vereinfachte Summenregel und daraus wiederum der Zusammenhang zwischen den Wahrscheinlichkeitenkomplementrer Ereignisse P (A B ) = P (A) + P (B ) P (A) = 1 P (A) (1.2) (1.3)
Diese klassische Denition der Wahrscheinlichkeit wurde spter von Jacob Bernoulli (1654-1705) in seinem Buch Ars Conjectandi (1713 posthum publiziert) weiterentwickelt. Dieses Buch enthlt wegweisende Beitrge zur Wahrscheinlichkeitstheorie, unter anderem eine ausfhrliche Diskussion der wahren Bedeutung des Wahrscheinlichkeitsbegriffes: Wahrscheinlichkeit ist ein messbares Ma der Gewissheit. Bernoulli unterschied bereits klar zwischen Prior- und Posterior-Wahrscheinlichkeit. Neben Pascal, Fermat und Bernoulli war Pierre-Simon Laplace (1749-1827) einer der fhrenden Begrnder der modernen Wahrscheinlichkeitstheorie. Laplace benutzte die Wahrscheinlichkeitstheorie u.a. fr inverse Schlsse (z.B. die Strae ist nass, wie gro ist die Wahrscheinlichkeit, dass es geregnet hat?). Die Formel, die er hierzu verwendet hat, geht auf Reverend Thomas Bayes (1702-1761) zurck. Die nach ihm benannte Formel (Bayes Theorem, sogenannt nach Pointcar viele Jahre spter) wurde erst
14
posthum (1764) publiziert. Eingereicht wurde sie von einem seiner Freunde (Richard Price). Die Formel war allerdings in einer wenig transparenten Form und wurde erst durch Laplace in die heute bekannte Gestalt gebracht. Im Zusammenhang mit der Himmelsmechanik beruhen wesentliche seiner Ergebnisse auf Wahrscheinlichkeitsberlegungen. Weitere Anwendungen seiner Wahrscheinlichkeitstheorie sind: Buffonsches Nadel-Problem, Glcksspiele, naturwissenschaftliche Probleme, juristische Probleme, Kindersterblichkeit, etc. Fr die Ableitung seiner Ergebnisse fhrte er das Prinzip der Ununterscheidbarkeit (principle of indifference) ein. Auf Laplace gehen auch die Anfnge der Fehlerrechnung zurck. Es war bereits Bernoulli bekannt, dass die Zahlen m aller Ereignisse und die der Zahl g der gnstigen Ereignisse nicht immer eindeutig festgelegt werden knnen. Zum Beispiel: Es werden zwei Wrfel geworfen und wir suchen die Wahrscheinlichkeit, dass die Summe der Augenzahlen 7 ist. a) Wir betrachten als mgliche Ergebnisse die 11 mglichen Summen der Augenzahlen (2, 3, . . . , 12). Von diesen Summen ist nur ein Ergebnis (die Summe 7) das positive Ergebnis P = 1/11. b) Wir betrachten als mgliche Ergebnisse alle der Gre nach sortierten ZahlenPaare, ohne zwischen dem ersten und zweiten Wrfel zu unterscheiden, (1, 1), (1, 2), . . . (1, 6), (2, 2), (2, 3), . . . (6, 6). Davon gibt es 6+5+4+3+2+1 = 21. Es gibt 3 positive Ereignisse (1, 6), (2, 5), (3, 4). Daraus folgt P = 1/7. c) Wir unterscheiden zustzlich, welcher Wrfel welche Augenzahl liefert. Der Unterschied besteht darin, dass es nun 2 Mglichkeiten fr ungleiche Augenzahlen und weiterhin nur eine fr gleiche Augenzahlen gibt. Nun ist N = 36 und g = 6, mit (1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3). Das heit, P = 1/6. In diesem Beispiel ist offensichtlich die letzte Variante die korrekte. Man ist berzeugt, dass das a-priori so sein muss. Die Quanten-Physik lehrt uns aber etwas anderes. Es gibt hier Situationen, in denen die zweite Variante korrekt ist (Bosonen). Hierauf gehen wir spter nher ein. Das obige Beispiel zeigt, dass die Denition der Wahrscheinlichkeit przisiert werden muss: Def. 1.4 (Przisierte Denition der klassischen Wahrscheinlichkeit) Die Wahrscheinlichkeit eines Ereignisses ist gegeben durch das Verhltnis der Zahl der gnstigen Ergebnisse zu der aller mglichen; vorausgesetzt, alle Ergebnisse sind gleich-wahrscheinlich. Diese Denition eliminiert aber nicht wirklich die Probleme: Konzeptionell unbefriedigend, Wahrscheinlichkeit darber deniert, dass Ereignisse dieselbe Wahrscheinlichkeit haben (Ringschluss). Das obige Beispiel hat gezeigt, dass die Gleich-Wahrscheinlichkeit nicht eindeutig ist.
15
Kann nur in den Fllen angewandt werden, in denen alle Elementar-Ereignisse dieselbe Wahrscheinlichkeit haben. Kann in vielen Fllen leicht geklrt werden. (Glcksspiel, auch in der statistischen Physik) Es wurden zur Zuweisung von Wahrscheinlichkeiten zwei Prinzipien vorgeschlagen: das Principle of Insufcient Reasoning von Jacob Bernoulli und das Principle of Indifference von Pierre-Simon Laplace. Sie besagen: wenn es kein Vorwissen gibt, das die einzelnen Elementar-Ereignisse unterscheidet, kann man sie neu durchnummerieren, ohne die Situation zu verndern. Daraus muss man schlieen, dass alle Ereignisse, zwischen denen a-priori nicht unterschieden werden kann, gleichwahrscheinlich sind. Es gibt aber Gegenbeispiele fr diskrete Probleme aus der Physik. Besonders augenfllig sind die Schwierigkeiten bei kontinuierlichen Problemen, da hier das Ma ins Spiel kommt. Ein prominentes Beispiel ist das sogenannte B ERTRAND -PARADOXON (1888), das erst 1968 von E.T.Jaynes (1922-1998) zufriedenstellend gelst wurde.
1.2
Bertrand Paradoxon
ber einen Kreis hinweg werden zufllig Geraden gezeichnet. Wie gro ist die Wahrscheinlichkeit, dass der Abstand vom Zentrum kleiner ist als die Hlfte des Radius r? Ohne Beschrnkung der Allgemeinheit setzen wir r = 1 in passend gewhlten Einheiten. Es bieten sich mehrere Lsungen an. Wir wollen hier zunchst nur drei diskutieren. a) Wir nehmen an, dass wie in Abbildung (1.1) dargestellt der Abstand vom Zentrum mit gleicher Wahrscheinlichkeit alle Werte zwischen 0 und 1 annehmen kann. Unter dieser Voraussetzung ist das Intervall der gnstigen Ereignisse 1/2 und somit die gesuchte Wahrscheinlichkeit P = 1/2.
1
0.5
0 1/2 +1/2
0.5
1 1 0.5 0 0.5 1
Abbildung 1.1: Skizze 1 zum Bertrand-Paradoxon. b) Alternativ knnen wir, wie in Abbildung (1.2) skizziert, den Winkel zwischen der Geraden und der Tangente an den Kreis als Gre betrachten, die gleich-
16
wahrscheinlich alle Werte zwischen 0 und annehmen kann. Der gnstige Winkelbereich ist /3 und die gesuchte Wahrscheinlichkeit ist demnach in diesem Fall P = 1/3.
1
0.5 /3 0 /3 /3 0.5
1 1 0.5 0 0.5 1
Abbildung 1.2: Skizze 2 zum Bertrand-Paradoxon.
c) Eine weitere Mglichkeit ist, die Flche A des konzentrischen Kreises, der die Gerade wie in Abbildung (1.3) berhrt, als gleich-verteilt zwischen 0 und anzunehmen. Der gnstige Bereich ist A [0, /4], woraus sich eine Wahrscheinlichkeit P = 1/4 ergibt.
1
0.5
0.5
1 1 0.5 0 0.5 1
Abbildung 1.3: Skizze 3 zum Bertrand-Paradoxon.
Es gibt noch andere plausibel erscheinende Darstellungen, die zu wieder anderen Ergebnissen fhren. Wie kann es sein, dass ein eindeutig deniertes Problem keine eindeutige Antwort liefert? Hinter dem Bertrand-Paradoxon verbirgt sich allgemein das Problem, wie man Unwissenheit bei kontinuierlichen Freiheitsgraden zu beschreiben hat. Nehmen wir an, wir wollen etwas ber eine Gre x aussagen, die die reellen Zahlen zwischen 0 und 1 annehmen kann. Es ist naheliegend das klassische Konzept zu verwenden, dass, wenn wir nichts weiter wissen, die Wahrscheinlichkeit fr
17
x (x, x + dx) als P (x (x, x + dx)) = dx = px (x)dx 1
anzusetzen ist. Hierbei ist px (x) = 1 die Wahrscheinlichkeitsdichte, die spter genauer behandelt wird. Unwissenheit wird hier also durch eine konstante Wahrscheinlichkeitsdichte beschrieben. Die Wahrscheinlichkeitsdichte fr xn ist dann aber nicht mehr konstant sondern, wie wir spter zeigen werden, pz (z = xn ) = px (x) dx 1 1 = z n 1 dz n .
Die Wahrscheinlichkeitsdichte fr die Variable z ist demnach scharf bei z = 0 gepeakt. Das heit unsere ache Verteilung in x impliziert, dass es eine sehr groe Wahrscheinlichkeit fr kleine Werte von z gibt. Ganz allgemein erkennen wir, dass nichtlineare Transformationen offensichtlich Probleme machen. In welcher Darstellung sind die Ereignisse gleicher Gre (Lnge, Flche, ...) gleich-wahrscheinlich, und wie beschreibt man vlliges Unwissen? Auf das Problem P RIOR -WAHRSCHEINLICHKEITEN zuzuweisen kommen wir im Teil III zu sprechen. Hierzu gibt es einen Zugang ber Transformationsgruppen1 und einen differentialgeometrischen, welche beide quivalent sind. In diesem Zusammenhang werden wir auch das wichtige Prinzip der maximalen Entropie behandeln. Die klassische Denition der Wahrscheinlichkeit war trotz dieser Probleme mehre Jahrhunderte in Gebrauch und wird auch heute noch auf viele Probleme angewandt; insbesondere solche kombinatorischer Natur. Bereits Bernoulli hatte sich die Frage gestellt, wie die Wahrscheinlichkeit mit der relativen Hugkeit zusammenhngt. Beispiel: Die Wahrscheinlichkeit fr eine gerade Augenzahl beim Wrfeln ist 1/2. Wenn man, das Wrfel-Experiment N-mal wiederholt, wie hug wird man dann eine gerade Augenzahl vornden. Wir werden zeigen, dass diese relative Hugkeit im Limes N gegen die intrinsische Wahrscheinlichkeit konvergiert. Bernoulli hat aber eigentlich das umgekehrte Problem beschftigt. Gegeben eine Stichprobe vom endlichen Umfang N , was kann man dann ber die zugrundeliegende (intrinsische) Wahrscheinlichkeit aussagen?
1.3
Statistische Denition
Um die Prior-Probleme der klassischen Wahrscheinlichkeitstheorie zu vermeiden, verfolgten Ellis (1842), Boole (1854), Venn (1866) und von Mises (1928) eine andere Denition. Da, wie Bernoulli gezeigt hatte, die relative Hugkeit im Limes N gegen die intrinsische Wahrscheinlichkeit konvergiert, fhrten sie folgende Denition der Wahrscheinlichkeit ein
1
Dieser Zugang wurde von E.T. Jaynes verwendet, um das Bertand-Paradoxon zu klren.
18
Def. 1.5 (Statistische Denition von Wahrscheinlichkeit) Ein Ereignis A trete zufllig auf. Die Wahrscheinlichkeit ist deniert durch die relative Hugkeit P (A) = lim n N N , (1.4)
dass das Ereignis bei N Versuchen n-mal auftritt, im Limes N . Diese Denition soll vermeiden, dass man je in die Verlegenheit kommt, PriorWahrscheinlichkeit angeben zu mssen, sondern die Wahrscheinlichkeit eine dem zu untersuchenden Objekt anhaftende intrinsische Eigenschaft ist, die nur experimentell bestimmt werden kann, nmlich indem man ein Stichprobe von unendlichem Umfang untersucht. Da eine unendlich Stichprobe nie untersucht werden kann, ist diese Denition von rein hypothetischem Charakter. Diese Denition des Wahrscheinlichkeitsbegriffes ist allerdings weit verbreitet und bildet die Grundlage der orthodoxen Statistik.
19
Nachteile des statistischen Wahrscheinlichkeitsbegriffes Fr viele Probleme gibt es keine Hugkeitsverteilung War Herr X der Tter? Liegt die Temperatur des Fusionsplasmas T (1.0, 2.0)108 K ? War Julius Csar Linkshnder? Nur in den wenigsten Fllen ist N 1
Groexperimente, z.B. Fusionsforschung (Kostenfrage) Extraterrestische Physik, Stichprobenumfang von der Natur vorgegeben. der Limes N ist in der Praxis nicht mglich, und Gl. (1.4) ist keine Denition fr P (A) sondern muss als Hypothese gesehen werden. Es handelt sich nicht um eine experimentell bestimmbare Gre. Interpretationsprobleme Was bedeutet die Aussage, die Wahrscheinlichkeit ist 0.1, dass Herr X einen Virus hat? (100 mal klonen, 10 Klone haben dann den Virus?!) Die Wahrscheinlichkeit im Lotto zu gewinnen ist 7 108 (108 mal einzahlen, um einmal zu gewinnen?!) Man erkennt an den beiden Beispielen auch, wie unterschiedlich Wahrscheinlichkeiten, je nach Kontext, bewertet werden. Im ersten Fall wird man geneigt sein, die Mglichkeit des Virus nahezu auszuschlieen, whrend der Zuspruch des Lottospiels zeigt, dass man ein Wahrscheinlichkeit von 7 108 als hinreichend gro bewertet. Wie Wahrscheinlichkeiten tatschlich zu bewerten sind, besagt die E NTSCHEIDUNGS THEORIE . Hierbei wird zustzlich eine Bewertungsfunktion (Kostenfunktion) einieen, die den unterschiedlichen Ausgngen eines Experiments Werte (Kosten) zuweist. Mit der statistischen Denition kann nur eine stark eingeschrnkte Klasse von Problemen behandelt werden, nmlich solche, bei denen ein Versuch zumindest theoretisch beliebig oft wiederholt werden kann. Die statistische Denition der Wahrscheinlichkeit fhrt allerdings zu denselben Rechenregeln fr Wahrscheinlichkeiten, wie die klassische Denition. Wir haben bei der obigen Diskussion gesehen, dass einige Begriffe und Ideen im Zusammenhang mit der Wahrscheinlichkeitstheorie auftreten, die genauer deniert bzw. analysiert und genauer hinterfragt werden mssen. Hierauf werden wir in einem spteren Kapitel eingehen. Zunchst bentigen wir ein paar wichtige Begriffe zur Charakterisierung von Wahrscheinlichkeitsverteilungen, die im nchsten Kapitel dargestellt werden.
20
Kapitel 2 Denition von Mittelwert, Momenten und marginaler Verteilung

Im letzten Kapitel haben wir uns damit beschftigt, Ereignissen Wahrscheinlichkeiten fr ihr Auftreten zuzuweisen. Jetzt wollen wir die Ereignisse selbst mit Zahlen in Verbindung bringen.
2.1
Verteilungen einer diskreten Zufallsvariablen
Fr die folgenden Denitionen sei eine abzhlbare Menge G von Elementarereignissen gegeben. Jedes Elementarereignis G trete mit Wahrscheinlichkeit P auf. Def. 2.1 (Zufallsvariable) Eine Zufallsvariable ist ein Funktional, das jedem Ergebnis G eine reelle Zahl x = X ( ) zuordnet. x heit Realisierung von X . Die Menge R der mglichen Realisierungen x heit Wertebereich von X. G wird hierbei auf R abgebildet. Beispiel: Beim Mnzwerfen kann man z.B. dem Ereignis Kopf die Zahl 0 und dem Ereignis Zahl eine 1 zuweisen. Beim Wrfeln ist es naheliegend, dem Ereignis n Augen die Zahl n zuzuweisen. Wir wiederholen das Mnz-Experiment dreimal. Die Menge der mglichen Ergebnisse ist G ={(K, K, K ), (K, K, Z ), (K, Z, K ), (Z, K, K ), (K, Z, Z ), (Z, K, Z ), (Z, Z, K ), (Z, Z, Z )}
21
Wir knnen diesen 8 Ergebnissen z.B. die Zufallsvariablen 3, 2, 2, 2, 1, 1, 1, 0 zuweisen, also die Anzahl der Kpfe. Nun kann man auch Funktionen Y = f (X ) der Zufallsvariablen X untersuchen. Natrlich ist Y wieder eine Zufallsvariable. Jedem Ereignis wird jetzt er Wert f (x) zugeordnet. Ein grundlegendes Werkzeug, um Aussagen ber Wahrscheinlichkeitsverteilungen treffen zu knnen, ist die Mittelwertbildung. Def. 2.2 (Mittelwert einer Zufallsvariablen) Man deniert als M ITTELWERT EINER DISKRETEN Z UFALLSVARIABLEN X :=
G
X ( ) P
(2.1)
Bemerkungen: a) Der M ITTELWERT wird auch oft E RWARTUNGSWERT genannt. b) In vielen Fllen ist der Wertebereich R der Zufallsvariablen X gleich der typischen Gren der Elementarereignisse. Z.B. wird dem Ereignis n : Der Wrfel zeigt n Augen oft der Wert X (n ) = n zugewiesen. Bezeichnet man nun das Ereignis n kurz mit n, dann wird aus Gl. (2.1) n =
nG
n Pn
(2.2)
Wir werden im Folgenden diese Notation bevorzugen. c) Der Mittelwert ist keine Zufallsvariable, sondern ein exakt denierter Wert. d) Die Mittelwertbildung ist eine lineare Operation, d.h. f + g = f + g fr Funktionen f (n), g (n) und Konstanten , .
22
Beweis: f + g =
nM
( f (n) + g (n)) Pn f (n) Pn +

nM nM
g (n) Pn (2.3)
= f + g
e) Fr eine Funktion Y = f (X ) einer Zufallsvariablen ergibt sich f (X ) =

nM
f (n) Pn
(2.4)
Hierfr schreiben wir kurz f oder f (n) . f) Kontinuierliche Zufallsvariablen werden im Kapitel 9 vorgestellt. Beispiel: Beim einmaligen Wrfeln sind die Elemantarereignisse die Augenzahlen n {1, 2, 3, 4, 5, 6}, die mit den Wahrscheinlichkeiten Pn = 1 auftreten. Die Zufallsva6 riable X habe die jeweilige Augenzahl als Wert. Der Mittelwert ist dann n = 3.5. Die Funktion Y = f (X ) weise jeder Augenzahl n einen Gewinn f (n) zu. Der Mittelwert f ist dann der mittlere Gewinn. Wahrscheinlichkeitsverteilungen kann man nicht nur durch die Angabe der Wahrscheinlichkeiten sondern auch durch andere Gren, wie z.B. die Momente charakterisieren. Momente sind als Mittelwerte bestimmter Zufallsvariablen deniert. Def. 2.3 (i-tes Moment einer Zufallsvariablen) Den Funktion f (n) = ni bezeichnet man als i- TES M OMENT EINER Z UFALLSVARIABLEN mi := ni . (2.5) Mittelwert der
Bemerkung: Das erste Moment m1 einer Verteilung ist offensichtlich der Mittelwert n der Verteilung, das nullte Moment wegen der Normierung m0 = 1. Def. 2.4 (i-tes zentrales Moment einer Zufallsvariablen) Den Mittelwert der Funktion f (n) = (n n )i bezeichnet man als
23
i- TES
ZENTRALES
M OMENT EINER Z UFALLSVARIABLEN . (2.6)
i := (n)i = (n n )i
Das zweite Momente erhlt einen eigenen Namen: VARIANZ. Aus Gleichung (2.6) erhlt man mit der Eigenschaft (2.3) (n n )2 = n2 2 n n + n = n2 2 n = n2 n
2 2 2
n + n .
(2.7)
Def. 2.5 (Varianz) Das zweite zentrale Moment heit auch VARIANZ
EINER
Z UFALLSVARIABLEN
2
var(n) := 2 := (n)2 = (n n )2 = n2 n
(2.8)
Die Varianz ist also die mittlere quadratische Abweichung der Zufallsvariablen vom Mittelwert. Um ein lineares Ma zu bekommen, deniert man die Def. 2.6 (Standardabweichung) Die Wurzel der Varianz nennt man S TANDARDABWEICHUNG std(x) := := var(x) (2.9)
Nehmen wir an, wir wollen durch wiederholtes Wrfeln, den Mittelwert, der bei einem symmetrischen Wrfel 3.5 betrgt, ermitteln. Dazu wrfeln wir N mal und erhalten eine Sequenz (Stichprobe) von Augenzahlen xi . Daraus bilden wir das arithmetische Mittel (Stichprobenmittelwert) 1 x= N
N
xi
i=1
24
Wie wir spter noch eingehend besprechen werden, ist die Abweichung des Stichprobenmittelwertes vom wahren Mittelwert S TANDARDFEHLER
EINER
S TICHPROBE VOM U MFANG N . (2.10)
Standardfehler = N
2.2
Verteilungen mehrerer diskreter Zufallsvariablen
Fr die nchsten Denitionen soll uns folgendes Beispiel leiten: In einer Firma ist das Gewicht und die Gre der Angestellten bestimmt worden. Folgende Tabelle zeigt die Anzahl der Personen mit entsprechendem Gewicht und Gre.
kg m 60 70 80 #
1.6 3 0 1 4
1.7 3 5 4 12
1.8 1 6 7 14
# 7 11 12 30
Die Grssenangaben sind als Intervalle der Lnge 0.1, die bei den angegebenen Werten zentriert sind, zu verstehend. Entsprechend stehen die Gewichtsangaben fr zentrierte Intervalle der Lnge 10. Es gibt also z.B. 5 Personen, deren Grsse zwischen 1.65m und 1.75m liegt und deren Gewicht aus dem Intervall (65kg, 75kg ] ist. Ganz rechts bzw. unten steht die Summe der entsprechenden Zeile bzw. Spalte. Insgesamt sind also 30 Leute vermessen worden. Den Zeilen kann man eine Zufallsvariable Masse m mit dem Wertebereich {60, 70, 80} den Spalten eine Zufallsvariable Hhe h mit dem Wertebereich {1.6, 1.7, 1.8} zuweisen. Die Wahrscheinlichkeit, dass ein zufllig ausgewhlter Angestellter dieser Firma z.B. 61 kg gro und 1.73 m schwer ist, ist 3 P = 30 . Man kann also jedem Eintrag die relative Hugkeit als Wahrscheinlichkeit Pmh zuweisen. Def. 2.7 (marginale Verteilung) Seien Pn1 ,...,nN die Wahrscheinlichkeiten von Elementarereignissen, die durch die Angabe des N -Tupels von Eigenschaften n1 , . . . , nN eindeutig bestimmt sind. Man nennt folgende Verteilung
25
MARGINALE
V ERTEILUNG ODER R ANDVERTEILUNG

nj +1 nN
Pn1 ,...,nj :=
Pn1 ,...,nN
(2.11)
der ersten j Eigenschaften. Entsprechend deniert man Randverteilungen bezglich einer anderen Auswahl von Eigenschaften. Beispiel: In unserem Beispiel kann man sich die Randverteilungen Ph = 2 und Pm = h Pmh anschauen. Fr erstere erhlt man Ph=1.6 = 15 , Ph=1.7 = 7 Ph=1.8 = 15 .
m Pmh 2 und 5
Analog zu Gleichungen (2.4), (2.5) bzw (2.6) denieren wir den Mittelwert, die Momente bzw. die zentralen Momente fr Funktionen mehrerer Zufallsvariablen. Def. 2.8 (Mittelwert mehrerer diskreter Zufallsvariablen) Gegeben seien N Zufallsvariablen X1 , . . . , XN mit Wertebereichen n1 M1 , . . . , nN MN und eine Funktion Y = f (X1 , . . . , XN ). Dann ist der M ITTELWERT EINER F UNKTION MEHRERER DISKRETER Z UFALLSVARIABLEN f (X1 , . . . , XN ) :=
n1
nN
f (n1 , . . . , nN ) Pn1 ,...,nN
(2.12)
Masse in kg 2 . Der mitt(Gre in m) lere Body Mass Index der Firmenangestellten ist durch den Mittelwert der Funktion m f (m, h) = h = 23.9. 2 gegeben. Wir erhalten f Beispiel: Der Body Mass Index ist deniert durch BM I = Def. 2.9 (Momente mehrerer Zufallsvariablen) Den iN i2 1 Funktion f (n1 , . . . , nN ) = ni 1 n2 nN bezeichnet man als M OMENT DER O RDNUNG i1 , i2 , . . . , iN
iN i2 1 mi1 ,i2 ,...,iN := ni 1 n2 nN
Mittelwert
der
(2.13)
26
Def. 2.10 (zentrale Momente mehrerer Zufallsvariablen) Den Mittelwert der Funktion f (n1 , . . . , nN ) = (n1 n1 )i1 (n2 n2 )i2 (nN nN )iN bezeichnet man als
ZENTRALES
M OMENT
DER
O RDNUNG i1 , i2 , . . . , iN
i1 ,i2 ,...,iN := (n1 n1 )i1 (n2 n2 )i2 (nN nN )iN
. (2.14)
Die Mittelwerte der ni sind durch Momente gegeben m100...0 = n1 m010...0 = n2 . . . m000...1 = nN
(2.15) ,
die entsprechenden Varianzen durch zentrale Momente 200...0 = (n1 n1 )2 = var(n1 ) 020...0 = (n2 n2 )2 = var(n2 ) . . . 000...2 = (nN nN )2 = var(nN ) . (2.16)
Beispiel: In unserem Beispiel erhalten wir fr die mittlere Masse m = 71.7 kg, fr die mittlere Gre h = 1.73 m und fr die entsprechenden Varianzen var(m) = 60.5 kg2 und var(h) = 0.0049 m2 . Def. 2.11 (Kovarianz) Ein zentrales Moment der Ordnung i1 , i2 , . . . , iN mit ik = il=k = 1 und alle anderen ij = 0 heit K OVARIANZ
ZWEIER
Z UFALLSVARIABLEN
cov(nk , nl ) := 0...010...010...0 = (nik nik ) (nil nil ) = nik nil nik nil .
(2.17)
27
Paaren sich Werte nk > nk hauptschlich mit Werten nl > nl , dann ist die Kovarianz positiv. Treten andererseits Werte nk > nk vorzglich mit Werten nl < nl , auf ist sie negativ. Lsst sich aus der relativen Lage von nk bezglich nk nicht auf die Lage von nl bezglich nl schlieen, ist die Kovarianz Null. Somit ist die Kovarianz ein Ma fr die gegenseitige Abhngigkeit der Zufallsvariablen. Beispiel: Die Kovarianz zwischen Masse und Gre der Firmenangestellten ergibt cov(m, h) = 0.21 kg m. Das heit, eine grere Masse bedeutet im Mittel, dass die entsprechende Person grer ist. Hug spren die einzelnen Zufallsvariablen nichts von einander. Solche Verteilungen zeichnen sich durch eine einfache Struktur aus. Def. 2.12 (unabhngige Zufallsvariablen) Lsst sich die Verteilung mehrerer Zufallsvariablen als Produkt ihrer marginalen Verteilungen schreiben, nennt man sie
UNABHNGIGE
Z UFALLSVARIABLEN
N
Pn1 ,n2 ,...,nN =

i=1
Pni
(2.18)
Bemerkung: Die Kovarianz unabhngiger Zufallsvariablen ist Null. Beweis: cov(ni , nj ) = (ni ni )(nj nj ) =
n1
nN
(ni ni )(nj nj )
l
Pnl Pnl
n1 ,...,nN l =ni i=l=j =nj =1
=
ni
(ni ni )Pni
nj (ni ni ) =0
(nj nj )Pnj
(nj nj ) =0
=0
28
Kapitel 3 Einfhrung in die Kombinatorik

Damit wir auch konkret etwas rechnen knnen, bentigen wir einige Grundlagen der Kombinatorik.
3.1
Vorbemerkungen
Def. 3.1 (Paare) Zwischen m Elementen a1 , a2 , . . . , am vom Typ a und n Elementen b1 , b2 , . . . , bn vom Typ b sollen alle mglichen unterschiedlichen Paare (ai , bk ) gebildet werden. A NZAHL DER PAARE NP = n m (3.1)
1 2 3 4 5 6
(a1 , b1 ) (a1 , b2 ) (a1 , b3 ) (a2 , b1 ) (a2 , b2 ) (a2 , b3 )
Tabelle 3.1: Paare der Elemente a1 , a2 und b1 , b2 , b3 Beweis: Es gibt m Mglichkeiten ein Element vom Typ a auszuwhlen und zu jeder Wahl ai gibt es n Mglichkeiten fr b. Beispiel: Bridge Karten. Als Menge von Elementen betrachten wir die 4 Farben und die 13 Bilder. Jede Karte ist durch das Paar (Farbe, Bild) deniert. Demnach gibt es 4 13 = 52 Karten.
29
Def. 3.2 (Multiplets) Gegeben seien n1 Elemente a1 , a2 , . . . , an1 vom Typ a, n2 Elemente b1 , b2 , . . . , bn2 vom Typ b, und so weiter bis zu nr Elementen x1 , x2 , . . . , xnr vom Typ x. Es sollen alle Multiplets (r-Tupel, die von jedem Typ je ein Element enthalten) (aj1 , bj2 , . . . , xjr ) gebildet werden. A NZAHL DER M ULTIPLETS
r
NM = n 1 n 2 . . . n r =
i=1
ni
(3.2)
Beweis: Fr r = 2 reduziert sich die Behauptung auf Paarungen und stimmt somit. Fr r = 3 betrachten wir die n1 n2 Elemente der Paare (ai , bj ) als Elemente ul , l = 1, 2, . . . , n1 n2 einer neuen Menge. Jedes Tripel (ai , bj , ck ) kann dann als Paar (ul , ck ) aufgefasst werden. Dafr gibt es nun n1 n2 n3 Mglichkeiten. Wenn man durch Induktion weiter macht, erhlt man die Behauptung fr beliebiges r. 1 2 3 4 5 6 7 8 9 10 11 12 (a1 , b1 , c1 ) (a1 , b1 , c2 ) (a1 , b2 , c1 ) (a1 , b2 , c2 ) (a1 , b3 , c1 ) (a1 , b3 , c2 ) (a2 , b1 , c1 ) (a2 , b1 , c2 ) (a2 , b2 , c1 ) (a2 , b2 , c2 ) (a2 , b3 , c1 ) (a2 , b3 , c2 )
Tabelle 3.2: Multiplets der Elemente a1 , a2 , b1 , b2 , b3 und c1 , c2 . Beispiel: T EILCHEN AUF Z ELLEN VERTEILEN luft darauf hinaus, fr jedes Teilchen eine Zelle auszusuchen. Es gebe r Teilchen und n Zellen. Fr jedes Teilchen gibt es n unabhngige Mglichkeiten. Somit gibt es insgesamt n n . . . n = nr Multiplets (Verteilungen der Teilchen auf die Zellen). Das Beispiel wird spter in der statistischen Physik wichtig. Man kann das Beispiel auch direkt auf Wrfel bertragen. Wir identizieren hierzu die n = 6 Augenzahlen mit den Zellen. Der Wrfel werde r-mal geworfen (entspricht der Zahl der Teilchen). Es gibt somit 6r mgliche Ergebnisse (Sequenzen). Hiervon erfllen 5r die Bedingung, dass keine 6 vorkommt. Wenn alle Ergebnisse gleich-wahrscheinlich sind, ist
30
die klassische Wahrscheinlichkeit, bei 6 Wrfen nicht die Augenzahl 6 zu erhalten 6 P (keine 6) = 5 , bzw. das komplementre Ereignis, bei 6 Wrfen mindestens eine 66 6 6 zu erhalten, hat die Wahrscheinlichkeit P (Augenzahl=6 bei 6 Wrfen) = 1 5 = 66 0.6651 < 2/3. Entgegen der naiven Vorstellung reicht es offensichtlich bei 6 Mglichkeiten nicht aus 6-mal zu wrfeln, um jedes Ergebnis zu nden. Wir stellen nun die Frage, wie oft muss man dann wrfeln, damit diese Wahrscheinlichkeit grer als 0.9 ist? 5 1 ( )R > 0.9 6 5 ( )R < 0.1 6 ln(5/6) R < ln(0.1) R > ln(0.1)/ ln(5/6) R 13 . Man bentigt also mindestens doppelt soviele Versuche, wie es Mglichkeiten gibt. Das gilt qualitativ fr eine beliebige Zahl von Alternativen n 3. Die Zahl der Zellen n und die der Teilchen r seinen beliebig. Die Wahrscheinlichkeit, dass eine ausgewhlte Zelle i leer bleibt, lsst sich annhern durch P (Zelle i leer) = n1 n
r
1 n
= er ln(1 n ) = er/n+O(n
2 )
er/n .
3.2
Geordnete Stichproben
Wir betrachten eine Menge von n Elementen a1 , a2 , . . . , an , die wir in diesem Zusammenhang P OPULATION nennen. Aus dieser Population werden Stichproben vom Umfang r ausgewhlt aj1 , aj2 , . . . , ajr . Da es uns auf die Reihenfolge der Elemente ankommt, nennen wir sie GEORDNETE S TICHPROBE1 . Es gibt zwei Mglichkeiten. a) Die Elemente werden aus der Population kopiert. Da diese berlegungen auf Urnen-Experimente zurckgehen, nennt man das A USWHLEN MIT Z URCK LEGEN . b) Die Elemente werden aus der Population herausgenommen. Diese Alternative nennt man entsprechend A USWHLEN OHNE Z URCKLEGEN. In diesem Fall kann der Umfang der Stichproben r natrlich nicht grer sein als die Gre der Population. Man nennt diese Variante auch VARIATION VON n E LEMENTEN ZUR r - TEN K LASSE .
1
Das soll gerade nicht bedeuten, dass die Elemente nach irgendeinem Kriterium geordnet werden!
31
Bei der Auswahl mit Zurcklegen gibt es fr jedes Element der Stichprobe n Mglichkeiten aus der Population auszuwhlen und somit insgesamt nr . Ohne Zurcklegen gibt es fr das erste Element n Mglichkeiten, danach fr das zweite Element nur noch n 1, da bereits ein Element in der Population fehlt, usw. bis zum r-ten Element, fr das es nur noch n r + 1 Mglichkeiten gibt. Z AHL DER GEORDNETEN S TICHPROBEN VOM U MFANG r AUS EINER P OPULATION DER G RSSE n
mz Nop = nr
mit Zurcklegen (3.3a) n! (n r)!
oz Nop = n(n 1)(n 2) (n r + 1) =
ohne Zurcklegen (3.3b)
Ein Spezialfall einer Stichprobe ohne Zurcklegen stellt r = n dar. In diesem Fall stellt die Stichprobe eine mgliche Anordnung (P ERMUTATION) der Elemente der Population dar. Z AHL DER P ERMUTATIONEN Nperm = n! (3.4)
3.2.1
Beispiele
Wir nehmen eine Stichprobe vom Umfang r mit Zurcklegen aus einer Population der Gre n. Wie gro ist Wahrscheinlichkeit, dass kein Element in der Stichprobe doppelt vorkommt. Das heit, die Stichprobe htte auch ohne Zurcklegen erzeugt worden sein knnen. Gem Gl. (3.3a) gibt es nr geordnete Stichproben mit Zurcklegen. Die Zahl der Variationen von n Elementen zur Klasse r ist n!/(n r)!, das ist genau die Zahl der Arrangements von r Elementen aus einer Population der Gre n, bei denen keine Elemente doppelt vorkommen, bzw. die Zahl der geordneten Stichproben ohne Zurcklegen. Somit ist die Wahrscheinlichkeit, dass in der Stichprobe kein Element doppelt vor-
32
kommt n! 1 P = (n r)! n
r
(3.5)
Es gibt verschiedene interessante Interpretationen dieses Ergebnisses:
a) Es gibt n = 10 Ziffern (0, 1, . . . , 9). Wir nehmen einmal an, dass die letzten Ziffern von Zahlen in groen mathematischen Tabellen zuflligen Charakter haben. Wir nehmen eine sehr lange Dezimalzahl und analysieren die Nachkommastellen. Wir betrachten die letzten 5 Ziffern von Dezimalzahlen, d.h. die Stichprobe hat den Umfang r = 5. Gem Gl. (3.5) ist die Wahrscheinlichkeit, dass in den 5-er Blcken keine Ziffer doppelt vorkommt, P = 10! 105 = 0.3024. Es wurde ein Experiment durchge5! fhrt, bei dem in Tabellenwerken mit 16-stelligen Zahlenangaben die letzten 5 Ziffern der Eintrge auf doppelte Ziffern untersucht wurden. Dazu wurden 12 Pakete mit je 100 Zahlen untersucht und ausgewertet in wievielen keine Ziffern doppelt sind. Es ergaben die 12 Pakete die Anzahlen: 30, 27, 30, 34, 26, 32, 37, 36, 26, 31, 36, 32. Das arithmetische Mittel der Hugkeit ist 0.31 in verblffender bereinstimmung mit dem obigen Ergebnisse. Allerdings ist es eine Aufgabe der induktiven Logik festzustellen, ob aus dieser Vorwrtsrechnung geschlossen werden kann, dass die Ziffern in Tabellen wirklich zufllig sind.
b) Wenn n Kugeln zufllig auf n Zellen verteilt werden, ist die Wahrscheinlichkeit, dass jede Zelle genau eine Kugel enthlt P = n!/nn (entspricht r = n im obigen Beispiel). Fr n = 6 ist die Wahrscheinlichkeit 0.015. Das ist z.B. die Wahrscheinlichkeit, dass beim Wrfeln nach 6 Wrfen jede Ziffer genau einmal vorkommt. Der sehr kleine Zahlenwert von 0.015 offenbart einen unerwarteten Aspekt zuflliger Ereignisse.
3.3 Unterpopulationen und Partitionierungen

Wie zuvor betrachten wir Populationen der Gre n. Wie nennen zwei Populationen ungleich, wenn es mindestens ein Element einer Population in der anderen nicht gibt. Wir betrachten eine Unterpopulation der Gre r einer gegebenen Population. Da es auf die Reihenfolge nicht ankommt ist
33
Z AHL DER U NTERPOPULATIONEN DER G RSSE r EINER P OPULATION DER G RSSE n
N (r|n) = N mz =
n n! = r r!(n r)! n+r1 r
ohne Zurcklegen mit Zurcklegen
(3.6a) (3.6b)
Man nennt das auch die Zahl der Kombinationen von n Elementen zu Gruppen der Gre r. Der Beweis fr Gl. (3.6a) (der fr Gl. (3.6b) wird im Abschnitt 3.4 nachgereicht) folgt aus der Zahl der geordneten Stichproben ohne Zurcklegen vom Umfang r aus Populationen der Gre n. Die Zahl der geordnete Stichproben ist nach n! oz Gl. (3.3b) Nop = (n . Bei den r Elementen der Stichprobe kommt es uns aber nun r)! nicht mehr auf die Reihenfolge an. Da es r! mgliche Permutationen gibt, folgt somit Gl. (3.6a). Mit anderen Worten, es gibt n Teilmengen mit r Elementen einer Menge r mit n Elementen. Es gibt natrlich genauso viele Unterpopulationen der Gre r wie solche der Gre n r n n = . r nr Es ist sinnvoll zu denieren n 0 = 1, 0! = 1 und n r = 0 fr r > n .
Def. 3.3 (Binomial-Koefzienten) Die Gren n r werden Binomial-Koefzienten genannt. Gegeben seinen n Kugeln, davon seien n1 blau und n2 = n n1 rot. Wieviele unterschiedliche Farbsequenzen gibt es? Die Antwort lautet NSequenzen = n n1 .
Der Beweis ist wie folgt: Eine Farbsequenz ist dadurch gekennzeichnet, dass man angibt, an welcher Position sich die blauen Kugeln benden. Aus den n Positionen (Population) werden n1 ausgewhlt.
34
B INOMISCHER S ATZ
n
(a + b) =
r=0
n r nr ab r
(3.7)
Beweis: Wenn man die linke Seite explizit ausmultipliziert erhlt man Summen von Produkten von Faktoren a und b in allen mglichen Sequenzen, die insgesamt immer n Faktoren enthalten, z.B. a a b a b b b a b ... a
n Faktoren
Zu fester Anzahl r der Faktoren a gibt es n unterschiedliche Sequenzen, die da es r auf die Reihenfolge nicht ankommt alle denselben Wert ar bnr beitragen. Eine Anwendung des Binomischen Satzes ist die B INOMIALVERTEILUNG. Wir fhren ein Zufalls-Experiment durch, bei dem es nur zwei mgliche Ausgnge gibt, z.B: rote/blaue Kugel, Kopf/Zahl defekt/intakt, etc. Wird ein solches Experiment wiederholt durchgefhrt, spricht man von einem B ERNOULLI -V ERSUCH. Die Wahrscheinlichkeit fr die erste Alternative sei p, und die Wahrscheinlichkeit fr die zweite Alternative ist dann q = 1 p. Die Wahrscheinlichkeit, dass bei einer Stichprobe vom Umfang n die erste Alternative r-mal erscheint, ist unter Bercksichtigung der Reihenfolge pr q nr . Die Wahrscheinlichkeit ohne Bercksichtigung der Reihenfolge ist, mglicher Sequenzen zu festem r gibt, da es n r B INOMIAL -V ERTEILUNG
P (r|n, p) =
n r p (1 p)nr r .
(3.8a) (3.8b) (3.8c)
r =np var(r) = n p (1 p)
Die richtige Normierung der Wahrscheinlichkeit auf eins folgt aus dem Binomischen Satz n n r nr pq = (p + q )n = 1 . r r =0 Es wurde ausgenutzt, dass p + q = 1.
35
Beweis:
n
r =
r=0 n
r n
r=1
n r
p (1 p)
nr
=
r=0
n! pr (1 p)nr r! (n r)!
= =np
(n 1)! p pr1 (1 p)(n1)(r1) (r 1)! ((n 1) (r 1))! (n 1)! pk (1 p)(n1)k k ! ((n 1) k )!

=1
n1
k=0
=np
n
r2 =
r=0 n
r2 nr
r=1 n1
n r
pr (1 p)nr =
r =0
r2
n! pr (1 p)nr r! (n r)!
= =np
(n 1)! p pr1 (1 p)(n1)(r1) (r 1)! ((n 1) (r 1))! (k + 1) (n 1)! pk (1 p)(n1)k k ! ((n 1) k )! (n 1)! pk (1 p)(n1)k k ! ((n 1) k )!
=(n1) p
k=0 n1
=np
1+
k=0
= n p (1 + (n 1) p) var(r) = r2 r 2 = n p (1 p) Wir erweitern diese berlegungen auf mehr als zwei alternative Ausgnge des Experiments. Es seien ganze Zahlen n1 , n2 , . . . , nk mit k i=1 = n gegeben. Die Zahl der mglichen Aufteilung (PARTITIONIERUNG) der Population auf k Unterpopulationen von denen die erste n1 Elemente, die zweite n2 Elemente, etc. hat, ist M ULTINOMIAL -K OEFFIZIENTEN N ({ni }|n, k ) = n {ni } = n!
k i=1
ni !
(3.9)
Beweis: Wir nummerieren die Elemente so durch, dass die Elemente der Unterpopulationen aufeinanderfolgende Nummern haben. Elemente der Unterpopulationen
36
eins haben die Nummern 1, 2, . . . n1 , die zweite Unterpopulation hat die Nummern n1 + 1, n1 + 2, . . . n1 + n2 , etc. bis zur k -ten Unterpopulation mit den Nummern nk1 + 1, nk1 + 2, . . . , n. Wir erzeugen alle Partitionierungen, indem wir die Elemente auf die Positionen 1 . . . n verteilen (permutieren). Es gibt n! Permutationen. Permutationen, bei denen nur die Elemente in den Unterpopulationen permutiert werden, beschreiben dieselbe Partitionierung. Daraus folgt, dass bei den n! Permutationen von jeder Unterpopulation ein Faktor n ! ( = 1, 2, . . . k ) zu viel vorkommt. Damit haben wir den Beweis fr Gl. (3.9) erbracht. Die Binomial-Koefzienten stellen den Spezialfall k = 2 dar, N (r|n) = N ({r, n r}|n, 2). Die Verallgemeinerung des Binomischen Satzes ergibt
n
(a1 + a2 + . . . + ak )n =
n1 ,n2 ,...,nk =0
n k an1 an2 . . . an k {n i } 1 2
(3.10)
Hierbei soll die Tilde andeuten, dass nur solche Zahlen {ni } erlaubt sind, die in der Summe n ergeben. Der Beweis ist analog zu dem des Binomischen Satzes. Genauso knnen wir die Binomial-Verteilung verallgemeinern M ULTINOMIAL -V ERTEILUNG
P ({ni }|n, k ) =
n {n i }
k
i pn i
(3.11a) (3.11b) (3.11c) (3.11d)
i=1
ni = n pi var(ni ) = n pi (1 pi ) cov(ni , nj ) = n pi (ij pj )
Die Multinomial-Verteilung gibt die Wahrscheinlichkeit an, von n Teilchen n in Zelle anzutreffen, wenn p die Prior-Wahrscheinlichkeit ist, ein Teilchen in Zelle anzutreffen. Wenn alle Zellen gleich-wahrscheinlich sind, ist p = 1/k . Aus Gl. (3.10) folgt unmittelbar, dass die Multinomial-Verteilung auf eins normiert ist.
n n
P ({ni }|n, k ) =
n1 ,n2 ,...,nk =0 n1 ,n2 ,...,nk =0
n {ni }
k n i pn i = (p 1 + p 2 + . . . + p k ) = 1 . i=1
Beweis: Fr den Beweis der oben angegebenen Gleichungen verwenden wir einen
37
Trick, der in der Wahrscheinlichkeitsrechnung oft verwendet wird.

n
ni =
n1 ,n2 ,...,nk =0
ni
n
n {nm }
k
l pn l
l=1 k
l pn l
= pi pi = pi
n1 ,n2 ,...,nk =0
n {n m }
l=1
(p1 + p2 + . . . + pk )n pi = pi n (p1 + p2 + . . . + pk )n1

=1
= n pi Analog verfhrt man fr ni nj :

n
ni nj =
n1 ,n2 ,...,nk =0
ni nj
n {n m }
n
k
l pn l
l=1
pj = pi pi pj = pi
n1 ,n2 ,...,nk =0
n {n m }
k
l pn l
l=1
pj (p1 + p2 + . . . + pk )n pi pj = pi pj n (p1 + p2 + . . . + pk )n1 pi = pi ij n (p1 + p2 + . . . + pk )n1 + pj n (n 1) (p1 + p2 + . . . + pk )n2 = pi (n ij + n (n 1) pj ) cov(ni , nj ) = ni nj ni nj = n pi ij + n2 pi pj n pi pj n2 pi pj = n pi (ij pj ) var(ni ) = cov(ni , ni ) = n pi (1 pi )
38
3.3.1 Vollstndige Paarungen einer Population

Ausgehend von einer Population mit N = 2m Elementen fragen wir nach der Zahl der vollstndigen Paarungen (Kontraktionen). Beispiel: Population a1 , a2 , a3 , a4 hat die 3 vollstndigen Paarungen 1 (a1 , a2 )(a3 , a4 ) 2 (a1 , a3 )(a2 , a4 ) 3 (a1 , a4 )(a2 , a3 ) Zur Erzeugung aller vollstndigen Paarungen (Kontraktionen) reihen wir die Paare hintereinander. An Positionen 1 und 2 steht das erste Paar, an Position 3 und 4 das zweite Paar, und so weiter bis zu den Positionen 2m 1 und 2m fr das m-te Paar. Es gibt (2m)! Permutationen der Elemente der Population auf die Positionen. Da es auf die Reihenfolge innerhalb der Paare nicht ankommt, wird hierbei ein Faktor 2 bei jedem Paar zu viel gezhlt. Das ergibt insgesamt einen Faktor 2m . Darber hinaus kommt es uns auch nicht auf die Reihenfolge der Paare an, d.h. (a1 , a2 )(a3 , a4 ) beschreibt dieselben Kontraktionen wie (a3 , a4 )(a1 , a2 ). Bei m Paaren ist in allen Permutationen ein Faktor m! zu viel enthalten. Damit ist die Anzahl der Kontraktionen NK = (2m)! (2m)! (2m)! = = m 2 m! [2m][2(m 1)][2(m 2)] [2] [2m][2m 2][2m 4] [2] [2m](2m 1)[2m 2](2m 3) (3)[2](1) [2m][2m 2][2m 4] [2]
= 1 3 5 . . . (2m 1) = (2m 1)!!
Z AHL DER
VOLLSTNDIGEN
PAARUNGEN VON N = 2m E LEMENTEN (3.12)
NK = (N 1)!!
3.3.2 Beispiel: der Random-Walk

In einem schief gestellten Brett benden sich Ngel an regelmigen Positionen, wie in Abbildung 3.1 dargestellt. Kugeln fallen durch den eingezeichneten Schacht auf den oberen Nagel. Mit gleicher Wahrscheinlichkeit sollen die Kugeln entweder nach links oder rechts abgelenkt werden. Daraufhin treffen sie auf einen der Ngel in der zweiten Reihe. Auch hier werden sie mit gleicher Wahrscheinlichkeit nach links oder rechts abgelenkt. Uns interessiert nun, mit welcher Hugkeit die Kugeln in die Zellen am unteren Rand des Pinball-Brettes fallen. Wir knnen das Problem wie folgt
39
analysieren. Vor dem ersten Schritt ist die Kugel an der Position x = 0. Nach dem ersten Schritt wird die Kugel eine der beiden Positionen x = 1 annehmen. Allgemein bendet sich die Kugel nach dem i-ten Schritt an der Position xi und kann diese im nchsten Schritt um x = 1 ndern. Es handelt sich hier also um einen wiederholten Versuch, bei dem mit gleicher Wahrscheinlichkeit eines von zwei Ereignisse (x = 1) eintritt. Nach n Schritten sei x = +1 mit der Hugkeit k vorgekommen2 . Dementsprechend ist x = 1 mit der Hugkeit n k aufgetreten und die Kugel hat die Position xn (k ) = (+1) k + (1) (n k ) = 2k n erreicht. Im folgenden werden wir zunchst eine beliebige Wahrscheinlichkeit p fr die Ablenkung nach rechts und q = 1 p fr die Ablenkung nach links annehmen. Das heit, die Wahrscheinlichkeit dafr, dass sich die Kugel nach n Schritten am Platz xn (k ) bendet, entspricht der Wahrscheinlichkeit fr k = (xn (k ) + n)/2 (wenn n gerade/ungerade muss auch xn (k ) gerade/ungerade sein) P (xn |n, p) = P (k = = xn + n |n, p) 2 .
+n k= xn2
n k nk p q k
(3.13)
Der Binomial-Koefzient n gibt an, wieviele Mglichkeiten es gibt, dass eine Kuk gel im n-ten Schritt den Nagel am Platz i = xn (k ) erreicht. Wir erkennen an der Formel oder anhand der Abbildung (3.1), dass die Pltze im n-ten Schritt die Werte i = n, n + 2, . . . , n annehmen knnen. Um im n-ten Schritt zum Platz i zu gelangen, muss die Kugel zuvor am Platz i 1 oder i + 1 gewesen sein. Die Zahl der Mglichkeiten Ni,n , mit n Schritten an den Platz i zu gelangen, ist also die Summe der Mglichkeiten in (n 1) Schritten an die Pltze i 1 oder i + 1 zu gelangen. Am Rand fehlt jeweils ein Nachbar und die zugehrige Zahl der Mglichkeiten ist dort Null Ni,n = 0 fr |i| > n .
Beginnt man mit dem obersten Nadel (N0,0 = 1) und bestimmt iterativ die Zahl der Mglichkeit Ni,n aus der Formel Ni,n = Ni1,n1 + Ni+1,n1 ; fr i = n, n + 2, . . . , n
so erhlt man die in in Abb. (3.1-b) dargestellten Binomial-Koefzienten. Man nennt das Gebilde auch PASCALSCHES D REIECK. Die Hugkeitsverteilung der Kugeln in der n-ten Reihe des Pinball-Brettes entspricht demnach den Binomial-Koefzienten. Als Verallgemeinerung knnten wir die Anordnung dadurch verkomplizieren, dass wir die Wahrscheinlichkeit p/q fr eine Ablenkung nach rechts/links vom Ort (n, i)
2
Natrlich gilt 0 k n.
40
c q A Uq q A q q q A Uq q q A q A U A q q q q q q q q q q q A U A q q q q q q q A Uc A
1 p 1 p 1 p 1 2 p p 1 p 3 3 1 p p p 1 p 4 6 4 1 p p p p 1 p 1 p 5 p 10 p 10 p 5 p 1 p 1 6 15 20 15 6 p p p p p p 1 p 1 7 21 35 35 21 7 1
Abbildung 3.1: a) Pinball, b) Pascalsches Dreieck abhngig machen. Auerdem knnten wir noch einfhren, dass es Ngel gibt, die nicht nur in die nchsten-Nachbar-Pltze streuen, sondern auch weiter reichende Steuprozesse beschreiben. Schlielich knnen wir auch mehrere Kugeln gleichzeitig auf die Reise schicken, die sich gegenseitig behindern. Dieses Modell hnelt dann den Problemen, die bei der Pfadintegral-Behandlung von Vielteilchen-Problem in der Festkrperphysik auftreten. Wir wissen nun, dass die Wahrscheinlichkeit dafr, dass sich die Kugel nach n Schritten an der Position xn bendet, durch Gl. (3.13) gegeben ist. Hieraus knnen wir ermitteln, wo sich die Kugeln im Mittel benden werden und wie weit die Positionen der einzelnen Kugeln von diesem Wert abweichen knnen. Zur Berechnung, wo sich die Kugeln im Mittel benden werden und welche Abweichungen hiervon zu erwarten sind, bentigen wir x fr = 1, 2
n
=
k=0 n
xn (k )
n k nk p q k
=
k=0
2k n
n k nk p q k
Das heit
n
= 2
k=0
n k nk p q n k k=0
k
n k nk p q k
1
= 2 k n x2 = 4 k 2 4 n k + n2 .
41
k und k 2 sind nach Gl. (3.8b) und Gl. (3.8c) k = n p und k 2 = var(k ) + k n p (1 p) + (n p)2 . Damit lautet der gesuchte Erwartungswert der Position x = 2 p n n = (2 p 1) n Es ist sinnvoll die Denition 1 p = (1 + v ) 2 einzufhren. Damit lautet x =vn Weiter erhalten wir x2 = 4npq + 4(np)2 4nnp + n2 = n(1 v 2 ) + n2 (4p2 4p + 1) = n(1 v 2 ) + n2 (2p 1)2 = n(1 v 2 ) + n2 v 2 var(x) = x2 x
2
1 q = (1 p) = (1 v ) 2 .
= n(1 v 2 )
(3.14)
Das heit, der Schwerpunkt der Wahrscheinlichkeitsverteilung driftet mit v n. Identiziert man n mit der Zeit t, kann man diesen Vorgang physikalisch interpretieren: der Schwerpunkt bewegt sich gleichfrmig xS = v t. Die Schwerpunktsgeschwindigkeit (Drift-Geschwindigkeit) ist durch v =pq gegeben. Die Breite B der Verteilung wird durch std(x) = var(x) wiedergegeben und ist B = n (1 v 2 ) = t (1 v 2 ) . Die Breite nimmt durch Diffusion proportional zu t zu. Die Diffusionsgeschwindigkeit nimmt mit abnehmender Driftgeschwindigkeit zu und ist maximal fr v = 0.
3.3.3
Beispiel: Korrektur bei der Informationsbertragung
Die bertragung von Daten (Bits) sei aufgrund von zuflligen Ereignissen fehlerbehaftet. Dies ist insbesondere in Verbindung mit Quantencomputern interessant. Die Wahrscheinlichkeit, dass ein Bit (0/1) korrekt bertragen wird, sei p > 1/2. Um Unsicherheiten zu eliminieren, wird die Bit-bertragung n-mal wiederholt und die sogenannte M AJORITTSREGEL verwendet. Sie besagt, dass das zu bestimmende Bit den
42
Wert 0 oder 1 erhlt, je nachdem, welcher Wert huger vorkommt. Um eine PattSituation auszuschlieen, betrachten wir nur ungeradzahlige n. Wir wollen die Wahrscheinlichkeit P (Bit korrekt|p, n) bestimmen, dass der so ermittelte Bit-Wert korrekt ist. Um sagen zu knnen, ob die Majorittsregel den richtigen Wert liefert, mssen wir die Zahl m der korrekt bertragenen Bits ber die Marginalisierungsregel einfhren
n
P (Bit korrekt|p, n) =
m=0 n
P (Bit korrekt, m|p, n) P (Bit korrekt|m, p, n) P (m|p, n)

m=0
Die beiden Faktoren sind nun bekannt. Der zweite Faktor ist die Binomial-Verteilung und der erste Faktor ist gem der Majorittsregel P (Bit korrekt|m, p, n) = Somit gilt
n n
1 fr m 0 sonst
n+1 2
P (Bit korrekt, m|p, n) =

m=0 m= n+1 2
n m
a
pm (1 p)nm
1 2 a=
ex
2 /2
dx
1 a 1 erf( ) 2 2
mit
n(p 1/2) np(1 p)
Im letzten Schritt wurde die de-Moivresche Integralformel verwendet, die im nchsten Kapitel (Abschnitt 4.3) vorgestellt wird. In Abbildung 3.2 ist diese Wahrscheinlichkeit ber der Zahl n der fr die Majorittsregel verwendeten Bits fr verschiedene Werte der Wahrscheinlichkeit p aufgetragen. Je grer p ist, desto schneller konvergiert die Treffer-Wahrscheinlichkeit der Majorittsregel gegen Eins. Es ist umgekehrt interessant sich zu berlegen, welchen Wert n annehmen muss, damit die Treffer-Wahrscheinlichkeit eine vorgegebene Schwelle berschreitet. In Abbildung 3.2 sind die Ergebnisse fr die Schwellwerte P 0.8, P 0.9 und P 0.99 als Funktion von p aufgetragen.
3.4
Anwendung auf Besetzungszahl-Probleme
a) In vielen Anwendungen, insbesondere in der Statistischen Physik, hat man es mit einer Art von Problemen zu tun, bei denen identische Objekte (Teilchen/Kugeln) auf
43
50
75 p=0.
0.8
P(korrekt|p,n)
p=0. p=0.
65 55
40
0.9 P
0.6
30
n*
20
P 0
0.4
P 0 .8
.9
0.2
10
0 0
10
20
30
40
50
0 0.5
0.6
0.7
0.8
0.9
Abbildung 3.2: Bit-bertragung mit dem Majorittsverfahren. Linke Abbildung: Wahrscheinlichkeit fr korrekte bertragung als Funktion der Wiederholungen n fr verschiedene Einzelwahrscheinlichkeiten p. Die Kreise stehen fr die Ergebnisse mit der de-Moivreschen Integralformel. Rechte Abbildung: Bentigte Zahl der Wiederholungen als Funktion von p fr unterschiedliche Zuverlssigkeiten P P , die beim Majorittsverfahren erzielt werden sollen. Zellen verteilt werden, wobei es nur auf die Besetzungszahlen der Zellen ankommt und nicht auf die beteiligten Individuen. Diese Situation liegt auch bei statistischen Untersuchungen von Verkehrsunfllen, Geburtstagen, etc. vor. Die Aufgabe impliziert wieder, dass Kugeln/Teilchen auf Zellen verteilt werden. Die Reihenfolge, in der die Kugeln in die Zellen eintreffen ist hierbei jedoch irrelevant. Wir fhren hierzu die B ESETZUNGSZAHLEN {ni } = {n1 , n2 , . . . , nk } ein, wobei ni angibt, wieviele Teilchen sich in der Zelle i benden. Die Gesamtzahl der Teilchen ist xiert ni = N
i
(3.15)
Mit identischen Teilchen sind zwei Verteilungen nur dann unterschiedlich, wenn sich die k -Tupel {ni } der Besetzungszahlen unterscheiden. Die Zahl der unterscheidbaren Verteilungen von N identischen Teilchen auf k Zellen3 ist AN,k = N +k1 N = N +k1 k1 (3.16)
Beweis: Wir stellen die Teilchen durch Kreise und die Begrenzungen der Zellen durch senkrechte Striche dar. Zum Beispiel besagt die Darstellung ,
3
Das ist gleichzeitig die Zahl der unterschiedlichen Lsungen von Gl. (3.15) fr natrliche ni .
44
dass wir insgesamt N = 10 Teilchen auf k = 5 Zellen mit den Besetzungszahlen 3, 0, 2, 1, 4 verteilt haben. Die ueren Begrenzungen knnen hierbei nicht verndert werden. Wir erhalten alle mglichen Besetzungszahlverteilungen der Teilchen auf die Zellen, wenn wir die N Kreise und k 1 inneren Zellbegrenzungen ( ) auf die dazu zur Verfgung stehenden N + k 1 Pltze verteilen. Auf diese Weise wird klar, dass wir das obige Ergebnis fr AN,k erhalten. Beweis von Gl. (3.6b): Das Auswhlen einer Unterpopulation der Gre r einer Population der Gre n mit Zurcklegen kann man sich auch als das Aufteilen von r Teilchen auf n Zellen vorstellen. Die Anzahl der Teilchen in einer Zelle entspricht der Hugkeit des Auftretens des entsprechenden Elements. Jedes Element kommt zwischen 0- und r-mal vor. Insgesamt werden genau r Elemente gewhlt. Nach Gl. (3.16) erhalten wir damit Gl. (3.6b). b) Die Multinomial-Verteilung vereinfacht sich fr gleich-wahrscheinliche Ereignisse p = 1/k zu B OLTZMANN -V ERTEILUNG
PB ({ni }|N, k ) = ni =
N k N {ni } N k
(3.17a) (3.17b) (3.17c) . (3.17d)
1 1 (1 ) k k 1 1 cov(ni , nj ) = N (ij ) k k var(ni ) = N
Das ist ein Ergebnis, das in der Statistischen Physik Boltzmann-Verteilung genannt wird. Dieses Ergebnis ist eine Verallgemeinerung des Beispiels, bei dem zwei Wrfel geworfen werden und nach der Wahrscheinlichkeit fr die Summe 7 gefragt wird. Es war eine groe berraschung als man in der Physik erkennen musste, dass die Boltzmann-Verteilung fr identische Teilchen nicht korrekt ist; die k N mglichen Verteilungen der Teilchen auf die Zellen haben nicht dieselbe a-priori Wahrscheinlichkeit. Es gibt zwei Arten von Teilchen, Bosonen und Fermionen, die sich in der sogenannten T EILCHEN -S TATISTIK unterscheiden. Von Bosonen kann man beliebig viele in eine Zelle packen, von Fermionen hingegen maximal eins. Beide Teilchen-Arten haben gemeinsam, dass sie absolut ununterscheidbar sind. Was bedeutet es, wenn man N UNUNTERSCHEIDBARE Teilchen auf k Zellen verteilen will? Die Anzahl k N kam dadurch zustande, dass wir zunchst das erste Teilchen auf eine der k Zellen verteilt und anschlieend das zweite Teilchen und so weiter. Das heit
45
z.B., dass die Konguration mit dem ersten Teilchen in Zelle i und dem zweiten Teilchen in Zelle j eine andere Konguration darstellt als die, bei der das erste Teilchen in Zelle j und das zweite in Zelle i ist. Diesen Unterschied gibt es bei UNUNTERSCHEID BAREN T EILCHEN nicht mehr. Es kommt nun nur noch auf die Besetzungszahlen an. Fr Bosonen, bei denen beliebige Besetzungszahlen erlaubt sind, ist die Gesamtzahl der unterschiedlichen Verteilungen von N Teilchen auf k Zellen durch AN,k (Gl. (3.16)) gegeben. All diese Kongurationen haben dieselbe Wahrscheinlichkeit 1/AN,k . Bei Fermionen sind nun nur Kongurationen mit maximal einem Teilchen pro Zelle erlaubt. Bei N Teilchen und k Zellen gibt es N Zellen mit einem und k N Zellen k mit Null Teilchen. Es gibt N unterschiedliche Verteilungen der N Teilchen auf die k k . Zellen. Diese Verteilungen haben alle die Wahrscheinlichkeit P = 1/ N Der Sachverhalt ist in Tabelle (3.6) fr drei Zellen und zwei Teilchen illustriert. Zusammenfassend: Die Wahrscheinlichkeit, dass sich in Zelle i (i = 1, 2, . . . , k ) ni Teilchen benden (wobei i ni = N ) ist N k N {ni } N !(k 1)! P = (N + k 1)! N !(k N )! P = k! P = Boltzmann Bose-Einstein Fermi ,
wobei im letzten Fall vorausgesetzt wurde, dass n {0, 1}. Das soll an einem Zahlenbeispiel verdeutlicht werden. Wir nehmen zwei Wrfel, d.h. N = 2, k = 6, wobei die Augenzahlen als Zellen interpretiert werden und die Wrfel als Teilchen. Was ist die Wahrscheinlichkeit dafr, dass die Augenzahl in der Summe 7 ergibt? Die gnstigen Ereignisse hierfr sind (1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3). Die zugehrigen Besetzungszahlen sind {1, 0, 0, 0, 0, 1} fr (1, 6) bzw. (6, 1) und analog fr die anderen Wertepaare. Gem der Boltzmann-Statistik ist die Wahrscheinlichkeit P = 2! 2! 2! 2 1 62 + 62 + 62 = 3 = 1!0!0!0!0!1! 0!1!0!0!1!0! 0!0!1!1!0!0! 36 6 .
Fr Bosonen hingegen ist die Wahrscheinlichkeit P =3 2!5! 32 1 = = 7! 67 7 .
Fr Fermionen erhalten wir schlielich P =3 2!4! 23 1 = = 6! 56 5 .
Dieses Beispiele verdeutlichen noch einmal die Problematik der Gleichwahrscheinlichkeit.
46
3.5
Geometrische und hypergeometrische Verteilung
Viele kombinatorische Probleme haben mit einer Population zu tun, in der sich zwei Typen von Elementen benden. Z.B. Kugeln unterschiedlicher Farben (rot, schwarz), Teilchen unterschiedlichen Spins (spin-up, spin-down) oder, wie im Fall der Qualittskontrolle, defekte und intakte Produkte. In der Population der Gre n gebe es nI Elemente vom ersten und nII = n nI Elemente vom zweiten Typ. Es gibt hierzu zwei interessierende Fragen: 1. Es werden Elemente nacheinander (mit oder ohne Zurcklegen) herausgenommen. Wie gro ist die Wahrscheinlichkeit, dass erst beim k -ten Zug ein Element vom Typ II beobachtet wird? 2. Es wird eine geordnete Stichprobe (mit oder ohne Zurcklegen) vom Umfang k entnommen. Wie gro ist die Wahrscheinlichkeit, dass in der Stichprobe kI Elemente vom ersten und kII = k kI Elemente vom zweiten Typ vorkommen? Beide Fragestellungen sind an sich bereits interessant und kommen in unterschiedlichen Anwendungen vor. Insbesondere bentigt man diese Wahrscheinlichkeiten aber auch, um aus der Stichprobe im inversen Schluss auf die Population zu schlieen.
3.5.1 Fragestellung 1 ohne Zurcklegen

Die Zahl der gnstigen Ereignisse ergibt sich aus der Zahl der geordneten Stichproben (o.Z.) vom Umfang k 1 aus den nI Elementen vom Typ I. Diese Zahl ist gem I! Gl. (3.3b) (nI n . Fr den k -ten Zug gibt es nII gnstige Ereignisse. Die Gesamtzahl (k1))! der Ereignisse ist die Zahl der geordneten Stichproben (o.Z.) vom Umfang k aus einer n! Population mit n Elementen, also (n . Die gesuchte Wahrscheinlichkeit ist also k)! nI ! (n k )! nII = n!(nI (k 1))!
nI k 1 n k
nII k
3.5.2
Fragestellung 1 mit Zurcklegen
Hier ist die Berechnung analog. Wir mssen lediglich den Ausdruck Gl. (3.3a) fr geordnete Stichproben mit Zurcklegen verwenden. Fr die ersten k 1 Elemente der Stichprobe gibt es demnach nI k1 gnstige Ereignisse. Fr den k -ten Zug ist die Zahl weiterhin nII . Die Gesamtzahl der Ereignisse betrgt nun nk . Die gesuchte Wahrscheinlichkeit ist also nI k1 nII = nk nI n
k 1
nII n
Dieses Ergebnis kann auch anders hergeleitet werden. Die Wahrscheinlichkeit, ein I II , bzw. pII = nn . Es gilt Element vom Typ I/II aus der Population zu ziehen ist pI = n n
47
natrlich pII = 1 pI . Wie wir spter zeigen werden, ist die Wahrscheinlichkeit, beim unabhngigen Ziehen ein Element vom Typ I (kI = k 1)-mal zu entnehmen durch I pk I gegeben, und wir erhalten ebenfalls fr die gesuchte Wahrscheinlichkeit G EOMETRISCHE V ERTEILUNG
I P (kI |pI ) = pk I (1 pI )
(3.19a) (3.19b) . (3.19c)
pI 1 pI pI var(kI ) = (1 pI )2 kI =
Diese Verteilung nennt man GEOMETRISCHE V ERTEILUNG. Man vergewissert sich k leicht, dass diese Verteilung auf eins normiert ist, da k=0 p = 1/(1 p). Die Formeln (3.19b) und (3.19c) fr Mittelwert und Varianz kann man leicht zeigen:
kI =
kI =0
I kI p k I (1 pI )
I kI p k I
=
kI =0
kI =0
I pk I
I +1 kI p k I
d = pI dpI
p2 I
kI =0
d dpI
I pk I
kI =0
d 1 = (p I p 2 I) dpI 1 pI pI = 1 pI
2 kI
=
kI =0
2 kI kI pI (1 pI )
I pk I
d d = pI pI dpi dpi = pI (1 + pI ) (1 pI )2
p2 I
kI =0
d d pI dpi dpi
I pk I
kI =0
48
2 var(kI ) = kI kI pI = (1 pI )2
3.5.3
Fragestellung 2 ohne Zurcklegen
Wir suchen die Wahrscheinlichkeit, dass die Stichprobe kI Elemente vom Typ I und kII = k kI Elemente vom Typ II enthlt. Hierbei kann kI irgendeine ganze Zahl I zwischen Null und min(nI , k ) sein. Die kI Elemente vom Typ I knnen auf n Arten kI nII gezogen werden. Fr die Elemente vom Typ II gibt es kII Mglichkeiten. Die Gesamtzahl der Mglichkeiten k Elemente aus der Population der Gre n = nI + nII . Die gesuchte Wahrscheinlichkeit ist somit auszuwhlen ist n k H YPERGEOMETRISCHE V ERTEILUNG
nI nII kI kII nI +nII kI +kII
P (kI |k = kI + kII , nI , nII ) = kI =
(3.20a)
nI (kI + kII ) (3.20b) nI + nII (kI + kII )(nI + nII kI kII ) nI nII var(kI ) = . (nI + nII 1)(nI + nII )2 (3.20c)
Beweis: Laut Bronstein gilt 0 k + 1 + ... + k1 k 0 = + k ,
womit mit = nI und = nII sofort die Normierung von Gl. (3.20a) folgt. Die Beweise fr den Erwartungswert und die Varianz lassen sich leicht fhren.
k nI nII kI k kI nI +nII k
kI =
kI =0 k
kI
=
kI =0
kI
nI ! nII ! k ! (nI + nII k )! kI ! (nI kI )! (k kI )! (nII k + kI )! (nI + nII )!
49
=
kI =1
nI
nII ! (nI 1)! (kI 1)! [(nI 1) (kI 1)]! (k kI )! (nII k + kI )!
(k 1)! [(nI + nII 1) (k 1)]! k nI + nII (nI + nII 1)!

k nI 1 nII kI 1 k k I nI +nII 1 k 1
nI k = nI + nII
kI =1
ersetze den Summationsindex kI kI + 1 nI k = nI + nII

k 1 nI 1 nII kI k kI 1 nI +nII 1 k 1
kI =0
:= k 1, n deniere: k I := nI 1 nI k = nI + nII
k nII n I kI kI k n I +nII k =1
kI =0
nI (kI + kII ) nI + nII
2 Fr kI verfhrt man analog: k 2 kI 2 kI kI =0 k nI nII kI k kI nI +nII k
=
kI =0 k
2 kI
nI ! nII ! k ! (nI + nII k )! kI ! (nI kI )! (k kI )! (nII k + kI )! (nI + nII )! (nI 1)! nII ! (kI 1)! [(nI 1) (kI 1)]! (k kI )! (nII k + kI )!
=
kI =1
kI n I
k (k 1)! [(nI + nII 1) (k 1)]! nI + nII (nI + nII 1)!

k
nI k = nI + nII
kI
kI =1
nI 1 nII kI 1 k kI nI +nII 1 k 1
ersetze den Summationsindex kI kI + 1 nI k = nI + nII

k 1
(kI + 1)
kI =0
nI 1 nII kI k kI 1 nI +nII 1 k 1
50
:= k 1, n deniere: k I := nI 1 nI k = nI + nII
k
(kI + 1)
kI =0 k
nII n I kI kI k n I +nII k nII n I kI kI k n I +nII k

n k I I +nII
nI k = 1+ nI + nII k
kI
I =0
=n
nI k nI + nII
1+
(k 1) (nI 1) n1 + nII 1
Damit knnen wir leicht die Varianz berechnen:

2 var(kI ) = kI kI 2 2 nI k (k 1) (nI 1) n2 nI k Ik = + nI + nII (nI + nII ) (n1 + nII 1) (nI + nII )2 k (nI + nII k ) nI nII = (nI + nII )2 (n1 + nII 1) (kI + kII ) (nI + nII kI kII ) nI nII = (nI + nII )2 (n1 + nII 1)
Beispiele: a) Qualittskontrolle: Wenn in einer Produktion von n Teilen nI defekt und nII = n nI intakt sind, wie gro ist die Wahrscheinlichkeit, dass bei einer Stichprobe vom Umfang k die Zahl der defekten Teile kI betrgt. Die gesuchte Wahrscheinlichkeit ist die hypergeometrische Verteilung P (kI |k, nI , nII ). Die wirklich interessante Frage lautet jedoch, wie gro ist die Zahl nI der defekten Teile der gesamte Produktion vom Umfang n, wenn bei Stichprobe vom Umfang k die Zahl der defekten Teilen kI betrgt. Diese Frage werden wir mit dem Bayesschen Theorem beantworten knnen. b) Abschtzprobleme: Es werden nI Fische gefangen, rot markiert und wieder freigelassen. Nach einiger Zeit werden erneut Fische gefangen, diesmal k Stck, davon sind kI Fische rot markiert. Wie gro ist die Zahl der Fische im See? Dieses inverse Problem knnen wir ebenfalls noch nicht beantworten. Wir knnen aber die umgekehrte Frage beantworten, die bei der Lsung des inversen Problems eine wichtige Rolle spielt: Wie gro ist die Wahrscheinlichkeit, dass der zweite Fang kI markierte Fische enthlt, vorausgesetzt, die Zahl der Fische im See ist n und davon sind nI rot markiert. Diese Wahrscheinlichkeit ist ebenfalls durch die hypergeometrische Verteilung P (kI |k, nI , n nI ) gegeben.
51
3.5.4
Fragestellung 2 mit Zurcklegen
Diese Frage ist leicht zu beantworten, wenn wir von den Wahrscheinlichkeiten pI = nI II bzw. pII = nn ausgehen, Elemente vom Typ I oder II unabhngig voneinander zu n ziehen. Die Wahrscheinlichkeit, dass die Stichprobe kI Elemente vom Type I und kII Elemente vom Typ II in einer ganz bestimmten Reihenfolge enthlt, ist demnach pI kI pII kII = pI kI (1 pI )kkI .
Da es in der Fragestellung nicht auf die Reihenfolge ankommt, ist die gesuchte Wahrscheinlichkeit k pI kI (1 pI )kkI . kI Das ist nichts anderes als die B INOMIAL -V ERTEILUNG.
52
Mit Zurcklegen 1 2 3 4 5 6 7 8 9 (a1 , a1 ) (a1 , a2 ) (a1 , a3 ) (a2 , a1 ) (a2 , a2 ) (a2 , a3 ) (a3 , a1 ) (a3 , a2 ) (a3 , a3 )
Ohne Zurcklegen 1 2 3 4 5 6 (a1 , a2 ) (a1 , a3 ) (a2 , a1 ) (a2 , a3 ) (a3 , a1 ) (a3 , a2 )
Tabelle 3.3: Geordnete Stichproben vom Umfang 2 aus der Population a1 , a2 , a3 .
1 2 3 4 5 6
(a1 , a2 , a3 ) (a2 , a3 , a1 ) (a3 , a1 , a2 ) (a3 , a2 , a1 ) (a2 , a1 , a3 ) (a1 , a3 , a2 )
Tabelle 3.4: Permutationen der Elemente der Population a1 , a2 , a3 .
1 (a1 , a2 ) 2 (a1 , a3 ) 3 (a2 , a3 ) Tabelle 3.5: Unterpopulationen der Gre 2 aus der Population a1 , a2 , a3 .
53
B OLTZMANN S TATISTIK Z1 Z2 Z3 1 2 3 4 a,b a a,b b a,b 5 b a 6 a b 7 b a 8 a b 9 b a
B OSE -E INSTEIN -S TATISTIK Z1 Z2 Z3 1 2 3 4 a,a a a,a a a,a 5 a a 6 a a
F ERMI -S TATISTIK Z1 Z2 Z3 1 a a 2 a a 3 a a
Tabelle 3.6: Vergleich der Teilchen-Statistiken.
54
Kapitel 4 Grenzwertstze
4.1 Stirlingsche Formel
Wichtig im Zusammenhang mit kombinatorischen Problemen ist die Stirlingsche Formel zur approximativen Bestimmung von n!, da in vielen Fllen groe Zahlen n auftreten. Wir werden spter sehen, dass wir neben der Fakultt auch die GammaFunktion bentigen,
(x) =
0
tx1 et dt
(4.1)
die fr ganzzahlige Argumente mit der Fakultt ber (n + 1) = n! (4.2)
zusammenhngt. Ebenso wie die Fakultt erfllt auch die Gamma-Funktion (fr beliebige reelle Argumente) die Rekursionsformel (x + 1) = x (x) . (4.3)
Die asymptotische Darstellung der Gamma-Funktion fr groe Werte von |x| lautet 1 (x) = xx 2 ex 2 1+ 1 + O(x2 ) 12x 1 = xx 2 ex 2 1 + O(x1 ) . (4.4)
Fr die Fakultt erhlt man daraus fr groe n 1 n! = (n + 1) = (n + 1)n+ 2 e(n+1) 2 = e(n+ 2 ) ln(n+1)n1 = e(n+ 2 ) = e(n+ 2 )
1 1 1
1 + O(n1 ) 1 + O(n1 ) 2 1 + O(n1 ) 2 1 + O(n1 )
ln(n)+ln(1+1/n) n1
ln(n)+1/n+O(1/n2 ) n1
55
= e(n+ 2 ) ln(n) e1+O(1/n)n1 Das bringt uns zur gesuchten Formel S TIRLINGSCHE F ORMEL
1 + O(n1 )
n! = n(n+ 2 ) en
1 + O(n1 ) .
(4.5a) (4.5b)
1 ln(n!) = (n + ) ln(n) n + ln( 2 ) + O(n1 ) 2
Der Term O(n1 ) kann fr groe n vernachlssigt werden. Das fhrt in der linearen Darstellung (Gl. (4.5a)) zu einem zwar ber alle Grenzen anwachsenden AbsolutFehler, aber der relativer Fehler verschwindet wie 1/n. In den Anwendungen werden i.d.R. Verhltnisse von Fakultten bentigt, so dass hier auch der absolute Fehler mit 1/n verschwindet. In der logarithmischen Darstellung verschwindet bereits der Absolut-Fehler. In Tabelle (4.1) ist der relative Fehler fr einige Werte von n angegeben. Man erkennt in der Tat, dass der relative Fehler sehr schnell klein wird und die Nherung bereits fr n = 1 plausible Werte liefert1 . n 1 2 3 4 5 10 20 30 40 n! 1 2 6 24 120 3628800 2432902008176640000 265252859812191058636308480000000 815915283247897734345611269596115894272000000000 0.0779 0.0405 0.0273 0.0206 0.0165 0.0083 0.0042 0.0028 0.0021
Tabelle 4.1: Relativer Fehler der Stirlingschen Formel.
4.2
Lokaler Grenzwertsatz (de Moivre)
Es kann gezeigt werden (siehe Lehrbuch von H.Meschkowski), dass die BinomialVerteilung (Newtonsche Formel) fr np(1 p) 1 durch eine Gau-Funktion appro1
Die Stirlingsche Formel liefert fr n = 1 den Wert 0.922
56
ximiert werden kann D E -M OIVRE -L APLACE T HEOREM (L OKALER G RENZWERTSATZ )
P (k |n, p)
= mit
n k p (1 p)nk k 1
(kk0 )2 2 2
g (k |k0 , )
(4.6)
g (k |k0 , ) k0 fr
:= = =
2 2 np np(1 p) 1 .
(4.7)
Dieser Satz besagt przise formuliert: Zu jeder reellen Zahl und zu jedem Paar positiver reeller Zahl x1 und x2 gibt es eine natrliche Zahl N (, x1 , x2 ), so dass P (k |n, p) g (k |np, np(1 p)) 1 <
wenn n > N (, x1 , x2 ) und wenn zudem k so gewhlt wird, dass |k np| np(1 p) Die Beschrnkung von |knp|
np(1p)
[x 1 , x 2 ]
auf [x1 , x2 ] bedeutet, dass die Approximation fr
extrem groe oder kleine k unbrauchbar ist. Fr festes k = c gilt ja offensichtlich limn |knp| = . Man sieht, dass selbst in der Nhe des Maximums groe Abnp(1p)
weichungen (im Prozentbereich) auftreten. Die Grenzwertstze haben fr die praktische Anwendung an Bedeutung verloren, da man die Binomial-Verteilung numerisch genauso bequem auswerten kann, wie die Gau-Funktion. Wir werden allerdings Situation antreffen, in denen wir diese Nherung bentigen, um analytische Auswertungen zu ermglichen.
57
0.1
0.002
0.08
0.06
(P(k|n,p)g(k;k 0,))/P max

20 40 60 80 100
P(k|n,p), g(k;k 0,)
0.04
0.02
0 0
0.002 0
20
40
60
80
100
k
0
ln(P(k|n,p)), ln(g(k;k 0,))
50
100
150
200 0
20
40
60
80
100
Abbildung 4.1: Links: Vergleich der Binomial Verteilung (Kreise) mit der Gauschen Nherung (de-Moivre-Laplace) (durchgezogene Kurve) fr n = 100, p = 0.3. Fr diese Parameter ist k0 = 30 und = 4.58. Rechts: Differenz Binomial-Gau normiert auf den Maximalwert der Binomial-Verteilung. Unten: Vergleich der Binomial-Verteilung (Kreise) mit der Gauschen Nherung (de-MoivreLaplace) (durchgezogene Kurve) auf logarithmischer Skala.
4.3
Integralsatz von de-Moivre
In der Regel interessiert man sich weniger fr die Wahrscheinlichkeit, dass bei n Versuchen genau k -mal ein bestimmtes Ereignis eintritt, sondern eher fr Fragen folgender Art: In einer Produktion von Bauelementen sei p = 0.002 die Wahrscheinlichkeit dafr, dass ein Teil fehlerhaft ist. Wie gro ist die Wahrscheinlichkeit, dass in einer Produktion von 5000 Stck hchstens 20 unbrauchbar sind? Hier fragt man nach der Wahrscheinlichkeit, dass die exklusiven Ereignisse k = 0, 1, 2, . . . , 20 vorkommen. Nach der Summenregel ist diese Wahrscheinlichkeit
20
P (k {0, 1, 2, . . . , 20}|n, p) =
k=0
P (k |n, p)
(4.8)
Auch diese Summe ist eine Trivialitt fr heutige Rechner. Dennoch kann es in manchen Fllen, insbesondere fr analytische Rechnungen, sinnvoll sein, die de-MoivreLaplace-Nherung zu verwenden. Das fhrt zum
58
I NTEGRALSATZ
VON DE -M OIVRE
Es sei p die Wahrscheinlichkeit fr das Eintreten eines Ereignisses E in einem Versuch. Dieses Ereignis soll bei n unabhngigen Wiederholungen des Versuches k -mal auftreten. Wir denieren die Menge Ia,b = {k |a Es gilt die Grenzwertbeziehung 1 lim P (k Ia,b |n, p) = n 2 Weiter gilt P (k Ia,b |n, p) =
kIa,b b
k np np(1 p)
< b}
ex
a
2 /2
dx
(4.9)
P (k |n, p)
In diesem Zusammenhang ist die Funktion 1 (x) = 2

x
et
2 /2
dt
(4.10)
wichtig. Diese Funktion steigt monoton an und hat folgende speziellen Funktionswerte () = 0 (0) = 1/2 () = 1 Mit der Funktion (x) gilt 1 2
b
(4.11) .
ex
a
2 /2
dx = (b) (a)
Eine weitere wichtige Beziehungen ist (x) = 1 (x) . (4.12)
Wir knnen nun die eingangs gestellte Aufgabe mit dem Integralsatz nherungsweise lsen. Hierbei ist np = 10 und np(1 p) = 5000 0.002 .998 = 9.98, bzw. np(1 p) = 3.159. Damit k np <b npq
59
ist, kann fr die Obergrenze kmax + 1 np kmax np <b< npq npq gewhlt werden. Die Summe ber die 21 k-Werte k = 0, 1, . . . , 20 wird durch ein Integral ersetzt. Damit die Intervall-Lnge ebenfalls 21 betrgt, sollte man b = (kmax + 1 np)/ npq whlen. Es erweist sich aber als besser, b = (kmax + 0.5 np)/ npq zu verwenden. Fr die Intervallgrenzen verwenden wir deshalb a = (010)/3.159 = 3.165 und b = (20.5 10)/3.159 = 3.3237 und erhalten fr die gesuchte Wahrscheinlichkeit P (k Ia,b ) = (3.324) (3.165) = 0.9988. Der exakte Wert ist 0.9984. Die bereinstimmung ist gut. In der Abbildung ist der Vergleich fr unterschiedliche kmax aufgetragen.
1
P(0 k kmax|n,p)
0.5
0 0
<n> 10
15
20
25
30
kmax
Abbildung 4.2: Vergleich der exakten Werte (durchgezogene Kurve) fr die Wahrscheinlichkeit P (0 k kmax |n, p) mit denen des Integralsatzes (gestrichelt) als Funktion von kmax fr n = 5000, p = 0.002. In diesem Zusammenhang ist auch die F EHLERFUNKTION erf(x) zu erwhnen 2 erf(x) = 2 = 2 1 1 x erf( ) = 2 2 2
x 0
et dt
2x
et
0 x 0
2 /2
dt .
(4.13)
et
2 /2
dt
60
Demnach knnen wir den Integralsatz in der Fehlerfunktion wie folgt ausdrcken P (k Ia,b |n, p) = 1 b a erf( ) erf( ) 2 2 2 . (4.14)
4.4 Bernoullis Gesetz der groen Zahlen

Wir betrachten Bernoulli-Experimente, die durch eine Binomial-Verteilung beschrieben werden. Wir wissen bereits aus Gl. (3.8b), dass der Mittelwert bei n Versuchen durch x = p n gegeben ist. Wie gro ist die Wahrscheinlichkeit, dass bei n Versuchen ein Ereignis, das die Wahrscheinlichkeit p besitzt, k = n p mal auftritt? Die Antwort ist offensichtlich in der de-Moivre-Laplace-Nherung 1 P (k = n p|n, p) = 0 . (4.15) 2np(1 p) n Das heit, der Mittelwert k = np, der hier auch gleichzeitig der wahrscheinlichste Wert ist (siehe Abbildung 4.1), hat eine fr n verschwindende Wahrscheinlichkeit. Das liegt natrlich daran, dass es sehr viele k -Werte in der Nhe von k = k gibt, die vergleichbare Wahrscheinlichkeit besitzen. Der de-Moivresche Integralsatz besagt, dass die Wahrscheinlichkeit, dass ein k-Wert aus dem Bereich I = {k | np np(1 p) k < np + = {k | k k < k + } auftritt ( -Bereich), durch
1 x2 1 1 P (k I |n, p) = e 2 dx = erf( ) = 0.6827 (4.16) 2 1 2 gegeben ist. Die Wahrscheinlichkeit ein k aus dem 2- -Bereich zu nden, ist entsprechend 2 x2 1 P (k I2 |n, p) = e 2 dx = erf( 2) = 0.9545 . 2 2 Das bedeutet, wenn wir ein beliebig kleines > 0 vorgeben, ist die Wahrscheinlichkeit fr |k/n p| <
np(1 p)}
1 P (|k/n p| < |n, p) = P (pn n k < pn + n) = 2 mit a= n = n
ex
a
2 /2
dx
p(1 p) np(1 p) b=+ n . p(1 p) n
61
Daraus folgt B ERNOULLIS G ESETZ DER GROSSEN Z AHLEN P (|k/n p| < |n, p) 1
n
fr bel. > 0
(4.17)
Wenn wir also die intrinsische Wahrscheinlichkeit p aus der relativen Hugkeit abschtzen, geht die Abweichung (Ungenauigkeit) mit n gegen Null.
k n
4.5
Der Satz von Poisson
Die Nherung von de-Moivre-Laplace liefert brauchbare Werte in der Nhe des Maximums der Verteilung. Fr sehr kleine oder sehr groe Werte O(n) von k wird der Fehler gro. Gerade in diesem Fall hilft ein Satz von Poisson. S ATZ VON P OISSON
Es werden n Versuche durchgefhrt, bei denen ein Ereignisse eintritt oder nicht. Die Wahrscheinlichkeit p fr das Ereignis erflle die Bedingung n p = = const . (4.18)
Das heit, das Ereignis tritt im Mittel -mal auf, unabhngig von der Zahl n der Versuche. Dann gilt lim P (k |n, p = k ) = e =: P (k |) n k! . (4.19)
Die resultierende Verteilung P (k |) heit P OISSON -V ERTEILUNG. Offensichtlich ist die Poisson-Verteilung korrekt auf Eins normiert
e
k=0
k = e e = 1 k!
Die Bedingung Gl. (4.18) kann auf zwei Arten verstanden werden 1. p 1 mit np 1 . Die Poisson-Verteilung wird als Nherung fr die BinomialVerteilung verwendet.
62
2. Wir betrachten ein Zeitintervall t, in dem im Mittel Ereignisse stattnden. Wir unterteilen das Intervall in n gleich groe Teile t = t/n. Die Wahrscheinlichkeit, dass in einem der Teilintervalle ein Ereignis stattndet, sei p. Wenn die Ereignisse unabhngig voneinander sind, haben wir es wieder mit n Wiederholungen identischer Versuche zu tun, und wir knnen die Binomial-Verteilung verwenden, von der wir wissen, dass im Mittel pn Ereignisse auftreten werden. Damit diese Zahl unabhngig von der Zahl der Unterteilungen des gesamten Zeitintervalls ist, muss p = /n sein. In der Abbildung 4.3 sind die Ergebnisse der Poissonschen Nherung mit denen der exakten Binomial-Verteilung fr verschiedene Parameter verglichen. Die bereinstimmung ist generell sehr gut. Zustzlich enthalten die Abbildungen auch die Kurven der Gau-Verteilungen mit denselben Werten fr Mittelwert und Varianz. Fr 1 geht die Poisson-Verteilung ebenfalls in eine Gau-Verteilung ber.
0.5 0.2
0.06 0.05
0.4
P(k|n,p)
0.15
0.04
P(k|n,p)
0.3 0.1 0.2 0.05 0.1
P(k|n,p)
0.03 0.02 0.01
0 0
10
0 0
10
15
20
0 0
20
40
60
80
100
Abbildung 4.3: Vergleich der Binomial Verteilung (Kreise) mit der Poissonschen Nherung (durchgezogene Kurve) fr n = 1000. Links: p = 0.001, = 1, = 1.00. Mitte: p = 0.005, = 5, = 2.23. Rechts: p = 0.05, = 50, = 6.89. Zustzlich wurde die Gau-Funktion g (x|, ) gestrichelt eingezeichnet. Der Erwartungswert der Poisson-Verteilung ist
k =
k=0
ke
k!
=e
k=0
k k!
= e
e
k
Analog erhalten wir fr das zweite Moment der Poisson-Verteilung k

2
=
k=0
k e
k!
=e
k=0
k k!
= e e = e e + e = 2 + .
63
Somit haben wir P OISSON -V ERTEILUNG
P (k |) = e k = var(k ) =
k k! .
(4.20a) (4.20b) (4.20c)
Erwartungswert und Varianz der Poisson-Verteilung stimmen mit den entsprechenden Werten der Binomial-Verteilung (Gl. (3.8b) und (4.20c)) berein, wenn man bercksichtigt, dass = p n und p 0. Man erkennt in Abbildung 4.3 auch, dass bereits bei einem Mittelwert von = 5 die Gausche Nherung gut mit der Poisson-Verteilung bereinstimmt. Wichtig ist festzuhalten, dass die Gau-Verteilung bereits bei kleinen Werten > 10 sehr gut mit der Poisson-Verteilung bereinstimmt. Aber selbst bei = 50 ist noch eine Diskrepanz zur Binomial-Verteilung zu erkennen, da in diesem Fall n nicht gro genug ist. Viele Experimente sind Zhlexperimente, z.B. inverse Photoemission, bei denen Teilchen gezhlt werden. Zhlexperimente unterliegen generell der Poisson-Statistik. Die Zhlraten sind aber in der Regel sehr gro ( > 100), und es ist daher gerechtfertigt, die Streuung der experimentellen Werte um den wahren Wert mit einer GauVerteilung zu beschreiben, bei der die Varianz gleich dem Messwert ist. Die Fehlerstatistik eines Zhlexperimentes lautet demnach F EHLERSTATISTIK VON Z HLEXPERIMENTEN 1
P (N |) =
e 2 2 = N
(N )2 2 2
(4.21)
Das bedeutet, die experimentellen Zhlraten werden gem einer Gau-Verteilung um den wahren Wert mit einer Breite streuen. Da der wahre Wert nicht bekannt ist, sonst wrde man das Experiment erst gar nicht durchfhren, verwendet man diese Formel i.d.R. um von den beobachteten Zhlraten auf den wahren Wert zu schlieen. Solange die Zhlrate N > 10, kann die Varianz durch die experimentelle
64
Zhlrate approximiert werden, und man liest diese Verteilung umgekehrt. Man gibt =N N (4.22) als Schtzwert fr den wahren Wert an.
65
66
Kapitel 5 Begriffsdenitionen und Diskussion

Wir haben mittlerweile einige Erfahrung mit typischen Fragestellungen der Wahrscheinlichkeitstheorie und auch das ntige mathematische Rstzeug, um die Begriffe, die wir in der Wahrscheinlichkeitstheorie verwenden werden, przisieren zu knnen. Das soll anhand eines speziell konstruierten Beispiels geschehen.
5.1
Das Schtzexperiment mit drei Urnen
Gegeben sind drei Behlter (Urnen) U1 , U2 , U3 , in denen sich jeweils 100 Kugeln benden. Die Kugeln sind entweder rot oder gelb. Die Urnen unterscheiden sich im Anteil q der gelben Kugeln Urne U1 U2 U3 Anteil gelb Anteil rot q1 = 0.2 0.8 q2 = 0.4 0.6 q3 = 0.7 0.3
A UFGABENSTELLUNG Es wird zufllig eine der drei Urnen U ausgewhlt. Wir wissen nicht welche. Aus U werden 40 Kugeln mit Zurcklegen gezogen. Davon sind ng Kugeln gelb.
Def. 5.1 (Bedingungskomplex) Wir nennen diese Information und smtliche Annahmen, die die Aufgabenstellung eindeutig denieren, den Bedingungskomplex B .
67
Der Bedingungskomplex B enthlt im Falle des Drei-Urnen-Experiments die Information: es gibt drei Urnen, es wird gezogen mit Zurcklegen, alle Kugeln sind gleich gro und schwer1 , die Kugeln werden zufllig entnommen (ohne hinzusehen oder abzutasten), etc... . Erst die przise Angabe des Bedingungskomplexes macht eine eindeutige Antwort mglich! Es ist nicht immer klar, was fr den Bedingungskomplex relevant ist. Z.B. ist es wichtig, dass es sich um drei Urnen handelt, aber nicht welche Farbe diese Urnen haben, auer die Farben werden kommuniziert. Die Gre der Urnen knnte relevant sein, wenn davon die Wahrscheinlichkeit abhngt, dass diese Urne ausgewhlt wurde. F RAGESTELLUNGEN
Wie gro ist die WAHRSCHEINLICHKEIT, dass = 1, 2, 3. der nchste Zug wieder gelb liefert. sich eine Urne unbekannten Typs eingeschlichen hat.
Def. 5.2 (Versuch, Experiment) Unter einem V ERSUCH oder E XPERIMENT verstehen wir die Verwirklichung eines Bedingungskomplexes B und die Beobachtung des Ergebnisses. Ein Versuch muss nicht notwendig von Menschen durchgefhrt werden. So ist eine durch B spezizierte Naturbeobachtung auch ein Versuch. Def. 5.3 (Zufallsversuch) Wird bei Wiederholung des Versuchs, stets dasselbe Ergebnis erwartet, dann spricht man von einem DETERMINISTISCHEN Versuch. Demgegenber heit ein Versuch ZUFLLIG, wenn im einzelnen nicht vorhersagbare Ergebnisse zu erwarten sind. Def. 5.4 (Grundgesamtheit) Die Menge aller unter B durchfhrbaren Zufallsversuche (kurz Versuche oder Experiment) heit Grundgesamtheit G . Die Grundgesamtheit kann endlich oder unendlich sein. Beim Urnen-Experiment ist sie unendlich, da immer wieder zurckgelegt wird. Ohne Zurcklegen, htte die Grundgesamtheit die M CHTIGKEIT (Zahl der Kugeln) 100. Def. 5.5 (Elementarereignisse) Ereignisse, die sich nicht weiter zerlegen lassen, heien Elementarereignisse oder Ergebnisse. Alle anderen heien zusammengesetzte Ereignisse.
1
Ansonsten modiziert das die Verteilung der Kugeln, die an der Oberche anzutreffen sind.
68
Beim Roulette kann rot auf 18 Arten zustandekommen: 18 Felder sind rot. Unter diesen ist auch z.B. das mit 12 markierte Feld. 12 ist in diesem Beispiel ein Elementarereignis. Allgemein sind Ereignisse E Teilmengen der Grundgesamtheit G , E G . Ein Ereignis E tritt ein, wenn ein Ergebnis E beobachtet wird. Demnach ist ein Ereignis entweder ein Elementarereignis oder eine Vereinigung von Elementarereignissen. Auch G und die leere Menge sind Ereignisse, nmlich das sichere bzw. unmgliche Ereignis. Denn G tritt mit Sicherheit ein; und E = bedeutet, dass es kein Ergebnis mit E gibt. G heit diskret, wenn die mglichen Ergebnisse abzhlbar sind, sonst heit G kontinuierlich. Es kann auch ein gemischter Fall vorliegen. Oft haben Versuche nur zwei Ausgnge: sogenannte DICHOTOME Versuche (z.B. Mnzwurf). Mit |G| bezeichnen wir die Mchtigkeit. Bei dichotomen Versuchen ist |G| = 2. Beim Wrfel-Experiment ist |G| = 6. Bei Stichproben vom Umfang n bildet die Menge aller Stichproben-Ergebnisse den Ergebnis-Raum Gn , auch Stichproben-Raum genannt. Bei dichotomen Experimenten ist offensichtlich |Gn | = 2n . Def. 5.6 (Bernoulli-Versuche) Unter einem B ERNOULLI -V ERSUCH versteht man, dass ein Versuch mit zwei Ausgngen wiederholt durchgefhrt wird. Hierbei sollen die Ausgnge der einzelnen Versuche voneinander unab-hngig sein. Das eben besprochene Urnenexperiment kann als Bernoulli-Experiment aufgefasst werden, bei dem nacheinander 40 Kugeln gezogen werden, die entweder rot oder gelb sind. Def. 5.7 (Stichprobe) Man kann Versuche bndeln. Eine n-malige Wiederholung eines einzelnen Versuchs heit ebenfalls Versuch: Man sagt dann, man habe eine S TICHPROBE VOM U MFANG n gezogen. In diesem Sinne handelt es sich in obigem Beispiel um eine Stichprobe vom Umfang 40. Duale Bedeutung wiederholter Versuche: In der Wahrscheinlichkeitstheorie hat der Begriff wiederholte Versuche zwei unterschiedliche Bedeutungen. Der erste ist die approximative Beziehung zwischen intrinsischer Wahrscheinlichkeit und relativer Hugkeit. Die zweite ist die Durchfhrung eines zusammengesetzten Experiments. Z.B. kann das Urnen-Experiment zweifach interpretiert werden: 1) Das eigentliche Experiment (Versuch) ist der einzelne Zug einer Kugel. Der Versuch wird nun n mal wiederholt, um die intrinsische Wahrscheinlichkeit q des Einzelexperimentes zu ermitteln. 2) Das Experiment besteht darin, die n Kugeln zu ziehen. Der zugrunde liegende WAHRSCHEINLICHKEITSRAUM hat nun 2n Elemente. Um die zugehrigen Wahrscheinlichkeiten ber relative Hugkeiten zu ermitteln, muss das zusammengesetzte Experiment mehrfach wiederholt werden. Def. 5.8 (Ereignis) Den Ausgang eines Versuchs nennt man E REIGNIS. Ereignisse treten ein oder nicht! Ein mehr oder wenig gibt es nicht.
69
Ein mgliches E REIGNIS ist: gelb im i-ten Zug. Aber auch die Auswahl der Urne ist ein Ereignis. Im Urnen-Experiment wird von bekannten Ereignissen auf unbekannte geschlossen. Abgesehen von Ereignissen spielen Propositionen eine zentrale Rolle in der Wahrscheinlichkeitstheorie. Def. 5.9 (Propositionen) Aussagen, die entweder wahr oder falsch sind, nennt man P RO POSITIONEN . Die ausgewhlt Urne hat den Index . Die nchste Kugel wird gelb sein. Es gibt eine weitere Urne U4 mit unbekanntem q4 . Julius Csar war ein Mann. Morgen wird es regnen. Die Lnge des Stabes liegt zwischen 1.0m und 1.1m. Auf diese Weise knnen auch berabzhlbare Propositionen fr kontinuierliche Freiheitsgrade eingefhrt werden. Def. 5.10 (Hypothesen) Hypothesen sind Aussagen ber unbekannte Ereignisse. Die gewhlte Urne hat die Nummer drei. Hypothesen sind wichtig in der orthodoxen Statistik. Streng genommen gibt es keinen Unterschied zwischen Hypothesen und Propositionen. Def. 5.11 (Vorwrts-/Rckwrtsrechnung) Es liege U1 vor. Die Proposition D IE NCH STE K UGEL WIRD GELB SEIN erhlt man aus einer V ORWRTSRECHNUNG . Im UrnenExperiment interessiert der Umkehrschluss, der von den beobachteten Folgen der Farben auf die mgliche, hypothetische Ursache rckschliet (R CKWRTSRECHNUNG). Man spricht auch von induktivem Schluss INDUKTIVER L OGIK. Im Drei-Urnen-Experiment scheint es zwei Arten von Wahrscheinlichkeiten zu geben: W1 : Wahrscheinlichkeit, aus der Urne U eine gelbe Kugel zu ziehen. W2 : Wahrscheinlichkeit, dass die Urne vorliegt, wenn die Stichprobe vom Umfang N ng gelbe Kugeln enthlt. Die erste Wahrscheinlichkeit hat einen objektiven Charakter, da sie von der Person losgelst ist, die die Auswertung des Experimentes vornimmt. Sie beschreibt eine Eigenschaft der ausgewhlten Urne. Prziser formuliert ist W1 die Wahrscheinlichkeit, im nchsten Zug gelb zu ziehen, wenn U vorliegt eine bedingte Wahrscheinlichkeit, die wir in Zukunft kompakt W1 = P (gelb|U , B ) = q (5.1)
70
schreiben werden. Gem der klassischen Denition weisen wir dieser Wahrscheinlichkeit den Wert q zu, da es unter Bercksichtigung des Bedingungskomplexes B bei jedem Zug insgesamt 100 Mglichkeiten (Kugeln) gibt, wovon 100 q gnstige Ereignisse darstellen. Andererseits wissen wir vom Bernoulli-Gesetz der groen Zahlen, dass ng /N q . Also ist auch im Rahmen der statistischen Denition der
N
Wahrscheinlichkeit W1 der Wert q zuzuweisen. Bei der Wahrscheinlichkeit W1 handelt es sich um eine sogenannte V ORWRTS -WAHRSCHEINLICHKEIT, deren zuflliges Verhalten intrinsisch vom Experiment (B ) vorgegeben ist. Anders verhlt es sich bei der Wahrscheinlichkeit W2 W2 = P (U |N, ng , B ) .
Hierbei handelt es sich um eine R CKWRTS -WAHRSCHEINLICHKEIT, denn wenn wir die Argumente vor und hinter dem Bedingungsstrich umarrangieren zu P (ng |U , N, B ), erhalten wir die Vorwrts-Wahrscheinlichkeit, dass bei einer Stichprobe vom Umfang N aus der Urne U die Anzahl der gelben Kugeln ng sein wird. Das ist eine Wahrscheinlichkeit, die wieder objektiven Charakter hat. Diese Wahrscheinlichkeit kennen wir bereits. Es handelt sich um die Bernoulli-Verteilung P (ng |N, q ). Auf die gesuchte Rckwrtswahrscheinlichkeit kann nur induktiv geschlossen werden: Nehmen wir an, ng /N = 0.25. Da q1 am nchsten an dem beobachten Verhltnis ng /N liegt, wird man schlieen, dass es sich um die Urne 1 handelt. Aber wie kann man diese Wahrscheinlichkeit quantizieren?
5.2
Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie
Es gibt zwei kontroverse Sichtweisen bei Problemen der induktiven Logik, die Sicht der orthodoxen Statistik und die der Bayesschen Wahrscheinlichkeitstheorie.
5.2.1 Orthodoxe Statistik

In der O RTHODOXEN S TATISTIK beschreibt man Vorwrts-Wahrscheinlichkeiten durch Zufallsvariablen und Rckwrts-Wahrscheinlichkeiten ber HypothesenTests. Die Zuflligkeit wird in der orthodoxen Statistik als intrinsische (physikalische) Eigenschaft des Experiments betrachtet. Man unterscheidet streng zwischen folgenden Situationen. a) Eine Mnze ist vllig symmetrisch. Die Wahrscheinlichkeit, beim nchsten Wurf Kopf zu erhalten, ist wKopf = 1/2. b) Die Mnze ist manipuliert und fllt immer auf eine (mir aber unbekannte) Seite. Nun ist X (Kopf /Zahl) keine Zufallsvariable mehr, da sie immer denselben Wert annehmen wird. Die Wahrscheinlichkeit lsst sich nun nicht mehr ber nKopf /n bestimmen, da dieses Verhltnis immer 0 oder 1 sein wird. Aber das wissen wir erst,
71
nachdem wir das Experiment durchgefhrt haben. Man kann vorher keine Aussagen machen. Vor dem Auswhlen der Urne ist der Index ebenfalls eine Zufallsvariable mit der Prior-Wahrscheinlichkeit w() = 1/3. Wenn die Urne bereits ausgewhlt wurde, also bereits vorliegt, wir nur den Wert nicht wissen, betrachtet die Orthodoxe Statistik nun nicht mehr als Zufallsvariable.2 Man kann im Rahmen der Orthodoxen Statistik z.B. nicht mehr nach der Wahrscheinlichkeit, dass = 1 ist, fragen. Um dennoch Aussagen ber solche Fragestellungen machen zu knnen, wurden die Signikanz-Tests erfunden.
5.2.2
Signikanz-Test
Wir wollen wissen, ob die Daten mit der Hypothese = 1 konsistent sind, wenn NICHT , nennt man das Experiment SIGNIFIKANT . Das heit, die Daten sind zu weit vom Erwartungswert entfernt, dass die Abweichungen nicht mehr zuflligen Charakter haben, sondern SIGNIFIKANT sind. Um zu zeigen, dass Daten signikant sind, greift man in der orthodoxen Statistik auf einen T RICK zurck. Man knnte das den indirekten Beweis der Statistik nennen. Man geht davon aus, dass die Daten einer Wahrscheinlichkeitsverteilung gengen, die durch die Hypothese vorgegeben ist. Liegen die beobachteten Daten in den Auslufern der Wahrscheinlichkeitsverteilung, dann ist es unwahrscheinlich, dass die Hypothese korrekt ist. Die Daten sind dann signikant, und die Hypothese muss verworfen werden. Im vorliegenden Drei-Urnen-Problem wollen wir z.B. die Hypothese testen, dass die Urne U1 vorliegt. Wenn die Hypothese korrekt ist, erwarten wir im Mittel = N q1 ab. gelbe Kugeln. Die beobachtete Anzahl nexp weicht hiervon um n = nexp g g exp Nun reicht es nicht die Wahrscheinlichkeit P (ng |N, q ) fr den beobachteten Wert anzuschauen, da diese Wahrscheinlichkeit mit zunehmendem N gegen Null geht. Man berechnet stattdessen die Wahrscheinlichkeit dafr, dass eine Abweichung n vom Mittelwert auftritt, die so gro wie oder grer als die beobachtete Abweichung n ist. Das heit, man berechnet die Wahrscheinlichkeit P (ng n ng + n |N, q1 , B ) =
n N
P (ng |N, q1 ) +
ng =0 ng =+n
P (ng |N, q1 )
. (5.2)
Wenn diese Wahrscheinlichkeit kleiner als ein vorgegebenes Signikanz-Niveau pS (z.B. 5%) ist, verwirft man die Hypothese. Def. 5.12 (Statistischer Fehler erster Art, Irrtumswahrscheinlichkeit) Ein Fehler erster Art liegt vor, wenn man eine Hypothese verwirft, obwohl sie richtig ist. Die WahrscheinStrenggenommen drfte man mit (Pseudo-)Zufallszahlen keine Wahrscheinlichkeitsrechnungen machen, da die Sequenz deterministisch vorgegeben ist und jeder Wert mit Wahrscheinlichkeit Eins vorhergesagt werden kann. Es liegt also genau die Situation vor, wie im Fall der bereits gewhlten Urne.
2
72
0.15
P(n g|N,q2)
0.1
0.05
0 0
10
nexp g
20
30
40
ng
Abbildung 5.1: Binomial-Verteilung zu q2 = 0.4 und N = 40 Die Flche unter dem gefllten Bereich gibt die Wahrscheinlichkeit P (n n |U , B ) fr g exp = 12 an, auf der der Signikanz-Test beruht. lichkeit, dass ein Fehler erster Art bei gegebenem statistischen Test auftritt, nennt man I RR TUMSWAHRSCHEINLICHKEIT . Def. 5.13 (Statistischer Fehler zweiter Art) Ein Fehler liegt vor, wenn man eine Hypothese akzeptiert, obwohl sie falsch ist. zweiter Art
Wie gro ist die Irrtumswahrscheinlichkeit beim Verwerfen der Hypothese, wenn P (n n |U , B ) < pS ? Vorausgesetzt, die Hypothese ist korrekt, dann kennen wir die Wahrscheinlichkeitsverteilung, mit der die Realisierungen ng = nexp auftreg (1) (2) ten. Es gibt Grenzwerte ng und ng , die vom Signikanz-Niveau abhngen, mit der Eigenschaft, dass die Hypothese im Test verworfen wird, wenn immer der beobachte(1) (2) te Wert nexp g kleiner als ng oder grer als ng ist. Die Wahrscheinlichkeit, dass solche (exp) Werte ng im Rahmen der Hypothese durch Zufallsschwankungen auftreten, ist aber gerade (2) . P (ng < n(1) g ng > n g ) = pS Das bedeutet, dass wir bei dem Signikanz-Test mit Wahrscheinlichkeit pS einen Fehler erster Art machen werden. Man knnte nun auf die Idee kommen diesem Fehler dadurch zu minimieren, dass man das Signikanz-Niveau kleiner whlt. Dann wird man seltener versehentlich die Hypothese verwerfen, obwohl sie richtig ist. Andererseits steigt damit der Fehler zweiter Art drastisch an, denn man wird nun zunehmend die Hypothese akzeptieren, obwohl sie nicht korrekt ist. Umso kleiner die Rand-Wahrscheinlichkeit
73
P (n n |U , B ) ist, umso grer ist die Wahrscheinlichkeit, dass es sich um signikante Daten handelt. Das wiederum bedeutet, dass die Hypothese falsch ist. Die Rand-Wahrscheinlichkeit ist fr das Drei-Urnen-Problem in Abbildung 5.2 ber den mglichen experimentellen Zhlern nexp aufgetragen. g
1.2 1 0.8 0.6 PB 1 PB 2 PB 3
P
0.4 0.2 0 0
PH 1
PH 2
PH 3
10
20
30
40
exp ng
Abbildung 5.2: Drei-Urnen-Problem fr N = 40 und q-Werte wie im Text. H Signikanz-Test: (durchgezogene Kurve) Rand-Wahrscheinlichkeit P unter der HypoB these, dass U vorliegt. Bayesscher Hypothesen-Vergleich: (gestrichelte Kurve) P = exp P (U |N, ng , B ). Nachteile dieser Methode Ad hoc. Nur sinnvoll, wenn unimodale Wahrscheinlichkeitsverteilung vorliegt. Es werden Hypothesen isoliert betrachtet. Es geht nicht ein, welche Alternativen es gibt. Es kann sein, dass es nur 2 Alternativen gibt und separate Tests beide Alternativen verwerfen. die betrachtete Hypothese vllig falsch ist und dennoch den Test besteht und die richtige Hypothese gar nicht untersucht wird. Bsp: Hypothese es hat geregnet. Daten: Der Boden ist nass. Die Hypothese besteht jeden Test, da P (Der Boden ist nass|Es hat geregnet) = 1 Es fehlen alle anderen Erklrungen. .
74
Wie soll man das Signikanz-Niveau whlen? blich ist 5% oder 1%.
5.2.3 Bayessche Wahrscheinlichkeitstheorie

Die Bayessche Wahrscheinlichkeitstheorie (BWT) unterscheidet sich in zwei wesentlichen Punkten von der orthodoxen Statistik, nmlich in der Interpretation des Begriffes Wahrscheinlichkeit und in einer kontrren Sicht von Zufallsereignissen. a) In der Baysschen Wahrscheinlichkeitstheorie versteht man Wahrscheinlichkeiten als Ma dafr, dass eine Proposition wahr ist. Insofern stellt die BWT eine Erweiterung der Aussagenlogik auf Teilwahrheiten dar. b) Die Zuflligkeit ist keine intrinsische (physikalische) Eigenschaft des untersuchten Objektes, sondern resultiert aus mangelnder Information. Diese Sicht ist natrlich wesentlich sinnvoller und weitreichender als die orthodoxe. Sie trifft zu bei Mnzwurf (klassisch, deterministisch). Es fehlt nur die ntige Information, um alles zu berechnen. Wrfel (Pseudo-)Zufallszahlen. Man hat sogar die gesamte Information um die Zahlen vorherzusagen. Drei-Urnen-Problem. Die Urne wird nicht wirklich zufllig ausgewhlt. Die Person, die sie auswhlt hat i.d.R ein Konzept, wie sie die Urne auswhlt. Whlerverhalten. Es gibt sicher bei den meisten klare Vorstellungen warum sie eine bestimmte Partei whlen. Klassische Vielteilchen-Systeme. Was den Zufall charakterisiert, ist die Unberechenbarkeit aufgrund mangelnder Information. Im Rahmen der Bayesschen Wahrscheinlichkeitstheorie gibt es auch keinen prinzipiellen Unterschied zwischen der Behandlung des oben beschriebenen MnzProblems, bei dem einmal die Mnze symmetrisch und einmal manipuliert ist. In beiden Fllen wird man vor dem ersten Experiment dieselbe Wahrscheinlichkeit erhalten P (Kopf|fair, B ) = 1/2 sowie P (Kopf|manipuliert, B ) = 1/2 . Der Unterschied manifestiert sich erst beim zweiten Versuch P (Kopf|erster Versuch: Zahl, fair, B ) = 1/2 aber P (Kopf|erster Zug Zahl, manipuliert, B ) = 0 .
75
Wir werden im bernchsten Kapitel zeigen, dass die BWT die einzige konsistente Theorie ist, um Teilwahrheiten quantitativ zu beschreiben. Die BWT stellt einen Kalkl fr Propositionen dar. Die Rechenregeln, die sich aus der Konsistenzforderung ergeben, sind die bereits bekannte Summen- und Produktregel und daraus abgeleitet das Bayessche Theorem. Sie wird Bayessche Wahrscheinlichkeitstheorie genannt, da sie ausgiebig vom Bayesschen Theorem gebraucht macht. Das Bayessche Theorem gibt es auch in der Orthodoxen Statistik. Jedoch drfen die Argumente nur Zufallsvariablen sein, da dann die bedingten Wahrscheinlichkeiten als Quotient von Wahrscheinlichkeiten deniert sind, zu denen man relative Hugkeiten angeben kann. Deshalb ist es nicht mglich gewesen, dass Bayessche Theorem heranzuziehen, um zu ermitteln, welche Urne U vorliegt. Im Rahmen der BWT gibt es diese Probleme nicht. Wir bentigen folgende Propositionen U : Die Urne wurde ausgewhlt. q = q : Der Anteil q der gelben Kugeln ist q . N : Die Stichprobe hat den Umfang N. ng : In der Stichprobe sind ng gelbe Kugeln. B : Die Propositionen, die den Bedingungskomplex denieren. Wir bestimmen die gesuchte Wahrscheinlichkeit Bayesschen Theorem (siehe Kapitel 7.2 bzw. Gl. (7.5)) p := P (U |ng , N, B ) = P (U |N, ng , B ) aus dem
P (ng |U , N, B ) P (U |N, B ) P (ng |N, B )
(5.3)
Der erste Term im Zhler P (ng |U , N, B ) ist die Vorwrts-Wahrscheinlichkeit, dass eine Stichprobe vom Umfang N aus der Urne U ng gelbe Kugeln enthlt. Das ist natrlich die Binomial-Verteilung P (ng |N, q ) (Gl. (3.8a)). Der zweite Term im Zhler P (U |N, B ) ist die sogenannte P RIOR -WAHRSCHEINLICHKEIT , dass die Urne U vorliegt. Fr die Bestimmung dieser Wahrscheinlichkeit ist die Kenntnis des Stichprobenumfangs irrelevant. Es gilt deshalb P (U |N, B ) = P (U |B ). Diese Wahrscheinlichkeit ist P (U |N, B ) = 1/3, da es 3 Urnen gibt und nur eines der Ereignisse gnstig ist. Schlielich kommt in Gl. (5.3) noch ein Normierungsnenner vor, der unabhngig von ist. Er sorgt dafr, dass 3 =1 p = 1. Daraus folgt p :=
3 =1
P (ng |N, q ) P (ng |N, q )
(5.4)
Diese Wahrscheinlichkeit ist in Abbildung 5.2 als Funktion von ng = nexp g aufgetragen. Wir erkennen nun klarer, was der Unterschied zwischen den beiden Arten von Wahrscheinlichkeiten ist.
76
Def. 5.14 (Prior-Wahrscheinlichkeit) Wir bezeichnen hier mit P RIOR -WAHRSCHEINLICHKEIT die Wahrscheinlichkeit P (X |B ) fr eine Proposition X , wenn nur der Bedingungskomplex gegeben ist und keine Daten vorliegen. B kann aber durchaus Vorwissen anderer Form (z.B. Summenregeln, etc) enthalten.3 Wir werden spter erfahren, wie man konsistent Prior-Wahrscheinlichkeiten zuweist. Im Drei-Urnen-Experiment konnte die Prior-Wahrscheinlichkeit bereits aus der klassischen Denition der Wahrscheinlichkeit bestimmt werden. Im Gegensatz zur Prior-Wahrscheinlichkeit gibt es die Def. 5.15 (Posterior-Wahrscheinlichkeit) Unter der P OSTERIORWAHRSCHEINLICHKEIT verstehen wir die Wahrscheinlichkeit P (X |D, B ) fr X , wenn neben dem Bedingungskomplex auch Daten D vorliegen. Schlielich hatten wir neben der Posterior- (bzw. Rckwrts-) Wahrscheinlichkeit die Vorwrts-Wahrscheinlichkeit, die man auch Likelihood-Funktion nennt Def. 5.16 (Likelihood-Funktion) Unter der L IKELIHOOD -F UNKTION verstehen wir die Wahrscheinlichkeit P (D|X, B ), die Daten D zu messen, wenn die Proposition X wahr ist und weiterhin der Bedingungskomplex vorliegt. Man nennt sie Likelihood, da man an der Abhngigkeit von X interessiert ist. In dieser Gre ist sie keine Wahrscheinlichkeit, da sie hierin nicht normiert ist.
Wichtig:
P (D|X, B ) + P (D|X, B ) = 1
Im Urnen-Beispiel war die Likelihood die Binomial-Verteilung. Die LikelihoodFunktion ist i.d.R. die einzige Gre, die auch in der Orthodoxen Statistik verwendet wird.
Man ndet auch hug den Begriff a-priori-Wahrscheinlichkeit. Der Begriff ist allerdings bereits in der Philosophie mit anderer Bedeutung in Gebrauch.
77
78
Kapitel 6 Boolsche Algebren und Borel-Krper

6.1 Halbordnung
HALBGEORD -
Def. 6.1 (Halbordnung) Eine Menge M (mit Elementen a, b, c, . . .) heit NET , wenn in M eine Relation deniert ist mit folgenden Eigenschaften: [a [a Beispiele sind: Die Menge der reellen Zahlen mit der Relation . bb bb a a c] a c a] a = b a M , , .
(6.1a) (6.1b) (6.1c)
Die Potenzmenge einer beliebigen Menge mit der Mengen-Relation . (*) Die Menge M = {2, 3, 5, 6, 10, 15, 30} ist halbgeordnet durch a|b, das heit, a ist Teiler von b. Dieses Beispiel zeigt auch, dass nicht zwischen allen Elementen eine Halbordnung existieren muss. Die Menge der halbgeordneten Paare ist {(2, 2), (2, 6), (2, 10), (2, 30), (3, 3), (3, 6), (3, 15), (3, 30), (5, 5), (5, 10), (5, 15), (5, 30), (6, 6), (6, 30), (10, 10), (10, 30), (15, 15), (15, 30) (30, 30)} . Def. 6.2 (Nullelement, Einselement) Eine halbgeordnete Menge M besitzt ein Nullelement N , wenn gilt N a a M . Eine halbgeordnete Menge M besitzt ein Einselement E , wenn gilt a E a M .
Im Zusammenhang mit der Wahrscheinlichkeitstheorie ist das Nullelement das unmgliche Ereignis und das Einselement das sichere Ereignis.
79
Bemerkung 6.1 Es existiert nicht immer ein Null- oder Einselement, wie das Beispiel (*) zeigt. Satz 6.1 (Eindeutigkeit des Null- oder Einselement) Existiert ein Null- oder Einselement, so ist es eindeutig. Beweis: Seien N ,1 und N ,2 Nullelemente. Dann gilt N ,1 a fr alle a, insbesondere auch N ,1 N ,2 . Mit der gleichen Argumentation gilt N ,2 N ,1 , also nach Gl. (6.1c) N ,2 = N ,1 . Der Beweis fr das Einselement luft vllig analog.
6.2
Boolsche Algebra
Def. 6.3 (distributiver Verband) Eine Menge V (mit Elementen a, b, c, . . .) bildet einen distributiven Verband, wenn zweistellige Verknpfungen und deniert sind, die folgende Eigenschaften besitzen: a b=b a (a b) c = a (b c) a (a b) = a a (b c) = (a b) (a a b=b a (a b) c = a (b c) a (a b) = a a (b c) = (a b) (a (6.2a) (6.2b) (6.2c) (6.2d)
c)
c)
Bemerkung 6.2 Gl. (6.2a) spiegelt die Kommutativitt und Gl. (6.2b) die Assoziativitt wieder. Die Axiome Gl. (6.2a),Gl. (6.2b),Gl. (6.2c) nennt man auch Verbandsaxiome, wenn nur sie erfllt sind, liegt ein Verband vor. Erst die Axiome Gl. (6.2d) machen den Verband zum distributiven Verband. Bemerkung 6.3 In den Axiomen treten die Operationen und gleichberechtigt auf. Hat man irgendeine Ausage bewiesen, gilt die entsprechende DUALE A USAGE, d.h. jene in der durch ersetzt wird und umgekeht, genauso. Satz 6.2 (Idempotenz) In einem Verband gilt fr alle a: a a Beweis: Fr Gl. (6.3a): a a
Gl.(6.2c), rechts
a=a a=a
(6.3a) (6.3b)
(a
(a
b))
Gl.(6.2c), links
Gl. (6.3b) ist der duale Ausdruck zu Gl. (6.3a) Def. 6.4 (Null-, Einselement) In einem Verband gelte: Ein Objekt N mit a N = a und a N = N fr alle a heit Nullelement. Ein Objekt E mit a E = a und a E = E fr alle a heit Einselement.
80
Satz 6.3 (Eindeutigkeit des Null-, Einselements) Existiert in einem Verband ein Nulloder Einselement, so ist es eindeutig. Beweis: Sind N1 und N2 beide Nullelemente, so gilt N2 N1 = N1 (da N1 Nullelement) und N1 N2 = N2 (da N2 Nullelement), also ist N1 = N2 N1 = Der Beweis frs Einselement geht mit den dualen Ausdrcken.
Gl.(6.2a), links
N1 N2 = N2 .
Bemerkung 6.4 Die Elemente N und E sind zueinander dual (falls sie existieren). Def. 6.5 (Komplement) In einem Verband mit Null- und Einselement heit ein Element a Komplement von a, wenn a a = N, und a a=E .
Satz 6.4 (Eindeutigkeit des Komplements) In einem distributiven Verband gibt es zu jedem Objekt hchstens ein Komplement. Beweis: Sind a1 und a2 Komplemente von a, so gilt nach Denition a a1 = E = a a2 , sowie a a1 = N = a a2 . Dann ist Gl.(6.2a), links Gl.(6.2c), rechts V or. a1 = a1 (a a1 ) = a1 (a1 a) = a1 (a2 a) (a a) = a2 )
Gl.(6.2d), rechts
(a1 =
a) a2
(a1 (a
a2 )
V or.,Gl.(6.2a), rechts
(a2
a1 ) a2 .
Gl.(6.2d), rechts
a1 ) = a2
V or.
(a
a2 )
Gl.(6.2a), links
a2
(a2
Gl.(6.2c), rechts
Satz 6.5 In einem Verband wird durch a b) eine Halbordnungsstruktur deniert.
b : a b = a (oder alternativ a
b : a b =
Beweis: Wir mssen zeigen, dass die 3 Halbordnungsaxiome gelten. Gl. (6.1a): Aus dem Satz 6.2 (Idempotenz) folgt nach der Denition in Satz 6.5: a Gl. (6.1b): Aus a b und b c folgt zunchst nach Denition a
V or. Gl.(6.2b), links
a.
b = a und b
V or.
c = b.
V or.
Dann ist durch Einsetzen a c = (a b) c also a c. Gl. (6.1c): Aus a b und b

V or. Gl.(6.2a), links V or.
a (b c) = a b = a, b = a und b a = b,
a folgt zunchst nach Denition a = b a = b.
daher gilt: a = a
Satz 6.6 In einem Verband sei durch obige Vorschrift eine Halbordnung deniert. Falls Verband wie Halbordnungsstuktur ber N /E bzw. N /E verfgen, gilt: N =N und E =E .
81
Beweis: Nach Denition 6.4 gilt im Verband fr das Nullelement fr alle a: a N = N . Nach Satz 6.5 gilt daher a N fr alle a, daher ist N ein Nullelement N im Sinne der Denition 6.2. Der Beweis frs Einselement luft dual. Satz 6.7 (Krzungsregel) In einem disrtributiven Verband gilt fr alle a, b, c: a Beweis: Es ist: b (b (c c a) a) (c (b (c a) c) b) b=a = b c, (a b) (a a b=a
V or.
c (a (a
c) c) c)
b=c
Gl.(6.2d), rechts
Gl.(6.2c), rechts
b) = b (b
V or.
Gl.(6.2a), links
(a c
c) = (a
V or.
(b =
c)
Gl.(6.2a), rechts
Gl.(6.2d), rechts
b) = c
Gl.(6.2a), links
Gl.(6.2c), rechts
c.
Satz 6.8 (Doppelte Negation) In einem distributiven Verband gilt: a=a .
Beweis: Da a das Komplement von a ist, gilt nach Denition 6.5: a a = N und a a = E . Da a das Komplement von a ist, gilt ebenso: a a = N und a a = E . Also gilt auch a a = a a = N = a a und a a Nach der Krzungsregel 6.7 ergibt sich a = a.
Gl.(6.2a), links s.o. s.o. Gl.(6.2a), rechts
a a = E = a a.
s.o.
s.o.
Def. 6.6 (Boolsche Algebra) Eine distributiver Verband bildet eine Boolsche Algebra, wenn der Verband sowohl ein Null- und Einselement besitzt und zustzlich komplementr ist, das heit, dass zu jedem Element der Menge das Komplement in der Menge existiert. Satz 6.9 In einer Boolschen Algebra gilt: E =N und N =E .
Beweis: Fr das Komplement N von N muss gelten: N N = N und N N = E . N = E erfllt diese Bedingungen, denn es ist N E = N und N E = E . Der Beweis fr E = N geht analog. Satz 6.10 In einer Boolschen Algebra gilt fr alle Elemente a a N =a a E =a (6.4a) (6.4b)
Beweis: Das folgt aus Axiom Gl. (6.2c) und der Denition des Komplements a a (a
N
a) = a a) = a
E
(a
82
Satz 6.11 Fr zwei beliebige Elemente a, b einer Boolschen Algebra gilt: [a = b ] [a = b ] a a Beweis: Gl. (6.5a): Wir gehen von a = b aus und verknpfen beide Seiten einmal mit a dann mit a . Das liefert a
N
(6.5a) (6.5b) . (6.5c)
b=a b=a
b b
a=a
b,
a
E
a=a
Diese Gleichungen stellen also die Denition des Komplements von b dar, d.h. a = b. Gl. (6.5b): Wenn a b das Komplement a (a (a b) b) (a (a b sein soll, dann muss gelten b) = E b) = N , .
Wir nutzen die Distributivitt aus und erhalten (a (a b)) (b (a b)) = ((a
E E
a)
b) ((b
E
b)
E
a) = E
Analog erhalten wir ((a b) a) ((a b) b) = ((a

N N N
a)
b) (a
(b
N
b)) = N
Somit ist der Beweis erbracht. Gl. (6.5c): Dual zu oben.
Wir erkennen sofort, dass die bekannten Mengenverknpfungen und , aber ebenso das logische Und bzw. Oder der Aussagenlogik, die geforderten Eigenschaften erfllen. Diese beiden stellen auch die in der Anwendung wichtigsten Verknpfungen dar. Es gibt einen engen Bezug zwischen den beiden bekannten Typen von Verknpfungen, der logischen und der Mengen-Verknpfung. Das sei am Beispiel der Ereignisse eines Wrfels erlutert. Die Elementarereignisse sind die Aussagen (Propositionen)
83
ich wre die Augenzahl i, kurz ei . Die Elementarereignisse entsprechen den Atomen der Potenzmenge P (), wobei = {1, 2, 3, 4, 5, 6} (Gesamtmenge), mit der Zuordnung ei {i}, i = 1, 2, 3, 4, 5, 6 . Weiters gelten die Zuordnungen {i} {j } ei ej .
Weitere Propositionen sind z.B. ea :ich wre eine Augenzahl kleiner 5 oder eb :ich wre eine gerade Augenzahl Die Zuordnung zur Potenzmenge ist dann ea {1, 2, 3, 4} ; Die Verknpfung eb {2, 4, 6} .
lautet in den beiden Darstellungen ea eb = ich wre 2 oder 4 {2, 4} .
Interessant ist noch das Null- und das Einselement. In der Darstellung mit Propositionen ist das Nullelements das unmgliche Ereignis und das Einselement das sichere Ereignis, d.h. irgendeine Augenzahl. In Mengen mit den Mengen-Relationen und ist N = {} und E = die Gesamtmenge.
6.2.1
Beispiele:
Mengen mit Mengenverknpfungen: N = , E = : Gesamtmenge. Menge der N-stelligen Bit-Muster mit den elementweisen logischen Verknpfungen und : N = {0, 0, . . . , 0}, E = {1, 1, . . . , 1}1 Das Komplement ist das elementweise Vertauschen 0 1. Def. 6.7 (Potenzmengen) Als Potenzmenge P () bezeichnet man die Menge aller Teilmengen einer Menge . Def. 6.8 (Partition) Die Partition A = [A1 , A2 , . . . , An ] einer Menge ist eine Kollektion sich gegenseitig ausschlieender DISJUNKTER Untermengen Ai (i = 1, 2, . . . , N ) von , Ai Aj = 0 i = j , deren Vereinigung die Gesamtmenge aufspannt Ai =
N
i=1
Theorem 6.1 Jede endliche Boolsche Algebra ist isomorph zu einer geeignet gewhlten Potenzmenge.
1
0 kann als logische falsch und 1 als wahr interpretiert werden.
84
6.2.2 Normierung
Def. 6.9 (Norm) Ein in einer Boolschen Algebra B deniertes Funktional heit Norm, wenn dieses Funktional P : a P (a) fr alle a, b B folgende Eigenschaften hat: P (a) 0 P (E ) = 1 P (a b) = P (a) + P (b) (6.6a) (6.6b) (6.6c)
[a
b = N]
Eine Boolsche Algebra, in der eine Norm deniert ist, heit normiert. Es ist zu erkennen, dass die Eigenschaft der Norm stark an die Denition der klassischen Wahrscheinlichkeit angelehnt sind. Es kann nicht immer allen Untermengen von widerspruchsfrei eine Norm (Ma) zugeordnet werden. Da wir die Norm mit der Wahrscheinlichkeit gleichsetzen werden, kann eine Wahrscheinlichkeitstheorie nur auf solchen Untermengen widerspruchsfrei aufgebaut werden, bei denen die Normzuweisung widerspruchsfrei mglich ist. Diese Untermengen bilden eine -Algebra, auch -Krper genannt. Def. 6.10 ( -Krper) Ein Krper ist in diesem Zusammenhang eine Klasse F von Mengen, so dass fr jedes Paar A, B F auch A B F und A B F . Darber hinaus verlangt man, dass zu jedem A F auch das Komplement A zu F gehrt. Ein -Krper besitzt zustzlich die Eigenschaft, dass die Verknpfung von abzhlbar vielen Elementen Ai , (i = 1, 2, . . . , N )2 aus F auch immer zu F gehren
N i=1 N i=1
Ai Ai
F F .
Im Fall beliebiger Verknpfungen spricht man auch von der B OOLSCHEN A LGEBRA. Im Spezialfall der Mengen-Verknpfungen nennt man den -Krper auch B OREL K RPER.3 Beispiel: Menge der ganzen Zahlen {1, 2, 3, 4, 5, 6}. Der -Krper sind alle Untermengen, die aus den Elementarmengen {i} erzeugt werden knnen. sei die Menge der Punkte auf der reellen Achse. Untermengen sind dann alle Mengen von reellen Zahlen. Ein -Krper sind die Intervalle {x1 x x2 } und die Vereinigungen und Durchschnitte abzhlbar vieler davon. Dieser Krper enthlt alle offenen und geschlossenen Intervalle und alle Punkte, insbesondere auch (, ], R.
2 3
N = ist auch mglich! In der englischen Literatur spricht man vom Borel-Field, wenn gleichzeitig eine Norm deniert
ist.
85
86
Kapitel 7 Axiomatische Wahrscheinlichkeitstheorie

Die axiomatische Denition des Wahrscheinlichkeitsbegriffes geht auf Kolmogoroff (1933) zurck. Der Zugang hat einen deduktiven Charakter, vermeidet konzeptionelle Willkr und liefert zumindest einen ersten Zugang zu einem tieferen Verstndnis. Allerdings ist immer noch nicht klar, wie die Norm (Wahrscheinlichkeit) zu interpretieren ist und ob sie in allen Fllen mit dem gesunden Menschenverstand bereinstimmt. Ein noch greres Problem ist, dass die Zuweisung der Wahrscheinlichkeit zu den Ergebnissen von der Theorie nicht vorgegeben wird und bei weitem nicht eindeutig ist. Def. 7.1 (Axiomatische Denition der Wahrscheinlichkeit) Die Wahrscheinlichkeitstheorie ist die Theorie der normierten Boolschen Algebren. Der Wahrscheinlichkeitsraum ist durch drei Bestandteile ausgezeichnet Die Gesamtmenge aller interessierenden Ereignisse, bzw. experimentellen Resultate. Der -Krper der Ereignisse, eine Klasse von Untermengen von . Die Normen der Elemente des -Krpers. Die Wahrscheinlichkeit eines Ereignisses (Ereignisse sind Untermengen von ), das durch das Element des -Krpers reprsentiert wird, ist die Norm des Elementes. Die axiomatische Denition der Wahrscheinlichkeit ist eine Verallgemeinerung der klassischen bzw. der statistischen Denition. Natrlich, lst die axiomatische Denition nicht das Problem der Zuweisung von Prior-Wahrscheinlichkeiten. Aber sie bildet ein mathematisch konsistentes Gerst zum Rechnen mit Wahrscheinlichkeiten.
87
7.1
Regeln der Wahrscheinlichkeitsrechnung
Fr die Wahrscheinlichkeit einer normierten Ereignis-Algebra B gilt fr zwei beliebige Elemente a, b B und fr indizierte, sich gegenseitig ausschlieende Ereignisse ai B P (a) = 1 P (a) P (a) 1 P (N ) = 0 b] P (a) P (b) P (a b) = P (a) + P (b) P (a
n
[a
b)
(7.1a) (7.1b) (7.1c) (7.1d) (7.1e) (7.1f)
(Summenregel)
P(
n i=1 ai )
=
i=1
P (ai )
Falls [a1 , a2 , . . .] eine Partition von B ist, gilt weiter P ( i ai ) =

i
P (ai ) = 1 b) =
i
(7.2a) P (ai b) . (7.2b)
(Marginalisierungsregel) Beweise: Gl. (7.1a): 1 = P (E ) = P (a
P (b) = P (( i ai )
a)
Gl.(6.6c)
P (a) + P (a).
Gl. (7.1b): sonst wre P (a) < 0 im Widerspruch zu Gl. (6.6a). Gl. (7.1c): P (N ) = P (E ) = 1 P (E ) = 1 1 = 0. Gl. (7.1d): Gem Denition 6.5 bedeutet die Halbordnung a b=E b = (a a) b = (a
a b
b, dass a b = b. (a
b\a
a)
(a
b)
Gl.(6.2d)
b)
Die Teilmenge b\a ist disjunkt zu a a b \a = a (a b)

Gl.(6.2b)
(a
N
a) b = N
Damit gilt gem Gl. (6.6c)

Gl.(6.6a)
P (b) = P (a
b\a) = P (a) + P (b\a)
P (a)
88
Gl. (7.1e): Um diese Form der Summenregel zu beweisen, schreiben wir die Ereignisse a b und b als Vereinigung ( ) von sich gegenseitig ausschlieenden Ereignissen a b=a (a b); b = (a b) (a b) ,
auf die nun die Norm-Eigenschaft Gl. (6.6c) anwendbar ist P (a b) = P (a) + P (a b); P (b) = P (a b) + P (a b) .
Wir lsen die zweite Gleichung nach P (a b) auf und setzen das Ergebnis in die erste Gleichung ein und erhalten somit die gesuchte Summenregel fr den Fall berlappender Ereignisse.
n Gl. (7.1f): Folgt leicht durch Induktion. Es gelte fr P ( n i ai ). Dann sind i ai und an+1 sich gegenseitig ausschlieende Ereignisse auf die Gl. (6.6c) anwendbar ist und somit gilt Gl. (7.1f) auch fr n + 1.
Gl. (7.2a): Folgt sofort aus der Tatsache, dass E = Gl. (7.2b): Folgt ebenso aus der Tatsache, dass E =
i ai
und P (E ) = 1. zusammen mit b = b E .
i ai
7.2
Bedingte Wahrscheinlichkeiten
Wir hatten bereits frher darauf hingewiesen, dass es nur bedingte Wahrscheinlichkeiten gibt. Im Rahmen der axiomatischen Wahrscheinlichkeitstheorie verbirgt sich der Bedingungskomplex hinter der Bedeutung und Struktur des Wahrscheinlichkeitsraumes, also der Angabe aller Experimente (), der interessierenden Ereignisse ( -Algebra) und der Prior-Wahrscheinlichkeiten. Insofern handelt es sich zwar auch hier um bedingte Wahrscheinlichkeiten, der Bedingungskomplex wird aber nicht explizit in die Notation aufgenommen, da er sich whrend der Analyse eines Problems nicht ndert. Das geht in den meisten Fllen gut, hat aber in der Literatur zu Paradoxa gefhrt, die Jahrzehnte lang unverstanden waren. Neben der Abhngigkeit der Wahrscheinlichkeit vom Bedingungskomplex, kann man natrlich auch nach der Wahrscheinlichkeit P (a|b) fr ein Ereignis a fragen, unter der Annahme, dass das Ereignis b vorliegt. In Anlehnung an die Regeln der klassischen Wahrscheinlichkeitstheorie deniert man in der axiomatischen Theorie die B EDINGTE WAHRSCHEINLICHKEIT P (a|b) = P (a b) P (b) . (7.3)
89
Man berzeugt sich leicht davon, dass bedingte Wahrscheinlichkeiten P (a|x) ebenfalls alle Regeln der Wahrscheinlichkeitstheorie erfllen; schlielich sind sie nichts anderes als Wahrscheinlichkeiten. Aus der Denition der bedingten Wahrscheinlichkeit ergibt sich sofort die P RODUKTREGEL P (a b) = P (a|b) P (b) = P (b|a) P (a) , (7.4)
und durch Ausen der beiden mglichen Darstellungen der Produktregel erhalten wir das Bayessche Theorem B AYESSCHES T HEOREM P (a|b) = P (b|a) P (a) P (b) , (7.5)
das es erlaubt, inverse Probleme zu lsen. Man interessiert sich in sehr vielen Fllen fr die Posterior-Wahrscheinlichkeit P (x|d) fr ein Ereignis x, gegeben experimentelle Daten d und der Bedingungskomplex. Die Posterior-Wahrscheinlichkeit ist gem des Bayesschen Theorems verknpft mit der Prior-Wahrscheinlichkeit P (x), der sogenannte Daten-Evidenz P (d)1 und der Likelihood-Funktion P (d|x). Man kann die Produkt-Regel verallgemeinern und in eine fr die Anwendung sehr ntzliche Gestalt bringen. Es sei [a1 , . . . , an ] eine Partitionierung der Gesamtmenge bzw. des sicheren Ereignisses und b ein beliebiges Element der -Algebra. Dann gilt wegen der Marginalisierungsregel Gl. (7.2b) M ARGINALISIERUNGSREGEL
n n
P (b) =
i=1
P (ai
b) =
i=1
P (b|ai ) P (ai )
(7.6)
Damit lsst sich das Bayessche Theorem auch in folgender Form schreiben:
1
Die Daten-Evidenz spielt i.d.R. nur die Rolle des Normierungsfaktors.
90
P (ai |b) =
j
P (b|ai )P (ai ) P (b|aj ) P (aj )
(7.7)
Def. 7.2 (Unabhngigkeit) Man nennt zwei Ereignisse der -Algebra logisch unabhngig, wenn P (a b) = P (a)P (b) P (a|b) = P (a)
91
92
Kapitel 8 Bayessche Wahrscheinlichkeitstheorie

8.1 Was ist Wahrscheinlichkeit?
Im Lexikon ndet man zwei Erklrungen: 1. Wahrscheinlichkeit ist ein Begriff, der die Einstufung von Aussagen oder Urteilen nach dem Grad ihres Geltungsanspruchs bzw. Mglichkeit und Gewissheit bezeichnet, wobei die Grnde fr den Geltungsanspruch nicht oder noch nicht ausreichen, um die Annahme des Gegenteils auszuschlieen. 2. speziell in Mathematik, Naturwissenschaft und Statistik: Wahrscheinlichkeit ist der Grad der Mglichkeit bzw. Voraussagbarkeit (Prognostizierbarkeit) des Eintretens eines Ereignisses. Wahrscheinlichkeit ist somit ein Ma fr den Wahrheitsgehalt bzw. Wahrheitsgrad einer Proposition. Es gibt keine unbedingten (absoluten) Wahrscheinlichkeiten! Z.B. die Wahrscheinlichkeit P (Z |B ), beim Wurf einer Mnze Zahl vorzunden, ist nur dann 1/2, wenn vorausgesetzt wird, dass die Mnze nur zwei Mglichkeiten hat, zur Ruhe zu kommen (auf der Kante ist ausgeschlossen) und wenn sichergestellt ist, dass keine der beiden Seiten ausgezeichnet ist. Auch wenn dieser Bedingungskomplex nahezu selbsterklrend ist, ist nur durch diese zumeist implizite Angabe die Fragestellung eindeutig deniert. Die bedingte Wahrscheinlichkeit P (X |Y ) kann somit auch als Ma dafr verstanden werden, wie stark die Proposition Y die Proposition X impliziert. Man kann Wahrscheinlichkeit deshalb auch als I MPLIKATIONSMASS betrachten. Eigentlich ist es genau diese Interpretation, die uns in echten Problemen interessiert. Das Ziel ist immer auszuarbeiten, wie stark die vorliegenden Informationen inklusive experimenteller Daten implizieren, dass ein Parameter bestimmte Werte annimmt, oder dass eine Hypothese wahr ist, oder dass ein Modell die Daten beschreibt. Wir werden sehen, dass dieses Ma eindeutig deniert ist und dass aus den Regeln der elementaren Logik der Kalkl fr dieses Ma folgt.
93
Hier werden wir die Summen- und Produktregel der Wahrscheinlichkeitstheorie von einfachen Konsistenzforderungen der elementaren Aussagenlogik ableiten.
8.2
Das Universalgesetz der Wahrscheinlichkeitstheorie
Die Wahrheitswerte von Propositionen gehorchen der Boolschen Algebra. Diese implizieren korrespondierende Regeln fr die Wahrscheinlichkeiten. Wir werden diese Regeln aus denen der Aussagenlogik ableiten. Diese Strategie geht auf R.T. Cox (1946) zurck, der damit, 2 Jahrhunderte nachdem die Summen- und Produktregel eingefhrt worden sind, die Rechtfertigung geliefert hat, dass man die bekannten Regeln der Wahrscheinlichkeitsrechnung auch auf das Ma des Wahrheitsgehalts einer Proposition, bzw. das Implikationsma, anwenden kann. Damit ist es gelungen, die Axiome der axiomatischen Wahrscheinlichkeitstheorie aus Konsistenzforderungen herzuleiten. Im Fall, dass eindeutige Aussagen mglich sind, reduziert sich alles auf die gewhnliche Aussagenlogik. Wir bentigen im Folgenden die logische Verknpfung NAND A B := A B . (8.1)
Die Regeln der Wahrscheinlichkeitsrechnung lassen sich aus einer einzigen Regel, der fr das logische NAND, P (A B |B) ableiten.1 Das ist mglich, da aus dem logischen NAND alle logischen Verknpfungen aufgebaut werden knnen.
8.3
Aussagenlogik
Es sollen hier die wichtigsten Eigenschaften der Aussagenlogik zusammengefasst werden2 . Proposition: Aussage, die entweder wahr (TRUE, T ) oder falsch (FALSE, F ) ist. Negation: Zu jeder Proposition existiert das Inverse A, mit A = A. Logisches UND: A B ist dann und nur dann wahr, wenn beide Propositionen A und B wahr sind. Als Argument von Wahrscheinlichkeiten schreiben wir die UND-Verknpfung zweier Propositionen in der Form A, B .
Dieser Beweis geht ursprnglich auf R.T.Cox (1946) zurck und wurde 1998 von A.Garrett vereinfacht. 2 Eine gute Darstellung der Boolschen Algebra ndet man in Kuntzmann, J. 1967. F UNDAMENTAL B OOLEAN A LGEBRA, London, UK.
1
94
Logisches ODER: A B ist dann und nur dann falsch, wenn beide Proposition falsch sind. W ICHTIGE E IGENSCHAFTEN DER B OOLSCHEN A LGEBRA
AA=A AB =BA (A B ) C = A (B C ) = A B C AB =AB AT =A AF =F .
Kommutativitt Assoziativitt
(8.2a) (8.2b) (8.2c) (8.2d) (8.2e) (8.2f)
Wir erkennen, dass eine Dualitt zwischen UND und ODER-Verknpfung besteht, AB =AB .
Es gengt deshalb, das logische NAND um alle logischen Funktionen aufzubauen3 . A=AA A B = (A B ) (A B ) A B = (A A) (B B ) (8.3a) (8.3b) (8.3c)
8.4 Herleitung der Wahrscheinlichkeitsrechnung

Wir wollen die Herleitung der Regeln der Wahrscheinlichkeitsrechnung hier explizit vorfhren, da sie ungewohnte und interessante Elemente enthlt und weil es hierbei klar wird, dass die Regeln der Wahrscheinlichkeitsrechnung eine logische Konsequenz elementarer Konsistenzforderungen sind. Wir drcken die Wahrscheinlichkeit P (A B |B ) als Funktion einfacherer bedingter Wahrscheinlichkeiten aus. Welche Mglichkeiten gibt es hierzu. Zunchst kommen keine logischen Ausdrcke, die komplexer sind als die Ausgangsverknpfung A B , in Frage. Da der Bedingungskomplex B vorgegeben ist, bleibt er in allen Wahrscheinlichkeiten hinter dem Bedingungsstrich erhalten. Es gibt vor dem Bedingungsstrich
3
Jeder logische Schaltkreis kann allein aus NAND-Gattern aufgebaut werden.
95
nur die Mglichkeiten A bzw. B . Alle anderen Ausdrcke knnen durch NANDVerknpfungen hierdurch ausgedrckt werden. Hinter dem Bedingungsstrich wre zustzlich A B als Proposition denkbar, aber auch das liefert nichts Neues P (A|A B, B ) = P (A|A, B ) = PF fr B = T, P (A|T, B ) = P (A|B) fr B = F .
Hier beschreibt PT die Wahrscheinlichkeit fr die wahre (T ) und PF die Wahrscheinlichkeit fr die falsche (F ) Proposition. Analoges gilt fr P (B |A B, B ). Somit lautet das allgemeinste Funktional P (A B |B ) = F P (A|B, B ), P (B |B), P (B |A, B ), P (A|B ) . (8.4)
Der Bedingungskomplex hngt nicht von A, A, B or B ab, auer wenn es explizit erwhnt wird. Wir werden nun Gl. (8.4) weiter vereinfachen. Dazu betrachten wir den Spezialfall B = A C . B kann zwar nicht mehr unabhngig von A beliebige Werte annehmen, aber es gibt keine Einschrnkung von A oder C . Auf der linken Seite wird A B zu A B = A (A C ) = A A C = A C = A C Die rechte Seite vereinfacht sich, da P (A|A, C, B ) = PT , Wir haben somit P (A C |B) = F PT , P (A, C |B ), P (C |A, B ), P (A|B) oder durch Umbenennen C B , P (A B |B ) = F PT , P (A, B |B ), P (B |A, B ), P (A|B ) . (8.8) (8.7) P (A, C |A, B ) = P (C |A, B ) . (8.6) . (8.5)
Diese Beziehung muss mit Gl. (8.4) verglichen werden. Wir haben also bereits erreicht, dass P (A B |B ) nur von drei Wahrscheinlichkeiten, P (A, B |B), P (B |A, B ) und P (A|B), abhngt. Nun betrachten wir den Spezialfall B = A in Gl. (8.8). Wegen A A = A erhalten wir P (A|B ) = F PT , P (A|B ), PT , P (A|B ) . (8.9)
Diese Beziehung besagt, dass es einen direkten Bezug zwischen der Wahrscheinlichkeit einer Proposition und ihrer Negation gibt P (A|B ) = P (A|B ) mit (z ) = F (PT , z, PT , z ) . (8.11) (8.10)
96
Um P (A, B |B ) auf der rechten Seite von Gl. (8.8) durch P (A B |B ) auszudrcken, ersetzen wir die Proposition A in Gl. (8.10) durch A B und erhalten zusammen mit Gl. (8.3b) P (A, B |B ) = P (A B |B) = P (A B |B ) . (8.12) Wenn wir diese Relation auf der rechten Seite von Gl. (8.8) einsetzen, erhalten wir P (A B |B ) = F PT , P (A B |B ) , P (B |A, B ), P (A|B) . (8.13)
Nun gibt es zwei Mglichkeiten: a) Die rechte Seite von Gl. (8.13) ist identisch zu P (A B |B ) und hngt gar nicht von P (B |A, B ) oder P (A|B ) ab. In diesem Fall ist Gl. (8.13) eine Tautologie und bringt nichts Neues. b) (8.13) stellt eine implizite Beziehung zwischen P (A B |B), P (B |A, B ) und P (A|B ) dar. In diesem Fall ist es uns gelungen, Gl. (8.4) weiter zu vereinfachen. Wir gehen davon aus, dass es tatschlich eine nicht-triviale Lsung gibt P (A B |B ) = G (P (B |A, B ), P (A|B )) . (8.14)
Hierbei stellt G ein neues unbekanntes Funktional dar. Wenn der Fall a) zutreffen sollte, wrden wir feststellen, dass Gl. (8.14) keine Lsung besitzt. Wir werden nun das Funktional G bestimmen. Dazu setzen wir noch einmal B = A an und erhalten P (A|B) = G PT , P (A|B ) Es ist ntzlich, die Denition (v ) = G (PT , v ) einzufhren, mit der wir P (A|B ) = P (A|B ) (8.17) erhalten. Wenn wir in Gl. (8.17) A durch A ersetzen und Gl. (8.17) erneut verwenden, folgt P (A|B) = P (A|B ) = (P (A|B)) fr alle A und somit fr alle Werte von P (A|B ). Demnach gilt (z ) = z . (8.18) (8.16) . (8.15)
Das heit, = I , und somit ist gleich seinem Inversen. Als nchstes wenden wir uns dem logischen UND zu. P (A, B |B ) = P (A B |B ) = (P (A B |B )) = (G (P (B |A, B ), P (A|B))) = P (B |A, B ), P (A|B ) (8.19) (a, b) := (G (a, b)) . (8.20) Hierbei wurde Gl. (8.14) verwendet. Wir knnen das logische Produkt weiter spezizieren, indem wir Gl. (8.19) verwenden, um das logische Produkt von drei Propositionen (A, B , C ) zu berechnen. Das Produkt kann auf mehrere Arten ausgewertet
97
werden, da die Kommutativitt und Assoziativitt gilt. Hierbei geht nun erneut die Konsistenz-Forderungen ein. Wir beginnen mit P (A, B, C |B ) = P (A, B ), C |B = P (A, B |C, B ), P (C |B) = P (A|B, C, B ), P (B |C, B ) , P (C |B) Alternativ gilt auch P (A, B, C |B ) = P A, (B, C )|B = P (A|B, C, B ), P (B, C |B ) = P (A|B, C, B ), P (B |C, B ), P (C |B ) . .
Die rechten Seiten beider Alternativen mssen gleich sein. Mit den Abkrzungen a = P (A|B, C, B ), b = P (B |C, B ), c = P (C |B ), (8.21)
erhalten wir fr die Funktionalgleichung a, (b, c) = (a, b), c . (8.22)
Die Variablen a, b und c sind voneinander unabhngig. Man nennt Gl. (8.22) Assoziativittsgleichung. Sie wurde von Abel bereits im 19. Jahrhundert eingefhrt und untersucht. Sie hat die allgemeine Lsung (u, v ) = 1 (u)(v ) , (8.23)
wobei eine stetige Funktion mit dem Inversen 1 ist. Beide Funktion mssen eindeutig sein. Ansonsten ist beliebig. Die Herleitung der Lsung ist langwierig. Es ist jedoch leicht, sich davon zu berzeugen, dass sie Gl. (8.22) erfllt. Einsetzen in Gl. (8.22) liefert fr die linke Seite a, (b, c) = 1 (a)( (b, c)) = 1 (a)(1 (b)(c) ) = 1 (a)(b)(c) Dasselbe Ergebnis erhalten wir fr die rechte Seite (a, b), c = 1 ( (a, b))(c) = 1 (1 (a)(b) )(c) = 1 (a)(b)(c) . .
Wir setzen nun die Lsung, Gl. (8.23), in Gl. (8.19) fr das logische UND ein und wenden auf beide Seiten die Funktion an (P (A, B |B)) = (P (B |A, B )) (P (A|B )) . (8.24)
98
Um diese Relation in die bekannte Form der Produktregel zu bringen, tauschen wir das ohnehin noch nicht genauer spezizierte Funktional P (. . .) gegen P (. . .) ein P (. . .) = (P (. . .)) und erhalten damit P (A, B |B) = P (B |A, B ) P (A|B ) . (8.25)
Hieraus knnen wir nun die Grenzwerte ermitteln. Z.B. liefert A = T P (B |B ) = P (T, B |B ) = P (B |T, B ) P (T |B) = P (B |B ) PT
PT
Daraus folgt zwingend fr die Darstellung P , in der die Produktregel in der einfachen Form gilt, P (T |B) = 1 . (8.26) Weiter erhalten wir fr B = F P (F |B) = P (A, F |B) = P (F |A, B ) P (A|B ) = P (F |B ) P (A|B) Eine Lsung hiervon ist P (F |B) = 0 . (8.27) Als weitere Lsung ist P (F |B ) = ebenso mglich. Es ergeben sich hieraus zwei mgliche Abbildungen von Propositionen auf die reellen Zahlen. Entweder wie gewohnt auf das Intervall [0, 1] oder auf das Intervall [1, ). Wir werden spter sehen, dass zwischen diesen beiden Darstellungen die Beziehung P 1/P besteht. Wir werden hier aber zunchst die Standard-Darstellung weiter verfolgen. Schlielich bleibt noch das logische NOT zu bestimmen. In Gl. (8.17) hatten wir bereits P (A|B ) = (P (A|B )) abgeleitet. Anwenden von auf beide Seiten liefert (P (A|B )) = 1 (P (A|B )) P (A|B) = 1 (P (A|B ))
P (A|B) = (P (A|B))
99
Wenn wir, wie zuvor, diese Gleichung auf die doppelte Verneinung zweimal anwenden erhalten wir = I . Das heit 1 = . Um das Funktional zu bestimmen, betrachten wir speziell P (A, B |B ) = P (A|B, B ) P (B |B) und ersetzen alle Negationen durch das Funktional . P (A, B |B) = P (A|B, B ) P (B |B ) = P (A|B, B ) [P (B |B )] Die Negation hinter dem Bedingungsstrich werden wir dadurch los, dass wir ausnutzen, dass das logische UND kommutativ ist und wir die Produktregel auf unterschiedliche Weise anwenden knnen P (A, B |B ) = P (A|B, B ) P (B |B ) P (A, B |B ) = P (B |A, B ) P (A|B ) Gleichsetzen der rechten Seiten liefert P (A|B, B ) = P (B |A, B ) P (A|B ) [P (B |A, B )] P (A|B ) = [P (B |B)] P (B |B ) . (8.28) .
Somit haben wir schlielich P (A, B |B ) = [P (B |A, B )] P (A|B) [P (B |B)] [P (B |B )] |B) PP(A,B P ( A |B ) (A|B) [P (B |B )] = [P (B |B)]
Wir denieren nun a P (A|B) , b P (B |B ) , c P (A, B |B ). (8.29)
Damit erhalten wir die etwas handlichere Form P (A, B |B ) = [b]

c a a [b]
(8.30)
Nun ist das logische UND kommutativ, und wir sollten dasselbe erhalten, wenn wir A und B vertauschen. Das entspricht dem Vertauschen von a und b auf der rechten Seite. Da die linken Seiten dabei invariant sind, muss also gelten [ a] b c b [ a] = [b]
c a a [b ]
(8.31)
100
Aus dieser Funktionalgleichung soll nun , unter Bercksichtigung der Nebenbedingungen = I und [P (T |B)] = (1) = P (F |B ) = 0 [P (F |B )] = (0) = P (T |B ) = 1 bestimmt werden. Die Lsung lautet (u) = (1 uk )
1/k
(8.32)
wobei k eine beliebige positive reelle Zahl ist. Fr die Randbedingung P (F |B ) = erhlt man dieselbe Lsung aber mit negativem k . Man berzeugt sich leicht, dass dies tatschlich die Lsung der Funktional-Gleichung ist. Aus der Relation fr die Negation folgt dann P (A|B ) = [P (A|B )] = (1 P (A|B ) ) P (A|B ) = 1 P (A|B )
k k k k 1/k
Wir denieren Wahrscheinlichkeit noch einmal um in P (. . .) P (. . .) . Hierbei bleiben die Form der Produktregel sowie die Grenzwerte P (T |B ) = 1 und P (F |B ) = 0 erhalten. Die Summenregel vereinfacht sich in dieser Darstellung zu P (A|B ) = 1 P (A|B ) .
Die andere Darstellung liefert identische Ergebnisse, ist aber wesentlich unhandlicher. Ab sofort benennen wir P wieder in P um! Abschlieend wollen wir noch die allgemeine Form der Summenregel ableiten. P (A B |B) = P (A, B |B ) = 1 P (A, B |B ) = 1 P (A|B, B ) P (B |B ) = 1 1 P (A|B, B ) P (B |B ) P (A, B |B) P (B |B) P (B |B ) = 1 P (B |B ) + P (A, B |B) =1 1 = 1 P (B |B ) +P (B |A, B ) P (A|B )
P (B |B)
= P (B |B) + (1 P (B |A, B )) P (A|B ) = P (B |B) + P (A|B ) P (B |A, B ) P (A|B ) = P (B |B) + P (A|B ) P (A, B |B )
101
Somit haben wir bewiesen, dass zur konsistenten Zuweisung eines Maes fr den Wahrheitsgehalt einer Proposition die Regeln der Wahrscheinlichkeitsrechnung gelten mssen. Jede andere quantitative Behandlung von Problemen der induktiven Logik ist entweder hierzu quivalent oder falsch.
8.5
8.5.1
Spezielle Propositionen
Indizierte Propositionen
In vielen Problemen ist es sinnvoll, Propositionen zu indizieren Ai , (i = 1, 2 . . . , N ), wobei die Anzahl der indizierten Propositionen endlich (N < ) oder unendlich (N = ) sein kann. Beispiel: Ai : Die Augenzahl beim Wrfeln ist i. Von besonderer Bedeutung sind hierbei paarweise DISJUNKTE Propositionen PAARWEISE DISJUNKTE P ROPOSITIONEN Ai F fr i = j sonst.
Ai Aj =
i, j
(8.33)
Die Ai bilden eine PARTITIONIERUNG wenn sie disjunkt und VOLLSTNDIG sind PARTITIONIERUNG i Ai = T . (8.34)
Die Produktregel vereinfacht sich fr disjunkte Propositionen zu P (Ai , Aj |B) = ij P (Ai |B ) .
Die Summenregel lautet fr disjunkte, vollstndige Propositionen 1 = P (i Ai |B) =

i
P (Ai |B )
(8.35)
102
S UMMENREGEL FR DISKRETE F REIHEITSGRADE
P (Ai |B) = 1
i
Normierung P (B |Ai , B ) P (Ai |B )

i
(8.36a)
P (B |B) =
Marginalisierungsregel (8.36b)
8.5.2 Kontinuierliche Propositionen

Zur Behandlung von Problemen mit kontinuierlichen Freiheitsgraden, fhren wir Propositionen vom Typ A<a : Die Variable A hat einen Wert kleiner als a ein. Die Wahrscheinlichkeit dieser Proposition P (A<a |B) = P (A < a|B ) ist eine V ER TEILUNGSFUNKTION. Daraus erhalten wir durch Differenzieren die Wahrscheinlichkeitsdichte P (A<a+da |B ) P (A<a |B ) da0 da
p(Aa |B ) = lim
Der Ausdruck im Zhler ist nichts anderes als die Wahrscheinlichkeit P (dAa |B ) fr die innitesimale Proposition dAa : A liegt im Intervall [a, a + da) . Die Wahrscheinlichkeit P (dAa ) ist demnach ein Produkt aus der innitesimalen Intervallgre und der WAHRSCHEINLICHKEITSDICHTE p(Aa |B ). Diese Form gilt allgemein fr Probleme beliebiger Dimension a Rn . Wahrscheinlichkeitsdichten werden wir immer durch kleingeschriebene Buchstaben kennzeichnen. Die Summenregel geht in diesem Fall ber in
103
S UMMENREGEL FR KONTINUIERLICHE F REIHEITSGRADE
p(x|B ) dx = 1 P (B |B ) = P (B |x, B ) p(x|B ) dx
Normierung
(8.37a)
Marginalisierungsregel (8.37b)
Die Bezeichnung Bayessche Wahrscheinlichkeitstheorie rhrt daher, dass das Bayessche Theorem P (B |A, B ) P (A|B) P (A|B, B ) = (8.38) P (B |B) intensiv zur Lsung inverser Probleme verwendet wird. Hierbei enthlt B die experimentellen Daten und A sind die Parameter, Hypothesen oder Modelle, die untersucht werden sollen.
8.6
8.6.1
Einfache Beispiele
Propagatoren
(R. D. Mattuck, A Guide to Feynman Diagrams in the Many-Body Problem, Dover Publications, Inc., New York, (92))
104
Ein Party-Gast (PG) propagiert nach der Party nach Hause. Dieses Modell wird im obenerwhnten Buch herangezogen um Greensche Funktionen in der VielteilchenTheorie zu erklren. Wir betrachten hier ein ganz einfaches (relativ unrealistisches) Modell. Bei jeder Bar wird erneut berlegt, ob er einkehren soll (Wahrscheinlichkeit PB ) oder nicht (1 PB ). Wenn er einkehrt, besteht ein Wahrscheinlichkeit PR < 1, dass er wieder herauskommt und weiter propagiert. Die disjunkten Ereignisse (Propositionen) sind hier En : Er kehrt in n Bars ein. Die zu untersuchende Proposition lautet: H : Er kehrt am Abend heim. Mit der Marginalisierungsregel erhalten wir
N
P (H |N, B ) =
n=0
P (H |En , N, B ) P (En |N, B )
Die Proposition N besagt, dass es N Bars gibt, und der Bedingungskomplex enthlt u.a. die Information, dass jede Bar hchstens einmal aufgesucht wird. Nun sollen die Entscheidungen, in die individuellen Bars einzukehren, unkorreliert (unabhngig) sein. Es handelt sich also um einen Bernoulli-Versuch P (En |N, B ) = N n PB n (1 PB )N n .
Die Wahrscheinlichkeit, dass nach einem Bar-Besuch die Heimreise fortgesetzt werden kann, sei PR . Damit er noch in dieser Nacht zu Hause ankommt, muss er in allen n Fllen die Heimreise antreten. Das geschieht mit der Wahrscheinlichkeit PR n . Somit haben wir
N
P (H |N, B ) =
n=0 N
P (H |En , N, B ) P (En |N, B ) N n N n PB n (1 PB )N n PR n (PB PR )n (1 PB )N n .
=
n=0 N
=
n=0
= (PB PR + 1 PB )N = (1 PB (1 PR ))N
Das Ergebnis macht Sinn, denn PB (1 PR ) ist die Wahrscheinlichkeit, dass er von einer Bar absorbiert wird. Demnach ist 1 PB (1 PR ) die Wahrscheinlichkeit, dass er eine Bar berwindet. Damit er nach Hause kommt, muss dieses Ereignis N-mal eintreten. Wenn PB (1 PR ) 1, dann gilt P (H |N, B ) = eN
ln(1PB (1PR ))
ePB (1PR )
ex
105
Wir erkennen sofort den Bezug zu physikalischen Problemen, z.B. Dmpfung von Wellen, Teilchen in Materie. Die Anzahl N der Bars entspricht dem zurckgelegten Weg x, und die Wahrscheinlichkeit PB (1 PR ), von einer Bar absorbiert zu werden, entspricht der Dmpfungkonstante pro Wegeinheit.
8.6.2 Das 3 Tren Problem

Aufgabenstellung eines Glcksspiels: Es gibt drei Tren. Hinter einer Tr bendet sich der Hauptgewinn. Der Kandidat whlt eine Tr aus. Der Quizmaster ffnet eine der beiden anderen Tren, allerdings niemals die Tr mit dem Hauptgewinn. Danach kann der Kandidat entscheiden, ob er bei seiner Wahl bleibt, oder die noch verschlossene Tr whlt. Ist es besser, bei der ersten Wahl zu bleiben, zu wechseln, oder spielt es keine Rolle? Wir wollen die Wahrscheinlichkeit berechnen, dass wir mit der Strategie S gewinnen. Die bentigten Propositionen sind S : Die verfolgte Strategie ist, bei der ersten Wahl zu bleiben. G: Wir gewinnen. Damit ist die gesuchte Wahrscheinlichkeit P (G|S, B ). Wann sind alle Wahrscheinlichkeiten bekannt? Genau dann, wenn wir wissen, ob unsere erste Wahl richtig war! Also verwenden wir die Propositionen = 1/0: Die erste Wahl war richtig/falsch Die Marginalisierungsregel liefert das gesuchte Ergebnis
1
P (G|S, B )) =
=0
P (G|, S, B ) P ( |S, B ) = P ( = 1|S, B ) = 1/3.

,1
Somit ist es offensichtlich wesentlich besser, die Tr zu wechseln. Wie kann man das anschaulich verstehen? Es ist gut, bei der ersten Entscheidung zu bleiben, wenn die erste Wahl richtig war. Hierfr gibt es zu Beginn nur eine Mglichkeit. Es ist hingegen gut zu wechseln, wenn die erste Wahl falsch war. Hierfr gibt es zu Beginn zwei Mglichkeiten.
8.6.3
Detektor fr seltene Teilchen
Wie gut muss ein Detektor sein, um seltene Teilchen nachzuweisen? Bentigte Propositionen T / T : Teilchen vorhanden / nicht vorhanden. D: Detektor spricht an.
106
Wir wollen die Wahrscheinlichkeit dafr berechnen, dass ein Teilchen vorhanden ist, wenn der Detektor anspricht? Wir verwenden hierzu das Bayessche Theorem P (T |D, B ) = P (D|T, B ) P (T |B) P (D|T, B ) P (T |B) + P (D|T , B ) P (T |B)
Zahlenbeispiel: P (T |B ) = 108 P (D|T, B ) = 0.9999 P (D|T , B ) = 0.0001 Einsetzen der Zahlenwerte liefert P (T |D, B ) = 104 . .
Obwohl der Detektor scheinbar sehr gut ist, ist die Wahrscheinlichkeit verschwindend klein, dass tatschlich ein Teilchen vorhanden ist, wenn der Detektor reagiert. Wie gut muss dann der Detektor berhaupt sein, damit P (T |D, B ) wenigstens 1/2 ist? Offensichtlich muss gelten P (D|T , B ) P (T |B ) P (D|T, B ) P (T |B ) P (T |B ) P (D|T , B ) P (D|T, B ) 1 P (T |B )
P (T |B )
Das heit, die Fehlerrate P (D|T , B ) muss kleiner als 108 sein.
Medizinische Untersuchungen Diese berlegungen lassen sich sofort auf medizinische Reihen-Untersuchungen bertragen. Die Propositionen sind dann T : Der Patient hat einen Virus. D: Der Befund ist positiv. Gesucht wird die Wahrscheinlichkeit, dass der Patient tatschlich einen Virus hat, wenn der Befund positiv ausfllt. Typische Werte sind P (T |B ) = 0.001 P (D|T, B ) = 0.9 P (D|T , B ) = 0.01 .
107
Das liefert P (D|T, B ) P (T |B ) = 0.9 0.001 = 0.0009 P (D|T , B ) P (T |B ) = 0.01 (1 0.001) = 0.00999 1 1 0.08 P (T |D, B ) = 0.00999 = 12.1 1 + 0.0009
Das heit die Wahrscheinlichkeit ist lediglich 0.08, dass der Patient den Virus hat. Allerdings ist dadurch die Wahrscheinlichkeit von P (T |B) = 0.001 vor der Untersuchung um einen Faktor 80 angestiegen. Der anschauliche Grund in beiden Fllen ist der, dass es fr das Reagieren des Detektors/Tests sehr viel mehr Mglichkeiten P (D|T , B ) P (T |B ) der Fehldiagnose als der korrekten Diagnose P (D|T, B ) P (T |B ) gibt, da es sich um seltene Teilchen/Flle P (T |B ) handelt. P (T |B )
8.6.4
Ist die Mnze symmetrisch?
Wenn man Hypothesen testen will, betrachtet man blicherweise das sogenannte Odds-Ratio P (H |D, B ) o= , P (H |D, B ) wobei H die zu analysierende Hypothese und D die Daten sind. Der Vorteil des Odds-Ratios ist, dass man vermeidet, den Normierungsnenner berechnen zu mssen. Hier interessieren wir uns fr o= P (H |nK , N, B ) P (nK |H, N, B ) P (H |B ) P (nK |H, N, B ) P (H |B) = = . P (H |nK , N, B ) P (nK |H, N, B ) P (H |B ) P (nK |H, N, B ) P (H |B)
BayesF aktor P riorOdds
Die verwendeten Propositionen lauten H : Die Mnze ist symmetrisch nK : Die Anzahl Kopf ist nK . N : Die Mnze wird N-mal geworfen. Wir gehen davon aus, dass wir vorab nicht wissen, ob die Mnze symmetrisch ist oder nicht P (H |B ) =1 . P (H |B )
108
Die MARGINALE L IKELIHOOD -F UNKTION P (nK |N, H, B ) und P (nK |N, H, B ) kann unter Ausnutzung der Marginalisierungsregel aus der Likelihood-Funktion berechnet werden
1
P (nK |N, A, B ) =
0
P (nK |N, q, A, B ) p(q |N, A, B ) dq
(8.39)
mit A = H oder A = H . Die Likelihood-Funktion ist unabhngig von A, denn sie gibt die Wahrscheinlichkeit dafr, dass bei N -maligem Mnzwurf nk -mal Kopf erscheint, wenn die Wahrscheinlichkeit fr Kopf im Einzelwurf q ist. Durch die Bedingung, dass q bekannt ist, wird die Hypothese H oder deren Negation H in der LikelihoodFunktion berssig. Es handelt sich wieder um die Binomial-Verteilung P (nK |N, q, B ) = N nK q nK (1 q )N nK .
Die Abhngigkeit von A steckt in P (q |N, A, B ). Diese Wahrscheinlichkeit ist logisch unabhngig von der Zahl der Wrfe N P (q |A, B ) = (q 1/2) frA = H (0 q 1) frA = H .
Im Fall, dass die Hypothese zutrifft, ist q = 1/2. Strenggenommen ist in diesem Fall P (nK |N, q, H, B ) nur fr q = 1/2 erlaubt, da fr andere Werte von q hinter dem Bedingungsstrich ein Widerspruch steht. Die Wahrscheinlichkeit P (nK |N, q, H, B ) ist fr q = 1/2 nicht deniert, aber diese Terme tragen wegen der -Funktion ohnehin nicht zum Integral Gl. (8.39) bei. Die Hypothese H bedeutet, dass wir nicht wissen welchen Wert q annimmt. Er kann somit jeden Wert zwischen 0 und 1 gleich-wahrscheinlich annehmen. Damit haben wir P (nK |N, H, B ) = P (nK |N, H, B ) = N nK N nK
0
1 2
1
nK
1 2
N nK
N nK
2N N nK nK ! (N nK )! (N + 1)! .
q nK 1 q )N nK dq =
Das Odds-Ratio ist somit o=
2N (N + 1)! nK ! (N nK )!
Wir betrachten die beiden Extremflle Die Mnze ist manipuliert und fllt immer auf Kopf. Die Mnze verhlt sich perfekt symmetrisch q = 1/2.
109
Im ersten Fall ist nK = N . Damit vereinfacht sich der Bayes-Faktor zu o = 2N (N + 1) .
Aus dem Odds-Ratio erhalten wir die Wahrscheinlichkeit P (H |nK = N, N, B ) = 1 1 o = = N 1+o 1 + 1/o 1 + 2 /(N + 1) .
Die Ergebnisse hierzu sind in der Tabelle 8.1 aufgelistet. N 0 1 2 5 10 15 20 P (H |nK = N, N, B ) 0.500 0.500 0.429 0.158 0.011 0.0005 0.00002 Tabelle 8.1: Fr N = 0 ist alles noch unentschieden P (H |nK , N, B ) = 1/2. Nach dem ersten Wurf ist die Wahrscheinlichkeit immer noch P (H |nK , N, B ) = 1/2. Weitere Werte sind in der Tabelle aufgelistet. Man erkennt, dass die Wahrscheinlichkeit sehr schnell klein wird und man bereits bei zehn Wrfen sicher sein kann, dass die Mnze manipuliert ist. Im Fall einer symmetrische Mnze erhalten wir im Idealfall N = 2nK . Damit wird aus dem Odds-Ratio (2 nK + 1)! o = 22 nK . nK ! nK ! Fr diesen Datensatz sind die Ergebnisse in Tabelle 8.2 aufgefhrt. N 0 2 10 20 40 100 200 2000 P (H |nK = N/2, N, B ) 0.500 0.600 0.730 0.787 0.837 0.889 0.919 0.973 Tabelle 8.2: Es ist natrlich wesentlich schwerer in diesem Fall zu entscheiden, ob die Mnze symmetrisch ist oder nicht.
110
8.6.5 Produktionsrate des Wettbewerbers

Eine Firma hat von einem Produkt N Stck hergestellt. Die einzelnen Teile haben fortlaufende Seriennummern. Es wird eine Stichprobe vom Umfang L ohne Zurcklegen genommen, in der sich die laufenden Nummern {n1 , n2 , . . . , nL } benden. Was knnen wir daraus ber die Gesamtproduktion aussagen? Die Wahrscheinlichkeit P (N |n1 , n2 , . . . , nL , B ) knnen wir wieder ber das Bayessche Theorem bestimmen P (N |n1 , n2 , . . . , nL , L, B ) = 1 P (n1 , n2 , . . . , nL |N, L, B ) P (N |L, B ) Z .
Hierbei ist die Bedeutung der Propositionen N : Die Stckzahl betrgt N . L: Der Umfang der Stichprobe ist L. nj : Das j -te Element der Stichprobe hat die Seriennummer nj . Die Wahrscheinlichkeit P (n1 , n2 , . . . , nL |N, L, B ) kann mit der Produktregel weiter vereinfacht werden P (n1 , . . . , nL |N, L, B ) = P (nL |n1 , . . . , nL1 , N, L, B ) P (n1 , . . . , nL1 |N, L, B ) = P (nL |n1 , . . . , nL1 , N, L, B ) P (nL1 |n1 , . . . , nL2 , N, L, B ) P (n2 |n1 , N, L, B ) P (n1 |N, L, B )
Die Stichprobe soll zufllig entnommen sein. Das bedeutet, dass {1, 2, . . . , N } mit gleicher Wahrscheinlichkeit in der Stichprobe vorkommen kann P (nj |n1 , n2 , . . . , nj 1 , N, L, B ) = 1 (nj N ) N j+1 ,
da es fr die Seriennummer nj noch N j + 1 mgliche Werte gibt, da durch die Seriennummern n1 , n2 , . . . , nj 1 bereits j 1 Nummern von N vergeben sind. Die N j + 1 Mglichkeiten haben alle dieselbe Wahrscheinlichkeit. Damit ist die Likelihood-Funktion
L
P (n1 , n2 , . . . , nL |N, L, B ) =
j =1
1 (nj N ) N +1j (N L)! N!
= (N nmax )
Hierbei ist nmax = maxj nj die grte Seriennummer in der Stichprobe. Die PriorWahrscheinlichkeit P (N |L, B ) enthlt nur die Bedingung, dass die Stichprobe den
111
Umfang L hat. Das bedeutet, dass N L sein muss. Wir werden einen Maximalwert Nmax einfhren, den wir am Ende der Rechnung nach Unendlich gehen lassen P (N |L, B ) = 1 Nmax L (L N < Nmax ) .
Damit ist die gesuchte Wahrscheinlichkeit P (N |n1 , n2 , . . . , nL , L, B ) = (N L)! 1 (nmax N < Nmax ) Z N! Nmax (N L)! Z = . N! N =n
max
Um ohne Computer weiterzukommen, gehen wir davon aus, dass nmax sind die Werte fr N ebenfalls sehr viel grer als L und wir knnen (N L)! N! N L
L. Dann
verwenden. Die Normierungskonstante Z lsst sich dann nherungsweise berechnen, indem wir die Summe durch ein Integral ersetzen
Nmax L
Z
N =nmax
N L+1 dN = L1
nmax Nmax Nmax
L+1 n max L1
Das fhrt zu P (N |n1 , n2 , . . . , nL , L, B ) = (nmax N < ) N L L+1 n max /(L 1) .
Die Wahrscheinlichkeit fr N im Lichte der Stichproben-Information hat ihr Maximum beim kleinsten erlaubten Wert N = nmax und fllt von da wie N L ab. Der Mittelwert liegt bei N = 1 Z 1 Z
N =nmax L+2 L 1 n max L+1 L 2 Nmax n max L1 1 = nmax = nmax 1 + L2 L2 Nmax
N N L
N =nmax Nmax
N L+1 dN
112
Das Ergebnis macht erst Sinn fr L > 2. Fr kleinere Stichproben hngt die PosteriorWahrscheinlichkeit vom Cutoff Nmax ab, und fr Nmax existiert weder die Norm noch das erste Moment. Wir wollen die Verteilungsfunktion untersuchen
N
F (N ) :=
N =nmax
P (N |n1 , n2 , . . . , nL , L, B )
N
L1 (N nmax ) L+1 nmax = (N nmax ) F (N ) = (N nmax ) L1 L+1 n max 1
N
nmax L+1 n max
dN
N L+1 L1
L1
nmax N
Damit z.B. 90% der Wahrscheinlichkeitsmasse abgedeckt ist, muss sein. Daraus folgt N = nmax (0.1)1/(L1) = nmax (10)1/(L1) .
nmax L1 N
= 0.1
Fr eine Stichprobe vom Umfang L = 10 bedeutet das, N = 1.29 nmax . Mit einer Wahrscheinlichkeit von 0.9 liegt N im Intervall N [nmax , 1.29 nmax ].
8.6.6
Anzahl der Fische
Wir hatten in einem frheren Kapitel folgendes Problem diskutiert. In einem See benden sich N Fische. Davon werden Nr Fische gefangen, rot gefrbt und wieder in den See zurckgegeben. Nach einiger Zeit werden wieder n = Nr Fische gefangen. Davon sind nr rot. Wir hatten damals die Wahrscheinlichkeit berechnet, dass sich in der Stichprobe nr rote Fische benden, wenn das Verhltnis der roten Fische im See q = Nr /N bekannt ist. Wir wollen nun der wesentlich interessanteren Frage nachgehen, wie wir aus der Stichprobe auf die Zahl N der Fische im See schlieen knnen. Die gesuchte Wahrscheinlichkeit ist also P (N |nr , n = Nr , Nr , B ) zu den Propositionen N : Die Zahl der Fische im See ist N . Nr : Die Zahl der roten Fische im See ist Nr . n: Die Stichprobe hat den Umfang n = Nr . nr : In der Stichprobe benden sich nr rote Fische.
113
x 10
x 10
nr = 2
N ( 362,2560)
nr = 3
N ( 280,1309)
0 0.01
1000
2000
0 0.01
1000
2000
nr = 5
N ( 197,608)
nr = 10
N ( 118,235)
0 0.01
1000
2000
0 0.01
1000
2000
nr = 20
N ( 69,96)
nr = 40
N ( 40,41)
1000
2000
1000
2000
Abbildung 8.1: Wahrscheinlichkeit P (N |nr , n = Nr , Nr , B ) als Funktion von N fr den Fall Nr = 40 und n = Nr = 40. Zustzlich angegeben ist das Intervall, in dem die Wahrscheinlichkeit grer ist als ein e-tel des Maximalwertes. Nach dem Bayesschen Theorem gilt 1 P (nr |N, n = Nr , Nr , B ) P (N |n = Nr , Nr , B ) . Z Der Normierungsnenner Z hngt nicht von N ab und wird nachtrglich bestimmt. Der erste Faktor P (nr |N, n = Nr , Nr , B ) ist die bereits bestimmte VorwrtsWahrscheinlichkeit, in einer Stichprobe vom Umfang n = Nr , nr rote Fische zu haben, wenn q = Nr /N bekannt ist. Das ist die hypergeometrische Verteilung P (N |nr , n = Nr , Nr , B ) = P (nr |N, n = Nr , Nr , B ) =
Nr nr N Nr nnr N n
.
n=Nr
Die Prior-Wahrscheinlichkeit P (N |n = Nr , Nr , B ) hngt nun davon ab, was wir ber die Zahl der Fische im See wissen. Sie ist zumindest grer als Nr . Wenn wir sonst nichts wissen, setzen wir 1 P (N |n, Nr , B ) = (Nr N < Nmax ) Nmax Nr an. Nmax ist die Maximalzahl, die wir entweder abschtzen knnen oder am Ende der Analyse nach Unendlich gehen lassen. Spter werden wir bessere Methoden, uninformative Wahrscheinlichkeitsverteilungen zu bestimmen, kennenlernen. Damit ist die gesuchte Wahrscheinlichkeit 1 P (N |n, nr , Nr , B ) = (0 N < Nmax ) Z
N Nr Nr nr N Nr
114
Das erste Argument der -Funktion ist hier auf Null gesetzt worden, da der Likelihood-Anteil ohnehin verschwindet, wenn N < 2Nr nr . Alle N -unabhngigen Anteile sind in Z zusammengefasst. Wenn in der Stichprobe kein roter Fisch enthalten ist (nr = 0), dann geht die Wahrscheinlichkeit fr N gegen 1. Das heit, dieses Ergebnis wird vom Cutoff Nmax bestimmt und ist somit nicht sehr aussagekrftig. Das ist natrlich verstndlich, denn nr = 0 ist kompatibel mit N = . Fr nr = 1 geht die Wahrscheinlichkeit fr N wie 1/N . Hierbei spielt der Cutoff schon keine so groe Rolle mehr. Er ist zwar fr die Normierung wichtig, aber wir knnen bereits das Maximum der Verteilung bestimmen und die Punkte, an denen die Verteilung auf ein e-tel abgefallen ist. Fr nr > 1 ist der Cutoff irrelevant und kann auf unendlich gesetzt werden. In Abbildung 8.1 sind die Wahrscheinlichkeiten zu n = Nr = 40 fr verschiedene Werte von nr aufgetragen. Man erkennt, dass die experimentellen Daten mit zunehmendem nr immer aussagekrftiger werden. Man kann diese Analyse auch verwenden, um das Experiment zu planen. Das heit, den Umfang der Stichprobe so zu whlen, dass belastbare Ergebnisse herauskommen, sprich, dass die Varianz mglichst klein ist.
8.6.7
Beste Auswahl aus N Vorschlgen
Wir betrachten nun folgendes Problem. Es wird nacheinander N Vorschlge geben. Maximal einen davon knnen wir akzeptieren. Bei jedem Ereignis mssen wir uns entscheiden, ob wir akzeptieren oder verwerfen. Diese Entscheidung ist endgltig. Die Ereignisse sind alle durch eine Zufallszahl xi (i = 1, . . . , N ) derselben Verteilung p(x) charakterisiert. Welches ist die beste Strategie, um einen mglichst hohen Wert zu akzeptieren? Sollen wir den erstbesten Vorschlag akzeptieren? Eine mgliche Strategie ist, von den N Vorschlgen die ersten L als Lernphase aufzufassen. Die ersten L Vorschlge sollen den Maximalwert haben. Von den nchsten K = N L 1 Vorschlgen akzeptieren wir den ersten, der grer-gleich ist. Wenn davon keiner das Kriterium erfllt, nehmen wir den letzten Vorschlag xN . Wir wollen uns zunchst berlegen, wie die Wahrscheinlichkeitsdichte p(R|N, L, B ) der so erzielten Resultate R aussieht R : Der Wert des akzeptierten Vorschlags ist R. Welche Propositionen mssen wir einfhren, um die Wahrscheinlichkeit eindeutig angeben zu knnen? Wir bentigen den Maximalwert der ersten L Vorschlge, die Werte der Zufallszahlen xL+1 , . . . , xL+K und den der letzten Zufallszahl xN . Um die Indizes bersichtlich zu halten, nennen wir yi = xL+i , z = xN i = 1, 2, . . . , K .
115
Die Marginalisierungsregel liefert demnach p(R|N, L, B ) = d dy K dz p(R|N, L, , y1 , . . . , yK , z, B ) . (8.40)
p( |N, L, B ) p(y1 , y2 , . . . , yK |N, L, B ) p(z |N, L, B )
Es wurde bereits ausgenutzt, dass die Zufallszahlen x1 , x2 , . . . , xN unkorreliert sind. Es gilt weiter p(y1 , y2 , . . . , yK |N, L, B ) = p(y1 ) . . . p(yK ) p(z |N, L, B ) = p(z ) . Fr die Dichte p( |N, L, B ) ist N irrelevant, d.h p( |N, L, B ) = p( |L, B ). Nun mssen wir noch p(R|N, L, , y1 , . . . , yK , z, B ) ermitteln. Der Wert R ist gleich y1 , wenn y1 , sonst ist er gleich y2 , wenn y2 etc. Wenn kein yi ist R = z . Auf eine mathematische Formel gebracht, heit das
K j 1
p(R|N, L, , y1 , . . . , yK , z, B ) =
j =1
(R yj ) (yj )
i=1 K
(yi < )
+ (R z )
j =1
(yj < )
Einsetzen in Gl. (8.40) liefert

K
p(R|N, L, B ) =
j =1 j 1
d p( |L, B )
dyj (R yj ) (yj ) p(yj )
i=1
dyi p(yi ) (yi < )

K
dz p(z ) . (8.41)
d p( |L, B )
dz (R z ) p(z )
j =1
dyj p(yj ) (yj < )
Die Integrale sind leicht auszuwerten

K j 1
p(R|N, L, B ) =
j =1
d p( |L, B ) (R ) p(R)
i=1 K
F ( )
d p( |L, B ) p(R)
j =1 K R
F ( )
= p(R)
j =1
d p( |L, B ) F ( )j 1 d p( |L, B ) F ( )K .
+ p(R)
116
Die Wahrscheinlichkeitsdichte des Maximalwertes von L Zufallszahlen werden wir im Abschnitt 9.3 Gl. (9.5) kennen lernen. Damit vereinfacht sich das Ergebnis zu
K 1 R
p(R|N, L, B ) = L p(R)
j =0
d p( ) F ( )L1 F ( )j d p( ) F ( )L1 F ( )K
K 1 R
+ L p(R) = L p(R)
d p( ) F ( )L+j 1
j =0
d p( ) F ( )L+K 1
Wegen L + K = N 1 ist K = N L 1, und somit gilt

N L2 R
p(R|N, L, B ) = L p(R)
j =0
d p( ) F ( )L+j 1 (8.42) . d p( ) F ( )N 2
Wir betrachten nun den Spezialfall gleich-verteilter Zufallszahlen auf dem Einheitsintervall p(x) = (0 x < 1) Die kumulative Wahrscheinlichkeit ist
x
F (x) = (0 x < 1)
0
dx = x (0 x < 1)
Damit wird aus Gl. (8.42)

N L2 R 1
p(R|N, L, B ) = L (0 R < 1)
j =0 N L2 0
d L+j 1 +
0
d N 2
= L (0 R < 1)
j =0
RL+j 1 + L+j N 1
Nach dieser lngeren Rechnung ist es ratsam zu testen, ob die Normierung noch
117
stimmt.
1 N L2 1 0
p(R|N, L, B ) dR = L
0 j =0 N L2
RL+j 1 dR + L+j N 1
dR
0
=L
j =0 N L2
1 1 + (L + j )(L + j + 1) N 1 1 1 L+j L+j+1 + 1 N 1 = 1 .
=L
j =0
=L
1 1 1 + L L+N L2+1 N 1
Das ist schon einmal beruhigend. Als nchstes bestimmen wir den Erwartungswert
1
R =
0
R p(R|N, L, B ) dR
N L2 1 0
=L
j =0 N L2
RL+j +1 1 dR + L+j N 1
R dR
0
=L
j =0
1 1 + (L + j )(L + j + 2) 2(N 1) 1 1 L+j L+j+2 + 1 N 1
= =
L 2
N L2
j =0
L 1 1 1 1 1 + + 2 L L+1 L+N L1 L+N L N 1 1 1 L = 2 . 2 L+1 N
Das Ergebnis ist korrekt fr L = 0. In diesem Fall ist das Maximum der Lernphase = 0, da die Lernphase die Lnge Null hat. Das bedeutet, der erste Wert wird akzeptiert und der Mittelwert hiervon ist 1/2. Ebenso muss bei L = N 1 der nchste und letzte Vorschlag akzeptiert werden. Deshalb ist auch hierbei der Mittelwert 1/2. Das Maximum des mittleren Gewinns als Funktion von L ergibt sich aus 1 1 R(L) = =0 2 L (L + 1) N Das Maximum liegt also bei L = N 1 . .
Der maximale mittlere Gewinn ist demnach 1 N 1 1 1 1 =1 + R(L ) = 2 2N N 2 N N
118
0.8
0.6
<R>
0.4
0.2
0 0
10 L
*
20
30
40
50
Abbildung 8.2: Erwarteter Gewinn mit der im Text beschriebenen Strategie und einer Lernphase der Lnge L als Funktion von L mit N = 50. Die durchgezogene Kurve stellt die berechneten Ergebnisse dar, die mit denen der Computersimulation (Kreise+Fehlerbalken) zu vergleichen sind.
119
120
Kapitel 9 Kontinuierliche Variablen

Bisher haben wir uns fast ausschlielich mit diskreten Problemen beschftigt, wie z.B. Wrfelprobleme, Mnzwurf, Urnenprobleme etc. Viele Probleme sind jedoch kontinuierlicher Natur.
9.1
Verteilungsfunktion und Dichtefunktion
Die einfachste Mglichkeit, kontinuierlichen Variablen in die Wahrscheinlichkeitstheorie einzufhren, bietet die Verteilungsfunktion. Def. 9.1 (Verteilungsfunktion) Unter der Verteilungsfunktion versteht man die Wahrscheinlichkeit F (x) = P (x x|B ) , dass eine Zufalls-Variable x Werte kleiner oder gleich x annimmt. Man nennt die Verteilungsfunktion auch kumulative Wahrscheinlichkeit. Daneben deniert man die Dichtefunktion (Wahrscheinlichkeitsdichte) Def. 9.2 (Wahrscheinlichkeitsdichte) Das ist die Ableitung der Verteilungsfunktion nach der Zufalls-Variablen d p(x) = F (x) . dx Nach der Denition der Ableitung ist p(x) dx = F (x + dx) F (x) = P x < x x + dx|B .
Das heit die Wahrscheinlichkeitsdichte ist die Wahrscheinlichkeit, dass die ZufallsVariable x Werte aus dem innitesimalen Intervall dx bei x annimmt, dividiert durch die Intervall-Gre dx. Die Wahrscheinlichkeitsdichte lsst sich sofort auf hhere Dimensionen x Rn verallgemeinern. Sie ist dann die Wahrscheinlichkeit, dass die
121
Zufalls-Variable Werte aus dem innitesimalen Volumen dVx bei x annimmt, dividiert durch das Volumen. Man kann in einer Dimension umgekehrt aus der Wahrscheinlichkeitsdichte leicht die Verteilungsfunktion berechnen
x
F (x) =
p(x ) dx
Fr mehrere Dimensionen ist dieser Ausdruck entsprechend zu erweitern. Wir werden diesen Fall im Weiteren aber nicht bentigen. Die Verteilungsfunktion und die Dichtefunktion lassen sich auch fr diskrete Probleme denieren. Das bietet eine Mglichkeit, alle Probleme als kontinuierliche Probleme zu behandeln. Die Werte der Zufalls-Variablen seien xk (k = 0, 1, . . . , N ), mit den Wahrscheinlichkeiten Pk . Die Verteilungsfunktion F (x) ist dann die Wahrscheinlichkeit, dass der Wert der Zufalls-Variablen xk kleiner oder gleich als x ist
N
F (x) = P (xk x|B ) =

k=0 xk x
Pk
(9.1)
Die Wahrscheinlichkeitsdichte p(x) ist

N
p(x) =
k=0
Pk (x xk )
(9.2)
wie man durch Einsetzen verizieren kann

x N x N
F (x) =
p(x) dx =
k=0
Pk
(x xk ) dx =
k=0 xk x
Pk
( xk x)
9.1.1
Beispiel eines kontinuierlichen Problems
Es werden zufllig Teilchen auf ein kreisfrmiges Target geschossen. Es ist sichergestellt, dass alle Teilchen innerhalb des Radius R landen. Wir suchen die Wahrscheinlichkeit, dass die Teilchen innerhalb des Kreises vom Radius r R angetroffen werden. Die gnstigen Ereignisse haben die Flche r2 . Die gesamte Flche betrgt R2 . Somit ist die gesuchte Wahrscheinlichkeit x0 0 x2 . F (x) = P (x < x|B ) = R2 0 x R 1 R<x
122
Es soll hier noch einmal die Bedeutung des Bedingungskomplex erklrt werden. B enthlt hierbei z.B. die Information, dass der Abstand vom Radius nicht grer als R werden kann, und dass alle Punkte auf dem Kreis vom Radius R gleich wahrscheinlich sind. Die Wahrscheinlichkeitsdichte erhalten wir aus der Ableitung der Verteilungsfunktion x0 0 d x p(x|B ) = . F (x) = 2 0<xR R2 dx 0 R<x Die Wahrscheinlichkeit, in den innitesimale Kreisring mit Radius x [x, x + dx) zu treffen, ist Null fr nicht erlaubte Radien, also fr x < 0 oder x > R. Fr erlaubte Radien steigt diese Wahrscheinlichkeit mit der Flche der Kreisrings, also mit x linear an. In Abbildung 9.1 sind die Verteilungsfunktion und die Wahrscheinlichkeitsdichte
F(x) R p(x)
Abbildung 9.1: Verteilungsfunktion und Wahrscheinlichkeitsdichte des Target-Problems. dargestellt.
9.1.2 Beispiel eines diskreten Problems

Wir betrachten ein Bernoulli-Experiment mit n = 6 Wiederholungen und einer Einzel-Wahrscheinlichkeit p = 1/2 fr das Auftreten eines Ereignisses E . Die Wahrscheinlichkeit, dass das Ereignis k -mal auftritt, ist durch die Binomial-Verteilung gegeben 6 P (k |n = 6, p = 1/2) = 26 . k Die Verteilungsfunktion lautet dann gem Gl. (9.1)
N
F (x) = P (k x|B ) = 26
k=0 kx
6 k
123
Die Wahrscheinlichkeitsdichte erhalten wir aus Gl. (9.2)

6
p(x|B) = 2
6 k=0
6 k
(x k )
Dichte- und Verteilungsfunktion der Bernoulli-Verteilung sind in Abbildung 9.2 dargestellt.

2
p(x)
p(x), F(x)
F(x)
Abbildung 9.2: Dichte- und Verteilungsfunktion der Bernoulli-Verteilung fr n = 6 und p = 1/2. Die -Funktionen in der Wahrscheinlichkeitsdichte wurden durch normierte GauFunktionen endlicher Breite approximiert, um eine graphische Darstellung zu ermglichen. Die Punkte sollen andeuten, dass die Intervalle links abgeschlossen und die rechts offen sind.
9.2
Weitere Denitionen
9.2.1 Denition von Mittelwert, Momenten und marginaler Verteilung

In Kapitel 2 haben wir fr diskrete Zufallsvariablen den Mittelwert und die Momente deniert. Analog denieren wir Def. 9.3 (Mittelwert einer kontinuierlichen Zufallsvariable) Gegeben sei eine Zufallsvariable X und die dazugehrige Wahrscheinlichkeitsdichte p(X = x) = p(x). Dann deniert man als
124
M ITTELWERT EINER KONTINUIERLICHEN Z UFALLSVARIABLE
X :=
x p(x) dx
(9.3)
Wieder schreiben wir in Zukunft x anstatt X . M ITTELWERTE VON F UNKTIO NEN von Zufallsvariablen und MARGINALE V ERTEILUNG deniert man analog zu Gl. (2.12) und (2.11), Summen sind durch Integrale zu ersetzen. Die Denitionen der M OMENTE knnen wir wrtlich aus Kapitel 2 bernehmen, es muss nur auf die korrekte Mittelwertbildung geachtet werden.
9.2.2
Denition einer Stichprobe
In der Praxis kennt man oft die theoretische Verteilung von gewnschten (Mess)Gren nicht. Einzelne Realisierungen davon sind aber durchaus (experimentell) zugnglich. Sie spielen daher eine zentrale Rolle beim Analysieren unbekannter Verteilungen. Def. 9.4 (Stichprobe) X sei eine Zufallsvariable mit einer Verteilungsfunktion x F (x). L unabhngige Feststellungen (z.B. Ergebnisse von Experimenten) x1 , x2 , . . . , xL ber die Zufallsvariable X heien eine Stichprobe vom Umfang L.
9.3
Ordnungs-Statistik
Wir betrachten folgende Aufgabenstellung. Gegeben sei eine Stichprobe vom Umfang L von identisch unabhngig verteilten (i.u.v.) (englisch i.i.d.) kontinuierlichen Zufallszahlen der Wahrscheinlichkeitsdichte (x). Die zugehrige Verteilungsfunktion sei F (x). Die Elemente der Stichprobe werden nach ansteigendem Wert sortiert s1 s2 . . . sk sk+1 . . . sL .
Wir suchen die Wahrscheinlichkeit P (sk (x, x + dx)|L, , B ), dass das k -te Element sk der sortierten Liste im Intervall (x, x + dx) liegt. Dazu mssen drei Propositionen gleichzeitig erfllt sein A: k 1 Elemente sind kleiner-gleich x. B : L k Elemente sind grer-gleich x. C : Ein Elemente liegt im Intervall (x, x + dx)
125
Die Wahrscheinlichkeit, dass ein Element kleiner ist als x, ist durch die Verteilungsfunktion p1 = F (x) gegeben. Entsprechend ist die Wahrscheinlichkeit, dass ein Element grer-gleich x ist, p2 = (1 F (x)). Schlielich ist die Wahrscheinlichkeit, ein Element in (x, x + dx) anzutreffen, p3 = (x) dx. Es handelt sich im Prinzip um das Problem, L Teilchen auf drei Boxen zu verteilen, von denen die EinzelWahrscheinlichkeiten p sind. Wie gro ist die Wahrscheinlichkeit, in der ersten Box k 1, in der zweiten L k und in der dritten Box ein Teilchen anzutreffen. Die Lsung ist die Multinomial-Verteilung (siehe Gl. (3.11a)) O RDNUNGS -S TATISTIK , ORDER
STATISTICS
P (sk (x, x + dx)|L, , B ) L! F (x)k1 (1 F (x))Lk (x) dx = (k 1)!(L k )!

dF (x)
. (9.4)
9.3.1
Wahrscheinlichkeitsverteilung von Maximalwerten
Wir betrachten L Zufallszahlen x1 , x2 , . . . , xL einer Wahrscheinlichkeitsdichte p(x). Wir fragen nach der Wahrscheinlichkeitsdichte der dabei auftretenden Maximalwerte p( |L, B ) .
Diese Wahrscheinlichkeit ist nichts anderes als die Ordnungs-Statistik fr k = L. Die gesuchte Wahrscheinlichkeit ist demnach M AXIMA -S TATISTIK p( |L, B ) = L p( ) F ( )L1 . (9.5)
F (x) ist die Verteilungsfunktion zur Wahrscheinlichkeitsdichte p(x) ist. Wir illustrieren das am Spezialfall gleich-verteilter Zufallszahlen. In diesem Fall ist die Wahrscheinlichkeitsdichte p(x) = (0 x 1) und die Verteilungsfunktion F (x) = (0 x 1) x. Die Maximalwert-Wahrscheinlichkeit ist somit p( |L, B ) = L (0 x 1) L1 .
126
Der Erwartungswert der Maxima ist dann

1 1
=
0
p( |L, B ) d = L
0
L d =
L 1 =1 L+1 L+1
(9.6)
Diese berlegungen knnen leicht auf dem Computer simuliert und getestet werden. Es werden L Zufallszahlen erzeugt, daraus das Maximum bestimmt und das Ganze M mal wiederholt um Mittelwert und Standardfehler zu ermitteln. Die Ergebnisse sind in Abbildung 9.3 als Funktion von L dargestellt.
1
0.8
0.6
< Max>
0.4
0.2
0 0
10
20
30
40
50
Abbildung 9.3: Mittelwert der Maxima von L gleich-verteilten Zufallszahlen als Funktion von L. Die durchgezogene Kurve stellt die berechneten Ergebnisse dar, die mit denen der Computersimulation (Kreise+Fehlerbalken) innerhalb der Fehlerbalken bereinstimmen.
9.4
Gngige Wahrscheinlichkeitsverteilungen
9.4.1 Gleich-Verteilung im Intervall [a, b]

Fr die Gleich-Verteilung im Intervall [a, b] fhren wir die erweiterte Stufenfunktion ein 1 p(x|a, b) = (a x b) . ba Der Mittelwert ist offensichtlich (b + a)/2, und die Varianz erhalten wir aus x
2
1 = ba
x2 dx =
a
b 3 a3 a2 + ab + b2 = 3(b a) 3
Damit ist die Varianz var(x) = a2 + ab + b2 (a + b)2 (b a)2 = 3 4 12 .
127
G LEICH -V ERTEILUNG
Def.bereich:
x [a, b] (9.7a) (9.7b) (9.7c) (9.7d)
1 ba xa Fg (x|a, b) : = ba pg (x|a, b) = a+b 2 (b a)2 var(x) = 12 x =
Besonders prominent ist die Gleich-Verteilung auf dem Einheitsintervall pg (x|0, 1) mit Mittelwert 1/2 und Varianz 1/12. Hierfr gibt es in jeder vernnftigen Programmiersprache einen P SEUDO -Z UFALLSZAHLEN-Generator, der i.d.R. RND oder RAND heit.
9.4.2
-Verteilung
Im Zusammenhang mit Bernoulli-Problemen spielt die -Verteilung eine wichtige Rolle.
128
-V ERTEILUNG
Def.bereich:
x [0, 1] (9.8a) (9.8b) (9.8c) (9.8d)
1 x1 (1 x)1 B (, ) x 1 F (x|, ) : = p1 (1 p)1 dp B (, ) 0 p (x|, ) = + x (1 x ) var(x) = ++1 x =
Der Normierungsfaktor B (, ) ist das -Integral bzw. die -Funktion.
-F UNKTION UND UNVOLLSTNDIGE -F UNKTION

1
B (, ) :=
0 x
p1 (1 p)1 dp = p1 (1 p)1 dp
0
() () ( + )
(9.9a) (9.9b)
B (x; , ) :=
Die unvollstndige -Funktion ist bis auf die Normierung gleich der Verteilungsfunktion der -Verteilung.
Die Kenngren Mittelwert und Varianz der -Verteilung lassen sich leicht mit Gl.
129
(9.9a) bestimmen
1
x =
0
x p (x|, ) dx B ( + 1, ) ( + 1) () ( + ) = = B (, ) () () ( + + 1) +
x2 =
B ( + 2, ) ( + 2) () ( + ) = B (, ) () () ( + + 2) ( + 1) = . ( + ) ( + + 1)
Hieraus erhlt man die Varianz var(x) = x2 x

2
x (1 x ) ++1
In Abbildung 9.4 ist die Verteilungsfunktion und die Dichte der -Verteilung abgebildet. Die Parameter , wurden so gewhlt, dass x = .5 und var(x) = 0.01, 1/12, 0.2. Der Wert var(x) = 1/12 ist insofern ausgezeichnet, als dass die Varianz der GleichVerteilung auf dem Einheits-Intervall ist. Fr kleinere Werte der Varianz besitzt die Beta-Dichte ein Maximum bei x = 1/2. Um eine grere Varianz als die der GleichVerteilung zu erreichen, muss die Dichte an den Rndern divergieren. Fr x = 1/2 ist 1 1 1 . == 2 4var(x)
4 4 4
(x;,), B(x;,)
(x;,), B(x;,)
(x;,), B(x;,)
0 0
0.5
0 0
0.5
0 0
0.5
Abbildung 9.4: Verteilungsfunktion (durchgezogene Linie) und Dichte (gestrichelte Linie) der -Verteilung. Die Parameter , wurden so gewhlt, dass x = 1/2 und var(x) = 0.01, 1/12, 0.2. Wir knnen die Beta-Funktionen verwenden, um die kumulative Wahrscheinlichkeit der Bernoulli-Verteilung anzugeben1
1
Den Beweis ndet man z.B. im Buch von Meschkowski (S.109ff).
130
K UMULATIVE WAHRSCHEINLICHKEIT
n
DER
B ERNOULLI -V ERTEILUNG
F (x|n, p) =
r =0 r<x
n r
pr (1 p)nr (9.10) .
=1
B (p; r + 1, n r) , B (r + 1, n r) mit r < x r + 1, p < 1
Die -Funktionen werden spter bei der Analyse von Urnen-Problemen wiederholt auftreten.
9.4.3
-Verteilung, 2 -Verteilung
Eine weitere sehr wichtige Verteilung ist die -V ERTEILUNG
Def.bereich:
x [0, ) 1 x x e ()
x
p (x|, ) =
(9.11a) (9.11b)
F (x|, ) : = ()
0
t1 e t dt
var(x) = 2 x =
(9.11c) (9.11d)
131
Mittelwert und Varianz der -Verteilung lassen sich leicht berechnen
x =
0
x p (x|, ) dx =
()
x(+1)1 e x dx
0
1 = (x)(+1)1 e x d(x) () 0 1 = z (+1)1 ez dz () 0 ( + 1) = = ()
var(x) =
2 x(+2)1 e x dx () 0 ( + 2) 2 ( + 1) = = 2 2 ()
In Abbildung 9.5 ist die Verteilungsfunktion und die Dichte der -Verteilung fr = 4 abgebildet. Der Parameter geht nur in der Skalierung der x-Achse in der Kombination x ein. Fr 0 < < 1 besitzt die -Dichte eine Divergenz bei x = 0, fr = 1 ist sie identisch der Exponential-Funktion und fr > 1 besitzt sie ein Maximum bei x = 1. Die kumulative Wahrscheinlichkeit der -Verteilung ist die auf
1 (x;,), F(x;,)
= 0.1 F(x;,)
1 (x;,), F(x;,)
=1 F(x;,)
1 (x;,), F(x;,)
=4 F(x;,)
0.5
0.5
0.5
(x;,)
(x;,)
(x;,)
0 0
10
0 0
10
0 0
10
Abbildung 9.5: Verteilungsfunktion und Dichte der -Verteilung fr = 0.1, 1, 4.
Eins normierte unvollstndige -Funktion
F (x) =
( x; ()
132
-F UNKTION UND UNVOLLSTNDIGE -F UNKTION
() :=
0 x
t1 et dt t1 et dt
0
(9.12a) (9.12b) (9.12c) (9.12d) (9.12e)
(x; ) :=
() = ( 1) ( 1) () = (n 1)! fr n N (1/2) =
Einen Spezialfall ( = n , = 1 ) hiervon stellt die 2 -Verteilung dar 2 2 2 -V ERTEILUNG
Def.bereich:
x [0, )
n
1 2 2 n p2 (x|n) = n x 2 1 e 2 x ( 2 )
(9.13a)
= p (x| = n , = 1 ) 2 2 2 2 F2 (x|n) = n ( 2 ) x =n var(x) = 2n n : Zahl der F REIHEITSGRADE.

n
t 2 1 e 2 t dt
0
(9.13b)
(9.13c) (9.13d)
Wir wollen hier die kumulative Wahrscheinlichkeit der Poisson-Verteilung w(k |) untersuchen k F (x) = e . k! k=0
k<x
hnlich wie im Falle der Bernoulli-Verteilung lsst sich die Summation ber die
133
Poisson-Verteilung ausfhren, und das fhrt zu einem hnlich aussehenden Ergebnis K UMULATIVE WAHRSCHEINLICHKEIT DER P OISSON -V ERTEILUNG F (x) = 1 (; r + 1) , (r + 1) r <xr+1 . (9.14)
Da der Beweis an sich interessant ist, soll er hier vorgefhrt werden. Die Beweisidee ist dieselbe im Fall von Gl. (9.10). Wir gehen aus von der unvollstndigen -Funktion (; ) und erhalten durch partielle Integration daraus die Rekursionsformel

(; + 1) =
0
t et dt =
0
t d t dt
d t e dt et dt
dt
= t et
0
+
0
= Fr > 0 erhalten wir daraus
e + (; ) > 0, 1 e =0
e (, ) (, + 1) = ! ( 1)! ! und somit

r
=0
e e = e + ! ! =1
r
=e
+
=1 r 1
(, ) ( 1)!
=1
(, + 1) !
r
=e
+
=0
(, + 1) !
=1
(, + 1) !
= e +
(, 1) (, r + 1) 0! r! (, r + 1) = e + 1 e ( + 1)
134
9.4.4 Exponential-Verteilung
Ein wichtiger Spezialfall der -Verteilung ist die E XPONENTIAL -V ERTEILUNG. Die Dichte und Verteilungsfunktion der E XPONENTIAL -V ERTEILUNG sind E XPONENTIAL -V ERTEILUNG
Def.bereich:
x [0, ) (9.15a) (9.15b) (9.15c) . (9.15d)
pe (x|) = e x = p (x| = 1, = ) Fe (x|) = 1 e x 1 1 var(x) = 2 x =
9.4.5 Normal-Verteilung
Def. 9.5 (Normal-Verteilung, Gau-Verteilung) Eine Zufalls-Variable heit VERTEILT , wenn die Wahrscheinlichkeitsdichte eine Gau-Funktion ist p(x) = N (x|x0 , ) = 1 2 2 e(xx0 )
2 / 2 2
NORMAL
(9.16)
Der Denitionsbereich ist die gesamte reelle Achse x R. Die Verteilungsfunktion der Normal-Verteilung ist F (x) = = 1 2 2 x x0
x
e(x x0 )
2 /2 2
dx x x0 2 (9.17) .
1 1 = + erf 2 2
Die Denition von ist in Gl. (4.10) gegeben, die von erf in Gl. (4.13). Wahrscheinlichkeitsdichte und kumulative Wahrscheinlichkeit der NormalVerteilung sind in Abbildung 9.6 abgebildet. Die Berechnung der Momente ist hierbei etwas aufwendiger. Der Mittelwert ist wegen der Symmetrie der Gau-Funktion x = x0 . Wir berechnen nun die geraden
135
1
F(x)
p(x), F(x)
0.5
p(x)
0 5
x/
Abbildung 9.6: Wahrscheinlichkeitsdichte und kumulative Wahrscheinlichkeit der bei Null zentrierten Normal-Verteilung.
zentrierten Momente. Die ungeraden Momente sind Null wegen der Symmetrie der Gaufunktion.
(x x0 )n =
1 2 2 2 2 2
0
(x x0 )n e(xx0 ) dz z
2 /2 2
dx
z n+1 ez
2 /2 2
Nun substituieren wir t = z 2 /2 2 . D.h.
dz z
dt 2t
(x x0 )
= (2 ) 2 2 2
n+1 2
t
0
n+1 2
et
dt t
1 = (2 2 )n/2 Hieraus erhalten wir speziell die Varianz (n=2)
n+1 2
1 var(x) = 2 2
3 2
1 2 = 2 = 2 2
136
N ORMAL -V ERTEILUNG N (x|x0 , )
Def.bereich:
xR 1 e(xx0 )
2 /2 2
2 2 x x0 F (x|x0 , ) = x = x0 var(x) = 2
p(x|x0 , ) =
(9.18a) (9.18b) (9.18c) (9.18d)
Varianz-Marginalisierung der Normalverteilung Es kommt in Anwendungen hug vor, dass man zwar wei, dass die Fehler der Messungen normal verteilt sind, aber man kennt die Varianz nicht. Angenommen, man habe N solcher Datenpunkte, die zur Bestimmung einer physikalischen Gre dienen und die alle einen gemeinsamen Messfehler aufweisen. Die Likelihood lautet dann
N
p(d|, , B ) =
i=1
1 2 2
exp
N
( di )2 2 2
N
= (2 )
N/2
1 exp 2 2
( di )2
i=1
Die Summe in der Exponentialfunktion vereinfachen wir, indem wir StichprobenmitN 1 n telwerte dn := N i=1 d einfhren
N N
( di ) =
i=1 i=1
(2 2 di + d2 i)
= N 2 2 N d + N d2 = N ( d)2 N ; d + N d2 = N ( d)2 + (d)2 Damit wird die Likelihood zu p(d|, , B ) = (2 )N/2 N exp N 2 2 d
2 2
+ (d)2
(9.19)
137
Wenn nun die Varianz nicht bekannt ist, bentigen wir stattdessen die marginale Likelihood p(d|, B ), die wir ber die Marginalisierungsregel bestimmen
p(d|, B ) =
0
p(d|, , B ) p( |B) d
(9.20)
Bei handelt es sich um eine Skalenvariable. Falls keine weiter Information vorliegt, ist p( |B ) durch Jeffreys Prior (siehe Kapitel 14) zu quantizieren. Wir wollen hier diesen uninformative Fall annehmen. Da Jeffreys Prior nicht normiert ist, knnen wir die Normierung der marginalen Likelihood nur nachtrglich vornehmen. Das zu bestimmende Integral hat die Form
p(d|, B ) I (; N ) :=
0 2
N 1 e 2 d .
2
(9.21)
Hierbei ist = N d + (d)2 . Durch die Substitution t = 2 Integral auf eine Gamma-Funktion abbilden und liefert schlielich
lsst sich das
I (; N ) :=
0
N 1 e 2 d =
1 (N/2) . 2 N/2
(9.22)
Somit ist die gesuchte marginale Likelihood 1 p(d|, B ) = Z

N/2
(d)2
1 = Z
1+
d (d)2
N/2
Die Normierungskonstante erhalten wir aus Z = Hierzu bentigen wir das Integral 2 s2
N/2
1+
d (d)2
N/2
1+
s2
1 ) ( N 2 . N ( 2 )
(9.23)
Die Normierung Z lautet also Z = (d)2

1 ( N 2 ) . ( N ) 2
138
Damit haben wir das gesuchte Ergebnis M ARGINALE L IKELIHOOD ( N ) 2

1 (d)2 ( N 2 )
p(d|, B ) =
1+
d (d)2
N/2
(9.24)
Wie wir gleich sehen werden ist dies eine Student-t-Verteilung. Interessant ist noch das Verhalten fr N p(d|, B )
N
1 exp 2 2se
d 2 2se
, with
se = (d)2 /N .
(9.25)
9.4.6
Student-t-Verteilung, Cauchy-Verteilung
S TUDENT-t-V ERTEILUNG
Def.bereich:
tR t2 1+
2
1 pt (t| ) : = B( 1 , ) 2 2
1 ( +1) 2
(9.26a)
1 1 1 B (1 + ) ; 2 , 2 Ft ( | ) = 1 1 2 B( 2 , 2)
(9.26b) (9.26c)
t =0 var(t) = , 2 fr > 2
(9.26d)
: Zahl der F REIHEITSGRADE .
Sie entsteht, wenn man aus der Dichte der Normal-Verteilungen pN (x|x0 , ) die Varianz 2 als unbekannt ausintegriert. Sie wird wichtig werden, wenn wir bestimmen wollen, ob zwei Stichproben, die beide einer Normal-Verteilung unbekannter Varianz gengen, denselben Mittelwert haben.
139
Die Verteilungsfunktion berechnet sich wie folgt 1 Ft ( | ) = 1 B( 2 , 2 ) 1 = 1 B( 2 , 2 ) 1 = 1 B( 2 , 2 )

/ 0
t2 1+ 1+x 1+x
2
1 ( +1) 2
dt dx dx
( +1) 1 2
( +1) 1 2
1 + 1 B( 2 , 2 )
1+x
0
( +1) 1 2
dx
Wir gehen davon aus, dass > 0 ist. Wir substituieren = (1 + x2 )1 x= dx = Somit erhalten wir 1 1 1 2 B( 2 , 2 )
1 0 1
2 1/(1+ )
1
1 1 3 2 (1 ) 2 d 2
Ft ( | ) =
2 ( +1) 2 (1 ) 2 d 2 ( +1) 2 (1 ) 2 d 2 1 (1 ) 2 1 d
2 1 1 3 1
1 1 + 1 2 B( 2 , 2 ) 1 1 1 = + 1 2 2 B( 2 , 2 ) 1 1 = + 2 2
1
2 1/(1+ )
1 1 1 B( 2 , 2 )
1/(1+ ) 0
2 1 (1 ) 2 1 d
1 B (1 + =1 2 , ) B( 1 2 2
2 1 1 ) ; 2, 2
Die Cauchy-Verteilung ist ein Spezialfall der Student-t-Verteilung mit = 1.
140
C AUCHY-V ERTEILUNG
Def.bereich:
tR (9.27a) (9.27b) (9.27c) (9.27d)
1 (1 + x2 ) 1 arctan(x) FC (x) = + 2 pC (x) = x =0 var(x) =
Man nennt diese Wahrscheinlichkeitsdichte auch L ORENTZ -F UNKTION. Die Dichte- und Verteilungsfunktion der Cauchy-Verteilung sind in Abbildung 9.7 wiedergegeben.
1
(F,F+dF)
0.5
F(x)
p(x)
0 10
10
(x,x+dx)
Abbildung 9.7: Dichte- und Verteilungsfunktion der Cauchy-Verteilung.
9.4.7 Multivariate Normal-Verteilung

In sehr vielen Anwendungen spielt die Normalverteilung von mehreren Zufallsvariablen (MULTIVARIATE N ORMALVERTEILUNG) eine zentrale Rolle. Die Wahrscheinlichkeitsdichte dieser Verteilung lautet
141
M ULTIVARIATE N ORMAL -V ERTEILUNG
Def.bereich:
x Rn 1 (2 )n |C | e 2 (xx
1 0 )T
pN (x|C, x0 ) := xi = x0 i cov(xi , xj ) = Cij
C 1 (xx0 )
(9.28a) (9.28b) (9.28c)
|C | = det(C )
(9.28d)
Wir werden in diesem Zusammenhang sehr hug Gau-Integrale bentigen.
G AUSS -I NTEGRALE e
1 ((xx0 )T A(xx0 )+2xT b) 2
d x=
(2 ) 2
|A|
e2b
1 T 1 A bbT x0
(9.29)
Zur Berechnung des Mittelwertes xi bentigen wir die marginale Dichte. Wenn die Zufallsvariablen unabhngig sind (p(x1 , . . . , xn ) = p0 (x1 ) . . . p0 (xn )) ist die marginale Dichte pi (xi ) = p0 (xi ). In der Regel sind die marginalen Dichten nicht alle gleich. Die marginale Dichte der multivariaten Normalverteilung lautet
M ARGINALE D ICHTE DER
MULTIVARIATEN
N ORMALVERTEILUNG
pi (x) =
2 (xx0 i) 1 e 2 Cii 2 Cii
(9.30)
142
9.5
Transformationseigenschaften
x y = f (x), x, y Rn ,
Wenn man eine kontinuierliche Variable transformiert
transformiert sich auch das Volumenelement. Wenn wir dasselbe Ereignis in zwei unterschiedlichen Koordinatensystemen x bzw. y beschreiben, sollte gelten
px (x) dVx = py (y ) dVy
(9.31)
da in beiden Fllen die Wahrscheinlichkeit desselben innitesimalen Ereignisse angegeben ist. Somit transformiert sich die Wahrscheinlichkeitsdichte VARIABLEN T RANSFORMATION py (y ) = px (x) xi yj . (9.32)
Die nderung der Volumina wird durch die J AKOBI -D ETERMINANTE x1 x1 x1 . . . y1 y2 yn x x x2 2 2 . . . y1 y2 yn xi = yj . . . . . . . . . xn xn xn . . . yn y1 y2 bercksichtigt.
(9.33)
9.5.1
Beispiele mit einer Variablen

px (x) = (0 < x 1) .
Wir gehen von der Gleich-Verteilung auf dem Einheits-Intervall x (0, 1] aus
Nun gehen wir zu einer neuen Variablen y = ln(x) [0, )
143
ber. Die Umkehr-Transformation lautet x = ey . Wir berechnen die zugehrige Wahrscheinlichkeitsdichte py (y ) py (y ) = px (x) x = ey y x (, ) .
Als weiteres Beispiel betrachten wir eine UNEIGENTLICHE Wahrscheinlichkeitsdichte px (x) = 1 , . Es handelt sich wieder um eine Gleich-Verteilung, nun aber auf der gesamten reellen Achse. Diese Wahrscheinlichkeitsdichte lsst sich nicht normieren. Sie spielt aber, wie wir spter sehen werden, eine wichtige Rolle in Wahrscheinlichkeitstheorie. Um damit rechnen zu knnen muss das Intervall zunchst auf ein endliches Intervall [a, a] eingeschrnkt werden. Am Ende der Rechnung lassen wir dann a gegen unendlich gehen. Wir betrachten nun die Transformation x = ln( ) (bzw. = ex ) fr (0, ). Die Wahrscheinlichkeitsdichte fr ist dann 1 dx p ( ) = px (x) = . (9.34) d Das heit, eine Gleich-Verteilung im Logarithmus wird zu einem 1/ -Verhalten d p ( ) d = . Diese Wahrscheinlichkeitsdichte ist ebenfalls uneigentlich, aber sie besitzt die wichtige Eigenschaft, dass sie S KALEN - INVARIANT ist. Diese Verteilung ist bis auf den unbestimmten Vorfaktor invariant gegen die Transformationen n ,
da diese Transformationen im Logarithmus einer Verschiebung oder Streckung entsprechen. Es wird sich zeigen, dass diese sogenannte J EFFREYS -V ERTEILUNG die korrekte Prior-Wahrscheinlichkeit zur Beschreibung von S KALEN -VARIABLEN ist.
9.5.2
Beispiel mit zwei Variablen
Bei einem zweidimensionalen Problem liege eine Wahrscheinlichkeitsdichte pxy (x, y ) in kartesischen Koordinaten x, y vor Der bergang auf Kreiskoordinaten lautet x = r cos() y = r sin() Die Jakobi-Determinante ist demnach {x, y } = {r, } Das heit pr (r, ) = pxy (r cos(), r sin()) r .
dx dr dy dr dx d dy d
cos() r sin() sin() r cos()
=r
144
9.6
Aufenthaltswahrscheinlichkeit des harmonischen Oszillators
Wir betrachten hier ein Beispiel, bei dem die Transformation nicht ein-eindeutig ist und die obige Formel nicht direkt angewendet werden kann. Es soll die Wahrscheinlichkeitsdichte untersucht werden, ein Teilchen, das sich in einem harmonischen Potential bewegt, am Ort x anzutreffen. Das Koordinatensystem liege so, dass die Gleichgewichtslage des harmonischen Oszillators bei x = 0 ist. Die Auslenkung ist bekanntlich x(t) = A cos(t + ) , (9.35) wobei A die Amplitude, die Frequenz und die Phase zur Zeit t = 0 darstellt. Uns interessiert die Wahrscheinlichkeitsdichte p(x|A, , , B ), das Teilchen bei x anzutreffen. Die Amplitude, die Frequenz und die Phase seien bekannt. Wenn wir ohne Kenntnis des Zeitpunktes wiederholt den Ort messen, erhalten wir die gesuchte Wahrscheinlichkeitsdichte. Wenn zustzlich der Zeitpunkt bekannt wre, htten wir p(x|t, , A, , B ) = (x A cos(t + )) . Mit Hilfe der Marginalisierungsregel schreiben wir p(x|A, , , B ) = = p(x|t, A, , , B ) p(t|A, , , B ) dt (x A cos(t + )) p(t|A, , , B ) dt . (9.36) (9.37)
Die Information ber A, , sagt nichts ber den Zeitpunkt der Messung aus. p(t|A, , , B ) = p(t|B ) Wir transformieren nun die Zufalls-Variable t in = A cos(t + ) um. Diese Abbildung ist eindeutig, aber die Umkehr-Abbildung ist es nicht. Wir knnen die Jakobi-Determinante nicht ohne weiteres anwenden. Stattdessen knnen wir aber die -Funktion transformieren. Es gilt bekanntlich
L
((t)) =
l=1
(t tl )
d(t) dt t=tl
wobei tl , (l = 1, . . . , L) die Nullstellen von (t) sind. Die Nullstellen erfllen im vorliegenden Fall cos(tl + ) = bzw. x A t = ( arccos(x/A) + l 2 ) /, l (9.38) lZ . (9.39)
145
Hierbei ist arccos(x/A) auf das Intervall (0, ] beschrnkt. Die Ableitung von (t) = x A cos(t + ) liefert d(t) = A |sin(t + )| = A dt 1 cos2 (t + ) .
Die Ableitung an der Stelle ti liefert wegen Gl. (9.38) d(t) dt =A

t=tl
x A
Damit ist die gesuchte Wahrscheinlichkeit p(x|A, , , B ) = (|x| A) 1 A2 x 2

p(t+ l |B ) + p(tl |B ) l
(9.40)
Die Theta-Funktion resultiert daher, dass die Nullstellen in Gl. (9.38) nur existieren, wenn |x| A. ber den Zeitpunkt wissen wir nichts, deshalb mssen wir eine konstante Wahrscheinlichkeitsdichte p(t|B ) = c ansetzen. Dieser UNEIGENTLICHE P RIOR hat den Nachteil, dass er nicht normierbar ist. Wir sehen die daraus resultierende Problematik sofort. Wenn wir ein endliches c ansetzen, liefert das Normierungs-Integral U nendlich. Setzen wir c = 0 so ist auch die Normierung Null. Auerdem liefert die Summe in Gl. (9.40) 2 c. Dieses triviale Beispiel ist sehr gut geeignet, die korrekte Vorgehensweise zu demonstrieren. Wir sollten immer einen achen Prior als Grenzwert eines eigentlichen Priors ansetzen und den Grenzbergang ganz am Ende der Rechnung durchfhren. Wenn die gesuchte Wahrscheinlichkeitsdichte existiert und normierbar ist, ist alles in Ordnung. Wenn nicht, ist das Ergebnis so stark vom Prior abhngig, dass auch das Ergebnis eine uneigentliche Wahrscheinlichkeitsdichte liefert. Wir setzen hier p(t|B) = p(t|, B ) . Der Parameter 2 gibt die Varianz der Verteilung an. Am Ende lassen wir gegen Unendlich gehen. Die Nullstelle t i liegen gem Gl. (9.39) quidistant im Abstand t = 2/ . Wir knnen die Summe in Gl. (9.40) auch schreiben als p(x|A, , , , B ) = (|x| A) 1 2 A2 x2
p(t+ l |, B ) + p(tl |, B ) l
Fr werden die Variationen von p(t i |, B ) und somit auch die Ableitungen immer kleiner, und die Summe geht in ein Integral ber 1 lim p(x|A, , , , B ) = (|x| A) 2 2 A2 x2 1 = (|x| A) A2 x 2
p(t|, B ) dt
=1
146
Das gesuchte Ergebnis ist somit A UFENTHALTS -WAHRSCHEINLICHKEIT DES

HARMONISCHEN
O SZILLATORS (9.41)
1 p(x|A, , , B ) = (|x| A) A2 x 2
Wie zu erwarten war, hngt das Ergebnis nicht von der Frequenz und von der Phase ab. Ein anderes Ergebnis wre im Widerspruch dazu gewesen, dass wir den Prior fr die Zeit konstant gewhlt haben. Das Ergebnis kann man mit physikalischen Argumenten wesentlich krzer herleiten. Allerdings werden wir auf die ausfhrliche Ableitung im Zusammenhang mit LaserSpeckle-Phnomenen noch zurckgreifen. Die Rechnung hat auch wesentlichen Elemente einer Rechnung aufgezeigt, die bei komplexen Datenanalyse-Problemen auftreten. Bei der physikalisch begrndeten Herleitung geht man davon aus, dass die gesuchte Wahrscheinlichkeit proportional zur Verweildauer t des Teilchens im betrachteten Intervall (x, x + x) ist P (x (x, x + x)) t = Aus der Oszillatorbewegung folgt x(t) = A cos(t + ) |v (x)| = |x | = | A| | sin(t + )| = |A| 1 cos2 (t + ) = A 1 x A
2
x |v (x)|
Nach der Normierung auf 1 erhalten wir P (x (x, x + dx)) = 1 A 1 dx x 2 1 (A ) .
147
148
Kapitel 10 Der zentrale Grenzwertsatz

Wir gehen von i.u.v. Zufalls-Variablen xn , n = 1, . . . , N einer Wahrscheinlichkeitsdichte (x) aus. Mittelwert und Varianz dieser Verteilung seien := x = var(x) = Wir interessieren uns fr die Summe
N
x (x) dx (x)2 (x) dx .
S=
i=1
ci xi
(10.1)
wobei die ci fest vorgegebene Gewichte sind, mit denen die Zufallszahlen xi in die Summe eingehen. Ziel dieses Kapitels ist es, die Wahrscheinlichkeitsdichte p(S |N, , B ) zu bestimmen. Es bietet sich an, in diesem Zusammenhang die Fouriertransformation einer Wahrscheinlichkeitsdichte (CHARAKTERISTISCHE F UNKTI ON ) einzufhren. Die charakteristische Funktion spielt in vielen Anwendungsgebieten eine wichtige Rolle.
10.1 Charakteristische Funktion

10.1.1 Alternative Beschreibung einer Zufalls-Variablen
Def. 10.1 (Charakteristische Funktion) Wir wollen die charakteristische Funktion gleich fr m-dimensionale Zufalls-Variablen x Rm formulieren.
149
C HARAKTERISTISCHE F UNKTION ( ) =
Rm
dm x (x) ei
Tx
x, Rm
(10.2)
Das T bezeichnet die Transponierte. Das innere Produkt zweier Spatenvektoren und x ist somit T x. Man kann die charakteristische Funktion auch als Erwartungswert ( ) = ei der Zufallsvariablen ei
Tx Tx
(10.3)
betrachten.
Die charakteristische Funktion enthlt dieselbe Information wie die Wahrscheinlichkeitsdichte, da aus ihr die Wahrscheinlichkeitsdichte ber eine inverse FourierTransformation berechnet werden kann p(x) = 1 2
m
dm ( ) ei
Rm
(10.4)
10.1.2
Das Shift-Theorem
Angenommen, wir nehmen an der Zufalls-Variablen eine lineare Transformation vor y = Ax + b ,
wobei A eine (m m)-Matrix und y, b Rm ist. Die charakteristische Funktion hierzu ist T T T T T y ( ) = ei y y = ei (Ax+b) y = ei b ei(A ) x x Das heit
y ( ) = ei
Tb
x (AT ) fr y = Ax + b
(10.5)
10.1.3
Erzeugung von Momenten
Die charakteristische Funktion ist sehr ntzlich als erzeugendes Funktional der Momente der Zufalls-Variablen x. Wir beschrnken uns auf die wichtigsten Spezialflle
150
A) Eindimensionale Zufalls-Variablen x R Die n-te Ableitung der charakteristischen Funktion nach liefert
(n)
( ) = i
dx xn (x) ei x
Daraus folgt xn = in (n) (0) Insbesondere gilt . (10.6)
1 = (0) x = i (1) (0) x

2
(10.7a) (10.7b) (10.7c)
= (0)
(2)
Man kann (0) also auch verwenden, um die Normierung zu bestimmen. Beispiel: -Verteilung Die charakteristische Funktion der -Verteilung lautet
( ) =
dx p (x|, ) ei x
= ()
dx x1 e( i) x
0 ( i )
= ( i )() ()
0
dx x1 ex
Innerhalb des Kreissektors, der durch die Wegstcke C1 = (0 ( i )), C2 = (( i ) ) und C3 = ( 0) aufgespannt wird, liegen keine Pole des Integranden, wenn 1. Demnach gilt dx x1 ex = 0
C1 + C2 + C3
151
Auerdem verschwindet der Integrand auf C2 , so dass

( i )
dx x
0
=
0
dx x1 ex = ()
Damit lautet die C HARAKTERISTISCHE F UNKTION DER -V ERTEILUNG ( ) = i
1i
(10.8)
Es sei daran erinnert, dass die Exponential-Funktion einen Spezialfall der Verteilung darstellt. Offensichtlich ist die Normierung korrekt (0) = 1. Die ersten beiden Ableitungen sind ( ) = () =i
(2) (1)
1i 1i
1 (i )
( ) = i ( 1) = ( + 1) 2
1i 1i
1 (i ) .
Mit Gl. (10.7b) und Gl. (10.7c) erhalten wir die korrekten Ergebnisse fr Mittelwert und Varianz, in bereinstimmung mit Gl. (9.11c) und Gl. (9.11d). Beispiel: Normal-Verteilung Die charakteristische Funktion der Normal-Verteilung berechnet sich aus
( ) =
dx N (x|x0 , ) ei x
1 2 2
dx e 22 ((xx0 )
2 2
i 2 x)
152
Das Argument der Exponential-Funktion lsst sich quadratisch ergnzen (x x0 )2 2 i 2 x = x2 2 x (x0 + i 2 ) + x2 0 2 2 2 = (x (x0 + i )) + ( )2 2 i 2 x0
Wir fhren eine neue Integrationsvariable z = x (x0 + i 2 ) ein. Der Integrationsweg wird dann zu C = ( i 2 i 2 ) ( ) = 1 2 2
2
e((
)2 2 i 2 )/ 2 2 C
dx e 22
2 2
z2
=e
1 2
2 +i
x0
C HARAKTERISTISCHE F UNKTION DER N ORMAL -V ERTEILUNG ( ) = eix0 e 2

1 2
(10.9)
Auch hierbei ist die Normierung korrekt (0) = 1. Nach dem Shift-Theorem ist die charakteristische Funktion der Zufalls-Variablen z = x x0 gegeben durch z ( ) = x ( ) eix0 = e 2
1 2
Die Momente dieser verschobenen Zufalls-Variablen sind gleichzeitig die zentrierten Momente (x x0 )n . Die n-te Ableitung von z ( ) lautet
n) ( z (0)
(1) 2 n (n 1)!! 0
fr gerades n, sonst.
Gem Gl. (10.6) gilt dann

ZENTRALE
M OMENTE DER N ORMAL -V ERTEILUNG n (n 1)!! 0 n gerade, sonst.
(x x0 )n =
(10.10)
153
Man kann die charakteristische Funktion auch fr diskrete Probleme berechnen. Die Wahrscheinlichkeitsdichte einer diskreten Verteilung Pn lautet p(x) =
n
Pn (x xn )
Die charakteristische Funktion ergibt dann ( ) = dx p(x) eix =

n
Pn
dx (x xn ) eix
=
n
Pn eixn
C HARAKTERISTISCHE F UNKTION DISKRETER P ROBLEME ( ) =

n
Pn eixn
(10.11)
Beispiel: Poisson-Verteilung Im Fall der Poisson-Verteilung erhalten wir
( ) = e =e
n=0 (1ei )
n in e = e n! .
n=0
(ei ) i = e e e n!
Wir haben hier den sehr seltenen Fall der Funktion exp(exp(.)) vorliegen. Die Normierung ist korrekt. Die ersten beiden Ableitungen lauten (1) ( ) = e (1e
i )
ei (i)
i )
= i ei e (1e
i ) i )
(2) ( ) = i iei ei + i ei e (1e
= ei2 + ei e (1e
An der Stelle = 0 liefern die Ableitungen (1) (0) = i (2) (0) = ( + 1) .
Das Ergebnis ist wieder in bereinstimmung mit dem, das wir frher abgeleitet hatten.
154
Beispiel: Binomial-Verteilung Die charakteristische Funktion der Binomial-Verteilung lsst sich ebenfalls elementar berechnen.
( ) =
n=0 i
N n
p q
N
(N n)
in
=
n=0
N n
(p ei )n q (N n)
= (p e + q )
Auch in diesem Fall kann leicht gezeigt werden, dass Mittelwert und Varianz mit den alten Ergebnissen bereinstimmen. B) Multivariater Fall x Rm Es soll hier zumindest angegeben werden, dass die charakteristische Funktion auch im multivariaten Fall sehr hilfreich sein kann, ohne dass wir sie spter wirklich verwenden werden. Der Mittelwert der i-ten Komponente folgt wieder aus xi = i ( ) i .
=0
Die Kovarianz-Matrix erhalten wir analog aus xi xj = 2 ( ) i j xi xj

=0
Weitere Details hierzu knnen in den Bchern von R. Frieden oder A. Papoulis nachgelesen werden. Neben der charakteristischen Funktion ist auch p(x) =
n
pn xn
(10.12)
ein ntzliches und weit verbreitetes erzeugendes Funktional, das wir im Zusammenhang mit Poisson-Prozessen noch besprechen werden (siehe Kapitel 12).
10.2 Summe von Zufalls-Variablen

Besonders ntzlich ist die charakteristische Funktion bei der Behandlung von Summen von unabhngigen Zufalls-Variablen
N
S=
n=1
xn
(10.13)
155
Die Zufalls-Variablen xn haben die Dichten pn (x) und die charakteristischen Funktionen n ( ). Die Wahrscheinlichkeitsdichte von S ist p(S |N, B ) = = dN x p(S |x1 , . . . , xN , N, B ) p(x1 , . . . , xN |N, B ) dN x (S
n
xn )
n
pn (xn )
Die zugehrige charakteristische Funktion lautet ( ) = = = =

n
dS p(S |N, B ) eiS dN x dN x ei n ( )

n
dS (S
n xn n
xn ) eiS
n
pn (xn ) dxn ei xn pn (xn )
pn (xn ) =
n
C HARAKTERISTISCHE F UNKTION EINER S UMME VON Z UFALLS -VARIABLEN
S=
n=1 N
xn (10.14) n ( )
n=1
( ) =
Die charakteristische Funktion der Zufalls-Variablen S ist also das Produkt der charakteristischen Funktionen der beteiligten Zufalls-Variablen. Die Wahrscheinlichkeitsdichte von S erhalten wir aus der inversen Fourier-Transformation. Bekanntlich ist die inverse FT eines Produktes die FALTUNG. Wie verschiebt sich der Mittelwert der Summe, wenn der der individuellen Verteilungen um x0 verschoben wurde, so dass x = 0? Wenn wir die Zufalls-Variablen zum Schwerpunkt verschieben, ndert sich die charakteristischen Funktion nach dem Shift-Theorem zu ix0 n n ( ) = 0 . n ( ) e Der obere Index 0 soll andeuten, dass die charakteristischen Funktion zur Wahrscheinlichkeitsdichte mit Mittelwert Null gehrt. Fr die charakteristischen Funktion
156
von S bedeutet das S ( ) = e

i
n
N x0 n n=1
0 n ( ).
Wir kommen nun zum zentralen Grenzwertsatz zurck. Hierbei handelt es sich um die Summe
N
S=
n=1
cn xn
von unabhngigen Zufalls-Variablen. Da die xn unabhngige Zufalls-Variablen sind, sind auch die Gren cn xn mit festen Koefzienten cn unabhngige Zufalls-Variablen. Mittelwert und Varianz der Zufalls-Variablen S kennen wir bereits aus dem Abschnitt ber Fehler-Fortpanzung S =
n
cn c2 n
n
var(S ) =
2 x
Nach Gl. (10.14) hat die Summe demnach die charakteristische Funktion S ( ) =
n
n ( )
Die Zufalls-Variablen xn sind i.u.v. gem der Dichte p(x). Die charakteristischen Funktion zu dieser Dichte sei x ( ) mit Mittelwert . Die neuen Zufalls-Variablen cn xn haben Mittelwert cn . Sie gehen aus den zentrierten i.u.v. Gren x0 n hervor ber cn xn = cn x0 n + cn .
Nach dem Shift-Theorem gilt fr die charakteristische Funktion der Zufalls-Variablen cn xn x (cn ) = eicn 0 . x (cn ) Damit wird aus der charakteristischen Funktion von S S ( ) = ei
n
cn n
0 x (cn )
Wir erkennen in der Phase den Mittelwert S wieder S ( ) = ei S

n
0 x (cn )
(10.15)
Wir knnen auch ausnutzen, dass die Standardabweichung var(S ) eine typische Skala des Problems deniert. Fr die folgenden berlegungen ist es sinnvoll, zu skalierten Gren = S/ var(S ) S
157
berzugehen. Fr die charakteristischen Funktion dieser Gren gilt S ) ( ) = S (/ var(S )) = S (

(10.16)
Wir werden nun das Produkt weiterverarbeiten. Der Logarithmus hiervon ist ln(0 )) x (cn
n
(10.17)
Als nchstes entwickeln wir 0 ) um den Punkt =0 x (cn

0 1 0 +2 ) = 0 0 )2 + 1 )3 + . . . x (0) (cn 0 (0) (cn x (cn x (0) + x (0) cn 6 x (1) (2) (3)
Nun ist 0 x (0) = 1 die Normierung. Der Mittelwert ist proportional zur ersten Ab(1) leitung. Da der Mittelwert Null ist, verschwindet 0 x (0) = 0. Die zweite Ableitung liefert, da der Mittelwert Null ist, bis auf das Vorzeichen die Varianz
2 0 x (0) = x (2)
Fr das dritte Moment fhren wir eine Abkrzung ein

1 0 (3) (0) 6 x
=:
Damit haben wir 0 ) = 1 1 2 (cn )2 + (cn )3 + . . . x (cn 2 x und Gl. (10.17) wird zu ln(0 )) = x (cn
n n
ln 1 ln 1
n
1 2
2 2 c2 + c3 3 + . . . n x n
1 2
2 2 2 x cn 1 cn
2 + ... 2 x
Wir betrachten nur solche Werte von , fr die die Terme der Reihenentwicklung sehr viel kleiner als Eins sind, damit die Reihenentwicklung gerechtfertigt ist. Dann knnen wir auch den Logarithmus entwickeln ln(0 )) = 1 2 2 x (cn 2 x
n n
c2 n c4 n
n
1 cn
2 2 x
2
1 4
4 x
2 1 cn 2 x
+ ...
(10.18)
158
Nun kommt der Grund, warum wir zu den skalierten Gren bergegangen sind, zum Tragen. Die modizierte Frequenz ist = = x var(S )
n
c2 n
.
N n=1
Von den Gewichtsfaktoren cn verlangen wir, dass die Summen fr groe N linear mit N anwachsen
N
c2 n und
N n=1
c3 n
c n = N
n=1
wobei die Gren nicht mehr von N abhngen. Damit haben wir = Dann liefern die einzelnen Terme 1 2 2 2 x
n
x N 2
c2 n
1 cn
2 2 x
1 2 2 = 2 x N 2
23 2 2 x
23 2 N 2 1 2 N 2 x 2 x x N 2 2 23 = 1 2 1 2 2 2 x x N 2 = 1 2 2 x Der zweite Term geht mit 1/ N gegen Null und kann deshalb vernachlssigt werden. Die nchsten Terme in Gl. (10.18) lauten
1 4 4 4 x n
c4 n 1 cn
2 2 x
= =
1 4 1 4
4 4 x n 4 x 4
c4 n + ...
N 4 + . . . 4 4 = 1 N 4 + . . . 4 x 4 2 N 2 x 2 = O(1/N ) . Damit ist der Logarithmus Gl. (10.17) fr festes und groes N 1 )) = 2 ln(0 2 + O(1/ N ) x (cn
n
159
Mit Gl. (10.15) und Gl. (10.16) erhalten wir somit S ( ) = e bzw. S ( ) = ei
S i
var(S )
e 2 = S (
) var(S )
e 2 var(S )
Der Vergleich mit der charakteristischen Funktion der Normal-Verteilung (Gl. (10.9)) zeigt, dass S einer Normal-Verteilung mit Mittelwert S und Varianz var(S ) gengt. Das bedeutet, die Summe von gewichteten Zufallszahlen ist fr groe N normalverteilt Z ENTRALER G RENZWERT-S ATZ Es sei die Zufalls-Variable
N
S=
n=1
cn xn
2 deniert, wobei die xn i.u.v. Zufallsgren mit Mittelwert und Varianz x sind. Die cn sind feste Gewichtsfaktoren, mit der Eigenschaft
1 lim N N Dann gilt

N
c n = = konst.,
n=1
lim p(S |N, B ) = N (S | S , var(S ))

N
S =
n=1 N 2 var(S ) = x n=1
cn c2 n
(10.19)
160
10.2.1 Beispiel: Summe von exponentiell verteilten Zufallszahlen

Wir betrachten hier als Beispiel eine Stichprobe vom Umfang N , deren Elemente exponentiell verteilt sind. In Abbildung 10.1 ist die Wahrscheinlichkeitsdichte p(S |N, B ) fr verschiedene N aufgetragen. Man erkennt, wie das arithmetische Mittel N 1 S = N i xi sich sehr schnell einer Gau-Verteilung annhert. Wir knnen dieses
12 10 8 12 10
p(S)
6 4 2 0 0.2 0 0.2 0.4 0.6 0.8
p(S)
N=1
8 6 4 2 0 0.2 0 0.2 0.4
N=2
0.6
0.8
S
12 10 8 12 10
p(S)
6 4 2 0 0.2 0 0.2 0.4 0.6 0.8
p(S)
N=5
8 6 4 2 0 0.2 0 0.2 0.4
N=10
0.6
0.8
N 1 Abbildung 10.1: Zentraler Grenzwert-Satz fr S = N i=1 xi fr verschiedene N verglichen mit den entsprechenden Gau-Funktionen. Alle xi sind exponentiell verteilt. Man erkennt, dass bereits bei N = 5 eine gute bereinstimmung mit der Gau-Funktion besteht.
Beispiel auch exakt durchrechnen. Die charakteristische Funktion der ExponentialFunktion p(x) = ex ist gem Gl. (10.8) ( ) = i .
Die charakteristische Funktion von S ist dann S ( ) = ( ) =

N
161
Das ist wiederum nach Gl. (10.8) die charakteristische Funktion der -Verteilung. Das heit N p(S |N, B ) = (S |N, ) = . (10.20) S N 1 eS (N ) Diese Funktion kann, wie wir wissen, durch eine Gau-Funktion approximiert werden.
10.2.2
Beispiel: Summe gleichverteilter Zufallszahlen
Nun betrachten wir das arithmetische Mittel von gleichverteilten Zufallszahlen aus N 1 dem Intervall [0, 1]. In Abbildung 10.2 ist das Mittel S = N xi fr verschiedei ne N dargestellt. Im Vergleich mit dem vorigen Beispiel (Abbildung 10.1) wird hier die Gau-Verteilung noch schneller angenommen. Auch die hier auftretenden Wahr4 3 4
N=1 p(S)
3 2 1 0
N=2
p(S)
2 1 0
0.5
0.5
S
4 3 4
N=5 p(S)
3 2 1 0
N=10
p(S)
2 1 0
0.5
0.5
N 1 Abbildung 10.2: Zentraler Grenzwert-Satz fr S = N i=1 xi fr verschiedene N verglichen mit den entsprechenden Gau-Funktionen. Alle xi sind gleichverteilt. Man erkennt, dass bereits bei N = 2 eine gewisse bereinstimmung mit der Gau-Funktion besteht.
scheinlichkeitsdichten kann man exakt berechnen. Als erstes bestimmen wir die charakteristische Funktion der Gleich-Verteilung p(x) = (0 x 1) .
162
Mit Gl. (10.2) erhalten wir

1
( ) =
0
ei x dx =
ei 1 i
(10.21)
Die charakteristische Funktion der Summe S = N i=1 xi ist nach Gl. (10.14) die N -te Potenz von Gl. (10.21). Die Rcktransformation ergibt
1 p(S |N, B ) = 2
ei 1 i
eiS d
N
(i)N = 2 iN = 2
N
N
k=0
N k
eik (1)N k
eiS d
k=0
N k
(1)k
N ei(kS ) d
=:I
Das Integral I lsst sich mit komplexen Methoden berechnen. Wir erhalten I = iN (k S )N 1 sign(k S ) (N 1)! .
Wir knnen die Wahrscheinlichkeitsdichte fr S als (1)N p(S |N, B ) = 2

N
k=0
N k
(1)k
(k S )N 1 sign(k S ) (N 1)!
schreiben. Die Dichte p(S |N, B ) besteht also stckweise aus Polynomen. Fr die ersten paar N erhlt man durch Einsetzen 0 wenn S 0 p(S |N = 1, B ) = 1 wenn 0 < S 1 0 wenn 1 < S 0 wenn S 0 S wenn 0 < S 1 p(S |N = 2, B ) = S + 2 wenn 1 < S 2 0 wenn 2 < S
163
0 1 2 2S p(S |N = 3, B ) = S 2 + 3S 3 2 1 2 9 S 3 S + 2 2 0
wenn S 0 wenn 0 < S 1 wenn 1 < S 2 wenn 2 < S 3 wenn 3 < S
10.2.3
Monte-Carlo-Integration
Der Zentrale Grenzwertsatz bildet die Grundlage fr eine der wichtigsten Methoden der Computersimulation, dem Monte-Carlo-Verfahren. Hiermit kann man eine Vielzahl von Problemen der klassischen Statistik und der Quantenmechanik numerisch simulieren. In der klassischen statistischen Physik ist man an thermodynamischen Erwartungswerten O
T
dm x O(x) p(x)
(10.22)
interessiert. Falls diskreten Freiheitsgrade vorliegen, ist das Integral durch eine Summe zu ersetzen. Die Wahrscheinlichkeitsdichte p(x) hngt nur von der Energie E (x) ab und ist der normierte Boltzmann-Faktor p(x) = 1 E (x)/kT e Z .
Die Problematik der Berechnung liegt darin, dass es sich um extrem hochdimensionale Integrale oder Summen handelt, die nur in den seltensten Fllen exakt berechnet werden knnen. Wir werden nun den Zentralen Grenzwertsatz etwas verallgemeinern. Wir gehen von m-dimensionalen Zufalls-Variablen x Rm aus und denieren zu jedem Vektor x eine ein-dimensionale Zufalls-Variable O(x), die eine eindeutige Funktion von x darstellt. Die Wahrscheinlichkeitsdichte von O ist p(O) = dm x (O O(x)) p(x) .
Mittelwert und Varianz von O lassen sich leicht angeben O = var(O) = dO O p(O) = dm x O(x) p(x) dm x (O(x) O )2 p(x) . (10.23a) (10.23b)
dO (O O )2 p(O) =
Das heit, der Mittelwert von O ist genau das gesuchte Integral. Nun besagt der Zentrale Grenzwertsatz, dass das arithmetische Mittel 1 O= N
N
O(xn )
n=1
164
der Zufallszahlen O(xn ) fr hinreichend groe N einer Normalverteilung gengt
p(O) = N (O| O , var(O)/N )

N 1
Somit kann man umgekehrt hoch-dimensionale Integrale/Summen vom Typ
O =
O(x) p(x) dx
aus einer Stichprobe {x1 , . . . , xN } von Zufallszahlen der Verteilung p(x) durch das arithmetische Mittel approximieren, da ja gilt
1 O = N
O(xn )
n=1
var(O) N
Das arithmetische Mittel ist demnach Gau-verteilt um den Mittelwert der EinzelBeitrge mit einer Varianz, die um den Faktor N reduziert ist. Das erklrt, warum es Sinn macht, zur experimentellen Bestimmung einer Gre, die statistischen Schwankungen unterliegt, das Experiment oft zu wiederholen und daraus das arithmetische Mittel zu bilden. Die Ungenauigkeit des arithmetischen Mittels ist der
S TANDARDFEHLER SF = N . (10.24)
165
10.3
Zentraler Grenzwertsatz: multivariater Fall

Z ENTRALER G RENZWERT-S ATZ
IN M
D IMENSIONEN
Es sei die Zufalls-Variable S Rm 1 S= N

N
xn
n=1
deniert, wobei die xn i.u.v. Zufallsgren mit Mittelwert Rm und Kovarianzmatrix C sind. Dann gilt
N
lim p(S |N, B ) = N (S |, C/N )
(10.25)
166
Kapitel 11 Laser-Speckle
Als anspruchsvollere Anwendung des bisher Gelernten wollen wir LaserSpeckle untersuchen. Laser-Speckle kann man z.B. beobachten, wenn Laser-Licht von einer Wand reektiert wird. Es bilden sich Erscheinungen, in denen das Laser-Licht in zufllige granulare Muster zerbrochen scheint. Es bietet eine interessante Anwendung des Zentralen Grenzwertsatzes und der Transformationstheorie von ZufallsVariablen. Wir gehen davon aus, dass kohrentes Licht auf einen sogenannten Diffuser fllt, der hierbei berall einheitlich und phasengleich ausgeleuchtet werden soll. Der Diffuser ist eine dnne transparente Schicht, deren Dicke zufllig variiert. Das Speckle-Muster ist in allen Ebenen hinter dem Diffuser vorhanden. Wir greifen eine Ebene B heraus und analysieren die komplexe Amplitude A(xB , yB ) des Lichts an einem Punkt xB = (xB , yB ) in dieser Ebene. Wir sind insbesondere an der Intensitt (I ) und der Phase der Speckle interessiert. Diese Gren erhalten wir aus der Amplitude gem
2 I = |A|2 = A2 Re + AIm AIm = arctan( ) . ARe
(11.1) (11.2)
Wir werden zunchst die gemeinsame Wahrscheinlichkeitsdichte p(ARe , AIm |B ) bestimmen und daraus die gesuchten Gren berechnen.
11.1 Das Statistische Modell

Um die Laser-Speckle zu analysieren, mssen wir Modell-Annahmen machen. Das ist bereits teilweise durch den Aufbau mit dem Diffuser geschehen. Der Diffuser habe am Ort xD = (xD , yD ) in der Diffuser-Ebene die Dicke (xD , yD ). Der Abstand R zwischen Diffuser und der Ebene B soll gro sein im Vergleich zur Diffuser-Dicke R (xD , yD ), (xD , xD ) .
167
Von jedem Punkt xD des Diffusers geht nach dem Huygensschen Prinzip eine Kugelwelle aus, die an einem beliebigen Punkt xB der Bild-Ebene die Amplitude eik|xB xD | |xB xD | beitrgt. Fr die Wellenzahl gilt k= 2 .
Amplituden aller Punkte des Diffuser tragen additiv zur Gesamtamplitude im Punkt xB bei. Um die Analyse einfach zu halten, nehmen wir an, dass der Diffuser aus vielen (N ) Bereichen (Scattering spots) der Gre a bestehen. Innerhalb jeden Spots ist die Dicke konstant und liefert perfekt korrelierte Beitrge zur Amplitude. Die DickenVariation von Spot zu Spot ist unkorreliert. Das ist Teil der Modell-Annahmen, die sich sehr gut bei der Beschreibung von Speckle-Phnomenen bewhrt haben. Das heit, die Gesamtamplitude im Punkt xB ist somit
N
A(xB ) = A0 a
n=1
eik|xB xn | |xB xn |
(11.3)
Hierbei sind xn die Positionen der Scattering-Spots in der Diffuser-Ebene. Wir hatten angenommen, dass R , das bedeutet, dass wir denn Nenner |xB xn | durch R approximieren knnen. Zustzlich knnen wir das Argument der ExponentialFunktion in eine Reihe um n = 0 entwickeln rn = |xB xn | = = (xn xB )2 + (yn yB )2 + (R n )2
n + . . . (xn xb )2 + (yn yB )2 + R2 (xn xB )2 + (yn yB )2 =R+ n + O(2 ) 2R = Dn n + O(2 ) . Hier wurde ausgenutzt, dass auch der Strahldurchmesser, also der Bereich der Diffuser-Ebene der zum Integral beitrgt, sehr viel kleiner als R ist. Die Gren Dn sind deterministisch und hngen nicht von den Zufalls-Variablen ab. Damit erhalten wir fr die Amplitude im Punkt xB
N
(xn xB )2 + (yn yB )2 + R2 R
A(xB ) =
n=1
eikDn kn
(11.4)
168
ARe =
n=1 N
cos(kDn k n ) sin(kDn k n )
n=1
AIm =
Die Terme kDn sind deterministisch und hngen von den Koordinaten des n-ten Spots ab. Die Gren rn := k n sind unkorrelierte Zufalls-Variablen. Es soll auerdem kein Punkt auf dem Diffuser ausgezeichnet sein. Deshalb sind diese ZufallsVariablen i.u.v. Die Wahrscheinlichkeitsdichte von C = cos(kDn k n ) ist p(C |k, Dn , B ) = (C cos(kDn rn )) p(rn |B ) drn .
Wir gehen davon aus, dass die Zufalls-Variablen rn = kn eine ache Wahrscheinlichkeitsdichte besitzen, d.h. es soll kein Wert ausgezeichnet sein. Physikalisch bedeutet das, dass die Verteilung der Diffuser-Dicken sehr viel grer sind als die Wellenlnge und somit die Verteilung von k n = 2 n / sehr breit ist. Damit ist die Wahrscheinlichkeitsdichte p(C |k, Dn , B ) identisch zu der des harmonischen Oszillators Gl. (9.37) fr A = 1 1 p(C |k, Dn , B ) = . 1 C2 Das heit, die Gren cos(kDn k n ) sind i.u.v. Zufallsvariablen mit der Wahrscheinlichkeitsdichte p(C |k, Dn , B ). Da sin(kDn k n ) = cos(kDn k n + /2), sind auch die Gren sin(kDn k n ) i.u.v. Zufalls-Variablen mit derselben Wahrscheinlichkeitsdichte. Das heit schlielich, dass sowohl ARe als auch AIm Summen von i.u.v. Zufallsvariablen mit derselben Wahrscheinlichkeitsdichte sind. Fr den Zentralen Grenzwertsatz bentigen wir noch den Mittelwert 1 C = und die Varianz var(C ) = 1
1 1
1 dx = 0 1 x2 x2 dx 1 x2
Die Substitution x = cos() fhrt zu 1 var(C ) = 1 = 1 = 2

0 0
sin() d 1 cos2 () cos2 () 1 sin() d = sin() .
cos2 ()
cos2 () d =
0
1 2
169
Die Varianz der Variablen cos(kDn rn ) ist demnach 2 /2. Der Zentrale Grenzwertsatz besagt deshalb, dass p(ARe |, N, B ) = p(AIm |, N, B ) = 1 N 2 1 N 2 eARe /N
2 2 2
eAIm /N
Damit kennen wir die marginalen Wahrscheinlichkeitsdichte. Wir bentigen aber die joint probability p(ARe , AIm |, N, B ). Wir werden beweisen, dass die Zufalls-Variablen ARe und AIm unkorreliert sind. ARe AIm = 2
n m
cos(kDn k n ) sin(kDm k m ) cos(kDn k n ) sin(kDn k n )

n
= +
2
n,m n=m
cos(kDn k n )
sin(kDm k m )
Es wurde ausgenutzt, dass die n und m fr n = m unabhngig sind. Zudem ist der Mittelwert sin(kDm k m ) = 0. Somit bleibt nur noch ARe AIm = 2
n
cos(kDn k n ) sin(kDn k n ) 1 sin(2kDn 2k n ) = 0 2 .
= 2
n
Der letzte Mittelwert ist ebenfalls null, da es keinen Unterschied macht, ob wir k oder 2k einsetzen. Somit haben wir gezeigt, dass die Kovarianz von ARe und AIm null ist und deshalb gilt p(ARe , AIm |, N, B ) =
2 1 12 (A2 Re +AIm ) e 2
(11.5)
mit 2 = N 2 . Nun knnen wir daraus die gesuchte Wahrscheinlichkeitsdichte der Intensitt und der Phase berechnen p(I, |, N, B ) = p(ARe , AIm |, N, B ) Wegen ARe = AIm = I cos() I sin() ARe , AIm I, .
170
gilt ARe , AIm = I, Schlielich ist also p(I, |, N, B ) = 1 I/2 1 e (I 0) (0 < 2 ) 2 2

p(I |,N,B) p(|,N,B) ARe I AIm I ARe AIm
cos() I sin() 2 I 1 sin() I cos() 2 I

1
1 2
(11.6)
Die Phase ist also gleich-verteilt. Die Intensitt gengt einer Exponential-Verteilung mit Mittelwert I = 2 (vgl. Gl. (9.15)). Diese sehr breite Verteilung erklrt die granulare Erscheinung der Speckle-Muster. Die Fluktuationen sind vergleichbar zum Mittelwert.
11.2 Signal-zu-Rauschen (S/R) Verhltnis

Das Signal-zu-Rauschen (S/R) Verhltnis gibt an, in welchem Ausma ein Signal vom Rauschen gestrt ist. Es ist deniert als das Verhltnis von mittlerer Intensitt zur Standardabweichung der Intensitt. Das mittlere Signal ist bereits bekannt I = 2 .
Die Standard-Abweichung der Exponential-Verteilung kennen wir bereits aus Gl. (9.15d) var(I ) = I . Somit ist das Signal-zu-Rauschen Verhltnis S/R = I var(I ) =1 .
Das Ergebnis zeigt, wie stark verrauscht der Speckle-Prozess ist. Das erklrt den granularen Charakter der Laser-Speckle. I.d.R. ist die Granularitt unerwnscht, und man ist bestrebt sie loszuwerden. Das geht offensichtlich nicht, indem man die Eingangsamplitude A0 (Intensitt) vergrert, da S/R unabhngig hiervon ist.
11.3 Verbesserung des Signal-zu-Rauschen Verhltnisses

Eine Mglichkeit besteht darin, das Bild in der Ebene B ber einen Bereich A, der viele Speckle-Krner enthlt, zu mitteln. Man verliert hierdurch zwar an Ausung, der Kontrast wird aber deutlich verbessert.
171
Das Bild besteht aus vielen zuflligen Krnern. Im Mittel benden sich in einem Bereich der Gre A M Krner, ber deren Intensitt wir mitteln werden. Die Intensitten innerhalb des Bereiches, ber den gemittelt wird, seien alle i.u.v. gem einer Exponential-Verteilung. Wir nummerieren die Krner fortlaufend durch. Die Intensitt im Bereich A ist dann
M
I=
m=1
Im
Es handelt sich wieder um eine Summe von i.u.v. Zufalls-Variablen. Da M aber nicht unbedingt sehr viel grer als eins sein soll, werden wir hier den Zentralen Grenzwertsatz nicht verwenden. Wir kennen ohnehin bereits die Wahrscheinlichkeitsdichte p(I|M, , B ) von I aus Gl. (10.20). Sie lautet p(I|M, , B ) = p (I| = M, = 2 ) = 2M M 1 I /2 I e (M ) .
Diese Wahrscheinlichkeitsdichte wird auch 2 -V ERTEILUNG genannt. Wir kennen aus Gl. (9.11c) und Gl. (9.11d) den Mittelwert und Varianz der -Verteilung. Das Signalzu-Rauschen Verhltnis ist demnach S/R = M 2 = = M var(I ) M 4 I .
Das zeigt den Vorteil der Mittelwert-Bildung. Das Signal-zu-Rauschen Verhltnis verbessert sich mit M , der Wurzel aus der Anzahl der Krner im Bereich A, ber den gemittelt wird. Das Verfahren hat allerdings auch groe Nachteile, da es wegen der Faltung mit einer stufenfrmigen Fenster-Funktion hohe Fourierkomponenten beimischt und auerdem die rumliche Ausung verringert. Die Speckle-Reduktion gehrt zu den aktuellen Forschungsaktivitten. Verbesserte Anstze verwenden die Wavelet-Transformation zur optimalen lokale Mittelwertbildung in Kombination mit einer wahrscheinlichkeitstheoretische Auswertung.
11.4
Die Standard-Form der 2-Verteilung
Die 2 -Verteilung ist hier in einem besonderen physikalischen Kontext entstanden. Von der Herleitung erkennen wir, dass diese Verteilung immer entsteht, wenn eine Zufalls-Variable z
N
z=
n=1
x2 n
aus einer Summe von N i.u.v. Zufalls-Variablen xn aufgebaut ist, die einer zentrierten Normal-Verteilung N (xn |0, ) gengen. Die xn nennt man in diesem Zusammenhang F REIHEITSGRADE und N die Z AHL DER F REIHEITSGRADE.
172
Die 2 -Verteilung entsteht im Zusammenhang mit vielen physikalischen Problemen, z.B. Maxwellsche Geschwindigkeitsverteilung. Sie charakterisiert auch das Gesetz der Stichproben-Varianz und wird in Signikanz-Tests verwendet, die wir in einem spteren Kapitel besprechen werden.
173
174
Teil II Poisson-Proze, Poisson-Punkte und Wartezeiten
175
Kapitel 12 Poisson-Prozess, Poisson-Punkte und Wartezeiten

12.1 Stochastische Prozesse
Stochastische Prozesse sind in der Physik weit verbreitet. Wir gehen von einer parametrisierten Funktion f (x|) aus, bei der x R kontinuierliche Werte annimmt und RNp die Parameter der Funktion darstellen. Wenn die Parameter Zufalls-Variablen sind, nennt man f (x|) einen stochastischen Prozess. Die Unsicherheit des stochastischen Prozesses liegt in der stochastischen Natur der Parameter. Ein Beispiel stellt die Energie-VerlustKurve E (x) beim Durchgang von Strahlung durch Materie dar, die angibt mit welcher Energie die Strahlung am Ort x ankommt, wenn sie mit einer Anfangsenergie E0 bei x = 0 erzeugt wird. Der Energieverlust hngt vom lokalen Aufbau der Materie ab, der stochastische Charakterzge haben kann, wie z.B. beim Durchgang von Licht durch Wolken, Emulsion, etc. Wenn die Parameter , hier die rumliche DichteVerteilung der Materie, gegeben sind, ist die Funktion E (x) i.d.R eine stetige Funktion von x. Ein weiteres Beispiel sind Radarsignale. Ein Radarsignal hat die Form f (t|d) = cos(t 2kd), wobei die Frequenz, k = 2/ das Inverse der Wellenlnge darstellt. Die Zufalls-Variable in diesem Zusammenhang ist der Abstand d zur unbekannten Quelle. Die Radarsignale haben daher zufllige Verzgerungen. Der zeitliche Ablauf des Signals ist jedoch eine glatte Cosinus-Kurve. Es kann jedoch auch vorkommen, dass sich das stochastische Verhalten auch in der Abhngigkeit von der unabhngigen Variablen x in f (x|) uert. Das ist z.B. der Fall bei additivem Rauschen. Ein Signal s(t) sei durch unkorreliertes Rauschen (t) gestrt s (t) = s(t) + (t) . Das Rauschen hat hier die Rolle des Parameters bernommen. Eine Realisierung
177
liefert eine feste zeitliche Abfolge von Rauschbeitrgen (t), die unkorreliert sein sollen. Daraus resultiert, dass s (t) nicht mehr stetig ist. Stochastische Prozesse unterscheiden sich von anderen Zufalls-Variablen lediglich darin, dass die Zufalls-Variable nun einen kontinuierlichen Index erhlt. Ansonsten gelten alle Regeln der Wahrscheinlichkeitstheorie unverndert. Z.B. bedeutet die Mittelungen von stochastischen Prozessen, dass ber die stochastischen Parameter gemittelt wird f (x) = f (x|) p(|B ) d .
Die Mittelwerte hngen dann auch von der unabhngigen Variablen (hier x) ab. Das ist eigentlich nichts anderes als die Marginalisierungsregel. Ein weiteres Beispiel stochastischer Prozesse stellt das epitaktische Oberchenwachstum dar, bei dem Atome stochastisch auf die Oberche auftreffen. Ein verwandtes Phnomen sind Warteschlangen an Kassen etc.. Wir werden in diesem Kapitel noch den Poisson-Prozess im Detail kennenlernen.
12.2
Poisson Punkte
Es werden zufllig N Punkte in einem Intervall = (0, L) der Lnge L erzeugt. Die so erzeugten Punkte nennt man Poisson-Punkte (PP). Die Punktdichte ist dabei := N L . (12.1)
Wir greifen nun ein beliebiges Teilintervall I der Lnge x heraus und fragen nach der Wahrscheinlichkeit, dass bei den N Versuchen n Teilchen in das Teilintervall x treffen. Die Wahrscheinlichkeit, dass bei einem dieser Versuche das Teilchen in das Intervall gelangt, ist nach der klassischen Denition von Wahrscheinlichkeit, das Verhltnis der Zahl der gnstigen Ereignisse zur Zahl der gesamten Mglichkeiten, also x p= . L Die gesuchte Wahrscheinlichkeit ist demnach die Binomial-Verteilung P (n|N, p = x/L). Die mittlere Zahl der Teilchen, die in I landen, ist =pN = x N =x L . (12.2)
Die Gre des Intervalls I behalten wir nun bei, verdoppeln aber sowohl die Lnge des Grundintervalls L 2L als auch die Zahl der Teilchen N 2N . Hierbei bleibt die Teilchendichte := N und demnach auch die mittlere Zahl der Teilchen in L L konstant. Wir wiederholen die Intervall-Verdopplung unendlich oft, bis das Intervall L schlielich die gesamte reelle Achse von bis abdeckt. Diese Konstruktion erfllt die Voraussetzungen fr den Satz von Poisson ( = p N = const und N )
178
und demnach geht die gesuchte Wahrscheinlichkeit im Limes N 1 in die PoissonVerteilung ber (x)n P (n|x, , B ) := ex . (12.3) n!
12.3 Intervall-Verteilung der Poisson-Punkte

Wir wollen nun untersuchen, wie die Abstnde x zwischen PPen verteilt sind. D.h. wir wollen p(x |, I ) berechnen. Wir verwenden hier die Proposition x : Der Wert des Abstands zum nchsten PP ist aus [x, x + dx). Damit die Proposition x zutrifft, darf im Intervall der Lnge x kein PP liegen und anschlieend muss in dx ein PP vorhanden sein. Diese beiden Ereignisse sind unabhngig voneinander. Der erste Faktor ist die Wahrscheinlichkeit P (n = 0|x, , B ) aus Gl. (12.3). Die Wahrscheinlichkeit, in dx einen PP anzutreffen, ist, da die Dichte der Punkte homogen gleich ist, durch dx gegeben. Somit lautet die gesuchte Wahrscheinlichkeit P (x |, B ) = P (n = 0|x, , B ) P (n = 1|dx, , B ) = e x dx . Die zugehrige Wahrscheinlichkeitsdichte ist demnach I NTERVALL -L NGEN -V ERTEILUNG IM P OISSON -P ROZESS p(x |, B ) = ex (12.4)
die Exponential-Verteilung Gl. (9.15). Der Mittelwert dieser Verteilung ist 1/ in Einklang mit der mittleren Dichte .
12.3.1
Alternative Sicht der Poisson Punkte
Man kann die Entstehung der Poisson-Punkte auch anders interpretieren. Bisher wurden die Punkte mit vorgegebener Dichte auf ein Intervall zufllig verteilt. Auf diese Weise ist gleichzeitig gewhrleistet, dass die Abstnde zwischen benachbarten Punkten unabhngig voneinander sind und alle derselben Wahrscheinlichkeitsdichte gengen. Die Intervall-Lngen sind i.u.v. (identisch unabhngig verteilt). Wir knnen die Poisson-Punkte also auch sequentiell erzeugen. Wir beginnen bei x = 0 und bestimmen den nchsten Poisson-Punkt x1 im Abstand x1 gem der ExponentialVerteilung, die in Gl. (12.4) gegeben ist. Danach erzeugen wir x2 ausgehend von x1
1
Siehe auch Gl. (4.19).
179
im Abstand x2 , der wiederum aus p(|, B ) ermittelt wird, etc. Die Poisson-Punkte haben dann die Werte
n
xn =
i=1
xi
12.4
Wartezeiten-Paradoxon
Wir wissen, dass die Abstnde x zwischen zwei Poisson-Punkten exponentiell verteilt sind. Wir interpretieren die x-Achse nun als Zeitachse. Hieraus folgt, dass die Abstnde zeitlicher Ereignisse, die einem Poisson-Prozess gengen, ebenfalls exponentiell verteilt sind p(t|, exp.) = e t . (12.5) Die zeitliche Dichte ist hier mit bezeichnet. Nehmen wir an, die Ankunft von Bussen an einer Haltestelle sei Poisson-verteilt. Wir kommen zufllig an der Haltestelle an. Wie lange mssen wir im Mittel auf den nchsten Bus warten? Da der Abstand der Ereignisse im Mittel betrgt und wir zufllig zwischen den Ereignissen angekommen sind, sollten alle Zeiten zwischen 0 und zu erwarten sein. Von daher erwarten wir eine mittlere Wartezeit /2. Dieses Ergebnis ist aber falsch! Wir wollen nun die korrekte Antwort mit den elementaren Regeln der Wahrscheinlichkeitstheorie ableiten. Gesucht ist die Wahrscheinlichkeitsdichte p(t|t I, B ), dass die Wartezeit t betrgt, wenn wir zufllig in einem der Intervall, nennen wir es I , ankommen. Hierbei gibt t den Zeitpunkt unserer Ankunft an. Wir fhren ber die Marginalisierungsregel die Lnge L des Intervalls ein, in dem wir ankommen.
p(t|t I, B ) =
0
p(t, LI = L|t I, B ) dL p(t|LI = L, t I, B ) P (LI = L|t I, B ) dL

0
1 (0<tL) L
=
t
=
t
1 P (LI = L|t I, B ) dL L 1 P (t I |LI = L, B ) P (LI = L|B ) dL L P (t I |B )
Die Wahrscheinlichkeit, dass wir in einem Intervall der Lnge L ankommen ist proportional zu L P (t I |LI = L, B ) = L .
180
Die Wahrscheinlichkeit, dass die Intervall-Lnge L betrgt, ist durch die exponentielle Verteilung der Intervall-Lngen vorgegeben. Der Ausdruck im Nenner ist unabhngig von L und t und dient hier nur der Normierung. Wir knnen die beiden unbekannten Faktoren und P (t I |B ) zu einem Normierungsfaktor Z zusammenfassen, den wir anschlieende ber die Normierung bestimmen. p(t|t I, B ) =
1 1 L eL dL Z t L 1 = et . Z
Z=
0
et dt =
Somit lautet das gesuchte Ergebnis p(t|t I, B ) = e t . (12.6)
Das heit, die Wartezeiten sind genauso verteilt wie die Abstnde zwischen den Ereignissen und somit ist die mittlere Wartezeit gleich dem mittleren Abstand der Ereignisse t = . Der Grund ist, dass die Wahrscheinlichkeit grer ist, zwischen zwei Ereignissen einzutreffen, die einen groen zeitlichen Abstand voneinander haben. Das erklrt auch, warum auch das erste Intervall vom willkrlich gewhlten zeitlichen Nullpunkt zum ersten Ereignis, eine mittlere Lnge hat.
12.4.1
Verteilung der Intervall-Lngen eines zufllig ausgewhlten Intervalls
Wir whlen zufllig einen Punkt x aus und fragen nach der Wahrscheinlichkeit, dass das so ausgewhlte Intervall I die Gre L besitzt p(L|I x, B ) .
Nach dem Bayesschen Theorem gilt hierfr p(L|I x, , B ) = p(x I |L, , B ) p(L|, B ) p(x I |B) .
Wie zuvor ist p(x I |L, B ) = L proportional zur Intervall-Lnge und p(x I |B ) ein von L-unabhngiger Normierungsfaktor
181
p(L|I
x, , B ) =
1 L p(L|B ) Z 1 = L eL Z
= Z
0
L eL dL = .
p(L|I
x, , B ) = 2 L eL
Die mittlere Intervall-Lnge ist demnach L =

0
(L)2 eL dL =
Der Grund ist natrlich wie zuvor, dass mit grerer Wahrscheinlichkeit der Aufpunkt in einem Intervall liegt, das grer ist.
12.5
Poisson-Prozess
10 8 6
N(t)
4 2 0 0 2 4 6 8 10 12
Abbildung 12.1: Poisson-Punkte (Kreuze) und Poisson-Prozess N (t) fr = 1. Die Punkte t1 , t2 , . . . , tn sind PP. Mit N (t) bezeichnen wir den stochastischen Prozess, der die ganzzahligen Werte 0, 1, . . . annimmt, die angeben, wieviele Poisson-Punkte bis zur Zeit t aufgetreten sind.
N (t) =
n=0
(t tn )
Die Wahrscheinlichkeit, dass N (t) = n ist natrlich die Wahrscheinlichkeit der Poisson-Verteilung.
182
12.6
Ordnungsstatistik des Poisson-Prozesses
Wir wollen die Wahrscheinlichkeitsdichte bestimmen, dass der n-te PP die Koordinate x hat. Wir knnen die allgemeinen berlegungen ber Ordungsstatistiken bernehmen. Damit der n-te PP die Koordinate x hat mssen im Intervall [0, x) n 1 PPe liegen. Die Wahrscheinlichkeit hierfr ist die Poisson-Verteilung P (n 1|x, ) = e x ( x)n1 (n 1)! .
Die Wahrscheinlichkeit, den nchsten Punkt in (x, x + dx) anzutreffen, ist dx. Da die PPe unkorreliert sind, ist die gesuchte Wahrscheinlichkeitsdichte das Produkt aus beiden Faktoren. Das fhrt zur E RLANG -V ERTEILUNG p(xn = x|, B ) = e x (x )n1 (n 1)! (12.7)
Der Erwartungswert dieser Verteilung liefert xn = (n 1)! 1 = (n 1)! n! = (n 1)! n = .
e x ( x)n1 x dx
0
et (t)n dt
0
Das Ergebnis ist in Einklang mit der Erwartung, da der mittlere Abstand der Punkte 1/ betrgt.
12.7 Alternative Herleitung des Poisson-Prozesses

Wir messen den radioaktiven Zerfall mit einem Geiger Zhler. Hiermit wird die Zahl der Zerflle X (t) bis zum Zeitpunkt t ermittelt. Der Poisson-Prozess ist folgendermaen speziziert: Die Wahrscheinlichkeit, dass in einem innitesimalen Zeitintervall dt ein Zerfall stattndet, ist unabhngig von der Vorgeschichte und vom gegenwrtigen Zustand.
183
Die Wahrscheinlichkeit ist analytisch in der Zeit P (Zerfall in dt|, B ) = dt. Da dt innitesimal ist, ist die Wahrscheinlichkeit fr zwei Zerflle O(dt2 ) vernachlssigbar. Die Wahrscheinlichkeit, dass in dt kein Zerfall stattndet, ist demnach 1 dt + O(dt2 ). Wir denieren die Proposition A(n, t) = Zahl der Zerflle bis zur Zeit t betrgt n. Gesucht ist die Wahrscheinlichkeit Pn (t) := P (A(n, t)|t, B ), dass bis zur Zeit t die Zahl der Poisson-Punkte n betrgt. Wir wollen hierfr eine Differentialgleichung in der Zeit ableiten und betrachten dazu die Wahrscheinlichkeit zur Zeit t + dt. ber die Marginalisierungsregel summieren wir ber die Propositionen A(m, t) zur Zeit t
P (A(n, t + dt)|B ) =
m=0
P (A(n, t + dt), A(m, t)|B ) P (A(n, t + dt)|A(m, t), B ) P (A(m, t)|B )

m=0
Da in dt hchstens ein Zerfall stattnden kann, mu die Zahl der Poisson-Punkte zur Zeit t entweder ebenfalls m = n oder m = n 1 betragen. Die vernachlssigten Terme sind von der Ordnung dt2 und verschwinden fr dt 0. Wir haben somit P (A(n, t + dt)|B ) = P (A(n, t + dt)|A(n, t), B ) P (A(n, t)|B ) + P (A(n, t + dt)|A(n 1, t), B ) P (A(n 1, t)|B ) = (1 dt) P (A(n, t)|B ) + dt P (A(n 1, t)|B ) d P (A(n, t)|B ) = P (A(n 1, t)|B ) P (A(n, t)|B ) . dt Es wurde P1 (t) = 0 deniert. d Pn (t) = dt Die Anfangsbedingungen sind Pn (0) = n,0 , (12.9) Pn1 (t) Pn (t) (12.8)
da zur Zeit t = 0 noch kein Zerfall stattgefunden hat. Diese Differenzen-DifferentialGleichung kann mit elementaren Methoden gelst werden. Es soll hier aber ein allgemeineres Lsungsverfahren ber ERZEUGENDE F UNKTIONEN vorgestellt werden, da sie in der Wahrscheinlichkeitstheorie eine wichtige Rolle spielen.
184
Wir denieren die ERZEUGENDE F UNKTION (x, t) ber die folgende Reihenentwicklung E RZEUGENDE F UNKTION
(x, t) =
n=0
Pn (t) xn
(12.10)
Zu beliebiger aber fester Zeit t stellen die Pn (t) die Entwicklungskoefzienten einer Taylorentwicklung dar. Da (x, t) nach wie vor die gesamte Information der Pn (t) enthlt, knnen alle wahrscheinlichkeitstheoretischen Berechnungen auch ber (x, t) vorgenommen werden. Dieser Zugang ist in der Regel wesentlich efzienter. Z.B. ist die Norm von Pn (t) ber Pn (t) = (1, t)
n
gegeben. Die Momente der Verteilung (t) :=

n
n Pn (t)
erhlt man aus d (x, t) dx Zum Beispiel gilt d (x, t) dx d2 (x, t) dx2 .
x=1
= 1
x=1
= 2 1
x=1
Wenn (x, t) bekannt ist, erhlt man daraus die Wahrscheinlichkeiten Pn (t) 1 d (x, t) ! dx
P (t) =
(12.11)
x=0
185
Beweis 1 dn (x, t) n! dxn 1 dn = n! dxn = 1 n!

Pm (t) xm
m=0 x=0
x=0
Pm (t) m(m 1) (m n + 1) xmn

m=n m,n x=0
1 Pn (t) n(n 1) (n n + 1) n! = Pn (t) .
Wir multiplizieren Gl. (12.8) mit xn und summieren ber n und erhalten d dt

Pn (t) x =
n=0 (x,t) n=0
Pn1 (t) x
n=0 x (x,t)
Pn (t) xn
(x,t)
d (x, t) = (x 1) (x, t) dt
Es wurde P1 (t) = 0 ausgenutzt. Die Anfangsbedingung Gl. (12.9) bertrgt sich auf (x, 0) = 1 .
Die Lsung der Differentialgleichung zu dieser Anfangsbedingung ist leicht zu ermitteln (x, t) = e (x1) t . Mit Gl. (12.11) erhalten wir hieraus die gesuchten Wahrscheinlichkeiten Pn (t) = 1 dn (x1) t e n! dxn 1 = ( t)n e t n!
x=0
Das ist genau die Poisson-Verteilung.
12.8
Shot-Noise
Wir betrachten folgendes physikalische Problem. Eine Lichtquelle emittiert zufllig Photonen mit einer mittleren Rate von Photonen pro Zeiteinheit. Die Photonen werden unabhngig von einander ausgesandt, und in jedem innitesimalen Zeitintervall dt ist die Zahl der Photonen entweder 0 oder 1. Die Wahrscheinlichkeit, dass im Intervall dt ein Photon emittiert wird ist demnach p = dt .
186
Wie gro ist die Wahrscheinlichkeit, dass in einem endlichen Intervall der Lnge t die Zahl der emittierten Photonen k betrgt? Offensichtlich handelt es sich wieder um ein Bernoulli-Experiment. Die Zahl der Versuche ist n = t/dt und die Wahrscheinlichkeit, dass in einem Versuch ein Photon emittiert wird ist p = dt. Die mittlere Zahl der Photonen ist = p n = t. Da dt innitesimal sein soll, geht n und p 0, wobei aber der Mittelwert konstant ist. Es sind also die Bedingungen fr den Satz von Poisson erfllt, und die gesuchte Wahrscheinlichkeit ist die Poisson-Verteilung P (n|N = t/dt, p = dt) et
dt0
(t)n n!
Das Shot-Rauschen ist also ebenfalls Poisson-verteilt.
12.9
Die Hartnckigkeit des Pechs
Man hat oft das Gefhl, dass gerade die Warteschlange, in der man sich bendet, am langsamsten abgefertigt wird. Was kann die Wahrscheinlichkeitstheorie hierzu aussagen. Wir nehmen an, x charakterisiert die Wartezeit. x0 sei unsere Wartezeit, und xi (i = 1, . . .) die anderer Personen. Wir gehen davon aus, dass in Wirklichkeit niemand bevorzugt wird und die Variationen der Werte xi alle denselben statistischen Fluktuationen unterworfen sind und sich nicht gegenseitig beeinussen. D.h. sie sind i.u.v. gem einer Wahrscheinlichkeitsdichte p(x|B ), wobei der Bedingungskomplex die Ursache der Fluktuationen genauer speziziert. Wie gro ist nun die Wahrscheinlichkeit, dass erst die n-te Wartezeit (xn ) grer ist als x0 ? Zu systematischen Behandlung denieren wir die Proposition An : erst der n-te Wert xn ist grer als x0 ,
Zur Berechnung der Wahrscheinlichkeit P (An |B ) verwenden wir die Marginalisierungsregel, um den Wert x0 einzufhren
P (An |B ) = =
p(An , x0 |B) dx0 P (An |x0 , B ) p(x0 |B ) dx0 .
Die Aussage An ist quivalent dazu, dass die Wartezeit der nchsten n 1 Personen
187
kleiner ist als x0 und die der n-ten Person grer P (An |B) = =
i=1
P (xi < x0 (i = 1, . . . , n 1), xn > x0 |B) p(x0 |B ) dx0

n1
P (xi < x0 |B )
=:q (x0 ) unabh. von i
P (xn > x0 |B ) p(x0 |B ) dx0
= = = =
q (x0 )n1 (1 q (x0 )) p(x0 |B ) dx0 (r q (x0 )) dr q (x0 )n1 (1 q (x0 )) p(x0 |B) dx0 rn1 (1 r) dr rn1 (1 r) dr
(r q (x0 )) p(x0 |B ) dx0
(x0 q 1 (r)) p(x0 |B ) dx0 |q (x0 )|

x
Nun ist q (x0 ) = P (xi < x0 |B) = 0 0 p(x |B) dx . Das heit, q (x0 ) = p(x0 |B ) und das innere Integral vereinfacht sich zu
1 0
(x0 q 1 (r)) p(x0 |B ) dx0 = |q (x0 )|

1
(x0 q 1 (r)) dx0 = 1

0
Damit erhalten wir schlielich P (An |B ) =

0
rn1 (1 r) dr
(n 1)! (n)(2) = (n + 2) (n + 1)! 1 = . n(n + 1) = Man kann leicht berprfen, dass die Wahrscheinlichkeit auf Eins normiert ist

P (An |B) =
n=1 n=1
1 n(n + 1)
L
= lim
n=1 L
1 1 n n+1 1 1 n n=2 n 1 L+1

L+1
= lim = lim =1
n=1
1 .
188
Das verblffende an dem Ergebnis ist es ist unabhngig von der Verteilung p(x|B ). Es existiert kein Mittelwert, n = . Das heit, im Mittel muss man unendlich lang warten, bis noch eine Warteschlange so lang ist wie unsere. Allerdings ist P (A1 |B ) = 1 , d.h. der Median ist n = 1.5. 2 Man kann dieses Ergebnis auch ganz anders begrnden. Die Wartezeiten xi (i = 0, 1, . . . , n) seinen zufllig i.u.v. erzeugt worden. Es gibt ein grtes Elemente xg und ein zweit-grtes Element xzg . Da die Zahlen unabhngig voneinander erzeugt wurden, sind alle Reihenfolgen der Elemente gleich-wahrscheinlich. Insgesamt gibt es (n + 1)! Ereignisse (Permutationen). Die gnstigen Ereignisse sind solche, bei denen xzg an der ersten und xg an der letzten Stelle vorkommt. Auf die Reihenfolge der mittleren (n 1) Elemente kommt es hierbei nicht an. Es gibt demnach (n 1)! gnstige Ereignisse und die Wahrscheinlichkeit ist nach der klassischen Denition P = (n 1)! 1 = (n + 1)! n (n + 1) .
Dieses Ergebnis kann auf dem Computer leicht simuliert werden. Wir verwenden hierbei zwischen 0 und 1 gleich-verteilte Zufallszahlen. Zunchst wird die Referenz-Zufallszahl x0 erzeugt. Danach werden solange Zufallszahlen erzeugt, bis eine grer ist als x0 . Das Experiment wird L-mal wiederholt. Hieraus ermitteln wir das arithmetische Mittel und die Standardabweichung. Die Ergebnisse von L = 1000 solchen Simulationen sind in Abbildung 12.2 wiedergegeben. Man erkennt, dass weder der Mittelwert noch die Standardabweichung konvergieren, da ja beide fr L divergieren. Obgleich die Wahrscheinlichkeit dafr, dass bereits das nchste oder bernchste Element grer als das Referenzelement ist, bereits 2/3 betrgt, gibt es doch nicht vernachlssigbare Wahrscheinlichkeit, dass sehr groe Wartezeiten vorkommen knnen, wie man im Bild gut erkennen kann. Man beachte, dass die Wartezeiten logarithmisch aufgetragen sind. In diesem Beispiel ist das arithmetische Mittel 548 in die Standardabweichung betrgt 17151 und ist somit 30-mal grer als der Mittelwert.
12.10 Schtzen der Halbwertszeit aus einer Stichprobe

Gegeben sei eine Stichprobe von Zerfallszeiten {t1 , . . . , tL }. Die Wahrscheinlichkeit fr einen Zerfall in (t, t + dt) ist durch die Exponential-Verteilung p(t| ) = 1 t/ e
189
10 10 10 10 10 10 10
Wartezeit
200
400
600
800
1000
L
Abbildung 12.2: Computersimulation der Wartezeiten, wie im Text beschrieben. Eingezeichnet ist zustzlich das arithmetische Mittel und das Fehlerband. gegeben. Wir wollen die Wahrscheinlichkeitsdichte p( |t1 , . . . , tL , B ) fr die Relaxationszeit berechnen. Das Bayessche Theorem liefert den Bezug zur Likelihood p( |t1 , . . . , tL , B ) p(t1 , . . . , tL |, B ) p( |B ) Die Likelihood lautet, da die Zerflle unkorreliert sind,
L
p(t1 , . . . , tL |, B ) =
i=1
1 ti / e
= L eLt/
Hierbei ist t der Stichproben-Mittelwert der Zerfallszeiten. Der Prior ist, da es sich um eine Skalen-Variable handelt, Jeffreys Prior. Somit lautet die Posterior-Verteilung p( |t1 , . . . , tL , B ) = 1 L1 Lt/ e Z .
Die Normierung lsst sich leicht berechnen
Z=
0
L eLt/ x Lt
L L
=
0
d dx ex x .
= Lt
(L)
190
Der Erwartungswert dieser Verteilung lautet = = = Die Varianz liefert analog var( ) = Lt
L+2
1 Z Lt
L+1 eLt/
0 L+1
(L 1) (L) .
Lt L t L1
(L 2)
Lt (L) 2 L2 L 2 2 = t t (L 1)(L 2) (L 1)(L 1) L1 = 2 1 L2 1 = 2 . L2 Somit gilt =t L L1 1 1 L2 .
191
192
Teil III Zuweisen von Wahrscheinlichkeiten
193
Kapitel 13 Vorbemerkungen
Die Regeln der Wahrscheinlichkeitstheorie besagen, wie man Wahrscheinlichkeiten umformen kann. Insbesondere sagt das Bayessche Theorem, dass man PosteriorWahrscheinlichkeiten durch Likelihood und Prior 1 P (a|d, B ) = P (d|a, B ) P (a|B ) . Z ausdrcken kann. Die Likelihood-Funktionen sind trivialerweise quantitativ bekannt, da die Aussage des Bedingungskomplexes B beinhaltet, nach welcher Wahrscheinlichkeitsverteilung die experimentellen Daten verteilt sind. Die Proposition a legt zudem fest, welche Werte die Parameter der Wahrscheinlichkeitsverteilung besitzen. Die Prior-Wahrscheinlichkeiten hingegen knnen nicht aus den bisher abgeleiteten Regeln der Wahrscheinlichkeitstheorie alleine berechnet werden. Unbekannte Prior-Wahrscheinlichkeiten knnen auch auf komplexere Weise ins Spiel kommen, wenn nur ein Teil b der Parameter der Likelihood-Funktion bekannt ist und weitere Parameter a unbekannt sind. Die Marginalisierungsregel liefert dann p(d|b, B ) = p(d|a, b, B ) p(a|b, B ) da . (13.1)
Hierbei taucht wieder eine Prior-Wahrscheinlichkeit auf, die mit den Regeln der Wahrscheinlichkeitstheorie nicht weiter vereinfacht oder quantiziert werden kann. Ein typisches Beispiel ist die Situation, dass die Fehler der Daten einer GauVerteilung mit Mittelwert Null gengen, deren Varianz jedoch nicht bekannt ist. Die MARGINALE L IKELIHOOD p(d| = 0, B ) kann dann ber die Marginalisierungsregel bestimmt werden
p(d| = 0, B ) =
0
p(d|, = 0, B ) p( | = 0, B ) d
(13.2)
Es bleibt aber zunchst der Prior fr die Varianz zu spezizieren. Generell bleibt ein Problem brig, die Prior-Wahrscheinlichkeit von Parametern oder gar ganzen Wahrscheinlichkeitsverteilungen Pi oder Wahrscheinlichkeitsdichte p(x) zu quantizieren.
195
Es gibt drei Flle zu unterscheiden uninformative Prioren (IGNORANT PRIORS) fr Parameter, die auer der Denition des Problems keine Information enthalten. Exakte berprfbare Information testable information. Z.B. Momente der Verteilung, {p(x|I )} = 0 Fehlerbehaftete berprfbare Information Wir werden uns hier auf die ersten beiden Flle beschrnken. Der letzte Fall fhrt auf die sogenannte QUANTIFIED MAXIMUM ENTROPY METHOD, die in den letzten Jahren sehr erfolgreich auf unterschiedlichste Arten von formfreier Rekonstruktion, z.B. in der Astro- und Plasmaphysik und in der Bilderkennung eingesetzt worden ist. Wir hatten fr Wahrscheinlichkeiten Pi diskreter Ereignisse bereits das Laplacesche Prinzip der Indifferenz kennengelernt, dass besagt, dass wenn die einzelnen Ereignisse AUSTAUSCHBAR sind, d.h. kein Index ausgezeichnet ist, dann sollten alle Pi gleich sein. Dieses Prinzip muss in zweierlei Hinsicht erweitert werden 1. Konsistente Bercksichtigung von exaktem Vorwissen, z.B. i P i =
i
2. Erweiterung auf kontinuierliche Freiheitsgrade p(x).
196
Kapitel 14 Uninformative Prioren fr Parameter

Wenn wir nichts ber die Wahrscheinlichkeiten der verschiedenen Ausgnge eines Versuchs, sagen wir, A1 , A2 , . . . AM wissen, dann knnen wir bei diskreten Problemen das Laplacesche Prinzip heranziehen. Wie bereits mehrfach erwhnt, ist dieses Prinzip jedoch unbrauchbar im Fall kontinuierlicher Freiheitsgrade, wie wir am Beispiel des 1889 von Bertrand formulierten Paradoxons gesehen haben. Gesucht war hierbei die Wahrscheinlichkeit, eine zufllige Gerade im Abstand kleiner als der halbe Radius vom Kreiszentrum anzutreffen. Wir hatte hierfr unterschiedliche Werte 1/2, 1/3 und 1/4 erhalten, je nachdem, in welcher Variablen ein acher Prior gewhlt wurde. Eine zufriedenstellende Antwort hierzu gelang erst 1973. E.T. Jaynes fhrte hierzu das Transformations-Invarianz-Prinzip (TIP) ein. Wenn eine Transformation T einer Zufalls-Variable x auf eine Variable x existiert, die die Aufgabenstellung nicht ndert, und die zu neuen Variablen fhrt ber die wir gleichermaen wenig wissen, so darf diese Transformation die Wahrscheinlichkeitsdichte nicht ndern. Das heit, px ( ) = px ( ) = p( ) mit einer gemeinsamen Wahrscheinlichkeitsdichte p(x). Andererseits gilt bei einer Transformation grundstzlich px (x)dx = px (x )dx px (x) = px (T (x)) T . x (14.1)
Zusammen mit der Transformationsinvarianz folgt eine Bestimmungsgleichung fr die Wahrscheinlichkeitsdichte p(x) = p(T (x)) T . x (14.2)
Diese Bedingung lsst sich besonders einfach ber innitesimale Transformationen T erfllen, wobei ein Vektor sein kann. Es muss zustzlich zur Invarianzbedingung gelten, lim T (x) = x . (14.3)
0
197
Wenn wir die innitesimale Transformation in Gl. (14.2) einsetzen und nach ten, erhalten wir die Differentialgleichung p(x) i =
=0
ablei-
p(T (x))
T x
.
=0
(14.4)
Die Wahrscheinlichkeit p(x) auf der linken Seite hngt nicht von ab, und somit verschwindet die Ableitung. Die rechte Seite ist fr = 0 auszuwerten TIP-G LEICHUNG T (x) p(T (x)) i x =0
=0
(14.5)
( x) Man beachte, dass T bei mehreren Variablen die Bedeutung der Jakobix Determinante hat. Im Fall des Bertrand-Paradoxons gibt es drei Transformationen gegen die die Wahrscheinlichkeitsdichte invariant sein muss
Rotation um das Kreiszentrum Verschiebung des gesamten Kreises Reskalierung des Radius R. Diese Invarianz-Forderungen reichen aus, den Prior eindeutig festzulegen. Man ndet 1 p(r) = (0 r R) , (14.6) R und dementsprechend ist die gesuchte Wahrscheinlichkeit P = 1/2.
14.1
Jeffreys Prior fr Skalen-Variablen
Wir wollen an einem einfacheren Beispiel das TIP detailliert vorfhren. Wir betrachten eine Skalen-Variable, wie zum Beispiel die Standard-Abweichung. Hierbei ist apriori z.B. nicht vorgeschrieben, in welchen Einheiten diese Gre anzugeben ist. Wenn es sich z.B. um Lngen handelt, knnen wir sie in Meter, Angstrm, etc. angeben. Von dieser Wahl darf die Wahrscheinlichkeitsdichte demnach nicht abhngen. Darber hinaus ist in diesem Beispiel auch nicht klar, ob der Prior fr den Standardfehler oder fr die Varianz 2 zu whlen ist. Wenn einer z.B. ach gewhlt wird, ist es der andere nicht. Ein acher Prior beschreibt in diesem Beispiel also nicht vollstndiges Unwissen. Die Transformationen, gegen die der Prior einer Skalen-Variablen invariant sein muss, sind x = T(1) (x) = (1 + ) x x = T(2) (x) = x(1+) .
198
Es wurde diese spezielle Form gewhlt, damit die Einheitstransformation dem Fall = 0 entspricht. Fr Gl. (14.5) bentigen wir im Fall der ersten Transformation T x Damit lautet die TIP-Gleichung p T (1) (x) (1 + )
=0 (1)
= (1 + )
[p ((1 + ) x) (1 + )] =0 ! = p (x) x + p(x) = 0 . =
Die Lsung dieser Dgl. ist
c . x Damit ist der Prior bereits festgelegt. Es bleibt also nur zu prfen, ob die zweite Transformation zum selben Ergebnis fhrt, bzw. ob der Prior invariant gegen die Transformation ist. Strenggenommen sollte p(x) = p(x) dx = p(x ) dx
gelten, wobei x = x ist1 . Wir mssen aber bercksichtigen, dass der eben abgeleitete Prior nicht normierbar ist. Also wird die Gleichung nur bis auf einen unbestimmten Normierungsfaktor gelten. Wir betrachten c p(x )dx = p(x )d(x ) = x 1 dx x c = dx . x Damit hat der Prior in der Tat (bis auf die unbestimmte Normierung) die geforderte Invarianz. Somit ist der Prior fr eine Skalen-Variable J EFFREYS P RIOR
FR
S KALEN -VARIABLEN 1 x . (14.7)
p(x) =
Jeffreys Prior hat, wie bereits erwhnt, die unschne Eigenschaft, dass er nicht normierbar ist. Solche Prioren nennt man UNEIGENTLICH (IMPROPER). In praktischen Rechnungen wird man Cutoffs einfhren und den eigentlichen Prior
1
In der obigen Notation war = 1 + . Hier ist diese Darstellung weniger geeignet.
199
E IGENTLICHER J EFFREYS P RIOR 1 1 (xu x xo ) V x V = ln xo /xu
pJ (x) =
(14.8)
verwenden und erst im Endergebnis die Cutoffs eliminieren. Dadurch erhlt man i.d.R. normierbare Posterior-Verteilung. Ist das nicht der Fall, sind die Daten in der Likelihood-Funktion nicht informativ genug. Benfords Law Benford hatte anhand von Tabellen und Zahlentafeln festgestellt, dass die fhrende Ziffer der Zahlen nicht gleich hug vorkommen, sondern dass die Eins z.B. am hugsten vorkommt. Das daraus abgeleitet Gesetz (B ENFORD S LAW) kann mit Jeffreys Prior sofort hergeleitet werde. Wir berechnen die Wahrscheinlichkeit, dass die fhrende Ziffer einer beliebigen Zahl x den Wert i (1, 2, 3, . . . , 9)2 besitzt. Hierzu schreiben wir die Zahl als x = d0 , d1 d2 . . . 10y mit d0 > 0 und y Z (14.9)
Das kann kann auch als x = (d0 + R) 10y mit R [0, 1) geschrieben werden. Die Wahrscheinlichkeit, dass die fhrende Ziffer den Wert d0 hat, ist P (d0 |I ) = P (x [d0 , d0 + 1)) =
d0 +1 p(x) dx d0 10 p(x) dx 1
(14.10) Da x eine Skalen-Variable ist, wurde Jeffreys Prior verwendet. Hierbei kommt es nicht auf die Normierung an, und wir konnten ohne Cutoffs das Ergebnis direkt ermitteln. Wie in Abbildung 14.1 zu sehen, nden wir in der Tat, dass die niedrigen Ziffern wahrscheinlicher sind als die hheren.
d0 +1 1/x dx d0 10 1/x dx 1
= log10 (
d0 + 1 ) d0
14.2
Prior fr die Parameter einer Geraden
Wir gehen von dem Problem aus, dass eine Gerade durch Punkte in der Ebene gelegt werden soll, wobei die Ungenauigkeit bei der Messung der Punkt in alle Raumrichtungen gleich sind x = y = , oder darber nichts bekannt ist. Diese Information stecke im Bedingungskomplex B . Wir suchen die Prior-Wahrscheinlichkeit p(a, b|B )
2
Fhrende Nullen werden gegebenenfalls eliminiert.
200
0.35 0.3 0.25 0.2
Pj
0.15 0.1 0.05 0
Abbildung 14.1: Benfords Law der Wahrscheinlichkeit der fhrenden Ziffern 1 to 9. fr die Parameter der Geradengleichung y =ax+b .
Die Punkte x R2 der Geraden erfllen die Normalgleichung n T x = d .
Hierbei ist n der Einheitsvektor senkrecht zur Geraden und d ist der vorzeichenbehaftete und in Richtung n gemessene Abstand der Geraden vom Koordinatenursprung. In Abbildung 14.2 ist die Gerade skizziert. Der Einheitsvektor kann daraus abgelesen werden sin() n = . (14.11) cos() Auch liest man aus 14.2 leicht ab, dass a = tan() d b= cos() (14.12) . (14.13)
Das Problem ist invariant gegen Drehung und Verschiebung des Koordinatensystems. Hierbei geht ein beliebiger Punkt x ber in x = Ux + s wobei die Matrix U= ,
cos() sin() sin() cos()
(14.14)
201
10
10 10
10
Abbildung 14.2: Geraden-Problem eine Drehung am Koordinatenursprung bewirkt und s R2 den Verschiebungsvektor des Koordinatenursprungs darstellt. Die Geradengleichung im transformierten Koordinatensystem lautet n Tx = d n T (U x + s) = d (U T n )T x = d n Ts
n d
Daraus folgt n =U n d =d+n Ts Mit Gl. (14.14) und Gl. (14.11) erhalten wir n = cos() sin() sin() cos() cos() cos() + sin() sin() = sin( ) cos( ) . . (14.15)
Bei dieser Transformation gilt offenbar = ,
202
wie man es bei einer Drehung auch erwarten wrde. Die Transformation von d gem Gl. (14.15) ergibt dd =d+ , hierbei kann je nach Richtung und Lnge von s beliebige Werte annehmen. Da das Problem invariant gegen beliebige Verschiebungen s ist, muss es auch invariant gegen beliebige nderungen sein. Es ist offensichtlich sinnvoll zunchst die Gerade als Funktion von und d zu formulieren und anschlieend zur Standarddarstellung a, b berzugehen. Wir werden also zunchst p(, d) ermitteln. Die innitesimale Transformation ist somit T (, d) = Demnach ist d = d + d .
d d =1 =0 =0 =1 . d d Das bedeutet, dass die Jakobi-Determinante Eins ist. Die TIP-Gleichungen werden also zu p( , d + d ) p( , d + d ) d Daraus folgt p,d (, d) = const . Die Rcktransformation auf die Gren a, b ist in Gl. (14.12) und Gl. (14.13) angegeben. Dazu bentigen wir gem pa,b (a, b) (a, b) = p,d (, d) (, d) =
=0
p(, d) = 0 .
=
=0
p(, d) = 0 d
Die zugehrige Jakobi-Determinante lautet (a, b) = (, d)

a b a d b d
1 cos2 ()
0
1 cos()
1 cos3 ()
Wegen cos2 = 1/(1 + tan2 ) folgt somit (a, b) p(a, b) = c (, d)

1
= c (1 + a2 ) 2
Dieser Prior ist wieder uneigentlich, da er in b nicht normierbar ist.
203
P RIOR
DES
G ERADEN -P ROBLEMS
3
p(a, b) = (1 + a2 ) 2
(14.16)
204
Kapitel 15 Der entropische Prior fr diskrete Probleme

Wir beschftigen uns nun mit Wahrscheinlichkeitsverteilung Pi diskreter Ereignisse. Es soll exakte, berprfbare Information (TESTABLE INFORMATION) vorliegen. Man nennt Nebenbedingungen berprfbar, wenn es mglich ist festzustellen, ob gegebene Pi diese Nebenbedingung erfllen oder nicht1 . Es gibt mehrere Zugnge unterschiedlicher Strenge zum ENTROPISCHEN P RIOR Anschaulich, qualitativ Axiomatisch ber Konsistenzforderung. Wir werden hier nur die ersten beiden Zugnge im Detail diskutieren. Wir suchen die uninformativste Verteilung, die mit dem Vorwissen vertrglich ist. Uninformativ soll bedeuten, dass wir uns damit am wenigsten festlegen, bzw. dass wir damit in den meisten Fllen richtig liegen. Nehmen wir z.B. einen Wrfel mit den Nebenbedingungen 0 =
i
qi i qi
i
=1 = 3.5
Normierung 1. Moment .
1 =
Diese Nebenbedingungen sind durch

1 {q i } = ( 2 , 0, 0, 0, 0, 1 ) 2
erfllt. Damit legen wir uns allerdings maximal fest, da nun denitiv immer eine Eins oder eine Sechs erscheinen sollte und niemals die anderen Seiten des Wrfels. Das erscheint unsinnig, da auch die Wahrscheinlichkeiten
1 1 1 1 1 1 {qi } = ( 6 , 6, 6, 6, 6, 6)
1
Das ist ganz immer Sinne von Karl Poppers Forderung, dass Theorien falsizierbar sein mssen.
205
mit den Nebenbedingungen vertrglich sind. In diesem Fall wrden wir sicherlich diese Wahl im Sinne des Laplaceschen principle of indifference vorziehen. Mit dieser Wahl legen wir uns am wenigsten fest. Das bedeutet auch, dass der I NFORMA TIONSGEHALT DER WAHRSCHEINLICHKEITSVERTEILUNG minimal ist. Um Nebenbedingungen bercksichtigen zu knnen, die nicht mit der Gleichverteilung vertrglich sind, bentigen wir ein Ma fr die Information. Wir werden dann diejenige Wahrscheinlichkeitsverteilung {qi } whlen, die unter Bercksichtigung der Nebenbedingungen das Informationsma minimiert.
15.1
Shannon-Entropie: Informationsgehalt bei binren Fragen
Wieviele Fragen bentigt man, um einen Gegenstand aus N = 2L mglichen zu identizieren2 ? Die berlegungen hier haben motivierenden Charakter. Von daher ist die Einschrnkung auf Zweierpotenzen unbedeutend. Nummerieren der Gegenstnde durch 1, . . . , N . n sei die Nummer der gesuchten Gegenstandes. optimale Strategie, wenn alle Mglichkeiten gleich-wahrscheinlich sind: Deniere die Menge M = {1, . . . , N }. a) Wenn |M| = 1 es gibt nur eine Mglichkeit fertig! b) Teile die beiden Mengen in (annhernd) gleich groen Teilmengen M1 = {1, . . . , N } und M2 = { N + 1, . . . , N } 2 2 c) Frage ob der gesuchte Gegenstand in der ersten Teilmenge ist. wenn ja: M = M1 ; wenn nein: M = M2 . gehe zu (a). Man bentigt maximal L = log2 N Fragen3 . Alternative Begrndung: Whle binre Darstellung von
L
N=
i=0
2i Ni
Ni {0, 1}
Die n-te Frage lautet, ist Nn = 1? Somit bentigt man ebenfalls L = log2 N Fragen. Damit kann log2 N im Fall von N gleich wahrscheinlichen Ereignissen als Ma fr die Ungewissheit interpretieren.
2 3
Ableitung nach R.T.Cox: The algebra of probable inference, Johns Hopkins univ. press, 1961 Um Komplikationen zu vermeiden betrachten wir nur Zahlen die Zweierpotenzen sind.
206
Wir verallgemeinern nun diese berlegungen auf Ereignisse mit unterschiedlichen Wahrscheinlichkeiten. Es gilt wieder, einen von N Gegenstnden zu erraten. Die Gegenstnde sind nun zu Gruppen zusammengefasst. Beispiel: Es gebe N Lotterielose, die auf m Eimer verteilt sind. In jedem Eimer benden sich N Lose. Sowohl N als auch m soll eine Zweierpotenz sein. m Wir knnten zunchst erfragen, in welchem Eimer sich der Gewinn bendet. Dazu bentigen wir L1 = log2 m Fragen. Anschlieend eruieren wir, welches Los in diesem Eimer der Gewinn ist, dazu bentigen wir zustzlich L2 = log2 N Fragen. m Die Gesamtzahl ist somit L1 + L2 = log2 m + log2 N = log2 N m .
Das entspricht der Zahl, die wir ohne Unterteilung auch erhalten htten. Diese A D DITIVITT werden wir auch im allgemeinen Fall fordern, wenn die Ereignisse nicht mehr alle gleich wahrscheinlich sind. Wir denieren nun als Ma der Ungewissheit gerade die Anzahl der Binr-Fragen, die ntig ist, um die spezielle Aufgabenstellung Q bei einem gegebenen Bedingungskomplex B zu lsen. U (Q|B ) : Ungewiheit bzgl. Q gegeben B Beispiel: B : Es gebe N sich gegenseitig ausschlieende Propositionen Q : Welche Proposition ist wahr? Wir betrachten nun den Fall, dass die einzelnen Propositionen nicht gleichwahrscheinlich sind. Wir wollen das an einem Beispiel diskutieren. Es gebe m Eimer mit Lotterielosen, in denen sich insgesamt N Lose benden. Der Hauptgewinn ist durch Binr-Fragen zu ermitteln. Im Gegensatz zu vorher enthalten die Eimer unterschiedlich viele Lose. Im Eimer i seien ni Lose (Zweierpotenz!). Es gilt natrlich
m
ni = N
i=1
Die verwendeten Abkrzungen sind B : beschreibt diese Situation. Ai : der Gewinn bendet sich im Eimer i. Q1 : Welches Los enthlt den Gewinn?
207
Es gilt U (Q1 |B ) = log2 N U (Q1 |Ai , B ) = log2 ni
Bei der optimalen Strategie bentigt man im ungnstigsten Fall log2 N Binr-Fragen. Es gibt keine Strategie, die diese WORST- CASE Situation unterbietet. Angenommen, wir wollen zunchst den Eimer ermitteln, in dem sich das richtige Los bendet und anschlieend das Los. Der Gewinn soll sich im Eimer j benden. Wir fhren hierzu ein Q2 : Welcher Eimer enthlt das richtige Los? C : Zuerst muss Q2 beantwortet werden. Da die Eimer nun unterschiedlich viele Lose enthalten, ndert sich bei dieser Vorgehensweise die Zahl der Binr-Fragen. U (Q1 |C, Aj , B ) = U (Q2 |B ) + U (Q1 |Aj , B ) .
Aj gibt an, in welchem Eimer sich der Gewinn bendet. Beispiel: Die Anzahl der Eimer sei m = 8. Die Zahl der Lose in den Eimern sei {ni } = (2, 2, 2, 2, 2, 2, 4, 16) Insgesamt gibt es N = 32 Lose. Somit ist U (Q1 |B) = log2 32 = 5 Fr U (Q1 |C, B ) erhalten wir U (Q1 |C, Aj , B ) = U (Q2 |B ) + U (Q1 |Aj , B ) = log2 8 + log2 nj = 3 + log2 nj Wenn der Gewinn in den Eimern 1-6 ist (j {1, . . . , 6} ), dann gilt U (Q1 |C, Aj , B ) = 3 + log2 2 = 3 + 1 = 4 fr j = 7 gilt U (Q1 |C, Aj , B ) = 3 + log2 4 = 3 + 2 = 5 und fr j = 8 haben wir U (Q1 |C, Aj , B ) = 3 + log2 16 = 3 + 4 = 7 . , . . .
Im ungnstigsten Fall j = 8 bentigt man also 7 statt wie vorher 5 Fragen. Das bedeutet, die Additivitt gilt nur bei Vorgabe von j . Allgemein gilt aber U (Q1 |C, B ) = U (Q2 |B ) + U (Q1 |B ) .
208
Stattdessen fordern wir diese Additivitt im Mittel.

m
U (Q1 |C, B ) = U (Q2 |B) +

j =1
P (Aj |B ) U (Q1 |Aj , B )
Der erste Summand liefert die Zahl der Binr-Fragen, die ntig sind, den richtigen Eimer herauszunden. Der zweite Summand liefert die mittlere Zahl der Fragen, um dann noch das richtige Los zu nden. Gemittelt wird ber die mglichen Eimer, in denen sich der Gewinn benden kann. Es gibt andererseits keine bessere Strategie4 , als alle Lose zu nummerieren und simultan zu bearbeiten. In diesem Fall ist die Ungewissheit U (Q1 |B ). Damit gilt also U (Q1 |C, B ) U (Q1 |B)
m
U (Q2 |B ) +
j =1
P (Aj |B ) U (Q1 |Aj , B ) U (Q1 |B) U (Q2 |B) U (Q1 |B)
P (Aj |B ) U (Q1 |Aj , B )

j =1
Daraus folgt
m
U (Q2 |B ) log2 N
j =1 m
P (Aj |B) log2 nj

m
j =1
P (Aj |B ) log2 N
j =1 m
P (Aj |B ) log2 nj .
j =1
P (Aj |B ) log2
nj N
Nun ist aber die Wahrscheinlichkeit, dass sich der Hauptgewinn im Eimer j bendet, n P (Aj |B ) = Nj =: pj , da alle Lose gleich-wahrscheinlich sind. Das liefert die Ungleichung
m
U (Q2 |B )
j =1
pj log2 (pj )
Wegen log2 x = ist zur
ln x ln 2
steht somit auf der rechten Seite ein Ausdruck der proportional
S HANNON -E NTROPIE
m
S ({pi }) =
i=1
pi ln(pi )
(15.1)
Wir hatten im Beispiel bereits gesehen, dass im Einzelfall, die Zahl der Fragen auf 7 ansteigt
209
Die Shannon-Entropie ist also ein Ma fr die Ungewissheit. Man bezeichnet S auch als Informationsgehalt.
15.2
Eigenschaften der Shannon-Entropie
Da 0 pj 1 gilt fr jeden Summanden pj ln(pj ) 0. Daraus folgt
S0
Wir untersuchen fr welche {pj } die Entropie (das Ma an Unsicherheit) unter der Nebenbedingung j pj = 1 maximal ist pi
m
S
j =1
pj 1 m .
= ln(pi ) 1 = 0
pi = Die zweite Ableitung liefert
1 2 S= <0 2 pi pi
Es handelt sich also in der Tat um das Maximum. Die Maximum-Entropie-Lsung (ME) ist also fr den Fall, dass nur die Normierungsbedingung vorliegt,
pME = i
1 m
Somit hat die Entropie tatschlich die gewnschte Eigenschaft, die wir im WrfelBeispiel gefordert hatten. Der Wert der Entropie der Maxent-Lsung ist
m
SMax =
j =1
1 1 ln( ) = ln(m) m m
Wenn als weitere Nebenbedingung der Mittelwert

m
1 =
j =1
j pj
210
vorgegeben ist, so erhalten wir die Maxent-Lsung aus pl

m m
S + 0
j =1
p j + 1
j =1
j pj
= ln(pl ) 1 + 0 + 1 l
pl = e1+0 +1 l 1 pl = q l . Z Wir haben neue Lagrange-Parameter Z und q eingefhrt, die ber die beiden Nebenbedingungen bestimmt werden mssen. Die Normierung liefert
m
Z=
i=1
qi = q
1 qm 1q
Das erste Moment ist 1 = =q

m i=1
i qi
d q dq
m i=1
qi
=q
d ln(Z ) dq
d (ln(q ) + ln(1 q m ) ln(1 q )) dq qm q = 1m + . m 1q 1q 1 =
m+1 . 2 Das entspricht genau dem ersten Moment, wenn alle Wahrscheinlichkeiten gleich sind, also fr 1 qi pi = = . Z m Die Werte q zu gegebenem 1 mssen numerisch, z.B. mit dem Newton-Verfahren, ermittelt werden. Fr einen Wrfel (L = 6) und den Mittelwerten 1 = {1.5, 2.5, 3.5, 4.5, 5.5} sind die ME-Lsungen der Wahrscheinlichkeiten Pj in Abbildung 15.1 dargestellt. Man erkennt das exponentielle Verhalten zu einem der beiden Rnder hin, sowie die ache Verteilung fr 1 = 3.5.
Fr q 1 erhlt man
15.3
Axiomatische Ableitung der Shannon-Entropie
Die folgende axiomatische Ableitung geht auf C. Shannon (1948) zurck. Auf diese Weise kommen wir von der unbefriedigenden Ungleichung weg. Das bedeutet aber auch, dass das Ma nicht exakt mit der Zahl der binren Fragen bereinstimmt. Das Ma der Ungewissheit einer Wahrscheinlichkeitsverteilung P = {P1 , . . . , PL } soll folgende Axiome erfllen:
211
1 1
1.5
0.8
0.6
Pj
0.4
2.5
0.2
3.5 4.5 5.5
Abbildung 15.1: Maxent-Lsungen der Wahrscheinlichkeiten Pj eines Wrfels zu vorgegebenem Mittelwert 1 . Eindeutigkeit Es existiert eine eindeutige Abbildung H (P ) der Wahrscheinlichkeitsverteilung auf die reellen Zahlen. Stetigkeit Die Abbildung H (P ) ist stetig in allen Pj . Kleine nderungen in den Pj sollen nicht zu groen nderungen in der Ungewissheit fhren.
1 1 Monotonie H ({ L ,..., L }) soll monoton mit L ansteigen. Common sense: Wenn es mehr gleich-wahrscheinliche Propositionen gibt, steigt die Ungewissheit ber den Ausgang des Experimentes.
Additivitt H ({P1 , P2 , P3 , . . . , PL }) = H ({P1 + P2 , P3 , . . . , PL }) P1 P2 + (P1 + P2 ) H ({ , }) P1 + P2 P 1 + P2
Das entspricht der Aufteilung von Losen auf Eimer. Es soll fr die Ungewissheit egal sein, ob man zuerst den Eimer und dann das Los in diesem Eimer bestimmt oder direkt das Los. i . Hier knnen die Pj R sein, nicht mehr nur rationale Zahlen n N Wir nutzen zunchst die Additivitt aus. Dazu gehen wir von einer Grobunterteilung (Eimer) mit Wahrscheinlichkeiten Pj aus. Zu jedem Index j gibt es eine Feinunterteilung der Wahrscheinlichkeiten in Pj {Pj,1 , . . . , Pj,Lj } .
212
Es gelten die Summenregeln

L
Pj = 1
j =1 Lj
(15.2a)
Pj, = 1
=1
(15.2b)
D.h., die Wahrscheinlichkeiten sind auch in jeder Zelle auf Eins normiert. Aus der Additivitt folgt H (P1,1 , . . . , P1,n1 , . . . , PL,1 , . . . , PL,nL ) =
L
H (P1 , . . . , PL ) +
j =1
Pj H (Pj,1 , . . . , Pj,nj )
Der erste Term beschreibt die Ungewissheit der Grobunterteilung. Der zweite Term ist so zu verstehen; Pj ist die Wahrscheinlichkeit, dass das gesuchte Los sich im Eimer j bendet und H (Pj,1 , . . . , Pj,Lj ) ist dann die Ungewissheit dieses Eimers (Fragen die fr diesen Eimer ntig sind). Da H (P ) stetig sein soll, gengt es, nur rationale Zahlen Pj = nj
j
nj
zu betrachten, da sie jeder reellen Zahl beliebig nahe kommen. Mit der Abkrzung N = j nj haben wir dann
1 L H (P ) = H ( n ,..., n ) N N
Wir unterteilen nun die Zelle j in nj gleich-wahrscheinliche Teile, das heit

1 1 ,... n Pj {Pj,1 , . . . , Pj,nj } = { n } j j nj
Es wurde hierbei die Normierung Gl. (15.2b) bercksichtigt. Aufgrund der Additivitt gilt
L 1 1 1 1 ,... N ,..., N ,... N ) H(N n1 nL
= H (P1 , . . . , PL ) +
j =1
1 1 ,..., n Pj H ( n ) j j nj
Die Eintrge 1/nj im Argument im letzten Ausdruck stehen deshalb, da dort normierte Wahrscheinlichkeiten einzutragen sind. Mit der Denition
1 1 ,..., m ) h(m) = H ( m m
(15.3)
213
wird hieraus
L
h(N ) = H (P ) +
j =1
Pj h(nj )
(15.4)
Nun whlen wir speziell nj = n mit 1 n = N M Damit erhalten wir

1 1 H (P ) = H ({ M ,..., M }) = h(M )
bzw.
N =nM
und Pj =
1 M
und somit gilt

L
h(nM ) = h(N ) = h(M ) +

j =1
Pj h(n)
=1
h(nM ) = h(M ) + h(n) Hieraus folgt unmittelbar h(1 M ) = h(M ) + h(1) Das heit h(1) = 0 . .
(15.5)
(15.6)
Das ist sehr sinnvoll, denn wenn es nur eine Mglichkeit n = 1 gibt, ist die Ungewissheit Null. Wir betrachten noch die spezielle Wahl n = M l , fr die wir h(M l+1 ) = h(M ) + h(M l ) h(M l ) = l h(M ) (15.7)
erhalten. Zur Lsung der Funktional-Gleichung Gl. (15.5), die eigentlich fr n N gelten soll, betrachten wir speziell n = 1 + mit innitesimalem . Wir werden anschlieend prfen, ob die so erhaltene Lsung auch fr alle n N gilt und ob sie eindeutig ist. Im Rahmen dieser versuchsweisen Lsung nehmen wir auch an, dass die Ableitung von h(x) existiert, dann erhalten wir aus Gl. (15.5) h(M + M ) = h(M ) + h (M )M = h(M ) + h(1 + ) = h(M ) + h(1) + h (1)
!
214
h (M )M = h(1) + h (1) h (M )M = h (1) =: dM dh(M ) = . M

Gl.(15.6)
h (1)
Die Lsung dieser Differentialgleichung liefert mit Gl. (15.6) (h(1) = 0) h(M ) = ln(M ) . (15.8)
Es bleibt zu prfen, ob die so gewonnene Gleichung tatschlich die Funktionalgleichung Gl. (15.5) fr natrliche Zahlen n, M erfllt. Einsetzen der rechten Seite von Gl. (15.8) in Gl. (15.5) liefert ln(nM ) = (ln(M ) + h(n))
?
Diese Gleichung wird offensichtlich von der Lsung Gl. (15.8) erfllt. Die Untersuchung der Eindeutigkeit der Lsung ist fr natrliche n, M nicht so einfach wie fr reelle. Wir betrachten hierzu die Primfaktorenzerlegung
M=
=1
m q
wobei q alle mglichen Primzahlen sind und m angibt, wie hug die Primzahl q in M vorkommt. Fr die Primzahlen, die in der Zerlegung von M nicht vorkommen ist m = 0. Die Primfaktorenzerlegung ist eindeutig! Einsetzen in Gl. (15.5) und verwenden von Gl. (15.7) liefert h(M ) = h(
m q ) Gl.(15.5)
m h(q )
Gl.(15.7)
m h(q )
Wir fhren die Abkrzung h = h(q ) ein. Fr n schreiben wir analog die Primfaktorenzerlegung
n=
=1
n q
Daraus folgt fr M n Mn =
m +n q
bzw. h(M n) =
(m + n ) h
Das knnen wir weiter umformen h(M n) =

h (M )
m h +
n h = h(M ) + h(n)
h(n)
215
Damit ist Gl. (15.5) fr beliebige Zuweisungen h = h(q ) fr die Primzahlen q erfllt. Fr die Eindeutigkeit bentigen wir Monotonie (Axiom 3). Es seien t, s N, t, s > 1 ln(t), ln(s) > 0 .
Fr hinreichend groe n existiert ein M , so dass ln(t) n+1 n M ln(s) M , (15.9)
ln(t) da sich jede reelle Zahl (hier ln( ) durch rationale Zahlen der angegebenen Form eins) schachteln lsst. Wir multiplizieren obige Gleichung mit M ln(s) und erhalten unter Ausnutzung der Monotonie des Logarithmus
n ln(s) M ln(t) (n + 1) ln(s) sn tM sn+1 . (15.10)
Nun soll nach Axiom 3 auch h(n) eine monoton steigende Funktion sein. Das heit fr Gl. (15.10) h(sn ) h(tM ) h(sn+1 ) nh(s) M h(t) (n + 1)h(s) h(t) n+1 n . M h(s) M Aus Gl. (15.9) und Gl. (15.11) folgt n ln(t) = + ln(s) M M h(t) n = + h(s) M M ln(t) h(t) | | 1 = ln(s) h(s) M M [0, 1] [0, 1] .
Gl.(15.7)
(15.11)
Da die letzte Ungleichung fr beliebige M gilt und M beliebig gro gewhlt werden kann, folgt daraus h(t) ln(t) = h(s) ln(s) h(t) h(s) = = konst ln(t) ln(s) h(s) = konst ln(s) .
216
Aus Gl. (15.4) folgt dann

L
H (P ) = h(N )
j =1
Pj h(nj )
L
= ln(N )
j =1 L
Pj ln(nj )
=
j =1 L
Pj (ln(nj ) ln(N )) nj ) = N
=
j =1
Pj ln(
Pj ln(Pj )
j
q.e.d.
Das Ma der Ungewissheit, das obige Axiome erfllt, ist demnach proportional zur Shannon-Entropie S . Wir bentigen nur die Wahrscheinlichkeitsverteilung, die dieses Funktional maximiert. Hierbei ist die Konstante irrelevant und statt H wird die Entropie maximiert. Deswegen heit dieses Prinzip auch das M AXIMUM E NTROPIE (M AXENT) Prinzip.
15.4 Eigenschaften der Entropie

N
S=
j =1
Pj ln(Pj )
Invariant gegen Permutation der Indizes. Das war ja auch gewollt, da ohne Nebenbedingungen kein Index ausgezeichnet sein soll. Es besteht zwischen den Wahrscheinlichkeiten Pi und Pj keine Korrelation. Die Hesse-Matrix ist diagonal. p ln(p) ist eine stetige Funktion im Intervall 0 p 1 S 0, da alle Summanden nicht negativ sind. S = 0 Pj = jj0 Entspricht Gewissheit.
1 N
S mit der Normierungsbedingung ist maximal fr Pj =
S ist unabhngig von unmglichen Propositionen Pj = 0. S ist konvex 2S 1 = ij Pj Pj Pi Das heit es gibt nur ein Maximum.
217
0.5
0.4
p ln(p)
0.3
0.2
0.1
0 0
0.2
0.4
0.6
0.8
Abbildung 15.2: Summand zur Shannon-Entropie
15.5
MaxentPrinzip
E.T.Jaynes schlug 19635 vor, Prior-Wahrscheinlichkeiten bei gegebenen berprfbaren Informationen durch Maximieren der Entropie unter Bercksichtigung der Nebenbedingungen zu bestimmen. 1984 gelang es Shore und Johnson6 aus Konsistenzberlegungen sowohl das Entropie-Funktional als auch das Maxent-Prinzip herzuleiten. Wir werden uns hier nur mit solchen Nebenbedingungen beschftigen, die sich in Gleichungen ausdrcken lassen. Es ist auch mglich, Ungleichungen zu inkorporieren. Wir betrachten berprfbare Information in der Form von Gleichungen {Pj } = 0, = 1, . . . , L , (15.12)
wobei L die Zahl der Nebenbedingungen angibt. Neben diesen Bedingungen ist in allen Fllen die Normierung
N j =1
Pj 1 = 0
(15.13)
zu erfllen. Das Maxent-Prinzip besagt, dass die Entropie unter Bercksichtigung der Nebenbedingungen zu maximieren ist. Die Nebenbedingungen knnen am bequemsten ber den Formalismus der Lagrange-Parameter bercksichtigt werden. Wir denieren die Lagrange-Funktion L=
j
Pj ln(Pj ) + 0 (
j
Pj 1) +
{P j }
(15.14)
Die Maxent-Lsung erhlt man aus der Nullstelle der Ableitungen nach Pj und die
5 6
E.T. Jaynes, papers on prob., stat. and stat.phys., academic press (83) Shore and Johnson, IEEE trans.inf.theory,26,1,84
218
Nebenbedingungen aus den Ableitungen nach den Lagrange-Parametern. L Pi Pi

j
i = =
Pj ln(Pj ) + 0 (
j
Pj 1) +
{P j } (15.15)
i = ln(Pi ) 1 + 0 +
! {P j } = 0 Pi .
ln(Pi ) = 1 + 0 +
{Pj } Pi
Die Lsung lautet also allgemein M AXIMUM -E NTROPIE -L SUNG 1 e Z

N
Pi = Z=
Pi
{Pj }
(15.16a) . (15.16b)
e
j =1
Pi
{Pj }
Die Normierung wurde bereits explizit ber die Zustandssumme Z sichergestellt. Die brigen Lagrange-Parameter sind so zu bestimmen, dass die Nebenbedingungen Gl. (15.12) erfllt sind. Von besonderer Bedeutung sind lineare Nebenbedingungen
N
{P j } =
j =1
Kj Pj
(15.17)
Die in Gl. (15.16a) und Gl. (15.16b) bentigten Ableitungen lassen sich dann leicht berechnen {Pj } = Ki Pi und wir erhalten (15.18)
219
M AXIMUM -E NTROPIE L SUNG BEI L INEAREN N EBENBEDINGUNGEN 1 e Z

N
Pj = Z=
Kj
(15.19a) . (15.19b)
e
j =1
Kj
In diesem Fall lassen sich die zustzlichen Nebenbedingungen ebenfalls elegant formulieren
N
=
j =1
Kj Pj
N Kj
1 = Z =
Kj e
j =1
ln(Z )
Formale hnlichkeit zur stat. Mechanik erweiterbar auf (Nichtgleichgewichts)-Thermodynamik7 weitere publizierte Anwendungen8 : Logistische Probleme, Volkswirtschaft, queuing theory, nichtlin. Spektralanalyse, Mustererkennung, Bildverarbeitung, Tomographie, Flssigkeitsdynamik, Wachstumsdynamik, ... Es stellt sich die Frage, ob es mehrere Lsung geben kann. Die Maxent-Lsung folgt aus der Nullstelle von i , der partiellen Ableitung der Lagrange-Funktion nach Pi . Wir bestimmen die zweite partielle Ableitung der Lagrange-Funktion, bzw. die partiellen Ableitung von i Gl. (15.15) mit Gl. (15.18) 2L i 2S 1 = = = ij Pi Pj Pj Pi Pj Pi .
Die Lagrange-Funktion ist also global konvex und besitzt von daher nur ein (globales) Maximum. Alternativ kann man auch sagen, i hngt nur von Pi ab und ist in dieser Variablen monoton fallend; also gibt es nur eine Nullstelle. Wir wollen nun einige Beispiele diskutieren.
7 8
W.T.Grandy, Foundations of stat.mech. I/II D.Reidel Publ., Kluwer (87) J.Kapur, Entropy Optimization Principle, academic Press (92)
220
15.6
Maxwell-Boltzmann-Verteilung
E =
j
Die einzige Nebenbedingung neben der Normierung sei Pj Ej . (15.20)
Das heit, jedem Ereignis wird ein Kostenwert (Energie) zugeordnet und als berprfbare Information sind die mittleren Kosten bekannt. Das sind genau die Voraussetzungen, die der Maxwell-Boltzmann-Verteilung in der statistischen Mechanik zugrunde liegen. Die Gre Kj in Gl. (15.17) ist Kj = Ej , 1 .
Damit lautet die Maxent-Lsung nach Gl. (15.19a) und Gl. (15.19b) M AXWELL -B OLTZMANN -V ERTEILUNG 1 Ei e Z Z= e Ej
j
Pi =
Der Lagrange-Parameter folgt aus der Nebenbedingung ln(Z ) ! = E .
Die Lsung ist, wie oben allgemein gezeigt, eindeutig. Es existiert jedoch nur dann eine Lsung, wenn Emin E Emax . Andere Mittelwerte sind nicht mit dem Modell kompatibel. Wenn man experimentell Abweichungen hiervon ndet, S M axent > S exp ,
dann heit das, dass weitere Nebenbedingungen existieren. Anwendungsbeispiel aus der Flssigkeitsdynamik: Pi sei das Verhltnis von Tropfen der Masse mi an der Gesamtmasse m, die pro Zeiteinheit erzeugt werden, wenn Flssigkeit mit einer Rate m und einer konstanten
221
Tropfenrate n aus einer Dse heraustritt. Die Nebenbedingung (neben der Normierung) erhalten wir folgendermaen. Die Flssigkeitsmasse m, die in der Zeiteinheit t austritt, enthlt nj Tropfen der Masse mj und betrgt demnach nj mj = m
j
Die Teilchenzahl nj erhalten wir aus der gesamten Teilchenzahl n, die pro Zeiteinheit austritt, ber die Beziehung nj = n Pj Damit haben wir Pj mj n = m
j
Division durch t liefert schlielich n

j
Pj m j = m
Die Maxent-Lsung lautet dann Pi = 1 nm e i Z
15.7
Bose-Einstein-Verteilung
Wir nehmen nun an, dass wir nicht genau wissen, wieviele Teilchen sich in einem betrachteten Volumen benden. Als berprfbare Information sei weiterhin die mittlere Energie bekannt. Hinzukommt als Nebenbedingung die mittlere Teilchenzahl. Pin sei die Wahrscheinlichkeit, n Teichen im Zustand i mit der Energie Ei anzutreffen. Die Normierungs-Nebenbedingungen lauten
Pin = 1 i
n=0
(15.21)
Die mittlere Zahl (B ESETZUNGSZAHL) an Teilchen im Zustand i ist ni =

n
n Pin
(15.22)
Die mittlere Teilchenzahl ist damit
n Pjn = N
j n=0
(15.23)
222
Schlielich lautet die letzte Nebenbedingung
Ej nj =
j j
Ej
n=0
n Pjn = E
(15.24)
Die Entropie sieht nun leicht anders aus, da die Ereignisse durch ein Index-Paar (in) gekennzeichnet sind S= Pjn ln(Pjn ) . (15.25)
jn
Die Lagrange-Funktion lautet L = S

j
0,j (
m
Pjm 1) 1 (
jm
m Pjm N ) 2 (
jm
Ej m Pjm E )
Die Ableitung nach Pin liefert L ! = ln Pin 1 0,i 1 n 2 n Ei = 0 Pin 1 n(1 +2 Ei ) . Pin = e Zi Die Normierung Gl. (15.21) ergibt

(15.26)
Zi =
n=0
n(1 +2 Ei )
=
n=1
e(1 +2 Ei )
1 1 e(1 +2 Ei )
Daraus folgt Pin = 1 e(1 +2 Ei ) en (1 +2 Ei ) Daraus berechnen wir die Besetzungszahl
(15.27)
ni =
n=0
n Pin
= 1 e(1 +2 Ei ) = 1 e = 1 e = 1 e = 1 e1 +2 Ei 1
n=0
n en (1 +2 Ei ) en
n=0 =1 +2 Ei
1 1 e e (1 e )2 .
=1 +2 Ei
=1 +2 Ei
223
Mit Symbolen fr die Lagrange-Parameter, die in der statistischen Physik blich sind, erhalten wir B ESETZUNGSZAHLEN DER B OSE -E INSTEIN -V ERTEILUNG ni = 1 e (Ei ) 1 . (15.28)
Die Parameter und folgen aus den Nebenbedingungen fr E und N . Anwendung in der BWL Es werden drei Produkte mit den Kosten (in beliebigen Einheiten) Ki = {50, 7.5, 1} hergestellt. Die Kosten entsprechen den Energien Ei . Pro Monat sei die mittlere Zahl der Produkte N = 275 und die mittleren Kosten betragen K = 829 .
Wenn das die einzige Information ist, wie ist dann die mittlere Zahl der einzelnen Produkte, d.h. die Besetzungszahl? Die Maxent-Lsung liefert ni = {6, 40, 229} .
15.8
Fermi-Dirac-Verteilung
Der einzige Unterschied zu den Voraussetzungen der BE-Verteilung ist die Bedingung, dass in jedem Zustand i nur 0 oder 1 Teilchen sein kann. Da ansonsten alles gleich bleibt, erhalten wir dieselbe allgemeine Lsung wie in Gl. (15.26). Die Normierung ist nun aber anders zu berechnen
1
Zi =
n=0
en(1 +2 Ei ) 1 1+ e(1 +2 Ei )
= 1 + e(1 +2 Ei )
Pin =
en (1 +2 Ei )
(15.29)
224
Die Besetzungszahl liefert ni = =

1 n=0
n en (1 +2 Ei ) 1 + e(1 +2 Ei )
e (1 +2 Ei ) 1 + e(1 +2 Ei ) 1 = (1 +2 Ei ) e +1
Mit den in der statistischen Physik blichen Symbolen liefert das B ESETZUNGSZAHLEN DER F ERMI -D IRAC -V ERTEILUNG ni = 1 e (Ei ) +1 . (15.30)
15.9
Vergleich mit Zufallsexperiment
Die Anwendung des Maxent-Prinzips ist nicht darauf angewiesen, dass die gesuchte Verteilung das Ergebnis eines Zufallsexperiments ist. Falls es aber ein Zufallsexperiment gibt, sollte es eine enge Beziehung zum Maxent-Ergebnis geben. Maxent Eine Zufalls-Variable x soll die Werte {1 , . . . , N } annehmen knnen. Die berprfbare Information fr die Wahrscheinlichkeiten Pi , mit denen diese Werte angenommen werden, mge der Einfachheit halber lineare Nebenbedingungen liefern =
i
Pi K (i ),
= 1, . . . , L
Die Wahrscheinlichkeitsverteilung, die diese Nebenbedingungen erfllt, sonst aber frei von weiteren Bedingungen ist, ist die Maxent-Verteilung. Zufallsexperiment Die Werte von x werden in einem Zufallsexperiment ermittelt. Das Zufallsexperiment liefere die Stichprobe 1 , . . . , M , mit l {1 , . . . , N } .
225
Die Nebenbedingung fordert 1 = M

M
K (l ),
l=1
= 1, . . . , L
Wir ermitteln die Hugkeit mi , mit der die einzelnen Werte i in der Stichprobe vorkommen und sortieren die Summe nach den angenommenen Werten i um = 1 M
N
mi K (i )
i=1
Die Nebenbedingungen lauten dann

N
mi = M
i=1 N
(15.31) = 1, . . . , L .
mi K (i ) = M ,
i=1
Wie wird die Hugkeitsverteilung mi aussehen, die in zuknftigen Zufallsexperimenten am hugsten vorkommen wird? Dazu mssen wir bercksichtigen, dass die Hugkeitsverteilung aus den Stichproben 1 , . . . , M ermittelt wird. Die Elemente der Stichprobe sollen aber unkorreliert sein, da nichts anderes bekannt ist. Das ist eine wichtige Annahme! Wenn etwas ber die Korrelation bekannt ist, muss das bercksichtigt werden. Erlaubte Stichproben sind solche, deren Hugkeitsverteilung die Nebenbedingungen Gl. (15.31) erfllt. Die Anzahl der Sequenzen ist durch den Multinomialkoefzienten gegeben N (m, M ) = M! i mi .
Unter allen Hugkeitsverteilungen m, die mit dem Vorwissen vertrglich sind, kommen diejenigen bei wiederholten Zufallsexperimenten am hugsten vor, fr die N (m, M ) am grten ist. Das bedeutet, dass die wahrscheinlichste Hugkeitsverteilungen m aus der Variationsrechnung max ln (N (m, M ))
m
& Nebenbedingungen
(15.32)
Wenn M, mi 1 , dann kann die Stirling-Formel Gl. (4.5b) auf die Fakultten angewandt werden ln(mi !) mi ln(mi ) mi + ln( 2 ) .
226
Daraus ergibt sich

N
ln(N (m, M ))
M ln(M ) M
i=1 N
(mi ln(mi ) mi )
N
= M ln(M ) M
i=1
mi ln(mi ) +
i=1
mi
=M
= M ln(M )
i=1 N
mi ln(mi )
N
=
i=1
mi ln(M )
i=1 N
mi ln(mi )
= M
i=1 N
mi mi ln( ) M M i ln(P i ) P . MS
= M
i=1
Damit entspricht die wahrscheinlichste Verteilung des Zufallsexperiments, die ber Gl. (15.32) ermittelt wird, genau der Maxent-Lsung. Es stellt sich die Frage, wie relevant die wahrscheinlichste (Maxent) Lsung ist, bzw. wie breit die Verteilung der m ist. Es wurde von E.T.Jaynes im sogenannten E NTROPIE K ONZENTRATIONSTHEOREM gezeigt, dass fr groen Stichprobenumfang M die mit den Nebenbedingungen vertrglichen Hugkeiten m zu Werten x = 2M (Smax S ) fhren, die einer 2 -Verteilung mit = N L 1 Freiheitsgraden gengen. Das heit, fr M N ist das Intervall, in dem mit der Wahrscheinlichkeit die Entropie-Werte liegen werden, 2 () Smax , Smax . 2M Nun ist 2 () , das heit das Entropie-Intervall geht mit zunehmendem M gegen Null. Das bezeichnet man als Entropie-Konzentrationstheorem, da die Hugkeitsverteilungen m mit zunehmendem Stichprobenumfang Entropie-Werte in der Nhe des Maximalwertes haben und somit der Maxent-Verteilung entsprechen.
227
228
Kapitel 16 Maxent bei kontinuierlichen Variablen

Fr den diskreten Fall ist die Entropie durch
N
SD =
j =1
Pj ln(Pj )
gegeben. Die Variable i soll nun zu einer kontinuierlichen Gre werden. Hierbei geht Pj ber in P (xj ) = p(xj ) xj . Der Abstand xj der Punkte xj geht mit N wie 1/N gegen Null. Wir denieren hierzu 1 1 . xj = m(xj ) N Die Bedeutung von m(xj ) ist m(xj ) = lim Es gilt
N N N
1/N Zahl der Zustnde in xj = xj Intervall-Lnge
Ma
m(x) dx = lim Damit wird aus der Entropie

N
m(xj ) xj = lim
j =1
j =1
1 =1 N
S =
j =1 N
xj p(xj ) ln (p(xj ) xj ) p(xj ) m(xj )N p(xj ) m(xj )

N
=
j =1 N
xj p(xj ) ln
=
j =1
xj p(xj ) ln
+ ln(N )
j =1
xj p(xj )
=1
229
Man deniert die Entropie fr kontinuierliche Freiheitsgrade als Grenzwert
S C := lim (S D ln(N ))
N
(16.1)
Die Konstante hat keinen Einuss auf die Maxent-Lsung. Die Entropie ist somit E NTROPIE FR
KONTINUIERLICHE
F REIHEITSGRADE
SC =
p(x) ln
p(x) m(x)
dx,
m(x) : invariantes Ma
Nur mit der Normierungsbedingung ist die Maxent-Lsung, wie wir gleich sehen werden, identisch zu m(x). Da keine weitere Information bzgl. p(x) vorliegt, muss diese Lsung mit der uninformativen Prior-Verteilung bereinstimmen. Deshalb nennt man sie INVARIANTES M ASS. Die Entropie wird auch RELATIVE E NTROPIE, C ROSS -E NTROPY und K ULLBACK -L EIBLER -E NTROPIE bezeichnet. Sie hat die Bedeutung des Abstands D(p : m)
im Raum der Wahrscheinlichkeitsdichten zwischen der Wahrscheinlichkeitsdichte p(x) und dem Aufpunkt m(x). Hierfr gilt allerdings nicht die Dreiecksungleichung. Wie im Fall diskrete Freiheitsgrade besteht die Maxent-Lsung darin, die Entropie unter Bercksichtigung der Nebenbedingungen
{p(x)} = 0,
= 1, . . . , L
zu maximieren. Dazu denieren wir wieder die Lagrange-Funktion
L=
p(x) ln
p(x) m(x)
dx 0
p(x) dx 1
{p(x)}
. (16.2)
230
Die Maxent-Lsung erhlt man aus der Nullstelle der Funktionalsableitung 0= L p(x) = p(x) 0 = ln ln p(x) m(x) p(x) m(x)
p(x ) ln
p(x ) m(x )
dx {p(x)}
p(x ) dx 1 1 0
{p(x)} p(x) .
= 1 0
{p(x)} p(x)
Wir beschrnken uns wieder auf lineare Nebenbedingungen {p(x)} = p(x) K (x) dx , = 1, . . . , L
Die Funktionalableitung ist in diesem Fall {p(x)} = K (x) p(x) Die Maxent-Lsung lautet also allgemein M AXENT-L SUNG BEI L INEAREN N EBENBEDINGUNGEN FR KONTINUIERLICHE F REIHEITSGRADE 1 m(x) e Z m(x) e .
p(x) = Z=
K (x)
(16.3a) dx . (16.3b)
K (x)
Auch in in diesem Fall lassen sich die zustzlichen Nebenbedingungen elegant formulieren = = 1 Z K (x) p(x) m(x) K (x) e ln(Z ) .
K (x)
231
Es seinen z.B. die unteren Momente der Wahrscheinlichkeitsdichte p(x) vorgegeben. = xn = xn (x)dx
Momente 1
0
(x)
0
(x)
0 0 2
(x)
0 0 2
(x)
0 0 2
(x)
1 0 -1,0 -0,5 0,0 0,5 1,0
13
x
Abbildung 16.1: Maximum-Entropie Lsung des Momenten-Problems.
232
Weitere einfache Beispiele sind Barometrische Hhenformel Gesucht sei die Wahrscheinlichkeit p(z ), Teilchen der Masse m in der Hhe z (mit z [0, )) im Schwerefeld der Erde anzutreffen. Neben der Normierung sei die mittlere potentielle Energie bekannt = Ep = mg p(z ) z dz = 1 mg .
Das die mittlere Energie kT = 1/ ist, folgt natrlich aus physikalischen berlegungen. Als invariantes Ma verwenden wir die ache Verteilung und erhalten als normierte Maxent-Lsung p(z ) = 1 z e Z 1 Z= .
Die Nebenbedingung verlangt d d 1 ! ln(Z ) = ln() = + = d d 1 = .
Damit haben wir das aus der statistischen Mechanik bekannte Ergebnis B AROMETRISCHE H HENFORMEL p(z ) = m g e m g z . (16.4)
Gau-Verteilung Wir suchen die Wahrscheinlichkeitsdichte p(x), mit x (, ). Es seien die unteren zwei Momente, Mittelwert und Varianz 2 einer Verteilung gegeben. Die MaxentLsung ist 1 2 p(x) = e1 x2 x . Z Das lsst sich immer quadratisch ergnzen und in die bereits korrekt normierte Form p(x) =
(xb)2 1 e 2 a 2a
233
bringen. Damit liegt bereits eine Normal-Verteilung vor, von der wir wissen, dass der Mittelwert b und die Varianz a betrgt. Also ist die zu den ersten zwei Momenten gehrige Maxent-Lsung die Normalverteilung mit diesen Momenten. Ein Spezialfall hiervon ist die Maxwellsche Geschwindigkeitsverteilung, bei der die kinetische Energie der Teilchen, also das zweite Moment, bekannt ist. Die Maxent-Ableitung liefert eine weitere Erklrung, warum die Gau-Funktion allgegenwrtig ist. Diese Erklrung setzt nicht voraus, anders als der zentrale Grenzwertsatz, dass die Gre x eine Summe i.u.nv. Zufallszahlen ist und dass sehr viele Summanden beitragen. Die einzige Voraussetzung ist, dass nur die unteren Momente bekannt oder berhaupt mit hinreichender Genauigkeit bestimmbar sind. Multivariate-Normal-Verteilung Fr die Variable x RN wird die Wahrscheinlichkeitsdichte p(x) gesucht. Als exakte Information seien die Mittelwerte i = und die Kovarianzen Cij = xi xj p(x) dN x (16.6) xi p(x) dN x, i = 1, . . . , N (16.5)
mit xi = xi i gegeben. Die Lagrange-Funktion ist in diesem Fall L= p(x) ln p(x) m(x)
i=1 N
dN x 0
N
p(x) dN x xi p(x) dN x i
ij
i,j =1
xi xj p(x) dN x Cij
Die Funktionalableitung nach p(x) liefert p(x) L = ln( ) 1 0 p(x) m(x) Aus der Nullstelle folgt p(x) = m(x) e Z
i
i x i
i=1 ij
ij xi xj
i xi
ij
ij xi xj
Wir gehen wieder von einer achen Verteilung m(x) aus und modizieren den ersten Term zu p(x) = 1 e Z
i
i xi
ij
ij xi xj
234
Damit die Nebenbedingung Gl. (16.5) erfllt ist, muss gelten xi p(x) dN x = 0 .
Das wiederum gilt nur, wenn i = 0 ist. Damit lautet die vorluge Maxent-Lsung p(x) = 1 e Z
ij
ij xi xj
(16.7)
Das ist eine multivariaten Normalverteilung von der wir die Kovarianz aus Gl. (9.28a) kennen. Damit die Kovarianz-Nebenbedingung Gl. (16.6) erfllt ist, muss also gelten M AXENT-L SUNG : M ITTELWERTE UND K OVARIANZ p(x) = (2 |C |) 2 e 2 x
N 1 T C 1 x
GEGEBEN
(16.8)
235
236
Kapitel 17 Das invariante Riemann-Ma

Wir hatten bereits das Transformations-Invarianz-Prinzip besprochen, um uninformative, invariante Prior-Wahrscheinlichkeit zu bestimmen. Die uninformative Prior-Wahrscheinlichkeit von Parametern a hngt natrlich von ihrer Bedeutung ab. Ein und derselbe Buchstabe, z.B. kann je nach Problem unterschiedliche Bedeutungen und demnach unterschiedliche Invarianz-Eigenschaften haben. Diese werden eindeutig durch die Likelihood-Funktion festgelegt. Es macht daher wenig Sinn zu fordern, dass eine Prior-Wahrscheinlichkeit in willkrlichen Parametern ach sein soll. Aber es macht durchaus Sinn, zu verlangen, dass die Wahrscheinlichkeitsdichte so sein muss, dass alle Likelihood-Verteilungen
p(d|a, B )
im Raum der Wahrscheinlichkeitsdichten p(d), die man als Riemannsche Mannigfaltigkeiten auffassen kann, gleich-wahrscheinlich sind. Mit einigen berlegungen aus der Differential-Geometrie kann man daraus ableiten, dass
1
p(a|B ) = |g | 2 gij = =
p(d|a, B )
2 ln (p(d|a, B )) dN d ai aj
2 ln (p(d|a, B )) ai aj
Die Riemann-Metrik g ist auch gleichzeitig die Fisher-Informations-Matrix. Der Vorteil dieses Zuganges ist, dass man sich nicht berlegen muss, gegen welche Transformationen das Problem invariant ist. Diese Information wird von der Likelihood
237
implizit geliefert und im Riemann-Ma automatisch implementiert. p(a|B ) da = |g (a)| da =

1 2
2 ln (p(d|a, B )) ai aj
1 2
da
1 2
am an = ai aj
1 2 1
2 ln (p(d|a , B )) am an
1 2
da
= J 1 g (a ) J 1 = |g (a )| J 1 da = |g (a )| 2 da
da
= p(a |B ) da
Die so denierte Wahrscheinlichkeitsdichte p(a|B ) ist somit in der Tat invariant gegen Re-Parametrisierung.
238
Kapitel 18 Fehlerbehaftete berprfbare Information

Der hugste Fall ist, dass die Daten, die zur Verfgung stehen, verrauscht sind, egal ob sie von Computersimulationen oder echten Experimenten stammen. Wir wollen nun eine formlose Rekonstruktion von Verteilungsfunktionen ableiten. Zu Beginn wollen wir uns die Problematik vor Augen fhren. Angenommen wir sind am Vektor interessert, der mit dem Datenvektor d ber eine Matrix M verknpft ist: M =d In der Regel sind die Daten d von einem Rauschen berlagert. In vielen Fllen ist zustzlich die Matrix M schlecht konditioniert, was bedeutet, dass das Verhltnis vom hchsten zum niedrigsten Eigenwert sehr gro ist. Damit kann man das Gleichungssystem M =d+ (18.1) durch direktes Invertieren nicht lsen, da kleine Eigenwerte von M das Rauschen berproportional verstrken. Das kann man leicht einsehen, wenn man annimmt, dass M eine quadratische Matrix ist, die man in der Form M=
i
ai u i u T i
schreiben kann, wobei ai die Eigenwerte und ui die Eigenvektoren sind. Wendet man die Inverse von M auf Gl. (18.1) an, erhlt man M 1 (d + ) =
i
1 u uT (d + ) = + ai i i
ui
i
uT i ai
wobei die exakte Lsung ist. Gibt es einen groen berlapp uT i zwischen einem Eigenvektor uT mit kleinem Eigenwert a und dem Rauschvektor , wird der Fehi i ler stark verstrkt. Stammt M von einer experimentellen Aparatefunktion, (??? general point spread function ???), so oszillieren die Eigenfunktionen kleiner Eigenwerte stark. Damit ist der berlapp uT i mit dem Rauschen gro.
239
0.6 0.4 0.2

2
0
0 1 0 1 1 0.5 0
0.2
1
0.4 0.6 1 0.5 0 0.5 1
0.5
Abbildung 18.1: Gaufrmige Apparatefunktion (links) und die Eigenvektoren zum grten (strichliert) und den beiden kleinsten Eigenwerten. Man erkennt deutlich die starken Oszillationen der Eigenvektoren zu den kleinsten Eigenwerten. Das sieht man schon am typischen Beispiel fr eine Apparatefunktion, nmlich an der Gauschen Glockenkurve. Wir nehmen an, die gewnschten physikalischen Gren (x) werden durch eine Messapparatur M (x, x ) auf die Daten d(x) durch d(x) = M (x, x ) (x) dx mit M (x, x ) = e |xx |
2
( > 0) abgebildet (Faltung). Eine einfache Diskretisierung der Funktionen (di = d(xi )) und des Integrals liefert den linearen Zusammenhang di =
j
Mi,j j
mit der Matrix Mi,j =
e |xi xj | .
Nimmt man an, dass x [1, 1] und diskretisiert das Intervall in 80 Punkte, so ergibt sich fr = 10 die in Abb. 18.1 gezeichnete Apparatefunktion. Der kleinste Eigenwert von M ist 1014 also beinahe 0, der grte ist 84. Man erkennt in Abb. 18.1, dass die Eigenvektoren zu den kleinen Eigenwerten stark oszillieren und deshalb stark ans Rauschen ankoppeln. Ein Beispiel eines solch schlecht konditionierten Problems in der Vielteilchenphysik ist die Rekonstruktion der Spektralfunktion A( ) aus der gemessenen (berechneten) Greenschen Funktion g ( ), die ber eine Laplace-Transformation
g (i ) =
0
A( ) ei d
(18.2)
miteinander verknpft sind. Hier entspricht die Greensche Funktion g ( ) den Daten d(.), die Spektralfunktion A( ) ist die Funktion (.) und die Abbildung M ist durch Integration ber die Exponentialfunktion ei gegeben.
240
8 x 1e+16 6
1.5
2 0
0.5
2 4
0 0
10
6 0
0.5
1.5
Abbildung 18.2: Die glatte Kurve im linken Bild wird vom glatten Peak im rechten Bild erzeugt. Beim Invertieren reicht minimales Rauschen (meist gengt schon das Rechnen mit endlicher Genauigkeit) von g ( ) aus, um das Rekonstruierte A( ) unbrauchbar zu machen. Der exponentielle Anteil des Integranden fllt mit wachsendem stark ab, wodurch der entsprechende Anteil von A( ) kaum zum Ergebnis g (i ) beitrgt. Umgekehrt kann man bei gegebenem g (i ) kaum etwas ber diesen Anteil von A( ) sagen. Noch schlimmer, da die Abbildung schlecht konditioniert ist die grte Eigenwert im Beispiel Abbildung 18.2 ist rund 74, der kleinste 3 1019 ergibt eine direkte Invertierung von Gl. (18.2) ein vllig unbrauchbares, stark oszillierendes Ergebnis. Da der direkte Zugang nicht zum Erfolg fhrt, whlt man einen wahrscheinlichkeitstheoretischen. Man fragt nach der wahrscheinlichsten Funktion (.) gegeben die Daten d(.). Die Anwendung des Bayesschen Theorems liefert p((.)|d(.), B ) = 1 p(d(.)|(.), B ) p((.)|B) Z . (18.3)
Die Schwierigkeit besteht nun darin, den Prior p((.)|B) zu bestimmen.
Bestimmung des Priors p((x)|B ) Die folgende Vorgangsweise wird QUANTIFIED MAXIMUM ENTROPY (QME) genannt. Als Vorraussetzung geht ein, dass man die gesuchte Funktion (x) als Wahrscheinlichkeitsdichte interpretieren kann, das heit, dass (x) POSITIV ist. Unser Ziel ist es, die Wahrscheinlichkeitsdichte p((x)|d, B ) zu berechnen, dass die Verteilungsfunktion (x) die echte ist, gegeben die Nd Datenpunkte d . Die Prozedur kann in vier Schritte unterteilt werden. Schritt eins Wir DISKRETISIEREN den Raum x, indem wir ihn in N Untermengen aufteilen. Oft sind die aus den Messdaten zu berechnenden Gren bereits diskret,
241
dann muss nichts gemacht werden. Ist der x-Raum jedoch wirklich kontinuierlich, integrieren wir ber bestimmte Volumselemente Vi , um ein diskrete Menge zu erhalten (x) i = (xi ) Vi . Diese diskrete Menge wird P IXELMENGE genannt. Schritt zwei Im sogenannten Q UANTISIERUNGSSCHRITT suchen wir eine kleinste Einheit , sodass, gemessen in dieser Einheit, sich die i durch ganze Zahlen ausdrcken lassen: i n i mit i ni . (18.4) Manchmal sind die Ergebnisse aus physikalischen Grnden schon Vielfache einer natrlichen Einheit . Schritt drei Als nchstes mssen wir eine P RIOR -WAHRSCHEINLICHKEIT P (n|B ) zuweisen, ohne die Daten d zu kennen. Dazu fhren wir die mittlere Zahl i in jedem Pixel i als D EFAULT-M ODELL ein. Wir nehmen nun an, dass A PRIORI die Dichte (x) dadurch entsteht, dass eine gewisse Anzahl von Einheiten zufllig auf der reellen Achse verteilt wird. Als Nebenbedingung dieses Verteilungsprozesses soll nur gelten, dass im Mittel in jedem Pixel i genau i dieser Einheiten sind. Dann ist die Wahrscheinlichkeit, dass A PRIORI die Zahlen ni auftreten durch eine Poisson-Verteilung gegeben: i n P (ni |i , B ) = i ei , ni = 0, 1, 2, . . . ni ! Die Wahrscheinlichkeit, dass ein Pixel eine weitere Einheiten dazubekommt, ist unabhngig von den schon verteilten s. Aus dem Bild ergibt sich, dass die einzelnen Pixel unkorreliert sind. Die kombinierte Wahrscheinlichkeit P (n|, B ) fr alle N Pixels ist daher durch das Produkt
N N
P (n|, B ) =
i=1
P (ni |i , B ) = e
i i=1
i n i ni !
gegeben. Da wir uns in allen weitern Schritten auf das Default-Modell beziehen, nehmen wir es in den Bedingungskomplex B auf und schreiben in Zukunft statt P (n|, B ) kurz P (n|B ). Wir nhern die Fakultt mittels der Stirlingschen Formel n! 2 n nn en und fhren fr die Normalisierungskonstante die Abkrzung Z ein. Damit erhalten wir P (n|B) = 1 Z 1
i
ni
N i=1
ni i ni log(ni /i )
(18.5)
Der Exponent in diesem Ausdruck ist eine Verallgemeinerung der S HANNON E NTROPY (Gl. (15.1)) und wird deshalb mit S bezeichnet. Diese Verallgemeinerung kommt dadurch zustande, weil wir uns auf ein Default-Modell beziehen (hnlich
242
dem invariantem Ma bei kontinuierlichen Variablen). S ist eine Summe ber die Entropien Si jedes einzelnen Pixels
N N
S=
i=1
Si =
i=1
ni i ni log(ni /i )
Schritt vier Im letzten Schritt machen wir die Quantisierung rckgngig und gehen damit auf kontinuierliche Gren i und mi fr jedes Pixel i = 1, . . . , N ber. ni = i mi i = (18.6)
Das Default-Modell wird jetzt von den Gren mi getragen. Der Prior fr ni , Gl. (18.5), und damit der Prior fr i kann durch i und mi ausgedrckt werden. Einsetzen von Gl. (18.6) in Gl. (18.5) liefert p(|B) = 1 Z 1
i
1 = Z () mit der Entropie

N N
i 1
i
e i e
i mi i log(i /mi )
(18.7)
S
S=
i=1
Si =
i=1
i mi i log(i /mi )
(18.8)
1 Wir haben den Parameter = eingefhrt. Da er ein zustzlicher, nicht bekannter und damit unerwnschter Parameter ist, wird er auch NUISANCE PARAMETER oder H YPER -PARAMETER genannt. Er wird spter nher bestimmt (noch besser ausintegriert) werden mssen. Einstweilen notieren wir seine Existenz, indem wir ihn hinter dem Bedingungsstrich aufnehmen.
Mit dem Aufnden des Priors p(|B ) ist die Grundlage des QME gelegt worden. Der Rest ist nur noch reines Anwenden der Bayesschen Wahrscheinlichkeitstheorie, wie es schon viele Male gezeigt worden ist. Da jedoch einige technische Details zu beachten sind, sollen die einzelnen Schritte vorgezeigt werden. Zuerst jedenfalls muss der Prior normiert werden. Normierung des Priors in Steepest-Descent-Nherung Die Normierung von p(|, B ) kann man numerisch oder analytisch durchfhren. Letzteres wird nur ber Nherungen mglich sein, wobei wir die S TEEPESTD ESCENT-Nherung verwenden wollen.
243

Abbildung 18.3: Illustration der Steepest-Descent-Methode: Das Ma () ist im Vergleich zum Exponentialfaktor sehr ach.
Steepest-Descent-Nherung: Diese Methode wendet man an, wenn der Integrand ein Produkt eines schwach vernderlichen Maes () mit einem scharf gepeakten Faktor exp(()) ist. Man bestimmt das Maximum des Exponenten () und entwickelt ihn um bis zur zweiten Ordnung in ein Taylor-Polynom. Das ist in Abbildung 18.3 schematisch dargestellt. Die Entwicklung ist durch
() ( )+ 1 2
i,j
() d ( )
RN
i
i j
gegeben. Diese Approximation ist immer dann gerechtfertigt, wenn das Maximum scharf gepeakt ist und alle Eigenwerte der Matrix 2 i j
kleiner als Null sind (sonst konvergiert das Integral nicht). Da in unserem Fall die Funktion () konvex ist, ist diese Forderung erfllt. Wir denieren die positive denite Hessematrix Hij 2 Hij = (18.9) i j und fhren die Integration ber RN aus. Das fhrt zu folgender Nherungsformel
0
e() () d ( ) e( ) (2 )N/2 |H |1/2
(18.10)
244
Der Normierungsfaktor Z (): Wir wollen Gl. (18.10) nun benutzen, um den Normierungsfaktor Z () aus Gl. (18.7) zu bestimmen. Dazu schauen wir uns die Entropie S nher an. Sie besteht aus einer Summe
N
S=
i=1
i mi i log
i mi
in der jeder Summand nur aus Beitrgen eines Pixels besteht, d.h. es werden keine Korrelationen zwischen den Pixels bercksichtigt. Permutationen des Index i haben keinen Einuss, somit wird Stetigkeit von der rekonstruierten Verteilung nicht gefordert. Diese spezielle Form bewirkt auch, dass die Norm Z () zu 1
i N 0 (i mi i log
i ) mi
Z () =
d =
i=1
di i
faktorisiert. Fr die Steepest-Descent-Nherung bentigen wir das Maximum jedes Terms Si : i Si i = 1 1 log =0 Si = i mi i log mi i mi Die Lsung i = mi ist unser Default-Modell. Die Matrix der zweiten Ableitungen ist diagonal und ergibt sich zu 2S 2 i = 1 i = 1 mi .
i = i =mi
i = i =mi
Nun knnen wir das Taylor-Polynom zweiter Ordnung eines Entropie-Terms Si um das Maximum i = mi angeben: Si (i ) = 0 1 2 i , 2 mi mit i = i mi
Der Faktor 1i entspricht dem Ma () in der Steepest-Descent-Nherung Gl. (18.10) und wird am Maximum vor das Integral gezogen. Damit erhalten wir
N
Z () =
i=1
1 mi
1 2
2 i mi /
di =
i=1
1 mi
2 mi / = (2 )N/2 N/2
Insgesamt erhalten wir fr den Prior bei gegebenem in der Steepest-DescentNherung
245
E NTROPISCHER P RIOR p(|, B ) = (2 )N/2 mit S=

i=1 N
N/2 S e i i i mi .
(18.11)
i mi i log
Die Posterior-Wahrscheinlichkeitsdichte p(|d, B ) Nachdem wir den Prior fr bestimmt haben, wollen wir die Wahrscheinlichkeitsdichte p(|d, B ) fr im Lichte der Daten d berechnen. Nach Marginalisierung und Anwenden der Produktregel erhalten wir p(|d, B ) = = p(, |d, B ) d (18.12) p(|, d, B ) p(|d, B ) d .
Als Funktion von ist der erste Faktor p(| d, B ) ach im Vergleich zum Faktor p(|d, B ), der schon bei wenigen Daten scharf gepeakt ist. Deshalb nhern wir das Integral durch p(|d, B ) p(| , d, B ) p(|d, B ) d = p(| , d, B )
=1
(18.13)
wobei jenes ist, das p(|d, B ) maximiert. Diese Nherung wird E VIDENZ N HERUNG genannt. Setzen wir das in Gl. 18.3 ein, so erhalten wir in dieser Nherung p(d|, B ) p(| , B ) p(|d, B ) = p(|d, , B ) = . (18.14) p(d|B ) Nun mssen wir noch berechnen, wozu wir p(|d, B ) kennen mssen. Diese Dichte bestimmen wir abermals durch Marginalisierung und Anwenden der Produktregel: p(|d, B ) = = p(, |d, B ) d = 1 p(d|B ) 1 p(d|B ) p(, , d|B ) d
p(d|, , B ) p(|, B ) p(|B) d
246
*,+-'/.10 2354
"!$#%&
')(
9 '
Abbildung 18.4: Qualitatives Verhalten der Funkton p(|d, B ).
Die Wahrscheinlichkeitsdichte p(d|, , B ) hngt nicht von ab, da bei gegebenen Dichten und Bedingungskompex B die Daten d bestimmt sind. Daher ergibt sich p(|d, B ) = 1 p(d|B ) p(d|, B ) p(|, B ) p(|B ) d (18.15)
1 Der Prior p(|B ) ist durch J EFFREYS P RIOR p(|B ) gegeben, da es sich bei um eine Skalen-Variable handelt. Die Dichte p(|, B ) ist durch den E NTROPISCHEN P RIOR (Gl. (18.11)) gegeben. Fr die L IKELIHOOD p(d|, B ) bentigen wir ein theoretisches Modell, welches die Verteilung der Messdaten d bei gegebenen Dichten (x) liefert.
Fr p(|d, B ) knnen zwei extreme Flle unterscheiden (vgl. Abbildung 18.4): Keine Regularisierung, 0: Das bewirkt, dass der Exponent im entropischen Prior verschwindet und daher p(|d, B ) N/21 . Das Verhalten wird vom entropieschen Prior bestimmt. Starke Regularisierung, : Der Einuss der Daten wird immer geringer, da kleine Abweichungen vom Default-Modell stark exponentiell unterdrckt werden, was dazu fhrt, dass das Default-Modell angenommen wird. p(|, B ) ( m) p(d|m, B ) p(|B ) Da p(d|m, B ) nicht von abhngt, wird das Verhalten von Jeffreys Prior dominiert, also p(|d, B ) 1/. Jetzt mssen wir noch die Likelihood-Funktion p(d|, B ) festlegen. Dazu bentigen wir ein THEORETISCHES M ODELL, das die Daten d mit der Verteilungsfunktion verknpft. Prinzipiell kann dieses Modell so komplex wie erforderlich sein. In vielen
247
Fllen ist das Modell aber linear, d.h. der Vektor der theoretisch erwarteten Daten dth wird durch Anwendung einer Matrix M auf die Verteilung gewonnen. Die allgemeine Form eines linearen Modells lsst sich als dth () = M (18.16)
schreiben. Die Abweichung d der echten von den theoretisch erwarteten Daten ist durch d = d dth () = d M (18.17) gegeben. Nimmt man an, dass das Rauschen additiv und normalverteilt ist, ist die Likelihood-Funktion eine multivariate Normalverteilung p(d|, B ) = (2 )Nd /2 |C |1/2 e 2 d
1 T
C 1 d
(18.18)
wobei Nd die Anzahl der Daten ist. Die Kovaranzmatrix C sollte aus dem Experiment abgeschtzt werden knnen. Setzen wir diesen Ansatz in Gl. (18.15) ein, so ergibt sich
0 N -mal
p(|d, B ) = (2 )(Nd +N )/2 |C |1/2 N/21

0
e 2 d
C 1 d + S i
di i
(18.19)
Der Exponent 1 = dT C 1 d + S . 2
2
(18.20)
setzt sich aus dem M ISS -F IT 2 der Daten und dem entropischen Anteil S zusammen. Das Integral wollen wir wieder in der Steepest-Descent-Nherung auswerten. Dazu bentigen wir das Maximum des Exponenten. Die Position des Maximums des Exponenten hngt wieder von ab, wodurch die Bestimmung von p(|d, B ) im Prinzip fr jedes getrennt durchgefhrt werden muss. In der Steepest-DescentNherung erhalten wir p(|d, B ) (2 )Nd /2 |C |1/2 N/21 |H |1/2
i
1 i
(18.21)
Die Hessematrix am Maximum lautet Hij = 2 = (M T C 1 M )ij + ij i j i . (18.22)
Setzen wir das nun in Gl. (18.14) ein, so erhalten wir die P OSTERIOR WAHRSCHEINLICHKEITSDICHTE in Evidenz-Nherung
248
P OSTERIORI WAHRSCHEINLICHKEIT p(|d, B ) = 1 1 2 + S e 2 Z , (18.23)
wobei wir in der letzten Zeile der Faktor i i aus Gl. (18.11) vernachlssigen, da wir annehmen, dass er ach im Vergleich zum exponentiellen Ausdruck ist. Weiters haben wir den Nenner durch Z abgekrzt haben. Lsung mittels Legendre-Transformation Das Maximum des Exponenten = 1 2 + S fhrt auf einen Schtzer von . 2 Direkte Maximierung ist uerst schlecht konditioniert. Deshalb fhren wir eine L EGENDRE -T RANSFORMATION der Funktion 1 (, d) = 2 (d) + S () 2 (18.24)
1/2
durch. Dies ist mglich, da die Abbildung (, d) konvex ist. Durch die Transformation wird die quadratische Abhngigkeit von zu einer linearen. Wir ersetzen die Daten d durch die partiellen Ableitungen und durch die Transformierte 1 , = d
Nd
, ) = (, d()) (
=1
(18.25)
Die neuen unabhngigen Variablen sind durch 1 1 2 1 = = = d 2 d

Nd 1 C d dth () =1
(18.26)
gegeben, wodurch der Vektor der theoretisch erwarteten Daten durch dth () = d + C (18.27)
ausgedrckt werden kann. Der letzte Ausdruck spiegelt wider, dass fr 0 die theoretischen mit den experimentellen Daten bereinstimmen. Die Transformierte von ist also insgesamt durch , ) = 1 2 T C C 1 C T dth () + 2 T C + S () ( 2 2 T = C T dth () + S () 2
249
gegeben. Verwenden wir das lineare Modell, Gl. (18.16), erhalten wir
2 , ) = T C T M + S () ( . 2 Dieser Ausdruck muss bezglich maximiert werden. Dazu berechnen wir den Gradienten und setzen ihn null: i ! = log (T M )i = 0 i mi
Als Ergebnis erhalten wir i = mi e(

T
M )i
(18.28)
Diese spezielle Gestalt erzwingt die P OSITIVITT der Verteilung i . Fr = 0 ergibt sich das Default-Modell. Wir setzen Gl. (18.28) in Gl. (18.27) ein und fhren den Fehlervektor ein: () = dth d (C ) = (M ) d (C )
N Nd
=
i=1
Mi mi e
Mi
d
=1
= 0
(18.29)
Numerische Lsung mittels Newton-Verfahren Gl. (18.29) muss man numerisch lsen. Eine einfache Methode dazu ist das NewtonVerfahren. Das Taylor-Polynom erster Ordnung von ( + ) ist ( + ) () + ()
D
Das Iterarionsschema erhlt man, indem man das Taylor-Polynom null setzt. Nach Inversion der Matrix D erhalten wir folgende Rekursionsformel (n+1) = (n) D1 ((n) ) . (18.30)
Die Praxis zeigt, dass es oft vorteilhaft ist, am Beginn der Iteration nicht den gesamten Newton-Schritt durchzufhren, da zu diesem Zeitpunkt ein Taylor-Polynom erster Ordnung eine zu grobe Nherung ist, und die Routine eventuell nicht konvergiert. Dieses Problem wird in Abbildung 18.5 veranschaulicht. Besser ist es am Anfang nur einen Bruchteil < 1 eines Newton-Schritts durchzufhren (n+1) = (n) D1 ((n) ) . (18.31)
Im Laufe der Iterationen kann man dann denn Bruchteil langsam erhhen, 1. Die Matrix D hat folgende Form
N
D =
i=1
Mi Mi mi e
Mi
(18.32)
i ()
250
10

4
10
Abbildung 18.5: Eindimensionales Beispiel zum Erleutern des Newton-Verfahrens. In diesem Fall berschtzt das Verfaren den Abstand zwischen (0) und der Wurzel .
Optimale Gre von N Wie gro ist die optimale Anzahl N der rekonstruierten Punkte von gegeben die Daten d. Die Wahrscheinlichkeit fr diese Gre ist P (N |d, B ) = p(N, d|B) p(d|B ) . (18.33)
ber die Marginalisierungsregel fhren wir die Verteilung ein: P (N |d, B ) = 1 Z 1 = Z p(N, d, |B ) d
RN
(18.34) p(d|N, , B ) p(|N, B ) p(N |B ) d .
RN
Der erste Faktor des Integranden ist die Likelihood-Funktion, Gl. (18.18), die beiden hinteren Faktoren sind Prioren, die wir ach ansetzen
N
p(|N, B ) =
i=1
(0 i a) a .
p(N |B ) =
(N0 N N1 ) N1 N 0 + 1
Das bedeutet, dass wir, ohne Messungen durchzufhren, nur wissen, dass i [0, a], und dass N {N0 , . . . , N1 }. Setzen wir das in Gl. (18.34) ein, erhalten wir 1 P (N |d, B ) = |C |1/2 Z
N
e
RN
dT C 1 d 1 2 i=1
(0 i a) d a
251
mit Z = Z (N1 N0 + 1)(2 )Nd /2 und d = d M . Whlt man die Konstante a gengend gro, sodass es keine Einschrnkungen fr die statistisch mglichen gibt, kann man die Funktionen (0 i a) vernachlssigen. Damit vereinfacht sich obiger Ausdruck zu P (N |d, B ) = 1 |C |1/2 Z aN e 2 d
RN
1 T
C 1 d
(18.35)
Wir schreiben den Exponenten in der Form 1 () dT C 1 d 2 = ( ) + T M T C 1 M
wobei die Differenz zwischen und der Maximum-Likelihood-Lsung ist. Letztere erhlt man aus ! = M T C 1 d M = 0 woraus = M T C 1 M
1
M T C 1 d
(18.36)
folgt. Setzen wir das in Gl. (18.35) ein, erhalten wir P (N |d, B ) = 1 |C |1/2 ( ) T T 1 e e M C M d N Z a RN 1/2 1 |C | 1/2 ( ) = e (2 )N/2 M T C 1 M Z aN
(18.37) .
Im Falle unkorrelierter Daten, C = 2 I, vereinfacht sich diese Formel zu 1 P (N |d, B ) = Z mit Z = Z / 2Nd . 2 a
N
M TM
1 / 2 ( )
(18.38)
18.1
Beispiele
In diesem Abschnitt wollen wir die Maximum-Entropie-Methode an zwei Beispielen demonstrieren. Im ersten Beispiel wird die Inversion der Laplace-Transformation unter die Lupe genommen. Das ist ein Problem, das z.B. bei Quanten-Monte-CarloMethoden auftritt. Das zweite Beispiel ist eine optische Anwendung, die AbelInversion.
252
1.0 0.8 0.6
Data noisy data ME
1.0 0.8 0.6 0.4 0.2 0.0 0 1.0 0.8
Reconstruction ME exact
0.4 0.2 0.0 0 1.0 0.8 0.6
Data noisy data ME
0.6 0.4 0.2 0.0 0 1 2 3
0.4 0.2 0.0 0 1 2
Abbildung 18.6: Abhngigkeit der Gte der Rekonstruktion vom Rauschen. Die linken Abbildungen zeigen die Daten g , die rechten deren Maximum-Entropie-Rekonstruktionen. Die strichlierte Linie in den linken Abbildungen zeigt die g , die aus den rekonstruierten A berechnet worden sind.
18.1.1 Invertieren der Laplace-Transformation

Wir wollen nun das eingangs vorgestellte Beispiel mit der QME-Methode bearbeiten. Die experimentellen Daten g seien ber eine Laplace-Transformation mit der gewnschten physikalischen Gre A gekoppelt
g ( ) =
0
e A( ) d
(18.39)
Die Daten sind auf einer Menge 1 , . . . , Nd gegeben. Die Aufgabenstellung ist, die Funktion A( ) zu rekonstruieren. Als erstes diskretisieren wir die Beziehung (18.39). Das erreicht man am einfachsten, indem man die obere Integrationsgrenze durch eine endliche Integrationsgrenze = f ersetzt und das Integral durch eine Summe ersetzt. Fhren wir N -Werte, i =
253
1.0 0.8
1.0 Reconstruction ME exact
0.8 0.6 0.4 0.2 0.0
0.6 0.4 0.2 0.0 0 1 2 3
Abbildung 18.7: Rekonstruktion von verrauschten Daten. Die Qualitt der Rekonstruktion in Abhngigkeit von der Peakbreite.
3.0 2.5 2.0 1.5 1.0 0.5 0.0 0 2 4 6 x 8 10 12 14 Reconstruction ME exact 3.0 2.5 2.0 1.5 1.0 0.5 0.0 0 2 4 6 x 8 10 12 14 Reconstruction ME exact
Abbildung 18.8: Ausungsvermgen zweier Peaks. Je weiter die Peaks von einander entfernt sind, desto leichter knnen sie vom Maximum-Entopie-Verfahren aufgelst werden. (i 1/2) f /N , ein, erhalten wir
N
g g ( )
i=1 N
e i A(i ) (18.40) e
i=1 i
Ai
mit Ai A(i ) und = f /N . Somit ist die Matrix des Modells durch Mi = e i gegeben. Einige Resultate einer Maximum-Entropie-Rekonstruktion von A( ) sind in den Abbildungen 18.618.8 zu sehen. Abbildung 18.6 zeigt den Einuss vom Rauschen auf die Qualitt der Rekonstruktion: Wegen des strkeren Rauschens, das man in den
254
Abbildungen auf der linken Seite sehen kann, ist der rekonstruierte Peak im ersten Plot breiter und niedriger als der im zweiten. ber Gl. (18.40) kann man aus den rekonstruierten A die daraus theoretisch erwarteten Daten berechnen. Diese sind in der linken Spalte der Abbildung 18.6 als strichlierte Linie eingezeichnet. In Abbildung 18.7 wird der Einuss der Peakbreite auf die Gte der Rekonstruktion demonstriert. Um so schmler der Peak, desto schlechter fllt der Vergleich mit der exakten Verteilung aus. Das Ausungsvermgens wird in Abbildung 18.8 gezeigt. Zwei Flle sind geplottet: Die Rekonstruktion auf der linken Seite kann die beiden Peaks ausen, whrend in der rechten Abbildung der kleinere Peak zu einer Schulter verkommen ist.
18.1.2
Abel-Inversion
In diesem Abschnitt wenden wir die QME-Methode auf ein weiteres physikalisches Inversionsproblem an, die Abel-Inversion.
Abbildung 18.9: Geometrie der Abel-Inversion. Die Dichte des Mediums hngt nur vom Radius r [0, R] ab.
Bei der Abel-Inversion geht man von einer zylindrisch symmetrischen Verteilung des absorbierenden Mediums aus. Die Daten werden entlang der Sekanten (vgl. Abbildung 18.9), wo der Laser das Material durchstot, gemessen. Der Absorptionsindex ist proportional zur Dichte (r). Weiters nehmen wir an, dass das Ausma der Absorption klein gegenber der Laser-Intensitt ist, wodurch das Problem linear wird.
255
10

0 0 2 4
10
Abbildung 18.10: Der Integrationskern Ky (r) der Abel-Inversion fr unterschiedliche Werte von y . Die Punkte r = y sind Singularitten, wo der Kern gegen Unendlich geht.
Die Absorption ist dann A(y ) =

R 2 y 2
( x2 + y 2 ) dx
R 2 y 2
Nach der Substitution r =

R
x2 + y 2 erhalten wir
R
A(y ) =
y
2r r2 y 2
(r) dr =
0
(r y )
2r r2 y 2
(r) dr
wobei (.) die Stufenfunktion ist. Damit haben wir unser Problem in eine Standardform fr lineare Probleme gebracht. Mit dem Integralkern Ky (r) knnen wir schreiben
R
A(y ) =
0
Ky (r) (r) dr ,
mit Ky (r) = (r y )
2r r2 y 2
(18.41)
Wegen der Singularitt des Kerns Ky (r) an der Stelle r = y ist die Inversion des Integrals sehr schlecht konditioniert. Abbildung 18.10 zeigt eine Skizze des Kerns fr verschiedene Werte von y . Wir bentigen ein Modell fr die Dichte des absorbierenden Mediums. Der Einfachheit halber nehmen wir eine stckweise konstante Funktion der Form
N0
(r) =
j =1
j j (r)
(18.42)
256
an, wobei j charakteristische Funktionen der Intervalle [(j 1)R/N0 , jR/N0 ) sind. Stetigkeit der Dichte wird dann ber eine Spline-Interpolation erreicht. Setzt man das Modell (18.42) in die Gl. (18.41), erhlt man
R R
A(y ) =
0
Ky (r) (r) dr =
y
2r r2 y 2
N0
j j (r)
j =1
Die Integrale sind leicht auszuwerten, nur bei den Integrationsgrenzen muss man ein wenig aufpassen. Vertauscht man die Summe mit dem Integral, wird obiger Ausdruck zu N0 N0 R 2r A(y ) = j j (r) = j Aj (y ) , 2 y2 r y j =1 j =1 mit Aj (y ) = 2 2 2 r y 2 (jR/N0 0
jN0 /R r=(j 1)N0 /R )2 y 2
. . . y (j 1)R/N0 . . . (j 1)R/N0 < y jR/N0 . . . y > jR/N0 .
Gemessen wird nur an diskreten Punkten entlang der y -Achse. Wir nehmen vereinfachend an, dass der Laserstrahl unendlich dnn ist. Messungen sollen an folgenden Punkten vorgenommen werden: y = ( 1/2)R , Nd = 1, . . . , Nd
Damit ergibt sich fr die Modellmatrix, die die Daten mit den Dichten verknpft 2 jN0 /R 1/2 1 2 1/2 r . . . jN 2 Nd Nd 0 r=(j 1)N0 /R 2 2 . Aj = Aj (y ) = 1 /2 1/2 jR j 1 j < 2 . . . N N N N N 0 0 0 d d 1/2 j 0 . . . Nd > N 0 Um glatte Kurven fr die rekonstruierten Dichten zu bekommen, wird zustzlich noch eine Spline-Interpolation fr die Dichten durchgefhrt. Die N0 Werte der Dichte werden durch eine glatte Interpolation mit N < N0 Knoten erzeugt. Da die Spline-Interpotation eine lineare Abbildung ist, kann man sie durch eine Matrix Sji , j = 1, . . . , N0 , i = 1, . . . , N ausdrcken, die die N0 interpolierten Dichten mit den N Dichteknoten verknpft. Die explizite Form von S kann man in diversen Numerikbchern nachschlagen. Die Matrix M des Modells entsteht also durch eine Matrixmultiplikation
N0
Mi =
j =1
Aj Sji
257
5 4 3 2 1 0 0 5 4 3 2 1 0 0 5 4 3 2 1 0 0 5 4 3 2 1 0 0 0.2 0.4 0.6 position y/R 0.8 1 best data ME 0.2 0.4 0.6 position y/R 0.8 1 data 2 ME 0.2 0.4 0.6 position y/R 0.8 1 data 3 ME 0.2 0.4 0.6 position y/R 0.8 1 worst data ME
0.30 0.25 0.20 density reconstructed exact
signal
0.15 0.10 0.05 0.00 0 0.30 0.25 0.20 reconstructed exact 0.2 0.4 radius 0.6 0.8 1
density
signal
density
signal
density
signal
0.15 0.10 0.05 0.00 0 0.2 0.4 radius 0.6 0.8 1
Abbildung 18.11: Daten und rekonstruierte Dichten fr vier verschieden stark verrauschte Datenstze.
258
Abbildung (18.11) zeigt einige Resultate einer Abel-Inversion. Die Daten (linke Spalte) sind durch eine direkte Abel-Transformation der Funktion (r) = r2 (1 r2 ) + 1 250(r1/4)2 e 5
entstanden. Ein normalverteiltes Rauschen mit Standard-Abweichung = 0.65, 0.46, 0.29, 0.17 (von oben nach unten) und Mittelwert null ist addiert worden. In allen Plots ist die Zahl der Daten Nd = 128 und N0 = 256. Fr eine gegebene Zahl N von Dichteknoten ist der Hyper-Parameter derart iterativ bestimmt worden, dass das Kriterium 2 /Nd 1 erfllt ist. Das ist eine alternative Vorgehensweise, anstatt das Maximum der Wahrscheinlichkeit fr zu bestimmen. Obiges Kriterium garantiert, dass der mittlere Fehler der Interpolation dem StandardFehler der Daten entspricht. Die Anzahl der Dichteknoten N wird optimiert, indem man das Maximum der Wahrscheinlichkeit P (N |d, B ) sucht. In den gezeigten Fllen haben sich die Werte N = 5, 10, 13, 16 (von oben nach unten) ergeben. Fr zu kleine N gibt es kein , das das Kriterium 2 /Nd 1 erfllt, da die Spline-Interpolation zu steif ist und 0. In der Nhe des optimalen N nimmt sein Maximum an. Erhht man N zu weit, fngt die rekonstruierte Dichte zu oszillieren an, wenn verkleinert wird.
259
260
Teil IV Parameterschtzen
261
Kapitel 19 Entscheidungstheorie
19.1 Elemente der Entscheidungstheorie
Eine Entscheidung ist eine Auswahl aus alternativen A KTIONEN. Als Grundlage fr die Entscheidung stehen Daten oder Informationen zur Verfgung. Das Ergebnis wird durch den Z USTAND charakterisiert. Die Aktionen mssen nicht unbedingt einen Einuss auf den Endzustand haben. Sie knnen die Bedeutung haben, dass man auf den Zustand optimal vorbereitet sein will. Wir interessieren uns nur fr solche Situationen, in denen es keine deterministische Beziehung zwischen den Handlungen und den Resultaten gibt. Fr die Resultate existiert eine Bewertungsfunktion. Die Entscheidungstheorie beschftigt sich mit der optimalen Auswahl von Handlungen angesichts von Unwgbarkeiten. Die Unsicherheit kann in der Beziehung zwischen Handlung und Resultat oder in der Zuverlssigkeit der zugrundeliegenden Information (Daten) liegen. Es gibt im Wesentlichen drei Elemente der Entscheidungstheorie: Information in Form von Daten Di , i = 1, . . . , ND und Vorwissen B .
Handlungen Aj , j = 1, . . . , NA , die die mglichen Alternativen aufzeigen Zustnde Zl , l = 1, . . . , NZ , die die Konsequenzen reprsentieren. B EISPIEL Ein Mann liest einen Wetterbericht. Die mglichen Informationen sind D1 : Der Wetterbericht sagt Sonnenschein voraus. D2 : Der Wetterbericht sagt Regen voraus. D3 : Der Wetterbericht sagt wechselhaftes Wetter voraus. D4 : Der Wetterbericht sagt Schnee voraus. Es gibt mehrere Aktionen, aus denen der Mann whlen kann A1 : Er bleibt den ganzen Tag im Haus
263
A2 : Er zieht seine Winterkleidung an A3 : Er zieht Sommerkleidung an A4 : Er nimmt einen Regenschirm mit Schlielich gibt es mehrere Endzustnde Z1 : Die Sonne scheint Z2 : Es regnet Z3 : Es schneit Z4 : Es gibt einen Sturm Fr jedes Tripel (Di , Aj , Zl ) bentigen wir eine Bewertungsfunktion, die wir als Ki,j,l = K (Di , Aj , Zl ) darstellten. Zum Beispiel knnte man im obigen Beispiel die Situation (D1 , A3 , Z2 ) mit K1,3,2 = 10 = bewerten, da der Mann ein Taxi nehmen muss. Es gibt drei gngige Unterteilungen pragmatisch: K = K (Aj , Zl ) rituell: K = K (Aj , Di ) gemischt: K = K (Aj , Zl , Di ) Der Bedingungskomplex enthlt alle Parameter, die zustzlich bentigt werden. Die erwarteten Kosten sind E (K |B ) =
K
K P (K |B ) K P (K |Aj , Di , Zl , B ) P (Aj , Di , Zl |B )
Aj ,Di ,Zl K K,K (Aj ,Di ,Zl ,B)
=
Aj ,Di ,Zl
K (Aj , Di , Zl , B ) P (Aj , Di , Zl |B )
Es hngt nun vom Problem ab, in welcher Form die Wahrscheinlichkeit P (Aj , Di , Zl |B ) weiter zerlegt werden kann. Wenn die Handlung keinen Einuss auf den Zustand hat und der Zustand zum Zeitpunkt der Handlung noch nicht vorliegt oder zumindest nicht bekannt ist, ist folgende Zerlegung sinnvoll E (K |B ) =
Aj ,Di ,Zl
K (Aj , Di , Zl , B ) P (Aj |Di , Zl , B ) P (Di |Zl , B ) P (Zl |B) K (Aj , Di , Zl , B ) P (Aj |Di , B ) P (Di |Zl , B ) P (Zl |B )
Aj ,Di ,Zl
(19.1)
264
Im letzten Schritt wurde ausgenutzt, dass die Aktion logisch unabhngig vom Zustand ist, da fr die Entscheidung nur die Daten zur Verfgung stehen. Wenn die Aktion hingegen den Endzustand beeinusst, ist die Zerlegung E (K |B ) =
Aj ,Di ,Zl
K (Aj , Di , Zl , B ) P (Zl |Aj , Di , B ) P (Aj |Di , B ) P (Di |B )
(19.2)
vorzuziehen.
19.1.1 Beispiel: Qualittskontrolle

Eine Firma stelle elektronische Bauelemente her, die zu 1000 Stck in Schachteln verpackt werden. Es stellt sich im Nachhinein heraus, dass die Hlfte der Produktion fehlerhaft ist. Aufgrund des Verpackungsprozesses hat das dazu gefhrt, dass in der Hlfte der Pakete 10% der Teile defekt sind und in der anderen Hlfte 90%. Der Kufer teilt mit, dass fr ihn eine Defektrate von 10% akzeptabel ist und er hierfr einen Preis von 25 = bezahlt. Wenn er jedoch die zu 90% defekten Teile einbaut entstehen im hierdurch Mehrkosten in Hhe von 40 = , die er der Zulieferrma in Rechnung stellen wird. Die Firma hat nun die Mglichkeit, alle Teile in allen Kartons zu testen. Die berprfung eines Teils koste 0.2 = . Eine Kartonladung (1000 Stck) neu zu produzieren kostet hingegen 20 = . Es lohnt sich deshalb nicht, alle Teile zu prfen. Die Firma beschliet, zu jedem Karton eine Stichprobe vom Umfang N 20 durchzufhren und erarbeitet ein Entscheidungskriterium, bei welcher Zahl von defekten Teilen in der Stichprobe der Karton weggeschmissen und der Inhalt neu produziert werden soll. Die Kostenfunktion ist pragmatisch und ist in der nachstehenden Tabelle zusammengefasst. Zustand gut schlecht gut schlecht Aktion versenden versenden neu produzieren neu produzieren Kosten -25 40 20 20
K11 K21 K12 K22
Negative Kosten bedeuten Gewinn. Es vereinfacht die nachfolgende Rechnung, wenn wir den Kosten-Nullpunkt auf K0 = 20 = legen. Dadurch verndert sich die Kostenfunktion zu 11 K 21 K 12 K 22 K Zustand gut schlecht gut schlecht Aktion versenden versenden neu produzieren neu produzieren Kosten -45 20 0 0
265
Zu diesen Karton-bezogenen Kosten kommen noch die Kosten fr die Prfung KP N (KP = 0.2 = ) hinzu. Die Gesamtkosten sind somit l,j K (Zl , Aj , Di ) = K0 + KP Ni + K .
Die Daten Di bestehen aus dem Werte-Paar (Ni , ni ), dem Stichproben-Umfang Ni und der Zahl der defekten Bauelemente ni in der Stichprobe. Die Strategie wird sein, immer denselben Stichproben-Umfang Ni = N zu verwenden, das heit P (Di |Zl , B ) = P (n|Zl , N, B ) = N n qln (1 ql )N n .
Der Zustand gibt in diesem Beispiel an, ob der Karton gut (q = 0.1) oder schlecht (q = .9) ist. Dieser Zustand wird durch die Aktion, versenden oder neu produzieren, nicht beeinusst. Der Zustand liegt zwar zum Zeitpunkt der Entscheidung bereits vor, ist aber nicht bekannt. Aus diesem Grund werden die Stichproben entnommen. Das heit, P (Aj |Di , Zl , B ) = P (Aj |Di , B ), die Handlung Aj ist logisch unabhngig vom Zustand Zl . Die mittleren Kosten sind somit gem Gl. (19.1)
N
E (K |B) = K0 + KP N +
n=0 Aj ,Zl N 2 1 2
l,j P (Aj |Di , B ) P (Di |Zl , B ) P (Zl |B ) K l,1 P (A1 |n, N, B ) P (n|Zl , N, B ) K
n=0 l=1
= K0 + K P N + = K0 + KP N
N
1 2 n=0
N n
P (A1 |n, N, B )
l=1
l,1 qln (1 ql )N n K
f (n)
Z ,A =2 = 0. Im Zustand Z1 ist q = 0.1 Es wurde ausgenutzt, dass P (Zl |B) = 1/2 und K j l und somit ist 11 q n (1 q1 )N n = K 11 q n (1 q1 )N n K 1 1 als Funktion von n monoton steigend. Im anderen Fall (q = .9) ist diese Funktion 21 > 0 ist. Das heit, f (n) ist am kleinsten fr ebenfalls monoton steigend, da gleich K n = 0 und maximal fr n = N . Der Minimalwert ist 11 (1 q1 )N + K 21 (1 q2 )N = 0.1N 9N K 11 K 21 < 0 f (0) = K und der Maximalwert lautet 11 q N + K 21 q N = 0.1N K 11 + 9N K 21 > 0 f (N ) = K 1 2 N > 0 . N
266
Die Funktion ist in Abbildung 19.1 fr N = 5 dargestellt. Die Kosten sollen minimiert werden. Die beste Strategie ist demnach P (A1 |n, N, B ) = Wir erhalten somit
N
1 wenn f (n) < 0 0 sonst.
E (K |B) = K0 + KP N +
1 2 n=0
f (n)<0
N n
f (n)
Die Kosten sind in Abbildung 19.1 als Funktion des Stichprobenumfangs N aufgetragen. Das Minimum (Optimum) liegt bei N = 5 mit einem Wert von 1.2218 = . Die
20
2 1.5
10
1 0.5
f(n)
E(K|N)
10
0.5 1
20
1.5
30 0 1 2 3 4 5
2 0
10
15
20
Abbildung 19.1: Links: f (n) mit den im Text angegebenen Parametern. Rechts: mittlere Kosten als Funktion des Stichprobenumfangs. Tatsache, dass die Hlfte der Bauelemente defekt ist, hat also den Gewinn pro Karton von 25 = auf 1.22 = reduziert.
19.1.2 Beispiel: Optimale Produktionsrate

Die Herstellungskosten eines Produkt seinen pro Stck H . Es werde zu einem Preis P verkauft. Die Fixkosten der Firma betragen pro Tag F . Die Produktionsrate pro Tag sei N . Wenn die Nachfrage pro Tag n betrgt, ist die Zahl der verkauften Teile min(n, N ). Die Kosten pro Tag sind somit K (n, N ) = min(n, N ) P + N H + F .
Wir identizieren in diesem Problem den Zustand mit der Nachfrage Z=n
267
und die mglichen Aktionen entsprechen der Produktionsrate A=N .
Die vorliegenden Daten enthalten die Werte der Nachfrage der letzten Wochen. Es habe sich hierbei ergeben, dass die Nachfrage einer Wahrscheinlichkeitsverteilung P (n|B) gengt. Die Strategie soll sein, ber lngere Zeit denselben Wert N zu verwenden. Die mittleren Kosten erhalten wir aus E (K |N, B ) =
n
K (n, N ) P (n|B) ( min(n, N ) P + N H + F ) P (n|B )

n N
= F + NH P
n=0
n P (n|B) + N
n=N +1
P (n|B)
Um analytisch rechnen zu knnen, verwenden wir zunchst eine ache Wahrscheinlichkeitsverteilung fr die Nachfrage pro Tag P (n|, B ) = 1 (n ) +1 ,
mit einer Obergrenze . Damit erhalten wir P E (K |N, , B ) = F + N H +1 P +1 P = F + NH +1 = F + NH

N
n N
n=0 n=N +1
(N + 1)N + N ( N ) 2 N N2 +N . 2 2
Das Minimum erhalten wir aus der Ableitung nach N 1 d P 1 ! E (K |N, , B ) = H +N =0 dN +1 2 1 ( + 1)H 1 P H N = + = + ( + 1) 2 P 2 P Wir schreiben den Preis als Vielfaches der Herstellungskosten P=H
Wir betrachten hierzu N zunchst als kontinuierliche Variable. Der optimale Wert N ist dann einer der beiden ganzzahligen Nachbarn.
1
268
und erhalten 1 1 N = + ( + 1) 2 Das heit z.B., wenn =

P H
= 2, dass die optimale Produktionsrate 1 +1 = N = + 2 2 2
der Hlfte der maximalen Kundenzahl entspricht. Fr 1 ist 1 N = , und die mittleren Kosten fr N = N ergeben E (K |B ) = F + N H F + 1 +1 1 N + 2 2 ( 1) 1 2 1 1 + 2
1 H 1 H =F + ( 1)2 =F H 2 (P H )2 =F 2 P
Dieses Ergebnis knnte zu der Annahme verleiten, dass der Gewinn durch Anheben des Preises beliebig erhht werden kann. Das ist nicht richtig, da die maximale Kundenzahl mit zunehmendem Preis sinken wird. Mit der Modell-Annahme = erhlt man C (P H )2 E (K |B ) = F 2 P +1 Die Ableitung nach P ergibt E (K |B ) = C (P H ) (2P ( + 1)(P H )) 2 P +2 C (P H ) ! = (( + 1)H ( 1)P ) = 0 +2 2 P +1 P = H . 1 . C P
Man kann dieses Beispiel leicht realistischer gestalten. Man wird dann die Optimierung jedoch numerisch durchfhren mssen.
269
270
Kapitel 20 Parameter-Schtzen
20.1 Unverzerrte Schtzwerte
Es sei ein Datenanalyse-Problem gegeben, das von Parametern a RNp abhngt. Es werden Messwerte (Stichprobe) y = {y1 , . . . , yN } ermittelt, die dazu dienen sollen, die Parameter a zu bestimmen. Die zugrundeliegenden Parameter denieren die Wahrscheinlichkeitsdichte der Stichprobe, das heit der Likelihood-Funktion p(y |a) .
Ein Beispiel stellen additive Gausche Fehler dar p(y |a) = (2 )

2 N 2
1 2
(yi fi (a))2 2 i
(20.1)
Hierbei ist fi (a) = f (si , a) das theoretische Modell, das von Steuergren si und den zu bestimmenden Parametern a abhngt. Betrachten wir z.B. eine gedmpfte Schwingung, die zur Zeit t die Auslenkung f (t|A0 , , , ) = A(t) = A0 cos( t + ) et aufweist. Zu verschiedenen Zeiten ti wird die Amplitude experimentell bestimmt. Der Messwert zur Zeit ti sei yi . In diesem Beispiel sind die Steuergren die Zeiten ti und die unbekannten Parameter sind a = {A0 , , , }. Die Funktion f (s, a) entspricht der Auslenkung A(t). Die Messwerte streuen gem einer Gau-Verteilung mit einer Standardabweichung um die theoretischen Werte. Aus der Stichprobe sollen nun die vier unbekannten Parameter bestimmt werden. Der Einfachheit halber betrachten wir zunchst nur Probleme mit einem unbekannten Parameter a. Im Rahmen der orthodoxen Statistik sucht man ein Funktional a (y ), das einen Schtzwert fr den Parameter bei gegebener Stichprobe liefert. Von besonderer Bedeutung sind solche Funktionale die UNVERZERRTE S CHTZWERTE (UNBIA SED ESTIMATOR ) liefern. Als unverzerrt werden solche Schtzwerte bezeichnet, die
271
bei ein und demselben Problem, d.h. auch bei denselben Parameterwerten, gemittelt ber alle denkbaren Stichproben den exakten Wert liefern. Das heit a (y ) = dN y a (y ) p(y |a) = a
!
(20.2)
20.2
Maximum-Likelihood Schtzwert
Unter dem Maximum-Likelihood (ML) Schtzwert versteht man die Lsung der Maximierungsaufgabe max p(y |a)
a
oder quivalent ln(p(y |a)) ai =0

a= aML
20.2.1
Beispiel: univariate Normal-Verteilung

p(y |a) = (2 2 ) 2 e 22
N 1 i (yi a ) 2
Als Beispiel betrachten wir die einfachste Variante des obigen Problems ,
bei der die Messungen direkt den gesuchten Parameter liefert, z.B. Lngenmessung. Die L OG -L IKELIHOOD lautet ln(p(y |a)) = C 1 2 2 (yi a)2
i
Die Nullstelle der Ableitung nach a liefert
a ML = y
In diesem Fall stimmt der ML-Schtzwert mit dem arithmetischen Mittel berein. Wir wissen bereits, dass dieser Schtzwert unverzerrt ist. Die ML-Lsung soll noch an einem weiteren Beispiel illustriert werden.
20.2.2
Beispiel: Halbwertszeit eines Poissonprozesses
Gegeben sei eine Stichprobe von Zerfallszeiten {t1 , . . . , tL }. Die Wahrscheinlichkeit fr einen Zerfall in (t, t + dt) ist durch die Exponential-Verteilung pP (t| ) = 1 t/ e
272
gegeben. Die Log-Likelihood lautet, da die Zerflle unkorreliert sind,

L
ln(p(t1 , . . . , tL |, B )) =
i=1 L
ln
i=1
1 ti / e ti ln( ) .
= = L
t + ln( )
Hierbei ist t der Stichproben-Mittelwert der Zerfallszeiten. Die Ableitung verschwindet an der Stelle
ML = t
Somit ist auch in diesem Beispiel der ML-Schtzwert gleich dem arithmetischen Mittel. Das ist nicht immer so, wie das folgende Beispiel zeigt
20.2.3 Cauchy-Verteilung
Gegeben sei eine Stichprobe {x1 , . . . , xL } der Cauchy-Verteilung mit der Wahrscheinlichkeitsdichte b 1 pC (x|a, b) = . (x a)2 + b2 Die Log-Likelihood lautet, da die Elemente der Stichprobe unabhngig sind,
L
ln(p(x1 , . . . , xL |a, b, B ) =
i=1
ln
1 b (xi a)2 + b2
L
= C + L ln(b)
i=1
ln (xi a)2 + b2
Die Ableitung nach b ergibt L ln(p(x1 , . . . , xL |a, b, B )) = b b b b =

2 L
i=1
2 ! =0 (xi a)2 + b2
1
1 L
i=1
2 (xi a)2 + b2
273
Die Ableitung nach a liefert ln(p(x1 , . . . , xL |a, b, B )) = 2 a Damit haben wir als ML-Lsung
L
i=1
xi a ! =0 2 2 (xi a) + b
a= b2 =
1 L 1 L
L xi i=1 (xi a)2 +b2 L 1 i=1 (xi a)2 +b2
1
2 L L 1 i=1 (xi a)2 +b2
ein gekoppeltes System transzendenter Gleichungen vor.
20.2.4
Bernoulli-Problem
Wir betrachten noch einmal das binre Bernoulli-Problem mit gelben und roten Kugeln. Es werde eine Stichprobe vom Umfang N mit Zurcklegen gezogen. Davon seien ng Kugeln gelb. Wir wollen hieraus den Wert des Verhltnisses q = ng /Np der Population abschtzen. Die Likelihood-Funktion ist in diesem Fall P (ng |q, N, B ) = N ng q ng (1 q )N ng .
Die ML-Lsung erhalten wir aus Nullstelle der Ableitung des Logarithmus d ng ln(q ) + (N ng ) ln(1 q ) dq =
!
ng N ng q 1q
(20.3)
=0 ng qML = . (20.4) N Wir wollen noch untersuchen, ob es sich um einen unverzerrten Schtzwert handelt. Dazu bentigen wir die Schtzwert-Verteilung
N
p(qML |N, q, B ) =
k=0 N
p(qML |k, q, N, B ) P (k |q, N, B ) (qML

k=0 k ) N
P (k |q, N, B )
274
Die Momente dieser Verteilung sind

1 qML qML p(qML |q, N, B ) dqML 0 1 N qML (qML 0 k=0 N k ) N
= 1 = N Daraus ergibt sich
P (k |q, N, B ) dqML k N
k P (k |q, N, B ) =
k=0
k N var(k ) var(qML ) = N2 qML = und mit dem Mittelwert und der Varianz der Binomial-Verteilung erhalten wir schlielich L SUNG DES B ERNOULLI -P ROBLEMS
Nq =q N N q (1 q ) q (1 q ) var(qML ) = = N2 N qML =
(20.5) (20.6)
Der Schtzwert ist in der Tat unverzerrt und hat eine Varianz q (1 q )/N , die mit zunehmendem Stichprobenumfang abnimmt.
20.2.5 Abbruchskriterien bei Experimenten

Wir wollen untersuchen, welchen Einuss die Abbruchskriterien eines Experiments auf das Ergebnis haben knnen. Dazu betrachten wir als einfaches Beispiel erneut das eben behandelte binre Bernoulli-Problem aus Abschnitt 20.2.4. Da man vor dem Experiment nicht wei, wie gro q ist, ist es auch schwer zu sagen, welchen Umfang N die Stichproben haben sollte, um ein zuverlssiges Ergebnis zu erhalten. Wenn N zu klein gewhlt wird, kann es sein, dass wir fast ausschlielich ng = 0 nden. Wre es da nicht sinnvoller, den Stichprobenumfang vom Ausgang des Experimentes
275
abhngen zu lassen? Man knnte z.B. das Experiment solange durchzufhren, bis die Zahl der gelben Kugeln einen bestimmten Wert n g erreicht hat? Zur Untersuchung dieser Fragestellung wollen wir zunchst Ergebnisse einer Computersimulation diskutieren. Es wurden Stichproben vom Umfang N = 10 erzeugt. Zu jeder Stichprobe wurde die Anzahl ng der gelben Kugeln ermittelt und daraus der g Schtzwert qML = n berechnet. Dieses Experiment wurde Nexp -mal wiederholt und N daraus der Mittelwert und die Standardabweichung berechnet. In Abbildung 20.1 ist das Ergebnis als Funktion von Nexp aufgetragen.
1
q ML 0.5
0 0
100
200
300
400
500
N exp
Abbildung 20.1: Schtzwert fr q aus a) Stichproben vom Umfang N = 10 (untere Kurve). b) abgebrochene Stichproben, mit n g = 3 (obere Kurve). Die gestrichelte Linie kennzeichnet den intrinsische Wert q = 1/3. Man erkennt, dass das arithmetische Mittel mit zunehmender Zahl der Experimente gegen den wahren Wert konvergiert und der Standardfehler monoton abnimmt. Aufgrund des ZENTRALEN G RENZWERTSATZES geht der Standardfehler mit 1/ Nexp gegen Null. Nun fhren wir das Experiment durch, bei dem wir die Messung abbrechen, sobald g genau 3 gelbe Kugeln vorliegen. Wieder verwenden wir qML = n als Schtzwert fr N q und bilden das arithmetische Mittel ber viele Wiederholungen des Experiments. Wie zuvor nehmen die statistischen Schwankungen (Standardfehler) wie 1/ Nexp ab. Nur konvergiert das Ergebnis gegen einen falschen Wert. Dieses Experiment hat einen B IAS! Dieses Ergebnis soll nun analytisch, mit den Regeln der Wahrscheinlichkeitstheorie berechnet werden. Das heit, wir werden die Verteilung p(qML |q, n g , B ) der MLSchtzwerte bestimmen, die sich ergibt, wenn das Experiment immer bei ng = n g abgebrochen wird. Diese Information ist Teil des Bedingungskomplexes B .
276
Es ist an der Zeit, noch einmal darauf hinzuweisen, dass im Bezug auf den Bedingungskomplex groe Vorsicht geboten ist. Er ist gewissem Sinne der wichtigste Teil der bedingten Wahrscheinlichkeit und wird aber in der Regel am sorglosesten behandelt. Man verwendet z.B. immer dasselbe Symbol fr den Bedingungskomplex, obwohl sich seine Bedeutung von Problem zu Problem ndert. Es gilt generell P (A|C, B ) = P (A|C, B ) .
Man muss also aufpassen, dass innerhalb einer Rechnung tatschlich immer derselbe Bedingungskomplex vorliegt. Um p(qML |q, n g , B ) berechnen zu knnen, bentigen wir noch die Information ber den Stichprobenumfang, den wir hier mit N kennzeichnen wollen. Die Marginalisierungsregel liefert
p(qML |q, n g , B) =
N =1
p(qML |N , q, n g , B ) P (N |q, ng , B )
(20.7)
Der erste Faktor ist nun bekannt, da der Bedingungskomplex besagt, dass das Expe riment bei ng = n g abgebrochen wird und gleichzeitig der Stichproben-Umfang N vorliegt. Damit liegt der Wert des ML-Schtzwertes fest qML = p(qML |N , q, n g , B ) = (qML Somit liefert Gl. (20.7)
n g . N
Das heit,
n g ) N
p(qML |q, n g , B)
=
N =1
(qML
n g ) P (N |q, n g , B) N
(20.8)
Statistik der Stichprobenumfnge Um Gl. (20.8) weiter auswerten zu knnen, bentigen wir die Verteilung P (N |q, n g , B ) der Stichprobenumfnge N , die sich einstellen, wenn das Experiment bei ng = n g abgebrochen wird. Das Ergebnis der Computersimulation fr P (N |q, n , B ) ist in Abbildung 20.2 als Histogramm aufgetragen. Wir wollen dieses g Ergebnis auch mit den Regeln der Bayessche Wahrscheinlichkeitstheorie berechnen. Damit die N -te Kugel die n g -te gelbe ist, mssen unter den ersten N 1 Kugeln in beliebiger Reihenfolge n g 1 gelbe Kugeln vorkommen und die N -te ebenfalls gelb sein. Da die einzelnen Kugeln unabhngig voneinander gezogen werden, gilt
P (N |n g , q, B ) = P (ng = ng 1|q, N 1, B ) P (ng = 1|q, N = 1, B ) N 1 n = q g (1 q )N ng ng 1
277
P(N* | n* =3, q=0.33, B) g
.1
H(N )
.0 0
10
20
30
Abbildung 20.2: Verteilung der Stichproben-Umfnge, die sich ergeben, wenn die Experimente bei ng = 3 abgebrochen werden. Der Anteil der gelben Kugeln betrgt q = 1/3. Diese Wahrscheinlichkeit ist in Abbildung 20.2 mit dem Histogramm verglichen. Wir sehen, dass das theoretische Ergebnis mit dem der Computersimulation bereinstimmt. Nachdem wir nun die Verteilung der Stichprobenumfnge kennen, knnen wir darn aus die Verteilung der Schtzwerte qML = Ng mit Hilfe von Gl. (20.8) berechnen. Der Mittelwert dieser Verteilung ist
1
qML =
0
qML p(qML |n g , q, B ) dqML

n g N
=
N =n g
p(N |n g , q, B )
n g
n g
q 1q
N =n g
1 N
N 1 n g 1
(1 q )N
(20.9)
Fr n g = 1 lsst sich das leicht auswerten qML q = 1q q = 1q

p=0
N =1 1 q
1 q (1 q )N = N 1q
1 q
pN
N =1 p=0
dp
1 q dp = ln(q ) 1p 1q
278
1 Fr q = 1/3 und n g = 1 ist qML = 2 ln(3) = 0.549, also weit entfernt vom korrekten Wert q = 0.334. Eine genauere Auswertung von Gl. (20.9) fr q = 1/3 und n g = 3 liefert qML = 3 ln(3) = 0 . 412 . Das ist immer noch weit vom korrekten Wert entfernt 8 und erklrt den systematischen Fehler in Abbildung 20.1. Wir erkennen aber auch, dass das Abbruchskriterium fr zunehmende Werte n g an Einuss verliert.
20.2.6
Least-Squares-Fit
Wir betrachten den sehr hug vorliegenden Fall unabhngiger, normal-verteilter, additiver Fehler, mit der in Gl. (20.1) angegebenen Likelihood-Funktion. Maximieren der Log-Likelihood ist quivalent zum Minimieren der gewichteten mittleren quadratischen Abweichung L EAST-S QUARES -F IT min
a i
(yi f (si , a))2 2 i
(20.10)
2 Der einfachste Spezialfall liegt vor, wenn i = 2. Wir wollen nun noch korrelierte Fehler betrachten. Der Logarithmus der multivariaten Normalverteilung mit Kovarianz-Matrix C lsst sich wie folgt umformen
log(L) =
1 (y f (a))T C 1 (y f (a)) 2 T 1 1 1 1 (a) = C 2 (y f (a)) C 2 (y f (a)) = y f 2 2
Es wurde ausgenutzt, dass die Kovarianz-Matrix symmetrisch ist. Die Transformation mit C 2 bewirkt, dass in dieser Darstellung die Fehler der Daten unkorreliert sind und alle die Varianz Eins besitzen. T RANSFORMIERTE MULTIVARIATE N ORMALVERTEILUNG
1
f (a)| p(d|C, a, B ) = (2 ) 2 |C | 2 e 2 |y mit

N 1 1
y = C 2 y (a) = C 1 2 f (a) f .
(20.11)
279
Das bedeutet, dass auch in diesem allgemeinen Fall wieder ein least-squares-t durchzufhren ist L EAST-S QUARES -F IT MIT
KORRELIERTEN
F EHLERN
min
a i
y i f i (a)
(20.12)
20.3
Cramer-Rao Untergrenze des Schtzfehlers
Der unverzerrte Schtzwert ist nicht eindeutig. Wenn z.B. das arithmetische Mittel einen unverzerrten Schtzwert darstellt, dann ist auch jedes Element xi der Stichprobe ein unverzerrter Schtzwert. Nur wird in diesem Fall der Schtzwert weiter um den wahren Wert des Parameters streuen als es das arithmetische Mittel tut. Der beste Schtzwert ist sicherlich derjenige, der am wenigsten vom wahren Wert abweicht (streut). Es stellt sich die Frage, ob es mglich ist diese Streuung beliebig klein zu machen? Die Antwort liefert der Cramer-Rao-Grenzwert. Der CR-Grenzwert stellt ein fundamentales Ergebnis der Statistik dar. Wir gehen von einem unverzerrten Schtzwert a (x) fr den Parameter a aus. Dann gilt p(x|a) ( a(x) a) dL x = 0 Wir leiten diese Gleichung nach a ab und erhalten p(x|a) a Mit
a
( a(x) a) dL x
p(x|a) dL x = 0
=1
p = p a ln(p) und der Schwarzschen Ungleichung folgt daraus
1= =
p(x|a)
ln(p(x|a)) a
( a(x) a) dL x (20.13) .
ln(p(x|a)) a ln(p(x|a)) a
( a(x) a)
2
( a(x) a)2
280
Da wir von einem unverzerrten Schtzwert ausgegangen sind, ist a (x) = a und somit ist a(x)) . ( a(x) a)2 = var( Somit haben wir die gesuchte Ungleichung C RAMER -R AO U NGLEICHUNG 1 I p(x|a)
a
var( a(x))
(20.14) ln(p(x|a)) a
2 2
I=
dL x
p(x|a) p(x|a)
dL x
(20.15)
I ist die sogenannte F ISHER -I NFORMATION.
Beispiel: Stichprobe Normal-Verteilung Die Log-Likelihood ist in diesem Fall 1 ln(p(x|a)) = C 2 2 Die bentigte Ableitung liefert d 1 ln(p(x|a)) = 2 da =
L L
(xi a)2
i=1
(xi a)
i=1
(20.16)
L (x a) . (20.17) 2 Hierbei ist x der Stichproben-Mittelwert. Wir wissen bereits aus dem Kapitel ber Stichproben-Verteilungen, dass der Stichproben-Mittelwert im Mittel den wahren Mittelwert a liefert (unbiased estimator). Somit ist die Fisher-Information I= L2 var(x) 4 L2 2 = 4 L L = 2 .
281
Die Varianz eines beliebigen Schtzwertes erfllt somit die Ungleichung var( a(x)) 2 = var(x) L .
Der Stichproben-Mittelwert a (x) = x stellt in diesem Fall einen efzienten Schtzwert dar, da var( a(x)) = var(x) = Beispiel: Stichprobe einer Cauchy-Verteilung Wir betrachten hier die Cauchy-Verteilung fr b = 1 p(x|a) = Die Log-Likelihood lautet dann
L
2 L
1 1 (x a)2 + 1
ln(p(x|a)) = C
i=1
ln((xi a)2 + 1)
Die bentigte Ableitung liefert d ln(p(x|a)) = 2 da Die Fisher-Information ist dann

L L
i=1
xi a (xi a)2 + 1
(20.18)
I=4
i=1
xi a (xi a)2 + 1
=4
i,j
xi a xj a 2 (xi a) + 1 (xj a)2 + 1 xi a (xi a)2 + 1 xj a (xj a)2 + 1

2
=4
i=j
+ 4
i
(xi a)2 ((xi a)2 + 1)2 .
= 4L(L 1)
xa (x a)2 + 1
+ 4L
(x a)2 ((x a)2 + 1)2
Die verbleibenden Erwartungswerte sind xa (x a)2 + 1 = xa 1 p ( x | a ) dx = (x a)2 + 1 xa dx = 0 ((x a)2 + 1)2
282
und (x a)2 ((x a)2 + 1)2 = 1 (x a)2 1 dx = ((x a)2 + 1)3

L 2
z2 1 dz = (z 2 + 1)3 8
Somit ist die Fisher-Information I =
und die Ungleichung fr die Varianz lautet 2 L .
var( a(x))
Wir hatten im Kapitel ber Stichproben-Verteilungen den Median von Stichproben der Cauchy-Verteilung untersucht und gefunden, dass dieser Schtzwert unverzerrt ist und fr L 1 die Varianz var( a(x)) = 2.47 2 = 4L L
besitzt. Diese Varianz ist etwas grer als die Cramer-Rao Untergrenze. Der Median ist somit kein efzienter Schtzwert. Es stellt sich die Frage, ob es immer einen Schtzwert gibt, der die Untergrenze erfllt und wie dieser Schtzwert konstruiert werden kann.
20.3.1
Wann wird die CR-Grenze erreicht?
Die Schwarzsche Ungleichung liefert dann die Gleichheit, wenn die beiden beteiligten Vektoren a und b parallel sind a=b .
Das bedeutet fr die CR-Untergrenze aus Gl. (20.13) ln(p(x|a)) = ( a(x) a) a , (20.19)
wobei die Proportionalittskonstante von a, aber nicht von der Stichprobe x, abhngen kann. Wenn die Ableitung der Log-Likelihood in die Form der rechten Seite von Gl. (20.19) gebracht werden kann, dann existiert ein unverzerrter efzienter Schtzwert. Der Schtzwert kann unmittelbar hieraus abgelesen werden. Umgekehrt bedeutet das aber auch, wenn die Ableitung nicht in die Form der rechten Seite gebracht werden kann, existiert kein unverzerrter efzienter Schtzwert. Wir kommen nun zu einem wichtigen Satz: Wenn die Gleichung Gl. (20.19) erfllt ist, dann ist der ML-Schtzwert ein unverzerrter efzienter Schtzwert. Wir gehen davon aus, dass Gl. (20.19) erfllt ist. Das heit die Ableitung der LogLikelihood kann in die Form ln(p(x|a)) = (a) (f (x) a) a
283
gebracht werden. Hierbei darf (a) nicht von x abhngen. f (x) ist eine beliebige Funktion der Stichprobe, die jedoch nicht von vom Parameter a abhngt. Diese Funktion stellt dann den Schtzwert dar. Die ML-Lsung erhalten wir denionsgem aus der Nullstelle der Ableitung der Log-Likelihood ln(p(x|a)) a =0
aML
Nun ist aber gem Gl. (20.19) die bentigte Ableitung von der Form (a) (f (x) a) und hieraus folgt ln(p(x|a)) a = (aML ) f (x) aML = 0
aML !
Damit ist zu gegebener Stichprobe, die ML-Lsung aML = f (x) .
Wie behauptet, ist die ML-Lsung gleich dem unverzerrten efzienten Schtzwert f (x).
20.3.2
Beispiele
Normal-Verteilung Aus Gl. (20.16) kennen wir bereits die Ableitung der Log-Likelihood einer Stichprobe normal-verteilter Zufalls-Variablen. Sie ist unmittelbar in der geforderten Gestalt, und der efziente Schtzwert ist das arithmetische Mittel und, er stimmt somit in der Tat mit der ML-Lsung berein.
Cauchy-Verteilung Die Ableitung der Log-Likelihood einer Stichprobe Cauchy-verteilter ZufallsVariablen wurde bereits in Gl. (20.18) ermittelt und liefert d ln(p(x|a)) = 2 da
L
i=1
xi a (xi a)2 + 1
Es ist offensichtlich, dass sich dieser Ausdruck nicht in die gewnschte Form bringen lsst. Es existiert in diesem Fall also kein (efzienter) Schtzwert, der die CRUntergrenze erreicht.
284
Bernoulli-Problem
g Wir betrachten den Schtzwert n des Bernoulli-Problems (siehe Abschnitt 20.2.4) fr N die intrinsische Wahrscheinlichkeit q . Die Ableitung der Log-Likelihood ist nach Gl. (20.3)
d ng N ng log (P (ng |q, N, B )) = dq q 1q N ng = q q (1 q ) N
Damit ist die Bedingung (Gl. (20.19)) fr einen efzienten Schtzwert erfllt.
285
20.4
Parameter-Schtzen im Rahmen der Wahrscheinlichkeitstheorie
Die Wahrscheinlichkeitstheorie erlaubt es, aus Stichproben Parameter des zugrundeliegenden (physikalischen) Problems zu eruieren. Die Vorgehensweise ist straightforward. Gegeben ist die tatschlich vorliegende Stichprobe1 y . Daraus ermittelt man die Wahrscheinlichkeitsdichte fr die gesuchten Parameter p(a|y, B ) Das Bayessche Theorem liefert hierfr p(a|y, B ) = p(y |a, B ) p(a|B ) p(y |a, B ) p(a|B ) p(y |B) . .
Es hngt nun von den Anforderungen an das Ergebnis ab, wie man aus dieser Wahrscheinlichkeitsdichte einen einzigen Wert fr die Parameter a auswhlt. Eine Mglichkeit ist die sogenannte M ODE, das ist das Maximum der a-posteriori Verteilung p(a|y, B ). Wenn der Prior-Anteil vernachlssigbar ist, weil z.B. keine detailliertes Vorwissen vorliegt, oder die Zahl der Daten sehr gro ist, ist diese Lsung identisch mit der ML-Lsung. Neben der Mode gibt es weitere Mglichkeiten, die Wahrscheinlichkeitsdichte zu charakterisieren. Es muss zunchst eine Kostenfunktion deniert werden. Diese Funktion hngt vom jeweiligen Problem ab. K= ) p(a|y, B ) dNp a K (a, a .
In der Regel verwendet man Kostenfunktionen K (aa ), die nur von der Abweichung aa abhngen. Gngige Kostenfunktionen Quadratische Kosten K (a a ) = i (ai a i )2 Die quadratische Kostenfunktion bestraft groe Abweichungen strker als kleine bis mittlere Abweichungen. Der daraus resultierende Schtzwert wird somit zu groe Abweichungen zu vermeiden. Absolute Kosten K (a a ) = i |ai a i | Es kann Situationen geben, in denen groe Abweichungen nicht so viel negativer zu bewerten sind als kleine oder mittlere. In diesem Fall wird man eine absolute Kostenfunktion verwenden. Die stufenfrmige Kosten-Funktion kommt zum Einsatz, wenn Abweichungen innerhalb einer kleinen Toleranz akzeptabel sind und ansonsten das Ergebnis
1
Man geht hierbei nicht von ktiven Stichproben-Replika aus.
286
unbrauchbar wird. Z.B. bei der Herstellung von Gerten. Innerhalb der Toleranz knnen die Gerte verkauft werden, ansonsten mssen sie neu produziert werden, und es fallen hierbei feste Kosten an.
K (a a ) =
i
|ai a i |
Der beste Schtzwert ist nun der, der die zu erwartenden Kosten minimiert. Wir verlangen deshalb, dass die Ableitungen nach a i verschwinden.
A)
Q UADRATISCHE K OSTEN
Das fhrt im Fall der quadratischen Kosten zur Bedingung
K=2 a i =2 a i =
(ai a i ) p(a|y, B ) dNp a ai p(a|y, B ) dNp a a i =0

!
ai p(a|y, B ) dNp a = ai
a i = a PM,i
Bei quadratischen Kosten ist das arithmetische Mittel der Posterior-Verteilung (Posterior Mittelwert (PM)) der beste Schtzwert.
B)
A BSOLUTE K OSTEN
287
K= a i =
a i
|a j aj | p(a|y, B ) dNp a a i
sgn( ai ai ) p(a|y, B ) dNp a dai

j =i =:p(ai |y,B) !
daj p(a|y, B )
a i
dai
j =i
daj p(a|y, B ) = 0
=:p(ai |y,B)
a i
p(ai |y, B ) dai =

a i
p(ai |y, B ) dai
a i = a MED,i Bei absoluten Kosten ist der Median der beste Schtzwert.
C)
K ASTENFRMIGE K OSTENFUNKTION
In der folgenden Ableitung wird angenommen, dass die Intervalllnge klein ist. K= a i a i
a i +
(|a a| )
i
p(a|y, B ) dNp a
dai
a j +
daj p(a|y, B )
a i
a i
j =i a j =(2)Np 1 p(ai ,a j =i |y,B)
= (2)Np 1
F ( ai + |y, B ) F ( ai |y, B ) a i = (2)Np 1 p( ai + , a j =i |y, B ) p( ai , a j =i |y, B ) = (2)Np p(a|y, B ) ai =0

a= a !
a =a MAP
288
In diesem Fall erhalten wir die maximale a-posteriori Lsung (MAP). Wir wollen diesen Fall noch etwas genauer untersuchen. Die Posterior-Wahrscheinlichkeit ist das Produkt aus Likelihood-Funktion und Prior-Wahrscheinlichkeit. Im Fall eines achen Priors ist die MAP-Lsung somit gleichbedeutend mit der MLLsung. Das gibt der ML-Lsungen somit eine alternative Bedeutung.
20.4.1 Nchste-Nachbar-Abstnde von d-dimensionalen PoissonPunkten

Wir fragen nach der Verteilung der Abstnde zu den nchsten Nachbarn von PoissonPunkten (PP) der Dichte in beliebiger Dimension d. Wir gehen zunchst von einer festen Anzahl N von PPen aus, die wir anschlieend gegen Unendlich gehen lassen. Wir greifen nun einen der PP als Bezugspunkt heraus und fragen nach der Wahrscheinlichkeit p(r)dr, den ersten weiteren Punkt im Abstand r anzutreffen. Das heit, von den verbleibenden N 1 Punkten sind N 2 in einem Abstand grer-gleich r und einer im Intervall r, r + dr. Es ist einfacher, von der komplementren Verteilungsfunktion (r) = F
r
f (r) dr
auszugehen, die gleichbedeutend ist mit der Wahrscheinlichkeit, den nchsten Nachbar im Abstand grer-gleich r anzutreffen. Das heit, alle N 1 Punkte haben einen Abstand grer-gleich r vom Bezugspunkt. Da die Punkte alle unkorreliert sind, ist diese Wahrscheinlichkeit (r) = (P (Abstand eines PPs ist grer-gleich r)N 1 F . (20.20)
Die Wahrscheinlichkeit, dass ein PP im Abstand grer-gleich r anzutreffen ist, ist nach der klassischen Denition der Wahrscheinlichkeit gleich P (Abstand eines PPs ist grer-gleich r) = V > (r) V ,
wobei V > (r) das Volumen des Bereiches ist, in dem die Punkte einen Abstand grer-gleich r vom Aufpunkt haben und V das Gesamtvolumen darstellt. Dafr kann man auch P (Abstand eines PPs ist grer-gleich r) = V V < (r) V < (r) =1 V V
schreiben. Hierbei ist V < (r) entsprechend das Volumen des Bereichs der Punkte, die einen kleineren Abstand als r aufweisen. Dieses Volumen ist aber nichts anderes als das Volumen der Kugel in d Dimensionen mit Radius r, also 2 V (r) = d r d = cd r d ( 2 + 1)
<
d
(20.21)
289
Gem Gl. (20.20) ist die gesuchte komplementre Verteilungsfunktion, wenn wir zustzlich N = ausnutzen, V
N 1 (r) = 1 V < (r) F N V < (r )) (N 1) ln(1 N =e 1 < = e(N 1) ( N V (r)+O( N 2 ))
= e V
< (r )+O ( 1 N
1 ). Aus der komplemenIm Limes N verschwinden die Terme der Ordnung O( N tren Verteilungsfunktion erhalten wir die eigentlich interessierende Wahrscheinlichkeitsdichte ber
p(r) = Mit Gl. (20.21) liefert das
d d < < F (r) = V (r) e V (r) dr dr p(r) = d cd rd1 e cd r

d
(20.22)
Wir wollen nun aus einer Stichprobe r = {r1 , . . . , rL } von L nchsten-NachbarAbstnde die Dichte ermitteln. Die Likelihood-Funktion ist in diesem Fall
L
p(r|, B ) =
i=1
d1 ri c
(d cd )L L e cd
d ri
=ce
L(ln() cd r d )
Die ML-Lsung ist somit gegeben durch d ln() cd rd = 0 d 1 1 = = . V cd r d Der ML-Schtzwert ist durch das inverse mittlere Stichproben-Volumen V = gegeben. 1 L
L
V < (ri )
i=1
290
20.4.2 Beispiel: Bernoulli-Problem

Wir wollen nun das binre Bernoulli-Problem aus Abschnitt 20.2.4 wahrscheinlichkeitstheoretisch behandeln. Die Wahrscheinlichkeitsdichte p(q |N, ng , B ) fr den Wert des Verhltnisses q = ng /Np der Population folgt aus dem Bayesschen Theorem 1 p(q |N, ng , B ) = q ng (1 q )N ng p(q |B) . Z Wenn wir fr p(q |B ) einen achen Prior p(q |B ) = (0 q 1) verwenden, so erhalten wir mit der richtigen Normierung ( -Verteilung Gl. (9.8a)) p(q |N, ng , B ) = (N + 1)! q ng (1 q )N ng ng ! (N ng )! .
Die MAP-Lsung ist bei einem achen Prior wieder gleich der ML-Lsung ng . qMAP = qM L = N Der Posterior-Mittelwert (PM) und das Vertrauensintervall folgen aus dem Mittelwert und der Standardabweichung der -Verteilung (Gl. (9.8c), Gl. (9.8d)) ng + 1 qPM = q = N +2 q (1 q ) VI = var(q ) = . N +3 Der Unterschied zwischen MAP-Lsung und Posterior-Mittelwert ist von der Ordnung O(1/N ), wohingegen das Vertrauensintervall von der Ordnung O(1/ N ), also wesentlich grer ist. Fr ng = 6 und N = 20 ist die Wahrscheinlichkeit in Abbildung 20.3 dargestellt.
20.4.3 Risiko
Die mittleren Kosten, als Mittelwert ber alle mglichen Datenstze und Parameter R= K (a a (y )) p(a, y |B) dN y dNp a
nennt man Risiko. Die Produkt-Regel liefert R= p(y |B ) K (a a (y )) p(a|y, B ) dNp a dN y .
Wir wollen dasjenige Funktional a (y ) bestimmen, dass das Risiko minimiert. Wir bentigen hierzu die Nullstelle der Funktional-Ableitung 0= R= a (y ) p(y |B ) a (y ) K (a a (y )) p(a|y, B ) dNp a dN y .
Da p(y |B) 0 muss die innere Klammer verschwinden. Das heit, die eben hergeleiteten Schtzwerte optimieren auch gleichzeitig das Risiko.
291
6 5
q MAP
p(q|ng,N)
4 3 2 1 0 0
q PM
VI
0.5
Abbildung 20.3: Wahrscheinlichkeit p(q |N, ng , B ) als Funktion von q fr ng = 6 und N = 20.
20.4.4 Vertrauensintervall
Im Rahmen der Bayesschen Wahrscheinlichkeitstheorie ist das Vertrauensintervall eines Parameters ai durch die Standardabweichung der Posterior-Wahrscheinlichkeit (ai )2 p(a|d, B ) dNp a gegeben.
20.5
Lineare Regression
Viele Anwendungen sind von Hause aus linear in den Parametern oder knnen im interessierenden Bereich linearisiert werden. Das Modell lautet in diesem Fall y=
i
x i ai
(20.23)
wobei die xi Funktionen der experimentellen Steuergren und eventuell zustzlicher Parameter sind. Zum Beispiel y = a0 + a1 x + a2 x2 .
Das Experiment werde nun fr L unterschiedliche Stze von Steuergren {xi } wiederholt, wobei der Index = 1, . . . , L die Experimente durchnummeriert
N
y =
n=1
xn an
292
Man kann diesen Ausdruck auch als die Entwicklung eines Vektors y nach Basisvektoren auffassen, wobei xn die n-te Komponente des -ten Basisvektors ist. Die an sind die Entwicklungskoefzienten. Das lsst sich kompakt in Vektor-Notation schreiben y=Xa .
Hierbei ist y RL der Vektor der experimentellen Ergebnisse, a RN der Vektor der Entwicklungsparameter und X die (L N )-Matrix mit den Elementen xn , die von den unterschiedlichen Steuergren und zustzlichen vorgegebenen Parametern in bekannter Weise abhngen. Wir gehen davon aus, dass das Modell stimmt. Allerdings sind experimentelle Daten i.d.R. fehlerbehaftet, so dass die gemessenen Gren y von den Vorhersagen des Modells abweichen werden. Wir machen folgende Annahmen Lineares Modell mit additiven Fehlern d = Xa + .
die Fehler der einzelnen Experimente sind unabhngig vom Messwert d Die Zufalls-Variablen sind multivariat normalverteilt mit der KovarianzMatrix C . Die Mittelwert seien alle Null. Wenn wir wissen, dass ein Mittelwert nicht Null ist, heit das, dass das Experiment systematische Fehler produziert und es wre sinnvoll diese zunchst zu eliminieren, bzw. wenn der Bias bekannt ist, ihn von den Daten abzuziehen. Diese Annahmen denieren das LINEARE R EGRESSIONSMODELL2 mit der Likelihood gem Gl. (20.11) L INEARES R EGRESSIONSMODELL
p(d|a, N, L, X, , B ) = (2 ) 2 |C | 2 e 2 |dXa| mit = C 1 2 d d

L 1 1
(20.24)
X = C 2 X
Die ML-Lsung bzw. bei konstantem Prior die MAP-Lsung erhalten wir durch Minimieren der F EHLANPASSUNG Xa 2 := d
2
2aT X T d + aT X T Xa = d
Hug ndet man die Denition fr den Spezialfall i.u.nv. Fehler.
293
d.h. an der Nullstelle des Gradienten + 2X T Xa 0 = 2 = 2X T d Das lineare Regressionsmodell hat die Lsung ML-L SUNG DES
LINEAREN
R EGRESSIONSMODELLS . (20.25)
aML = (X T X )1 X T d
Voraussetzung ist, dass von der Matrix H = XT X das Inverse existiert. Aus den ML-Parametern folgen die Modell-Werte y ML = XaML .
Man kann die multivariate Normal-Verteilung Gl. (20.24) ausdrcken in a = a aML ,
in der die Log-Likelihood quadratisch ist, in der Form p(d|a, N, L, X, , B ) = mit der H ESSE -M ATRIX H=
1 2
1 1 aT H a e 2 Z
(20.26)
T 2 = X T X
(20.27)
Im Rahmen der Bayessche Wahrscheinlichkeitstheorie gilt p(a|d, N, L, X, , B ) = 1 p(d|a, N, L, X, , B ) p(a|d, N, L, X, , B ) Z .
Immer dann, wenn das Experiment wesentliche, neue Erkenntnisse ber die Parameter a liefert davon sollte man bei einem guten Experiment eigentlich ausgehen
294
knnen dominiert die Likelihood-Funktion die funktionelle Form der PosteriorVerteilung und man kann einen achen Prior annehmen. Unter Bercksichtigung der Normierung der multivariaten Normalverteilung (Gl. (9.28a)) erhalten wir dann p(a|d, N, L, X, , B ) = (2 2 ) 2 |H | 2 e 2 a Aus Gl. (9.28c) wissen wir, dass die Kovarianz der Parameter
1 an am = Hm,n
L 1 1 T H a
(20.28)
durch die Matrix-Elemente der inversen Hesse-Matrix gegeben sind. Diese Matrix wird in der Regel nicht diagonal sein. Das bedeutet, dass die Fehler korreliert sind. Das ist einleuchtend, wenn wir z.B. an einen Geraden-Fit denken: Wenn hierbei, z.B. die Steigung verndert wird muss man auch gleichzeitig den Achsen-Abschnitt verndern, um zur vernderten Steigung den optimalen Fit an die Daten zu erhalten. Wir wollen zwei wichtige Spezialflle betrachten
20.5.1
Schtzen einer Konstanten
Das einfachste lineare Modell ist die Konstante y=a .
Weiter wollen wir unkorrelierte Fehler mit individuellen Varianzen annehmen

2 Cij = ij i
Wir bentigen
1 Cij 2 = ij i 1
Die Matrix X hat die einfache Gestalt 1 . . . X = 1 . . . 1 und weiter gilt 1/1 . . . 1 X = C 2 X = 1/i . . . 1/L
295
Die transformierten Daten sind d1 /1 . . . 1 = C 2 d = d di /i . . . dL /L Die Hessematrix ist dann

L
H=X X=
i=1
1 def 2 = 2 i
Schlielich ist die ML-Lsung

L
ML
=H
= 2 X d
T i=1
di 2 i
Die Lsung des Konstanten-Problems lautet also ML-/MAP-L SUNG

DER
K ONSTANTEN
ML
L di 2 i=1 i L 1 2 i=1 i L
=: d
(20.29) .
var(a) = 1/
i=1
1 2 i
Die ML-/MAP-Lsung ist also das mit den inversen Varianzen gewichtete Mittel. Im Fall i = geht das Ergebnis in das alt-vertraute Ergebnis aML = d und var(a) = 2 /L ber.
20.5.2
Schtzen der Parameter einer Geraden
Ein weiteres weit verbreitetes Problem ist die Bestimmung der Parameter einer Geraden y = a1 + x a 2 . Die zu untersuchenden Parameter sind der Achsen-Abschnitt a1 und die Steigung a2 . Wir setzen dieselbe Kovarianz-Matrix vom letzten Beispiel voraus. Die Matrix X ist
296
in diesem Fall 1 x1 . . . . . . X = 1 x i . . . . . . 1 xL Daraus ergibt sich 1/1 x1 /1 . . . . . . X = 1/i xi /i . . . . . . 1/L xL /L Die Hesse-Matrix lautet nun 1/1 x1 /1 . . . . . . 1/i xi /i = . . . . . . 1/L xL /L X X=
T
1/1 . . . 1/i . . . 1/l x1 /1 . . . xi /i . . . xL /L
1 2 i xi 2 i
xi 2 i x2 i 2 i
= 2
1 x
x x2
Die Determinante hiervon ist |H | = 4 x2
= 4 (x)2
def
= 4 Cxx
Fr das Inverse einer (2 2) Matrix gilt A 1 = a11 a12 a21 a22

1
1 |A|
a22 a12 a21 a11
Fr die ML-Lsung bentigen wir d1 /1 . . . di /i = 2 . . . dL /L = XT d 1/1 . . . 1/i . . . 1/L x1 /1 . . . xi /i . . . xL /L
d xd
297
Damit ist die ML-Lsung 2 2 x2 x d 4 1 xd Cxx x 2 1 x d x xd = xd x d Cxx 1 (Cxx + x 2 ) d x (Cxd+ x = Cxd Cxx d
aML =
d ) (20.30)
x
Cxd Cxx
Cxd Cxx
Das heit PARAMETER DES G ERADEN -F ITS
a1 = d x a2 Cxd a2 = Cxx 2 x 2 1 var(a1 ) = H11 = Cxx 2 1 var(a2 ) = H22 = Cxx 2 x 1 cov(a1 , a2 ) = H12 = Cxx
(20.31)
20.5.3
Vorhersagen bei einem linearen Modell
Man wird in vielen Fllen nicht allein an den Parametern interessiert sein, sondern Vorhersagen fr neue, experimentell schwer zugngliche Steuergren x machen wollen. In dem einfachen Geraden-Problem wollen wir also yx zu einem beliebigen Wert der unabhngigen Variablen vorhersagen. Diese berlegungen wollen wir nur 2 fr den Fall gleicher Varianzen i = 2 vorrechnen. Gesucht ist demnach p(y |, x, y, N, , B ) .
298
Diese Gre erhalten wir aus der bereits bekannten Wahrscheinlichkeitsdichte der Parameter ber die Marginalisierungsregel p(y |, x, y, N, L, , B ) = da1 da2 p(y |a1 , a2 , , x, y, N, L, , B ) p(a1 , a2 |x, y, N, L, , B ) = = Gem Gl. (20.24) fhrt das zu p(y |, x, y, N, L, , B ) da2 e 22
1 (y (y a 2
da1 da2 (y a1 a2 ) p(a1 , a2 |x, y, N, L, , B ) da2 p(a1 = y a2 , a2 |x, y, N, L, , B ) .
) a 2 x ) 2
(20.32)
Das Argument der Exponentialfunktion kann vereinfacht werden

L
(y (y a2 ) a2 x )2 =
=1 L
=
=1
((y y ) a2 (x ))2
2 = L (y y )2 2 a2 (y y )(x ) + a2 2 (x )
2 ( y y )( x ) + L (y y )2 = L(x )2 a 2 a 2 2 2 ( x )
a0 2 2 a0 2
= L(x
)2
a2
+L
(y y
)2
(y y )(x ) (x )2
Wir setzen dieses Ergebnis in Gl. (20.32) ein und fhren die Integration ber a2 aus. Uns interessieren nur die Terme, die von y abhngen. Alle anderen Faktoren erhalten wir einfacher nachtrglich ber die Normierung p(y |, x, y, N, L, , B ) exp L ((y y )2 (x )2 (y y )(x ) ) 2 2 (x )2
2
(20.33)
Wir drcken nun die Vektoren x und y ber die Abweichungen x und y von den Mittelwerten aus x = x + x = x + y = y + y
299
Damit vereinfachen sich die Terme in Gl. (20.33) (x )2 = var(x) + (x )2 (y y )2 = var(y ) + (y y )2 (x )(y y ) = Damit vereinfachen wir den Nenner in Gl. (20.33) (x )2 (y y )2 (y y )(x ) = = (var(x) + 2 ) (var(y ) + y 2 ) (cov(xy ) + y )2 = var(x)var(y ) + 2 var(y ) + y 2 var(x) + y 2 2 cov(xy )2 2 cov(xy ) y y 2 2 = A + y 2 var(x) 2 cov(xy ) y .
2
= var(x) + 2 = var(y ) + y 2 = cov(xy ) + y .
Hierbei enthlt A alle Terme, die nicht von y abhngen. Diese Terme knnen bequemer nachtrglich mit der Normierung bercksichtigt werden. Damit ist die gesuchte Wahrscheinlichkeitsdichte in Gl. (20.33)
aML 2
cov(xy ) 2 var( x ) y y 2 var(x) L p(y |, x, y, N, L, , B ) exp 2 2 2 var( x ) + exp L (y 2 2

2
2 y aML 2 2 1 + var(x)
L (y aML )2 2 exp 2 2 2 1 + var( x) L (y y 2 2 + aML x 2 2 1 + var(x) aML 2 2 var(x) aML 2 . )

2
exp exp
L (y 2 2 1+
aML 1
300
G ERADEN -F IT V ORHERSAGE
p(y |, x, y, N, L, , B ) =
2 =
1
2 2
ML y aML 1 a2 2 2
(20.34) ( x) var(x)
2
mit
1+
y
2
0 5
10
15
Abbildung 20.4: Geradent mit Fehlerband. Die Gerade, mit der die Daten erzeugt wurden, ist gestrichelt eingetragen. Das ist ein einfaches und einleuchtendes Ergebnis. Der Wert y zur Steuergre x = ist normal-verteilt. Der Mittelwert ist durch das lineare Modell mit MaximumLikelihood-Werten fr die Modell-Parameter a1 , a2 gegeben. Die Varianz der NormalVerteilung ist minimal im Zentrum der Daten bei = x . Dort ist
2 =
2 L
Es erscheint die bekannte 1/L Abhngigkeit. Weg vom Daten-Zentrum steigt die Varianz quadratisch an. Fr weit auerhalb des Datenbereichs, d.h. fr ( x )2 var(x) 1 ,
301
wchst die Unsicherheit der Vorhersage (das Fehlerband) | x | = L var(x) linear mit dem Abstand vom Daten-Zentrum. Fr quidistante Daten gilt am DatenRand = x1 oder = xN und fr L 1 2 = L .
Der Fehler ist hier also doppelt so gro wie im Zentrum der Daten, da dieser Bereich durch weniger Daten abgedeckt wird.
20.5.4
Zahl der Datenpunkte innerhalb des Fehlerband
Wir wollen einmal berlegen, wieviele Datenpunkte mit ihrem Fehlerbalken von einer Standardabweichung den Geradent berhren. In Gl. (4.16) hatten wir gezeigt, dass bei normal-verteilten experimentellen Fehlern die Wahrscheinlichkeit, einen Datenpunkt innerhalb einer Standard-Abweichung zu nden
1
qsd
1 = 2
ex
1
2 /2
dx = 0.6827
ist. Die Wahrscheinlichkeit, fr 2 Standardabweichungen war q2sd = 0.9545. Bei L Datenpunkten, deren Fehler i.u.nv. sind, ist die Wahrscheinlichkeit, dass l Punkte innerhalb des Fehlerbandes liegen, die Binomial-Verteilung P (l|L, qsd , B ) = L l
l qsd (1 qsd )Ll
Somit haben wir ein wichtiges Ergebnis abgeleitet. Die mittlere Zahl der Daten im Fehlerband ist L qsd und die Varianz lautet L qsd (1 qsd ) Z AHL DER D ATEN IM F EHLERBAND LSD 0.4654 = 0.6827 L L .
Bei 10 Daten sollten (7 2) innerhalb des Fehlerbandes liegen. Bei 100 Daten sollten es (68 5) sein. In Abbildung 20.4 liegen 65% der Daten innerhalb einer Standardabweichung von der ermittelten Geraden.
302
20.6
Parameter-Schtzen von nichtlinearen Modellen
Auch bei nichtlinearen Modellen ist der Ausgangspunkt die Posterior-Wahrscheinlichkeit . p(a|x, y, N, B ) In der Regel ist es bei diesen Problemen nicht mglich analytisch fortzufahren. Eine weitverbreitete Auswertungsmethode sind die numerischen Monte-Carlo-Verfahren, genauer gesagt die Markov-Chain-Monte-Carlo (MCMC) Verfahren, die im Rahmen der Computersimulationen besprochen werden. Eine weitverbreitete Nherungsmethode stellt die sogenannte G AUSSSCHE N HERUNG oder S TEEPEST-D ESCENT-N HERUNG dar. Hierbei wird die PosteriorWahrscheinlichkeit in eine exponentielle Form gebracht p(a|x, y, N, B ) = e(a) ,
was natrlich immer mglich ist, da die Wahrscheinlichkeitsdichte positiv ist. Die eigentlich Nherung besteht nun darin, das Argument der Exponential-Funktion in eine Taylorreihe um das Maximum aMAP zu entwickeln bis zu Termen zweiter Ordnung (a) (aMAP ) + 1 aT H a 2 (20.35) .
a = a aMAP 2 (a) Hij = ai aj a=aMAP
Die Matrix H ist die Hesse-Matrix. Die Prior-Wahrscheinlichkeit beinhaltet i.d.R. Schranken fr die erlaubten Parameter. In der Steepest-Descent-Nherung setzt man voraus, dass die Posterior-Wahrscheinlichkeit an den Schranken bereits vernachlssigbar klein ist, so dass man auf die Schranken verzichten kann, und Integrale ber den gesamten Rn erstrecken kann. Somit lautet die Posterior-Wahrscheinlichkeit p(a|x, y, N, B ) (2 ) 2 |H | 2 e 2 a
N 1 1 T H a
(20.36)
Nach Konstruktion ist sie multivariat normal. Das hat zur Folge, dass aPM = aMAP , und die Kovarianz-Matrix ist gleich der inversen Hesse-Matrix
1 cov(ai aj ) = Hij
303
20.7
Fehler in Abszisse und Ordinate
Wir wollen hier der Vollstndigkeit halber angeben, wie der Geraden-Fit aussieht, wenn ein konstanter Fehler in Abszisse und Ordinate vorliegt x und y . Das ist der Fall, wenn man beim Ablesen der Steuergre einen vergleichbaren Fehler macht, wie bei der Bestimmung der Messgre. Es gibt aber auch den Fall, dass beide Koordinaten Messgren sind, z.B. x, und y Koordinate von 2-d Punkten. Gegeben ist eine Stichprobe die aus x-Werten x = {x1 , . . . , xn } und entsprechenden y -Werten besteht. Die Likelihood-Funktion lautet in diesem Fall p(b|a, x, y, y, x , y , B ) =
1 2 2
(b( y a x ))2 2 2 1 N i (yi axi ) 2 2 2
p(a|x, y, x , y , B ) = 2 2 2 =
N 2
2 2 y + a2 x N
20.7.1
Leuchtturm Problem
Wir betrachten folgendes Problem. Ein Leuchtturm bende sich im Abstand a von der Kste und die Projektion auf die Kste liege an der Stelle b. Der Leuchtturm sendet zufllige Lichtblitze in alle Richtungen parallel zur Erdoberche. An der Kste benden sich Detektoren, die die Lichtblitze nachweisen, aber nicht woher sie kommen. Wir fhren einen Winkel ein, der beim Lot auf die Kste den Wert Null annimmt. Die Lichtblitze sollen in gleich-wahrscheinlich sein p(|B) = 1 ( , ) 2 2 .
Der Bedingungskomplex beinhaltet die Einschrnkung, dass nur Lichtblitze, die irgendwo die Kste treffen, bercksichtigt werden. Es werden nun L Lichtblitze an den Positionen x1 , x2 , . . . , xL detektiert. Wie gro ist nun die Wahrscheinlichkeit p(a, b|x1 , x2 , . . . , xL , B ). Das Bayessche Theorem liefert p(a, b|x1 , x2 , . . . , xL , B ) = 1 p(x1 , x2 , . . . , xL |a, b, B ) p(a, b|B) Z .
Da die Lichtblitze zufllig sein sollen, gilt weiter

L
p(x1 , x2 , . . . , xL |a, b, B ) =
i=1
p(xi |a, b, B )
Die Wahrscheinlichkeit p(x|a, b, B ), einen Lichtblitz im Intervall (x, x + dx) anzutreffen, wenn wir die Leuchtturm-Position kennen, erhalten wir aus der Winkel-
304
Information
/2
p(x|a, b, B ) =
/2 /2
p(x|, a, b, B ) p(|a, b, B ) (x (b + a tan()) 1

/2 /2
= = =
( )
/2
cos2 ( ) cos2 ( ) d = a a
1 a (1 + tan2 ( )) xb = arctan( ) a Damit ergibt sich fr die Wahrscheinlichkeit eines Blitzes am Ort x die CauchyVerteilung a . p(x|a, b, B ) = 2 (a + (x b)2 ) Die gesuchte Wahrscheinlichkeit lautet schlielich 1 p(a, b|x1 , x2 , . . . , xL , B ) = Z
L
i=1
(a2
a + (xi b)2 )
p(a, b|B )
Die Prior-Wahrscheinlichkeit p(a, b|B ) wollen wir hier nicht nher spezizieren und setzen sie daher konstant an.
305
Abbildung 20.5: Das Leuchtturm Problem. Beschreibung im Text.
306
20.8
Ausreier-tolerante Parameter-Schtzung
Es kommt hug vor, dass einzelne Datenpunkte nicht dem angegebenen Fehlergesetz gengen. Das kann z.B. daran liegen, dass eine momentane externe Strung die Messung beeinusst hat oder, dass die Daten aus unterschiedlichen Experimenten stammen, von denen eins oder mehrere inkorrekte Fehlerangaben machen oder gar systematische Fehler aufweisen. Es ist gngige Praxis, offensichtliche Ausreier wegzulassen. Das ist allerdings aus mehreren Grnden nicht befriedigend Bei hher-dimensionalen Problemen sind Ausreier nicht mehr graphisch zu erkennen. Wenn viele Ausreier vorliegen. Die Ausreier entsprechen seltenen Ereignissen der Wahrscheinlichkeitsverteilung. Das Eliminieren von vermeintlichen Ausreiern kann zu systematischen Fehlern beim Parameter-Schtzen fhren. Schlielich kann es auch sein, dass die Ausreier in Wirklichkeit physikalische Effekte wiederspiegeln. Wir wollen hier besprechen, wie man trotz der mglichen Anwesenheit von Ausreiern zuverlssig und konsistent Modell-Parameter bestimmen kann. Wir gehen von gemessenen Daten di , i = 1, . . . , N
aus, die wie zuvor durch ein Modell yi = f (si , a) beschrieben werden sollen, das eine Funktion der Steuergren s ist und von den Modell-Parametern a abhngt. Das Ziel der Experimente und der Datenanalyse ist die Bestimmung der Parameter. Die Daten sollen additive Gausche Fehler i aufweisen p(i |i , B ) = 1 2 2i e
2 i 2 2 i
Wir gehen davon aus, dass die Fehler der einzelnen Messungen unkorreliert sind. Das ist sicherlich in den meisten Fllen richtig und trifft insbesondere auf Daten unterschiedlicher Experimente zu. Fr diejenigen Datenpunkte, die keine Ausreier sind, ist die Likelihood p(di |A, si , i , a, B ) = 1 2 2i e
(di f (si |a))2 2 2 i
307
Die Proposition A besagt, dass der Datenpunkt kein Ausreier ist. Ausreier behandeln wir dadurch, dass wir einen modizierten Fehler i = i > i annehmen (d.h. > 1). Die Likelihood-Funktion lautet im Fall von Ausreiern p(di |A, si , , a, B ) =
1 2 (i )2
(di f (si ,a))2 2(i )2
Die Proposition A besagt, dass ein Ausreier vorliegt. Uns interessiert die Wahrscheinlichkeit 1 . p(a|d, s, , B ) = p(d|a, s, , B ) p(a|s, , B ) Z Wir gehen hier davon aus, dass wir ber die Parameter vor dem Experiment nichts aussagen knnen. Daher nehmen Wahrscheinlichkeitsrechnung hier eine konstante Wahrscheinlichkeit p(a|s, , B ) an3 . Damit erhalten wir p(a|d, s, , B ) = Da die Daten unkorreliert sind, gilt p(d|a, s, , B ) =
i
1 p(d|a, s, , B ) Z
p(di |a, si , i , B )
ber die Marginalisierungsregel fhren wir die Proposition A ein, ob es sich um einen Ausreier handelt oder nicht p(di |a, si , i , B ) = p(di |A, a, si , i , B ) P (A|B ) + p(di |A, a, si , i , B ) P (A|B ) . Es wurde davon ausgegangen, dass die Wahrscheinlichkeit P (A|a, si , i , B ) nicht von den Parametern und den Steuergren abhngt, sondern allein eine Eigenschaft der Messapparatur ist. Wir fhren die Abkrzung = P (A|B ) ein. Daraus folgt P (A|B ) = 1 . Die Likelihood ist demnach, unter Vorgabe der Werte und , p(d|, , a, s, , B ) =
i
(1 ) N (di |yi , i ) + N (di |yi , i )
Nun sind diese H YPER -PARAMETER aber nicht bekannt und mssen ber die Marginalisierungsregel eliminiert werden. Der Wert von muss, da es sich um eine Wahrscheinlichkeit handelt, zwischen Null und Eins liegen. Wir gehen hier davon aus, dass alle Werte gleich-wahrscheinlich sind4 . Da es sich bei um einen Skalen-Parameter
Wenn detaillierteres Vorwissen vorliegt, lsst sich das leicht ergnzen. Es wird in realistischen Problemen eher so sein, dass man die Ausreier-Wahrscheinlichkeit aufgrund der Problemstellung genauer abschtzen kann.
4 3
308
1 handelt, ist J EFFREYS P RIOR, also P (|B ) , zu verwenden. Die Likelihood ist somit 1
p(d|a, s, , B ) =
0 1
d
1
d
i
p(di , , |a, si , i , B )
=
0
d
1
d
i
p(di |, , a, si , i , B )
p( |, a, si , i , B ) p(|a, si , i , B )
=p( |B)=1 1
1 =p(|B)
1 = Z
0
d
1
(1 ) N (di |yi , i ) +
i
N (di |yi , i )
Die weitere Analyse geht wie bisher. Es ist z.B. der Posterior-Erwartungswert a i der Parameter zu bestimmen und die Vertrauensintervalle erhlt man aus der Kovarianzmatrix ai aj = da (ai a i )(aj a j ) p(a|d, s, , B ) da .
20.8.1
Vorhersagen
In der Regel ist man nicht an den Werten der Parameter selbst interessiert, sondern verwendet sie, um Vorhersagen fr andere Werte der Steuergre s zu machen. Der theoretische Wert der Messgre y zur Steuergre s bei gegebenen ParameterWerten a ist ys = f (s, a) . Da die Parameter nicht exakt bekannt sind, sondern aus den gegebenen Daten d abgeschtzt werden, mssen wir nach der Wahrscheinlichkeitsdichte p(ys |s, d, s, , B ) fr ys fragen gegeben die Daten und das restliche Vorwissen. Mit der Marginalisierungsregel fhren wir die Parameter ein p(ys |s, d, s, , B ) = p(ys |a, s, d , s , , B ) p(a|s , d, s, , B ) da
(ys f (s,a))
(ys f (s, a)) p(a|d, s, , B ) da
309
Uns interessiert nicht die komplette Wahrscheinlichkeitsverteilung, sondern nur der Mittelwert und die Varianz ys = E (ys |s, d, s, ) (ys )2 = E ((ys )2 |s, d, s, ) = = f (s, a) p(a|d, s, , B ) da (f (s, a) ys )2 p(a|d, s, , B ) da .
Fr den wichtigen Spezialfall des lineare Modells ys = as + b gilt
ys = a s + b (ys )2 = ((a a )s + (b b ))2 = (a)2 s2 + 2 a b s + (b)2
20.8.2
Beispiel: Schtzen des Mittelwerts
Den vorgestellten Formalismus kann man verwenden, um ausreier-tolerant den Mittelwert von Daten di , i = 1, . . . , N zu schtzen, indem man ein konstante Funktion als Modell whlt yi = f (si , a) = .
Ohne auf Ausreier Rcksicht zu nehmen wrde man den Parameter und dessen Varianz aus den Formeln (20.29) 0 = 0 =
N 2 i=1 di /i N 2 i=1 1/i
und
1
N i=1 2 1/i
berechnen. Diese Standard-Lsungen erhlt man aus den obigen Formeln fr den Prior p( |B ) = ( ). Abbildung 20.6 zeigt eine Studie, in der verschiedene Datenstze mit dieser Methode und mit der Standard-Lsung ausgewertet worden sind. Im Bild links oben sind alle Daten und Fehler mit dem Mittelwert kompatibel. Beide Methoden liefern dasselbe Ergebnis. Das ndert sich, wenn man Ausreier hinzufgt. Nicht nur, dass bei der herkmmlichen Methode der Mittelwert durch die Ausreier merklich verschoben wird, es wird auch der Fehler des Mittelwerts stark unterschtzt. Sind
310
zu viele Ausreier vorhanden, sieht man, dass sich in der Wahrscheinlichkeitsdichte mehrere (in unserem Fall zwei) Moden ausbilden. Das ist ein Zeichen dafr, dass man nicht mehr sicher sagen kann, welche Daten die Ausreier und welche die wahren Daten sind. In diesem Fall muss man sich zwangslug um mehr Daten bemhen, die dann (hoffentlich) eine Entscheidung erlauben.
10 8 p(|d,s,,B) p(|d,s,,B) 4 5 6 7 6 4 2 0 6 5 4 3 2 1 0 4 5 6 7
3 2 2.5 p(|d,s,,B) p(|d,s,,B) 4 5 6 7 2 1.5 1 0.5 0 1.5 1 0.5 0
Abbildung 20.6: In diesen Abbildungen ist fr verschiedene Datenstze (oberes Bilddrittel zeigt die Daten mit Fehlerbalken) die Wahrscheinlichkeitsdichte p(|d, s, , B ) (strichpunktierte Linie), der Mittelwert mit Fehler (Raute) und der Mittelwert mit Fehler nach der Stanardmethode (Quadrat) dargestellt. Links oben sind die Daten kompatibel. In den folgenden Abbildungen wurden sukzessive Ausreier hinzugefgt.
20.8.3 Beispiel: Geradent

Als nchstes wollen wir eine Gerade durch eine Punktmenge tten. Unser Modellfunktion ist daher yi = a si + b
311
Abbildungen 20.7 und 20.8 zeigen die Ergebnisse zweier Testdatenstze. Das erste Beispiel zeigt, dass die Methode robust gegen Ausreier ist, whrend ein herkmmlicher Fit natrlich Ausreier nicht selbstndig erkennen kann. An der Dichteverteilung des zweiten Beispiels kann man erkennen, dass in diesem Fall eine klare Trennung zwischen Ausreiern und wahren Daten nicht mglich ist.
12 0.08 10 8 6 4 2 0 0 2 s 4 6 a 0 2.5 2 1.5 1 2 2 0 b 4 p(a,b|d,s,,B) 0.06 0.04 0.02
Abbildung 20.7: Ausreier-toleranter Geradent. Im linken Bild sieht man die robust gerechnete Ausgleichsgerade (durchgezogen) mit dem Fehlerbereich (strichliert). Die strich-punktierte Linie zeigt einen herkmmlichen Fit. Das rechte Bild zeigt die Wahrscheinlichkeitsdichte p(a, b|d, s, , B ). In diesem Fall sind gengend Daten vorhanden, um die Ausreier zu erkennen.
y(x)=as+b
312
8 7 y(x)=as+b 6 5 4 3 0 1 2 s 3 4
0.05 0.04 p(a,b|d,s,,B) 0.03 0.02 0.01 0 4 2 0 a 2 10 10 0 b 20
Abbildung 20.8: Ausreier-toleranter Geradent. Im linken Bild sieht man die robust gerechnete Ausgleichsgerade (durchgezogen) mit dem Fehlerbereich (strichliert). Die strich-punktierte Linie zeigt einen herkmmlichen Fit. Das rechte Bild zeigt die Wahrscheinlichkeitsdichte p(a, b|d, s, , B ). Die geringe Datenmenge mit offensichtlich falschen Fehlerangaben macht ein eindeutiges Erkennen der Ausreier unmglich.
313
314
Teil V Hypothesentests
315
Kapitel 21 Stichproben-Verteilungen
21.1 Mittelwert und Median
Wir gehen von einer Stichprobe vom Umfang L i.u.v. Zufallszahlen einer Wahrscheinlichkeitsdichte (x) aus. Mittelwert und Varianz dieser Verteilung sind x = var(x) = x (x) dx (x x )2 (x) dx .
21.1.1 Verteilung des Stichproben-Mittelwertes

Def. 21.1 (Stichproben-Mittelwert) Man deniert als S TICHPROBEN -M ITTELWERT ( SAMPLE MEAN ) 1 x := L
L
xi
i=1
(21.1)
Der aktuelle Wert, den x annimmt, hngt von der jeweiligen Stichprobe ab. Es gibt also eine Wahrscheinlichkeitsverteilung p(x|L, , B ). Diese Wahrscheinlichkeit erhalten wir aus der Marginalisierungsregel p(x|L, , B ) = p(x|x1 , . . . , xL , L, , B ) p(x1 , . . . , xL |L, , B ) dx1 . . . dxL
1 x L L i=1
xi
317
indem wir ber die mglichen Stichproben integrieren. Da die Elemente der Stichprobe i.u.v. sind, gilt 1 L
L
p(x|L, , B ) =
xi (x1 ) . . . (xL ) dx1 . . . dxL

i=1
Wir wollen hier diese Verteilung nicht weiter berechnen sondern lediglich den daraus resultierenden Mittelwert x = = 1 L 1 L
L
x p(x|L, , B ) dx 1 L
L
xi
i=1
(x1 ) . . . (xL ) dx1 . . . dxL
xi (x1 ) . . . (xL ) dx1 . . . dxL

i=1 L
xi (xi ) dxi
i=1 = x j =i
(xj ) dxj
=1
x = x
Das heit, der Stichproben-Mittelwert liefert im Mittel den wahren Mittelwert der zugrunde liegenden Wahrscheinlichkeitsdichte (x). Man nennt deshalb das arithmetische Mittel der Stichprobe einen unverzerrten bzw. erwartungstreuen Schtzwert (UNBIASED ESTIMATOR) fr den intrinsischen Mittelwert der Verteilung. Inwieweit das relevant ist, werden wir noch diskutieren.
21.1.2
Varianz der Stichproben-Mittelwerte
Als nchstes wollen wir untersuchen, wie weit der Stichproben-Mittelwert x um den Mittelwert streut. Dazu bentigen wir x2 x2 = = 1 = 2 L x2 p(x|L, , B ) dx 1 L
L L 2
xi
i=1
(x1 ) . . . (xL ) dx1 . . . dxL
xi xj (x1 ) . . . (xL ) dx1 . . . dxL

i,j =1
318
Hier mssen wir nun zwischen i = j und i = j unterscheiden x2 = 1 L2 1 L2 1 L2

L
x2 i (x1 ) . . . (xL ) dx1 . . . dxL

i=1 L
xi xj (x1 ) . . . (xL ) dx1 . . . dxL

i,j =1 i=j
x2 +
i=1
1 L2
x
i,j =1 i=j
x
2 2
1 2 L (L 1) 1 x + x2= x2 x 2 L L L (x)2 var(x) = + x2= + x2 L L
+ x
Daraus folgt wegen x = x die VARIANZ

DER
S TICHPROBEN -M ITTELWERTE var(x) L . (21.2)
var(x) =
Die mittlere quadratischen Abweichung (Varianz) besagt, dass die Streuung von x um den wahren Mittelwert x im Mittel var(x) betrgt. Diese Gre nennt man statistischen Fehler des Mittelwertes bzw. S TANDARDFEHLER x := SF := var(x) L (21.3)
Er unterschiedet sich von der S TANDARD -A BWEICHUNG var(x) durch den Faktor 1/ L. Das ist die Grundlage fast aller experimenteller Bestimmungen von unbekannten Gren, die im Experiment mit einem statistischen Fehler behaftet sind. Dasselbe gilt fr (Quanten-)Monte-Carlo-Verfahren. Der Standardfehler besagt, dass man mit zunehmendem Stichproben-Umfang den statistischen Fehler immer strker unterdrcken kann. Eine kleine Unzulnglichkeit besteht noch. Wir verwenden die Stichprobe, um den wahren Mittelwert der Wahrscheinlichkeitsverteilung abzuschtzen. Der Fehler den
319
wir dabei machen, hngt von var(x) ab, das wir aber ebensowenig kennen wie den Mittelwert. Woher bekommen wir also var(x)? Es ist naheliegend, auch die Varianz aus der Stichprobe abzuschtzen 1 v= L
L
xi x
i=1
Den wahren Mittelwert haben wir hier durch den Schtzwert x ersetzt. Der Schtzwert fr die Varianz kann umgeschrieben werden in 1 v= L 1 L
L
x2 i
i=1
1 2x L
i=1 x
1 xi + L
x2
i=1
L 2 x2 i x i=1
Auch dieser Schtzwert ist eine Zufalls-Variable, die von der jeweiligen Stichprobe abhngt. Der Mittelwert liefert v = 1 L
L 2 x2 i x i=1 x2
= x2 =
var(x) x L .
L1 var(x) L
Offensichtlich weist dieser Schtzwert im Mittel eine Abweichung (Bias) vom wahren Wert der Varianz auf. Um diese Abweichung zu beheben fhrt man den Schtzwert U NBIASED E STIMATOR
2 est
FR DIE
VARIANZ
1 = L1
(xi x)2
i=1
(21.4)
ein. Der modizierte Vorfaktor 1/(L 1) ist wie folgt zu verstehen. Die Gren i = xi x sind nicht mehr unabhngig voneinander, da i i = 0. Es gibt nur noch L 1 unabhngige Gren i , die aus den xi durch Linearkombination gebildet werden knnen. Die Zahl der F REIHEITSGRADE wurde um eins verringert. Die i
320
sind dann i.u.v. nach einer Wahrscheinlichkeitsdichte (x) mit Mittelwert Null und Varianz var(x). D.h.
L L1
2 i
i=1
=
i=1
i2
Diese Summe ergibt im Mittel den Wert (L 1) var(x).
21.1.3 Verteilung des Stichproben-Medians

Wir wollen untersuchen, wie sich der Median einer Stichprobe vom Umfang L verhlt. Es sollen alle reellen kontinuierlichen Zufalls-Variablen der Stichprobe i.u.v. sein. Die zugrunde liegende Verteilung sei (x).
Def. 21.2 (Median) Den Median deniert man sowohl fr Wahrscheinlichkeitsverteilungen als auch fr Stichproben.
M EDIAN (Z ENTRALWERT ) EINER WAHRSCHEINLICHKEITSVERTEILUNG
a) Der Median x einer KONTINUIERLICHEN Z UFALLS -VARIABLEN x mit Wahrscheinlichkeitsdichte (x) und Verteilungsfunktion F (x) ist deniert ber
x
1 = 2
(t) dt = F (x) .
(21.5)
) x = F 1 ( 1 2
b) Der Median x einer DISKRETEN Z UFALLS -VARIABLEN x, die mit den Wahrscheinlichkeiten Pi die Werte xi annimmt, ist deniert ber x= x
x +x +1 2
wenn wenn
1 i=1 i=1
Pi < 1 < 2 1 Pi = 2
i=1
Pi
(21.6)
Die Denition im diskreten Fall ist kompatibel zur Denition des Medians einer Stichprobe
321
M EDIAN (Z ENTRALWERT )
EINER
S TICHPROBE
Zunchst werden die Elemente {s1 , s2 , . . . , sL } der Stichprobe nach ansteigendem Wert {s 1 , s 2 , . . . , s L } sortiert. Dann ist der Median s wenn L = 2n + 1 n+1 . (21.7) x= s + s n n +1 wenn L = 2n 2
Zurck zum Fall diskreter Zufalls-Variablen mit den Wahrscheinlichkeiten Pi . Bei einer Stichprobe vom Umfang L wird es im Mittel L Pi mal den Wert xi in der Stichprobe geben. Wir sortieren die Elemente der Stichprobe der Gre nach xj xj +1 . Wenn es kein gibt, so dass i=1 Pi = 1/2, dann wird die Mitte der Stichprobe in eine Sequenz von gleichen Elementen x fallen. Index
Stichprobe
1 x1
2 x1
3 x1
... ...
L 2
2 x
L 2
1 L 2 x x
L 2
+1 x
L 2
+ 2 ... x ...
L xM
Wenn die Wahrscheinlichkeiten jedoch gerade so sind, dass es ein mit i=1 Pi = 1/2 gibt, dann wird auch fr L der Median bei ungeradzahligem L von Stichprobe zu Stichprobe zwischen x und x +1 streuen und im Mittel (x + x +1 )/2 liefern. Wir interessieren uns fr die Wahrscheinlichkeit p(x|L, B ) dx, dass der Median der Stichprobe vom Umfang L Werte aus dem innitesimalen Intervall um x annimmt. Der Median einer Stichprobe ist derjenige Wert der Zufalls-Variablen, bei dem die Verteilungsfunktion den Wert F (x) = 1/2 annimmt. Das heit, genau in der Hlfte der Flle werden Werte kleiner bzw. grer als x sein. Die Stichprobe habe einen ungeradzahligen Umfang L = 2n + 1. Die Stichprobe hat genau dann den Median x, wenn ein Element der Stichprobe den Wert x hat, und wenn die verbleibenden 2n Elemente der Stichprobe zur Hlfte grere und zur Hlfte kleinere Werte als x besitzt. Die Wahrscheinlichkeit hierfr ist also proportional zu P (n Werte kleiner als x|2n + 1, B ) P (n Werte grer x|2n + 1, B ) p(x|2n + 1, B ) .
Es handelt sich hier um nichts anderes als die Ordnungs-Statistik (Gl. (9.4)). Die Wahrscheinlichkeit, dass eine Zufallszahl einen Wert kleiner als x annimmt, ist durch
322
die Verteilungsfunktion F (x) gegeben. Da die Element der Stichprobe i.u.v. sind, ist die gesuchte Wahrscheinlichkeit 1 F (x)n (1 F (x))n (x) Z Die Normierungskonstante folgt aus p(x|2n, B ) = Z= F (x)n (1 F (x))n (x) dx . .
Wir fhren eine Variablen-Substitution durch q := F (x) dq = dF (x) dx x=F Demnach ist die Normierung
1 1
dx = (x)dx .
(q )
Z=
0
q n (1 q )n dq = B (n + 1, n + 1) =
n! n! (2n + 1)!
Diese Normierung htten wir natrlich auch von Gl. (9.4) der Ordnungs-Statistik ablesen knnen. Wir gehen davon aus, dass die Dichte (x) keine Nullstellen hat, sonst ist F 1 nicht eindeutig. Wir knnen nun den Erwartungswert des Stichproben-Medians ermitteln. Dazu bentigen wir x = =
0 1
1 Z
1
x F (x)n (1 F (x))n (x) dx F 1 (q ) q n (1 q )n dq Z

p (q |n+1,n+1)
=
0
F 1 (q ) p (q |n + 1, n + 1) dq := F 1 (q )
Die Dichte der -Verteilung p (q |n + 1, n + 1) hat den Mittelwert q = 1/2 und die 1 2 Varianz = 4(2n = 4(L1 . Nur wenn F 1 (q ) eine anti-symmetrische Funktion +3) +2) 1 um q = 2 ist, liefert der Median der Stichprobe im Mittel den Median1 der zugrunde liegenden Verteilung x = F 1 (1/2) = x
1
Die Denition des Medians ist F (x) = 1/2, bzw x = F 1 (1/2).
323
Ansonsten entwickeln wir F 1 (q ) um den Mittelwert q = 1/2 der -Verteilung dF 1 (q ) dq
x = F 1 (q ) = F 1 (1/2) + + 1 d F (q ) 2 dq 2
2 1
(q 1/2)
q =1/2 0
4 (q 1/2)2 +O( ) q =1/2

2
= F 1 (q ) = F 1 (1/2) +
1 d2 F 1 (q ) 2 dq 2
2 4 + O( ) q =1/2
Das heit, im Mittel liefert der Median der Stichprobe den Median der zugrunde liegenden Wahrscheinlichkeitsdichte (x) nur bis auf eine systematische Abweichung der Ordnung O( 2 )
x =x+
1 d2 F 1 (q ) 2 dq 2
2 4 + O( ) q =1/2
21.1.4
Varianz des Stichproben-Medians
Als nchstes berechnen wir die Varianz von p(x|2n + 1, B )

2
var(x) = =
F 1 (q ) x x+ dF 1 (q ) dq
2 2 2 (q 1/2) + O( ) x O( ) q =1/2 2 4 (q 1/2)2 + O( )
dF 1 (q ) dq dF 1 (q ) dq
q =1/2 2
2 4 + O( ) q =1/2
324
Wir bentigen noch die erste und zweite Ableitung von F 1 (q ) nach q
d(F (F 1 (q ))) dq = =1 dq dq dF (x) dF 1 (q ) = dx x=F 1 (q) dq = (F 1 (q )) dF 1 (q ) 1 = dq (F 1 (q )) dF 1 (q ) dq
Die zweite Ableitung folgt hieraus
d2 F 1 (q ) d 1 = 2 dq dq (F 1 (q )) (F 1 (q )) dF 1 (q ) = (F 1 (q ))2 dq 1 (F (q )) = . (F 1 (q ))3
Die Ableitungen an der Stelle q = 1/2 sind
dF 1 (q ) dq d2 F 1 (q ) dq 2
=
q =1/2
1
Med
(x = (x
)
Med
) )3
Med
q =1/2
(x
Damit ist das Endergebnis
325
M ITTELWERT UND VARIANZ DES M EDIANS EINER S TICHPROBE VOM U MFANG L = 2n + 1 x x

(x) 8 (L+2) ( x )3
x =
fr F 1 ( 1 q ) = F 1 ( 1 + q ) 2 2 + O(L2 ) sonst (21.8a) 1
var(x) =
+ O(L2 ) (x)2
(21.8b)
4(L + 2)
Wenn die Umkehrfunktion F 1 (q ) anti-symmetrisch um q = 1/2 ist, heit das auch, dass der Median gleich dem Mittelwert ist. Man erkennt an diesem Ergebnis, dass der Median robuster ist als Mittelwert, da der Standardfehler nicht von der Varianz der Verteilung (x) abhngt. Das ist insbesondere dann wichtig, wenn die Verteilung langreichweitige Auslufer hat. Beispiel: Cauchy-Verteilung Die Dichte der Cauchy-Verteilung ist (x) = 1 (1 + x2 ) .
Mittelwert und Varianz der Cauchy-Verteilung sind x = 0 und var(x) = . Die Cauchy-Verteilung ist symmetrisch um den Mittelwert. Deshalb stimmen Median und Mittelwert berein. Wir hatten abgeleitet, dass das arithmetische Mittel einer Stichprobe um den intrinsischen Mittelwert der zugrundeliegenden Verteilung streut und somit im Mittel den richtigen Wert liefert. Die Varianz der Cauchy-Verteilung ist jedoch unendlich und somit ist auch der Standard-Fehler unendlich. Wir wollen nun die Stichproben-Verteilung des Stichproben-Medians untersuchen. Wir bentigen hierzu die Verteilungsfunktion
x
FC (x) =
(t) dt =
1 arctan(x) + 2
Diese kann leicht invertiert werden. 1 1 FC (q ) = tan( (q )) 2 .
326
Diese Funktion ist offensichtlich anti-symmetrisch um q = 1/2. Der Median ist demnach 1 x = FC (1/2) = 0 . Es besttigt sich, dass Mittelwert und Median bereinstimmen. Das bedeutet, dass der Mittelwert des Medians einer Stichprobe gleich dem Median der CauchyVerteilung ist. Der Median stellt also im Fall der Cauchy-Verteilung ebenfalls einen UNBIASED ESTIMATOR des Mittelwertes dar. Die Varianz des Stichproben-Medians ist var(x) = (0)
2 4 + O( )=
2 2 + O(L2 ) = + O(L2 ) 4(L + 2) 4L
10
10
10
10
10
10
10
10
Abbildung 21.1: Standardabweichung des Medians von Stichproben vom Umfang L als Funktion von L fr die Cauchy-Verteilung. Gestrichelt eingetragen ist var(x) /2 L. Die Standardabweichung des Medians ist fr Stichproben vom Umfang L 3 endlich und fllt sogar mit 1/ L ab. Der Median stellt in diesem Fall einen efzienteren Schtzwert dar, da er einen kleinen Standardfehler besitzt. Beispiel: Exponential-Verteilung Fr die Exponential-Verteilung liefert der Median der Stichprobe keinen UNBIASED ESTIMATOR fr den intrinsischen Median der zugrunde liegenden Verteilung. Der Median der Stichprobe weicht fr endliche Stichproben systematisch vom wahren Mittelwert, bzw. Median ab. Gem Gl. (9.15b) ist die Verteilungsfunktion der Exponential-Verteilung Fe (x|) = 1 e x Die inverse Funktion ist F 1 (q |) = ln(1 q ) .
327
0.15
0.1
0.05 0 10
10
10
10
10
10
10
10
10
10
Abbildung 21.2: Mittelwert (oberes Bild) und Standardabweichung (unteres Bild) des Medians von Stichproben vom Umfang L als Funktion von L fr die Exponential-Verteilung. Der exakte Wert des Medians ist im oberen Bild zum Vergleich eingezeichnet. Der Median ist demnach x= ln(2) ln(1 1/2) =
2
Die Dichte an der Stelle des Medians ist e (x) = der Stelle des Medians ist e (x) = Gl. (21.8b) 1 var(x) = 4L 2
2 . 2
und die Ableitung der Dichte an
Die Varianz des Stichproben-Medians ist nach 1 + O(L2 ) L2
+ O(L2 ) =
Der Stichproben-Median liefert dann gem Gl. (21.8a) im Mittel ln(2) 1 2 x =x + O(L2 ) = + + O(L2 ) 3 2L 8L ( 2 )
2
Fr Stichproben mit endlichem Umfang liegt also eine systematische Abweichung vom intrinsischen Wert des Medians vor, der allerdings wie 1/L verschwindet, whrend der Standard-Fehler nur wie 1/ L gegen Null geht. In Abbildung 21.2 sind neben den exakten Werten zu = 8 auch die Nherungsformeln 1 x =x+ 16 L und 1 var(x) = 64 L eingetragen.
328
21.2
Verteilung von Mittelwert und Varianz in normalen Stichproben
Angenommen wir haben eine Stichprobe vom Umfang N von i.u.normal-verteilte (i.u.nv.) Zufalls-Variablen xn mit Mittelwert x0 und Varianz 2 . Daraus bestimmen wir den Stichproben-Mittelwert 1 x= N und die unnormierte Stichproben-Varianz
N N
xn
n=1
v=
n=1
(xn x)2
Wir fragen nach der Verteilung p(x, v |N, x0 , , B ) von x und v , wobei der Bedingungskomplex B besagt, dass die Stichprobe aus i.u.nv. Zufalls-Variablen besteht. Die Marginalisierungsregel erlaubt es, durch Einfhren der Stichprobenwerte x = {x1 , . . . , xN }, die gesuchte Wahrscheinlichkeitsdichte zu berechnen p(x, v |x0 , , N, B ) = dN x p(x, v |x, x0 , , N, B ) p(x|x0 , , N, B ) . (21.9)
Wenn die Stichprobe vorliegt, ist x und v deterministisch festgelegt 1 p(x, v |x1 , . . . , xN , N, x0 , , B ) = x N
N N
xn
n=1
v
n=1
(xn x)2
(21.10)
Die Stichproben-Wahrscheinlichkeitsdichte ist ebenso bekannt, da die xn i.u.nv.

N
p(x|x0 , , N, B ) =
n=1
1 2 2
N N
e(xn x0 )
n
2 /2 2
= (2 2 ) 2 e = (2 2 ) 2 e = (2 2 ) 2 e
N
( xn x0 ) 2 / 2 2 (xn x+xx0 )2 /2 2 ( xn x) 2 / 2 2
eN (xx0 )
2 /2 2
Zusammen mit Gl. (21.10) wird aus Gl. (21.9) p(x, v |x0 , , N, B ) = (2 2 ) 2 eN (xx0 ) 1 ... x N
N
N 2 /2 2
dN x e
N
( xn x) 2 / 2 2
... . (21.11)
xn
n=1
v
n=1
(xn x)2
329
Wir fhren nun die sogenannte Helmert-Transformation2 durch 1 1 2 2 1 1 1 2 2 6 6 6 1 1 1 3 3 12 12 12 12 . . . .. .. . . . . . . . = . 1 1 1 1 i 1 i i(i+1) i(i+1) i(i+1) i(i+1) i(i+1) i(i+1) . . . . . . . . . . . . . . . . . . 1 1 1 1 1 1 N
N N N N N N
x1 x2 x3 . . . xi . . .. . . 1 xN
N
(21.12) fr die gilt, dass die Jakobi-Determinante eins ist. Aus der letzten Zeile lesen wir ab N = N x= 1 N N
N
xn
n=1
Auerdem kann man zeigen, dass

N N 1
(xn x) =
n=1 n=1
2 n
Somit haben wir p(x, v, x0 , |N, x0 , , B ) = (2 2 ) 2 eN . . . e = ...

N 1 n=1 N (xx0 )2 2 2
dN 1 dN . . .
N 1
2 /2 2 n
x N / N
(xx0 )2 2 2 v
v
n=1
2 n
N (2 2 ) 2 eN d
N 1
e 22 . . .
2 n
N 1
v
n=1
. v ein. Hierdurch
Zur Berechnung des Integrals fhren wir neue Variablen n = zn wird aus dem Integral
N 1
N 1 2 n
N 1
v
n=1
=v
N 1 2
N 1
z v (1
n=1 N 1 2 zn n=1
2 zn )
=v
N 3 2
dN 1 z 1 ,
=av
2
N 3 2
Kandalls advanced theory of statistics, Vol. 1, Distribution Theory, 11.3.
330
wobei a eine Konstante ist, die wir nachtrglich ber die Normierung bestimmen werden. Damit lautet das Endergebnis
v 1 N 3 p(x, v |N, x0 , , B ) = v 2 e 22 Z
1 2 2 /N
(xx0 )2 2 2 /N
(21.13)
Wir sehen, dass die Wahrscheinlichkeitsdichte in die Wahrscheinlichkeitsdichte fr den Stichproben-Mittelwert und die der Stichproben-Varianz faktorisiert.
21.2.1
Stichproben-Mittelwert
Der hintere Faktor von Gl. (21.13) ist die marginale Wahrscheinlichkeitsdichte fr den Stichproben-Mittelwert. WAHRSCHEINLICHKEITSDICHTE DES S TICHPROBEN -M ITTELWERTS NORMALVERTEILTER Z UVALLSVARIABLEN
G EGEBEN : Stichprobe: B EKANNT:
{x1 , . . . , xN } aus N (x|x0 , ) N , x0 ,
Z UFALLS -VARIABLE : x=
1 N
N i=1
xi
p(x|N, x0 , , B ) =
1 2 2 /N
(xx0 )2 2 2 /N
= N (x|x0 , / N )
(21.14) .
Mittelwert x = x0 und Varianz var(x) =
var(x) N
haben wir bereits kennengelernt.
21.2.2
Stichproben-Varianz, 2 -Statistik
Die Wahrscheinlichkeitsdichte fr die Stichproben-Varianz ist mit der richtigen Normierung
331
WAHRSCHEINLICHKEITSDICHTE DER S TICHPROBEN -VARIANZ NORMALVERTEILTER Z UVALLSVARIABLEN
{x1 , . . . , xN } aus N (x|x0 , ) N , x0 ,
Z UFALLS -VARIABLE : v=
N n=1
(xn x)2
(2 2 ) 2 p(v |N, x0 , , B ) = 1 ( N 2 ) = p
N 1
v(
N 1 1) 2
ev/2
N 1 1 v | = , = 2 2 2
(21.15) .
Im Zusammenhang mit der 2 -Verteilung ist es blich, auf normierte ZufallsVariablen xn x n = berzugehen. Die Stichproben-Varianz v geht dabei ber in z= v 2 .
Die Stichproben-Verteilung der Varianz kann dann als 2 -Verteilung Gl. (9.13a) mit N 1 Freiheitsgraden formuliert werden p(z |N, x0 , , B ) = p2 (z |N 1) . (21.16)
Wir sind von N Freiheitsgraden xn ausgegangen. Da in die Denition von v der Stichproben-Mittelwert eingeht, ging in Gl. (21.11) bei der Integration ber den Stichproben-Mittelwert (N ) ein Freigheitsgrad verloren. Das passiert nicht, wenn die xn i.u.nv. Zufalls-Variablen mit bekanntem Mittelwert, z.B. x0 = 0, sind. Da die meisten Verteilungen, die wir bisher untersucht haben, im Grenzfall groer Stichproben gegen eine Normal-Verteilung konvergieren, bietet die 2 -Verteilung eine weitverbreitete Mglichkeit, Signikanz-Tests durchzufhren. Voraussetzung ist, dass wir unabhngige Zufalls-Variablen xn vorliegen haben, die einer NormalVerteilung N (xn |x0,n , n ) gengen. Mittelwert und Varianzen knnen hierbei von n abhngen. Angenommen, die zu untersuchende Hypothese impliziert die Werte fr
332
x0,n und n , dann knnen wir hieraus i.u.v. Zufalls-Variable x n konstruieren x n = xn x0,n n ,
die der normierten Normal-Verteilung N ( xn |0, 1) gehorchen. Somit ist die Summe
N
=
n=1
(xn x0,n )2 2 n
(21.17)
2 -verteilt. Man nennt diesen Ausdruck auch 2 -Statistik. Eine Statistik ist allgemein ein Funktional, das von den Stichproben-Elementen und weiteren durch Hypothesen festgelegten Parametern abhngt. Es ist wichtig zu unterscheiden, dass wir i.d.R sehr groe Stichproben bentigen, damit die xn normal-verteilt sind, N in Gl. (21.17) kann und wird in der Regel jedoch klein sein. WAHRSCHEINLICHKEITSDICHTE DER 2 -S TATISTIK
{x1 , . . . , xN } mit xi aus N (xi |xi 0 , i )

N N , x1 0 , . . . , x0 , 1 , . . . , N
Z UFALLS -VARIABLE : 2 =
2 ( xn xn N 0) 2 n=1 n
p(2 |N, x1,0 , . . . , xN,0 , 1 , . . . , N , B ) =
N (2) 2 2 (2 )( 2 1) e /2 N ( 2 )
(21.18)
= p2 ( |N )
21.2.3 Beispiel fr 2 -Test

Ein Wrfel werde L 1 mal geworfen, dabei erscheine die Augenzahl i mi mal. Wenn die Ausgangs-Hypothese besagt, dass der Wrfel symmetrisch ist, dann sollte jede Augenzahl gleich-wahrscheinlich sein. Wie wir wissen, geht die MultinomialVerteilung fr L 1 in eine Normal-Verteilung ber, und die Voraussetzungen fr 2 die -Verteilung sind somit erfllt. Wir werden dieses Beispiel spter weiter verfolgen.
333
21.3
z -Statistik
Gegeben seien zwei Stichproben vom Umfang N ( = 1, 2) sowie deren Varianzen . Als Statistik betrachten wir
x2 x1 2 2 2 = 1 + 2 N1 N2 z=
(21.19) .
Wir verwenden die Abkrzungen N = {N1 , N2 } und = {1 , 2 }. Die Wahrscheinlichkeitsdichte von z erhalten wir aus der Marginalisierungsregel
p(z |N , , B ) = = = = =
dx1 dx2 p(z |x1 , x2 , N , , B ) p(x1 , x2 |N , , B ) dx1 dx2 (z x2 x1 ) p(x1 , x2 |N , , B )
dx1 dx2 (x2 (x1 + z )) p(x1 , x2 |N , , B ) dx1 p(x1 , x2 = x1 + z |N , , B ) dx0 dx1 p(x1 , x2 = x1 + z |N , , x0 , B ) p(x0 |N , , B ) .
Im letzten Schritt haben wir noch ber die Marginalisierungsregel den intrinsischen Mittelwert x0 der Verteilung eingefhrt. Da die Elemente der beiden Stichproben unabhngig voneinander sind, faktorisiert die Wahrscheinlichkeitsdichte der Mittelwer-
334
te Gl. (21.14) p(z |N , , B ) = ... dx0 p(x0 |N , , B ) . . . dx1 p(x1 |N1 , 1 , x0 , B ) p(x2 = x1 + z |N2 , 2 , x0 , B )
N1 N2 2 2 1 2 1 2
= (2 )1 ...
dx0 p(x0 |N , , B ) . . .
(x1 x0 )2 (x +z x0 )2 + 1 2 2 /N 1 2 /N2 1
dx1 e
= (2 )1
N1 N2 2 2 1 2
dx0 p(x0 |N , , B ) . . .
=1
...
2 e
z2
1 N2 N1 2 + 2 1 2 1
2 1 N1 2 2 N2
z2 1 = e 2 2
WAHRSCHEINLICHKEITSDICHTE DER z -S TATISTIK
G EGEBEN : Stichprobe 1: Stichprobe 2: B EKANNT:
1 {x1 1 , . . . , xN1 } aus N (x|x0 , 1 ) 2 {x2 1 , . . . , xN2 } aus N (x|x0 , 2 )
N1 , N2 , 1 , 2 Z UFALLS -VARIABLE : x1 z = x2 2 + mit 2 = N1 1
2 2 N2
1 2 pz (z ) = ez /2 2 = N (z |0, 1)
(21.20)
Zur Berechnung von z bentigen wir N und . Ansonsten gehen diese Gren nicht in die Wahrscheinlichkeitsdichte ein. Die z -Statistik ist so konstruiert, dass keine Information ber den intrinsischen Mittelwert x0 bentigt wird.
335
Die Gre x =
2 N
die in die Berechnung der z -Statistik eingeht, stellt den Standard-Fehler des Stichproben-Mittelwertes x dar. x1 x2 ist die Differenz zweier normal-verteilter Gren mit den individuellen Standard-Fehlern x . Die Fehler addieren sich zu
2 2 2 x = x + x 1 2
Die z -Statistik ist allgemein nichts anderes als z -S TATISTIK Stichproben-Mittelwert wahrer Mittelwert x x0 = Standard-Fehler SF
z=
. (21.21)
Im obigen Fall ist der Stichproben Mittelwert x, die Differenz zweier StichprobenMittelwerte x = x1 x2 . Der wahre Mittelwert dieser Differenz ist Null und der Standardfehler ist durch x gegeben. Man knnte auch den Spezialfall betrachten, dass nur eine Stichprobe vorliegt von i.u.v. Zufallszahlen der Verteilung N (x|x0 , ). 2 = 2 /N . Man kann diesen In diesem Fall ist x der Mittelwert der Stichprobe und x Fall auch aus den beiden Stichproben erhalten, wenn wir den Fehler der zweiten Stichprobe auf Null setzen 2 = 0 . Da beide Verteilungen denselben Mittelwert haben sollen, ist deren Differenz wieder Null x = 0. Das ergibt x1 x2 z= 2 . 1 /N1 Wir knnen nun x2 mit dem wahren Mittelwert x des Problems gleichsetzen.
21.4
Student-t Statistik
(x x0 ) = SF N (N 1)(x x0 ) v
Wir wollen nun die Verteilung der sogenannten Student-t Statistik t= (21.22)
untersuchen, wobei wie zuvor x der Stichproben-Mittelwert und v die unnormierte Stichproben-Varianz darstellt. Auerdem sollen die Elemente der Stichprobe i.u.nv.
336
sein. Im Unterschied zu vorher soll nun der wahre Wert der Varianz nicht bekannt sein. Das ist der Grund, warum durch den Schtzwert der Standard-Abweichung ) geteilt wird. Wir bestimmen die gesuchte Wahrscheinlichkeitsdichte p(t|N, x0 , B ) (SF wie zuvor ber die Marginalisierungsregel. Allerdings bentigen wir nicht die individuellen Werte der Stichprobe, sondern lediglich x und v p(t|N, x0 , B ) = = d d dx dv p(t|x, v, , N, x0 , B ) p(x, v, |N, x0 , B ) N (N 1)(xx0 ) dx dv t ... v
. . . p(x, v |, N, x0 , B ) p( |N, x0 , B ) = d p( |N, x0 , B ) ... = dv p(v |, N, x0 , B ) . . .

v N (N 1)
dx x x0 t
dv
N (N 1)
p(x|, N, x0 , B )
1 N (N 1)
d p( |N, x0 , B )
v N (N 1)
v p(v |, N, x0 , B ) . . . .
. . . p(x = x0 + t
|, N, x0 , B )
Wir setzen Gl. (21.14) und Gl. (21.15) ein und erhalten p(t|N, x0 , B ) =
1 N (N 1) N 2 2
d p( |N, x0 , B )
dv
v p(v |, N, x0 , B ) . . .
... =
t2 v 2 2 N (N 1) N
1 2 (N 1)
d 1 p( |N, x0 , B ) . . . v
(2 2 ) 2 1 ( N 2 )
N 1
... = 2
1 N2
dv
N 3 2
ev 22 e
t2 2 2 (N 1)
1 N 1 2 (N 1) ( 2 )
d N p( |N, x0 , B ) . . .
1+t2 /(N 1) 2 2
dv N v ... v2 e v Im letzten Integral substituieren wir z=v und erhalten fr das Integral dv N v v2 e v
1+t2 /(N 1) 2 2
1 + t2 /(N 1) 2 2 1 + t2 /(N 1) 2 2
N 2
N 2
= =2
dz N z z2 e z
N 2
t2 1+ N 1
N ) 2
337
Damit haben wir schlielich p(t|N, x0 , B ) = ( N ) 2 N 1 (N 1) ( 2 ) 1 1 (N 1) ( N ) 2 N 1 ( 2 ) d p( |N, x0 , B )

=1 N 2
t2 1+ N 1
N 2
t2 1+ N 1
Das Endergebnis ist die Student-t Verteilung aus Gl. (9.26a). WAHRSCHEINLICHKEITSDICHTE DER S TUDENT-t-S TATISTIK
{x1 , . . . , xN } aus N (x|x0 , ) N , x0
Z UFALLS -VARIABLE :
N (N 1)(xx0 ) t= v N mit v = i=1 (xi x)2 1 t2 1+ N 1

N 2
( N ) 2 p(t|N, x0 , B ) = N 1 (N 1) ( 2 ) = pt (t| = N 1)
(21.23)
Das bemerkenswerte an dem Ergebnis ist, dass keine Kenntnis ber ntig war. Wir haben die Varianz zwar eingefhrt, konnten sie am Ende aber wieder ausintegrieren, ohne p( |N, x0 , B ) angeben zu mssen. Darber hinaus hngt die Student-t-Verteilung nicht vom wahren Mittelwert x0 ab. Wie wir spter sehen werden, verwendet man die Student-t-Statistik bei Signikanz-Tests um zu berprfen, ob x0 der wahre Mittelwert einer Stichprobe ist oder ob die Mittelwerte zweier Stichproben bereinstimmen, wenn man die zugehrige Varianz nicht kennt.
21.5 Snedecors F -Statistik

Der t-Test wird u.a. verwendet, um auf der Basis der Stichproben-Mittelwerte zu entscheiden, ob die wahren Mittelwerte zweier Stichproben gleich sind. Damit kann man
338
berlegen, ob zwei Datenstze denselben physikalischen Ursprung haben. Die Stichproben mgen unterschiedliche Umfnge N1 und N2 besitzen. Alternativ kann man auch die Stichproben-Varianzen heranziehen. Die F -Statistik ist deniert als das Verhltnis zweier Stichproben-Varianzen v1 und v2 f= 1 v1 1 2 2 = r v2 2 N1 1 r= . N2 1 (21.24) (21.25)
Diese Statistik ist auch wieder so konstruiert, dass der wahre Wert der Varianz nicht bentigt wird und die Verteilung der F -Statistik ohne Kenntnis dieses Wertes angegeben werden kann. Das ermglicht es, diese Gre fr Signikanz-Tests heranzuziehen. Auerdem wird nicht angenommen, dass die wahren Mittelwerte in beiden Fllen bereinstimmen. Die gesuchte Wahrscheinlichkeitsdichte folgt wieder aus der Marginalisierungsregel p(f |N1 , N2 , B ) = = d dv1 dv2 p(f |v1 , v2 , N1 , N2 , B ) p(v1 , v2 , |N1 , N2 , B ) dv1 dv2 (f
1 r
d p( |N1 , N2 , B )
v1 ) v2
p(v1 , v2 |, N1 , N2 , B ) = d p( |N1 , N2 , B ) dv2 rv2 .
p(v1 = f rv2 , v2 |, N1 , N2 , B )
Nun sind die Stichproben-Varianzen unabhngig voneinander, da alle ZufallsVariablen, die in die Summen eingehen, unabhngig sind p(f |N1 , N2 , B ) = dv2 rv2 p(v1 = f rv2 |N1 , B ) p(v2 |N2 , B ) d p( |N1 , N2 , B ) (N1 +N2 2) . . .
N1 3 2
= C1 C2 ...
dv2 rv2 (f rv2 )

N 1
e 22 v2
f rv2
N2 3 2
e 22
v2
mit
2 2 C = N 1 ( 2 ) d p( |N1 , N2 , B ) (N1 +N2 2) . . .

N 1 + N 2 2 dv2 (v2 ) 22 ev2 v2 1+f r 2
p(f |N1 , N2 , B ) = r C1 C2 . . . (f r)
N1 3 2
339
Wir substituieren
v2 2
v und erhalten d p( |N1 , N2 , B ) (rf )

=1
N1 3 2
p(f |N1 , N2 , B ) = r C1 C2
dv N1 +N2 2 v v 2 e v
0
1+f r 2
Das verbleibende Integral kann wie im Fall der t-Verteilung leicht berechnet werden und liefert p(f |N1 , N2 , B ) = r C1 C2 (rf ) =
N1 3 2
N1 +N2 2 2
(1 + f r)
N1 +N2 2 2
2 2 ( N1 +N ) 2
2 2 N 1 + N 2 2 N1 3 ( N1 +N ) 2 r (rf ) 2 (1 + f r) 2 . N1 1 N2 1 ( 2 )( 2 )
(21.26)
WAHRSCHEINLICHKEITSDICHTE DER F -S TATISTIK
G EGEBEN : Stichprobe 1: Stichprobe 2: B EKANNT:
1 1 {x 1 1 , . . . , xN1 } aus N (x|x0 , ) 2 2 {x2 1 , . . . , xN2 } aus N (x|x0 , )
N 1 , N2 Z UFALLS -VARIABLE : v1 f=1 r v2 2 mit v = N i=1 (xi x ) 1 1 und r = N N2 1

2 2 N +N 2 N1 3 ( N1 +N ) 1 22 2 2 p(f |N1 , N2 , B ) = N1 1 r ( rf ) (1 + f r ) ( 2 )( N221 )
(21.27)
Qualitativ sehen die Kurven der F V erteilung wie die der 2 -Verteilung aus. Der Mittelwert der Verteilung kann leicht durch direkte Integration berechnet werden und liefert f = N2 1 N2 3 .
340
Interessanterweise hngt das Ergebnis nicht von N1 ab. Der Mittelwert ist immer grer Eins und nhert sich fr N2 1 dem Wert eins. Das ist allerdings nicht berraschend, denn die Stichproben-Varianzen sind 2 -verteilt, wobei der Mittelwert mit dem wahren Wert bereinstimmt (unbiased). Der Mittelwert des Zhlers liefert also immer den wahren Wert der Varianz. Nur die nichtlineare Transformation 1/v2 fhrt einen Bias ein, da 1 1 = , v2 v2 auer fr N2 . Die Verteilungsfunktion der F-Verteilung fhrt auf hypergeometrische Funktionen, die wir hier nicht weiter diskutieren wollen.
21.6 Fehler-Fortpanzung
Wir betrachten eine lineare Funktion g =a+
n
bn x n
(21.28)
von Zufalls-Variablen xn die normal-verteilt sind, aber mit unterschiedlichen Mit2 telwerten x0 n und Varianzen n . Diese Situation liegt hug in der Praxis vor, wenn Gren aus unterschiedlichen Experimenten kombiniert werden. Den Mittelwert von g erhalten wir unmittelbar g =a+
n
bn x n = a +
n
bn x 0 n
Hier interessiert uns insbesondere der Fehler des Mittelwertes. Hierzu bentigen wir die Varianz
2
var(g ) = (g g )2 =
a+
n 2
bn x n a
n
bn x n
=
n
bn (xn
x0 n)
=
n,m
bn bm n m .
mit
n := (xn x0 n)
Wenn die Zufalls-Variablen unkorreliert sind gilt

2 n m = n,m n
Somit gilt
341
F EHLER -F ORTPFLANZUNG VON UNKORRELIERTEN F EHLERN 2 = var(g ) =

n 2 b2 n n
(21.29)
Wenn die Fehler korreliert sind und die Kovarianz-Matrix Cnm = n m bekannt ist, lautet der Fehler F EHLER -F ORTPFLANZUNG VON KORRELIERTEN F EHLERN 2 = var(g ) = bT Cb wobei b der Vektor der Koefzienten bn ist. Wenn die Kovarianz nicht bekannt ist, kann man den Fehler ber die Schwarzsche Ungleichung abschtzen. S CHWARZSCHE U NGLEICHUNG DER K OVARIANZ -M ATRIX | n m | n m . (21.31) , (21.30)
Zum Beweis gehen wir von der Zufalls-Variablen Cnm x = n 2 m m aus. Es gilt 0 x2 = n 2 n Cnm m 2 m
2
2 Cnm
2 Cnm Cnm = 2 2 n m + 2 2 2 m m (m ) 2 C2 Cnm 2 = n 2 nm + 2 2 m m C2 2 = n nm 2 m 2 2 n m q.e.d.
342
Damit knnen wir den Fehler abschtzen 2 =

nm
bn bm Cnm
nm
|bn | |bm | |Cnm |

2
nm
|bn | |bm | n m
n
|bn | n
F EHLER -A BSCHTZUNG
BEI KORRELIERTEN
F EHLERN (21.32)
|bn | n
n
Bislang hatten wir nur lineare Funktionen der Zufalls-Variablen xn betrachtet. Unter der Annahme, dass die Fehler klein sind, kann man eine beliebige Funktion f (x) der Zufallsvariablen x = {x1 , x2 . . . , xN }, deren erste Ableitung existiert, um den Mittel0 0 wert x0 = {x0 1 , x2 . . . , xN } entwickeln f (x) f (x0 ) +
n
f (x) xn
n
x= x0
Damit liegt wieder ein lineares Modell wie in Gl. (21.28) mit den Koefzienten a = f (x0 ) , bn = f (x) xn
x= x0
vor. Dann lsst sich mit Gl. (21.29), Gl. (21.30), oder Gl. (21.32) der Fehler berechnen.
var(f )
343
344
Kapitel 22 Orthodoxe Hypothesen Tests

Die Idee hinter den Signikanz-Tests hatten wir bereits im Abschnitt 5.2.2 andiskutiert und im Kapitel ber Stichproben-Verteilungen (21) die Wahrscheinlichkeitsdichten der fr uns wichtigsten Statistiken besprochen. Die Grundidee ist sehr einfach. Bevor wir sie allgemein formulieren, wollen wir sie an einem Beispiel illustrieren.
22.1
Einfhrung am Beispiel des z -Tests
Wir behaupten, dass eine Steuergre S keinen Einuss auf eine Messgre D habe. Diese Behauptung nennt man N ULL -H YPOTHESE. Um die Hypothese zu testen, fhren wir eine Serie von Experimenten zum Wert der Steuergre S = S1 durch und ermitteln hierzu den Mittelwert d1 der Messwerte D. Anschlieend wiederholen wir das Experiment zu S = S2 und erhalten d2 . Wir bilden hiervon die Differenz d2 d1 . Wenn die Hypothese stimmt, sollte die Differenz, abgesehen vom statistischen Fehler, null ergeben. Je grer die Differenz ist, desto unwahrscheinlicher ist es, dass die Hypothese stimmt. Nun hngt die mit dem statistischen Fehler kompatible Differenz vom Standardfehler ab. Deshalb ist es sinnvoll, folgende Statistik zu verwenden z= d2 d1 SF .
Der z-Test setzt voraus, dass der Standardfehler bekannt ist. Der gemessene Wert (Realisierung) sei z0 . Da nach dem zentralen Grenzwertsatz der Mittelwert von i.u.v. Zufalls-Variablen normal-verteilt ist, ist die Zufalls-Variable z normal-verteilt mit Mittelwert Null und Varianz Eins. Man kann im Rahmen der orthodoxen Statistik nicht die Wahrscheinlichkeit angeben, dass eine Hypothese zutrifft. Man knnte nach der Wahrscheinlichkeit fragen, dass genau der beobachtete Wert z0 auftritt, wenn die Null-Hypothese richtig ist. Bei Problemen mit kontinuierlichen Freiheitsgraden ist diese Wahrscheinlichkeit jedoch null. Aber auch bei diskreten Problemen macht die Wahrscheinlichkeit fr z0 bei Tests wenig Sinn.
345
Nehmen wir z.B. das Bernoulli-Problem. Eine Mnze werde N -mal geworfen. Dabei erscheint n-mal Kopf. Die Wahrscheinlichkeit hierfr ist unter der Null-Hypothese, dass die Mnze symmetrisch ist, P (n|N, H ) = N n 2N .
Wir hatten im Zusammenhang mit dem Gesetz der groen Zahlen (Gl. (4.15)) gefunden, dass selbst fr n = N/2, dem Wert der am vertrglichsten mit der NullHypothese ist, die Wahrscheinlichkeit lediglich P (N/2|N, H ) = 1 N/2 0
betrgt und somit fr groe Stichproben immer kleiner wird. Um berhaupt Aussagen machen zu knnen, mssen wir ber ein geeignet gewhltes Intervall I integrieren/summieren. Wir whlen das Intervall z.B. so I = (z , z ) dass die Wahrscheinlichkeit P (z0 I ) = 0.99 ist. Wenn die Null-Hypothese richtig ist, heit das, dass in 99% der Flle der experimentelle Wert z0 in dieses Intervall fllt. Das bedeutet aber umgekehrt nicht, dass die Null-Hypothese die Wahrscheinlichkeit 0.99 hat, denn es knnte noch beliebig viele andere Hypothesen geben, die genauso gut oder noch besser mit den Daten vertrglich sind. Hypothesen knnen auf diesem Weg nicht veriziert werden. Wir knnen sie aber falsizieren. Wenn wir weiterhin von der Korrektheit der Null-Hypothese ausgehen, ist die Wahrscheinlichkeit, dass ein z0 nicht in das angegebene Intervall fllt, lediglich 0.01. In diesem Fall knnen wir, unabhngig von alternativen Hypothesen, feststellen, dass die Null-Hypothese nicht mit den Daten vertrglich ist, und wir knnen mit groer Zuversicht die Null-Hypothese verwerfen. ,
22.1.1
Indirekter Schluss
Bei den statistischen Signikanz-Tests zieht man deshalb einen indirekten Schluss. Man geht davon aus, dass die Hypothese korrekt ist. Dann gibt man ein sogenanntes S IGNIFIKANZ -N IVEAU (Irrtumswahrscheinlichkeit) vor, z.B. = 0.01, 0.05, 0.1 und legt damit den Z URCKWEISUNGSBEREICH (KRITISCHEN B EREICH) Ir fest, fr den gilt P (z Ir |H ) = .
Im vorliegenden Beispiel whlen wir z.B. Ir = (z , ). Wenn der Messwert z0 in den kritischen Bereich fllt, wird die Hypothese verworfen. Die Situation ist in Abb. 22.1
346
skizziert. Die kritische Region entspricht dem rechten schraferten Bereich, dessen Flche gerade betrgt. Fr unser Beispiel bedeutet das, dass wir die Null-Hypothese, die Steuergre S habe keinen Einuss auf die Messgre bei einem Signikanz-Niveau von beispielsweise = 0.01 immer dann verwerfen werden, wenn z0 > 2.33 ist. T EST OB ZWEI S TICHPROBEN DENSELBEN M ITTELWERT HABEN BEI BEKANNTER VARIANZ : z -T EST Die Gre z= gengt der z -Verteilung 1 2 pz (z | ) = ez /2 = N (z, 0, 1) 2 (22.2) (d(2) d(1) ) SF (22.1)
22.1.2 Fehler erster und zweiter Art

Die Wahrscheinlichkeit, dass bei Zutreffen der Null-Hyppothese Messwerte in die kritische Region fallen, ist per denitionem gleich dem Signikanz-Niveau. Damit ist gleichbedeutend mit der (Irrtums-)Wahrscheinlichkeit, die Hypothese zu verwerfen, obwohl sie richtig ist. Das hatten wir als F EHLER ERSTER A RT bezeichnet. Man kann diesen Fehler natrlich beliebig klein machen, indem man 0 whlt. Dann wchst aber der F EHLER ZWEITER A RT, dass die Hypothese akzeptiert wird, obwohl sie falsch ist. Diese Wahrscheinlichkeit lsst sich nun nicht im Rahmen der Hypothese H bestimmen. Der Fehler zweiter Art besagt, eine Alternative H1 ist richtig, die wir nun irrtmlich verwerfen. Die zugehrige Wahrscheinlichkeit ist
P (z0 / Ir |H1 ) = 1 P (z0 Ir |H1 )
Die kritische Region ist durch das Signikanz-Niveau nicht eindeutig festgelegt. Es besagt nur, dass im Zurckweisungsbereich die Wahrscheinlichkeitsmasse liegt. Neben den eben behandelten EINSEITIGEN T ESTS sind auch ZWEISEITIGE T ESTS weit verbreitet. Im zweiseitigen Test schaut man sich die Wahrscheinlichkeit fr Abweichungen in beide Richtungen vom hypothetischen Wert (in unserem Beispiel null) an. Die Situation ist in Abb. 22.1 dargestellt. Der kritische Bereich ist im zweiseitigen Test. u o Ir = (, z/ , 2 ] [z/2 , )
347
wobei die Cutoffs z/2 so bestimmt sind, dass die Flche in beiden schraferten Bereichen jeweils /2 betrgt.
0.5
u/o
pz(z|H)
0 4
z
Abbildung 22.1: Wahrscheinlichkeitsdichte des z-Tests mit den Bereichen, die einer Irrtumswahrscheinlichkeit von 5% entsprechen. Im Falle des z -Tests, der eine symmetrische Wahrscheinlichkeitsdichte pz (z ) besitzt, u o gilt z = z = z . Bei einem Signikanz-Niveau von = 0.05 ist bei einem einseitigen/zweiseitigen (es/zs) Test
es z5% = 1.65 zs z5% = 1.96
Entsprechend gilt fr das Signikanz-Niveau = 0.01

es z1% = 2.33 zs z1% = 2.58
Wir wollen die kritische Region anhand des Beispiels der z -Statistik noch etwas genauer untersuchen. Die Null-Hypothese besagt, dass die Zufalls-Variable z um den Mittelwert 0 = 0 normal-verteilt ist, da die Steuergre keinen Einuss auf die Messgre haben soll. Wir geben ein Signikanz-Niveau = 0.1 vor. Der gemessene z Wert sei z0 . Den Bereich, komplementr zu Ir , bezeichnen wir mit Ir . Falls z0 Ir kann die Hypothese nicht verworfen werden. Wir untersuchen vier unterschiedliche Zurckweisungsbereiche (ZB ), die in der folgenden Tabelle angegeben und in Ab-
348
bildung 22.2 schrafert dargestellt sind. ZB 1 2 3 4 Ir [z , ) (, z ] ] [z , ) (, z 2 2

(z , z )
Ir (, z ) (z , , ) , z ) (z 2 2
(, z ] [z , )
Der Cutoff z ist ber die Gleichung
pz (z ) dz =
z
deniert. Wir bentigen dieses Integral fr die Werte = und = /2. Der Cutoff z folgt aus
z
pz (z ) dz =
z
Die Wahrscheinlichkeit, einen Fehler erster Art zu machen, ist in allen Fllen . In den Rechnungen zur Abbildung 22.2 wurde = 0.1 verwendet. Die Flle unterscheiden sich jedoch in der Wahrscheinlichkeit fr einen Fehler zweiter Art P (F2 | = 1, , 0 = 0, ZB, B ). Diese Wahrscheinlichkeit ist P (F2 | = 1, , 0 = 0, ZB, B ) = dz0 P (F2 |z0 , = 1, , 0 = 0, ZB, B ) p(z0 | = 1, , 0 = 0, ZB, B ) .
=p(z0 | =1,,B)
Der erste Faktor hngt vom Signikanz-Bereich ab. Man macht einen Fehler zweiter Art, wenn man die Null-Hypothese akzeptiert, obwohl sie falsch ist. Bis auf den Fall = 0 ist die Null-Hypothese in unserem Beispiel immer falsch. Das heit, immer dann, wenn wir die Hypothese trotzdem akzeptieren, begehen wir einen Fehler zweiter Art. Wir akzeptieren die Null-Hypothese, wenn
ZB P (F2 |z0 , = 1, , 0 = 0, ZB, B ) = (z0 Ir ) ZB = 1, 2, 3, 4
Damit haben wir also 1 P (F2 | = 1, , 0 = 0, ZB, B ) = 2

ZB Ir
dz0 e
(z0 )2 2
ZB | = 1, , 0 = 0, ZB, B ) = P (z Ir
349
In Abbildung 22.2 ist die Wahrscheinlichkeit fr einen Fehler zweiter Art als Funktion der wahren Differenz aufgetragen. Man nennt einen Test unverzerrt, wenn
1.2 1 0.8 0.6 0.4 1.2 1 0.8
ZB3
0.6 0.4 0.2
ZB4
P(Fehler 2. Art | )
0.2 0 4 2 0 2 4
0 4
1.2 1 0.8 0.6 0.4 0.2 0 4 2 0 2 4 1.2 1 0.8
ZB1
0.6 0.4 0.2 0 4 2 0 2
ZB2
Abbildung 22.2: Vergleich der vier im Text beschriebenen kritischen Regionen. Im Bild oben links bendet sich der bliche zweiseitige Test. Im unteren Teil sind die beiden einseitigen Tests dargestellt und mit dem Ergebnis des zweiseitigen Tests (gestrichelte Kurve) verglichen. Im Bild rechts oben ist das Ergebnis zu ZB4 dargestellt. P (z0 Ir |) = P (z0 Ir | = 0 ) .
Diese Denition ist sinnvoll, weil die Wahrscheinlichkeit, die Null-Hypothese zu verwerfen dann am kleinsten ist, wenn die Null-Hypothese wahr ist. In Abbildung 22.2 sind die Ergebnisse zu den vier kritischen Regionen dargestellt. Der zweiseitige Test (ZB = 3) verhlt sich qualitativ, wie man es erwartet. Die Wahrscheinlichkeit, einen Fehler zweiter Art zu machen sinkt monoton mit zunehmender Abweichung des wahren Wertes vom hypothetischen Wert 0 = 0. Je grer diese Diskrepanz, desto einfacher ist es zu erkennen, dass die Null-Hypothese falsch ist. Dementsprechend wird sie in zunehmendem Mae verworfen. Fr 0 hingegen werden immer huger Stichproben vorkommen, die mit dem hypothetischen Wert vertrglich sind. Die Null-Hypothese wird also akzeptiert, obwohl sie falsch ist. Einen Sonderfall stellt = 0 dar, fr den die Null-Hypothese korrekt ist. Entsprechend ist die Wahrscheinlichkeit fr = 0 P (z Ir |, 0 = , ZB, B ) = 1 P (z Ir |, 0 = , ZB, B ) = 1 .
Dieser Wert wird in der Abbildung angenommen. In diesem Ausnahmefall liegt kein Fehler zweiter Art sondern eine korrekte Entscheidung vor.
350
Der einseitige Test mit Cutoff rechts (ZB = 1) ist sogar noch diskriminierender, wenn die wahre Differenz grer Null ist. Allerdings ist der Test fr < 0 VERZERRT. Die Irrtumswahrscheinlichkeit zweiter Art geht sogar sehr schnell gegen eins. Genau umgekehrt verhlt sich der andere einseitige Test (ZB = 2). Der Test mit der kritischen Region (ZB = 4) im Maximum der Wahrscheinlichkeitsdichte ist, wie nicht anders zu erwarten, vllig unbrauchbar. Er ist berall verzerrt und liefert gerade dann groe Fehler zweiter Art, wenn groe Diskrepanzen zwischen dem wahren Wert und dem hypothetischen vorliegen.
Wenn z0 Ir , so sagt man, dass die Null-Hypothese verworfen werden muss, da die Daten unter dieser zu unwahrscheinlich sind. Das Umgekehrte gilt nicht. Wenn die Hypothese nicht verworfen werden kann, heit das noch nicht, dass sie richtig ist. Denn es kann sehr wohl andere Hypothesen geben, die die Daten genauso gut oder besser erklren knnen. Mit den statistischen Tests kann man nur eine Theorie falsizieren. Denn wenn sie die Daten nicht erklrt, tut sie das unabhngig von den anderen Hypothesen.
22.1.3
Allgemeines Prinzip der statistischen Tests
Wir haben am Beispiel des z-Tests das Prinzip des Signikanz-Tests eingefhrt und wollen nun die allgemeine Vorgehensweise zusammenfassen. Man unterscheidet zwischen EINFACHEN und ZUSAMMENGESETZTEN Tests. Bei einfachen Tests legt die Null-Hypothese alle Parameter fest. Bei zusammengesetzten Tests hingegen, gibt es noch unbestimmte Parameter. Z.B. knnte die Null-Hypothese besagen: Die Spannung ist proportional zur Stromstrke. Das heit, es soll gelten
U I
Die Proportionalittskonstante (hier der Widerstand) ist ein freier Parameter. Freie Parameter werden ber eine Maximum-Likelihood-Schtzung festgelegt. Die Zahl der Freiheitsgrade reduziert sich hierbei um die Zahl der freien Parameter, da diese aus der Stichprobe ermittelt werden.
351
G ENERELLE V ORGEHENSWEISE BEI S IGNIFIKANZ T ESTS
1. Formulierung der Null-Hypothese. 2. Wahl der Test-Statistik (x). 3. Bestimmung der freien Parameter aus dem ML-Prinzip. 4. Festlegen des Signikanz-Niveaus (z.B. = 0.01).
5. Ermittlung des kritischen Bereiches Ir .
6. Auswertung der Stichprobe x0 .

7. Feststellen, ob Daten signikant x0 Ir und ob die Null-Hypothese verworfen werden muss.
Wenn ein Test dazu fhrt, dass die Null-Hypothese verworfen werden muss, dann ist das losgelst von anderen Alternativen. Die Hypothese erklrt einfach die Daten nicht. Es wird dann sicher eine andere Hypothese geben, die mit den Daten konform ist. Anders ist das, wenn die Null-Hypothese aufgrund der Daten nicht verworfen werden kann. Selbst wenn die Daten noch so gut passen, heit das nicht, dass die Hypothese richtig sein muss. Hypothesen knnen in diesem Sinne nur falsiziert und niemals veriziert werden. Statt den kritischen Bereich vorab zu bestimmen, kann man den sogenannten P -Wert berechnen. Das ist bei einseitigen Tests die Wahrscheinlichkeit P = P (x x0 ) , dass x-Werte so gro wie oder grer als der beobachtete Wert vorkommen, wenn die Null-Hypothese korrekt ist. Ist der P -Wert kleiner als , so wird die Hypothese verworfen, da sie im Rckweisungsbereich (kritische Region) liegt. Man sagt dann, x0 weicht signikant vom hypothetischen Wert ab. Wenn die Daten SIGNIFIKANT sind, versteht man darunter, dass die beobachteten Abweichungen vom hypothetischen Wert so gro sind, dass man sie nicht mit statistischen Fluktuationen erklren kann. Das Signikanz-Niveau gibt den Schwellwert an, ab dem Diskrepanzen vom hypothetischen Wert als signikant und nicht als zufllig betrachtet werden.
22.2
2-Test
Man geht beim 2 -Tests davon aus (B ), dass die Stichprobe {x1 , . . . , xN } aus N Zufalls-Variablen xi besteht, die alle unabhngig voneinander normal-verteilt sind.
352
2 Mittelwert i und Varianz i der xi sind bekannt, knnen aber alle unterschiedlich 2 sein. Die -Statistik x lautet dann
x=
i=1
(xi i )2 2 i
Die Statistik x besitzt die Wahrscheinlichkeitsdichte der 2 -Verteilung
x 2 2 N p2 (x|N ) = N x 2 1 e 2 ( 2 )
mit N Freiheitsgraden. Der Erwartungswert x der 2 -Statistik ist N . Das bedeutet, dass im Mittel jeder Datenpunkt eine Standard-Abweichung vom wahren Wert entfernt sein wird. Beim einseitigen Test ist die kritische Region
Ir = [x , )
mit bzw.
= P (x x |N ) = 1 F2 (x |N ) 1 x = F . 2 (1 |N )
N 10 20 30 40 50 60 70 80 90 100
= 0.1 15.987 28.412 40.256 51.805 63.167 74.397 85.527 96.578 107.565 118.498
= 0.05 = 0.01 18.307 23.209 31.410 37.566 43.773 50.892 55.758 63.691 67.505 76.154 79.082 88.379 90.531 100.425 101.879 112.329 113.145 124.116 124.342 135.807
Tabelle 22.1: Grenzwerte x in Abhngigkeit von und N .
353
2 -T EST Die Gre

N
x=
i=1
(xi i )2 2 i
(22.3)
gengt der 2 -Verteilung 2 2 N 1 x p2 (x|N ) = N x 2 e 2 ( 2 ) mit N Freiheitsgraden.

N
(22.4)
22.2.1
Vergleich mit theoretischen Modellen
Wir betrachten ein Situation, die wir in der Physik hug antreffen. Zu gewissen Steuergren si R (i = 1, . . . , N ) (z.B. angelegte Spannung) werden Experimente durchgefhrt, die Werte di fr eine Messgre (z.B. Strom) liefern. Es existiere ein theoretisches Modell y (s|a), das fr die Steuergre si den Messwert y (si |a) vorhersagt. Das Modell hngt von Parametern a RNp ab, die bekannt sein sollen. Wenn das Modell stimmt, das ist die Null-Hypothese, dann sollten die experimentellen Werte nur aufgrund von Messfehlern von den theoretischen Werten abweichen di = y (si |a) + i .
2 Die Abweichungen i seien normalverteilt mit bekannter Varianz i , die von der Steuergre si , oder dem exakten Wert y (si |a) abhngen kann. Die 2 -Statistik ist dann N (di y (si |a))2 x0 = . 2 i i=1
Diese Gre ist 2 -verteilt zu N Freiheitsgraden. Reduzierte Zahl von Freiheitsgraden Wir betrachten dieselbe Situation wie zuvor, nur dass nun die Modell-Parameter nicht oder nur teilweise bekannt sein sollen. Die Zahl der unbekannten Parameter sei r. Man bestimmt diese Parameter aus dem Maximum-Likelihood-Prinzip (siehe Abschnitt 20.2) aML = aML (d) .
354
Der Schtzwert hngt nur von der Stichprobe und bekannten Gren ab. Der Wert der 2 -Statistik N (di y (si |aML (d))2 x0 = 2 i i=1 ist somit tatschlich eine Statistik. Man kann auch zeigen, dass sie 2 -verteilt ist. Allerdings hat sich die Zahl der Freiheitsgrade verringert, da aufgrund der Abhngigkeit der ML-Parameter von der Stichprobe nicht mehr alle Summanden voneinander unabhngig sind. Die Zahl der Freiheitsgrade ist nun N r. Die Hypothese wird wieder verworfen, wenn 1 F2 (x0 |N r) < bzw. F2 (x0 |N r) > 1 . Natrlich ist ein Wert x = 0 ebenfalls extrem unwahrscheinlich. Man wird deshalb den zweiseitigen Test verwenden, der Abweichungen vom Mittelwert x in beide Richtungen untersucht.
22.2.2
Test von Verteilungen
Hug stellt sich die Frage, ob gemessen Daten einer bestimmten Verteilung gengen. Z.B. ob beobachtete radioaktive Zerflle poisson-verteilt sind. Die zu testende Verteilung kann diskret oder kontinuierlich sein. In letzterem Fall wird man das Problem diskretisieren. Das soll an einem eindimensionalen Problem erlutert werden. Die Zufalls-Variable x nehme alle Werte aus dem Intervall x [0, ) an. Die zugehrige Wahrscheinlichkeitsdichte sei (x). Wir diskretisieren die x-Achse 0 = x0 < x 1 < x 2 < . . . < . Die Unterteilung wird hug quidistant sein, muss es aber nicht. Z.B. kann es bei einer Exponential-Verteilung sinnvoller sein, die Intervall-Breite exponentiell anwachsen zu lassen. Wir denieren zu diesen Intervallen die Wahrscheinlichkeiten
xi+1
pi = P (x [xi , xi+1 )|B ) =

xi
(x) dx,
i = 0, 1, . . .
Nach der Diskretisierung sind kontinuierliche Probleme wie diskrete zu behandeln. Wenn eine Stichprobe vom Umfang N vorliegt, erwartet man, im Intervall Ii im Mittel n i = N pi Ereignisse (Teilchen) anzutreffen. Der Standard-Fehler dieses Mittelwertes ist SF = N pi (1 pi ) .
355
Somit ist die 2 -Statistik

N
x0 =
i=1
ni n i n i (1 pi )
=
i=1
(ni n i )2 n i (1 pi )
i
(22.5)
Nun sind die Beitrge zur Summe nicht alle unabhngig, da det deshalb N (ni n i )2 x0 = . n i i=1
n i = N . Man verwen(22.6)
Diese Zufalls-Variable ist wieder 2 -verteilt mit N 1 Freiheitsgraden, da einer wegen der Nebenbedingung verlorengegangen ist. Beispiel: Mnze Das einfachste Beispiel fr den 2 -Test ist das Mnz-Experiment. Eine Mnze wird N -mal geworfen. Die Null-Hypothese lautet: die Mnze ist symmetrisch, das heit P1 = P2 = 1/2. In der Stichprobe komme n1 -mal Kopf und n2 -mal Zahl vor. Die 2 theoretischen Werte sind n 1 = n2 = N/2. Der Wert der -Statistik ist x0 = (n1 N/2)2 (n2 N/2)2 + N/2 N/2 .
Nun ist aber n1 + n2 = N , bzw. n2 = N n1 . Das heit, x0 = (n1 N/2)2 (N n1 N/2)2 2(n1 N/2)2 (2n1 N )2 + = = N/2 N/2 N/2 N .
Die Zahl der Freiheitsgrade ist, da kein freier Parameter vorkommt, =21=1 Die zugehrigen Grenzwerte sind x5% = 3.84 x1% = 6.63 . .
Bei N = 100 heit das, dass bei 5% Signikanz-Schwelle akzeptable Werte fr n1 folgende Bedingung erfllen mssen 1 1 N 3 . 84 N n N + 3.84 N 1 2 2 41 n1 59 .
Bei Werten auerhalb dieses Intervalls sind die Daten mit einem Niveau von = 5% signikant. Aus Symmetriegrnden gilt dasselbe fr n2 .
356
Einschub: Sufcient Statistics

Wir haben gerade festgestellt, dass es bei binren Problemen ausreicht, eine der beiden Zufalls-Variablen (z.B. n1 ) in der Statistik zu bercksichtigen. Das gilt generell, da die zweite Zufalls-Variable ber n2 = N n1 1 festgelegt ist. Es stellt sich die Frage, ob wir anstelle der 2 -Statistik eine andere htten verwenden knnen. Wir gehen von der allgemeinsten Form einer alternativen Statistik y = f (n1 , N, P1 ) (22.7)
aus, die von der Zufalls-Variablen n1 , dem Stichprobenumfang und der a-prioriWahrscheinlichkeit P1 abhngt. Eine Mglichkeit ist die 2 -Statistik mit f= = = = f= (n1 N P1 )2 (n2 N P2 )2 + N P1 N P2 2 (N n1 N (1 P1 ))2 (n1 N P1 ) + N P1 N P2 2 (n1 N P1 ) (n1 N P1 )2 + N P1 N P2 2 (n1 N P1 ) (P1 + P2 ) N P1 P2 (n1 N P1 )2 . N P1 P2
(22.8)
Wir fhren fr die y -Statistik eine fr alle f gleiche Signikanz-Schwelle P (y ys ) = P ein. Nun lsen wir Gl. (22.7) nach n1 auf. Fr die folgenden berlegungen gehen wir davon aus, dass diese Lsung eindeutig ist. ber Gl. (22.7) korrespondiert dann zu jedem n1 eindeutig ein Wert y . Es soll insbesondere ns zu ys korrespondieren ys = f (ns , N, P1 ) Dann gilt offenbar P (n1 ) = P (y ) Daraus folgt unmittelbar durch Summieren
. .
(22.9)
P (y ys ) = P (n1 ns ) =
n1 =ns
P (n1 )
Die rechte Seite ist natrlich unabhngig von der Wahl der Statistik f und somit muss auch die linke Seite unabhngig sein. Das heit, die Irrtumswahrscheinlichkeit P (y ys ) ist unabhngig von f wenn nur ys ber Gl. (22.9) ermittelt wurde und die Statistik f eine eineindeutig Funktion von n1 ist. Das heit, der einzige Test, der im binren Problem wirklich zhlt, ist die Wahrscheinlichkeit P (n1 ns )
1
N ist keine Zufalls-Variable!
357
Wie passt die 2 -Statistik ins Bild? Mit f aus Gl. (22.8) erhalten wir bei der Umkehrung n1 = N P1 N P1 P2 y . Diese Lsung verletzt die Annahme, dass die Umkehrung eindeutig ist. Der Bereiche y ys korrespondiert, wegen des quadratischen Zusammenhangs y= zu den beiden Bereichen n1 max(0, N P1 und N P1 P2 ys ) . (n1 N P1 )2 N P1 P2 ,
n1 N P1 + N P1 P2 ys Wir denieren ns = N P1 + N P1 P2 ys . Somit gilt
P (2 2 s ) = P (n1 ns ) + P (n1 max(0, 2N P1 ns ))
Der 2 -Test ist in diesem Fall quivalent zu dem beidseitigen Test, dass der beobachtete Wert fr n1 unwahrscheinlich weit vom Mittelwert N P1 entfernt ist. Hierbei werden die Abweichungen in beide Richtungen bercksichtigt. Oder besser umgekehrt. Ausgehend vom sinnvollerweise beidseitigen Test in n1 , erhlt man den einseitigen 2 -Test. Das ist aber ein Spezialfall des binren Problems. Wir haben gesehen, dass fr binre Probleme alle Tests quivalent sind. Man nennt die zugehrige Statistik SUFFICIENT STATISTICS.
Beispiel: Mustererkennung Wir betrachten ein weiteres Anwendungsgebiet der 2 -Statistik. Gegeben sei ein Bild aus L Pixel. Es soll entschieden werden, ob sich auf dem Bild ein Objekt bendet (z.B: Tumor, extra-terrestrische Objekte (schwache Sterne)) oder ob nur ein verrauschter Untergrund vorliegt. Das Bild liege in Form von Photonen-Zhlraten ni (i = 1, . . . , L) der einzelnen Pixel vor. Die Null-Hypothese lautet, es liegt kein Objekt vor2 . Dann ist Pi =
2
1 L
Eine aussagekrftigere Hypothese knnte auch sein, Es liegt ein ganz bestimmtes, bekanntes Objekt
vor
358
und man wrde nach dieser Hypothese im Mittel N Photonen pro Pixel erwarten, L wobei N die Gesamtzahl der Photonen im Bild ist. Der Wert der 2 -Statistik ist somit
L
x0 =
l=1
(nl
N L
N 2 ) L
Das soll an einem Beispiel demonstriert werden. Wir erzeugen hierzu knstliche Da5 5
10
10
15
15
20
20
25
25
30
30
35
35
40
40
45
45
50 5 10 15 20 25 30 35 40 45 50
50 5 10 15 20 25 30 35 40 45 50
10
10
15
15
20
20
25
25
30
30
35
35
40
40
45
45
50 5 10 15 20 25 30 35 40 45 50
50 5 10 15 20 25 30 35 40 45 50
Abbildung 22.3: Muster-Erkennung ber 2 -Statistik. Auf einem Untergrund von N = 100 wurde ein Objekt mit zustzlich N angebracht und poisson-verrauscht. Die Werte N sind von links nach rechts und oben nach unten 0, 4, 8, 10. ten (Mock-Data). Auf einem quadratischen Pixel-Gitter der Gre 5050 setzen wir in die Mitte ein quadratisches Objekt der Gre 20 20. Die mittlere Photonen-Zahl des Untergrundes betrgt 100, und darauf sitzt ein Objekt mit zustzlich N Zhlern pro Pixel. Da es sich sich um ein Zhl-Experiment handelt, ist der Messwert um die angegebenen Werte poisson-verteilt. Die Abbildung 22.3 zeigt einige reprsentative Bilder fr N = 0, 4, 8, 10. Insgesamt wurden Simulationen fr die Werte N = 0, 1, . . . , 10 durchgefhrt und dazu aus der 2 -Statistik der P -Wert ermittelt. Zu jedem Wert N wurde die Simulation 100-mal wiederholt und Mittelwert und Standard-Fehler von P ermittelt. Die Ergebnisse sind in Abb. 22.4 dargestellt. Man erkennt, dass der P -Wert bei ungefhr N = 8 in den Prozentbereich eintaucht. Wenn man die Bilder in Abbildung 22.3 vergleicht, stellt man interessanterweise fest, dass man auch mit bloem
359
0.8
0.6
P
0.4
0.2
0 0
10
N
Abbildung 22.4: P-Wert als Funktion von N . Der Untergrund betrgt N = 100. Es wurde ber 100 Kongurationen gemittelt. Auge (und der Bildverarbeitungssoftware des menschlichen Gehirns) fr N = 8 erstmals erkennt, dass ein Objekt vorhanden ist.
22.2.3
Test von Verteilungen mit unbekannten Parametern
Wir wollen nun untersuchen, ob Datenpunkte einer bestimmten Verteilung gengen. Die Parameter, von denen die Verteilung abhngt, seien nicht bekannt. Der Einfachheit halber betrachten wir nur diskrete (diskretisierte) Ereignisse, mit den Wahrscheinlichkeiten pl (a) , l = 1, 2, . . . , L ,
wobei a RNp unbekannte Parameter darstellen. Es liege eine Stichprobe {n1 , . . . , nL } vom Umfang L vor. Unter der Annahme, dass die Hypothese korrekt ist, lautet die Likelihood-Funktion P (n|a, L, B ) = N n1 ! nL !
L
l pn l (a)
l=1
Die unbekannten Modell-Parameter werden zunchst aus dem MaximumLikelihood-Prinzip bestimmt. Da der Logarithmus monoton ist, kann man auch das
360
Maximum der Log-Likelihood-Funktion (vgl. Abschnitt 20.2) ermitteln 0= ai

L L
nl ln(pl (a))
l=1
= a
l=1 ML
nl
ln(pl (a)) ai .
(22.10)
Die ML-Parameter verwenden wir, um damit die theoretischen Werte

ML ) n l = N pl (a
zu ermitteln und die 2 -Statistik zu berechnen

L
2 0 =
l=1
2 (nl n l) n l
(22.11)
Die Zahl der Freiheitsgrade ist nun nur noch = L 1 Np ,
da Np Freiheitsgrade fr die Bestimmung der Parameter aufgebraucht worden sind. Ein weiterer Freiheitsgrad geht auf das Konto der Summenregel i ni = i n i. Beispiel: Poisson-Verteilung Die Daten der nachstehenden Tabelle sollen dahingehend untersucht werden, ob sie einer Poisson-Verteilung entstammen. Die Daten sind in Abbildung 22.5 abgebildet und mit dem Maximum-Likelihood-Fit an eine Poisson-Verteilung (Gl. (12.3)) verglichen. l 0 1 2 3 4 5 6 7 nl 153 278 288 184 103 33 25 4 Wir bentigen zunchst die ML-Lsung fr den Parameter . Gem Gl. (22.10) ist die Bestimmungsgleichungen
L
0=
l=0 L
nl nl
l=0
l ln e l! 1 + l = N 1 l .
Der ML-Wert fr den Parameter der Poisson-Verteilung ist also gleich dem Stichproben-Mittelwert l = 2.023. Der Umfang der Stichprobe ist 8. Da noch ein
361
300 data fit 250
200
nl
150
100
50
l
Abbildung 22.5: Daten eines Zhlexperimentes und Maximum-Likelihood-Fit einer PoissonVerteilung an die Daten.
Parameter aus den Daten bestimmt wurde, ist die Zahl der Freiheitsgrade = 6. Die Analyse der Daten liefert x0 = 13.104870 P (x > x0 |H, B ) = 0.041 . Mit einer Signikanz-Schwelle von 5% wrden wir die Null-Hypothese verwerfen und die Daten als nicht poisson-verteilt abtun. Die Null-Hypothese ist jedoch noch mit einem Signikanz-Niveau von 1% vertrglich.
22.2.4
Kontingenz-Tabellen
Ein weiteres Anwendungsgebiet des 2 -Tests sind die sogenannten K ONTINGENZ TABELLEN. Dabei geht es um folgende Fragestellung. Es werden N Versuche durchgefhrt, deren Werte durch die Zufalls-Variablen x und y gekennzeichnet sind. Beide Variablen seien diskret und knnen die Werte x1 , x2 , . . . , xl bzw. y1 , y2 , . . . , yk annehmen. Die Anzahl der Versuche, die das Werte-Paar (xi , yj ) liefert, sei nij . Man ordnet diese Zahlen nun in der sogenannten K ONTINGENZ -TABELLE, wie sie in Tabelle 22.2 illustriert ist, an.
362
x1 x2 . . . xl Summe
y1 n11 n21 . . . nl 1 n.,1
y1 n12 n22 . . . nl 2 n.,2
... ... ... ... ...
yk n 1k n 2k . . . nlk n.,k
Summe n1,. n2,. . . . nl,. N
Tabelle 22.2: Kontingenz Tabelle.
Es wurden folgende Abkrzungen verwendet ni,. =

j
nij nij
i
n.,j = N=
ij
nij
Wir bezeichnen die Wahrscheinlichkeit fr das Auftreten des Wertes xi mit pi und des Wertes yj mit qj . Die Null-Hypothese soll bedeuten, dass die Wahrscheinlichkeiten P (xi , yj ) unkorreliert sind, das heit P (xi , yj ) = pi qj .
Wenn die Hypothese korrekt ist, sollte im Mittel der Eintrag in der KontingenzTabelle an der Stelle ij den Wert N pi qj haben. Nun kennen wir die Werte qi und pj nicht. Sie mssen aus der Likelihood-Funktion bestimmt werden. Die Likelihood ist im vorliegenden Fall p(n|p, q, N )
ij
(pi qj )nij
Die ML-Lsung erhalten wir aus der Ableitung der Log-Likelihood mit den Nebenbedingungen pi = 1
i
qj = 1
j
363
Die Nebenbedingungen binden wir ber Lagrange-Parameter an 0= =

j
nij (ln(pi ) + ln(qj )) p

ij i
p i q
j
qj
nj p p
= pML i 1 ni,. N .
Im letzten Schritt wurde die Normierung auf Eins bercksichtigt. Analog erhalten wir 1 ML n.,j . qj = N Die 2 -Statistik ist dann x=
ij ML 2 (nij N pML i qj ) ML N (pML i qj )
Die Zahl der Freiheitsgrade betrgt, da neben der Summenregel (k 1) + (l 1) Parameter berechnet wurden, = l k 1 k l + 2 = (l 1)(k 1) Alles andere ist wie in den zuvor besprochenen Tests. .
22.2.5
Vierfelder-Test
Besonders weit verbreitet ist der Vierfelder-Test, bei dem k = l = 2 ist. In diesem Fall ist die Zahl der Freiheitsgrade = 1 und die 2 -Statistik vereinfacht sich zu x0 = (n11 n22 n12 n21 )2 ML ML ML N 3 pML 1 (1 p1 )q1 (1 q1 ) .
Man erkennt, dass 2 = 0 ist, wenn die Determinante der Kontingenz-Matrix verschwindet. Das ist genau dann der Fall, wenn die Matrix-Elemente die Produktform nij = N pi qj haben. Generell bedeutet ein groer 2 -Wert, dass die Daten korreliert sind. Beispiel: Medizinischer Test Der Vierfelder-Test wird hug in der Medizin eingesetzt, um zu entscheiden, ob eine von zwei Behandlungsmethoden erfolgreicher ist. x1 steht fr die Behandlungsmethode A und x2 fr die Behandlungsmethode B . y1 gibt an, dass die Behandlung
364
Behandlung A Behandlung B Summe
erfolglos erfolgreich 500 1000 1060 1940 1560 2940
Summe 1500 3000 4500
Behandlung A Behandlung B
erfolglos erfolgreich .33 .67 .35 .65
Tabelle 22.3: Kontingenz-Tabelle (oben) und relative Erfolgs/Misserfolgs-Hugkeiten (unten). erfolgreich war und y2 , dass sie nichts gebracht hat. Es soll untersucht werden, ob eine der Behandlungen erfolgreicher ist. Tabelle 22.3 enthlt Werte einer solchen Untersuchung. Wir erhalten hieraus x0 = 1.77. Das entspricht P (x x0 |H ) = 0.18. Das bedeutet mit den blichen Signikanz-Niveaus von 1% oder 5%, dass diese oder grer Diskrepanzen nicht so unwahrscheinlich sind, als dass man die Hypothese verwerfen kann. Das bedeutet, dass wir nicht sagen knnen, dass eine Methoden besser ist als die andere. Aus Tabelle 22.3 enthlt auch die relativen Anteile von Erfolg/Misserfolg der beiden Methoden. Hieraus geht hervor, dass beide Methoden erfolgreich sind, und A nur marginal besser ist als B .
22.2.6
Simpsons Paradoxon
Es soll nun das obige Experiment genauer analysiert werden. Die Untersuchungen wurden an zwei unterschiedlichen Patientengruppen P1 und P2 durchgefhrt, z.B. Mnner/Frauen oder Kinder/Erwachsene. Wir betrachten nun die KontingenzTabellen der beiden Gruppen getrennt.
365
Wir erhalten fr die Patientengruppe P1 Behandlung A Behandlung B Summe erfolglos erfolgreich 100 400 600 1400 700 1800 Summe 500 2000 2500
Tabelle 22.4: Kontingenz-Tabelle fr die Patientengruppe P1 (oben) und relative Erfolgs/Misserfolgsanteile der Behandlungsmethoden. Hieraus ergibt sich x0 = 19.84. Das entspricht P (x x0 |H ) = 0.00000841. Das heit, im Unterschied zu den gepoolten Daten, muss die Null-Hypothese nun verworfen werden. Es gibt offensichtlich Korrelationen, und die relativen Erfolgshugkeiten zeigen ganz klar, dass die Behandlungsmethode A besser ist. Die Kontingenz-Tabelle fr die Patientengruppe P2 ergibt Behandlung A Behandlung B Summe erfolglos 400 460 860 erfolgreich Summe 600 1000 540 1000 1140 2000
Tabelle 22.5: Kontingenz-Tabelle fr die Patientengruppe P2 (oben) und relative Erfolgs/Misserfolgsanteile der Behandlungsmethoden. Hierbei erhalten wir x0 = 7.34. Das entspricht P (x x0 |H ) = 0.007. Auch hier ist die Wahrscheinlichkeit, dass solche oder grere Diskrepanzen unter der NullHypothese zufllig auftreten, nur 0.007 und somit kleiner als die gngigen Schwellwerte von 5% oder 1%. Die Null-Hypothese, dass keine Korrelation zwischen den Behandlungstypen und dem Ergebnis besteht, wird somit verworfen. Auch fr diese Patientengruppe zeigen die relativen Erfolgshugkeiten, dass die Behandlungsmethode A besser ist als B . Das Ergebnis erscheint paradox. Fr beide Patientengruppen ist die Methode A besser als die Methode B und dennoch trifft das nicht mehr zu, wenn die Daten gemeinsam analysiert werden. Der Grund wird augenfllig, wenn man die Tabellen 22.4, 22.5 und 22.3 vergleicht. In der nachstehenden Tabelle ist das Verhltnis von Erfolg zu Misserfolg nach Patientengruppe und Behandlungsmethode aufgeschlsselt. Man sieht, dass beide Behandlungsmethoden bei der Patientengruppe P1 erfolgrei-
366
P1 4.0 2.3
P2 1.5 1.2
Tabelle 22.6: Tabelle des relativen Erfolgs. cher sind als bei der Gruppe P2 . Insbesondere ist die schlechtere Behandlungsmethode B an P1 erfolgreicher als die bessere an P2 . Im gepoolten Datensatz kommen verhltnismig viele Daten von B an P2 vor.
22.3
t-Test
Die Grundannahme des t-Tests ist, dass eine Stichprobe {x1 , . . . , xN } i.u.nv. ZufallsVariablen gemessen wurde. Die Varianz 2 der Verteilung ist nicht bekannt. Es soll getestet werden (Null-Hypothese), ob ein bestimmter Wert der wahre Mittelwert der Verteilung ist. Die t-Statistik lautet t0 = = SF x SF (xi x)2 N (N 1)
N i=1 1/2
x=
1 N
xi
i=1
Die Zahl der Freiheitsgrade ist = N 1. Man wird in diesem Fall i.d.R. einen zweiseitigen Test durchfhren. Wir geben die Irrtumswahrscheinlichkeit vor. Die zugehrige kritische Region |t| t erhalten wir aus P (|t| t | ) = 2 P (t t | ) = 2 2 P (t t | ) =
Ft (t | ) !
t = Ft1 (1 | ) 2
Der Unterschied zum z -Test besteht darin, dass man die Varianz nicht kennt. Deshalb sind grere Abweichungen vom hypothetischen Wert ntig, um eine Hypothese verwerfen zu knnen. Beim z -Test hatten wir fr den zweiseitigen Test gefunden, dass die Null-Hypothese zu verwerfen ist, wenn bei einem Signikanz-Niveau von zs = 0.01 z1% = 2.58 ist. Bei demselben Signikanz-Niveau ist der Grenzwert der zs t-Statistik t1% = 3.25, wenn die Stichprobe den Umfang 10 hat. In Abbildung 22.6 ist der Grenzwert tzs 1% zum zweiseitigen t-Test als Funktion des Stichprobenumfangs aufgetragen. Die kleinste zulssige Stichprobe hat den Umfang 2.
22.3.1 Vergleich von Mittelwerten

Man kann den t-Test auch heranziehen, um zu testen, ob die wahren Mittelwerte zweier Stichproben gleich sind. Voraussetzungen sind
367
60 50 40
tzs 1%
30 20 10 0
10
15
20
25
30
Abbildung 22.6: Grenzwert tzs 1% zum zweiseitigen t-Test als Funktion des Stichprobenumfangs. Alle Zufalls-Variablen sind unabhngig voneinander. Die Zufalls-Variable innerhalb der beiden Stichproben sind jeweils i.u.nv. Die Varianz ist in beiden Fllen gleich. Null-Hypothese: Die Mittelwerte, die den beiden Stichproben zugrundeliegen, sind gleich.
Die Stichproben {d ( = 1, 2) haben den Umfang L1 und L2 . Die Ge1 , . . . , dL }, samtzahl der Stichproben-Elemente ist
L = L1 + L2
Mittelwerte und Varianzen der beiden Stichproben sind d( ) 1 = L 1 L

L
d i
i=1 L 2 (d i d ) i=1
(d( ) )2 =
Die Null-Hypothese besagt, dass die Differenz der Stichproben Mittelwerte = d(2) d(1) um Null normal-verteilt ist. Der Schtzwert fr die Varianz der Differenz ist L 2 = (1) (2) L(1) (d(1) )2 + L(2) (d(2) )2 . (22.12) L L
368
Hierbei wurden wieder die Varianzen der beiden Stichproben quadratische addiert. Es ist sehr sinnvoll, dass die Schtzwerte fr die Varianzen aus den Stichproben mit ihren Gren gewichtet eingehen, da auf diese Weise ihre Zuverlssigkeit korrekt bercksichtigt werden. Die t-Statistik ist dann t= (d(2) d(1) ) = L2 SF ,
wobei die Zahl der Freiheitsgrade = L 2 betrgt, da jede Stichprobe wegen der Bestimmung des jeweiligen Mittelwerts einen Freiheitsgrad verliert. T EST OB ZWEI S TICHPROBEN DENSELBEN M ITTELWERT HABEN BEI UNBEKANNTER VARIANZ : t -T EST Die Gre t= L2 L L(1) L(2) (d(2) d(1) ) (22.13) L(1) (d(1) )2 + L(2) (d(2) )2
mit =
gengt der Student-t Verteilung

1 ( ) 1 2 pt (t| ) = ( 2 )
t2 1+
+1 2
(22.14)
mit = L 2 Freiheitsgraden.
Beispiel zum Vergleich von Mittelwerten Die Tabelle 22.7 enthlt zwei Stichproben der Lebensdauer in willkrlichen Einheiten von zwei radioaktive Elementen X und Y. Die Null-Hypothese besagt, dass es sich bei beiden Prparaten um dasselbe Element handelt. Aus den Werten in der Tabelle erhlt man eine Standardfehler fr die Differenz der Mittelwerte von = SF = 1.95 L2 Damit ist der Wert der t-Statistik t0 = dX dY = 0.62 SF . .
369
i 1 2 3 4 5 6 7 d( ) (d( ) )2
dX i 11 14 8 12 9
dY i 18 11 9 7 14 10 15 12.0 12.57
10.8 4.56
Tabelle 22.7: Messungen der Lebensdauer (in willkrlichen Einheiten) zweier radioaktiver Elemente X und Y. Die Zahl der Freiheitsgrade betrgt = 10. Bei einem zweiseitigen Test zum Signikanz-Niveau von 1% beginnt die kritische Region bei t1% = 3.2 .
Damit kann die Null-Hypothese nicht verworfen werden. Wir berechnen noch den P -Wert P = P (|t| t0 | ) = 2Ft ( |t0 | | ) = 2 0.276 = 0.552 , der besagt, dass Diskrepanzen in den Stichprobenmittelwerten, die mindestens so gro sind wie die beobachtete, aufgrund von zuflligen Fluktuationen mit einer Wahrscheinlichkeit 0.55 auftreten knnen und die Null-Hypothese von daher nicht verworfen werden kann.
22.4
F -Test
Unter der F -Statistik versteht man das Verhltnis der Schtzwerte zweier Stichproben-Varianzen. 1 2 f0 = 2 (22.15) 2 Voraussetzung ist, dass die Elemente der Stichproben i.u.nv. sind, und wir nehmen an, dass beide Stichproben dieselbe intrinsische Varianz 2 besitzen. Wir hatten bereits in 21.5 gezeigt, dass die F Statistik einer Wahrscheinlichkeitsverteilung gengt, die unabhngig von 2 ist und nur von den Umfngen der beiden Stichproben abhngt. Weiters hatten wir gesehen, dass die Wahrscheinlichkeitsdichte der F -Statistik nicht von den Mittelwerten der beiden Stichproben abhngen. Der Umfang der Stichproben sei N . Die Zahl der Freiheitsgrade in den Stichproben ist dann = N 1.
370
Die Null-Hypothese ist, dass beiden Stichproben (ungeachtet der Mittelwerte) dieselbe intrinsische Varianz haben und deshalb auf denselben physikalischen Ursprung zurckgehen. Das wesentliche am F -Test ist, dass weder zur Berechnung der Statistik noch fr die Wahrscheinlichkeitsdichte der intrinsische Wert der Varianz 2 bentigt wird. Deshalb kann der F -Test in vielen Fllen angewandt werden. Wenn die Hypothese richtig ist, sollte der berechnete Wert (f0 ) der Statistik nahe bei eins liegen. Wenn er wesentlich davon abweicht, heit das, dass die Hypothese wahrscheinlich nicht korrekt ist. Wie im 2 -Test verwendet man als Signikanz-Niveau 5% oder 1% und verwirft die Hypothese, wenn die Wahrscheinlichkeit P (f f0 ), dass ein Wert f grer-gleich f0 vorkommt, wenn die Hypothese korrekt ist, grer ist als das Signikanz-Niveau. Bei einem Signikanz-Niveau verwerfen wir die Hypothese, wenn
P (f f0 ) =
f0
df pF (f |N1 , N2 , B )
Die Hypothese ist auch zu verwerfen, wenn f0 deutlich kleiner als eins ist. In diesem Fall muss gelten
f0
P (f f0 ) =
0
df pF (f |N1 , N2 , B )
Da aber im Fall f0 < 1 nur die Indizes der Stichproben vertauscht werden mssen, um zu f0 > 1 zu gelangen, whlt man die Indizes i.d.R. so, dass f0 > 1. F -T EST Die Gre 1 2 2 2 gengt der F-Statistik mit der Wahrscheinlichkeitsdichte f= pF (f |1 , 2 ) = mit mit = N 1.
2 1 + 2 1 2 ) ( 1 + 2 2 (1 + f r) 2 1 2 r (rf ) ( 2 )( 2 ) 1 r= . 2
(22.16)
(22.17)
371
Beispiel Wir betrachten zwei Bildausschnitte, die jeweils 4 Pixel enthalten, eines Bildes, das im wesentlichen aus Untergrund besteht. Im ersten Ausschnitt nden wir die Werte {2.0, 3.0, 1.0, 2.0} und im zweiten {2.0, 2.5, 1.5, 2.0}. Die Null-Hypothese sei: in beiden Fllen sehen wir nur Untergrund, das heit, die Varianzen sollen gleich sein. Die Stichproben-Mittelwerte sind in beiden Fllen gleich 2.0. Die Schtzwerte der Varianzen liefern
2 1 =
2 3 2 3 .
und
2 2 = 0.25
Damit ist der Wert der F -Statistik f0 = 4.0 .
Wir vereinbaren, dass wir die Stichproben immer so nummerieren, dass der Wert der F -Statistik grer eins ist. Bei einem Signikanz-Niveau liegt die Grenze zur kritischen Region bei
pF (f |1 , 2 ) df = 1 FF (f |1 , 2 ) =
f
Daraus folgt
1 (1 |1 , 2 ) f = FF
Wenn wir speziell = 0.1 whlen ist in unserem Beispiel

1 f10% = FF (0.95|3, 3) = 5.3908
Das heit, selbst bei einem Signikanz-Niveau von 10% (in dem wir erlauben, dass die Null-Hypothese in 10% der Flle irrtmlich verworfen wird) kann die NullHypothese nicht verworfen werden. Der P -Wert ist P = 1 FF (f0 |3, 3) = 0.14 ,
was zeigt, dass im Bereich f f0 14% der Wahrscheinlichkeitsmasse steckt.
22.5
Kritik an der Test-Logik

P = P (s s0 |H0 ) ,
Grundlage der Signikanz-Tests ist die Likelihood-Funktion
372
das heit, die Wahrscheinlichkeit, dass der Werte der untersuchten Statistik grergleich dem beobachteten Wert sind. Zum einen ist die Wahl der kritischen Bereiche abhngig von den Alternativen. Diese werden aber in den typischen Anwendungen nicht bercksichtigt. In den meisten Fllen wird man einseitige oder zweiseitige Test durchfhren. ber die Fehler zweiter Art wei man i.d.R. wenig. Wir hatten bereits festgestellt, dass ein groer P -Wert bedeutet, dass die Null-Hypothese nicht verworfen werden kann. Das heit aber umgekehrt nicht, dass die Null-Hypothese stimmt. Fr den inversen Schluss bentigen wir ALLE Alternativ-Hypothesen. Extremes Beispiel, H0 besagt Herr X wscht den Wagen. Die Beobachtung z0 besagt, dass die Strae nass ist. Damit ist P (z0 Ir |H0 ) = 1 . Das heit aber noch lange nicht, dass Herr X den Wagen wscht. Genausogut kann es regnen. Im eben angefhrten Beispiel kann man leicht falsizierende Schlsse ziehen. Wenn die Strae nmlich nicht nass ist, wissen wir, dass die Hypothese H0 falsch ist. Diese eindeutige Konsequenz liegt jedoch daran, dass P (z0 I |H0 ) = 0. Wenn H0 keine deterministischen Schlsse zulsst, ist auch dieser Umkehrschluss schwierig. Wenn z.B. P (z0 I |H0 ) = 0.01, dann bedeutet das fr den Fall, dass die Strae nicht nass ist, dass nur in 1% der Flle beim Autowaschen die Strae nicht nass wird. Wir knnen also ziemlich sicher sein, dass Herr/Frau X den Wagen nicht waschen. Voraussetzung ist, dass wir auer der Feuchtigkeit auf der Strae nichts wissen. Es knnte aber sein, dass zustzliches Vorwissen existiert, das besagt, dass andere Alternativen auszuschlieen sind. In naturwissenschaftlichen Problemen sind die vorliegenden Daten sicherlich nicht die einzige Information, die fr das betrachtete Problem bekannt ist. Es wird in der Regel schon sehr viel Vorwissen in Form von frheren experimentellen Daten, allgemeinem Wissen oder theoretischen Fakten geben, wie zum Beispiel Positivittsforderungen, Summenregeln, Grenzwert-Verhalten. E IN W ISSENSCHAFTLER STEHT NIEMALS VOR DER S ITUATION , DASS NUR DIE GE GENWRTIGEN D ATEN ZHLEN . Insofern bentigen wir unbedingt eine konsistente Theorie, die es erlaubt, alles bekannte Wissen einieen zu lassen. Es wurde von Kritikern bemngelt, dass das bedeutet, dass die Wahrscheinlichkeit subjektiv sei. Wir haben mathematisch streng bewiesen, dass die Wahrscheinlichkeitstheorie die einzig konsistente Theorie zur Behandlung von Teilwahrheiten ist. Die Theorie ist in sich konsistent und deterministisch. Das einzige, was als subjektiv bezeichnet werden kann, ist das Vorwissen, dass in die Prior-Wahrscheinlichkeiten einiet. D IESES M ASS DER S UBJEKTIVITT IST ABER DAS F UNDAMENT ALLER W ISSENSCHAFTEN . D AS IST DIE E XPERTISE , DIE IN DER JEWEILIGEN D ISZIPLIN VORLIEGT. N ATRLICH HNGT ES VOM E NTWICK LUNGSGRAD DES JEWEILIGEN F ORSCHUNGSFELDES AB . Die Durchfhrung bzw. Generierung von experimentellen Daten oder die Ermittlung von Stichproben und somit die orthodoxen Statistiken ist jedoch im gleichen Mae subjektiv motiviert vom Vorwissen und prjudiziert teilweise das Ergebnis. I.d.R.
373
wird man, geleitet von theoretischen Modellen, Daten, die dem Vorwissen entsprechen, schnell akzeptieren und solche, die absolut nicht ins Bild passen, wiederholt messen. All das, was bei der Daten- und Stichproben-Erzeugung in groem Mae unbewusst abluft, wird mit der Wahrscheinlichkeitstheorie in einen mathematisch strengen und konsistenten Rahmen gebracht. Wenn z.B. die Auslenkung eines harmonischen Oszillators als Funktion der Zeit zu analysieren ist, wird ein Physiker niemals auf die Idee kommen, fr x(t) ein Potenzgesetz der Form xP (t) = a + b t + c t2 anzusetzen. Er wird immer die Form einer gedmpften Schwingung verwenden xO (t) = A cos(t + ) et .
Auch wenn ein Signikanz-Test liefern sollte, dass xO zu verwerfen und xP zu favorisieren ist, ist unser Vorwissen doch so dominant, die Aussage der Daten nicht zu ernst zu nehmen. Insbesondere wissen wir, dass wir dem Modell xP (t) denitiv nicht fr groe Zeiten trauen werden. Das heit, da es in den Tests immer eine Restunsicherheit gibt (Fehler erster, bzw. zweiter Art), dass auch das Falsizieren einer Hypothese nicht zwingend ist. Im Rahmen der Wahrscheinlichkeitstheorie verschwindet die Asymmetrie zwischen Falsizieren und Verizieren. Beide Flle werden gleichwertig behandelt, indem man die Wahrscheinlichkeit P (H |D, I, B ) fr die Hypothese bestimmt, im Lichte der neuen Daten und des Vorwissens des Fachgebietes und des Bedingungskomplexes.
374
Kapitel 23 Wahrscheinlichkeitstheoretische Hypothesen Tests

Der Hypothesen-Test im Rahmen der Bayessche Wahrscheinlichkeitstheorie ist denkbar einfach. Wir wollen zwei Hypothesen H1 und H2 1 im Lichte von neuen experimentellen Daten D vergleichen. Dazu bentigen wir die Wahrscheinlichkeiten P (H |D, B ) fr die beiden Hypothesen H , gegeben die Daten D und weiteres Vorwissen, das im Bedingungskomplex B zusammengefasst ist. In der Rechnung werden wir nach Bedarf auf die in B enthaltene Information zurckgreifen und auch die Daten D genauer spezizieren. Das Bayessche Theorem liefert P (H |D, B ) = P (D|H , B ) P (H |B) P (D|B ) .
Es ist sinnvoll, das sogenannte Odds-Ratio zu berechnen O DDS -R ATIO o= P (H1 |D, B ) P (D|H1 , B ) P (H1 |B ) = P (H2 |D, B ) P (D|H2 , B ) P (H2 |B )
oBF oP
(23.1)
Man nennt den ersten Term den B AYES -FAKTOR und den zweiten P RIOR -O DDS. Der Vorteil der Odds-Ratios ist, dass er Normierungsfaktor P (D|B), die sogenannte D ATEN -E VIDENZ, herausfllt. Die Daten-Evidenz ist hier irrelevant. Prinzipiell gibt
1
Ein Spezialfall ist natrlich H2 = H1 .
375
sie an, wie wahrscheinlich die gemessenen Daten fr eine bestimmte Problemstellung (B ) sind, ungeachtet der speziellen Modell-Parameter. Z.B. knnte B besagen, dass wir optische Experimente im sichtbaren Bereich machen und Wellenlngenmessungen durchfhren. Dann wird die Datenevidenz fr Lngen im Bereich um 555 nm maximal sein und nach 380nm bzw 780nm hin auf Null abfallen. Aus dem Odds-Ratio erhalten wir die Wahrscheinlichkeiten ber die Formel P (H1 |D, B ) = o 1+o . (23.2)
Diese Form gilt, wenn es nur zwei Alternativhypothesen gibt. Die Verallgemeinerung auf mehrere Hypothesen werden wir spter besprechen. Die Formel Gl. (23.1) quantiziert, wie sich unser Wissensstand durch die neuen experimentellen Daten, erweitert hat. Der Bayes-Faktor stellt den Erkenntnisgewinn aufgrund des neuen Daten dar. Der Odds-Ratio gibt an, was vor dem Experiment bereits bekannt war. In der Regel werden Experimente von Fach-Experten durchgefhrt und nicht von Laien. Das heit, vor dem Experiment liegt bereits Wissen vor, z.B. aus frheren Experimenten, das im Prior-Odds zu bercksichtigen ist. Dieser Faktor ist zwar nicht immer leicht zu erhalten, es ist aber unseris, wenn man auf einem Gebiet wissenschaftlich ttig ist und sich nicht die Mhe macht, sich in das bereits bestehende Fachwissen einzuarbeiten. Natrlich kann es auch Probleme geben, bei denen noch kein Vorwissen vorhanden ist. Dann muss man oP = 1 whlen, da jede andere Wahl bedeutet, dass man doch etwas wei. Wenn das nicht der Fall ist, ist der Index an den Hypothesen vllig willkrlich, und aus Symmetriegrnden ist oP = 1 zu whlen. Der Prior-Odds gibt den Wissensstand vor dem Experiment an und nicht welche Hypothese tatschlich richtig ist oder besser zutrifft. Wir wollen z.B. berprfen, ob jemand telepathische Fhigkeiten besitzt. Hierzu werde eine symmetrische Mnze N -mal verdeckt geworfen und man berprft die bereinstimmungen. Von den N Wrfen sollen n Vorhersagen zutreffen. Die Hypothese ist H : Die Person hat telepatische Fhigkeiten. Wenn die komplementre Hypothese H zutrifft, sind die bereinstimmungen zufllig und sollten die Wahrscheinlichkeit q = 1/2 haben. Bei Vorliegen telepathischer Fhigkeiten ist die Wahrscheinlichkeit fr bereinstimmungen q > 1/2. Die Marginalisierungsregel liefert
1
P (n|N, H, B ) =
0
P (n|q, N, H, B ) p(q |N, H, B ) dq
Nun besagt die Hypothese H , dass die Person telepathisch veranlagt ist ohne genauer zu spezizieren, wie stark diese Fhigkeit ausgeprgt ist. Demnach gilt < q 1) p(q |N, H, B ) = 2 ( 1 2 .
376
Der Likelihood-Term P (n|q, N, H, B ) = PB (n|q, N ) ist nichts anderes als die BernoulliVerteilung N P (n|q, N, H, B ) = q n (1 q )N n . n Somit liefert das Ergebnis
1
P (n|N, H, B ) = 2
N n
1/2 1/2
q n (1 q )N n dq
p=1q
=2 =2
N n
0
pN n (1 p)n dp
1 B( 2 ; N n + 1, n + 1)
N n
wobei der letzte Faktor die unvollstndige Beta-Funktion Gl. (9.9b) ist. Im komplementren Fall H ist die Berechnung einfacher P (n|N, H, B ) = P (n|q = 1/2, N, B ) N = 2N . n Damit lautet der Bayes-Faktor oBF = 2N +1 B ( 1 ; N n + 1, n + 1) 2 .
Nehmen wir an, es sei N = 10 und n = 7, dann erhalten wir oBF = 1.38 und wenn wir den Prior-Odds-Faktor gleich Eins whlen folgt daraus P (n|N, H, B ) = oBF = 0.58 1 + oBF .
Diese Wahrscheinlichkeit ist nicht so gro, dass wir von den telepathischen Fhigkeiten der Versuchsperson berzeugt sind, n = 7 bei 10 Versuchen kann auch eine statistische Fluktuation sein. Wir machen deshalb ein umfangreicheres Experiment N = 100 und wir nden n = 77. Die daraus resultierenden Werte sind oBF = 1 009 520 bzw. P = 0.9999990. Hier knnen wir aufgrund der Daten mit an Sicherheit grenzender Wahrscheinlichkeit, davon ausgehen, dass die Person telepathisch veranlagt ist. Trotzdem wird kaum jemand von dem Ergebnis berzeugt sein und fortan an telepathische Fhigkeiten glauben, da wir bereits in so vielen Situationen erlebt haben, dass diese bereinstimmungen nicht auf telepathischen Fhigkeiten sondern auf irgendeiner Art von Manipulation beruhen. Und wir werden von daher einen extrem kleinen Wert fr den Prior-Odds-Faktor ansetzen. Wie knnen wir ihn abschtzen. Wenn auf der Erde jemand nachweislich und reproduzierbare telepathische Fhigkeiten bese, wre das mittlerweile bekannt. Es gibt auf der Erde 1010 Menschen.
377
Bei welcher Zahl ist es denkbar, dass ihre telepathischen Fhigkeiten unbeobachtet geblieben sind. Vielleicht O(102 ). Demnach wrden wir fr den Prior-Odds-Faktor grob den Wert 108 oP = 108 8 1 10 ansetzen. Damit ist im Falle von N = 100 und n = 77, o = 0.001 und p = 0.001. Das macht mehr Sinn. Wir sehen aber auch, wie sich aufgrund der Daten die verschwindend kleinen Prior-Wahrscheinlichkeit von 108 deutlich vergrert hat. Das ist gerade der L ERNEFFEKT, den die Wahrscheinlichkeitstheorie quantiziert. Natrlich sollte man den Prior-Odds-Faktor nicht Null oder Unendlich whlen, ansonsten sind Experimente berssig.
23.1
Stimmt der vorgegebene Mittelwert?
Wir beginnen mit dem einfachsten Beispiel. Wir gehen von I . U . NV. Z UFALLSZAHLEN MIT BEKANNTER VARIANZ 2 aus. Das ist Teil des Bedingungskomplexes (B ). Auerdem enthlt er die Information, um welches physikalische Problem es sich handelt. Wenn wir Lngen untersuchen, ist es sicherlich ein Unterschied, ob wir extraterrestrische Objekte oder Atome untersuchen. Diese Information legt ein Intervall I = [m1 , m2 ] fest, innerhalb dessen sich der noch unbekannte Mittelwert bewegen wird. Es liege eine Stichprobe x = {x1 , . . . , xN } vom Umfang N vor. Die zu untersuchende Hypothese lautet H : Der wahre Mittelwert ist m. Das Komplement besagt, dass der wahre Mittelwert eben nicht m ist. Gem des Bedingungskomplexes kann er dann irgendeinen Wert m I annehmen P (m|H, B ) = 1 (m1 m m2 ) Vm .
Hierbei ist Vm = m2 m1 . Genauso gut knnten wir natrlich auch andere Hypothesen aufstellen und evaluieren. Wir bentigen die marginale Likelihood-Funktion P (x|H, B ) = P (x|m, , B ) = (2 2 )N/2 e 22 = (2 2 )N/2 e 22 =Ce
N2 2 (mx)2
N 1 N i=1
(xi m)2
var(x)
e 22
(mx)2
(23.3)
Die marginale Likelihood von H erhalten wir aus der Marginalisierungsregel P (x|H, B ) = C = Vm
m1
P (x|m, , B ) P (m|H, B ) dm
m2
e 22
(mx)2
dm
378
Der Einfachheit halber nehmen wir an, dass der Stichproben-Mittelwert mehrere Standard-Fehler SF = N von den Grenzwerten m entfernt ist. Das wird bei einem gut konzipierten Experiment der Fall sein, da das Experiment ansonsten keine wesentlich ber unser Vorwissen hinausgehende Information liefert. Dann gilt
C P (x|H, B ) = Vm
e 22
(mx)2
dm
C SF 2 = Vm und der Bayes-Faktor ergibt oBF = Das Endergebnis ist also B AYESSCHER Z -T EST
1 2 Vm 1 e 2 z SF 2
(23.4)
oBF =
Vm pZ (z ) SF mx z := SF
(23.5) .
Das Ergebnis ist aus mehreren Grnden uerst befriedigend Es geht nur die Wahrscheinlichkeitsdichte fr den Wert der Statistik ein, der zur Stichprobe gehrt. Es geht das Vorwissen ber den Prior-Odds ein. Es muss kein willkrlich gewhltes Signikanz-Niveau vorgegeben werden. Diese Funktion wird gewissermaen von Vm , dem Prior-Volumen bernommen. Das ist sehr befriedigend, denn es iet nun fachspezisches Wissen ein. Interessanterweise ist der Unterschied zwischen dem P -Wert (Wert der Verteilungsfunktion) und dem Wert der Wahrscheinlichkeitsdichte der z-Statistik am Messwert z0 gar nicht so gro. Wir betrachte hierzu das Verhltnis q=
z0
pz (z0 ) pz (z ) dz
379
Dieses Verhltnis bewegt sich im relevanten Bereich, das heit wenn die P -Werte zwischen 0.5 und 0.0001 liegen, zwischen 1 und 4. Der wesentliche Unterschied zwischen Wahrscheinlichkeitstheorie und orthodoxer Statistik liegt hier vielmehr im OckhamFaktor.
23.1.1
Der Ockham-Faktor
Vm SF wird O CKHAM -FAKTOR genannt. Er ist das Verhltnis der Wahrscheinlichkeitsmasse der von der Likelihood erlaubten Werte von m zu der des Priors. Dieser Faktor bestraft komplexe Modelle. Im vorliegenden Beispiel enthlt das erste Modell keine freien Parameter und ist somit weniger komplex als das zweite Modell, bei dem der Mittelwert m alle Werte aus I annehmen kann. Solange die Daten kompatibel mit dem ersten Modell sind, wird dieses favorisiert. Erst wenn das erste Modell eine zu groen Diskrepanz zu den Daten aufweist, gewinnt das zweite, komplexe Modell. Die Regeln der Wahrscheinlichkeitstheorie quantizieren eindeutig die Idee von Ockhams Razor. Wir wollen den Ockham-Faktor an einem einfachen Urnen-Beispiel diskutieren. Wir betrachten zwei Arten von Urnen (zwei Modelle). Jede Urne enthlt Kugeln, auf denen ganze Zahlen aufgedruckt sind. Die erste Urne (einfaches Modell (I)) ist wenig exibel und enthlt nur Kugeln mit den Zahlen 1 und 2, die in gleicher Hugkeit vorkommen. Die zweite Urne beschreibt ein wesentlich komplexeres Modell (II) und enthlt mit gleicher Hugkeit die Zahlen 1, 2, . . . 10. Die a-priori Wahrscheinlichkeit der beiden Modelle sei gleich. Das bedeutet, dass in der Natur beide Urnen-Arten gleich hug vorkommen. Nehmen wir an, basierend auf den beiden Modellen kommen in der Natur (Population) 20000 Ereignisse vor, N = 10000 von jedem Modell. Das Modell I liefert im Mittel 5000 mal eine eins und 5000 mal eine zwei. Das zweite Modell liefert die natrlichen Zahlen 1 10 im Mittel je 1000 mal. Die eins kommt in der Grundgesamtheit also insgesamt 6000 mal vor, davon stammen 5000 vom ersten Modell. Das heit, wenn wir eine eins messen, ist die Wahrscheinlichkeit 5000/6000 = 0.83, dass die Ursache fr die eins das Modell I ist (bzw., dass diese eins aus der Urne I stammt). Obgleich beide Modelle die eins erklren knnen, wird das Modell II bestraft, da es eine grere Vielfalt von natrlichen Zahlen erzeugt (Ockhams Razor). Das gleiche gilt fr die Zahl zwei. Beobachten wir hingegen eine drei, so muss es sich um Modell II handeln. Hier kommt dann ins Spiel, dass dieses Modell aufgrund seiner Komplexitt auch diese Zahl erklren kann, die im anderen Modell nicht vorkommt. Dieser Fall zeigt extrem die Wirkung des DatenKonstraints (Likelihood-Anteils). Zusammenfassend gilt, wenn die beobachtete Zahl in beiden Urnen vorkommt, ist die Wahrscheinlichkeit grer, dass sie aus der Urne mit der geringeren Vielfalt stammt, da mehr Kugeln mit der beobachteten Zahl von ihr im Umlauf sind als von der anderen.
Der Faktor
380
Auf die Datenanalyse bertragen, bedeutet das: wenn die Daten kompatibel mit beiden Modellen sind, ist es wahrscheinlicher, dass das weniger exible Modell das zutreffende ist, da es die beobachteten Daten huger in der Natur realisiert als das exiblere Modell, das die von ihm erzeugten Elemente der Population auf eine groe Vielfalt verteilt. Wir wollen die Idee des Ockham-Faktors noch an einem anderen Problem diskutieren. Wir betrachten wieder zwei Modelle. Das einfachere Modell besagt, alle MassenPunkte bewegen sich auf einer Geraden. Das komplexere Modell sagt aus, dass die Massen-Punkte sich in einer Ebene bewegen. Beobachtet werden Orte von Teilchen, die im Rahmen der Messgenauigkeit auf einer Geraden liegen. Natrlich kommt diese Konguration auch in der Ebene vor nur ist sie dort extrem unwahrscheinlich. Der Ockham-Faktor tritt hier und in der z-Statistik in einfacher Gestalt auf. In anspruchsvolleren Datenanalyse-Problemen kann er wesentlich komplexer in Erscheinung treten. Ockhams Razor liegt den meisten Theorie-Bildungen zugrunde, wenn auch grten Teils unbewusst und aus Mangel an der Kenntnis komplexerer mathematischer Theorien.
23.2
Stimmt der angegebene Mittelwerte bei unbekannter Varianz
Wir betrachten nun den Fall i.u.nv. Zufallsvariablen unbekannter Varianz. Als weiteres Vorwissen soll bekannt sein, dass der Mittelwerte m im Intervall I = (m1 , m2 ) liegt. Ebenso seien Obergrenze o und Untergrenze u der Varianz bekannt. Gegeben sei wieder eine Stichprobe x = {x1 , . . . , xN } vom Umfang N . Die Hypothese H besagt, dass die Stichprobe einer Normal-Verteilung mit vorgegebenem Mittelwert m entstammt. Das heit, die marginale Likelihood ist p(x|H, N, B ) = p(x|N, m, B ) = p(x|m, , N, B ) p( |m, N, B ) d .
Die Likelihood p(x|m, , N, B ) ist nun vollstndig speziziert. Wir bentigen noch den Prior fr die Varianz. Es handelt sich um eine Skalen-Variable, fr die JeffreysPrior zutrifft. Allerdings hatten wir aus physikalischen Grnden Grenzwerte o/u festgelegt. Somit lautet der normiert Jeffreys-Prior pJ ( ) = 1 1 (u o ) V V = ln (o /u ) .
(23.6)
Die Marginalisierung ber die Varianz kann nun unter Ausnutzung von Gl. (23.3)
381
durchgefhrt werden (2 ) 2 p(x|N, H, B ) = V

N
N e
u
(var(x)+(mx)2 ) d 2 2
Wir gehen der Einfachheit halber wieder davon aus2 , dass die Daten die Varianz wesentlich strker einschrnken, als die Integrationsgrenzen, so dass wir sie gegen 0 bzw. schieben knnen (2 ) 2 p(x|N, H, B ) = V (2 ) = 2 V
N N
(var(x)+(mx)2 ) d 2 2
N 2
N 2
N (var(x) + (m x)2 ) 2 (m x)2 1+ var(x)
( N ) 2 ( N ) 2 .
N 2 = (N var(x)) 2 2 V
N 2
In Anlehnung an den t-Test fhren wir die Zufalls-Variable t := ein und erhalten |m x| = SF |m x| var(x)/(N 1) (23.7)
p(x|N, H, B ) = C
t2 1+ N 1
N 2
(23.8)
Die Konstante C wird spter herausfallen. Wir wenden uns nun der alternativen Hypothese H zu. In diesem Fall ist der Mittelwert eben nicht bekannt und kann irgendeinen Wert m I annehmen. Das heit, die Prior-Verteilung ist p(m|N, H, B ) = 1 (m1 m m1 ) Vm .
Wir erinnern uns, dass p(x|N, H, B ) = p(x|N, m, B ) ist. Die marginale Likelihood erDiese Annahme ist im Rahmen der Wahrscheinlichkeitstheorie nicht notwendig. Sie macht jedoch den Vergleich mit der orthodoxen Statistik transparenter. Wenn man auf diese Nherung verzichtet, erhlt man im Endergebnis unvollstndige -Funktionen.
2
382
halten wir aus der Marginalisierungsregel. Im Fall H heit das p(x|N, H, B ) = 1 = Vm

m1
p(x|m, H, N, B ) p(m|N, H, B ) dm
m2
p(x|m, H, N, B ) dm
In p(x|m, H, N, B ) ist die Proposition H berssig, da der Wert fr m bereits explizit angegeben ist. Diese Gre hatten wir in Gl. (23.8) bereits ermittelt. Damit gilt
m2
1 p(x|N, H, B ) = C Vm
m1
(m x)2 1+ var(x)
N 2
dm
Wir schieben auch in diesem Fall die Integrationsgrenzen auf . Das ist nicht ntig, macht aber die folgende Analyse transparenter. Im anderen Fall, mssen die Integrale numerisch gelst werden. Das Integral kann nun analytisch berechnet werden
1 p(x|N, H, B ) = C Vm =C Daraus folgt der Bayes-Faktor oBF = Vm

var(x) N 1
y2 1+ var(x)
N 2
dy
1 ) var(x) ( N 2 N Vm ( 2 )
( N ) 2 1 ( N 2 )
1 (N 1)
t2 1+ N 1
N 2
B AYESSCHER t-T EST
oBF =
Vm p (t|N 1) t SF mx t= SF var(x) N 1
(23.9)
= SF
383
Das entspricht einer Student-t-Verteilung mit = N 1 Freiheitsgraden. Ein Freiheitsgrad ist mit der Integration ber m verlorengegangen. Es kommt gar nicht auf das Prior-Volumen V an. In diesem Fall knnen wir also im Limes zum uneigentlichen Prior bergehen und erhalten dennoch ein wohldeniertes Ergebnis. Wir haben wieder eine hnliche Struktur: die Wahrscheinlichkeitsdichte am Wert der zugehrigen Statistik (hier t) multipliziert mit dem Verhltnis der Volumina von Prior und Likelihood. Auch in diesem Fall liefert die Wahrscheinlichkeitstheorie mit wenig Aufwand und durch dieselbe Vorgehensweise wie in den anderen Fllen die relevante Statistik und die zugehrige Wahrscheinlichkeitsdichte. Der Unterschied zum Ergebnis der orthodoxen Statistik ist zum einen der Ockham-Faktor. Zum anderen geht hier die Wahrscheinlichkeitsdichte und nicht die Verteilungsfunktion ein. Auch in diesem Fall liegt das Verhltnis Wahrscheinlichkeitsdichte/P-Wert im Bereich 0.8 4 fr Stichproben mit Umfang grer 10.
23.3
Sind die Mittelwerte gleich?
Es werde z.B. in einem Massenspektrometer die Masse von zwei unbekannten Spezies unmittelbar hintereinander gemessen. Man wei, dass die Apparatur hug nachjustiert werden muss, so dass der Wert der Massen in beiden Fllen einen systematischen Fehler aufweisen kann. Auch verstellt sich die Messgenauigkeit im Laufe der Zeit, so dass auch die Varianz der Fehler-Statistik unbekannt ist. Jedoch sollte die Varianz in beiden Messungen dieselbe sein, da die Messung unmittelbar nacheinander durchgefhrt worden sind. Die Fehler seien Gau-verteilt. B : Daten der Stichprobe i.u.nv. mit unbekannter Varianz. H : Die zugrundeliegenden Mittelwerte sind in beiden Fllen gleich. Das heit im angefhrten Beispiel, dass die beiden Spezies dieselbe Masse haben. ( ) ( ) ( ) Die beiden Datenstze seien d() = {d1 , d2 , . . . , dL } mit jeweils L Elementen. Wir bentigen die marginale Likelihood p(d(1) , d(2) |A, B ) fr A {H, H }. Wir beginnen mit A = H . ,
23.3.1
Berechnung der marginalen Likelihood zu H
Wie zuvor, verwenden wir die Marginalisierungsregel p(d(1) , d(2) |H, B ) = p(d(1) , d(2) |m, , H, B ) p(m, |H, B ) dm d .
384
Da die Daten gem B unkorreliert sind, wird daraus
p(d(1) , d(2) |H, B ) = =
p(d(1) |m, , H, B ) p(d(2) |m, , H, B ) p(m, |H, B ) dm d 2

L 2 (1) +L(2) 2
1 2 2
L(1) i=1
di m
(1)
L(2) i=1
di m
(2)
p(m, |H, B ) dm d = (2 ) 2
L
d L p( |H, B ) dm p(m|H, B ) e
+
1 2 2 L(1) i=1
di m
(1)
L(2) i=1
di m
(2)
(23.10)
wobei L = L(1) + L(2) . Wir haben ausgenutzt, dass der Mittelwert und die Varianz logisch unabhngig sind. Wir formen nun das Argument der Exponential-Funktion um.
L(1) (1) di i=1 2 L() 2 L(2) 2
+
i=1 ( ) 2 di
di m
2 L()
(2)
=
( )
=
=1 i=1
2m
=1 i=1
di
+ L m2
= L d2 2 m d + m2 = L (d)2 + (m d)2 .
Hierbei ist d der Stichproben-Erwartungswert ungeachtet der ExperimentZuordnung. Wir setzen dieses Ergebnis in das Integral ber m in Gl. (23.10) ein. Als Prior verwenden wir mit derselben Begrndung wie zuvor den achen Prior 1 (mu m mo ) Vm
p(m|B ) =
Ebenso schieben wir die Grenzen des Integrals nach , da die Beitrge der hinzugefgten Integrationsbereiche vernachlssigbar sind, wenn die Daten aussagekrftig
385
sind. Damit erhalten wir p(m|H, B ) e
1 2 2 L(1) i=1
di m
(1)
L(2) i=1
di m
(2)
dm
L
1 L2 = e 2 Vm = 1 L2 e 2 Vm
(d)2 (d)2
dm e 22 2 2 L
(md)2
(23.11)
Dieses Ergebnis setzen wir in Gl. (23.10) ein und erhalten mit dem normierten Jeffreys-Prior fr , nachdem wir wie vorhin die Integrationsgrenzen von nach 0 bzw. geschoben haben, (2 ) 2 p(d , d |H, B ) = V Vm L
(1) (2)
1 L 2 L 1
d L2 e 2
0
(d)2
(L1)
2 (2 ) L = (d)2 2 V Vm L 2 L1 L 2 L 2 1 = ( L ) (d)2 2 2 V Vm
L1 1 ( L ) 2
1 L 2
(23.12)
23.3.2
Berechnung der marginalen Likelihood zu H
In diesem Fall sind beide Mittelwerte m unabhngig voneinander. In Analogie zu Gl. (23.10) erhalten wir p(d(1) , d(2) |H, B ) = (2 ) 2
L
d p( |H, B ) L e e
1 2 2 L(1) i=1
di m1
(1)
p(m1 |H, B ) dm1

2
1 2 2
L(2) i=1
di m2
(2)
p(m2 |H, B ) dm2
(23.13)
Die beiden Integrale ber m sind beide vom selben Typ wie Gl. (23.11). Wir mssen lediglich wahlweise L(1) oder L(2) auf Null setzen und erhalten
1 2 2 L( ) i=1
di
()
p(m , |H, B ) dm =
1 Vm
) 2 L( 2 2 e L( )
(d() )2
386
Damit wird Gl. (23.13) zu p(d(1) , d(2) |H, B ) (2 ) 2 = 2 V Vm L(1) L(2) = 2

2 L 2 L2
1 d (L2) 2 e 2
L(1) (d(1) )2 +L(2) (d(2) )2
2 V Vm
L(1) L(2)
(1)
(d(1) )2
+L
(2)
(d(2) )2
2 L 2
2 ( L ) 2
(23.14)
Das Verhltnis von Gl. (23.12) zu Gl. (23.14) liefert den Bayes-Faktor
2 L 2 2 V Vm 2 2 2 V Vm L(1) L(2)
L2 L1 L 1 L 2
oBF = = Vm
1 ( L ) 2
(d)2
L(1) (d(1) )2 + L(2) (d(2) )2

L 2 1 ( L ) 2
2 L 2
2 ( L ) 2
L(1) L(2) L 2 ( L ) 2 1
(d)2 L(1) (d(1) )2 +
1 L 2
L(2)
(d(2) )2
2 L 2
= Vm
1 ( L ) 2 L2 ( 2 )
(L 2) (d)2 + L(2)
1 L 2
L 2 L(1) L(2) L .
L L(1)
(d(1) )2
(d(2) )2
2 L 2
In weiser Voraussicht fhren wir die Abkrzung L L(1) L(2)
2 =
L(1) (d(1) )2 + L(2) (d(2) )2
(23.15)
ein. Damit vereinfacht sich der obige Ausdruck zu

1 ) Vm ( L 2 = L 2 ( 2 ) L2
1 L 2
oBF
1 (L 2)
L2 (d)2 L(1) L(2) 2
(23.16)
Wegen d2 = d2 d gilt
387
L2 (d)2 = L2 d2 L2 d =L =L
2
2 2
L(1) d(1) + L(2) d(2)

2
L(1) d(1) + L(2) d(2)

2
L(1) d(1) + L(2) d(2)

2
+L
L(1) d(1) + L(2) d(2)
L(1) d(1) + L(2) d(2)
= L(1) L(2) 2 + L(1) + L(2) L(1) d(1) + L(2) d(2)

2
L(1) d(1) + L(2) d(2)
= L(1) L(2) 2 + L(1) L(2) Damit haben wir schlielich
d(2) d(1)
L =1+ L(1) L(2) 2
(d)2
d(2) d(1) 2 .
Das setzen wir noch in Gl. (23.16) ein und erhalten oBF =
1 ) Vm ( L 2 L 2 ( 2 ) L2 2
1 (L 2)
d(2)
d(1)
1 L 2
1 +
Damit ist auch hier der Kontakt zur orthodoxen Statistik hergestellt. Es liegen = L 2 Freiheitsgrade vor. Die t-Statistik fr die Differenz zweier Stichproben-Mittelwert war 2 d(2) d(1) t2 = . 2 /(L 2) Wir identizieren = SF L2
mit dem modizierten Standard-Fehler der Differenz der Mittelwerte und erhalten schlielich oBF = Vm p (t| = L 2) T SF
formal dasselbe Ergebnis wie im vorherigen Abschnitt nur mit den entsprechend angematen Ausdrcken fr t und SF und einem Freiheitsgrad weniger, da nun zwei Integrale ber m durchgefhrt worden sind. Es sei noch erwhnt, dass / L 2 den unverzerrten Schtzwert fr den StandardFehler der Differenz der Stichproben-Mittelwerte darstellt.
388
23.4
Sind die Varianzen gleich, ungeachtet der Mittelwerte?
Gegeben seien zwei Stichproben d() vom Umfang L , = 1, 2. Die Elemente der beiden Stichproben seien i.u.nv.. Allerdings sollen die zugehrigen Mittelwert unbekannt sein. Die a-priori Wahrscheinlichkeit des Mittelwerts m sei fr beide Stichproben 1 p(m) = (mu m mo ) . (23.17) Vm Ebenso soll der mglichen Bereich der Varianzen fr beide Stichproben eingeschrnkt sein u o (23.18) Die Hypothese H , die uns hier interessiert, besagt H : Die intrinsischen Varianzen beider Stichproben sind gleich. Der Wert der intrinsischen Varianz ist allerdings nicht bekannt. Als Prior muss die Jeffreys-Verteilung Gl. (23.6) gewhlt werden. Die marginale Likelihood unter der Hypothese H lautet p(d(1) , d(2) |L1 , L2 , H, B ) . Um die Likelihood zu vervollstndigen, mssen wir ber die Marginalisierungsregel die beiden Mittelwert m1 und m2 und die gemeinsame Standardabweichung einfhren p(d(1) , d(2) |L1 , L2 , H, B ) = p(d(1) , d(2) |m1 , m2 , , L1 , L2 , H, B ) p(m1 , m2 , |B ) dm1 dm2 d = p(d(1) |m1 , , L1 , B ) p(d(2) |m2 , , L2 , B ) p(m1 |B) p(m2 |B) p( |B ) dm1 dm2 d . (23.19)
Wir nutzen nun aus, dass die Likelihood-Funktion gem Gl. (23.3) in zwei Teile faktorisiert p(d() |m , , L , B ) = (2 2 )
L 2
e 22 e 22
(m d() )2
Wir haben der bersicht halber die Abkrzung v = L var(d() ) eingefhrt. Wir knnen deshalb die Integrale ber m1 und m2 ausfhren. Wie zuvor erstrecken wir die Integrale wieder bis . Wir werden hier auch die Varianzen mit
389
einem Index versehen, da diese Unterscheidung spter bentigt wird. p(d() |m , , L , B ) p(m |B ) dm
1 v 2 2 L = (2 ) 2 e 2 Vm = 1 v 2 2 L (2 ) 2 e 2 Vm
L 1
L 2 2
(m d() )2
dm
2 L
v (2 ) 2 (L 1) 2 = e 2 Vm L
Demnach haben wir

(L 1) p(d() |m , , L , B ) p(m |B) dm = C e
v 2 2
Die Konstanten C fallen im Odds-Ratio heraus. Nun knnen wir die Integration ber in Gl. (23.19) ausfhren
p(d(1) , d(2) |L1 , L2 , H, B )

o
C1 C2 = V
u
(L1 +L2 2) e
(v1 +v2 ) 2 2
L1 +L2 2 C1 C2 L1 +L2 2 L2 2 2 2 ( L1 +2 (v1 + v2 ) 2 ) 2V
Wir haben die Integration mit derselben Begrndung wie zuvor ber (0, ) erstreckt. Die Alternative zu H lautet gem des Bedingungskomplexes, dass die beiden Varianzen unabhngig voneinander Jeffreys-verteilt sind. Die zugehrigen Integrale faktorisieren p(d(1) , d(2) |L1 , L2 , H, B )
o
C V
u
(L 1) e 22 v
1 L 2
d ( L21 ) .
C1 C2 L1 +L2 2 2 2 4V2
390
Der Bayes-Faktor lautet somit oBF = 2V v1

L 1 1 2
v2
L2 1 2
(v1 + v2 )
L1 +L2 2 2
2 2 ( L1 +L ) 2 L2 1 L1 1 ( 2 ) ( 2 )
1 = 2V L1 1 L2 1 B( 2 , 2 )
v1 v2
L1 1 2
v1 1+ v2
L 1 +L 2 +1 2
Um den Kontakt zur F -Statistik noch klarer zu machen, benutzen wir die Denition f= L2 1 L1 var(x)1 2 = 1 2 L1 1 L2 var(x)2 2 ,
die das Verhltnis der unverzerrten Schtzwerte der Varianzen darstellt. Mit der zustzlichen Abkrzung L1 1 r= L2 1 gilt
v1 v2
= rf , und somit haben wir B AYESSCHER F-T EST

L 1 +L 2 L1 1 f 1 (rf ) 2 (1 + rf ) 2 +1 L1 1 L2 1 B( 2 , 2 )
oBF = 2V f
= 2V f pF (f |1 = L1 1, 2 = L2 1)
Hier taucht auch die F -Statistik als relevante (sufcient) Statistik auf. Der OckhamFaktor sieht etwas anders als in den bisher untersuchten Fllen.
23.4.1
Beispiel: Hat sich die Messapparatur verstellt?
Eine Messapparatur habe, wenn sie optimal funktioniert, eine Gausche Fehler-Statistik mit konstanter Varianz und Mittelwert Null. Das heit, die Messwerte werden mit fester aber unbekannter Varianz um den Wert einer physikalischen Gre streuen. Es werden an zwei Substanzen Messungen durchgefhrt (Stichproben entnommen) mit jeweils L = 20 Messwerten. Man mchte neben der Analyse der physikalischen Fragestellung zudem wissen, ob die Apparatur noch optimal funktioniert, d.h. in beiden Fllen dieselbe Varianz vorliegt. Die Erfahrung im Umgang mit der Messapparatur besagt, dass sie, wenn sie auer Kontrolle gert,
391
Standardabweichungen mit o /u = 100 liefern kann. D.h. V = ln( o ) = 4.605 u .
Ebenso wissen wir aus langjhriger Erfahrung mit der Apparatur, dass die AusfallWahrscheinlichkeit ca.1% betrgt oP = Das Odds-Ratio ist somit o = 99 2 4.6 f pF (f |L1 1, L2 1) = 911.8 f pF (f |L1 1, L2 1) . P (H |B ) 0.99 = = 99 0.01 P (H |B ) .
Das Ergebnis der Experimente soll sein 1 = 4.4 und 2 = 2.5. Daraus ergibt sich f= Der P -Wert ergibt sich aus P = 1 FF (3.1|1 = 19, 2 = 19) = 0.0088. Das heit, die Hypothese ist bei den blichen Signikanz-Niveaus (1%, 5%) zu verwerfen. Der F-Test besagt, die Abweichungen des F -Werte von eins sind signikant, die Apparatur hat sich verstellt. Die wahrscheinlichkeitstheoretische Analyse ergibt hingegen o = 911.8 3.1 pF (3.1|1 = 19, 2 = 19) = 911.8 3.1 0.015 = 43.5 Daraus resultiert P (H |D, B ) = .
4 .4 2 2 .5
= 3.1
o = 0.978 . 1+o Diese Wahrscheinlichkeit ist so nahe an eins, dass man davon ausgehen kann, dass die Apparatur noch einwandfrei funktioniert.
392
Kapitel 24 Modell-Vergleich
Gegeben sind zwei oder mehrere Modelle M , die zu vergleichen sind. Der Bedingungskomplex beinhaltet jegliche Information ber die Art und Denition des zu untersuchenden wissenschaftlichen Problems, das durch die Modelle beschrieben werden soll. Damit sind auch die Prior-Wahrscheinlichkeiten P (M |B) speziziert. Der Bedingungskomplex deniert Wahrscheinlichkeitsraum, Borel-Krper, Prior-Wahrscheinlichkeiten und Grundgesamtheit. Ein Polynom niedrigen Grades mag gut sein zur Beschreibung von Trajektorien aber vllig ausgeschlossen sein, wenn Zeitreihen periodischer Prozesse analysiert werden. Im Gegensatz zu herkmmlichen statistischen Methoden erlaubt es die Wahrscheinlichkeitstheorie, diese essentiellen Zusatzinformationen explizit und konsistent zu bercksichtigen. Wie beim Hypothesen-Vergleich, die Unterschiede sind sehr gering, betrachten wir das Odds-Ratio o21 = p(D|M2 , B ) P (M2 |B ) P (M2 |D, B ) = P (M1 |D, B ) p(D|M1 , B ) P (M1 |B ) .
Wir haben wieder den Bayes-Faktor und den Prior-Odds-Faktor. Wenn es mehr als zwei Modelle gibt, berechnen sich die Wahrscheinlichkeiten etwas anders. Angenommen, es gbe L alternative Modelle und wir haben alle oi1 (i = 2, 3, . . . , L) berechnet. Aus der Normierung folgt
L
1=
i=1
P (Mi |D, B )
L
= P (M1 |D, B ) +
i=2
oi1 P (M1 |D, B )

L
= P (M1 |D, B ) Daraus folgt P (M1 |D, B ) =
1+
i=2
oi1
1 1+
L i=2
oi1
(24.1)
393
Gemessen werden die Gren d RNd . Das knnen mehr-dimensionale Objekte sein. Die Steuergren seien s RNs . Zudem werden die Modelle von Parametern x Rn abhngen, deren Anzahl wiederum vom jeweiligen Modell abhngen wird. Man will z.B. testen, ob die Daten durch eine Gerade oder eine Parabel zu beschreiben sind. Es besteht die Beziehung d = f (s|x) + . (24.2) Die Gre RNd ist der Messfehler. Die Wahrscheinlichkeitstheorie erlaubt die Behandlung beliebiger Fehler-Verteilungen. In Anlehnung an weit verbreitete Verfahren der orthodoxen Statistik gehen wir davon aus, dass die Fehler i.u.nv. sind. Es werde eine Stichprobe d = {d1 , . . . , dN } vom Umfang N zu den Steuergren s = {s1 , . . . , sN } ermittelt. Die marginale Likelihood-Funktion, die in die Bayes-Faktoren eingeht, ist somit . p(d|s, M , B ) Damit die Ausdrcke bersichtlich bleiben, haben wir die Gren N , Nd , Ns , n mit in den Bedingungskomplex aufgenommen, da sie sich whrend der gesamten Rechnung ohnehin nicht ndern. Wir mssen nun unterscheiden, ob die Fehler-Varianz durch das Experiment gegeben ist, oder nicht. Wir behandeln hier nur den Fall bekannter Varianzen.
24.1
Bekannte Varianzen
p(d|, s, M , B ) .
Wir fangen damit an, dass auch bekannt ist. Die marginale Likelihood lautet dann
Um die marginale Likelihood berechnen zu knnen, bentigen wir die noch nicht spezizierten Modell-Parameter x, die wir ber die Marginalisierungsregel einfhren p(d|, s, M , B ) = = p(d|x, , s, M , B ) p(x|, s, M , B ) dx p(d|x, , s, B ) p(x|M , B ) dx .
In einigen Problemen lassen sich diese Integrale exakt analytisch lsen. Wir wollen hier alternativ eine weitverbreitete Nherungsmethode vorstellen.
24.1.1
Steepest Descent Nherung
Hierzu schreiben wir den Integranden um in p(d|x, , s, M , B ) p(x|, s, M , B ) = e(x) . (24.3)
394
Dieser Ansatz ist exakt und naheliegend, da Likelihood-Funktionen hug exponentielle Funktionen sind. Wir stellen fest, dass der Integrand p(d|x, , s, M , B ) p(x|, s, M , B ) = p(x, d|, s, M , B ) = p(x|d, , s, M , B ) p(d, |, s, M , B ) was die x-Abhngigkeit angeht, proportional zur A-Posteriori-Wahrscheinlichkeit p(x|d, , s, M , B ) ist. Wir maximieren zunchst die A-Posteriori-Wahrscheinlichkeit bzgl. x und erhalten so die MAP-Lsung xMAP . Nun entwickeln wir die Funktion (x) um das Maximum bis zu quadratischen Termen (x) MAP + 1 xT H x 2 . (24.4)
x = x xMAP 2 (x) = Hij xi xj x=xMAP
Die Matrix H ist die Hesse-Matrix, die sowohl in der Dimension, als auch in der MAP-Lsung vom Modell abhngt. Die Prior-Wahrscheinlichkeit beinhaltet i.d.R. noch Schranken fr die erlaubten Parameter. In der Steepest-Descent-Nherung setzt man voraus, dass die A-Posteriori-Wahrscheinlichkeit an den Schranken bereits so vernachlssigbar klein ist, so dass man die verbleibenden Integrale ber den gesamten Rn erstrecken kann. Somit lautet die gesuchte Likelihood p(d|, s, M , B ) = p(d|xMAP , , s, B ) p(xMAP |M , B ) e 2 x
n 2 1 T H x
dx . (24.5)
= p(d|xMAP , , s, B ) p(xMAP |M , B ) (2 )
|H | 2
Wir knnen nun das Odds-Ratio der Modelle 1,2 angeben o21 = p(d|xMAP , , s, B ) p(xMAP |M2 , B ) (2 ) 2 2 p(d|xMAP , , s, B ) p(xMAP |M1 , B ) (2 ) 1 1
n2 2 n1 2
|H 2 |
1 2
1 |H 1 | 2
P (M2 |B ) P (M1 |B )
Fr eine qualitative Diskussion ist es sinnvoll, einen achen Prior anzunehmen. Die MAP-Lsung geht dann ber in die Maximum-Likelihood (ML) Lsung. In diesem Fall ist 1 p(xMAP |M , B ) = P V
395
gleich dem inversen Prior-Volumen. Das ist der Bereich im Parameter-Raum, den der Prior zulsst. Dieses Volumen wird bei komplexen Modellen grer sein als bei einfachen Modellen. Auerdem kann man (2 )
n 2
L |H | 2 = V
als effektives Volumen betrachten, das von der Likelihood erlaubt ist. Das sieht man folgendermaen (2 )
n 2
|H | 2 =
e 2 x
T H x
dx =
L V
dx
Damit ist das Odds-Ratio o21 =

L P p(d|xML 2 , , s, B ) V2 V1 P (M2 |B ) P L p(d|xML 1 , , s, B ) V2 V1 P (M1 |B )
(24.6)
Es besteht aus dem Verhltnis der Likelihood-Funktionen am ML-Wert, dem Ockham-Faktor und dem Prior-Odds. Der Ockham-Faktor gibt das Verhltnis der Volumina von Likelihood zu Prior der beiden Modelle an. Es sei LP das effektive Intervall des Priors, so dass P = (LP )n . V Analog fhren wir fr die Likelihood-Funktion eine effektive Lnge LL ein, mit der
L V = (LL )n
gilt. Dann wird der Ockham-Faktor zu oOckham = LL LP

n2 n1
.
L
L Der Daten-Konstraint wird immer dafr sorgen, dass L 1. Wir whlen das Modell P zwei als das komplexere, d.h. dasjenige mit mehr Freiheitsgraden n2 > n1 . Dann ist offensichtlich, dass der Ockham-Faktor Komplexitt bestraft. Das gleiche ist zu beobachten, wenn das komplexere Modell zwar dieselbe Zahl an Freiheitsgraden besitzt, aber der Prior ein greres Volumen erlaubt V2P > V1P . Soweit haben wir die anfangs gemachte Annahme, dass die Daten i.u.nv. sind berhaupt nicht benutzt. Bisher war alles allgemein. Wir wollen nun ausnutzen, dass die Daten di i.u.nv. um den wahren Wert
yi = f (si |x) streuen. Weiterhin gehen wir von schwachen Prior-Verteilungen aus, so dass Gl. (24.6) gltig bleibt. Die Likelihood wird dann zu
p(d|xML , , s, B ) = (2 ) Nd
Nd 2
Nd e 22
2
v =
i=1
di f (si |xML )
(24.7)
396
Wenn wir das in das Odds-Ratio einsetzen erhalten wir o21 = e
(v2 v1 ) 2 2 /N
V2L V1P P (M2 |B ) V2P V1L P (M1 |B)
Im vorliegenden Fall, wo die Likelihood eine Normal-Verteilung und der Prior vergleichsweise ach ist, ist die Steepest-Descent-Nherung keine Nherung, sondern exakt.
397
398
Teil VI Literatur
399
Literatur
1. Devinder S. Sivia: D ATA A NALYSIS : A B AYESIAN T UTORIAL, Oxford Science Publications (1998). 2. Dieter Wickmann: B AYES -S TATISTIK,B.I. heim/Wien/Zrich (1990). Wissenschaftsverlag,
AND
Mann-
3. B. Roy Frieden: P ROBABILITY, S TATISTICAL O PTICS , Springer-Verlag (1991).
D ATA T ESTING,
4. Herbert Meschkowski: WAHRSCHEINLICHKEITSTHEORIE, B.I. Hochschultaschenbcher, Mannheim/Wien/Zrich (1968). 5. Athanasios Papoulis P ROBABILITY, R ANDOM VARIABLES , P ROCESSES, McGraw-Hill (1984).
AND
S TOCHASTIC
6. Siegmund Brandt: D ATENANALYSE, Spektrum Akademischer Verlag, Heidelberg/Berlin (1999). 7. John P. Taylor: A N I NTRODUCTION Books, Sausolito (1997).
TO
E RROR A NALYSIS, University Science
8. Brian Buck and Vincent A, Macaulay: M AXIMUM E NTROPY IN A CTION, Oxford Science Publications (1991). 9. J.N. Kapur and H.K. Kesavan E NTROPY O PTIMIZATION P RINCIPLES PLICATIONS , Academic Press (1992). 10. Darrell Huff H OW TO L IE York/ London, (1993)
WITH WITH
AP-
S TATISTICS, W.W. Norton & Company, New
11. David Freedman, Robert Pisani, Roger Purves S TATISTICS, W.W. Norton & Company, New York (1998). 12. Myron Tribus R ATIONAL D ESCRIPTIONS , D ECISIONS , mon Press, (1969). 13. Norman T.J. Bailey T HE E LEMENTS Sons, (1990).
OF AND
D ESIGNS, Perga-
S TOCHASTIC P ROCESSES, John Wiley&
401
14. William Feller A N I NTRODUCTION TO P ROBABILITY T HEORY CATIONS I/II, John Wiley& Sons, (1957).
AND ITS
A PPLI -
15. A.OHagan: K ANDALL S ADVANCED THEORY OF STATISTICS 2 B , B AYESIAN I N FERENCE , Halsted Press (1994). 16. W.T. Grandy,jr N EW F OUNDATION OF S TATISTICAL M ECHANICS I/II, D.Reidel Publishing Company, Member of Kluwer Academic Publishers. 17. E.T. Jaynes Probability Theory: The Logic of Science, Bayes.wustl.edu, dir: pub/jaynes.book
402

Wahrscheinlichkeitstheorie, Statistik Und Datenanalyse

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wahrscheinlichkeitstheorie, Statistik Und Datenanalyse

Uploaded by

Copyright:

Available Formats

Wahrscheinlichkeitstheorie, Statistik und Datenanalyse

149 . . . 149 . . . . . . . . . . . . . . . . . . . . . 149 150 150 155 161 162 164

. . . 166 167 167 171 171 172

181 182 183 183 186 187 189

Zuweisen von Wahrscheinlichkeiten

19 Entscheidungstheorie 263 19.1 Elemente der Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . 263

WAHRSCHEINLICHKEITSTHEORIE , S TATISTIK UND D ATENANALYSE

T HERE ARE THREE LIES :

LIES , DAMNED LIES AND STATISTICS .

Kapitel 1 Statistische und klassische Denition von Wahrscheinlichkeit

Beispiel: Wahrscheinlichkeit fr Herz in einem Skat-Spiel ist P =

Abbildung 1.2: Skizze 2 zum Bertrand-Paradoxon.

Abbildung 1.3: Skizze 3 zum Bertrand-Paradoxon.

x (x, x + dx) als P (x (x, x + dx)) = dx = px (x)dx 1

Kapitel 2 Denition von Mittelwert, Momenten und marginaler Verteilung

Verteilungen einer diskreten Zufallsvariablen

( f (n) + g (n)) Pn f (n) Pn +

e) Fr eine Funktion Y = f (X ) einer Zufallsvariablen ergibt sich f (X ) =

M OMENT EINER Z UFALLSVARIABLEN . (2.6)

S TICHPROBE VOM U MFANG N . (2.10)

Verteilungen mehrerer diskreter Zufallsvariablen

V ERTEILUNG ODER R ANDVERTEILUNG

f (n1 , . . . , nN ) Pn1 ,...,nN

i1 ,i2 ,...,iN := (n1 n1 )i1 (n2 n2 )i2 (nN nN )iN

Pn1 ,n2 ,...,nN =

Kapitel 3 Einfhrung in die Kombinatorik

(a1 , b1 ) (a1 , b2 ) (a1 , b3 ) (a2 , b1 ) (a2 , b2 ) (a2 , b3 )

mit Zurcklegen (3.3a) n! (n r)!

oz Nop = n(n 1)(n 2) (n r + 1) =

ohne Zurcklegen (3.3b)

Es gibt verschiedene interessante Interpretationen dieses Ergebnisses:

3.3 Unterpopulationen und Partitionierungen

Z AHL DER U NTERPOPULATIONEN DER G RSSE r EINER P OPULATION DER G RSSE n

n n! = r r!(n r)! n+r1 r

ohne Zurcklegen mit Zurcklegen

(3.8a) (3.8b) (3.8c)

(n 1)! p pr1 (1 p)(n1)(r1) (r 1)! ((n 1) (r 1))! (n 1)! pk (1 p)(n1)k k ! ((n 1) k )!

(3.11a) (3.11b) (3.11c) (3.11d)

ni = n pi var(ni ) = n pi (1 pi ) cov(ni , nj ) = n pi (ij pj )

Trick, der in der Wahrscheinlichkeitsrechnung oft verwendet wird.

(p1 + p2 + . . . + pk )n pi = pi n (p1 + p2 + . . . + pk )n1

= n pi Analog verfhrt man fr ni nj :

3.3.1 Vollstndige Paarungen einer Population

= 1 3 5 . . . (2m 1) = (2m 1)!!

PAARUNGEN VON N = 2m E LEMENTEN (3.12)

3.3.2 Beispiel: der Random-Walk

Beispiel: Korrektur bei der Informationsbertragung

P (Bit korrekt, m|p, n) P (Bit korrekt|m, p, n) P (m|p, n)

P (Bit korrekt, m|p, n) =

n(p 1/2) np(1 p)

Anwendung auf Besetzungszahl-Probleme

(3.17a) (3.17b) (3.17c) . (3.17d)

1 1 (1 ) k k 1 1 cov(ni , nj ) = N (ij ) k k var(ni ) = N

Fr Bosonen hingegen ist die Wahrscheinlichkeit P =3 2!5! 32 1 = = 7! 67 7 .

Fr Fermionen erhalten wir schlielich P =3 2!4! 23 1 = = 6! 56 5 .

Dieses Beispiele verdeutlichen noch einmal die Problematik der Gleichwahrscheinlichkeit.

Geometrische und hypergeometrische Verteilung

3.5.1 Fragestellung 1 ohne Zurcklegen

Fragestellung 1 mit Zurcklegen

(3.19a) (3.19b) . (3.19c)

Fragestellung 2 ohne Zurcklegen

P (kI |k = kI + kII , nI , nII ) = kI =

Beweis: Laut Bronstein gilt 0 k + 1 + ... + k1 k 0 = + k ,