Professional Documents
Culture Documents
Manfred Nermuth
Sommersemester 2004
Beispiele fr Matrixspiele
Gefangenen-Dilemma
D-Strategie dominiert
i=2
C
D
C -1, -1
-100, 0
i=1
D 0, -100 -20, -20
Chicken Game
i=2
C
D
C 3, 3 2, 4
i=1
D 4, 2 1, 1
Matching Pennies
i=1
i=2
T
B
T 1, -1 -1, 1
B -1, 1 1, -1
T top
B bottom
kein Gleichgewicht : wenn andere wei, was ich tue, verliere ich
nur durch zufllige Wahl Gewinnmglichkeit
er
sie
K
B
K 1, -1 -1, 1
B -1, 1 1, -1
Beispiele fr Differentialspiele
Lady in the Lake
um zu entkommen muss sie in einer Spirale gegen das Ufer
schwimmen und ab einem bestimmten Punkt gerade.
Homicidal Chauffeur
man muss im richtigen Augenblick zur Seite hpfen. Das Auto kann
nicht beliebig scharfe Kurven fahren
-1-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
I = {1, 2, ..., n}
Strategiekombinationen / Strategieprofile
i=1
ABLAUF: Spieler whlen Strategien gleichzeitig (i whlt ein si Si ohne zu wissen, was die anderen
tun) .... Ergebnis (outcome) resultiert - Spieler haben Nutzen davon - dieser hngt letztlich von
der gewhlten Strategie s1, ..., sn ab (weil die Strategie das Ergebnis determiniert) daher ui = ui(s1, ..., sn)
NOTATION (Spieler i hervorheben)
s-i = (s1, s2, ..., si-1, si+1, , sn)
s-i S-i
1.2. Dominante Strategie
Def.: Seien si, si zwei mgliche Strategien von Spieler i.
Strategie si wird strikt dominiert von si, wenn si immer besser ist fr Spieler i als si, egal was
die anderen tun, d.h. wenn gilt:
ui(si, s-i) < ui(si, s-i)
Ein rationaler Spieler wird nie eine strickt dominierte Strategie spielen.
-2-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Beispiel
i=1
i=2
C
1, 2
0, 1
L
T 1, 0
B 0, 3
Notation:
I = {1, 2}
S1 = {T, B}
S2 = {L, C, R}
u1(s) = u1(T, L) = 1
z.B. s = (T, L)
u2(s) = u2(T, L) = 0
s = (B, C)
u1(s) = u1(B, C) = 0
u2(s) = u2(B, C) = 1
i=1
S-1 = S2
i=1
L
T 1, 0
B 0, 3
i=2
C
1, 2
0, 1
R
0, 1
8, 0
danach:
i = 1 B strikt dominiert von T eliminiere B
i=1
L
T 1, 0
B 0, 3
i=2
C
1, 2
0, 1
R
0, 1
8, 0
danach:
i = 2 L strikt dominiert von C eliminiere L
i=1
L
T 1, 0
B 0, 3
i=2
C
1, 2
0, 1
R
0, 1
8, 0
L
0, 4
4, 0
3, 5
C
4, 0
0, 4
3, 5
R
5, 3
5, 3
6, 6
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
1.3. NASH-Gleichgewicht
Def.: Sei si = (s1, ..., si1, si+1, ..., sn ) Si eine Strategienkombination der anderen. Eine Strategie
si Si von Spieler i heit beste Antwort (best response/reply) von Spieler i auf si , wenn gilt:
si Si
d.h. gegeben si maximiert Spieler i seinen payoff durch Wahl von si:
ui (si ', si ) = max ui (si , si )
si Si
i=1
i=2
L
C
R
T 4, 7 -1, 7 0, 0
B 3, 2 0, 0 4, 1
sei i = 1, s1 = L
sei i = 2, s2 = T
beste-Antwort-Korrespondenz
si Si
sei s = (s1, ..., sn) kein Gleichgewicht, d.h. mindestens ein Spieler i, dessen
Strategie si nicht beste Antwort auf s-i ist. Dieser knnte sich verbessern durch
abweichen zu einer anderen Strategie si mit ui(si, s-i) > ui(s) i wird abweichen
s nicht stabil
-4-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Beispiel
Fig. 1.1.4
Fr jeden Spieler i und jede Strategie unterstreiche die beste Antwort
des Gegners. Wenn in einem Kstchen zwei Striche sind, ist es ein
NASH-Gleichgewicht
T
M
B
L
0, 4
4, 0
3, 5
C
4, 0
0, 4
3, 5
R
5, 3
5, 3
6, 6
s* = (B, R)
3 Probleme:
1. Ineffizienz (Bsp. Gefangenen-Dilemma)
2. nicht Eindeutigkeit (Bsp. Battle of the Sexes)
3. nicht Existenz (Bsp. Matching Pennies)
Beispiel:
G = Mathing Pennies
I = {1, 2}
S1 = {K, A} = S2
i=2
T
B
T 1, -1 -1, 1
i=1
B -1, 1 1, -1
(= Nullsummenspiel
zero sum ame)
u1(KK) = u1(AA) = 1
u1(KA) = u2(AK) = -1
u2(s) = -u1(s)
sS
1(K) s 0
1(A) s 0
1(K) + 1(A) = 1
1 ist eine Wahrscheinlichkeitsverteilung auf S1 = {K, A}
1 1
z.B.: 1 = ,
2 2
1 2
1 = ,
3 3
1 = (0, 1)
analog: 2(K) ist die Wahrscheinlichkeit, dass i = 2 K spielt
-5-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Allgemein: eine gemischte Strategie i von Spieler i ist eine Wahrscheinlichkeitsverteilung auf der
Menge Si seiner reinen Strategien
(jede reine Strategie si kann auch als gemischte Strategie aufgefasst werden: spielt si mit
Wahrscheinlichkeit 1)
es sei i die Menge aller gemischten Strategien von Spieler i
sei eine Kombination von gemischten Strategien = (1, 2) gegeben, und die Spieler whlen ihre
reinen Strategien zufllig gem i unabhngig voneinander, dann gilt:
die reine Strategienkombination s = KK tritt mit der Wahrscheinlichkeit 1(K) . 2(K) ein
die reine Strategienkombination s = KA tritt mit der Wahrscheinlichkeit 1(K) . 2(A) ein
wenn s = KK eintritt, ist der payoff von i = 1: u1(KK) = 1
wenn s = KA eintritt, ist der payoff von i = 1: u1(KA) = -1
der erwartete payoff v1 von Spieler 1 bei gemischter Strategienkombination = (1, 2) ist:
v1() = v1(1, 2) =
s =(s1,s2 )S
analog: i = 2
z.B.: = (1, 2)
1 1
1 = ,
2 2
1 1
2 = ,
2 2
v1() =
1
1
1
1
1+
(-1) +
(-1) +
1=0
4
4
4
4
v1() =
1
1
2
2
1+
(-1) +
(-1) +
1=0
6
6
6
6
v1() =
1
1
1+
(-1) + 0 (-1) + 0 1 = 0
2
2
z.B.: = (1, 2)
1 2
1 = ,
3 3
1 1
2 = ,
2 2
z.B.: = (1, 2)
1 = (1, 0 )
1 1
2 = ,
2 2
1 1
Ergebnis: wenn i = 2 die gemischte Strategie mit 2 = , spielt, dann sind die reinen Strategien
2 2
s1 = K und s1 = A beide beste Antwort von Spieler 1 auf 2 und jede Mischung 1 von K
und A ist auch beste Antwort auf 2.
-6-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
1 1
1 1
Insbesondere ist 1* = , beste Antwort auf 2* = , . Nach einer
2
2
2 2
1 1
1 1
symmetrischen berlegung ist auch 2* = , beste Antwort auf 1* = , . Das
2
2
2 2
Paar * = (1*, 2*) heit NASH-Gleichgewicht in gemischten Strategien vom Spiel G.
NOTATION:
sei Z eine endliche Menge
|Z| = #Z
p(Z) = 1
zZ
pi = p(zi)
p = (p1, p2)
2
= {(q, 1 - q | 0 c q c 1}
(Z)
p2
p1
p1
pi = p(zi)
|Z| = 3
p = (p1, p2, p3)
3
p3
1
(Z)
1
p2
(simplex)
p1
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
sei
I = {1, ..., n}
Si endliche Menge fr alle i I
G = {I, (Si), (ui)} allgemeines endliches n-Personenspiel
def.: i = Si Menge der gemischten Strategien von i
i i von der Form: i = (i(si))
si Si
1 1 1
i = , ,
2 3 6
fr si = b : i(b) =
n
= (1, ..., n) = i
i=1
1
3
Wenn jeder Spieler i = 1, ..., n seine reine Strategie si zufllig gem der
Wahrscheinlichkeitsverteilung i whlt und die Spieler dies unabhngig voneinander tun, dann ist die
n
vi(1, ..., n) =
ui (s1, ..., sn ) j (s j )
(s1,...,sn )S
j=1
-8-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Def.: ein NASH-Gleichgewicht * = (1*, ..., n*) von Ggem heit ein Gleichgewicht in gemischten
Strategien von G.
Klar: * = (1*, ..., n*) ist ein Gleichgewicht, wenn fr i I gilt:
vi(*) s vi(i, -i*)
i i
1* = (1*(s1a), 1*(s1b), ..., 1*(s1l)) wo 1*(s1a) s 0 die Wahrscheinlichkeit, dass s1a gewhlt wird, ist
erwarteter payoff:
v1(*) = v1(1*, -1*) = 1*(s1a) . v1(s1a, -1*) + 1*(s1b) . v1(s1b, -1*) + ... + 1*(s1l) . v1(s1a, -1l)
sei * ein Gleichgewicht in gemischten Strategien:
wenn i* (si ) > 0 (Spieler i spielt si Si mit positiver Wahrscheinlichkeit), dann ist diese Strategie si
beste Antwort auf -1*; wenn mehrere reine Strategien si , si Si mit positiver Wahrscheinlichkeit
gespielt werden (d.h. i* (si ) > 0, i* (si ) > 0), dann mssen sie alle den gleichen (maximalen)
erwarteten payoff gegen -i* geben. Deswegen ist Spieler i dann auch bereit zu randomisieren.
i=2
K
A
K 1, -1 -1, 1
A -1, 1 1, -1
i=1
1(K) = r
1(A) = 1 - r
0crc1
2(K) = q
2(A) = 1 - q
0cqc1
Gleichgewicht
1
2
-9-
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
stetige Funktion
kompakte
linear in i
Menge
quasi konkav in i
zwei Spieler
Ablauf:
-
T
i=2
M
i=1
B
(5, 3)
u1(T, L) = 5
C (0, 8)
u2(T, L) = 3
(4, 7)
(0, 0)
L
C (1, -1)
R
(100, 7)
(3, 10)
C (8, 11)
i=2
R
u2(B, R) = 0
(2, 0)
Spielbaum
game tree
allg.: Menge der Aktionen von Spieler 2 hngt von a1 ab
- 10 -
A2 = A2(a1)
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
C
R
L
C
i=1
M i=2
B
i=2
L
i=1
(1, 1)
R
i=2
R
i=1
(0, 3)
(2, 0)
Allgemein:
n Spieler, jeder kann fter ziehen
die extensive Form eines Spiels gibt an:
1. die Spieler
2.a. wann jeder Spieler am Zug ist
2.b. was er tun kann, wenn er am Zug ist (Menge der mglichen Zge)
2.c. was er wei, wenn er am Zug ist (Informationsmenge)
3.
Auszahlungen
i=1
A1
R1
L3
0
0
0
2
M3
R2
i = 2 E2
i = 1 C1
l1
r1
0
1
0
0
R3
i=2
F2
B2
L2
i=3
D3
1
0
0
2
l2
2
1
0
1
m2
8
4
3
5
7
2
10
5
r2
0
0
0
0
- 11 -
a2
b2
G4 i = 4
0
0
0
0
L4
2
1
1
0
R4
0
9
8
0
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Knoten (nodes):
Entscheidungsknoten: Xi Knoten, wo i am Zug ist
Enknoten: payoffs
Zweige: die von einem Knoten ausgehenden Zweige, beschreiben die mglichen Zge
Def.: eine Strategie fr Spieler i ist ein vollstndiger Plan fr das Spiel, d.h. die Strategie gibt fr
jeden Entscheidungsknoten Xi an, welchen Zug er whlt.
Def.: ein Teilspiel beginnt bei einem Knoten und enthlt alles Folgende. (das ganze Spiel ist auch ein
Teilspiel von sich selbst.)
Wenn jeder Spieler i eine Strategie (d.h. einen Plan) gewhlt hat, ist der Pfad durch den Spielbaum
eindeutig bestimmt sind die payoffs im ganzen Spiel (und auch in jedem Teilspiel) bestimmt.
z.B.
s1 = (R1, r1)
Beispiel: G3
i=1
A.1
L1
i=2
i=1
x1
1
2
C.2 i = 2
B.2
L2
R2
D.1
y1
R1
r2
l2
5 7
6 8
3
4
E.1
z1
9
10
- 12 -
i=1
w1
11
12
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Strategien von i = 1:
A.1 D.1 E.1
L1
x1
z1
R1
y1
w1
23 = 8 Strategien
Strategien von i = 2:
S2 = {L2l2, L2r2, R2l2, R2r2}
Normalform von G3:
i=2
i=1
(u1, u2)
L2l2
L2r2
R2l2
R2r2
L1x1z1
1, 2
1, 2
5, 6
5, 6
L1x1w1
1, 2
1, 2
5, 6
5, 6
L1y1z1
3, 4
3, 4
5, 6
5, 6
L1y1w1
3, 4
3, 4
5, 6
5, 6
R1x1z1
7, 8
9, 10
7, 8
9, 10
R1x1w1
7, 8
11, 12 *
7, 8
11, 12 *
R1y1z1
7, 8
9, 10
7, 8
9, 10
R1y1w1
7, 8
11, 12 *
7, 8
11, 12 *
u1(s*) = 11
u2(s*) = 12
Beispiel: G4
l
i=2
L
i=1
(0, 0)
B.2
r
A.1
R
(10, 8)
(5, 20)
S2 = {l, r}
i=2
i=1
L
R
l
0, 0
5, 20 *
r
10, 8 **
5, 20
2 Gleichgewicht:
s** = Lr mit payoffs 10, 8
s* = Rl mit payoffs 5, 20
- 13 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
ist teilspiel-perfekt!
b
Y.2
i=2
Z.2
z
c
i=2
v
0
0
S1
S2
1 1
0 1
i = 1 E.1
i = 2 V.2
3
3
i = 2 U.2
2
3
2
4
7 1
8 1
i = 1 D.1
i = 2 W.2
X.2
i = 1 C.1
i=1
B.1
d
i=2
1
2
0
2
A.1
B.1
C.1
D.1
E.1
z.B. s1 = acfgj
Z.2
Y.2
X.2
W.2
V.2
U.2
T.2
S.2
- 14 -
4
i = 2 T.2
3
m
i = 2 S.2
l
2 10
0 11
1
4
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
NASH-Gleichgewicht:
s1* = bdehj
s2* = ywvsqonl
s2* = ywusqonl
=> 2 NASH-Gleichgewichte:
s* = (bdehj, ywvsqonl)
s* = (bdehj, ywusqonl)
1
0
0
10
9
20
20
19
10
9
30
29
19
30
30
i = 1 spielt gleich a, obwohl mit Kooperation mglich gewesen wre
29
Auszahlungen
aber in 2.c., wenn ein Spieler am Zug ist, kennt er nicht unbedingt die ganze Vorgeschichte
Beispiel
i I = {1, 2}
a1 {L, M, R}
i = 2 kann nur beobachten, ob R gewhlt wurde oder nicht (d.h. wenn nicht, wei er nur, dass
a1 = L oder a1 = M)
wenn a1 = R, dann whlt i = 2: a2 {T, C, B}
wenn a1 {L, M}, dann whlt i = 2: a2 {t, b}
- 15 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
I1
i=1
A.1
L
B.2
i=2
0
10
I2
C.2
10
0
I2
D.2
b
0
8
8
1
i=2
B
0
0
1
1
2
7
i = 1 kann die Knoten B.2 und C.2 nicht unterscheiden (verbunden durch
A2(I2) = {t, b}
A2(I2) = {T, M, B}
klar: Jeder Knoten (auer Endknoten) liegt in genauer einer Informationsmenge irgendeines Spielers
Def.: ein Spiel hat unvollkommene (imperfect) Information, wenn mindestens eine Informationsmenge
eines Spielers mehr als einen Knoten enthlt.
ein Spiel hat vollkommene (perfect) Information, wenn alle Informationsmengen aller Spieler
1-elementig sind. [singletons = Menge mit einem Element]
I1
I2
i=2
I3
D.3
1
2
3
i=1
A.1
B.2
C.2
r
E.3
i=3
b
3
2
1
1
3
2
I2
i=2
I3
i
=
3
G.3
F.3
b
2
3
1
0
0
0
3
3
0
- 16 -
1
0
0
7
4
0
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
A1(I1) = {L, R}
i = 2: I2 = {B.2}, I2 = {C.2}
C1
D1
i=1
i=2
C2
D2
-1, -1
-100, 0
0, -100 -20, -20
I1
i=1
A.1
I1 = {A.1}
I2 = {B.2, C.2}
I2
i=2
B.2
C
1
1
C.2
C
100 0
0 100
20
20
Def.: eine (reine) Strategie fr Spieler i ist ein vollstndiger Plan, der fr jede Informationsmenge von
Spieler i einen Zug vorsieht.
Si Menge aller solchen Plne
wenn jeder Spieler i eine Strategie si Si gewhlt hat, ist der Pfad durch den Spielbaum, damit
die Endknoten (outcome), damit die payoffs determiniert.
n
=> ui(s1, ..., sn) ... is payoff bei Strategiekombinationen s = (s1, ..., sn) S = S j
j=1
=> Normalform des Spiels (ist ein Spiel in strategischer Form): G = {I, (Si), (ui)}
- 17 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
I1
I2
i=2
C.2
r
3
2
1
1
2
3
I2
i=2
l
E.3
i=3
B.2
I3
D.3
i=1
A.1
1
3
2
F.3
b
2
3
1
G.3
b
3
3
0
0
0
0
I3
i=3
1
0
0
7
4
0
1 2 3
4
,
,
3 = ,
10 10 10 10
4
1
5
+
=
10 10 10
2
3
5
+
=
10 10 10
4
2
6
+
=
10 10 10
1
3
4
+
=
10 10 10
Ergebnis: eine gemischte Strategie 3, bei der Spieler i = 3 einen ganzen Plan zu fllig whlt
(z.B. s3 = ac, a bei I3 und c bei I3 mit Wahrscheinlichkeit 3(ac) =
4
), induziert
10
bestimmte Wahrscheinlichkeiten mit denen der Zge bei Informationsmengen macht (z.B.
bei I3 den Zug d mit Wahrscheinlichkeit
ALSO:
4
)
10
kann das Verhalten eines Spielers, der eine gemischte Strategie spielt, auch so
beschreiben:
fr jede Informationsmenge von ihm, gebe ich eine Wahrscheinlichkeitsverteilung ber die
dort mglichen Zge an
- 18 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
so etwas heit Verhaltensstrategie (behavioural strategy) und bedeutet, der Spieler whlt
bei jeder Informationsmenge von ihm seinen Zug zufllig
z.B. bei I3: (
1 1
, ), bei I3: (0,6 , 0,4)
2 2
Def.: ein Spiel hat perfect recall (Erinnerung), wenn ein Spieler nie vergisst, was er schon wusste
(insbesondere nicht seine eigenen frheren Zge)
[im folgenden treffen wir die Annahme von perfect recall]
SATZ von Th. KUHN
bei perfect recall sind Verhaltensstrategien und gemischte Strategien quivalent
Folgerung: Jedes endliche Spiel (mit perfect recall) hat mindestens 1 NASH-Gleichgewicht in
Verhaltensstrategien
Beweis: weil es mindestens 1 NASH-Gleichgewicht in gemischten Strategien gibt
Wiederholung
-
eine reine Strategie si fr Spieler i ist ein Plan, der fr jede Informationsmenge von Spieler i
einen Zug angibt
eine gemischte Strategie i fr Sieler i ist eine Wahrscheinlichkeitsverteilung auf die Menge
seiner reinen Strategien (d.h. er whlt zufllig eine reine Strategie und spielt diese dann)
eine Verhaltensstrategie i fr Spieler i ist ein Plan, der fr jede Informationsmenge von i eine
Wahrscheinlichkeitsverteilung auf der Menge der dort mglichen Zgen angibt (d.h. heit wenn i
zu dieser Informationsmenge gelangt, whlt er dort seinen Zug zufllig)
Beispiel
(-1, 1)()
L
i=2
I1
I1
R D.1
B.2
i=1
i = 1 A.1
y
C.2
L
I2
(1, -1)
(-1, 1)
(-1, 1)()
(1, -1)()
i=1
R E.1
I1
i=1
(-1, 1)
0
0
0
0
0
0
xac
xad
xbc
xbd
yac
yad
ybc
ybd
i=2
1
0
L
R
-1, 1 1, -1
-1, 1 1, -1
-1, 1 -1, 1
-1, 1 -1, 1
-1, 1 -1, 1
1, -1 -1, 1
-1, 1 -1, 1
1, -1 -1, 1
- 19 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
1 =
1
1
[xac] + [ybd]
2
2
1 =
1
1
[xbd] + [yac]
2
2
1
die reine Strategie xac / ybd
2
Spieler i = 2:
z.B.
2 = 1[L]
1
1
1 ()
1
u1(xac, L) + u1(ybd, L) = (-1) + 1 = 0
2
2
2
2
u1(1, 2) =
()
1
1
1 ()
1
u1(1, 2) = u1(xbd, L) + u1(yac, L) = (-1) + (-1) = -1
2
2
2
2
1 ()
1 ()
(-1) + 1 = 0
2
2
1
1
[x] + [y]
2
2
u1(1, L) =
()
1
1
(-1) + (-1) = -1
2
2
bei perfect recall sind Verhaltensstrategien und gemischte Strategien quivalent ( SATZ von KUHN)
ohne perfect recall:
gemischte Strategien von Spieler i = 1
z.B.
1 =
1
1
[xa] + [yb]
2
2
1 =
1
1
[xb] + [ya]
2
2
Spieler i = 2
z.B.
2 = L
- 20 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Verhaltensstrategien:
1 :
bei I1:
1
1
[x] + [y]
2
2
bei I1:
1
1
[a] + [b]
2
2
bei I1:
1
1
[x] + [y]
2
2
bei I1:
1
1
[b] + [a]
2
2
payoffs:
()
u1(1, L) =
1 ()
1
(-1) + 1 = 0
2
2
u1(1, L) =
1
1
(-1) + (-1) = -1
2
2
()
u1(1 = 1, L) =
()
1
1 1
1
1
(-1) + [ (-1) + 1] = 2
2 2
2
2
y a
Def.: ein Teilspiel eines extensiven Spieles mit unvollkommener Information hat 2 Eigenschaften:
1. beginnt bei einem Knoten K0 und enthlt alles Folgende
2. wenn ein Knoten im Teilspiel liegt, dann auch alle anderen Knoten, die zur selben
Informationsmenge gehren
insbesondere: der Anfangsknoten K0 eines Teilspiels muss in einer Informationsmenge liegen,
die ein singleton ist, d.h. der Spieler der bei K0 zieht, wei, dass er bei K0 ist, d.h.
er kennt die ganze Vorgeschichte bis K0
Bedingung 2 stellt sicher, dass auch jeder andere Spieler, wenn er im Teilspiel
am Zug kommt, wei, dass die Vorgeschichte (der bisherige Spielverlauf) den
Knoten K0 enthlt
=> das Teilspiel kann als unabhngiges extensives Spiel mit Anfangsknoten K0
analysiert werden
Klar: eine Verhaltensstrategie fr das ganze Spiel induziert auch eine Verhaltensstrategie fr jedes
Teilspiel (Zugwahrscheinlichkeiten bei den verschiedenen Informationsmengen)
Def.: ein Gleichgewicht in Verhaltensstrategien heit teilspiel-perfekt, wenn es auch in jedem
Teilspiel ein Gleichgewicht ist
SATZ (SELTEN)
jedes Spiel mit perfect recall hat mindestens 1 teilspiel-perfektes Gleichgewicht
- 21 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Beispiel
I1 0
I2
i=2
I1
D.1
B.2
C.2
d
1
1
1
1
I2
i=2
e
E.1
i=1
h
1
1
i=1
A.1
F.1
h
1
1
i=1
2
1
0
0
G.1
k
I1
3
3
0
2
ab C.2
Normalform:
Normalform:
g
h
c 1, -1 -1, 1
d -1, 1 1, -1
k
l
e 0, 0 -2, 1
f 3, 3* 0, 2
Gleichgewicht: (
1
1
1
1
[c] + [d], [g] + [h] )
2
2
2
2
Gleichgewicht: (k, f)
i=1
a
B.2
0
0
Gleichgewicht: b
b
C.2
3
3
- 22 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Spieler
A = Ai
i =1
ui: A R
a # ui(A) = ui(a1, , an)
G heit Basisspiel (stage game, Stufenspiel)
NUN: t = 1, 2, ..., T
Perioden
outsome in Periode t
h(t) A A ... A = A
schreibe: h(0) = A := {}
ganzer Spielverlauf
(fiktive) Vorgeschichte vor Beginn des Spieles
(= fix, z.B. mit h(0) = bezeichnet)
T 1
H = At
t =0
A i = A1 A 2 A 3
i =1
Def.: eine (reine) Strategie si fr Spieler i im Superspiel G(T) ist eine Abbildung
si: H Ai
h(t - 1) # ai(t) = si(h(t - 1))
1tT
Interpretation: in Periode t kennt jeder Spieler die Vorgeschichte h(t - 1) und kann die Wahl
seiner Aktion ai(t) davon abhngig machen
si ist ein vollstndiger Plan, der fr jede Periode t und fr jede mgliche Vorgeschichte h(t - 1)
festlegt, welche Aktion ai(t) = si(h(t - 1)) der Spieler in Periode t whlt
Si
Menge aller mglichen Abbildungen von H nach Ai = Menge aller reinen Strategien von
Spieler i im Superspiel G(T)
si Si
- 23 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
n
Wenn jeder Spieler i eine Strategie si Si gewhlt hat, ist der Spielverlauf durch die Kombination
s = (s1, ..., sn) bestimmt
in t = 1: ai(1) = si(h(0)) = si() Ai
iI
Anfangszug von i
=> a(1) = (a1(1), ..., an(1)) bestimmt
=> h(1) = (a(1)) bestimmt
in t = 2: ai(2) = si(h(1))
iI
iI
iI
Gesamt-payoff Ui von Spieler i im Superspiel G(T) kann auf verschiedene Weisen definiert werden:
-
ohne Diskontierung:
T
Ui = i (t)
1 T
Ui = i (t)
T t =1
t =1
strategisch quivalent
Durchschnitt der Perioden-payoffs
mit Diskontierung:
-
Ui = t 1 i (t)
t =1
(0 < < 1)
diskontierte Summe
Ui =
1
1
t =1
t 1
i (t)
strategisch quivalent
diskontierter Durchschnitt
Auszahlungsfunktion in G(T)
- 24 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
ai Ai
Basisspiel
Spielermenge
Aktionen
ui: A R
a # ui(a) = ui(a1, , an)
t = 1, ..., T
G(T) Superspiel
t-history
i=1
Ui(s) = i (t)
z.B.
t =1
oder
T
Ui(s) = t 1 i (t)
(0 < < 1)
t =1
Basisspiel G:
I = {1, 2}
A1 = A2 = {C, D}
i=1
i=2
C
D
10, 10
0, 20
20, 0
1, 1*
C
D
D
i=2
10
10
0 20
20 0
1
1
- 25 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
wiederholt: T = 2
i=1
C
D
i=2
i=1
i=1
i=2
C
D C
20 10
20 30
i=1
D C
30 11 10 0
10 11 30 40
i=1
i=2
D
i=2
D
D C
D
i=2
20 1 30 20 40 21
20 21 10 20 0 1
D C
11 1 21
11 21 1
D
2
2
1. Runde
i=1
C
D
i=2
C
D
11, 11
1, 21
21, 1
2, 2*
s1 = (D; D, D, D, D)
s2 = (D; D, D, D, D)
SATZ
Falls das Basisspiel ein eindeutiges NASH-Gleichgewicht a* = (a1*, ..., an*) A hat, dann hat jedes
endlich oft wiederholte Superspiel G(T) auch ein eindeutiges teilspiel-perfektes Gleichgewicht, und
dieses besteht darin, dass in jeder Periode das Gleichgewicht des Basisspiels gespielt wird:
si(h(t - 1)) = si*
Basisspiel
Perioden
n
i(t) = ui(a(t))
is payoff in t
Aktionen n-tupel in t
t-history
Strategie: si: H Ai
schreibt nach jeder mglichen history h(t - 1) eine Aktion ai = si(h(t - 1)) Ai
vor fr t = 1, 2, ...
Si
- 26 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
n
Strategienkombinatiionen
Anfangszge
Ui = lim
1 T
i (t)
T t =1
z.B. (i(1), i(2), i(3), ...) = (10, 20, 30, 10, 20, 30, ...) Ui = 20
konvergiert nicht immer:
z.B. (i(1), i(2), i(3), ...) = (10, 0, 10, 10, 10, 10, 10, 0, 0, ..., 0, 0, ..., 0, 10, ...)
T
Diskontierung: Ui = t 1 i (t)
t =1
diskontierte Summe:
t 1
t =1
c = c t 1 =
t =1
c
1
(1 ) t 1 c = c
diskontierter Durchschnitt:
t =1
wo
Ui = Ui = t 1 i (t)
oder
Ui = (1 ) t 1 i (t)
t =1
t =1
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
ai Ai
Spieler
Aktionen
n
ui: A R
a # ui(a) = ui(a1, , an)
Auszahlungsfunktion von I
ti Ti
Typ von i
n
t = (ti, t-1)
Typenprofil
wo t-1 = (t1, ..., ti-1, ti+1, ..., tn) Typen der anderen
Ablauf:
-
am Anfang (vor Spielbeginn): Natur (Spieler 0) whlt ein Typenprofil t T zufllig gem einer
Wahrscheinlichkeitsverteilung p (T) (p ist eine a priori Verteilung)
(T) Menge aller Wahrscheinlichkeitsverteilungen auf T
Z = {z1, z2, z3}
Auszahlung von i hngt ab vom Aktionenprofil a = (a1, ..., an) und vom Typenprofil t = (t1, ..., tn):
ui: AT R
(a, t) # ui(a, t) = ui(a1, , an; t1, , tn)
p(t1, t2)
t1 = a
i=1
t1 = b
i=2
t2 = c t2 = d
5
10
2
10
1
10
2
10
6
10
4
10
prob(a) =
6
10
prob(b) =
4
10
prob(c) =
7
10
prob(d) =
3
10
1 2 2
5
,
,
p= ,
10 10 10 10
- 28 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
p(d | a) =
p(t1, t2)
1
6
i=2
t2 = c t2 = d
1
6
1
6
t1 = a
i=1
t1 = b
1
3
2
6
2
6
1
2
1
2
2
3
beliefs
jeder Spieler i wei seinen eigenen Typ ti und bildet beliefs ber das Typenprofil des anderen t-i
gem der Regel von BAYES aus der a priori Verteilung p:
pi(t-i | ti) =
p(t i , ti )
p(ti )
= Wahrscheinlichkeit mit der Spieler i, wenn er selbst vom Typ ti ist, erwartete, dass der
andere das Profil t-i hat = beliefs
pi( | ti) (T-i)
Anmerkungen:
1. hufig ist es so, dass die Typen unabhngig sind => die beliefs ber die Typen der anderen sind
immer gleich => a posteriori belief = a priori belief
2. COMMON PRIOR: verschiedene beliefs mssen an unterschiedlichen Informationen liegen
(HARSANYI Theorem)
3. hufig ist es sinnvoll ui nur vom eigenen Typ abhngen zu lassen, trotzdem wird ui im allgemeinen
so ui(a1, a2; t1, t2) geschrieben
Def.: eine reine Strategie si fr Spieler i gibt fr jeden mglichen Typ ti Ti von Spieler i eine Aktion
ai Ai an, d.h. si ist eine Funktion: si: Ti Ai
ti # ai = si(ti)
Die Menge aller mglichen Strategien fr Spieler i Si ist die Menge aller Funktionen von Ti nach
Ai Si = A iTi
- 29 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
ai = si(ti) ist die Aktion, die Spieler I zu tun plant, wenn er ti ist
wenn Ti und Ai beide endliche Mengen sind, dann ist auch Si eine endliche Menge
eine gemischte Strategie ist eine Wahrscheinlichkeitsverteilung auf Si
(Si) Menge aller gemischten Strategien
n
s-i S-i
Strategienprofil
i=1
Ablauf:
-
jeder Spieler whlt eine Strategie si Si (bevor er noch seinen Typ kennt)
Auszahlung ui(s1(t1), ..., sn(tn); t) (ist Auszahlung, die ex post realisiert wird)
wenn ein Spieler i seine Aktion ai whlt, wei er die Strategien s-i der anderen, aber nicht deren Typen
t-i, d.h. er kennt nicht die Auszahlungen, er wei nur die Wahrscheinlichkeitsverteilung pi( | ti) ber die
Typen der anderen
wenn Spieler i vom Typ ti Ti ist und ai Ai whlt und die anderen die Strategien
s-i = (s1, ..., si-1, si+1, ..., sn) spielen, dann ist is erwarteter payoff:
Ui(ai, s-i, ti) = pi (t i | ti ) . ui((s1(t1), ..., si-1(ti-1), ai, si+1(ti+1), ..., sn(tn)), (t-i, ti))
t i T i
Def.: eine Strategie si ist eine beste Antwort von Spieler i auf s-i, wenn fr alle mglichen Typen
ti Ti von Spieler i gilt:
- 30 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
2/3
1/3
i=1
i=1
L
I2
i = 1 schon
L
i=2
e
i=2
I2
Perfektes BAYES-Gleichgewicht
Beispiel
I1 i = 1
a
I1 = {a}
i=2
b
L
1
3
c I2
L
I2 = {b, c}
S1 = {L, M, R}
S2 = {L, R}
2
1
0
0
0
2
0
3
Normalform:
i=2
i=1
L
M
R
L
R
2, 1** 0, 0
0, 2
0, 3
1, 3 1, 3*
zwei NASH-Gleichgewichte:
s** = (L, L) mit payoff (2, 1)
s* = (R, R) mit payoff (1, 3)
R ist eine unglaubwrdige Drohung: gegeben I2, dominiert L strikt R falls i = 2 zum Zug kommt,
wird i = 2 L spielen i = 1 wird L spielen
- 31 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
vier Bedingungen:
R.1 : Fr jede Informationsmenge Ii von Spieler i hat Spieler i beliefs i darber an welchem Knoten
der Informationsmenge er sich befindet. Diese beliefs i sind eine Wahrscheinlichkeitsverteilung
ber den Knoten von Ii: i (Ii)
R.2 : Gegeben diese beliefs = (1, ..., n), sind die Strategien der Spieler sequentiell rational, d.h.
bei jeder Informationsmenge Ii eines Spielers i ist der durch seine Strategie si vorgeschriebene
Zug - und auch alle folgende Zge des selben Spielers - optimal gegeben seiner beliefs und
gegeben die Strategie s-i aller anderen Spieler
z.B. 1(a) = 1 (weil die Informationsmenge I1 = {a} einen singleton darstellt)
I2 = {b, c}, 2(b) = p (c) = 1 - p
R.2
Def.: gegeben die Gleichgewichtsstrategie s* = (s1*, ..., sn*) liegt eine Informationsmenge auf dem
Gleichgewichtspfad (on the equilibrium path), wenn sie mit positiver Wahrscheinlichkeit erreicht
wird, falls die anderen Spieler gem s* spielen; sonst liegt sie nicht auf dem
Gleichgewichtspfad (off the equilibirum path)
R.3 : Bei Informationsmengen auf dem Gleichgewichtspfad werden die beliefs gem der Regel von
Bayes aus den Strategien abgelietet (rationale beliefs)
z.B. bei s* = (R, R): I2 ist nicht auf dem Gleichgewichtspfad
bei s* = (L, L): I2 liegt auf dem Gleichgewichtspfad
Knoten b wird mit Wahrscheinlichkeit p = 1 erreicht bei (L, L)
R.3
2 (b) =
qL
qL + qM
2 (c) =
qM
qL + qM
R.4 : bei Informationsmenge auerhalb des Gleichgewichtpfades werden die beliefs so weit wie
mglich nur noch aus den Gleichgewichtsstrategien nach der Regel von Bayes abgeleitet
(Beliefs auerhalb des Gleichgewichtspfade sind eine schwierige Frage)
- 32 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
Beispiel
i=1
2
0
0
a
D
Teilspiel ab b :
i=2
i=2
b
i=3
1
2
1
3
3
3
L
R
R
3, 3*
1, 1
s* = (L, R)
1-p
c
L
i=1
L
2, 1
1, 2
=> s* = (D, L, R)
0
1
1
0
1
2
3(c) = 1
3(d) = 0
1/2
1/2
L
R
T 10, 5 0, 4
B -5, 3 20, -7
1/2
10
1/2
-5
B
1/2
1/2
20
transitiv: x y und y z
=> x z
- 33 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
x y schwach vorgezogen
x ~ y indifferent <=> [x y und y x]
x y strikt vorgezogen <=> [x y aber nicht y x]
sei gegeben B X Menge tatschlich verfgbarer Alternativen (z.B. Budgetmenge)
(Nebenbedingung, constraint set)
Def.: z B heit grtes (bestes) Elemente von B bezglich , wenn z x
(B, ) := {z B | z x
xB
x B} Auswahlmenge
x B und z B
Nutzenmaximierung
(ist das selbe wie das Prinzip der rationalen Wahl wenn u(x) existiert)
Notation:
x
p
a
1-p
y
x
a=
p 1 p
allgemein:
x1
p1
a
p2
p3
x2
x x 2 ... xn
a= 1
p1 p2 ... pn
xn
x
a=
1
X A0
- 34 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
noch allgemeiner:
seien a1, a2, ..., ak A0 Lotterien
a a2 ... an
a= 1
p1 p2 ... pn
zweistufige Lotterie (eine Lotterie, deren Preise selbst wieder Lotterien sind)
sei A
klar: A0 A
a1 A0
Beispiel
4000
0,8
3000
ab
b
0,2
0,25
3000
0
4000
0,2
d
c
0,75
0,25
cd
0,8
0
a
c~e
0,25
d ~f
0,75
ef
0,75
wenn a b, dann muss auch e f, denn wenn die Sonne nicht scheint sind e und f gleich ( hat
keinen Einflu auf die Entscheidung) und wenn die Sonne scheint, ist die Wahl zwischen e und f
gleich der Wahl zwischen a und b.
Rationalittspostulate fr auf A
x, y, z Xi; a, b A; p, q, r Wahrscheinlichkeiten
y x
y
x
(A.1) sei x y, dann gilt:
<=> p > q
p 1 p q 1 q
- 35 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
y
x
(A.2) sei x y z. Dann p, sodass y ~
p 1 p
[Stetigkeit]
y
x
(A.3) zweistufige Lotterien: sei a =
und b =
p1 1 p1
y
x
, dann gilt:
p2 1 p2
b x
y
a
~
p 1 p r 1 r
wo r = p . p1 + (1 - p)p2
p1
1-p
a
1-p1
p2
y
x
b
1-p2
c b
c
a
(A.4) sei a ~ b, dann gilt:
~
p 1 p p 1 p
[Unabhngigkeit]
Def.: Eu(a) := pi u(xi ) Erwartungswert von u bei Lotterie a, erwarteter Nutzen von a
i=1
x
speziell: a =
1
y
x
z.B. a =
Eu(a) = p . x + (1 - p)y
p 1 p
k
a a2 ... ak
verallgemeinert: a = 1
(zweistufig) Eu(a) = pi Eu(ai )
i =1
p1 p2 ... pk
- 36 -
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
xX
Beweis: sei x x x
u( x ) = 0
def.:
u( x ) = 1
sei x X beliebig
nach A.1, A.2 eine eindeutige Zahl px, 0 c px c 1, sodass
x
px
x~
1 - px
Def.: u(x) := px
xX
x
sei
a
1-p
u(y)
x~b
y~c
1 - u(x)
1 - u(y)
p
1-p
a
y
x
x
~
u(y)
- 37 -
p.u(x)+(1-p).u(y)
Eu(a)
Spieltheorie I
Manfred Nermuth
Sommersemester 2004
sei
p
Eu(a)
~ .......... ~
1-p
- 38 -