Professional Documents
Culture Documents
Prefa e
vii
Problem Setup
1.1.1
1.2
1.3
1.4
1.5
. . . . . . . . . . . . . . . . . . . . . . . . . . .
Components of Learning . . . . . . . . . . . . . . . . . .
1.1.2
1.1.3
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
11
Types of Learning
1.2.1
Supervised Learning . . . . . . . . . . . . . . . . . . . .
11
1.2.2
12
1.2.3
Unsupervised Learning . . . . . . . . . . . . . . . . . . .
13
1.2.4
14
Is Learning Feasible? . . . . . . . . . . . . . . . . . . . . . . . .
15
1.3.1
16
1.3.2
. . . . . . . . . . . . . . . . .
18
1.3.3
Feasibility of Learning . . . . . . . . . . . . . . . . . . .
24
27
1.4.1
Error Measures . . . . . . . . . . . . . . . . . . . . . . .
28
1.4.2
Noisy Targets . . . . . . . . . . . . . . . . . . . . . . . .
30
Problems
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
2.3
33
39
Theory of Generalization . . . . . . . . . . . . . . . . . . . . . .
39
2.1.1
. . . . . . . . . . . . .
41
46
2.1.2
2.1.3
The VC Dimension . . . . . . . . . . . . . . . . . . . . .
50
2.1.4
. . . . . . . . . . . . . .
53
55
2.2.1
Sample Complexity . . . . . . . . . . . . . . . . . . . . .
57
2.2.2
58
2.2.3
2.2.4
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Approximation-Generalization Tradeo
ix
. . . . . . . . . . . . .
59
61
62
Contents
2.4
2.3.1
2.3.2
Problems
. . . . . . . . . . . . . . . . . . . . .
66
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3.2
3.3
3.4
3.5
77
. . . . . . . . . . . . . . . . . . . . . . . .
Non-Separable Data
4.2
4.3
79
Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3.2.1
The Algorithm
. . . . . . . . . . . . . . . . . . . . . . .
84
3.2.2
Generalization Issues . . . . . . . . . . . . . . . . . . . .
87
Logisti Regression . . . . . . . . . . . . . . . . . . . . . . . . .
88
3.3.1
89
3.3.2
93
Nonlinear Transformation . . . . . . . . . . . . . . . . . . . . .
99
3.4.1
The
3.4.2
Problems
Spa e
. . . . . . . . . . . . . . . . . . . . . . . .
119
. . . . . . . . . . . . . . . . . . 119
4.1.1
4.1.2
Regularization
. . . . . . 120
. . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.2.1
4.2.2
4.2.3
. . . . . . . . . 134
Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
The Validation Set . . . . . . . . . . . . . . . . . . . . . 138
4.3.2
4.3.3
Cross Validation
4.3.4
Problems
. . . . . . . . . . . . . . . . . . . . . . 145
. . . . . . . . . . . . . . . . . . 151
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
99
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.3.1
4.4
77
. . . . . . . . . . . . . . . . . . . .
4 Overtting
4.1
62
. . . . . . . . . . . . . . . . . . . .
O am's Razor
167
. . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.2
5.3
Data Snooping
5.4
Problems
. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Epilogue
181
Further Reading
183
x
Contents
187
A.1
A.2
Bounding Worst Case Deviation Using the Growth Fun tion . . 190
A.3
Notation
193
Index
197
xi