Professional Documents
Culture Documents
Sigma
Mnimos Cuadrados
Parciales (PLS)
Dr. Primitivo Reyes Aguilar /
enero 2010
Contenido
MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) - Minitab .......................................... 3
MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) Statgraphics ................................ 11
Resumen ........................................................................................................................... 11
Cd
Mo
Mn
Ni
Cu
Al
Ba
Cr
Sr
0.005
0.044
1.51
0.122
0.83
0.982
0.387
0.029
1.23
0.055
0.16
1.16
0.149
0.066
1.02
0.312
0.038
0.975
0.056
0.146
1.1
0.088
0.643
1.29
0.308
0.035
1.14
0.063
0.191
0.959
0.38
0.133
1.05
0.165
0.036
0.927
0.011
0.363
1.38
0.16
0.051
1.32
0.38
0.059
1.13
0.05
0.106
1.25
0.114
0.055
1.27
0.275
0.019
1.05
0.025
0.479
1.07
0.168
0.753
0.715
0.164
0.062
0.823
0.024
0.234
0.906
0.466
0.102
0.811
0.271
0.044
0.963
0.009
0.058
1.84
0.042
0.17
1.8
0.225
0.022
1.13
10
0.033
0.074
1.28
0.098
0.053
1.35
0.329
0.03
1.07
11
0.039
0.071
1.19
0.043
0.163
0.971
0.105
0.028
0.491
12
0.045
0.147
2.76
0.071
0.074
0.483
0.301
0.087
2.14
13
0.06
0.116
1.15
0.055
0.18
0.912
0.166
0.041
0.578
14
0.067
0.166
1.53
0.041
0.043
0.512
0.132
0.026
0.229
15
0.077
0.261
1.65
0.073
0.285
0.596
0.078
0.063
0.156
16
0.064
0.191
1.78
0.067
0.552
0.633
0.085
0.063
0.192
17
0.025
0.009
1.57
0.041
0.081
0.655
0.072
0.021
0.172
18
0.02
0.027
1.74
0.046
0.153
1.15
0.094
0.021
0.358
19
0.034
0.05
1.15
0.058
0.058
1.35
0.294
0.006
1.12
20
0.043
0.268
2.32
0.066
0.314
0.627
0.099
0.045
0.36
21
0.061
0.245
1.61
0.07
0.172
2.07
0.071
0.053
0.186
22
0.047
0.161
1.47
0.154
0.082
0.546
0.181
0.06
0.898
23
0.048
0.146
1.85
0.092
0.09
0.889
0.328
0.1
1.32
24
0.049
0.155
1.73
0.051
0.158
0.653
0.081
0.037
0.164
25
0.042
0.126
1.7
0.112
0.21
0.508
0.299
0.054
0.995
26
0.058
0.184
1.28
0.095
0.058
1.3
0.346
0.037
1.17
27
0.065
0.211
1.65
0.102
0.055
0.308
0.206
0.028
0.72
28
0.065
0.129
1.56
0.166
0.151
0.373
0.281
0.034
0.889
29
0.068
0.166
3.14
0.104
0.053
0.368
0.292
0.039
1.11
30
0.067
0.199
1.65
0.119
0.163
0.447
0.292
0.058
0.927
31
0.084
0.266
1.28
0.087
0.071
1.14
0.158
0.049
0.794
32
0.069
0.183
1.94
0.07
0.095
0.465
0.225
0.037
1.19
33
0.087
0.208
1.76
0.061
0.099
0.683
0.087
0.042
0.168
34
0.074
0.142
2.44
0.051
0.052
0.737
0.408
0.022
1.16
35
0.084
0.171
1.85
0.088
0.038
1.21
0.263
0.072
1.35
36
0.106
0.307
1.15
0.063
0.051
0.643
0.29
0.031
0.885
37
0.102
0.342
4.08
0.065
0.077
0.752
0.366
0.048
1.08
No.
Pb
Mg
Si
Na
Ca
Aroma
0.561
2.63
128
17.3
66.8
80.5
150
1130
3.3
0.697
6.21
193
19.7
53.3
75
118
1010
4.4
0.73
3.05
127
15.8
35.4
91
161
1160
3.9
0.796
2.57
112
13.4
27.5
93.6
120
924
3.9
1.73
3.07
138
16.7
76.6
84.6
164
1090
5.6
0.491
6.56
172
18.7
15.7
112
137
1290
4.6
2.06
4.57
179
17.8
98.5
122
184
1170
4.8
1.09
3.18
145
14.3
10.5
91.9
187
1020
5.3
0.048
6.13
113
13
54.4
70.2
158
1240
4.3
10
0.552
3.3
140
16.3
70.5
74.7
159
1100
4.3
11
0.31
6.56
103
9.47
45.3
67.9
133
1090
5.1
12
0.546
3.5
199
9.18
80.4
66.3
212
1470
3.3
13
0.518
6.43
111
11.1
59.7
83.8
139
1120
5.9
14
0.699
7.27
107
55.2
44.9
148
854
7.7
15
1.02
5.04
94.6
6.34
10.4
54.9
132
899
7.1
16
0.777
5.56
110
6.96
13.6
64.1
167
976
5.5
17
0.232
3.79
75.9
6.4
11.6
48.1
132
995
6.3
18
0.025
4.24
80.9
7.92
38.9
57.6
136
876
19
0.206
2.71
120
14.7
68.1
64.8
133
1050
4.6
20
1.28
5.68
98.4
9.11
19.5
64.3
176
945
6.4
21
1.19
4.42
87.6
7.62
11.6
70.6
156
820
5.5
22
0.747
8.11
160
19.3
12.5
82.1
218
1220
4.7
23
0.604
6.42
134
19.3
125
83.2
173
1810
4.1
24
0.767
4.91
86.5
6.46
11.5
53.9
172
1020
25
0.686
6.94
129
43.6
45
85.9
165
1330
4.3
26
1.28
3.29
145
16.7
65.8
72.8
175
1140
3.9
27
1.02
6.12
99.3
27.1
20.5
95.2
194
1260
5.1
28
0.638
7.28
139
22.2
13.3
84.2
164
1200
3.9
29
0.831
4.71
125
17.6
13.9
59.5
141
1030
4.5
30
1.02
6.97
131
38.3
42.9
85.9
164
1390
5.2
31
1.3
3.77
143
19.7
39.1
128
146
1230
4.2
32
0.915
123
4.57
7.51
69.4
123
943
3.3
33
1.33
5.04
92.9
6.96
12
56.3
157
949
6.8
34
0.745
3.94
143
6.75
36.8
67.6
81.9
1170
35
0.899
2.38
130
6.18
101
64.4
98.6
1070
3.5
36
1.61
4.4
151
17.4
7.25
103
177
1100
4.3
37
1.77
3.37
145
5.33
33.1
58.3
117
1010
5.2
Instrucciones de Minitab:
X Variance
0.225149
0.366697
Error SS
16.5403
12.3044
8.9938
8.2761
7.8763
7.4542
7.2448
7.1581
6.9711
6.8324
6.7488
R-Sq
0.598569
0.701374
0.781720
0.799139
0.808843
0.819087
0.824168
0.826274
0.830811
0.834178
0.836207
PRESS
22.3904
22.1163
23.3055
22.2610
24.1976
28.5973
31.0924
30.9149
32.1611
31.3590
32.1908
R-Sq (pred)
0.456585
0.463238
0.434377
0.459726
0.412726
0.305945
0.245389
0.249699
0.219451
0.238920
0.218732
12
13
14
15
16
17
6.6955
6.6612
6.6435
6.6335
6.6296
6.6289
0.837501
0.838333
0.838764
0.839005
0.839100
0.839117
34.0891
34.7985
34.5011
34.0829
34.0143
33.8365
0.172660
0.155442
0.162660
0.172811
0.174476
0.178789
Se muestra el modelo ptimo con dos componentes, definido como el que tiene el mayor R^2, en
este caso es 0.46.
Analysis of Variance for Aroma
Source
Regression
Residual Error
Total
DF
2
34
36
SS
28.8989
12.3044
41.2032
MS
14.4494
0.3619
F
39.93
P
0.000
En el ANOVA anterior seindica que el modelo es significativo a un alfa de 0.05 ya que P = 0.000
0.9
optimal
Variable
Fitted
Crossval
0.8
0.7
R-Sq
0.6
0.5
0.4
0.3
0.2
0.1
2
8
10
Components
12
14
16
En esta grfica la lnea vertical indica que el modelo ptimo tiene dos componentes. Se puede ver
que la capacidad predictiva de los modelos con ms de cuatro componentes decrece rpidamente.
En esta grfica se observa que la R^2 para dos componentes es de 70.1% y una R^2 de prediccin
de 46.3%. Un modelo de cuatro componentes tiene una R^2 de 79.9% pero una R^2 de prediccin
menor (46%).
Al comparar la R^2 de prediccin del PLS de dos componentes (46%) se ve que es mayor a la R^2
de prediccin de 17 componentes del mtodo de mnimos cuadrados en rojo de (17.88%).
L a Varianza X indica la cantidad de variancia en los predictores que es explicada por el modelo. En
este ejemplo, el modelo de dos componentes explica el 36.7% de la varianza en los predictores.
Calculated Response
Variable
Fitted
Crossval
7
6
5
4
3
3
5
6
Actual Response
En esta grfica como los puntos se encuentran en un patrn lineal, el modelo ajusta
adecuadamente a los datos, no se observan diferencias significativas entre los puntos de respuesta
ajustada y los de validacin cruzada.
Standardized Coefficients
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
2
8
10
Predictors
12
14
16
0.5
Cr
Pb
Component 2
0.4
Si
0.3
Ca
Mg
0.2
Na
0.1
Ni
0.0
-0.1
Cd
Cu
Mn
Sr
Ba
-0.2
Al
-0.3
-0.5
-0.4
-0.3
-0.2
-0.1
Component 1
0.0
0.1
0.2
9
8
Distance From Y
7
6
5
4
3
2
1
0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Distance From X
0.7
0.8
0.9
0.108
Standardized Residual
2
1
0
-1
-2
0.0
0.2
0.4
0.6
0.8
1.0
Leverages
10
Resumen
El procedimiento Mnimos Cuadrados Parciales (PLS Partial Least Squares) est diseado
para construir un modelo estadstico que relaciona mltiples variables independientes X con
mltiples variables dependientes Y. El procedimiento es mucho ms til cuando hay muchos
factores y el objetivo principal es predecir las variables respuesta. Los mnimos cuadrados
parciales (PLS) son ampliamente usados por ingenieros qumicos y quimiomtricos para
calibracin espectromtrica.
StatFolio de Ejemplo: pls.sgp
Datos de Ejemplo:
El archivo spectra.sf6 contiene los espectros observados de n = 33 muestras que contienen
concentraciones conocidas de dos aminocidos, tirosina (tyrosine) y triptofano (tryptophan). Los
espectros estn medidos a k = 30 frecuencias. Una porcin de los datos, tomados de McAvoy et
al. (1989), se muestra a continuacin:
Sample
Tryptophan Tyrosine
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11
f12
17mix35 0.00003
0.00000001
-6.215
-5.809
-5.114
-3.963
-2.897
-2.269
-1.675
-1.235
-0.9
-0.659
-0.497
-0.395
19mix35 0.0000297
0.0000003
-5.516
-5.294
-4.823
-3.858
-2.827
-2.249
-1.683
-1.218
-0.907
-0.658
-0.501
-0.4
-5.519
-5.294
-4.501
-3.863
-2.827
-2.28
-1.716
-1.262
-0.939
-0.694
-0.536
-0.444
23mix35 0.0000285
0.0000015
-5.294
-4.705
-4.262
-3.605
-2.726
-2.239
-1.681
-1.25
-0.925
-0.697
-0.534
-0.437
25mix35 0.000027
0.000003
-4.6
-4.069
-3.764
-3.262
-2.598
-2.191
-1.68
-1.273
-0.958
-0.729
-0.573
-0.47
27mix35 0.0000225
0.0000075
-3.812
-3.376
-3.026
-2.726
-2.249
-1.919
-1.541
-1.198
-0.951
-0.764
-0.639
-0.57
29mix35 0.000015
0.000015
-3.053
-2.641
-2.382
-2.194
-1.977
-1.913
-1.728
-1.516
-1.317
-1.158
-1.029
-0.963
28mix35 0.0000075
0.0000225
-2.626
-2.248
-2.004
-1.839
-1.742
-1.791
-1.786
-1.772
-1.728
-1.666
-1.619
-1.591
26mix35 0.000003
0.000027
-2.37
-1.99
-1.754
-1.624
-1.56
-1.655
-1.772
-1.899
-1.982
-2.074
-2.157
-2.211
24mix35 0.0000015
0.0000285
-2.326
-1.952
-1.702
-1.583
-1.507
-1.629
-1.771
-1.945
-2.115
-2.297
-2.448
-2.585
-2.277
-1.912
-1.677
-1.556
-1.487
-1.63
-1.791
-1.969
-2.203
-2.437
-2.655
-2.844
20mix35 0.0000003
-2.266
-1.912
-1.688
-1.546
-1.5
-1.64
-1.801
-2.011
-2.277
-2.545
-2.823
-3.094
-2.258
-1.9
-1.666
-1.524
-1.479
-1.621
-1.803
-2.043
-2.308
-2.626
-2.895
-3.214
trp2
0.0001
0.00000001
-5.922
-5.435
-4.366
-3.149
-2.124
-1.392
-0.78
-0.336
-0.002
0.233
0.391
0.49
mix5
0.00009
0.00001
-3.932
-3.411
-2.964
-2.462
-1.836
-1.308
-0.796
-0.39
-0.076
0.147
0.294
0.394
mix4
0.000075
0.000025
-2.996
-2.479
-2.099
-1.803
-1.459
-1.126
-0.761
-0.424
-0.144
0.06
0.195
0.288
mix3
0.00005
0.00005
-2.128
-1.661
-1.344
-1.16
-0.996
-0.877
-0.696
-0.495
-0.313
-0.165
-0.042
0.032
mix6
0.00001
0.00009
-1.14
-0.757
-0.497
-0.362
-0.329
-0.412
-0.513
-0.647
-0.772
-0.877
-0.958
-1.04
43trp6
0.000001
0.00000001
-5.915
-5.918
-6.908
-5.428
-4.117
-5.103
-4.66
-4.351
-4.023
-3.849
-3.634
-3.634
0.0000297
11
0.0000009
51mix6
0.0000001
-5.903
-5.903
-5.903
-5.082
-4.213
-5.083
-4.838
-4.639
-4.474
-4.213
-4.001
-4.098
0.00000075 0.00000025
-5.907
-5.907
-5.415
-4.843
-4.213
-4.843
-4.843
-4.483
-4.343
-4.006
-4.006
-3.912
49mix6
0.0000005
-5.419
-5.091
-5.091
-4.648
-4.006
-4.846
-4.648
-4.483
-4.343
-4.22
-4.22
-4.22
53mix6
0.00000025 0.00000075
-5.083
-4.837
-4.837
-4.474
-3.826
-4.474
-4.639
-4.838
-4.837
-4.639
-4.639
-4.641
57mix6
0.0000001
-5.082
-4.836
-4.639
-4.474
-3.826
-4.636
-4.638
-4.638
-4.837
-5.082
-5.082
-5.408
41tyro6
0.00000001 0.000001
-5.104
-4.662
-4.662
-4.358
-3.705
-4.501
-4.662
-4.859
-5.104
-5.431
-5.433
-5.918
28trp5
0.00001
0.00000001
-5.937
-5.937
-5.937
-4.526
-3.544
-3.17
-2.573
-2.115
-1.792
-1.564
-1.4
-1.304
37mix5
0.000009
0.000001
-5.109
-4.865
-4.501
-4.029
-3.319
-3.07
-2.569
-2.207
-1.895
-1.684
-1.516
-1.423
33mix5
0.0000075
0.0000025
-4.366
-4.129
-3.781
-3.467
-3.037
-2.939
-2.593
-2.268
-1.988
-1.791
-1.649
-1.565
31mix5
0.000005
0.000005
-3.79
-3.373
-3.119
-2.915
-2.671
-2.718
-2.555
-2.398
-2.229
-2.085
-1.971
-1.902
35mix5
0.0000025
0.0000075
-3.321
-2.97
-2.765
-2.594
-2.446
-2.548
-2.616
-2.617
-2.572
-2.55
-2.508
-2.487
39mix5
0.000001
0.000009
-3.142
-2.812
-2.564
-2.404
-2.281
-2.502
-2.589
-2.706
-2.842
-2.964
-3.068
-3.103
26tyro5
0.00000001 0.00001
-3.037
-2.696
-2.464
-2.321
-2.239
-2.444
-2.602
-2.823
-3.144
-3.396
-3.742
-4.063
tyro2
0.00000001 0.0001
-1.081
-0.71
-0.47
-0.337
-0.327
-0.433
-0.602
-0.841
-1.119
-1.423
-1.75
-2.121
0.0000005
0.0000009
Sample
f13
f14
f15
f16
f17
f18
f19
f20
f21
f22
f23
f24
f25
f26
f27
f28
f29
f30
17mix35
-0.335
-0.315
-0.333
-0.377
-0.453
-0.549
-0.658
-0.797
-0.878
-0.954
-1.06
-1.266
-1.52
-1.804
-2.044
-2.269
-2.496
-2.714
19mix35
-0.345
-0.323
-0.342
-0.387
-0.461
-0.554
-0.665
-0.803
-0.887
-0.96
-1.072
-1.272
-1.541
-1.814
-2.058
-2.289
-2.496
-2.712
21mix35
-0.384
-0.369
-0.377
-0.421
-0.495
-0.596
-0.706
-0.824
-0.917
-0.988
-1.103
-1.294
-1.565
-1.841
-2.084
-2.32
-2.521
-2.729
23mix35
-0.381
-0.359
-0.369
-0.426
-0.499
-0.591
-0.701
-0.843
-0.925
-0.989
-1.109
-1.31
-1.579
-1.852
-2.09
-2.316
-2.521
-2.743
25mix35
-0.422
-0.407
-0.422
-0.468
-0.538
-0.639
-0.753
-0.887
-0.968
-1.037
-1.147
-1.357
-1.619
-1.886
-2.141
-2.359
-2.585
-2.792
27mix35
-0.528
-0.525
-0.55
-0.606
-0.689
-0.781
-0.909
-1.031
-1.126
-1.191
-1.303
-1.503
-1.784
-2.058
-2.297
-2.507
-2.727
-2.97
29mix35
-0.919
-0.915
-0.933
-0.981
-1.055
-1.157
-1.271
-1.409
-1.505
-1.546
-1.675
-1.88
-2.14
-2.415
-2.655
-2.879
-3.075
-3.319
28mix35
-1.575
-1.58
-1.619
-1.671
-1.754
-1.857
-1.982
-2.114
-2.21
-2.258
-2.379
-2.57
-2.858
-3.117
-3.347
-3.568
-3.764
-4.012
26mix35
-2.267
-2.317
-2.369
-2.46
-2.545
-2.668
-2.807
-2.951
-3.03
-3.075
-3.214
-3.376
-3.685
-3.907
-4.129
-4.335
-4.501
-4.599
24mix35
-2.696
-2.808
-2.913
-3.03
-3.163
-3.265
-3.376
-3.534
-3.642
-3.721
-3.858
-4.012
-4.262
-4.501
-4.704
-4.822
-4.956
-5.292
22mix35
-3.032
-3.214
-3.378
-3.503
-3.646
-3.812
-3.958
-4.129
-4.193
-4.262
-4.415
-4.501
-4.823
-5.111
-5.113
-5.294
-5.29
-5.294
20mix35
-3.376
-3.572
-3.812
-4.012
-4.262
-4.415
-4.501
-4.705
-4.823
-4.823
-4.956
-5.111
-5.111
-5.516
-5.524
-5.806
-5.806
-5.806
18mix35
-3.568
-3.907
-4.193
-4.423
-4.825
-5.111
-5.111
-5.516
-5.516
-5.516
-5.516
-5.806
-5.806
-5.806
-5.806
-5.806
-6.21
-6.215
trp2
0.54
0.563
0.541
0.488
0.414
0.313
0.203
0.063
-0.028
-0.097
-0.215
-0.411
-0.678
-0.953
-1.208
-1.418
-1.651
-1.855
mix5
0.446
0.46
0.443
0.389
0.314
0.22
0.099
-0.033
-0.128
-0.197
-0.308
-0.506
-0.785
-1.05
-1.313
-1.529
-1.745
-1.97
mix4
0.337
0.354
0.33
0.274
0.206
0.105
-0.009
-0.148
-0.242
-0.306
-0.424
-0.626
-0.892
-1.172
-1.425
-1.633
-1.877
-2.071
mix3
0.069
0.079
0.05
-0.006
-0.082
-0.179
-0.295
-0.436
-0.523
-0.584
-0.706
-0.898
-1.178
-1.446
-1.696
-1.922
-2.128
-2.35
mix6
-1.104
-1.162
-1.233
-1.317
-1.425
-1.543
-1.661
-1.804
-1.877
-1.959
-2.034
-2.249
-2.502
-2.732
-2.964
-3.142
-3.313
-3.576
43trp6
-3.572
-3.513
-3.634
-3.572
-3.772
-3.772
-3.844
-3.932
-4.017
-4.023
-4.117
-4.227
-4.492
-4.66
-4.855
-5.428
-5.103
-5.428
59mix6
-4.001
-4.001
-3.907
-4.001
-4.098
-4.098
-4.206
-4.098
-4.213
-4.213
-4.335
-4.474
-4.639
-4.838
-4.837
-5.085
-5.41
-5.41
51mix6
-3.83
-3.83
-3.755
-3.912
-4.006
-4.001
-4.213
-4.213
-4.335
-4.483
-4.483
-4.642
-4.841
-5.088
-5.088
-5.415
-5.415
-5.415
49mix6
-4.11
-4.11
-4.11
-4.22
-4.22
-4.343
-4.483
-4.483
-4.65
-4.65
-4.846
-4.846
-5.093
-5.091
-5.419
-5.417
-5.417
-5.907
53mix6
-4.641
-4.639
-4.639
-4.837
-4.838
-4.838
-5.083
-5.082
-5.083
-5.41
-5.41
-5.408
-5.408
-5.9
-5.41
-5.903
-5.9
-6.908
57mix6
-5.082
-5.08
-5.408
-5.408
-5.408
-5.408
-5.408
-5.408
-5.408
-5.9
-5.9
-5.9
-5.9
-5.9
-5.9
-5.9
-6.908
-6.908
41tyro6
-5.918
-5.918
-5.431
-5.918
-5.918
-5.918
-5.918
-5.918
-5.918
-5.918
-5.918
-6.908
-5.918
-5.918
-6.908
-6.908
-5.918
-5.918
12
28trp5
-1.244
-1.213
-1.24
-1.292
-1.373
-1.453
-1.571
-1.697
-1.801
-1.873
-2.008
-2.198
-2.469
-2.706
-2.99
-3.209
-3.384
-3.601
37mix5
-1.367
-1.348
-1.374
-1.415
-1.503
-1.596
-1.718
-1.839
-1.927
-1.997
-2.118
-2.333
-2.567
-2.874
-3.106
-3.313
-3.579
-3.781
33mix5
-1.52
-1.509
-1.524
-1.58
-1.665
-1.758
-1.882
-2.037
-2.09
-2.162
-2.284
-2.465
-2.761
-3.037
-3.27
-3.52
-3.709
-3.937
31mix5
-1.86
-1.837
-1.881
-1.949
-2.009
-2.127
-2.23
-2.381
-2.455
-2.513
-2.624
-2.827
-3.117
-3.373
-3.586
-3.785
-4.04
-4.366
35mix5
-2.488
-2.487
-2.529
-2.593
-2.688
-2.792
-2.908
-3.037
-3.149
-3.189
-3.273
-3.467
-3.781
-4.029
-4.241
-4.501
-4.669
-4.865
39mix5
-3.182
-3.268
-3.361
-3.411
-3.517
-3.576
-3.705
-3.849
-3.932
-3.932
-4.029
-4.234
-4.501
-4.664
-4.86
-5.104
-5.431
-5.433
26tyro5
-4.398
-4.699
-4.893
-5.138
-5.14
-5.461
-5.463
-5.945
-5.461
-5.138
-5.14
-5.138
-5.138
-5.463
-5.461
-5.461
-5.461
-5.461
tyro2
-2.449
-2.818
-3.11
-3.467
-3.781
-4.029
-4.241
-4.366
-4.501
-4.366
-4.501
-4.501
-4.668
-4.668
-4.865
-4.865
-5.109
-5.111
Las primeras 18 muestras se usarn como grupo de entrenamiento para estimar un modelo de
prediccin. Entonces el modelo se probar en las 15 muestras restantes.
Ingreso de Datos
La caja de dilogo solicita los nombres de las columnas que contienen a las variables
dependientes Y e independientes X:
13
Y: una o ms columnas numricas que contienen las n observaciones para las variables
dependientes Y. Se pueden ingresar nombres de columnas o expresiones de
STATGRAPHICS.
X: una o ms columnas numricas que contienen los n valores para las variables
independientes X.
Seleccin: seleccin de un subgrupo de datos. Las filas seleccionadas se usarn como el
grupo de entrenamiento. Las filas as elegidas pueden usarse como un grupo de prueba para
validar el modelo ajustado.
En el ejemplo, se tomaron los logaritmos base 10 de las concentraciones para crear dos variables
dependientes. Todas las 30 frecuencias se ingresaron en el campo de las Variables
Independientes. La entrada en el campo Seleccin har que las primeras 18 filas se usen como
grupo de entrenamiento.
Modelo Estadstico
Al igual que en regresin mltiple, el objetivo de los mnimos cuadrados parciales (PLS) es
construir un modelo lineal de la forma
Y = X + E (1)
14
donde Y es una matriz n por m que contiene los n valores estandarizados de las m variables
dependientes, X es una matriz n por p que contiene los valores estandarizados de las p variables
predictoras, es una matriz p por m de parmetros del modelo, y E es una matriz n por m de
errores. A diferencia de la regresin mltiple, el nmero de observaciones n puede ser menor que
el nmero de variables independientes p.
Sin embargo, en vez de estimar directamente, se extraen primero c componentes. Luego los
coeficientes se calculan a partir del producto de dos matrices:
= WQ (2)
donde W es una matriz p por c de pesos que transforman a X en una matriz T de valores de los
factores de acuerdo con
T = XW (3)
y Q es una matriz de coeficientes de regresin (cargas) que expresan la dependencia entre Y y los
valores de los factores:
Y = TQ + E (4)
La matriz de variables independientes tambin puede representarse en trminos de P una matriz c
por p de cargas de factores como
X = TP + F (5)
donde F es una matriz n por p de desviaciones.
Parte de la tarea al realizar un anlisis de mnimos cuadrados parciales (PLS) es determinar el
nmero apropiado de componentes c. Si se establece c demasiado bajo o demasiado alto, el
modelo puede no dar buenas predicciones para las futuras observaciones.
Resumen del Anlisis
El Resumen de Anlisis muestra informacin sobre el modelo ajustado. La seccin de arriba de la
salida resume los datos de entrada y presenta un anlisis de varianza para cada variable
dependiente.
15
Se incluyen en la salida:
Resumen Estadstico: un indicador del nmero (p) de variables X y (m) del nmero de
variables Y.
Nmero de Casos Completos: el nmero de observaciones n en el grupo de
entrenamiento.
Nmero de Componentes Extrados: el nmero de componentes c usado para ajustar el
modelo. c no puede ser mayor que el menor de p y (n 1).
Validacin Cruzada: el mtodo para validar el modelo de prediccin. Dependiendo de
las Opciones del Anlisis, un grupo de prueba interno o externo puede ser usado para
ayudar a elegir el nmero de componentes.
Anlisis de Varianza: una tabla de ANOVA para cada una de las variables dependientes.
Valores pequeos de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%)
indican que el modelo es estadsticamente significativo.
En el ejemplo anterior, se extrajeron 10 componentes. Los modelos resultantes son predictores
significativos para las concentraciones de ambos aminocidos., ya que ambos valores de P son
extremadamente pequeos.
16
La segunda parte de la salida ilustra la utilidad del modelo con diferente nmero de
componentes:
17
primera se calcula a partir de las predicciones para las observaciones cuando stas no
se emplean para ajustar el modelo. Al elegir el nmero de componentes a extraer, se
debe buscar un modelo con un cuadrado medio PRESS pequeo.
R Cuadrada de Prediccin: uno menos la razn del Cuadrado Medio PRESS para el
nmero indicado de componentes al valor cuando se ajusta un modelo con slo un
trmino constante. Valores altos indican buenos modelos.
La R Cuadrada de Prediccin alcanza un pico para LOG10(Tryptophan) en 3 componentes, y
para LOG10(Tyrosine) en 9 componentes.
La ltima seccin de la salida presenta una tabla similar para los porcentajes de la variacin total
en las variables X y Y explicada conforme aumenta el nmero de componentes.
18
Este grfico es til para visualizar cuntos componentes tienen que extraerse. Advierta que el
porcentaje de variacin para PRESS aumenta a lo largo de 7 componentes.
Nota: En el resto de este documento, se mostrarn los resultados para un modelo con 7
componentes.
Opciones del Anlisis
19
usar el modelo para predecir observaciones excluidas del ajuste del modelo. Se pueden usar
los siguientes mtodos:
1. Ninguno no se lleva a cabo la validacin cruzada.
2. Sacar uno a la vez el modelo se vuelve a ajustar n veces, cada vez dejando fuera 1 de
las observaciones y volviendo a ajustar el modelo usando las otras n 1. Luego la
observacin omitida se predice con el modelo del que fue excluida.
3. Sacar cada k-sima ste es similar al mtodo #2, excepto que slo cada k-sima
observacin es omitida y luego predicha. Esto acorta el proceso en grandes conjuntos de
datos.
4. Dejar fuera bloques de k las observaciones se remueven en grupos de k, el modelo se
vuelve a ajustar, y se predicen las k observaciones.
5. Usar casos no seleccionados si hizo uso del campo Seleccionar en la caja de dilogo
del ingreso de datos, los casos excluidos por esa seleccin se usarn como casos de
prueba.
En el ejemplo, el campo Seleccionar eligi las primeras 18 filas para usarlas como grupo de
entrenamiento para el modelo, formando con las 15 filas restantes un grupo de prueba.
Coeficientes de Regresin
La table de Coeficientes de Regresin muestra los coeficientes estimados de los modelos
ajustados. Se exhiben ambos coeficientes, estandarizados y sin estandarizar. A continuacin se
muestra una pequea seccin de la salida:
20
Los coeficientes proveen un tipo de firma para cada variable dependiente. Advierta el gran
coeficiente negativo para f4 cuando predice LOG10(Tyrosine).
21
Opciones de Ventana
22
Se incluyen en la tabla:
1. Q, la matriz c por m de cargas (coeficientes de regresin) que relaciona la matriz de
valores de los factores T con la variable dependiente Y:
Y = TQ + E (8)
2. W, la matriz p por c de pesos de los factores, que crean los valores de los factores a partir
de los valores estandarizados de las variables independientes de acuerdo con
T = XW (9)
Grfico de Componentes 2D
La opcin Grfico de Componentes 2D presentar la matriz T de puntajes de los factores o las
matrices W y P de los pesos de los componentes. En el caso de la matriz de valores de los
factores, el grfico toma la siguiente forma:
Se seleccionan dos factores, para por cada eje, y se grafican n puntos que representan las n filas
en las correspondientes columnas de T. En situaciones donde los factores son interpretables, este
grfico muestra el valor de cada una de las muestras para estos factores.
Si se eligen los pesos de los componentes, el grfico tiene la siguiente forma:
23
Se eligen dos componentes, uno para cada eje, y se grafican p + m puntos que representan las p
variables independientes y las m variables dependientes. A partir de esta grfica, se puede ver
cmo cada una de las variables originales afecta a los componentes derivados.
Opciones de Ventana
Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los
pesos del componenete.
24
Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje
horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje
vertical.
Grfica de Componentes 3D
La opcin Grfica de Componentes 3D es anloga al grfico 2D excepto que se eligen tres
componentes.
Opciones de Ventana
25
Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los
pesos del componente.
Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje
horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje
que se extiende hacia atrs al interior de la pantalla.
Componente en Eje Z: Seleccione uno de los c componentes para que se grafique en el eje
vertical.
Predicciones y Residuos
La ventana de Predichos y Residuos presenta informacin para las observaciones en el grupo de
entrenamiento, observaciones en el grupo de prueba, y/o cualesquiera nuevas filas que hayan
sido agregadas a la hoja de datos que contengan valores para las variables independientes pero
valores faltantes para Y. La ltima opcin le permite emplear el modelo para hacer predicciones
para las observaciones no incluidas ni en el grupo de entrenamiento ni en el de prueba.
La tabla a continuacin muestra parte de la salida para los datos del ejemplo:
26
Se incluye una tabla por separado para cada variable dependiente. Se incluyen en la tabla:
Fila el nmero de la fila en la hoja de datos.
Y el valor observado de la variable independiente, si lo hay.
Predicho el valor Y predicho a partir del modelo ajustado.
Residuo el valor del residuo para la i-sima observacin de la j-sima variable
dependiente se calcula con
27
28
Si el modelo ajusta bien, los puntos debieran alinearse a lo largo de la lnea diagonal.
Opciones de Ventana
29
Leverage muestra cualesquiera observaciones que tienen una inusual influencia en el modelo
ajustado:
El punto leverage es una estadstica que mide la influencia de cada observacin en el modelo
final. Las observaciones se ponen en la lista si tienen ms de 3 veces el leverage de un punto
promedio. Las observaciones con altos puntos leverage deben examinarse de cerca para estar
seguros de que son vlidas, ya que una observacin con punto leverage alto que es tambin un
valor atpico puede distorsionar gravemente al modelo estimado.
En los datos de la muestra, no hay puntos leverage altos.
Grficas de Distancia para Residuos
Las Grficas de Distancia para Residuos grafican la distancia del origen a los residuos de X o Y
que corresponden a cada caso en el grupo de entrenamiento. Los grficos pueden usarse para
determinar qu casos se desvan ms de los valores predichos.
Las
Laa distancias se expresan como la suma de cuadrados de la diferencia entre los valores
observados y predichos de las variables estandarizadas. Para las variables Y, los residuos son
elementos de la matriz E de dimensiones n por m en la ecuacin
Y = X + E (12)
30
Para las variables X, los residuos son elementos de la matriz F de dimensiones n por p en la
ecuacin
X = TP + F (13)
Salvar Resultados
Se pueden salvar en la hoja de datos los siguientes resultados:
1. Valores predichos los valores predichos de la(s) variable(s) dependiente(s).
2. Residuos Y los residuos para cada variable dependiente.
3. Residuos Estandarizados Y los residuos estandarizados para cada variable dependiente.
4. Residuos PRESS los residuos PRESS para cada variable dependiente.
5. Residuos X los residuos para cada variable independiente.
6. Leverages los puntos niveladores para cada uno de los n casos.
7. Distancias Y la distancia de los residuos Y para cada uno de los n casos.
8. Distancias X la distancia los residuos X para cada uno de los n casos.
9. Pesos de Componentes la matriz W de pesos.
10. Cargas de factor Y la matriz Q de cargas de los factores.
11. Cargas de factor X la matriz P de cargas de los factores.
12. Matriz de valores la matriz T de valores.
Clculos
El programa usa el algoritmo NIPALS (Nonlinear Iterative Partial Least Squares, Mnimos
Cuadrados Parciales Iterativos No Lineales) para extraer los componentes, despus de
transformar primero cada variable de manera que tengan una media de 0 y una desviacin
estndar de 1.
31