You are on page 1of 31

Lean

Sigma
Mnimos Cuadrados
Parciales (PLS)
Dr. Primitivo Reyes Aguilar /
enero 2010

Modelo Lineal General

P. Reyes / enero 2010

Contenido
MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) - Minitab .......................................... 3
MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) Statgraphics ................................ 11
Resumen ........................................................................................................................... 11

Modelo Lineal General

P. Reyes / enero 2010

MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) - Minitab


Un productor de vinos quiere saber la composicin qumica del vino con relacin a evaluaciones
sensoriales. Se tienen 37 muestras de vino cada uno descrito por 17 concentraciones de
elementos (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P y K) y la calificacin sobre el
aroma del vino de un panel de jueces. Se quiere predecir la calificacin de aroma a partir delos 17
elementos y determinar que la tcnica PLS es apropiada dado que la relacin de predictores a
muestras es bajo.
No.

Cd

Mo

Mn

Ni

Cu

Al

Ba

Cr

Sr

0.005

0.044

1.51

0.122

0.83

0.982

0.387

0.029

1.23

0.055

0.16

1.16

0.149

0.066

1.02

0.312

0.038

0.975

0.056

0.146

1.1

0.088

0.643

1.29

0.308

0.035

1.14

0.063

0.191

0.959

0.38

0.133

1.05

0.165

0.036

0.927

0.011

0.363

1.38

0.16

0.051

1.32

0.38

0.059

1.13

0.05

0.106

1.25

0.114

0.055

1.27

0.275

0.019

1.05

0.025

0.479

1.07

0.168

0.753

0.715

0.164

0.062

0.823

0.024

0.234

0.906

0.466

0.102

0.811

0.271

0.044

0.963

0.009

0.058

1.84

0.042

0.17

1.8

0.225

0.022

1.13

10

0.033

0.074

1.28

0.098

0.053

1.35

0.329

0.03

1.07

11

0.039

0.071

1.19

0.043

0.163

0.971

0.105

0.028

0.491

12

0.045

0.147

2.76

0.071

0.074

0.483

0.301

0.087

2.14

13

0.06

0.116

1.15

0.055

0.18

0.912

0.166

0.041

0.578

14

0.067

0.166

1.53

0.041

0.043

0.512

0.132

0.026

0.229

15

0.077

0.261

1.65

0.073

0.285

0.596

0.078

0.063

0.156

16

0.064

0.191

1.78

0.067

0.552

0.633

0.085

0.063

0.192

17

0.025

0.009

1.57

0.041

0.081

0.655

0.072

0.021

0.172

18

0.02

0.027

1.74

0.046

0.153

1.15

0.094

0.021

0.358

19

0.034

0.05

1.15

0.058

0.058

1.35

0.294

0.006

1.12

20

0.043

0.268

2.32

0.066

0.314

0.627

0.099

0.045

0.36

21

0.061

0.245

1.61

0.07

0.172

2.07

0.071

0.053

0.186

22

0.047

0.161

1.47

0.154

0.082

0.546

0.181

0.06

0.898

23

0.048

0.146

1.85

0.092

0.09

0.889

0.328

0.1

1.32

24

0.049

0.155

1.73

0.051

0.158

0.653

0.081

0.037

0.164

25

0.042

0.126

1.7

0.112

0.21

0.508

0.299

0.054

0.995

26

0.058

0.184

1.28

0.095

0.058

1.3

0.346

0.037

1.17

27

0.065

0.211

1.65

0.102

0.055

0.308

0.206

0.028

0.72

28

0.065

0.129

1.56

0.166

0.151

0.373

0.281

0.034

0.889

29

0.068

0.166

3.14

0.104

0.053

0.368

0.292

0.039

1.11

30

0.067

0.199

1.65

0.119

0.163

0.447

0.292

0.058

0.927

31

0.084

0.266

1.28

0.087

0.071

1.14

0.158

0.049

0.794

32

0.069

0.183

1.94

0.07

0.095

0.465

0.225

0.037

1.19

Modelo Lineal General

P. Reyes / enero 2010

33

0.087

0.208

1.76

0.061

0.099

0.683

0.087

0.042

0.168

34

0.074

0.142

2.44

0.051

0.052

0.737

0.408

0.022

1.16

35

0.084

0.171

1.85

0.088

0.038

1.21

0.263

0.072

1.35

36

0.106

0.307

1.15

0.063

0.051

0.643

0.29

0.031

0.885

37

0.102

0.342

4.08

0.065

0.077

0.752

0.366

0.048

1.08

No.

Pb

Mg

Si

Na

Ca

Aroma

0.561

2.63

128

17.3

66.8

80.5

150

1130

3.3

0.697

6.21

193

19.7

53.3

75

118

1010

4.4

0.73

3.05

127

15.8

35.4

91

161

1160

3.9

0.796

2.57

112

13.4

27.5

93.6

120

924

3.9

1.73

3.07

138

16.7

76.6

84.6

164

1090

5.6

0.491

6.56

172

18.7

15.7

112

137

1290

4.6

2.06

4.57

179

17.8

98.5

122

184

1170

4.8

1.09

3.18

145

14.3

10.5

91.9

187

1020

5.3

0.048

6.13

113

13

54.4

70.2

158

1240

4.3

10

0.552

3.3

140

16.3

70.5

74.7

159

1100

4.3

11

0.31

6.56

103

9.47

45.3

67.9

133

1090

5.1

12

0.546

3.5

199

9.18

80.4

66.3

212

1470

3.3

13

0.518

6.43

111

11.1

59.7

83.8

139

1120

5.9

14

0.699

7.27

107

55.2

44.9

148

854

7.7

15

1.02

5.04

94.6

6.34

10.4

54.9

132

899

7.1

16

0.777

5.56

110

6.96

13.6

64.1

167

976

5.5

17

0.232

3.79

75.9

6.4

11.6

48.1

132

995

6.3

18

0.025

4.24

80.9

7.92

38.9

57.6

136

876

19

0.206

2.71

120

14.7

68.1

64.8

133

1050

4.6

20

1.28

5.68

98.4

9.11

19.5

64.3

176

945

6.4

21

1.19

4.42

87.6

7.62

11.6

70.6

156

820

5.5

22

0.747

8.11

160

19.3

12.5

82.1

218

1220

4.7

23

0.604

6.42

134

19.3

125

83.2

173

1810

4.1

24

0.767

4.91

86.5

6.46

11.5

53.9

172

1020

25

0.686

6.94

129

43.6

45

85.9

165

1330

4.3

26

1.28

3.29

145

16.7

65.8

72.8

175

1140

3.9

27

1.02

6.12

99.3

27.1

20.5

95.2

194

1260

5.1

28

0.638

7.28

139

22.2

13.3

84.2

164

1200

3.9

29

0.831

4.71

125

17.6

13.9

59.5

141

1030

4.5

30

1.02

6.97

131

38.3

42.9

85.9

164

1390

5.2

31

1.3

3.77

143

19.7

39.1

128

146

1230

4.2

32

0.915

123

4.57

7.51

69.4

123

943

3.3

33

1.33

5.04

92.9

6.96

12

56.3

157

949

6.8

Modelo Lineal General

P. Reyes / enero 2010

34

0.745

3.94

143

6.75

36.8

67.6

81.9

1170

35

0.899

2.38

130

6.18

101

64.4

98.6

1070

3.5

36

1.61

4.4

151

17.4

7.25

103

177

1100

4.3

37

1.77

3.37

145

5.33

33.1

58.3

117

1010

5.2

Instrucciones de Minitab:

7 File > Open worksheet > WINEAROMA.MTW.


2

Stat > Regression > Partial Least Squares.

3 En Responses, seleccionar Aroma.


4 En Predictors, seleccionar Cd-K.
5 En Maximum number of components, teclear 17.
6 Pulsar Validation, y seleccionar Leave-one-out. Pulsar OK.
7 Pulsar Graphs, y seleccionar Model selection plot, Response plot, Std Coefficient
plot, Distance plot, Residual versus leverage plot, y Loading plot. Quitar seleccin de
Coefficient plot. Pulsar OK en cada caja de dilogo.
Los resultados son los siguientes:
PLS Regression: Aroma versus Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, ...
Number of components selected by cross-validation: 2
Number of observations left out per group: 1
Number of components cross-validated: 17

Model Selection and Validation for Aroma


Components
1
2
3
4
5
6
7
8
9
10
11

X Variance
0.225149
0.366697

Error SS
16.5403
12.3044
8.9938
8.2761
7.8763
7.4542
7.2448
7.1581
6.9711
6.8324
6.7488

R-Sq
0.598569
0.701374
0.781720
0.799139
0.808843
0.819087
0.824168
0.826274
0.830811
0.834178
0.836207

PRESS
22.3904
22.1163
23.3055
22.2610
24.1976
28.5973
31.0924
30.9149
32.1611
31.3590
32.1908

R-Sq (pred)
0.456585
0.463238
0.434377
0.459726
0.412726
0.305945
0.245389
0.249699
0.219451
0.238920
0.218732

Modelo Lineal General

P. Reyes / enero 2010

12
13
14
15
16
17

6.6955
6.6612
6.6435
6.6335
6.6296
6.6289

0.837501
0.838333
0.838764
0.839005
0.839100
0.839117

34.0891
34.7985
34.5011
34.0829
34.0143
33.8365

0.172660
0.155442
0.162660
0.172811
0.174476
0.178789

Se muestra el modelo ptimo con dos componentes, definido como el que tiene el mayor R^2, en
este caso es 0.46.
Analysis of Variance for Aroma
Source
Regression
Residual Error
Total

DF
2
34
36

SS
28.8989
12.3044
41.2032

MS
14.4494
0.3619

F
39.93

P
0.000

En el ANOVA anterior seindica que el modelo es significativo a un alfa de 0.05 ya que P = 0.000

PLS Model Selection Plot


(response is Aroma)

0.9

optimal
Variable
Fitted
Crossval

0.8
0.7

R-Sq

0.6
0.5
0.4
0.3
0.2
0.1
2

8
10
Components

12

14

16

En esta grfica la lnea vertical indica que el modelo ptimo tiene dos componentes. Se puede ver
que la capacidad predictiva de los modelos con ms de cuatro componentes decrece rpidamente.
En esta grfica se observa que la R^2 para dos componentes es de 70.1% y una R^2 de prediccin
de 46.3%. Un modelo de cuatro componentes tiene una R^2 de 79.9% pero una R^2 de prediccin
menor (46%).

Modelo Lineal General

P. Reyes / enero 2010

Al comparar la R^2 de prediccin del PLS de dos componentes (46%) se ve que es mayor a la R^2
de prediccin de 17 componentes del mtodo de mnimos cuadrados en rojo de (17.88%).
L a Varianza X indica la cantidad de variancia en los predictores que es explicada por el modelo. En
este ejemplo, el modelo de dos componentes explica el 36.7% de la varianza en los predictores.

PLS Response Plot


(response is Aroma)
2 components

Calculated Response

Variable
Fitted
Crossval

7
6

5
4
3
3

5
6
Actual Response

En esta grfica como los puntos se encuentran en un patrn lineal, el modelo ajusta
adecuadamente a los datos, no se observan diferencias significativas entre los puntos de respuesta
ajustada y los de validacin cruzada.

Modelo Lineal General

P. Reyes / enero 2010

PLS Std Coefficient Plot


(response is Aroma)
2 components

Standardized Coefficients

0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
2

8
10
Predictors

12

14

16

La grfica de coeficientes estandarizados para los predictores, se utiliza para interpretar la


magnitud y signo de los coeficientes. Los elementos Sr, B, Mo, Ba, Mg, Pb y Ca tienen los
coeficientes estandarizados ms grandes y por tanto mayor impacto en el aroma. Los elementos
Mo, Cr, Pb y B son positivos en relacin al aroma, mientras que Cd, Ni, Cu, Al, BA y Sr estn
relacionados en forma negativa.
PLS Loading Plot
0.6
Mo

0.5

Cr

Pb

Component 2

0.4
Si

0.3

Ca

Mg

0.2

Na

0.1

Ni

0.0
-0.1

Cd

Cu
Mn
Sr

Ba

-0.2
Al

-0.3
-0.5

-0.4

-0.3

-0.2
-0.1
Component 1

0.0

0.1

0.2

En esta grfica de carga se compara la influencia relativa de los predictores en la respuesta. En


este ejemplo, el Cu, Mn tienen lneas muy cortas, indicando baja carga y no se relaciona con el
aroma. Los elementos Sr, Mg y Ba tienen lneas largas, indicando que tienen cargas altas y estn
ms relacionadas con el aroma.

Modelo Lineal General

P. Reyes / enero 2010

PLS Distance Plot


2 components

9
8

Distance From Y

7
6
5
4
3
2
1
0
0.0

0.1

0.2

0.3

0.4
0.5
0.6
Distance From X

0.7

0.8

0.9

La grfica de distancia y la grfica de residuales vs apalancamiento muestra outliers y


apalancamientos. Se puede usar el Brushing para comparar al resto de los datos.
Las observaciones 14 y 32 tienen un valor de distancia mayor en el eje Y.
Las observaciones en filas 7, 12 y 23 tienen un valor mayor de distancia en el eje X.
PLS Residual Versus Leverage
(response is Aroma)
2 components

0.108

Standardized Residual

2
1
0
-1
-2
0.0

0.2

0.4

0.6

0.8

1.0

Leverages

La grfica de residuos vs apalancamiento confirma estos hallazgos, mostrando que:


Las observaciones 14 y 32 son outliers, porque estn fuera de la lneas horizontales de
referencia.

Modelo Lineal General

P. Reyes / enero 2010

Las observaciones en filas 7, 12 y 23 tienen valores extremos de apalancamiento, ya que


estn a la derecha de la lnea vertical de referencia.

10

Modelo Lineal General

P. Reyes / enero 2010

MODELO DE MNIMOS CUADRADOS PARCIALES (PLS) Statgraphics

Resumen
El procedimiento Mnimos Cuadrados Parciales (PLS Partial Least Squares) est diseado
para construir un modelo estadstico que relaciona mltiples variables independientes X con
mltiples variables dependientes Y. El procedimiento es mucho ms til cuando hay muchos
factores y el objetivo principal es predecir las variables respuesta. Los mnimos cuadrados
parciales (PLS) son ampliamente usados por ingenieros qumicos y quimiomtricos para
calibracin espectromtrica.
StatFolio de Ejemplo: pls.sgp
Datos de Ejemplo:
El archivo spectra.sf6 contiene los espectros observados de n = 33 muestras que contienen
concentraciones conocidas de dos aminocidos, tirosina (tyrosine) y triptofano (tryptophan). Los
espectros estn medidos a k = 30 frecuencias. Una porcin de los datos, tomados de McAvoy et
al. (1989), se muestra a continuacin:
Sample

Tryptophan Tyrosine

f1

f2

f3

f4

f5

f6

f7

f8

f9

f10

f11

f12

17mix35 0.00003

0.00000001

-6.215

-5.809

-5.114

-3.963

-2.897

-2.269

-1.675

-1.235

-0.9

-0.659

-0.497

-0.395

19mix35 0.0000297

0.0000003

-5.516

-5.294

-4.823

-3.858

-2.827

-2.249

-1.683

-1.218

-0.907

-0.658

-0.501

-0.4

21mix35 0.00002925 0.00000075

-5.519

-5.294

-4.501

-3.863

-2.827

-2.28

-1.716

-1.262

-0.939

-0.694

-0.536

-0.444

23mix35 0.0000285

0.0000015

-5.294

-4.705

-4.262

-3.605

-2.726

-2.239

-1.681

-1.25

-0.925

-0.697

-0.534

-0.437

25mix35 0.000027

0.000003

-4.6

-4.069

-3.764

-3.262

-2.598

-2.191

-1.68

-1.273

-0.958

-0.729

-0.573

-0.47

27mix35 0.0000225

0.0000075

-3.812

-3.376

-3.026

-2.726

-2.249

-1.919

-1.541

-1.198

-0.951

-0.764

-0.639

-0.57

29mix35 0.000015

0.000015

-3.053

-2.641

-2.382

-2.194

-1.977

-1.913

-1.728

-1.516

-1.317

-1.158

-1.029

-0.963

28mix35 0.0000075

0.0000225

-2.626

-2.248

-2.004

-1.839

-1.742

-1.791

-1.786

-1.772

-1.728

-1.666

-1.619

-1.591

26mix35 0.000003

0.000027

-2.37

-1.99

-1.754

-1.624

-1.56

-1.655

-1.772

-1.899

-1.982

-2.074

-2.157

-2.211

24mix35 0.0000015

0.0000285

-2.326

-1.952

-1.702

-1.583

-1.507

-1.629

-1.771

-1.945

-2.115

-2.297

-2.448

-2.585

22mix35 0.00000075 0.00002925

-2.277

-1.912

-1.677

-1.556

-1.487

-1.63

-1.791

-1.969

-2.203

-2.437

-2.655

-2.844

20mix35 0.0000003

-2.266

-1.912

-1.688

-1.546

-1.5

-1.64

-1.801

-2.011

-2.277

-2.545

-2.823

-3.094

18mix35 0.00000001 0.00003

-2.258

-1.9

-1.666

-1.524

-1.479

-1.621

-1.803

-2.043

-2.308

-2.626

-2.895

-3.214

trp2

0.0001

0.00000001

-5.922

-5.435

-4.366

-3.149

-2.124

-1.392

-0.78

-0.336

-0.002

0.233

0.391

0.49

mix5

0.00009

0.00001

-3.932

-3.411

-2.964

-2.462

-1.836

-1.308

-0.796

-0.39

-0.076

0.147

0.294

0.394

mix4

0.000075

0.000025

-2.996

-2.479

-2.099

-1.803

-1.459

-1.126

-0.761

-0.424

-0.144

0.06

0.195

0.288

mix3

0.00005

0.00005

-2.128

-1.661

-1.344

-1.16

-0.996

-0.877

-0.696

-0.495

-0.313

-0.165

-0.042

0.032

mix6

0.00001

0.00009

-1.14

-0.757

-0.497

-0.362

-0.329

-0.412

-0.513

-0.647

-0.772

-0.877

-0.958

-1.04

43trp6

0.000001

0.00000001

-5.915

-5.918

-6.908

-5.428

-4.117

-5.103

-4.66

-4.351

-4.023

-3.849

-3.634

-3.634

0.0000297

11

Modelo Lineal General


59mix6

0.0000009

51mix6

P. Reyes / enero 2010

0.0000001

-5.903

-5.903

-5.903

-5.082

-4.213

-5.083

-4.838

-4.639

-4.474

-4.213

-4.001

-4.098

0.00000075 0.00000025

-5.907

-5.907

-5.415

-4.843

-4.213

-4.843

-4.843

-4.483

-4.343

-4.006

-4.006

-3.912

49mix6

0.0000005

-5.419

-5.091

-5.091

-4.648

-4.006

-4.846

-4.648

-4.483

-4.343

-4.22

-4.22

-4.22

53mix6

0.00000025 0.00000075

-5.083

-4.837

-4.837

-4.474

-3.826

-4.474

-4.639

-4.838

-4.837

-4.639

-4.639

-4.641

57mix6

0.0000001

-5.082

-4.836

-4.639

-4.474

-3.826

-4.636

-4.638

-4.638

-4.837

-5.082

-5.082

-5.408

41tyro6

0.00000001 0.000001

-5.104

-4.662

-4.662

-4.358

-3.705

-4.501

-4.662

-4.859

-5.104

-5.431

-5.433

-5.918

28trp5

0.00001

0.00000001

-5.937

-5.937

-5.937

-4.526

-3.544

-3.17

-2.573

-2.115

-1.792

-1.564

-1.4

-1.304

37mix5

0.000009

0.000001

-5.109

-4.865

-4.501

-4.029

-3.319

-3.07

-2.569

-2.207

-1.895

-1.684

-1.516

-1.423

33mix5

0.0000075

0.0000025

-4.366

-4.129

-3.781

-3.467

-3.037

-2.939

-2.593

-2.268

-1.988

-1.791

-1.649

-1.565

31mix5

0.000005

0.000005

-3.79

-3.373

-3.119

-2.915

-2.671

-2.718

-2.555

-2.398

-2.229

-2.085

-1.971

-1.902

35mix5

0.0000025

0.0000075

-3.321

-2.97

-2.765

-2.594

-2.446

-2.548

-2.616

-2.617

-2.572

-2.55

-2.508

-2.487

39mix5

0.000001

0.000009

-3.142

-2.812

-2.564

-2.404

-2.281

-2.502

-2.589

-2.706

-2.842

-2.964

-3.068

-3.103

26tyro5

0.00000001 0.00001

-3.037

-2.696

-2.464

-2.321

-2.239

-2.444

-2.602

-2.823

-3.144

-3.396

-3.742

-4.063

tyro2

0.00000001 0.0001

-1.081

-0.71

-0.47

-0.337

-0.327

-0.433

-0.602

-0.841

-1.119

-1.423

-1.75

-2.121

0.0000005
0.0000009

Sample

f13

f14

f15

f16

f17

f18

f19

f20

f21

f22

f23

f24

f25

f26

f27

f28

f29

f30

17mix35

-0.335

-0.315

-0.333

-0.377

-0.453

-0.549

-0.658

-0.797

-0.878

-0.954

-1.06

-1.266

-1.52

-1.804

-2.044

-2.269

-2.496

-2.714

19mix35

-0.345

-0.323

-0.342

-0.387

-0.461

-0.554

-0.665

-0.803

-0.887

-0.96

-1.072

-1.272

-1.541

-1.814

-2.058

-2.289

-2.496

-2.712

21mix35

-0.384

-0.369

-0.377

-0.421

-0.495

-0.596

-0.706

-0.824

-0.917

-0.988

-1.103

-1.294

-1.565

-1.841

-2.084

-2.32

-2.521

-2.729

23mix35

-0.381

-0.359

-0.369

-0.426

-0.499

-0.591

-0.701

-0.843

-0.925

-0.989

-1.109

-1.31

-1.579

-1.852

-2.09

-2.316

-2.521

-2.743

25mix35

-0.422

-0.407

-0.422

-0.468

-0.538

-0.639

-0.753

-0.887

-0.968

-1.037

-1.147

-1.357

-1.619

-1.886

-2.141

-2.359

-2.585

-2.792

27mix35

-0.528

-0.525

-0.55

-0.606

-0.689

-0.781

-0.909

-1.031

-1.126

-1.191

-1.303

-1.503

-1.784

-2.058

-2.297

-2.507

-2.727

-2.97

29mix35

-0.919

-0.915

-0.933

-0.981

-1.055

-1.157

-1.271

-1.409

-1.505

-1.546

-1.675

-1.88

-2.14

-2.415

-2.655

-2.879

-3.075

-3.319

28mix35

-1.575

-1.58

-1.619

-1.671

-1.754

-1.857

-1.982

-2.114

-2.21

-2.258

-2.379

-2.57

-2.858

-3.117

-3.347

-3.568

-3.764

-4.012

26mix35

-2.267

-2.317

-2.369

-2.46

-2.545

-2.668

-2.807

-2.951

-3.03

-3.075

-3.214

-3.376

-3.685

-3.907

-4.129

-4.335

-4.501

-4.599

24mix35

-2.696

-2.808

-2.913

-3.03

-3.163

-3.265

-3.376

-3.534

-3.642

-3.721

-3.858

-4.012

-4.262

-4.501

-4.704

-4.822

-4.956

-5.292

22mix35

-3.032

-3.214

-3.378

-3.503

-3.646

-3.812

-3.958

-4.129

-4.193

-4.262

-4.415

-4.501

-4.823

-5.111

-5.113

-5.294

-5.29

-5.294

20mix35

-3.376

-3.572

-3.812

-4.012

-4.262

-4.415

-4.501

-4.705

-4.823

-4.823

-4.956

-5.111

-5.111

-5.516

-5.524

-5.806

-5.806

-5.806

18mix35

-3.568

-3.907

-4.193

-4.423

-4.825

-5.111

-5.111

-5.516

-5.516

-5.516

-5.516

-5.806

-5.806

-5.806

-5.806

-5.806

-6.21

-6.215

trp2

0.54

0.563

0.541

0.488

0.414

0.313

0.203

0.063

-0.028

-0.097

-0.215

-0.411

-0.678

-0.953

-1.208

-1.418

-1.651

-1.855

mix5

0.446

0.46

0.443

0.389

0.314

0.22

0.099

-0.033

-0.128

-0.197

-0.308

-0.506

-0.785

-1.05

-1.313

-1.529

-1.745

-1.97

mix4

0.337

0.354

0.33

0.274

0.206

0.105

-0.009

-0.148

-0.242

-0.306

-0.424

-0.626

-0.892

-1.172

-1.425

-1.633

-1.877

-2.071

mix3

0.069

0.079

0.05

-0.006

-0.082

-0.179

-0.295

-0.436

-0.523

-0.584

-0.706

-0.898

-1.178

-1.446

-1.696

-1.922

-2.128

-2.35

mix6

-1.104

-1.162

-1.233

-1.317

-1.425

-1.543

-1.661

-1.804

-1.877

-1.959

-2.034

-2.249

-2.502

-2.732

-2.964

-3.142

-3.313

-3.576

43trp6

-3.572

-3.513

-3.634

-3.572

-3.772

-3.772

-3.844

-3.932

-4.017

-4.023

-4.117

-4.227

-4.492

-4.66

-4.855

-5.428

-5.103

-5.428

59mix6

-4.001

-4.001

-3.907

-4.001

-4.098

-4.098

-4.206

-4.098

-4.213

-4.213

-4.335

-4.474

-4.639

-4.838

-4.837

-5.085

-5.41

-5.41

51mix6

-3.83

-3.83

-3.755

-3.912

-4.006

-4.001

-4.213

-4.213

-4.335

-4.483

-4.483

-4.642

-4.841

-5.088

-5.088

-5.415

-5.415

-5.415

49mix6

-4.11

-4.11

-4.11

-4.22

-4.22

-4.343

-4.483

-4.483

-4.65

-4.65

-4.846

-4.846

-5.093

-5.091

-5.419

-5.417

-5.417

-5.907

53mix6

-4.641

-4.639

-4.639

-4.837

-4.838

-4.838

-5.083

-5.082

-5.083

-5.41

-5.41

-5.408

-5.408

-5.9

-5.41

-5.903

-5.9

-6.908

57mix6

-5.082

-5.08

-5.408

-5.408

-5.408

-5.408

-5.408

-5.408

-5.408

-5.9

-5.9

-5.9

-5.9

-5.9

-5.9

-5.9

-6.908

-6.908

41tyro6

-5.918

-5.918

-5.431

-5.918

-5.918

-5.918

-5.918

-5.918

-5.918

-5.918

-5.918

-6.908

-5.918

-5.918

-6.908

-6.908

-5.918

-5.918

12

Modelo Lineal General

P. Reyes / enero 2010

28trp5

-1.244

-1.213

-1.24

-1.292

-1.373

-1.453

-1.571

-1.697

-1.801

-1.873

-2.008

-2.198

-2.469

-2.706

-2.99

-3.209

-3.384

-3.601

37mix5

-1.367

-1.348

-1.374

-1.415

-1.503

-1.596

-1.718

-1.839

-1.927

-1.997

-2.118

-2.333

-2.567

-2.874

-3.106

-3.313

-3.579

-3.781

33mix5

-1.52

-1.509

-1.524

-1.58

-1.665

-1.758

-1.882

-2.037

-2.09

-2.162

-2.284

-2.465

-2.761

-3.037

-3.27

-3.52

-3.709

-3.937

31mix5

-1.86

-1.837

-1.881

-1.949

-2.009

-2.127

-2.23

-2.381

-2.455

-2.513

-2.624

-2.827

-3.117

-3.373

-3.586

-3.785

-4.04

-4.366

35mix5

-2.488

-2.487

-2.529

-2.593

-2.688

-2.792

-2.908

-3.037

-3.149

-3.189

-3.273

-3.467

-3.781

-4.029

-4.241

-4.501

-4.669

-4.865

39mix5

-3.182

-3.268

-3.361

-3.411

-3.517

-3.576

-3.705

-3.849

-3.932

-3.932

-4.029

-4.234

-4.501

-4.664

-4.86

-5.104

-5.431

-5.433

26tyro5

-4.398

-4.699

-4.893

-5.138

-5.14

-5.461

-5.463

-5.945

-5.461

-5.138

-5.14

-5.138

-5.138

-5.463

-5.461

-5.461

-5.461

-5.461

tyro2

-2.449

-2.818

-3.11

-3.467

-3.781

-4.029

-4.241

-4.366

-4.501

-4.366

-4.501

-4.501

-4.668

-4.668

-4.865

-4.865

-5.109

-5.111

La columna de ms a la izquierda identifica cada muestra (sample). Las siguientes 2 columnas


son concentraciones conocidas de los aminocidos. Las 30 columnas restantes contienen los
espectros medidos. Nota: concentraciones originalmente iguales a 0 se pusieron a 1.0E-8 para
que se pudiera realizar la transformacin logartmica.
A continuacin se muestra el espectro observado para una muestra tpica:

Las primeras 18 muestras se usarn como grupo de entrenamiento para estimar un modelo de
prediccin. Entonces el modelo se probar en las 15 muestras restantes.
Ingreso de Datos
La caja de dilogo solicita los nombres de las columnas que contienen a las variables
dependientes Y e independientes X:

13

Modelo Lineal General

P. Reyes / enero 2010

Y: una o ms columnas numricas que contienen las n observaciones para las variables
dependientes Y. Se pueden ingresar nombres de columnas o expresiones de
STATGRAPHICS.
X: una o ms columnas numricas que contienen los n valores para las variables
independientes X.
Seleccin: seleccin de un subgrupo de datos. Las filas seleccionadas se usarn como el
grupo de entrenamiento. Las filas as elegidas pueden usarse como un grupo de prueba para
validar el modelo ajustado.
En el ejemplo, se tomaron los logaritmos base 10 de las concentraciones para crear dos variables
dependientes. Todas las 30 frecuencias se ingresaron en el campo de las Variables
Independientes. La entrada en el campo Seleccin har que las primeras 18 filas se usen como
grupo de entrenamiento.
Modelo Estadstico
Al igual que en regresin mltiple, el objetivo de los mnimos cuadrados parciales (PLS) es
construir un modelo lineal de la forma
Y = X + E (1)

14

Modelo Lineal General

P. Reyes / enero 2010

donde Y es una matriz n por m que contiene los n valores estandarizados de las m variables
dependientes, X es una matriz n por p que contiene los valores estandarizados de las p variables
predictoras, es una matriz p por m de parmetros del modelo, y E es una matriz n por m de
errores. A diferencia de la regresin mltiple, el nmero de observaciones n puede ser menor que
el nmero de variables independientes p.
Sin embargo, en vez de estimar directamente, se extraen primero c componentes. Luego los
coeficientes se calculan a partir del producto de dos matrices:
= WQ (2)
donde W es una matriz p por c de pesos que transforman a X en una matriz T de valores de los
factores de acuerdo con
T = XW (3)
y Q es una matriz de coeficientes de regresin (cargas) que expresan la dependencia entre Y y los
valores de los factores:
Y = TQ + E (4)
La matriz de variables independientes tambin puede representarse en trminos de P una matriz c
por p de cargas de factores como
X = TP + F (5)
donde F es una matriz n por p de desviaciones.
Parte de la tarea al realizar un anlisis de mnimos cuadrados parciales (PLS) es determinar el
nmero apropiado de componentes c. Si se establece c demasiado bajo o demasiado alto, el
modelo puede no dar buenas predicciones para las futuras observaciones.
Resumen del Anlisis
El Resumen de Anlisis muestra informacin sobre el modelo ajustado. La seccin de arriba de la
salida resume los datos de entrada y presenta un anlisis de varianza para cada variable
dependiente.

15

Modelo Lineal General

P. Reyes / enero 2010

Se incluyen en la salida:
Resumen Estadstico: un indicador del nmero (p) de variables X y (m) del nmero de
variables Y.
Nmero de Casos Completos: el nmero de observaciones n en el grupo de
entrenamiento.
Nmero de Componentes Extrados: el nmero de componentes c usado para ajustar el
modelo. c no puede ser mayor que el menor de p y (n 1).
Validacin Cruzada: el mtodo para validar el modelo de prediccin. Dependiendo de
las Opciones del Anlisis, un grupo de prueba interno o externo puede ser usado para
ayudar a elegir el nmero de componentes.
Anlisis de Varianza: una tabla de ANOVA para cada una de las variables dependientes.
Valores pequeos de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%)
indican que el modelo es estadsticamente significativo.
En el ejemplo anterior, se extrajeron 10 componentes. Los modelos resultantes son predictores
significativos para las concentraciones de ambos aminocidos., ya que ambos valores de P son
extremadamente pequeos.

16

Modelo Lineal General

P. Reyes / enero 2010

La segunda parte de la salida ilustra la utilidad del modelo con diferente nmero de
componentes:

Para cada variable dependiente, las tablas muestran:


% de Variacin en Y: el porcentaje de la suma de cuadrados total corregida para el
grupo de entrenamiento explicada por cada componente conforme es agregado al
ajuste.
R-Cuadrada: el porcentaje acumulado del total de la variacin explicada por los
modelos con el nmero indicado de componentes, en una escala de 0% a 100%.
Cuadrado Medio PRESS: cuadrado medio de los errores de prediccin, calculado a
partir del grupo de prueba de validacin cruzada (PRESS, Prediction Error Sum of
Squares Suma de Cuadrados del Error de Prediccin). Esta estadstica es
comparable al cuadrado medio de los residuos de la tabla de ANOVA, excepto que la

17

Modelo Lineal General

P. Reyes / enero 2010

primera se calcula a partir de las predicciones para las observaciones cuando stas no
se emplean para ajustar el modelo. Al elegir el nmero de componentes a extraer, se
debe buscar un modelo con un cuadrado medio PRESS pequeo.
R Cuadrada de Prediccin: uno menos la razn del Cuadrado Medio PRESS para el
nmero indicado de componentes al valor cuando se ajusta un modelo con slo un
trmino constante. Valores altos indican buenos modelos.
La R Cuadrada de Prediccin alcanza un pico para LOG10(Tryptophan) en 3 componentes, y
para LOG10(Tyrosine) en 9 componentes.
La ltima seccin de la salida presenta una tabla similar para los porcentajes de la variacin total
en las variables X y Y explicada conforme aumenta el nmero de componentes.

La ltima columna muestra la R Cuadrada de Prediccin promedio a travs de todas las


variables dependientes. El promedio alcanza un pico en 7 componentes, sugiriendo que un
modelo con siete componentes sera una buena eleccin.

18

Modelo Lineal General

P. Reyes / enero 2010

Este grfico es til para visualizar cuntos componentes tienen que extraerse. Advierta que el
porcentaje de variacin para PRESS aumenta a lo largo de 7 componentes.
Nota: En el resto de este documento, se mostrarn los resultados para un modelo con 7
componentes.
Opciones del Anlisis

Nmero de componentes: el nmero de componentes a incluir en el modelo. Este nmero


no puede exceder al menor del nmero de variables independientes y n 1.
Mtodo de Validacin: el mtodo para validar de forma cruzada el modelo. Esto consiste en

19

Modelo Lineal General

P. Reyes / enero 2010

usar el modelo para predecir observaciones excluidas del ajuste del modelo. Se pueden usar
los siguientes mtodos:
1. Ninguno no se lleva a cabo la validacin cruzada.
2. Sacar uno a la vez el modelo se vuelve a ajustar n veces, cada vez dejando fuera 1 de
las observaciones y volviendo a ajustar el modelo usando las otras n 1. Luego la
observacin omitida se predice con el modelo del que fue excluida.
3. Sacar cada k-sima ste es similar al mtodo #2, excepto que slo cada k-sima
observacin es omitida y luego predicha. Esto acorta el proceso en grandes conjuntos de
datos.
4. Dejar fuera bloques de k las observaciones se remueven en grupos de k, el modelo se
vuelve a ajustar, y se predicen las k observaciones.
5. Usar casos no seleccionados si hizo uso del campo Seleccionar en la caja de dilogo
del ingreso de datos, los casos excluidos por esa seleccin se usarn como casos de
prueba.
En el ejemplo, el campo Seleccionar eligi las primeras 18 filas para usarlas como grupo de
entrenamiento para el modelo, formando con las 15 filas restantes un grupo de prueba.
Coeficientes de Regresin
La table de Coeficientes de Regresin muestra los coeficientes estimados de los modelos
ajustados. Se exhiben ambos coeficientes, estandarizados y sin estandarizar. A continuacin se
muestra una pequea seccin de la salida:

20

Modelo Lineal General

P. Reyes / enero 2010

El modelo sin estandarizar muestra la ecuacin ajustada en la mtrica de las mediciones


originales. Por ejemplo, el modelo para la primera variable dependiente es
log(Tryptopan) = -4.851 0.105f1 + 0.113f2 0.126f3 + 0.406f4 + (6)
El modelo estandarizado reexpresa cada una de las variables en una forma estandarizada
substrayendo su media muestral y dividiendo entre su desviacin estndar muestral. Expresando
las nuevas variables como Y, X1, X2, y as sucesivamente, el modelo estandarizado para dos datos
muestrales es
Y = 0.160X1 + 0.173X2 0.171X3 + 0.423X4 + (7)
Mientras que el modelo sin estandarizar es til para hacer predicciones para nuevas muestras, los
coeficientes del modelo estandarizado se comparan ms fcilmente entre s cuando las variables
predictoras tienen diferentes unidades.
Grfica de Coeficientes
La Grfica de Coeficientes presenta una de dos cantidades:
1. Los coeficientes de regresin estandarizados para cada variable dependiente.
2. Las cargas Q del componente para cada variable dependiente.
El ejemplo a continuacin grafica las s:

Los coeficientes proveen un tipo de firma para cada variable dependiente. Advierta el gran
coeficiente negativo para f4 cuando predice LOG10(Tyrosine).

21

Modelo Lineal General

P. Reyes / enero 2010

Opciones de Ventana

Eje Y: la cantidad y valor a graficar en el eje vertical.


Primer Y/Comp: el ndice de la primer variable o componente a incluir en el grfico.
ltima Y/Comp: el ndice de la ltima variable o componente a incluir en el grfico.
Primer X: el ndice de la primer variable independiente a incluir en el grfico.
ltima X: el ndice de la ltima variable independiente a incluir en el grfico.
Pesos y Cargas de los Componentes
La tabla de Pesos y Cargas de los Componentes identifica cada uno de los componentes que se
extrajeron de los datos. A continuacin se muestra una porcin de la tabla:

22

Modelo Lineal General

P. Reyes / enero 2010

Se incluyen en la tabla:
1. Q, la matriz c por m de cargas (coeficientes de regresin) que relaciona la matriz de
valores de los factores T con la variable dependiente Y:
Y = TQ + E (8)
2. W, la matriz p por c de pesos de los factores, que crean los valores de los factores a partir
de los valores estandarizados de las variables independientes de acuerdo con
T = XW (9)
Grfico de Componentes 2D
La opcin Grfico de Componentes 2D presentar la matriz T de puntajes de los factores o las
matrices W y P de los pesos de los componentes. En el caso de la matriz de valores de los
factores, el grfico toma la siguiente forma:

Se seleccionan dos factores, para por cada eje, y se grafican n puntos que representan las n filas
en las correspondientes columnas de T. En situaciones donde los factores son interpretables, este
grfico muestra el valor de cada una de las muestras para estos factores.
Si se eligen los pesos de los componentes, el grfico tiene la siguiente forma:

23

Modelo Lineal General

P. Reyes / enero 2010

Se eligen dos componentes, uno para cada eje, y se grafican p + m puntos que representan las p
variables independientes y las m variables dependientes. A partir de esta grfica, se puede ver
cmo cada una de las variables originales afecta a los componentes derivados.
Opciones de Ventana

Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los
pesos del componenete.

24

Modelo Lineal General

P. Reyes / enero 2010

Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje
horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje
vertical.
Grfica de Componentes 3D
La opcin Grfica de Componentes 3D es anloga al grfico 2D excepto que se eligen tres
componentes.

Opciones de Ventana

25

Modelo Lineal General

P. Reyes / enero 2010

Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los
pesos del componente.
Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje
horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje
que se extiende hacia atrs al interior de la pantalla.
Componente en Eje Z: Seleccione uno de los c componentes para que se grafique en el eje
vertical.
Predicciones y Residuos
La ventana de Predichos y Residuos presenta informacin para las observaciones en el grupo de
entrenamiento, observaciones en el grupo de prueba, y/o cualesquiera nuevas filas que hayan
sido agregadas a la hoja de datos que contengan valores para las variables independientes pero
valores faltantes para Y. La ltima opcin le permite emplear el modelo para hacer predicciones
para las observaciones no incluidas ni en el grupo de entrenamiento ni en el de prueba.
La tabla a continuacin muestra parte de la salida para los datos del ejemplo:

26

Modelo Lineal General

P. Reyes / enero 2010

Se incluye una tabla por separado para cada variable dependiente. Se incluyen en la tabla:
Fila el nmero de la fila en la hoja de datos.
Y el valor observado de la variable independiente, si lo hay.
Predicho el valor Y predicho a partir del modelo ajustado.
Residuo el valor del residuo para la i-sima observacin de la j-sima variable
dependiente se calcula con

Residuo Estandarizado para los casos en el grupo de entrenamiento, un residuo


Estudentizado internamente calculado dividiendo cada residuo entre una estimacin de su
error estndar, dado por

donde hi es el punto nivelador del i-simo caso.


Opciones de Ventana

27

Modelo Lineal General

P. Reyes / enero 2010

Las filas mostradas pueden incluir:


1. Residuos atpicos en el grupo de entrenamiento: cualquiera hileras en el grupo de
entrenamiento con residuos estandarizados que excedan de 2 en valor absoluto.
2. Todo el grupo de entrenamiento: todas las hileras del grupo de entrenamiento.
3. Conjunto de prueba: todas las hileras del grupo de prueba.
4. Filas con respuestas vacas: filas con valores vacas para una o ms de las variables
dependientes.
Observados versus Predichos
Este grfico muestra los valores de una variable dependiente elegida versus los valores predichos
por el modelo ajustado:

28

Modelo Lineal General

P. Reyes / enero 2010

Si el modelo ajusta bien, los puntos debieran alinearse a lo largo de la lnea diagonal.
Opciones de Ventana

Elija la variable dependiente que desee graficar.


Puntos Leverage
Cuando se ajusta un modelo PLS, no todas las observaciones tienen la misma influencia en la
estimacin de los coeficientes en el modelo ajustado. Aqullas con valores atpicos de las
variables independientes tienden a tener ms influencia que las otras.. La ventana de Puntos

29

Modelo Lineal General

P. Reyes / enero 2010

Leverage muestra cualesquiera observaciones que tienen una inusual influencia en el modelo
ajustado:

El punto leverage es una estadstica que mide la influencia de cada observacin en el modelo
final. Las observaciones se ponen en la lista si tienen ms de 3 veces el leverage de un punto
promedio. Las observaciones con altos puntos leverage deben examinarse de cerca para estar
seguros de que son vlidas, ya que una observacin con punto leverage alto que es tambin un
valor atpico puede distorsionar gravemente al modelo estimado.
En los datos de la muestra, no hay puntos leverage altos.
Grficas de Distancia para Residuos
Las Grficas de Distancia para Residuos grafican la distancia del origen a los residuos de X o Y
que corresponden a cada caso en el grupo de entrenamiento. Los grficos pueden usarse para
determinar qu casos se desvan ms de los valores predichos.

Las
Laa distancias se expresan como la suma de cuadrados de la diferencia entre los valores
observados y predichos de las variables estandarizadas. Para las variables Y, los residuos son
elementos de la matriz E de dimensiones n por m en la ecuacin
Y = X + E (12)

30

Modelo Lineal General

P. Reyes / enero 2010

Para las variables X, los residuos son elementos de la matriz F de dimensiones n por p en la
ecuacin
X = TP + F (13)
Salvar Resultados
Se pueden salvar en la hoja de datos los siguientes resultados:
1. Valores predichos los valores predichos de la(s) variable(s) dependiente(s).
2. Residuos Y los residuos para cada variable dependiente.
3. Residuos Estandarizados Y los residuos estandarizados para cada variable dependiente.
4. Residuos PRESS los residuos PRESS para cada variable dependiente.
5. Residuos X los residuos para cada variable independiente.
6. Leverages los puntos niveladores para cada uno de los n casos.
7. Distancias Y la distancia de los residuos Y para cada uno de los n casos.
8. Distancias X la distancia los residuos X para cada uno de los n casos.
9. Pesos de Componentes la matriz W de pesos.
10. Cargas de factor Y la matriz Q de cargas de los factores.
11. Cargas de factor X la matriz P de cargas de los factores.
12. Matriz de valores la matriz T de valores.
Clculos
El programa usa el algoritmo NIPALS (Nonlinear Iterative Partial Least Squares, Mnimos
Cuadrados Parciales Iterativos No Lineales) para extraer los componentes, despus de
transformar primero cada variable de manera que tengan una media de 0 y una desviacin
estndar de 1.

31

You might also like