Professional Documents
Culture Documents
Mínimos Cuadrados
UNIVERSIDAD DE SEVILLA
1
Puntos a Tratar
1. Introducción.
4. Conclusiones.
5. Referencias.
2
Introducción
El método de Mínimos Cuadrados tiene
una larga historia que se remonta a
principios del siglo XIX.
Ceres
Sol
Tierra
Carl Friedrich Gauss
[1777- 1855]
3
Puntos a Tratar
1. Introducción.
2. Mínimos cuadrados determinista.
2.1. Interpretación geométrica.
2.2. Aumentando el orden de la aproximación.
2.3. Aumentando el número de observaciones.
2.4. Mínimos cuadrados con restricciones.
2.5. Dependencia no lineal.
3. Mínimos cuadrados estocástico.
3.1. Teorema de Gauss-Markov.
3.2. Interpretación Geométrica.
3.3. Teorema de Aitken.
4. Conclusiones.
5. Referencias.
4
Mínimos Cuadrados Determinista
θ e[n]
Notación Vectorial.
θ Vector con los p parámetros de interés. θ = [θ1,…, θp ]T
s[n] Señal determinista dependiente de θ. s(θ) = [s[0],…, s[N-1] ]T
e[n] Ruido y desajustes del modelo. e(θ) = [e[0],…, e[N-1] ]T
x[n] Observaciones. x = [x[0],…, x[N-1] ]T
5
Mínimos Cuadrados Determinista
Objetivo:
Buscar la mejor aproximación ˆ
del sistema sobredeterminado x ≅ s( )
H = [h , , h ] matriz de observación ( N × p )
1 p
6
Dependencia Lineal
Solución ( si rango(H T H ) = p )
J(θ)
∂J ( )
= −2( x − H )T H = 0
∂ T J(θ ) estrict.
∂ ∂J ( )
T
convexa.
= 2HT H > 0 (def +)
∂ T ∂ T
0
¿Señal estimada a partir de la mejor aproximación? ˆ
-1
sˆ = Hˆ = HH + x
-2
1
donde þ + −1
= (H H ) H
T T
Pseudoinve rsa de H
-2 0 2
7
Dependencia Lineal
Solución ( si rango(H T H ) < p ) ∂ ∂J ( )
T
= 2H H ≥ 0 (semidef +)
T
∂ T ∂ T
Inf. Soluciones ∀q ∈ ℜ n
ˆ = H + x + (I − H + H )q
8
Ejemplo
Señal cuadrática en ruido: x[n] = θ1+ θ2 n + θ3 n2+e[n] 1 0 0
1 1 1
H = 1 2 22
x[n] 10
^s [n] 8
1 N N 2
6
10
4
* = − 0.3
2
0.002
0
10.076
-2
ˆ
= − 0.299
-4
n 0.0020
0 20 40 60 80 100
sˆ = Hˆ
9
9
Interpretación Geométrica
Principio de Ortogonalidad:
< e, h i >= 0 i = 1, , p.
El error mínimo e es ortogonal al subespacio (H) = {y : y = Hz ∀z ∈ ℜ }
p
x
h2
e M (H )
e e x
e
0
h1 ŝ h1 h2 ŝ
10
*Interpretación Geométrica
Demostración del principio de ortogonalidad:
∂J ( )
= −2eT H = 0T ⇒ [h1 ,, h N ]T e = [0,,0]
∂ T =ˆ
⇒ < e, h i >= 0 i = 1, , p.
sˆ = Hˆ ∈ M ( H ) ⇒ < e, sˆ >= 0 .
11
11
Matrices de Proyección ⊥
¿Cómo es el operador que proyecta x sobre M(H)? … ¿y sobre M (H ⊥
)?
sˆ = HH + x e = x − sˆ = (I − HH + )x
M (H ⊥ )
x x
e = PH⊥ x
0 0
sˆ = PH x
M (H ) M (H )
12
12
Matrices de Proyección ⊥
Propiedades de las matrices de proyección ortogonal:
1. Son simétricas PH = PHT
2. Son idempotentes PH PH = PH
3. Sus autovalores 0 si el autovector asociado q i ∉ M ( H )
λi =
1 si el autovector asociado q i ∈ M ( H )
⇒ sˆ = PH1 x + PH 2 x
13
13
Aumentando el Orden
Sea ˆk −1 = (H Tk −1H k −1 ) −1 H Tk −1x el estimador que nos da la mejor aproximación
con k-1 parámetros. Cuando añadimos un nuevo parámetro tendremos
Existe una solución recursiva que aprovecha ˆk −1 para calcular ˆk .
14
14
Aumentando el Orden
Deducción geométrica:
hk
La innovación es la componente ~
hk
de hk ortogonal a M (H k −1 ) . M ( H k −1 )
0
x
~ M (H k )
h k ŝ k ¿Por qué es preferible
trabajar con la innovación?
0 sˆ k −1 M ( H k −1 )
~
sˆ k = sˆ k −1 + h k
De ambas ec. se despeja la
sˆ k = H k ˆk soluc. recursiva para ˆk
15
15
*Aumentando el Orden
Deducción detallada: ~ hk
h k = PH⊥k −1 h k
M (H k −1 )
~
como M ([H k −1 , h k ]) ≡ M ([H k −1 , h k ])
hˆ k = PH k −1 h k = H k −1.
~ ~
hk h ~
sˆ k = P[ H − ,h~ ] x = PH k −1 x + Ph~ x ~ x, ~ k = hk
k 1 k k hk hk
sˆ k = H k −1ˆk −1 + (h k − H k −1. )
ˆ − .
= (H k −1 , h k )⋅ k −1
Hk ˆk 16
16
Ejemplo
12
10
k=1
RE G RE S IÓ N S E G Ú N "K "
8
k=2
6 k=3,..,10
4
-2
-4
0 20 40 60 80 100
17
Ejemplo (continuación)
40
COSTE MÍNIMO Jmin[p] 35 Constante
30
25
20 Línea
15
Parábola
10
0
0 2 4 6 8 10
N. DE PARÁMETROS
18
Aumentando Observaciones
Sea ˆ[n − 1] la estimación a partir de los datos x[0], …, x[n-1]. Si añadimos
un dato más (x[n]), el nuevo estimador será
x H[n − 1]
ˆ[n] = (H T [n]H[n]) −1 H T [n]x n con x n = n −1 H[n] = T
x[ n] h [ n]
19
Aumentando Observaciones
Interpretación de la solución:
hT [n]
xˆ[n] ˆ[n − 1]
Predicción basada en
los datos anteriores
20
20
Ejemplo
Media de una señal en ruido: x[n] = θ + e[n]
1 n 1
ˆ[n] = ∑
n + 1 k =0
x[k ] ⇒ ˆ[n] = ˆ[n − 1] +
n +1
⋅ ( x[n] − ˆ[n − 1])
1.1
1.05
0.95
M E DIA
0.9
0.85
0.8
0.75
0.7
0 10 20 30 40 50 60 70 80 90 100
M UE S TRA S
21
21
Ponderación del Error
A veces nos interesa ponderar cada error por separado:
n
J ( ) = ∑ Wii ⋅ e[i ] = (x − H )T W ( x − H )
2
donde W diagonal def +
i =0
x = W 2x
1
J ( ) = x − H
2
H = W 2H
1
+
ˆ = H x = (HT WH ) −1 HT Wx
22
22
Restricciones Lineales
Otras veces, la aproximación debe cumplir ciertas restricciones:
min J ( ) sujeto a A = b
L( ) = ( x − H )T (x − H ) + T ( A − b)
∂L( )
=0
∂
A − b = 0
23
23
Dependencia No Lineal
¿Qué podemos hacer cuando s( ) depende no linealmente con ?
Posibilidades:
A. Casos simples:
1. Transformación de los parámetros.
2. Separabilidad de los parámetros.
B. Casos difíciles:
3. Otros métodos de minimización: NR, GN, etc.
24
24
Transformación de Parámetros
← → . = g ( )
Univoca
Si ∃ g :
s[ n] lineal en .
.ˆ = (H T H ) H T x
−1
ˆ = g −1 (.ˆ )
25
25
Ejemplo
Estimación de la amplitud y fase de un coseno en ruido.
A cos 3
. =
x[n] = A cos(2I 0 n + 3) + e[n] − A sin 3
= .1 cos 2I 0 n + .2 sin 2I 0 n + e[n] 1 0
cos 2I o sin 2I o
H=
cos 2 ( N − 1) sin 2 ( N − 1)
o I
o I
.ˆ = (H T H ) H T x
−1
1.
ˆ
A .1 + .2
ˆ2 ˆ2
2. =
3
ˆ
arctan
(−.ˆ.ˆ )1
2
26
26
Ejemplo (continuación)
55
N = 100
f0 = 5Hz.
L NE S
CIO
A = 3 V.
AA
00
EÑ
O B S ESRV
ϕ = 1 rad.
Aˆ 3.09
=
3ˆ 1.04
-5
-5
00 0.2
0.2 0.4
0.4 0.6
0.6 0.8
0.8 11
TIE
TIEM
MPPO
O
27
Separabilidad de Parámetros
Sea = (. T , T ) el problema se dice separable si
T
no lineal en α
s = H (. ) ⋅
lineal en β
(
ˆ = H T (. ) H (. ) )
−1
H T (. ) x
( )
J (., ˆ ) = xT I − H (. )(H T (. ) H (. ) ) H T (. ) x
−1
28
28
Otros métodos
T
∂J
Iteración de Newton-Raphson: busca los ceros de T
∂
−1
∂ ∂J ∂J
Problemas de convergencia
T T
( k +1)
= (k )
− T T T
∂ ∂ ∂
= ( k )
H ( (k ) )
(
( k +1) = ( k ) + H T ( ( k ) ) H ( ( k ) ) )
−1
(
H T ( ( k ) ) ⋅ x − s( ( k ) ) )
29
29
Puntos a Tratar
1. Introducción.
2. Mínimos cuadrados determinista.
2.1. Interpretación geométrica.
2.2. Aumentando el orden de la aproximación.
2.3. Aumentando el número de observaciones.
2.4. Mínimos cuadrados con restricciones.
2.5. Dependencia no lineal.
3. Mínimos cuadrados estocástico.
3.1. Teorema de Gauss-Markov.
3.2. Interpretación Geométrica.
3.3. Teorema de Aitken.
4. Conclusiones.
5. Referencias.
30
30
Mínimos Cuadrados Estocástico
Consideremos el modelo lineal de los datos x = H + e
31
31
Mínimos Cuadrados Estocástico
Criterio natural del optimalidad: MSE ↓ ⇒ p (ˆi | i )
∀ i MSE ˆ = | sesgo ˆ | 2
+ v arˆ
i i i
MSE ˆ = varˆ = a Ti C e a i
i i
Objetivo:
Min
ˆ
varˆ
i i
sujeto a ˆi lineal e insesgado ∀ i = 1, ,p
Min
ˆ
a Ti C e a i
i
sujeto a a Ti h j = /ij ,p
∀i,j = 1,
32
32
Teorema de Gauss-Markov
33
33
Interpretación Geométrica
Proyección ⊥
Proyección
Oblícua.
x
sˆ = HA ⋅ x
• H
(H)
34
34
Teorema de Aitken
x = C e− 2 x
1
Ce = I ⇒ +
ˆ = H x = (H T Ce−1H ) −1 H T Ce−1x
H = C e− 2 H
1
35
35
Puntos a Tratar
1. Introducción.
2. Mínimos cuadrados determinista.
2.1. Interpretación geométrica.
2.2. Aumentando el orden de la aproximación.
2.3. Aumentando el número de observaciones.
2.4. Mínimos cuadrados con restricciones.
2.5. Dependencia no lineal.
3. Mínimos cuadrados estocástico.
3.1. Teorema de Gauss-Markov.
3.2. Interpretación Geométrica.
3.3. Teorema de Aitken.
4. Conclusiones.
5. Referencias.
36
36
Conclusiones Importantes
; MC determinista método de aproximación.
+ Interpretación geométrica y principio de ortogonalidad.
+ Innovación soluc. recursivas.
– Dependencia no lineal técnicas de minimización.
; Ambos métodos:
+ Simplicidad en las hipótesis estimador muy utilizado.
37
37
Conclusiones Futuras
38
38
Referencias
[Kay,93] Kay, Steven M., “Fundamentals of Statistical Signal Processing:
Estimation Theory”, Prentice Hall, 1993. ISBN: 0-13-345711-7.
Capítulos 4,6 y 8.
[Luenberger,69] Luenberger, David G., “Optimization by Vector Space Methods”, John
Willey & Sons, 1969. SBN: 47155359x. Capítulos 3 y 4.
[Kailath,00] Kaylath, T., Sayed, A.H., Hassibi, B., “Linear Estimation”,
Prentice Hall, 2000. ISBN: 0-13-022464-2. Capítulos 1 y 2.
39
39