Professional Documents
Culture Documents
POBLACIONES BIOLÓGICAS
1. Estimadores de regresión 7
1.1. Estimador diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1. Efecto de Diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Introducción a los estimadores de regresión . . . . . . . . . . . . . . . . . . . 12
1.3. La varianza de un estimador de regresión . . . . . . . . . . . . . . . . . . . . 20
iii
iv ÍNDICE GENERAL
Estimadores de regresión
El principal tópico de esta sección es el estimador de regresión, sin embargo hacemos una
introducción al estimador diferencia por las siguientes razones:
Para el k−ésimo elemento se define el vector xk = (x1k , x2k , ..., xjk , ..., xJk )0 . Como es natural
la variable de estudio y toma el valor yk para el k−ésimo elemento.
Los valores y1 , y2 , ..., yN se asumen desconocidos donde x1 , x2 , ..., xj , ..., xN son conocidas. El
parámetro poblacional al ser estimado, es el total poblacional de y:
X
ty = yk
U
La idea principal del estimador diferencia es la de usar información auxiliar para formar
conjuntos de N representativos valores de y, denotados y1o , y2o , ..., yN
o
, tal que yko es al menos
una adecuada aproximación de yk .
7
8 1. ESTIMADORES DE REGRESIÓN
Con información auxiliar x1k , x2k , ..., xjk , ..., xJk , se expresa yko como una combinación lineal
de xk , es decir:
J
X
yko = Aj xjk = A0 xk
j=1
donde A = (A1 , A2 , ..., AJ )0 es un vector de valores conocidos. Observe que yko se puede cal-
cular para todo k ∈ U .
es razonable escoger
J
X
yko = Aj xjk = A0 xk
j=1
yko = Ajk = xk
y se sigue que
.
yk = yko = xk , ∀k ∈ U
Ahora, el total poblacional desconocido a ser estimado puede escribirse como:
X
ty = yk
U
X X
= yko + (yk − yko )
U U
X X
= yko + Dk (1.1.1)
U U
donde
Dk = yk − yko
Luego se define el estimador diferencia como sigue:
1.1. ESTIMADOR DIFERENCIA 9
X X Dk X X
t̂y,dif = yko + = yko + Ďk (1.1.2)
U s
πk U s
Con estimador:
X X ∆kl Dk Dl
V̂ (t̂y,dif ) =
s
πkl πk πl
!
X X Dk
E(t̂y,dif ) = E yko +
U s
πk
!
X X Dk
= yko + E Ik (S)
U U
πk
X X Dk
= yko + E (Ik (S))
U U
πk
X X Dk
= yko + πk
U U
πk
X X
= yko + Dk
U U
X X
= yko + (yk − yko )
U U
X
= (yko + yk − yko )
U
X
= yk
U
= ty .
10 1. ESTIMADORES DE REGRESIÓN
N2 2
AVM AS (t̂y,dif ) = (1 − f )SD
n U
2
N
(1 − f ) Sy2U + Sx2U − 2SxyU
=
n
y su varianza estimada:
N2 2
V̂M AS (t̂y,dif ) = (1 − f )SD s
n
N2
(1 − f ) Sy2s + Sx2s − 2Sxys
=
n
donde Sy2U y Sx2U son las varianzas poblacionales de y y x respectivamente, y:
1 X
SxyU = (xk − x̄U ) (yk − ȳU ) .
N −1 U
Si esta correlación es alta, el estimador diferencia producirá a menudo una gran reducción
en la varianza en comparación al π−estimador. De esto tenemos que:
N2
n
(1 − f ) Sy2U + Sx2U − 2SxyU
def f t̂y,dif , t̂yπ = N2
n
(1 − f )Sy2U
Sx2U Sxy
=1+ 2
− 2 2U
SyU SyU
Sx2U rxy Sx
=1+ 2
−2 U U.
SyU S yU
Luego, si:
Sx2 rxy Sx
def f t̂y,dif , t̂yπ < 1 ⇒ 2U − 2 U U < 0
SyU SyU
Sx
⇒ U − 2rxyU < 0
SyU
SxU
⇒ rxyU < .
2SyU
Esto significa que el estimador diferencia es más eficiente que el π−estimador, cuando la
correlación entre las dos variables es menor que que el medio del cociente entre las varianzas
de cada variable. Una manera alternativa de escribir el estimador diferencia es la siguiente:
X X
t̂y,dif = yko + Ďk
U s
X X yk − y o
k
= yko +
U s
πk
J
XX X yk X 1 X J
= Aj xjk + − Aj xjk
U j=1 s
πk s
πk j=1
J
!
X yk X X X xjk
= + Aj xjk −
s
π k j=1 U s
πk
X yk XJ
= + Aj txj − t̂xjπ .
s
πk j=1
De manera explicita, esto quiere decir que el estimador diferencia es igual al π−estimador
más un termino de ajuste.
12 1. ESTIMADORES DE REGRESIÓN
J
X
t̂y,reg = t̂yπ + β̂j txj − t̂xjπ
j=1
con
B̂ = T̂−1 t
!−1 !
0
X xk xk X xk yk
=
s
σk2 πk s
σk2 πk
= B̂π
donde:
tx1 t̂π1
tx2 t̂xπ2
= y =
tx .. t̂xπ ..
. .
txj t̂xπj
En lo que sigue se denotará por ξ el modelo de regresión, el cual tendrá las siguientes carac-
terı́sticas:
Dos ejemplos del modelo envolviendo una sola variable explicativa son:
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 13
Eξ (Yk ) = βxk
(1.2.1)
Vξ (Yk ) = σ 2 xk
Eξ (Yk ) = β1 + β2 xk
(1.2.2)
Vξ (Yk ) = σ 2
B = (β1 , β2 , ..., βJ )0
= T−1 t
!−1 !
X xk x0 X xk y k
k
= 2
s
σ k s
σk2
−1
= (XΣX0 ) (XΣY)
con Σ = diag (σk2 ) (k = 1, ..., N ), Y = (y1 , ..., yN ) y XJ×N ; ademas, TJ×J una matriz simétrica
y tJ×1 es un J−vector columna. También los elementos de T y de t, respectivamente, son de
la forma:
X xjk xj 0 k X xjk yk
tjj 0 = = tj 0 j y tj0 =
U
σk2 U
σk2
entonces:
X xjk xj 0 k X xjk yk
t̂jj 0 = = t̂j 0 j y t̂j0 =
U
σk2 πk U
σk2 πk
!−1 !
0
X xk xk X xk y k
B̂ =
s
σk2 πk s
σk2 πk
!−1 !
X xk xk X xk y k
=
s
σ 2 x k πk s
σ 2 xk πk
!−1 !
1 X xk 1 X yk
=
σ 2 s πk σ 2 s πk
X yk
s
πk
=X xk
s
πk
t̂yπ
= .
t̂xπ
s
πk
Con esto se obtiene que:
= t̂yπ + N ỹs − N̂ ỹs − N βˆ2 x̃s + N̂ βˆ2 x̃s + βˆ2 N x̄U − βˆ2 t̂xπ
= N̂ ỹs + N ỹs − N̂ ỹs − N βˆ2 x̃s + N̂ βˆ2 x̃s + βˆ2 N x̄U − βˆ2 t̂xπ
= N ỹs − N βˆ2 x̃s + βˆ2 N x̄U
h i
= N ỹs + β̂2 (x̄U − x̃s ) .
Para una muestra s, bajo un modelo ξ, produce B̂; y para k = 1, 2, .., N se obtienen los valores
ajustados (o predichos):
ŷk = xk B̂
J
X
= β̂j xjk (1.2.3)
j=1
eks = yk − ŷk
Nótese, que los ŷk pueden obtenerse para todo k = 1, 2, .., N ; pero eks solo para los k ∈ s.
16 1. ESTIMADORES DE REGRESIÓN
Ahora:
X X y− ŷk
t̂y,reg = ŷk +
U s
πk
X X eks
= ŷk +
U s
πk
X X
= ŷk + ěks (1.2.4)
U s
J
X X X
Si la relación lineal es perfecta, esto es yk = βj xjk entonces ěks = 0 y t̂y,reg = ŷk
j=1 s U
X eks
=0 (1.2.5)
s
πk
σk2 = λ0 xk
donde =0 es el conjunto de todas las muestras bajo un diseño con probabilidades de inclusión
fijas π1 , ..., πN .
X eks X yk X ŷk
= −
s
πk s
π k s
πk
Ahora:
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 17
X ŷk X 1
0
= xk B̂
s
π k s
π k
X 1 λ0 xk x0
k
= 2
B̂
s
π k σ k
X 1
= 2
λ0 xk x0k B̂
s
πk σk
!
X xk x0
= λ0 k
2
B̂
s
π k σk
! !−1 !
X xk x0 X xk x0 X xk y k
= λ0 k
2 2
k
s
π k σk s
σk kπ s
σk2 πk
!
X xk yk
= λ0
s
πk σk2
X λ0 xk yk
=
s
σk2 πk
X yk
=
s
πk
= t̂yπ
xk
Donde gks = 1 + (tx − t̂xπ )0 T̂−1 .
σk2
Bajo el modelo Heterocedastico sin intersecto:
xk
gks = 1 + (tx − t̂xπ )0 T̂−1
σk2
!−1
0
0
X xk xk xk
= 1 + (tx − t̂xπ )
s
σk2 πk σk2
!−1
X xk x k xk
=1+ tx − t̂xπ 2
s
σ x k πk σ 2 xk
!−1
X xk 1
=1+ tx − t̂xπ 2
s
σ πk σ2
!−1
X xk
=1+ tx − t̂xπ
s
πk
1
=1+ tx − t̂xπ
t̂xπ
tx
=1+ −1
t̂xπ
tx
=
t̂xπ
N x̄U
= .
N̂ x̃s
Ahora, para el modelo Homocedastico con intersecto se llega a que:
" #
N x̄U − x̃s
gks = 1+ (xk − x̃s )
N̂ S̃x2s
N
= [1 + as (xk − x̃s )]
N̂
con
x̄U − x̃s
as =
S̃x2s
y
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 19
" #
1 X x2
k
S̃x2s = − N̂ x̃2s
N̂ s
πk2
1 X (xk − x̃s )2
=
N̂ s πk
Se conoce que yko = x0k B y por tanto los residuales poblacionales son:
Ek = yk − yko ⇒ yk = yko + Ek
X
Luego como t̂y,reg = gks y̌k , entonces:
s
X yko + Ek
t̂y,reg = gks
s
πk
X
gks y̌ko + Ěk
=
s
Además:
X 0
−1 xk xk
X 0
gks x̌0k = 1 + (tx − t̂xπ ) T̂
s s
σk2 πk
!
0 0
X xk 0 −1
X xk xk
= + (tx − t̂xπ ) T̂
s
πk s
σk2 πk
0
X xk
= + (tx − t̂xπ )0 T̂−1 T̂
s
πk
0
X xk
= + (tx − t̂xπ )0 I
s
πk
= t̂0xπ + t0x − t̂0xπ
X
= t0x = 0
xk
U
!
X X
gks y̌ko = gks x0k B
s s
!
X
0
= xk B
U
X
0
= xk B
U
X
= yko
U
Por tanto:
X yko + Ek
t̂y,reg = gks
s
πk
X gks y o X gks Ek
k
= +
s
π k s
πk
X X
= gks y̌ko + gks Ěk
s s
X X
= yko + gks Ěk .
U s
.
t̂y,reg = t̂y,r0
= t̂yπ + (tx − t̂xπ )0 B̂
X X
= yko + Ěk (1.3.1)
U s
XX Ek El
AV (t̂y,reg ) = ∆kl
U
πk πl
XX
= ∆kl Ěk Ěl (1.3.2)
U
1.3. LA VARIANZA DE UN ESTIMADOR DE REGRESIÓN 21
Con estimador:
XX
∆kl eks els XX
ˇ kl ěks ěls
= ∆
πkl πk πl
s s
V̂ (t̂y,reg ) =
X X ∆kl gks eks gks els XX
ˇ kl gks ěks gls ěls
= ∆
π π π
kl k l
s s
N2
AVM AS (t̂y,reg ) = (1 − f )SE2 U
n
N2
(1 − f ) Sy2U + Sx2U − 2SxyU
= (1.3.5)
n
y su varianza estimada:
2 2
N x̄U N
V̂M AS (t̂y,reg ) = (1 − f )Se2s
N x̄s n
2 2
x̄U N h i
= (1 − f ) Sy2s + β̂ 2 Sx2s − 2β̂Sxys (1.3.6)
x̄s n
22 1. ESTIMADORES DE REGRESIÓN
> set.seed(1)
> gen.corr.data<- function(rho,N){
+ # first step: generate two normal random variables from normal distrbution
+ X <- rnorm(N,200,1)
+ X2 <- rnorm(N,200,1)
+ # second step generate the correlated variable
+ Y<- rho*X + sqrt(1-rho^2)*X2
+ result <-cbind(Y,X)
+ return(result)
+ }
> N=700;n=250
> Poblacion<-gen.corr.data(0.7,N)
> cor(Poblacion)#correlación
Y X
Y 1.0000000 0.6846431
X 0.6846431 1.0000000
> head(Poblacion)
Y X
[1,] 281.8847 199.3735
[2,] 284.3651 200.1836
[3,] 282.1794 199.1644
[4,] 283.9353 201.5953
[5,] 282.2569 200.3295
[6,] 281.2943 199.1795
> Y<-Poblacion[,1]
> X<-Poblacion[,2]
#Totales poblacionales
> tx=sum(X);tx
[1] 139986.9
> ty=sum(Y);ty
[1] 197965.2
#Muestra
> muestra <- sample(N,n)
> s<-Poblacion[muestra,]
> yk<-s[,1]
1.3. LA VARIANZA DE UN ESTIMADOR DE REGRESIÓN 23
> xk<-s[,2]
#Calculos para la estimación:
> gks=mean(X)/mean(xk);gks
[1] 1.000554
#Total para heterocedasico sin intersecto en MAS
> tyr=(N/n)*gks*sum(yk);tyr
[1] 198025.5
#Residuales
> B=sum(Y)/sum(X)
> Ek=Y-B*X
> b=sum(yk)/sum(xk)
> ek=yk-b*xk
#Aproximación de la Varianza
> AVtyr=(N^2/n)*(1-(n/N))*var(Ek);AVtyr
[1] 1386.129
#Varianza estimada
> Vtyr=(gks^2)*(N^2/n)*(1-(n/N))*var(ek);Vtyr
[1] 1276.294
#Coeficiente de variación
> cvr=sqrt(Vtyr)/tyr;cvr
[1] 0.0001804073
#IC al (1-alpha)100%; alpha=0.05
> alpha=0.05
> Ic<-c(tyr-qnorm(1-alpha/2)*sqrt(Vtyr),tyr+qnorm(1-alpha/2)*sqrt(Vtyr));Ic
[1] 197955.5 198095.6
24 1. ESTIMADORES DE REGRESIÓN
Capı́tulo 2
Se construyo el estimador de regresión como una suma de valores predichos por regresión
más un termino de ajuste que contiene los residuales de la regresión. Para el caso de querer
estimar dominios, dos alternativas son las siguientes:
X
X Nd
t̂ydr = ŷk + ěks (2.0.2)
Ud
N̂d sd
X 1
donde N̂d = y Nd es conocido,
s
π k
d
X X
t̂0ydr = ŷk + ěks (2.0.3)
Ud sd
si Nd es desconocido.
en los estimadores anteriores requiere un conocimiento a priori del dominio total del vector
auxiliar,
25
26 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS
X X
xk = zdk xk
Ud U
donde zdk es la función indicador del dominio Ud (vista en capı́tulos anteriores). La situación
en donde estos totales sean conocidos incluye lo siguiente:
1. Se conoce la pertenencia al dominio zdk , ası́ como el valor auxiliar xk (dada el marco
de muestreo), para cada elemento k ∈ U .
El estimador de dominios puede ser escrito como una suma ponderada π−expandidos y−valores,
X
t̂ydr = gdks y̌k (2.0.5)
s
donde las g−ponderaciones (que dependen del dominio d, toda la muestra s, y el elemento
k) son
!0 !−1
0
Nd X Nd X X xk xk xk
gdks = zdk + xk − x̌k
N̂d ud N̂d sd s
σk2 πk πk
X
X Nd
t̂ydr = ŷk + ěks
Ud
N̂d sd
X
= gdks y̌k (2.0.6)
s
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 27
donde
eks yk − ŷk
=
ěks =
πk πk
y gdks que ya se conoce. La aproximación de la varianza es:
XX Ek − ĒUd El − ĒUd
AV (t̂ydr ) = ∆kl (2.0.7)
U
πk πl
d
X Ek
donde ĒUd = . Y su estimación de la varianza viene dada por:
Ud
Nd
X X ∆kl gdks eks gdks els
V̂ (t̂ydr ) = (2.0.8)
s
πkl πk πl
P
s y̌k
X
t̂dra = xk P d
Ud sd x̌k
!
X
= xk B̂d (2.1.1)
Ud
28 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS
con el requerimiento de que el total poblacional de x en el dominio sea conocido. Los residuales
y las g−ponderaciones son
eks = yk − B̂d xk
y P !
x k
gdks = PUd zdk
sd x̌k
X Nn s yk
P
= xk N P d
Ud n s d xk
P
s yk
X
= xk P d
U s d xk
d
ȳsd
= Nd ȳUd
x̄sd
cuya aproximación de la varianza es
N2 Nd − 1 2
AV (t̂dra ) = (1 − f ) S
n N − 1 EUd
donde
1 X
2
SEU = (yk − Bd xk )2
d
Nd − 1 U
d
P
U yk
con Bd = P d y le estimación de la varianza viene dada por
Ud x k
n (nsd − 1) x̄Ud 2 1 1 2
V̂ (t̂dra ) = Nd − Ses
(n − 1) nss x̄sd ns d N̂d d
. x̄Ud 1 1
= Nd2 − 2
Ses
x̄sd ns d N̂d d
N n sd
donde N̂d = , x̄Ud y x̄sd son las medias en Ud y sd correspondientes y
n
2 1 X 2
Ses = yk − B̂d x k
d
nd − 1 s
s
Ahora se muestra una simulación donde la población es generada con datos correlacionados:
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 29
[1] 68338.14
#Función que estima en dominio
> N=500;n=50
> MRadom<-function(datdom,n){
+ Y<-datdom[,1]
+ X<-datdom[,2]
+ N=nrow(datdom)
+ #En Ud
+ d1<-subset(datdom,dom==1)
+ d0<-subset(datdom,dom==0)
+ Y1<-d1$Y
+ Y0<-d0$Y
+ X1<-d1$X
+ X0<-d0$X
+ #En Sd
+ sam <- sample(N,n)
+ muest<-datdom[sam,]
+ sdom1<-subset(muest,dom==1)
+ sdom0<-subset(muest,dom==0)
+ y<-Y[sam]
+ x<-X[sam]
+ y1<-sdom1$Y
+ x1<-sdom1$X
+ y0<-sdom0$Y
+ x0<-sdom0$X
+ #Estimador del Modelo Heterosedastico sin Intersecto(Razón)
+ #Dominio 1
+ beta1<-sum(y1)/sum(x1)
+ Beta1=sum(Y1)/sum(X1)
+ tra1<-sum(X1)*beta1 #dominio 1
+ Ek1=Y1-Beta1*X1
+ eks1=y1-beta1*x1
+ gs1=(sum(X1)/sum(x1))*(n/N)
+ ns1=nrow(sdom1)
+ N1=nrow(d1)
+ AVra1=((N^2)/n)*(1-(n/N))*(1/(N-1))*var(Ek1)
+ N1est=(N*ns1)/n
+ Vra1=(gs1^2)*(n/(n-1))*((ns1-1)/ns1)*(N1^2)*((1/ns1)-(1/N1est))*var(eks1)
+ cvra1=sqrt(Vra1)/tra1
+ tradom1<-c(tra1,Vra1,cvra1)
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 31
+ #Dominio 0
+ beta0<-sum(y0)/sum(x0)
+ Beta0=sum(01)/sum(X0)
+ tra0<-sum(X0)*beta0 #dominio 0
+ Ek0=Y0-Beta0*X0
+ eks0=y0-beta0*x0
+ gs0=mean(X0)/mean(x0)
+ ns0=nrow(sdom0)
+ N0=nrow(d0)
+ AVra0=((N^2)/n)*(1-(n/N))*(1/(N-1))*var(Ek0)
+ N0est=(N*ns0)/n
+ Vra0=(gs0^2)*(n/(n-1))*((ns0-1)/ns0)*(N0^2)*((1/ns0)-(1/N0est))*var(eks0)
+ cvra0=sqrt(Vra0)/tra0
+ tradom0<-c(tra0,Vra0,cvra0)
+ result.ra<-data.frame(tra1,AVra1,Vra1,cvra1,tra0,AVra0,Vra0,cvra0);result.ra
+ }
> MRadom(datdom,n)
tra1 AVra1 Vra1 cvra1 tra0 AVra0 Vra0 cvra0
1 48430.43 13.47159 4387.492 0.001367697 19818.93 9.530436 1764.746 0.002119634
J
X
t̂yπ + β̂ j tx j
− t̂x jπ
j=1
t̂ + (tx − t̂xπ )0 B̂
yπ
t̂y,reg = !
X X ěk X 0
ŷ k + = xk B̂
U s
πk U
yk
X
gks
s
πk
0
xk
gks = 1 + (tx − t̂xπ ) T̂−1
σk2
!−1
0 0
X xk xk xk
= 1 + (tx − t̂xπ )
s
σk2 πk σk2
Además,
XX
AV (t̂yπ ) = ∆kl Ek El
U
con Ek = yk − x0k β.
33
34 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
X
yk
πk
X s
t̂yra = xk X
xk
U πk
s
t̂yπ
= tx
t̂xπ
!
X
= xk β̂
s
t̂yπ
con β̂ = t̂xπ
Además,
XX Ek El
AV t̂yra = ∆kl
u π k πl
0 ty
con Ek = yk − xk β y β= tx
.
Y estimador,
3.1. EL MODELO DE RAZÓN CONSTANTE Y EL ESTIMADOR DE RAZÓN 35
Note que,
X
t̂yra = ŷk
U
X
= xk β̂
U
!
X t̂yπ
= xk
U
t̂xπ
ȳs
= N ȳu
x̄s
Además el estimador de la media del estimador de razón;
t̂yra
ȳˆU =
X N
xk t̂t̂xyπ
π
U
=
N
t̂y
= x̄U π
t̂xπ
con aproximación de la varianza dada por:
1 XX Ek El
AV ȳˆU = 2 ∆kl
N U πk π l
Y varianza estimada
1 X X ∆kl eks els
V̂ ȳˆU = 2 gks gls
N s πkl πk πl
36 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
Ejemplo 3.1.1. Modelo de razón constante bajo un diseño de muestreo aleatorio simple
(MAS) viene dado por:
n
πk =
N
n n−1
πkl =
N N −1
además,
(
−n)
πkl − πk πl = − Nn2 (N
(N −1)
, k 6= l
∆kl = n
πk (1 − πk ) = N 2 (N − n), k = l
Ası́,
ȳs
t̂yra = N x̄U
x̄s
ȳs
Con β̂ = x̄s
N2 n 1 X
AV (t̂yra ) = 1− (yk − βxk )2
n N N −1 U
= V (t̂yπ ) + β 2 V (t̂xπ ) − 2βCov(t̂xπ , t̂yπ )
N2 n 1 X
V̂ (t̂yra ) = 1− (yk − β̂xk )2
n N N −1 U
h i
ˆ t̂xπ , t̂yπ )
= V̂ (t̂yπ ) + β̂ 2 V̂ (t̂xπ ) − 2β̂ Cov(
2 " 2 2
X̄U ȳs ȳs N n
= V̂ (t̂yπ ) + V̂ (t̂xπ ) − 2 1− ·
X̄s x̄s x̄s n N
#
1 X
(xk − x̄s )(yk − ȳs )
N −1 s
3.1. EL MODELO DE RAZÓN CONSTANTE Y EL ESTIMADOR DE RAZÓN 37
AVM AS (t̂yra )
Def f =
VM AS (t̂yπ )
Sx2U X (xk −x̄NU )(yk −ȳU )
−1
2
=1 − β 2 − 2β
S yU U
Sy2U
SxU S xU SxyU
=β β − 2β
SyU SyU SxU SyU
SxU ȳU SxU
=β − 2ρxy
SyU x̄U SyU
SxU CVx
=β − 2ρxy
SyU CVy
Entonces,
CVx
Def f ≤ 1 ⇔ − 2ρxy ≤ 0
CVy
CVx
⇔ρxy ≥ 0.5
CVy
N2 n 1 X
V̂0 = 1− (yk − β̂xk )2
n N n−1 s
2 2
x̄U N n 1 X
V̂2 = 1− (yk − β̂xk )2
ˆ
ȳs n N n − 1 s
2
x̄U N n 1 X
V̂1 = 1− (yk − β̂xk )2
ˆ
ȳs n N n−1 s
t̂yra − ty
1/2
∼ N (0, 1)
V̂2
38 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
El sesgo de t̂yra es pequeño, sin embargo, para n pequeño, este puede ser importante.
1 √1 .
Bajo M AS el sesgo es de orden n
y el sesgo relativo es del orden n
Para n > 20 el sesgo es insignificante, para reducir el sesgo de t̂yra , Pascual propone el
siguiente estimador:
X rk yk
donde r̄s = con rk =
s
n xk
πk = π
(
π, si k = l
πkl =
π 2 , si k 6= l
Además
(
π(1 − π), si k = l
∆kl =
0, si k 6= l
Ası́,
3.2. EL ESTIMADOR DE RAZÓN BAJO OTROS DISEÑOS 39
X
yk
πk
!
X s
t̂yra = xk X
xk
U πk
s
X
1
! π
yk
X s
= xk X
1
U π
xk
s
X
! yk
X s
= xk X
U xk
s
ȳs
=N x̄U (3.2.1)
x̄s
t̂yπ
AV (t̂yra ) =AV tx
t̂x
π
t̂yπ
=t2x AV
t̂
xπ
=t2x AV β̂
X X
2 yk − βxk yl − βxl
=tx ∆kl
U tx πk tx πl
XX yk − βxk yl − βxl
= ∆kl
U πk πl
XX Ek El
= ∆kl
U πk πl
2 XX
X Ek Ek El
= ∆kk 2
+ ∆kl
U
πk k6=l U
πk πl
1 X E2
k
= π(1 − π) 2
+0
π2 π k
XU
1
= −1 Ek2 (3.2.2)
π U
40 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
ty
Con Ek = yk − x0k β y β=
tx
Luego,
X
1 1
V̂ (t̂yra ) = −1 e2k (3.2.3)
π π s
t̂yπ
Con ek = yk − x0k β̂ y β̂ = t̂xπ
xk
πk = n
tx
xk
=n
N x̄U
Ası́,
t̂yπ
t̂yra =tx
t̂xπ
!P y
k
sπ
X
= xk P xkk
U s πk
N X̄U P yk
! !
s xk
X n
X
= xk N X̄U
1
U n U
! P yk
s xk
X
= xk
U
n
t̂y
AV (t̂yra ) = AV tx π
t̂xπ
= t2x AV (β̂)
X X
2 yk − βxk yl − βxl
= tx ∆kl (∗)
U tx πk tx πl
XX yk − βxk yl − βxl
= ∆kl
U πk πl
XX Ek El
= ∆kl
U πk πl
ty
Con Ek = yk − βxk y β = tx
1X X Ek El
AV (t̂yra ) = − ∆kl
2 U πk πl
ty
Con Ek = yk − βxk y β =
tx
1 X X ∆kl ek el
V̂ (t̂yra ) = −
2 U πkl πk πl
t̂yπ
Con ek = yk − β̂xk y β = t̂xπ
(
Eξ (yk ) = β
Vξ (yk ) = σ 2
X x k x0
k
T=
U
σk2
X1
=
U
σ2
N
=
σ2
X xk yk
t=
σk2u
X yk
=
u
σ2
ty
=
σ2
Luego,
β = T0 t
σ 2 ty
=
N σ2
ty
=
N
= ȳU
Entonces,
XX Ek El
AV (t̂yr ) = ∆kl
U π k πl
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 43
σ2 1
N
gks = 1 + (N − N̂ ) 2
= ∀k ∈ S
N̂ σ N̂
Entonces;
2 X X
N eks els
V̂ (t̂yπ ) = V̂ N ȳˆs = ∆kl
N̂ s πk πl
La homogenidad dentro de los grupos es explotada para obtener estimaciones mejoradas via
t̂yr usando información auxiliar.
Los modelos por grupos tienen uno o más parámetros asociados con cualquier grupo; una vez
instalado un modelo por grupo se da lugar a un estimador de regresión particular.
G
[ G
X G
[ G
X
U= Ug N= Ng S= Sg n= ng
g=1 g=1 g=1 g=1
Donde Sg = S ∩ Ug y ng es el tamaño de Sg
Veamos ahora que pasa cuando tengo un modelo de media constante para cada grupo, esto
es, para g = 1, . . . , G
(
Eξ (yk ) = βg
Vξ (yk ) = σg2
Si los grupos son homogeneos y existen diferencias considerables esntre grupos, entonces al
modelo propuesto explotará una buena parte de la variación en y y el t̂yr será altamente
sufuciente.
Escribimos
X
δgk = NG
u
(
Eξ (yk ) = βg xk
Vξ (yk ) = σU2 g xk = σkg
2
(
xk , si k ∈ Ug
Xg k = δgk xk =
0, si k ∈ / Ug
E(yk ) = x0k β
Entonces se obtiene que:
P
Ug yk
βg = P
Ug x k
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 45
P yk
sg π k
β̂g = P xk (3.4.2)
sg π k
P
U yk
βg = P g
U xk
P g
Ug y k
=
Ng
= ȳUg
P yk
sg
β̂g = P πk xk
sg π k
P yk
s
= P g π1k
s
P g πykk
sg π k
=
N̂g
= ȳˆsg
G
X
t̂yr = N g ȳˆsg
g=1
G
P yk
sg π k
X
= P xk (3.4.3)
g=1 sg π k
En efecto,
46 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
X
yk
πk
X s
t̂yr = xk X
xk
U πk
s
X
yk
G X πk
X sg
= xk X x
U k
g=1 g πk
sg
X
yk
G X πk
X sg
= 1Xx
U k
g=1 g πk
sg
G
" #
X t̂ygπ
= Ng
g=1 N̂g
entonces,
G
X Ng
t̂yr = t̂ygπ
g=1 N̂g
G
X
= Ng ȳˆsg (3.4.4)
g=1
XX Ek El
AV (t̂yr ) = ∆kl
u
πk π l
y
P
Ug yk
ȳUg =
Ng
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 47
Con estimador:
Ng
Con g = 1, . . . , G y gks = N̂g
Para un MAS:
Bajo un diseño de muestreo aleatoria simple (M AS) N̂g = Ng y t̂ygπ = Ng ȳsg , entonces
G
X Ng
t̂yr = t̂ygπ
g=1 N̂g
G
X
= t̂ygπ
g=1
G
X
= Ng ȳsg
g=1
G
N2 n X Ng − 1 2
AV (t̂yr ) = 1− S
n N g=1 N − 1 yug
(yk − Ȳug )2
con Sy2ug = = Sy2ug
Ng − 1
y estimador,
G
N2 n
X ng −1
1− Se2sg
n N n−1
g=1
V̂ (t̂yr ) =
G
Ng2
X
ng
Se2sg
ng
1− Ng
g=1
48 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
(yk − ȳsg )2
con Se2sg =
Ng − 1
t̂yr = t̂yπ
ii) Los estratos están formados por modelos de grupos Ngh denota el tamaño en la celda
gh y los tamaños marginales son:
H
X G
X
Ng· = Ngh N·h = Ngh
h=1 g=1
↓ ↓
Elementos/grupo Elementos/estrato
G1 G2 ··· Gg ··· GG
E1 N·1 n·1
E2 N·2 n·2
.. .. ..
. β1 β2 ngh βg βG . .
Eh N·h n·h
.. .. ..
. . .
EH N·H n·H
N1· N2· ··· Ng· ··· NG·
n1· n2· ··· ng· ··· nG·
La parte de la muestra del estrato h que corresponde al grupo g es Sgh de tamaño ngh
H
X ngh ȳsgh
G
N·h n·h
X
t̂ypos = Ng h=1H (3.5.1)
g=1
X n
N·h ngh
·h
h=1
3.5. EL MUESTREO ESTMAS 49
G
P yk
sg π k
X
t̂yr = Ng P xk
g=1 sg π k
H
X
N·h P
G n·h sgh yk
X
= Ng h=1
H
g=1
X
N·h P
n·h sgh xk
h=1
XH
ngh ỹgh
G
N·h n·h
X
= Ng h=1
H
(3.5.2)
g=1
X n x̃
N·h ghn·hgh
h=1
G1 G2 ··· Gg ··· GG
E1 ,
E2
..
.
Eh βgh
..
.
EH
Eξ (yk ) = βgh ,
para cada Ugh
h = 1, 2, . . . , H
2
Vξ (yk ) = σgh g = 1, 2, . . . , G
G X
X H
t̂ypos = Ngh ỸShg (3.5.3)
g=1 h=1
se tiene que
G
X
t̂yr = txg β̂g
g=1
G P
g y̌k
X
= txg P (3.6.1)
g=1 g x̌k
P
con txg = Ug xk .
La aproximación de la varianza es
XX
AV (t̂yr ) = ∆kl Ěk Ěl
U
con Ek = yk − βg xk , y estimador
XX
V̂ (t̂yr ) = ˇ kl (gks )(ěks )(gls ěls )
∆
s
txg
con eks = yk − β̂g xk y gks = t̂xg
∀k ∈ sg , entonces
G
!2
X txg XX
ˇ kl ěks ěls
V̂ (t̂yr ) = ∆ (3.6.2)
g=1
t̂xg sg
Para este caso t̂yr es llamado el estimador de razón post-estratificada o el estimador de razón
separada.
G P
g yk
X
t̂yr = txg P
g=1 g xk
G
X ȳsg
= txg (3.6.3)
g=1
x̄sg
con
G
21 −f X
AV (t̂yr ) = N wg SE2 Ug (3.6.4)
n g=1
P
Ng −1 1 2 Ug y k
y SE2 Ug =
P
donde wg = Ug (yk − βg xk ) ; con βg =
P
N −1 Ng −1 Ug x k
con estimador
G
x̄Ug 2 Ng2 2
X
V̂ (t̂yr ) = (1 − f ) S (3.6.5)
g=1
x̄sg nsg esg
donde
1 X 2
eks = yk − βg xk y Se2sg = yk − β̂g xk
nsg − 1 s
g
G P
g yk
X
t̂yr = txg P
g=1 g xk
G
X ȳsg
= txg (3.6.6)
g=1
x̄sg
con
G
Ng2
X ng
AV (t̂yr ) = 1− SE2 Ug (3.6.7)
g=1
ng Ng
52 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
donde
t̂xπ t̂yπ
x̃s = y ỹs =
N̂ N̂
1
P
con N̂ = s πk .
También,
t̂yr = N [ỹs + β̂(x̄U − x̃s )] (3.6.9)
con
XX
AV (t̂yr ) = ∆kl Ěk Ěl
U
N
gks = (1 + as (xk − x̃s ))
N̂
con
t̂yreg
ȳˆUreg = = ỹs + β̂(x̄U − x̃s ) (3.6.10)
N
con aproximación de la varianza
AV (t̂yreg )
AV (ȳˆUreg ) =
N2
y estimador
V̂ (t̂yreg )
V̂ (ȳˆUreg ) =
N2
Bajo MAS:
La aproximación de la varianza es
N2 n 2
AVM AS (t̂yreg ) = 1− SyU (1 − r2 ) (3.6.12)
n N
SxyU
donde r = SxU SyU
, el coeficiente de correlación lineal.
El estimador de la varianza es
N2 n 1 X
V̂ (t̂yreg ) = 1− [1 + as (xk − x̄s )]2 e2ks (3.6.13)
n N n−1 s
54 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
con
n(x̄U − x̄s )
eks = (yk − ȳs ) − β̂(xk − x̄s ) y as = P 2
s (xk − x̄k )
Se puede demostrar que cuando x es importante en el modelo, entonces
AVM AS (t̂yreg )
= 1 − r2 (3.6.14)
AVM AS (t̂yra )
siendo t̂yra el estimador de razón.
Se sigue que
Bajo ESTMAS:
El t̂yreg toma la forma
Este estimador es conocido como estimador de razón combinada para un modelo de regresión
en grupo, donde en cada uno de los grupos poblacionales de tamaño conocido N1 , N2 , . . . , NG
se asocia una regresión simple, el estimador de regresión toma la forma
G
X
t̂yreg = Ng [ỹsg + β̂g (x̄U g − x̄sg )] (3.6.17)
g=1
donde
3.7. ESTIMACIÓN DE UNA RAZÓN 55
P yk P xk
sg πk sg π k
ỹsg = P 1 y x̃sg = P 1
sg πk sg π k
y
X
(xk − x̃sg )(yk − ỹsg )/πk
sg
β̂g = X
(xk − x̃sg )2 /πk
sg
ty t̂yπ
R= ⇒ R̂π =
tz t̂zπ
Para la razón R se puede proponer una estimación R̂π usando el estimador de regresión para
totales. Supongamos que los valores ajustados de la variable Y son:
ŷk = x0k β̂y
con !−1 !
X xk x 0 X xk y k
k
β̂y =
s
σk2 πk s
σk2 πk
Mientras que los valores ajustados de la variable Z son:
zk = x0k β̂z
con !−1 !
X xk x 0 X xk zk
k
β̂z =
s
σk2 πk s
σk2 πk
El estimador de la razón propuesto es:
t̂yr
R̂r = (3.7.1)
t̂zr
donde el estimador de regresión del total de la variable Y es:
X X yk − ŷk
t̂yr = ŷk +
U s
πk
X gks yk
= (3.7.2)
s
πk
56 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
X X zk − ẑk
t̂zr = ẑk +
U s
πk
X gks zk
= (3.7.3)
s
πk
t̂yra
R̂r =
t̂zra
P yk
πk
s
txU P xk
πk
s
= P zk
πk
s
txU P xk
π
s k
P yk
πk
s
=P zk
πk
s
t̂yπ
=
t̂zπ
= R̂π (3.7.4)
t̂yr
Para el estimador R̂r = t̂zr
se tiene que la aproximación de la varianza es:
1 2
AV (R̂) = AV (t̂y ra ) + R · AV (t̂z ra ) − 2R· AC( t̂y ra , t̂z ra ) (3.7.5)
t2z
donde,
XX Eyk Ezl
AC t̂yra , t̂zra = ∆kl
U
πk π l
los errores poblacionales de la variable Y son
ty
Eyk = yk − x0k βy ; βy =
tx
3.7. ESTIMACIÓN DE UNA RAZÓN 57
con X X
ty = yk y tx = xk
U U
t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
con X yk X xk
t̂yπ = y t̂xπ =
s
πk s
πk
y los errores muestrales de la variable Z están dados por:
t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
con X zk X xk
t̂zπ = y t̂xπ =
s
πk s
πk
y las g-ponderancias bajo el modelo de razón es definido de la siguiente forma:
tx
gks = gls =
t̂xπ
t̂yra
R̂r =
t̂zreg
de donde,
P yk
πk
s
t̂yra = tx P xk
πk
s
!
N̂ ȳˆs
= N x̄U
N̂ x̄ˆs
ȳˆs
= N x̄U
x̄ˆs
P yk
1
xk , ȳˆs = 1
y x̄ˆs = N̂1 πxkk y
P P
aquı́ x̄U = N N̂ πk
U s s
t̂zreg = N z̄ˆs + β̂2 x̄U − x̄ˆs
t̂yra
R̂r =
t̂zreg
ȳˆs
N x̄U ˆs
x̄
=
N z̄ˆs + β̂2 x̄U − x̄ˆs
ˆ
x̄U x̄ȳˆss
= (3.7.8)
z̄ˆs + β̂2 x̄U − x̄ˆs
3.7. ESTIMACIÓN DE UNA RAZÓN 59
1
AV (t̂yra ) + R2 · AV (t̂zreg ) − 2R· AC(t̂yra , t̂zreg )
AV (R̂) = 2
(3.7.9)
tz
PP Eyk Eyl
donde, AV (t̂yra ) = U ∆kl πk πl con errores poblacionales
ty
Eyk = yk − x0k βy ; βy =
tx
y X X
ty = yk y tx = xk
U U
donde x̄U y z̄U corresponden a las medias poblacionales de las variables X y Z, respectiva-
mente.
X X ∆kl ezks
ezls
V̂ (t̂zreg ) = gzks gzls (3.7.11)
s πkl πk πl
donde
β̂1
ezks = Zk − x0k β̂z ; β̂z =
β̂2
donde
ty
Eyk = yk − x0k βy ; βy =
tx
P P
donde ty = yk y tx = xk , y
U U
β1
Ezl = zl − x0l βz ; βz =
β2
con
P
(xl − x̄U ) (zl − z̄U )
U
β2 = y β1 = z̄U − β2 x̄U
(xl − x̄U )2
P
U
PP E E
El estimador de AC t̂yra , t̂zreg = ∆kl πykk πzll es
U
X X ∆kl eyks
ezls
ˆ
AC(t̂yra , t̂zreg ) = gyks gzls
s πkl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 61
de donde,
t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
tx
gyks =
t̂xπ
β̂1
ezls = zl − x0l β̂z ; β̂z =
β̂2
con
! 2
N x̄U − x̄ˆs xl − x̄ˆs 1 X xl − x̄ˆs
gzls = 1+ con S̄ˆx2s = (3.7.13)
N̂ S̄ˆ2 xs
N̂ s πl
1 1 1
P xk
xk y x̄ˆs =
P P
donde N̂ = πk
, x̄U = N N̂ πk
.
s U s
1 h
ˆ
2
i
V̂ (R̂) = 2 V̂ t̂yra − 2R̂r AC t̂yra , t̂zreg + R̂r V̂ t̂zra
t̂zreg
1 h
ˆ t̂yra , t̂zreg ) − R̂r AC(
ˆ t̂zreg , t̂yra ) + R̂r2 V̂ (t̂zreg )
i
= 2 V̂ t̂yra − R̂r AC(
t̂zreg
1 X X ∆kl ey ey ey ez
= 2 gyks ks gyls ls − R̂r gyks ks gzls ls
t̂zreg U πkl πk πl πk πl
ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= 2 gyks
t̂zreg U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
= 2 (3.7.14)
t̂zreg U πkl πk πl
t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
y las g-ponderancias para Y
tx
gyks =
t̂xπ
también tenemos que
β̂1
ezks = zk − x0k β̂z ; β̂z =
β̂2
donde,
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
1 1 1
P xk
xk y x̄ˆs =
P P
donde N̂ = πk
, x̄U = N N̂ πk
.
s U s
Intersecto - Razón
t̂yreg
R̂r =
t̂zra
donde,
t̂yreg = N ȳˆs + β̂2 x̄U − x̄ˆs
con
1
P zk 1
P xk
y ȳˆS = N̂ πk
y x̄ˆS = N̂ πk
por otra parte,
s s
P zk
πk
s
t̂zra = tx P xk
πk
s
!
N̂ z̄ˆs
= N x̄U
N̂ x̄ˆs
z̄ˆs
= N x̄U
x̄ˆs
1 1
P yk 1
P xk
xk , z̄ˆs = y x̄ˆs =
P
aquı́, x̄U = N N̂ πk N̂ πk
.
U s s
Ası́, al reemplazar las expresiones anteriores, se tiene que la razón estimada es:
64 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
t̂yreg
R̂r =
t̂zra
ˆ
N ȳs + β̂2 x̄U − x̄s ˆ
=
N x̄U x̄z̄ˆˆss
ȳˆs + β̂2 x̄U − x̄ˆs
= (3.7.15)
x̄U x̄z̄ˆˆss
PP Ezk Ezl
AV (t̂zra ) = U ∆kl πk πl
t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
y las g-ponderancias bajo un modelo de razón son:
tx
gzks = (3.7.17)
t̂xπ
PP Eyk Ezl
AC(t̂yreg , t̂zra ) = U ∆kl πk πl
donde
β1
Eyk = yk − x0k βy ; βy =
β2
con
P
(xk − x̄U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄U
(xk − x̄U )2
P
U
XX Eyk Ezl
AC(t̂yreg , t̂zra ) = ∆kl
U πk πl
es
X X ∆kl eyks
ezls
ˆ t̂yreg , t̂zra ) =
AC( gyks gzls
s πkl πk πl
con
β̂1
eyks = yk − x0k β̂y ; β̂y =
β̂2
donde
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
t̂zπ
ezls = zk − x0k β̂z ; β̂z =
t̂xπ
tx
gzls =
t̂xπ
1 h ˆ 2
i
V̂ (R̂) = 2
V̂ (t̂ yreg ) − 2R̂r · AC(t̂yreg , t̂zra ) + R̂r · V̂ (t̂zra )
t̂zra
1 h
ˆ t̂yreg , t̂zra ) − R̂r · AC(
ˆ t̂zra , t̂yreg ) + R̂2 · V̂ (t̂zra )
i
= 2 V̂ (t̂yreg ) − R̂r · AC( r
t̂zra
X X
1 ∆kl ey ey ey ez
= 2 gyks ks gyls ls − R̂r gyks ks gzls ls
t̂zra U πkl πk πl πk πl
ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= 2 gyks
t̂zra U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
= 2 (3.7.18)
t̂zra U πkl πk πl
donde
β̂1
eyks = yk − x0k β̂y ; β̂y =
β̂2
y las g-ponderancias bajo el modelo con intersecto están dados por:
X xk − x̄ˆs 2
!
N x̄U − x̄ˆs xk − x̄ˆs 1
gyks = 1+ con S̄ˆxs =
2
(3.7.19)
N̂ ˆ
S̄ 2 N̂ πk
xs s
por otro lado, se tiene que
t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
y las g-ponderancias bajo el modelo de razón están dadas por:
tx
gzks =
t̂xπ
Intersecto - Intersecto
t̂yreg
R̂r =
t̂zreg
68 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
donde,
t̂yreg = N ȳˆs + β̂2y x̄U − x̄ˆs
con
y
t̂zreg = N z̄ˆs + β̂2z x̄U − x̄ˆs
con
Ası́,
t̂yreg
R̂r =
t̂zreg
N ȳˆs + β̂2y x̄U − x̄ˆs
=
N z̄ˆs + β̂2z x̄U − x̄ˆs
ˆ ˆ
ȳs + β̂2y x̄U − x̄s
= (3.7.20)
z̄ˆs + β̂2z x̄U − x̄ˆs
1 2
AV (R̂) = AV (t̂y reg ) + R · AV (t̂z reg ) − 2R· AC( t̂y reg , t̂z reg )
t2z
donde,
PP Eyk Eyl
AV (t̂yreg ) = U ∆kl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 69
con
β1y
E yk = y k − x0k βy ; βy =
β2y
P
(xk − x̄U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄U
(xk − x̄U )2
P
U
con estimador
X X ∆kl eyks
eyls
V̂ (t̂yreg ) = gyks gyls
s πkl πk πl
con
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y
(xk −x̄ˆs )(yk −ȳˆs )
P
s
πk
β̂2y = ˆ s) 2 y β̂1y = ȳˆs − β̂2y x̄ˆs
(xk −barx
P
s
πk
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl
con
β1z
Ezk = zk − x0k βz ; βz =
β2z
P
(xk − x̄U ) (zk − z̄U )
U
β2z = y β1z = z̄U − β2z x̄U
(xk − x̄U )2
P
U
con estimador
X X ∆kl ezks
ezls
V̂ (t̂zreg ) = gzks gzls
s πkl πk πl
β̂1z
ezks = zk − x0k β̂z ; β̂z =
β̂2z
70 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
PP Eyk Ezl
AC(t̂yreg , t̂zreg ) = U ∆kl πk πl
con
β1y
E yk = y k − x0k βy ; βy =
β2y
P
(xk − x̄U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄U
(xk − x̄U )2
P
U
y
β1z
Ezl = zl − x0l βz ; βz =
β2z
P
(xl − x̄U ) (zl − z̄U )
U
β2z = y β1z = z̄U − β2z x̄U
(xl − x̄U )2
P
U
con estimador
X X ∆kl ey
e z
ˆ t̂yreg , t̂zreg ) =
AC( gyks ks
gzls ls
s πkl πk πl
con
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
y
β̂1z
ezls = zl − x0l β̂z ; β̂z =
β̂2z
(xl −x̄ˆs )(zk −z̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆs
(xl −x̄ˆs )
P
s
πk
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzls = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
Luego
1 h
ˆ 2
i
V̂ (R̂) = V̂ t̂yreg − 2R̂r · AC(t̂yreg , t̂zreg ) + R̂r · V̂ (t̂zreg )
t̂2zreg
1 h ˆ ˆ 2
i
= V̂ (t̂ yreg ) − R̂ r · AC( t̂yreg , t̂zra ) − R̂r · AC( t̂zreg , t̂yreg ) + R̂r · V̂ (t̂zreg )
t̂2zreg
1 X X ∆kl eyks eyls eyks ezls
= g y ks
g y ls
− R̂ r g y ks
g z ls
t̂2zreg U πkl πk πl πk πl
ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= gyks
t̂2zreg U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
=
t̂2zreg U πkl πk πl
1 X X g
∆kl yks yks e − R̂ e
r zks gyls e yls − R̂ e
r zls
= (3.7.21)
t̂2zreg U πkl πk πl
donde
72 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y
(xl −x̄ˆs )(yk −ȳˆs )
P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆs
(xl −x̄ˆs )
P
s
πk
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
y
β̂1z
ezks = zk − x0k β̂z ; β̂z =
β̂2z
(xl −x̄ˆs )(zk −z̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆs
(xl −x̄ˆs )
P
s
πk
! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
t̂yra
R̂r =
t̂zra
donde
P yk
πk
s
t̂yra = tx1U P x1k
πk
s
P yk
πk
s
= N x̄1U P x1k
πk
s
3.7. ESTIMACIÓN DE UNA RAZÓN 73
P zk
πk
s
t̂zra = tx2U P x2k
πk
s
P zk
πk
s
= N x̄2U P x2k
πk
s
Ası́
t̂yra
R̂r =
t̂zra
P yk
πk
N x̄1U Ps x1k
πk
s
= P zk
πk
N x̄2U Ps x2k
πk
s
x̄1U t̂t̂xyπ
1π
= (3.7.22)
x̄2U t̂t̂x2π
zπ
1 2
AV (R̂) = AV (t̂y ra ) + R · AV (t̂z ra ) − 2R· AC( t̂y ra , t̂z ra )
t2z
donde
PP Eyk Eyl
AV (t̂yra ) = U ∆kl πk πl
con
ty
Eyk = yk − x01k βy ; βy =
tx1
con estimador
X X ∆kl eyks
eyls
V̂ (t̂yra ) = g1ks g1ls
s πkl πk πl
con
74 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
y
tx1
g1ks =
t̂x1π
PP Ezk Ezl
AV t̂zra = U ∆kl πk πl
con
tz
Ezk = zk − x02k βz ; βz =
tx2
con estimador
X X ∆kl ezks
ezls
V̂ (t̂zra ) = g2ks g2ls
s πkl πk πl
con
t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
y
tx2
g2ks =
t̂x2π
PP Eyk Ezl
AC(t̂yra , t̂zra ) = U ∆kl πk πl
con
ty
Eyk = yk − x01k βy ; βy =
tx1
y
tz
Ezl = zl − x02l βz ; βz =
tx2
con estimador
X X ∆kl ey
e z
ˆ t̂yra , t̂zra ) =
AC( g1ks ks
g2ls ls
s πkl πk πl
con
3.7. ESTIMACIÓN DE UNA RAZÓN 75
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
t̂zπ
ezls = zl − x02l β̂z ; β̂z =
t̂x2π
tx2
g2ls =
t̂x2π
Luego
1 h ˆ 2
i
V̂ (R̂) = V̂ (t̂yra ) − 2R̂r · AC(t̂yra , t̂zra ) + R̂r · V̂ (t̂zra )
t̂2zra
1 h
ˆ ˆ 2
i
= 2 V̂ (t̂yra ) − R̂r · AC(t̂yra , t̂zra ) − R̂r · AC(t̂zra , t̂yra ) + R̂r · V̂ (t̂zra )
t̂zra
X X
1 ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zra U πkl πk πl πk πl
ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zra U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.23)
t̂zra U πkl πk πl
donde
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
76 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
tx2
g2ks =
t̂x2π
Razón - Intersecto
t̂yr
R̂r =
t̂zreg
donde
P yk
πk
s
t̂yr = tx1U P x1k
πk
s
P yk
πk
s
= N x̄1U P x1k
πk
s
t̂zreg = N z̄ˆs + β̂2 x̄2U − x̄ˆ2s
con
Ası́
3.7. ESTIMACIÓN DE UNA RAZÓN 77
t̂yra
R̂r =
t̂zreg
P yk
πk
N x̄1U Ps x1k
πk
s
=
N z̄ˆs + β̂2 x̄2U − x̄ˆ2s
P yk
πk
x̄1U Ps x1k
πk
s
= (3.7.24)
z̄ˆs + β̂2 z̄2U − z̄ˆ2s
1
AV (t̂yra ) + R2 · AV (t̂zreg ) − 2R· AC(t̂yra , t̂zreg )
AV (R̂) = 2
tz
donde
PP Eyk Eyl
AV (t̂yra ) = U ∆kl πk πl
con
ty
Eyk = yk − x01k βy ; βy =
tx1
con estimador
X X ∆kl eyks
eyls
V̂ (t̂yra ) = g1ks g1ls
s πkl πk πl
con
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
y
tx1
g1ks =
t̂x1π
PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl
78 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
con
β1
Ezk = zk − x02k βz ; βz =
β2
P
(x2k − x̄2U ) (zk − z̄U )
U
β2 = y β1 = z̄U − β2 x̄2U
(x2k − x̄2U )2
P
U
con estimador
X X ∆kl ezks
ezls
V̂ (t̂zreg ) = g2ks g2ls
s πkl πk πl
con
β̂1
ezks = zk − x02k β̂z ; β̂z =
β̂2
(x2k −x̄ˆ2s )(zk −z̄ˆs )
P
s
πk
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆ2s
(x2k −x̄ˆ2s )
P
s
πk
y
! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
PP Eyk Ezl
AC(t̂yra , t̂zreg ) = U ∆kl πk πl
con
ty
Eyk = yk − x01k βy ; βy =
tx1
y
β1
Ezl = zl − x02l βz ; βz =
β2
P
(x2l − x̄2U ) (zl − z̄U )
U
β2 = y β1 = z̄U − β2 x̄2U
(x2l − x̄2U )2
P
U
con estimador
3.7. ESTIMACIÓN DE UNA RAZÓN 79
X X ∆kl eyks
ezls
ˆ t̂yra , t̂zreg ) =
AC( g1ks g2ls
s πkl πk πl
con
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
β̂1
ezls = zl − x02l β̂z ; β̂z =
β̂2
(x2l −x̄ˆ2s )(zl −z̄ˆs )
P
s
πl
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆ2s
(x2l −x̄ˆ2s )
P
s
πl
! 2
N x̄2U − x̄ˆ2s x2l − x̄ˆ2s 1 X x2l − x̄ˆ2s
g2ls = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πl
Luego
donde
t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
β̂1
ezks = zk − x02k β̂z ; β̂z =
β̂2
! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
Intersecto - Razón
t̂yreg
R̂r =
t̂zra
donde,
t̂yreg = N ȳˆs + β̂2 x̄1U − x̄ˆ1s
con
P zk
πk
s
t̂zra = tx2U P x2k
πk
s
P zk
πk
s
= N x̄2U P x2k
πk
s
Ası́
3.7. ESTIMACIÓN DE UNA RAZÓN 81
t̂yreg
R̂r =
t̂zra
ˆ ˆ
N ȳs + β̂2 x̄1U − x̄1s
= P zk
πk
N x̄2U Ps x2k
πk
s
ȳˆs + β̂2 x̄1U − x̄ˆ1s
= P zk (3.7.26)
πk
s
x̄2U P x2k
πk
s
con
β1
Eyk = yk − x01k βy ; βy =
β2
P
(x1k − x̄1U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U
con estimador
X X ∆kl eyks
eyls
V̂ (t̂yreg ) = g1ks g1ls
s πkl πk πl
con
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2
(x1k −x̄ˆ1s )(yk −ȳˆs )
P
s
πk
β̂2 = 2 y β̂1 = ȳˆs − β̂2 x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk
82 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
y
! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
PP Ezk Ezl
AV (t̂zra ) = U ∆kl πk πl
con
tz
Ezk = zk − x02k βz ; βz =
tx2
con estimador
X X ∆kl ezks
ezls
V̂ (t̂zra ) = g2ks g2ls
s πkl πk πl
con
t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
y
tx2
g2ks =
t̂x2π
PP Eyk Ezl
AC(t̂yreg , t̂zra ) = U ∆kl πk πl
con
β1
Eyk = yk − x01k βy ; βy =
β2
P
(x1k − x̄1U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U
y
tz
Ezl = zl − x02l βz ; βz =
tx2
con estimador
X X ∆kl eyks
ezls
ˆ t̂yreg , t̂zra ) =
AC( g1ks g2ls
s πkl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 83
con
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2
t̂zπ
ezls = zk − x02k β̂z ; β̂z =
t̂x2π
tx2
g2ls =
t̂x2π
Luego,
1 h ˆ 2
i
V̂ (R̂) = V̂ (t̂yreg ) − 2R̂r · AC(t̂yreg , t̂zra ) + R̂r · V̂ (t̂zra )
t̂2zra
1 h
ˆ ˆ 2
i
= 2 V̂ (t̂yreg ) − R̂r · AC(t̂yreg , t̂zra ) − R̂r · AC(t̂zra , t̂yreg ) + R̂r · V̂ (t̂zra )
t̂zra
X X
1 ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zra U πkl πk πl πk πl
ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zra U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.27)
t̂zra U πkl πk πl
donde
84 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2
! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y
t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
tx2
g2ks =
t̂x2π
Intersecto - Intersecto
t̂yreg
R̂r =
t̂zreg
donde,
t̂yreg = N ȳˆs + β̂2y x̄1U − x̄ˆ1s
con
y
t̂zreg = N z̄ˆs + β̂2z x̄2U − x̄ˆ2s
con
Ası́,
3.7. ESTIMACIÓN DE UNA RAZÓN 85
t̂yreg
R̂r =
t̂zreg
N ȳˆs + β̂2y x̄1U − x̄ˆ1s
=
N z̄ˆs + β̂2z x̄2U − x̄ˆ2s
ȳˆs + β̂2y x̄1U − x̄ˆ1s
= (3.7.28)
ˆ ˆ
z̄s + β̂2z x̄2U − x̄2s
con
β1y
Eyk = yk − x01k βy ; βy =
β2y
P
(x1k − x̄1U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U
con estimador
X X ∆kl eyks
eyls
V̂ (t̂yreg ) = g1ks g1ls
s πkl πk πl
con
β̂1y
eyks = yk − x01k β̂y ; β̂y =
β̂2y
(x1k −x̄ˆ1s )(yk −ȳˆs )
P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk
y
86 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl
con
β1z
Ezk = zk − x02k βz ; βz =
β2z
P
(x2k − x̄2U ) (zk − z̄U )
U
β2z = con β1z = z̄U − β2z x̄2U
(x2k − x̄2U )2
P
U
con estimador
X X ∆kl ezks
ezls
V̂ (t̂zreg ) = g2ks g2ls
s πkl πk πl
con
β̂1z
ezks = zk − x02k β̂z ; β̂z =
β̂2z
(x2k −x̄ˆ2s )(zk −x̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆ2s
(x2k −x̄ˆ2s )
P
s
πk
y
! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
PP Eyk Ezl
AC(t̂yreg , t̂zreg ) = U ∆kl πk πl
con
β1y
Eyk = yk − x01k βy ; βy =
β2y
P
(x1k − x̄1U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄1U
(x1k − x̄1U )2
P
U
3.7. ESTIMACIÓN DE UNA RAZÓN 87
y
β1z
Ezl = zl − x02l βz ; βz =
β2z
P
(x2l − x̄2U ) (zl − z̄U )
U
β2z = y β1z = z̄U − β2z x̄2U
(x2l − x̄2U )2
P
U
con estimador
X X ∆kl eyks
ezls
ˆ t̂yreg , t̂zreg ) =
AC( g1ks g2ls
s πkl πk πl
con
β̂1y
eyks = yk − x01k β̂y con β̂y =
β̂2y
! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y
β̂1z
ezls = zl − x02l β̂z ; β̂z =
β̂2z
! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ls = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
Luego,
88 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS
donde
β̂1y
eyks = yk − x01k β̂y ; β̂y =
β̂2y
! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y
β̂1z
ezks = zk − x02k β̂z ; β̂z =
β̂2z
! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
Capı́tulo 4
Valores auxiliares asociados con individuos serán denotados por xk y aquellos asociados con
conglomerados por Ui .
A) (UPMs auxiliares). Los valores Ui están disponibles para toda UPM, e.e, ∀i∈UJ .
Resultado 4.0.1.
El caso C solo tiene sentido cuando se hace submuestreo en las UPMs seleccionadas.
89
90 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
t0yi = Ui0 βI
y el residuo para el i-ésimo conglomerado es:
Di = tyi − t0yi
yk yk
= t∗yi , donde t̂yiπ =
P P
Sea t̂yiπ = πk|i πk|i
el total estimado en la i-ésima UPM. (En conglo-
si si
merado se tiene t∗yi = tyi ).
Entonces,
!−1 !
X Ui U 0 X Ui t∗y
i i
β̂I = 2 2
s
π σ
Ii Ii s
π σ
Ii Ii
I I
X X t∗y − t̂yip
i
t̂yAr = t̂yip + (4.1.1)
U s
πIi
I I
Observación 4.1.1.
!
X t∗y X 1 X yk
i
=
sI
πIi sI
πIi si
πk|i
XX yk
=
sI si
πIi πk|i
X yk
=
s
πk
= t̂yπ
Es decir,
!0
X X Ui
t̂yAr = t̂yπ + Ui − β̂I (4.1.2)
UI sI
πIi
2
Si σIi = λUi para λ una constante y Ui > 0, ∀i∈Ui , entonces:
X di
=0
s
πIi
I
con
92 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
!0 !−1
X X Ui X Ui U 0 Ui
i
gisI = 1 + Ui − 2 2
UI sI
πIi s
σ π
Ii Ii σIi
I
Vi = Vbi = 0
Si el tamaño de muestra en la segunda etapa es aleatorio, entonces es mejor usar:
t∗yi = Ni ȳsi
con
4.2. MODELO DE RAZÓN CONSTANTE PARA TOTALES DE UPMS 93
P yk
πk|i
s
ȳsi = Pi 1
πk|i
si
y
2 X X
Ni ∆kl|i eks els
V̂i =
N̂i si πkl|i πk|i πl|i
con
eks = yk − ȳˆs
X t∗yi
X sI
πIi
t̂yrA = Ui X
Ui
UI
sI
πIi
X
= Ui β̂I
UI
X
yk
con t∗yi = πk|i
= t̂yiπ
si
XX Di Dj
AVAU P M = ∆Iij
UI πIi πIj
P
tyi
con Di = tyi − βI Ui , para cada i ∈ Ui y βI = PUI
UI Ui
X Vi
AVAU SM =
UI
πIi
PP yk yl
con Vi = UI ∆kl|i πk|i πl|i
donde,
X X ∆Iij di
dj
X
1
1
V̂AU P M = gisI gjsI − − 1 gij I V̂i
sI πIij πIi πIj πIi πIi
s I
XX
2 V̂i
V̂AU SM = gis 2
sI I
πIi
P
UI Ui
con di = t̂∗yi − β̂I Ui y gisI = P Ui
sI πIi
Bajo MAS-MAS:
! P t∗yi
sI πIi
X
t̂yAr = Ui β̂I ; β̂I = P Ui
UI sI πIi
nI nI (nI − 1)
como πIi = y πIij = , entonces
NI NI (NI − 1)
4.3. ESTIMADORES DE LA MEDIA POBLACIONAL DE CONGLOMERADOS 95
NI P ∗
nI sI tyi
β̂I = NI P
nI sI Ui
∗
P
sI tyi
= P
sI Ui
ası́,
X P t∗
s y
t̂yAr = Ui P I i
sI Ui
UI
X X ∆Iij di
dj
X
1
1
X V̂ 2
2 i 2
V̂ (t̂yAr ) = gisI gjsI − − 1 gis V̂
I i
+ g
2 isI
sI πIij πIi πIj π Ii π Ii π
s s
I
Ii I
P
U Ui
con gisI = NI PI
nI sI Ui
entonces,
P !2 " 2 X #
U Ui NI2
X
nI NI NI NI
V̂ (t̂yAr ) = NI PI 1− Sd2s − −1 V̂i + V̂i
nI sI U i
nI NI I nI nI s
n I s
I I
donde
Sd2sI = V̂ (di )
= V̂ (t∗yi − Ui β̂I )
ˆ ∗y , Ui )
= V̂ (t∗yi ) + β̂I2 V̂ (Ui ) − 2β̂I Cov(t i
∆kl|i yk yl
con di = t∗yi − Ni ȳˆUr y V̂i =
PP
si πkl|i πk|i πl|i
En conglomerados
Bajo MAS-MAS:
NI P ∗
nI sI tyi
ȳˆUr = NI P
nI sI Ni
∗
P
sI tyi
=P
Ni
PsI
s Ni ȳsi
= PI
sI Ni
P
si yk
con ȳsi = ni
.
4.4. ESTIMADORES DE REGRESIÓN PARA MODELAMIENTO EN EL NIVEL DE ELEMENTOS 97
1
P
con N̂i = si πk|i .
Propuesta 4.3.2.
P Ni ȳˆsi
sIπ
ȳˆUr = P NIii (4.3.6)
sI πIi
1 yk
con ȳˆsi =
P
N̂i si πk|i .
[
La muestra está basada en los datos (yk , xk ) para k ∈ s, donde s = si con tamaño
P i∈sI
ns = sI ns .
β es estimado por:
!−1 !
X x0 xk X xk y k
k
β=
s
πk σk2 s
πk σk2
Ahora,
X X eks
t̂yBr = ŷk +
U
πk S
XX X 1 X yk − ŷk
= ŷk + (4.4.1)
U U s
πk s πk|i
I i I i
X t̂y
ir
t̂yCr =
sI
πIi
X ty X 1 X yk − ŷk
r
= +
sI
πIi sI
πIi s πk|i
i
X tŷi X yk − ŷk
= + (4.4.3)
s
π Ii s
πk
I
4.4. ESTIMADORES DE REGRESIÓN PARA MODELAMIENTO EN EL NIVEL DE ELEMENTOS 99
X
donde tŷi = ŷk .
Ui
con estimadores
X V̂CE
i
V̂CU SM = 2
UI
πIi
con
X yk
t̂yiπ =
s
πk|i
i
X X ∆kl|i yk yl
V̂i =
si πkl|i πk|i πl|i
Para el caso donde los totales por conglomerados se consideran aproximadamente cons-
tantes.
2.
P t̂yir
sI πIi
t̂∗∗
yCr =N P Ni (4.4.6)
sI πIi
X
para el caso donde N = Ni es conocido y los totales por conglomerados se conside-
UI
ran aproximadamente proporcional a Ni .
En este caso
1 ∗∗
ȳˆU = t̂ .
N yCr
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 101
con estimador
P yk
s πk
β̂ = P xk
s πk
P
t̂yiπ
sI πIi
=P t̂xiπ
sI πIi
P yk
con t̂yiπ = si πk|i
eks = yk − β̂xk
P P txi
UI txi sI πIi
gksB = P t̂xi y gksC = P t̂xi
sI πIi sI πIi
Caso B:
nI nI (nI −1) ni ni (ni −1)
πIi = NI
; πIij = NI (NI −1)
; πk|i = Ni
; πkl|i = Ni (Ni −1)
.
!
X
t̂yBr = txi β̂
UI
donde
P
t̂yiπ
P
sI πIi si yk
β̂ = P ; con t̂yiπ =
t̂xiπ πk|i
sI πIi
entonces
NI P Ni
P
nI sI ni si y k
β̂ =
NI P Ni
P
nI sI s i xk
ni
Ni
P P
sI ni si y k
=P P
Ni
sI ni s i xk
P
s (Ni ȳsi )
=PI
sI (Ni x̄si )
Ası́
!
X
t̂yBr = txi β̂
UI
!P
s (Ni ȳsi )
X
= txi P I
UI sI (Ni x̄si )
!P
S (Ni ȳsi )
X
= Ni x̄Ui P I
U I
sI (Ni x̄si )
La aproximación de varianza es
XX tEi tEj X
AV (t̂yBr ) = ∆Iij + VEi
UI πIi πIj U I
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 103
con
X
tEi = Ek
Ui
X
= (yk − βxk )
Ui
= Ni (ȳUi − β x̄Ui )
y
XX Ek El
VEi = ∆kl|i
si πk|i πl|i
Ası́,
NI nI NI X
AV (t̂yBr ) = 1− St2E + VEi
nI NI UI nI U
I
donde
Ni ni
VEi = 1− SE2 U
ni Ni I
con
1 X 2
St2E = tEi − t̄EUI
U I NI − 1 U
I
con
X 1 X
tEi = Ek y t̄EUI = tEi
Ui
NI U
I
Y varianza estimada
donde
104 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
P
eks UI txi
X
t̂Ei = gksB ; eks = yk − β̂xk ; gksB = P
sI
πk|i t̂xi
sI πIi
y
X X ∆kl|i gksB eks glsB eks
V̂BEi =
si πkl|i πk|i πl|i
Ası́,
2 X
N2
X
nI NI NI NI
V̂ (t̂yBr ) = I 1− St̂2E − −1 V̂BEi + V̂BEi
nI NI s I nI nI s
n I s
I I
con
1 X ¯
2
St̂2E = t̂Ei − t̂EsI
s I nI − 1 s
I
donde
NI X 1 X
t̂Ei = gksB eks y t̂¯EsI = t̂Ei
nI s nI s
I I
NI2
2 nI
V̂BEi = gksB 1− Se2si
nI NI
con
Caso C:
donde
P
s Ni ȳsi
β̂ = P I
sI Ni x̄si
La aproximación de varianza
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 105
N2
nI
AVCU P M = I 1− St2yU
nI NI I
donde
1 X 2
St2y = tyi − t̄yUI
UI NI − 1 U
I
X 1 X
tyi = yk y t̄yUI = ty
Ui
NI U
I
Ni2
X
NI ni
AVCU SM = 1− SE2 U i
nI Si
ni Ni
Y varianza estimada
N2
X
nI NI NI
V̂CU P M = I 1− St2ySI − −1 V̂i
nI NI nI nI s I
con
N2
ni
V̂i = i 1− Sy2si
ni Ni
y
2 X
Ni2
NI 2 ni
V̂CU SM = gksC 1− Se2si
nI sI
ni Ni
aquı́,
P
2 s Ni x̄Ui
gksC = PI
sI Ni x̄si
106 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
Ejemplo 4.5.2. (Ejercicio 8.3 del Sarndal). Estimar el total de la variable M E84(= y)
para la población M U S84, usando un MAS conglomerado de tamaño nI = 20 de NI = 50
conglomerados, con T P 75(= U ) como la variable auxiliar. Use los siguientes datos
P P 2
sI tyi = 221006; sI tyi = 4869110166;
Ui2 = 799192;
P P
sI Ui = 3290; sI
Ui2 = 2338656;
P P
UI Ui = 8182; UI
P P
sI tyi Ui = 60333403; UI tyi Ui = 21473979.
entonces,
P
s tyi
β̂ = P I
sI Ui
221006
=
3290
= 67.175
X
t̂yAr = Ui β
UI
= 8182(67.175)
= 549626.5
P
U Ui
gsi A = NI PI
nI sI Ui
8182
= 50
20
(3290)
= 1.243
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 107
NI2
X
nI 1 X X
gs2i A
V̂ (t̂yAr ) = 1− 2
ty + β̂ 2 2
Ui − 2β̂ tyi Ui
nI NI nI − 1 sI i sI sI
2
2 50 20 1
= (1.243) 1− 4869110166 + (67.175)2 (799192)
20 50 20 − 1
−2(67.175)(60333403))
= 1190754874
√
1190754874
Cve = × 100 = 6.278 %
549626.5
108 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
Capı́tulo 5
5.1. Notaciones
La primera fase sa de tamaño na (nsa ), se toma de acuerdo con un diseño de muestreo Pa (·)
tal que Pa (sa ) es la probabilidad de que sa se escogida. La correspondientes probabilidades
de inclusión son:
X
πak = Pa (sa ); k∈U (5.1.1)
sa 3k
y
X
πakl = Pa (sa ); k, l ∈ U (5.1.2)
sa 3k,l
109
110 5. MUESTRO EN DOS FASES
X
Recuerde que πk = P (s)
s3k
X
Ahora, P (s) = Pa (sa )P (s | sa )
sa 3s
XX
πk = Pa (sa )P (s | sa )
s3k sa 3s
X X
= Pa (sa ) P (s | sa )
sa 3U s3sa
s3k
X
= Pa (sa )πk|sa (5.1.5)
sa 3k
X
Como el π-estimador no es una opción para estimar el total ty = yk , entonces se está a la
U
búsqueda de un estimador insesgado que use las ponderaciones (pesos) de una manera más
práctica. Para este fin, sea
X X yk
y̌ak = (5.1.6)
sa s
πak
a
Si yak y πak se conocieras para todo k ∈ sa , entonces se podrı́a X usar el π-estimador para
estimar ty , con yk conocido solo para k ∈ s. Sin embargo, dada sa , y̌ak es insesgadamente
sa
estimado por el π-estimador condicional
X y̌ak X yk
= (5.1.7)
s
πk|sa s
πak πk|sa
Este estimador solo necesita los πk|sa de la muestra de la primera fase sa . Introduciendo la
cantidad
Se nota que el peso asignado a cada yk es π1∗ , entonces la última sumatoria es obtenida de los
k
“πk∗ expandidos” yk de la muestra de la segunda fase. Denotamos los y-valores π ∗ expandidos
por:
5.2. EL π ∗ -ESTIMADOR 111
y̌ak
y̌ˇk =
πk|sa
yk
=
πak πk|sa
yk
= ∗
πk
Raras veces el t̂π∗ coincide con t̂π , dado que por lo general πk 6= πk∗
5.2. El π ∗-estimador
Sea
∗
πkl = πakl πkl|sa
X
t̂π∗ = y̌ˇk
s
X yk
=
s
πk∗
i) E(t̂π∗ ) = ty
donde,
XX
Vpa E(t̂π∗ | sa) = V (Qsa ) = ∆akl y̌ak y̌al
U
y
hX X i
Epa V (t̂π∗ | sa) = Epa V (Rs | sa) = Epa ∆kl|sa y̌ˇk y̌ˇl
sa
dado que
! !
X X X X
t̂π∗ − t = y̌ak − yk + y̌ˇk − y̌ak
sa U S sa
Ahora:
X X X X
∆akl ∆akl
E y̌ak y̌al = Epa y̌ak y̌al
s π∗ sa πakl
kl
XX
= ∆akl y̌ak y̌al
U
= Vpa E(t̂π∗ | sa)
De igual forma:
X X
∆kl|sa X X
E ˇ ˇ
y̌k y̌l = Epa ˇ ˇ
∆kl|sa y̌k y̌l
s πkl|sa sa
Ası́,
2. A partir de sa se forman Hsa estratos denotados sah (h = 1, 2, . . . , Hsa ) con nah ele-
mentos en el estrato (h), ası́
H sa Hsa
[ X
sa = sah y nsa = nah
h=1 h=1
3. Del estrato h se selecciona una muestra sh (sh ⊂ sah ) de tamaño nh de acuerdo al diseño
Ph (· | sa ). Los submuestreos para cada estrato son llevados de una forma independiente,
ası́ la muestra final sera:
H sa Hsa
[ X
s= sh y ns = nh
h=1 h=1
con " Hs #
XX Xa X
V (t̂π∗ ) = ∆akl y̌ak y̌al + EPa ∆kl|sa y̌ˇk y̌ˇl (5.3.2)
U
h=1 sah
donde
yk yk
y̌ak = y y̌ˇk = ∗ ,
πak π
con estimador insesgado
H sa
X X ∆akl X X ∆kl|sa
V̂ (t̂π∗ ) = y̌ ak y̌al + y̌ˇk y̌ˇl (5.3.3)
s π∗ π kl|s
kl h=1 s a
h
y
fh para k = l ∈ sah
h −1
πkl|sa = fh nnah −1
para k ∈ sah , l ∈ sah , k 6= l
f h f h0 para k ∈ sah , l ∈ sah0 , h 6= h0
El π ∗ -estimador es
Hsa
X X
t̂π∗ = y̌ˇk
h=1 sh
Hsa
X X yk
=
h=1 s
πk∗
h
Hsa
XX yk
=
h=1 sh
πak πk|sa
Hsa
X nah X yk
=
h=1
nh s πak
h
Hsa
X nah X
= y̌ak
h=1
nh sh
Hsa
X
= nah y̌¯sh
h=1
yk
donde Sy̌2s es la varianza en el estrato h de los valores expandidos y̌ak = πak
, es decir,
ah
1 X
Sy̌2s = (y̌ak − y̌¯sah )2
ah nah − 1 s
ah
con X y̌ak
y̌¯ =
s
nah
ah
con estimador
116 5. MUESTRO EN DOS FASES
Hsa
X X ∆akl X n2ah
V̂ (t̂π∗ ) = y̌ y̌
ak al + (1 − fh ) Sy̌2s
s π∗ n h h
kl h=1
∗
donde πkl = πakl πkl|sa y
1 X
Sy̌2s = (y̌ak − y̌¯sh )2
h nh − 1 s
h
P yk
con y̌¯sh = n1h y̌ak = 1
P
nh πak
sh sh
Ejemplo 5.3.2. Usando el resultado 5.3.1, tomando en la primera fase un diseño MAS, y
la segunda fase un ESTMAS. Tenemos,
El π ∗ -estimador es
Hsa
X X
t̂π∗ = y̌ˇk
h=1 sh
Hsa
X X yk
=
h=1 s
πk∗
h
Hsa
XX yk
=
h=1 sh
πak πk|sa
Hsa
X nah X yk
=
h=1
nh s πak
h
Hsa
X
=N wah ȳsh
h=1
= N ȳˆU
La varianza es
Hsa
!
N2 X
2 1 − fh 2
V (t̂π∗ ) = (1 − fa ) Sy2U + EM AS N 2
wah Sys
n nh ah
|a {z } | h=1
{z }
V1
V2
5.4. ESTIMADORES DE DIFERENCIA 117
ası́,
H sa Hs
wah Sy2s N (N − na ) Xa
X nah − 1 nh − 1 2
V̂ (t̂π∗ ) = N (N − 1) − h
+ wah ȳsh − ȳˆU
h=1
na − 1 N −1 nh na − 1 h=1
1 na −nah
donde nh ≥ 2 y δh = nh na −1
.
nah −1 .
Cuando N >> na y na −1
= wah , entonces
Hsa 2 2 Hs
. 2 X wah Sysh N 2 Xa 2
V̂ (t̂ ) = N
π∗ + wah ȳsh − ȳˆU
h=1
nh na h=1
pueden ser llamados valores sustitutos para el elemento k. Sean las diferencias
.
Dk = yk − yk0
y
. 0
D1k = yk − y1k
definidas para k ∈ U . Consideremos:
118 5. MUESTRO EN DOS FASES
X X yk − y 0 X X D1k
0 1k 0
y1k + = y1k +
U s
πak U s
πak
a a
y
X y0 X yk − y 0 X y 0 X Dk
k k k
+ = +
s
πak s
πk∗ s
πak s
πk∗
a a
X X y0 − y0 X yk − y 0
0 k 1k k
t̂dif = y1k + +
U sa
πak s
πk∗
X X D1k − Dk X Dk
0
= y1k + +
U sa
πak s
πk∗
P
el cual es un estimador insesgado de t = yk ; teniendo en cuenta que el error de este
U
estimador es: ! !
X D1k X X Dk X Dk
t̂dif − t = − D1k + −
sa
πak U s
πk∗ sa
πak
se tiene que
D1k D1l hX X i
ˇ
∆kl|sa ϡk Ď
XX
V (t̂dif ) = ∆akl + EPa l
U πak πal sa
donde ϡk = Dk
πk∗
, con estimador insesgado
X X ∆akl D1k D1l X X ∆kl|sa ˇ ˇ
V̂ (t̂dif ) = + Ďk Ďl ]
s π ∗ πak πal s πkl|sa
kl
Este estimador también se puede usar cuando solo se tiene una fuente de información
Caso 1:
xk es usada en el diseño muestral para la segunda fase
0 0
xk = (x1k , x2k ) = x1k
aquı́
yk = yk0 y Dk = D1k
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 119
Ası́,
X X yk − y 0
0 1k
t̂dif 1 = y1k +
U s
πk∗
Caso 2:
0 0
xk = (x1k , x2k ) = x2k
X y0 X yk − y 0
k k
t̂dif 2 = + ∗
s
π ak s
π k
a
con varianza
yk yl hX X i
ˇ
∆kl|sa ϡk Ď
XX
V (t̂dif 2 ) = ∆akl + EPa l
U πak πal sa
donde ŷ1k y ŷk son valores predichos obtenidos del apropiado ajuste de regresión.
( 0
Eξ (yk ) = xk β
Vξ (yk ) = σk2
Si los yk -valores fuesen conocidos para todo el conjunto sa , un estimador de β al nivel de sa
es dado por
!−1 !
X xk x0 X xk y k
k
βs a = 2
s
σk kπ s
σk2 πk
a a
0
con residuales Ek = yk − xk βsa , para k ∈ sa .
0
en ese caso ŷk = xk β̂s , para k ∈ sa y los residuales eks = yk − ŷk , para k ∈ s.
!−1 !
X x1k x0 X x1k yk
1k
β̂1s = 2 ∗ 2 ∗
s
σ1k πk s
σ1k πk
0
las predicciones quedan dadas por ŷ1k = x1k β̂1s y los residuales eks = yk − ŷ1k .
Se define:
!0 !−1
X xk X xk X xk x0 xk
k
gks = 1 + − , k∈s
sa
πak s
πk∗ s
σ 2 ∗
π
k k σk2
y
!0 !−1
X X x1k X x1k x0 x1k
1k
g1ksa = 1 + x1k − 2
, k ∈ sa
U s
πak sa
σ1k πak σk2
a
con estimador
X X ∆akl e1ks e1ls X X ∆kl|sa eks els
V̂ (t̂r ) = ∗
g1ksa g 1lsa π + gks ∗ gls ∗
s π πak πal s πkl|sa πk πl
kl
X X yk − ŷ1k
t̂r1 = ŷ1k +
U s
πk∗
Caso 2:
0 0 0 0
xk = (x1k , x2k ) = x2k para k ∈ sa .
Aquı́ se obtiene:
X ŷk X yk − ŷk
t̂r2 = +
s
πak s
πk∗
a
con
hX X i
∆kl|sa ̡k ̡l
XX
AV (t̂r2 ) = ∆akl y̌ak y̌al + EPa
U sa
y estimador
X X ∆akl X X ∆kl|sa eks els
V̂ (t̂r2 ) = ∗
y̌ˇak y̌ˇal + gks ∗ gls ∗
s π s πkl|sa πk πl
kl
y̌ˇk
P
ŷk = β̂s xk y β̂s = P s
ˇ
s x̌k
P
x̌ak xk
eks = yk − β̂s xk y gks = Psa ; x̌ak =
ˇ
s x̌k πak
entonces,
!P
X y̌ˇk
t̂r2 = x̌ak P s
ˇ
s x̌k
sa
!
X
= x̌ak β̂s
sa
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 123
y̌ˇk
P
ỹs = P s 1
s πk∗
t̂r = t̂r2
aquı́,
además,
N
e1ks = yk − ȳˆU r , g1ks =
N̂πa
124 5. MUESTRO EN DOS FASES
Ejemplo 5.5.3. Hallar t̂r2 , V̂ (t̂r2 ) y Cve con los siguientes resultados:
xk : 10 14 12 8 15 12 10 9 12 10
yk : 18 30 20 18 30 25 20 18 24 20
entonces,
ȳs
β̂s =
x̄s
22.3
=
11.2
= 1.9910
ȳs
t̂r2 = N x̄sa
x̄s
6000
= 2000 (1.9910)
400
= 59732.14
eks = yk − β̂s xk
= −1.9107 2.125 − 3.8928 ··· 0.1071 0.0892
2 2
na Sy2s
2
2 n x̄sa Ses
V̂ (t̂r2 ) = N 1 − +N 1−
N na na x̄s n
2
2 400 22.23 2 10 15 3.2099
= 2000 1 − + 2000 1 −
2000 400 400 11.2 10
= 2423319
√
2423319
Cve = × 100 = 2.6 %
59732.14
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 125
Ejemplo 5.5.4. Suponga que para una población de N individuos se usa la estrategia bifásica
donde en la primera fase se seleccionan n1 elementos con MAS y en en la segunda fase
se utiliza un diseño PPT, donde se seleccionan n elementos proporcionales a una variable
auxiliar x.
1. Demuestre que:
n n1
N x 0 X yi 0
X
t̂y = ; con x = xi .
n1 n i=1 xi i=1
2. Demuestre que:
N − n1 2 N n1 − 1
V (t̂y ) = N SyU + Vp (y)
n1 n − 1 nn1
donde: 2
X xi y i
Vp (y) = − ty .
U
tx xi /tX
y̌1i yi
y̌ˇi = =
pi|s1 π1i Pi|s1
Por tanto: n
N x0 X y i
t̂y =
n1 n i=1 xi
126 5. MUESTRO EN DOS FASES
Para V1 se define:
n1
N
si k = l ∈ s1
π1kl =
n1 n1 −1
si k 6= l; k, l ∈ s1
N N −1
y
n1 n1
1− k = l ∈ s1
N N
si
∆1kl =
−n1 )
− nN12(N si k 6= l; k, l ∈ s1
(N −1)
De esta forma:
X XX
2
V1 = ∆1kl y̌1k + ∆1kl y̌1k y̌1l
U k6=l U
X y2 XX y1k y1l
= ∆1kl 1k
2
+ ∆1kl
U
π1kk6=l U
π1k π1kl
XX
N n1 X 2 N N − n1
= 1− y − yk yl
n1 N U k n1 N (N − 1) k6=l U
!2
N n1 X N − n1 X X
= 1− yk2 − yk − yk2
n1 N U n1 (N − 1) U U
!2
N n1 N − n1 X 2 N − n1 X
= 1− + yk − yk
n1 N n1 (N − 1) U n1 (N − 1) U
!2
N (N − n1 ) X 2 N − n1 X
= y − yk
n1 (N − 1) U k n1 (N − 1) U
!2
N − n1 X X
= N yk2 − yk
n1 (N − 1) U U
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 127
!2
N − n1 N X 1 X
= · yk2 − yk
n1 N −1 U N U
" #
N − n1 N X
= · yk2 − N ȳU2
n1 N −1 U
N − n1 2
=N SyU
n1
2
2
N 1 XX yi yj
= 2 p1i p1j −
n1 n S i<j p1i p1j
1
2 !
N2 1 X X
yi yj
EM AS (VP P T (t̂y )) = EM AS p1i p1j −
n21 n S i<j p1i p1j
1
2 !
2
N 1 X X yi yj
= EM AS 2
p1i p1j − Ii Ij
n1 n U i<j p1i p1j
2
N2 1 X X
yi yj
= 2 p1i p1j − EM AS (Ii Ij )
n1 n U i<j p1i p1j
2
N 2 n1 (n1 − 1) 1 X X
yi yj
= 2 p1i p1j −
n1 N (N − 1) n U i<j p1i p1j
2
N (n1 − 1) 1 X yi
= p1i − ty
(N − 1)n1 n U p1i
128 5. MUESTRO EN DOS FASES
2
N n 1 − 1 X xi yi
= − ty
N − 1 nn1 U tx xi /tx
N n1 − 1
= Vp (y)
N − 1 nn1
Por tanto,
N − n1 2 N n1 − 1
V (t̂y ) = V1 + V2 = N SyU + Vp (y)
n1 n − 1 nn1
Ejemplo 5.5.5. Mediante una muestra aleatoria simple grande y barata de tamaño 374 de
las casas de un distrito, se observa que 272 estaban ocupadas por familias de raza blanca y
82 por otras razas. Una segunda muestra de aproximadamente una de cada cuatro casas dio
los siguientes resultados respecto de la proporción de las casas de alquiler:
En alquiler Total
Blancos 31 74
Otros 4 18
n1 = 74
ŵa1 = nna1a = 272
374
31
P̂1 = 74
n2 = 18
ŵa2 = nna2a = 82
374
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 129
4
P̂1 = 18
2
X
P̂ = Ŵh P̂h
h=1
272 31 82 4
= × + ×
374 74 372 18
= 0.376
−
!
na X P̂ h 1 P̂ h Ŵh 1 X 2
V̂ (P̂ ) = Ŵh2 − + Ŵh P̂h − P̂
na − 1 h nh − 1 na na h
" 2 ! 2 !#
374 31 31 272 4 4 82
74
1 − 74 272 1 − 82
= − 374 + 18 18
− 374
373 73 374 374 17 374 374
" 2 2 #
1 272 31 82 4
+ − 0.376 + − 0.378
374 374 74 374 18
≈ 0.0025
luego,
√
e.e
ˆ = 0.0025 = 0.05
y
0.05
Cve = × 100 = 13.3 %
0.375
130 5. MUESTRO EN DOS FASES
Capı́tulo 6
La distribución espacial de una población tiene relación con la distribución espacial de los
individuos en la población.
Este tipo de situación ocasiona distintos efectos en el análisis sobre las muestras e incluso
puede ocasionar cambios en los programas de muestreo. Este importante aspecto deja entre-
ver que la dispersión presente en una población es de gran importancia práctica.
Los individuos de una población pueden seguir tres tipos de distribución espacial:
Una serie poisson es un modelo apropiado para una distribución aleatoria, y la binomial
positiva es un modelo aproximado para una distribución regular. La binomial negativa fre-
cuentemente se usa para distribuciones contagiosas o agregadas, sin embargo es solo uno de
los posibles modelos.
131
132 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN
Definición 6.0.2 (Distribución regular). En este tipo de distribuciones los individuos están
relativamente confinados y apuntados uno del otro, lo caracteriza el espaciamiento uniforme
de los individuos en la población, y en una perfecta distribución regular los individuos equi-
distan de cada otro.
Comportamientos territoriales frecuentemente producen espaciamientos uniformes de indivi-
duos. Una distribución regular raramente describe la dispersión de una población sobre un
área grande, pero a veces describe la dispersión sedimentaria de especies en un área pequeña
la distribución de los individuos dentro de un conglomerado.
La frecuencia del muestreo usualmente depende de los objetivos del estudio. Las muestras
pueden ser tomadas a intervalos semanas en estudios detallados de la historia de vida, o solo
una vez al año en algunos estudios generales (Forestarias).
La muestra en cada estación debe cubrir una gran área. El tamaño de la muestra depende
de la diversidad y dispersión de la fauna y flora en la estación.
El tamaño de la muestra
πk = 1 − (1 − pk )m ,
Ai
pi = AT
.
134 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN
yi longitud pi
60 5 0.05
60 5 0.05
14 2 0.02
1 1 0.01
n
1 X yki
t̂yp =
n i=1 pki
1 60 60 14 1
= + + +
4 0.05 0.05 0.02 0.01
= 800 animales
n 2
1 X yki
V̂ (t̂yp ) = − t̂yp
n(n − 1) i=1 pki
" 2 2 #
1 60 1
= − 800 + · · · + − 800
4(3) 0.05 0.01
= 68.333
q
V̂ (t̂yp )
Cve = × 100
t̂yp
= 32.67 %
πk = 1 − (1 − pk )n y πkl = πk − πl − [1 − (1 − pk − pl )n ]
entonces, π1 = 0.1854, π2 = 0.0776 y π3 = 0.0394.
6.1. PAUTAS BÁSICAS PARA UN PROGRAMA DE MUESTREO 135
X yk
t̂yπ =
s πk
60 14 1
= + +
0.1854 0.0776 0.0394
∼
= 529 animales
X X ∆kl yk yl
V̂ (t̂yπ ) =
U πkl πk πl
X 1 − πk 2 X X πkl − πk πl yk yl
2
= yk +
s πk2 k6=l πk πl πkl
n
X 1 1 2
XX 1 1
= 2
− y k + 2 − yk yl
s π k πk k=1 i>k
π k πl π kl
1 1 2 1 1
= − (60) + − (14)2
0.18552 0.1855 0.07762 0.0776
1 1 2 1 1
+ − (1) + 2 − (60)(14)
0.03942 0.0394 (0.1855)(0.0766) 0.0112
1 1 1 1
+2 − (60)(1) + 2 − (14)(1)
(0.1855)(0.0394) 0.0056 (0.0766)(0.0394) 0.0023
= 74538
√
⇒ e.e
ˆ = 74538
∼
= 273 animales
273
⇒ Cve = × 100
529
= 51.60 %
136 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN
Capı́tulo 7
Enfermedades raras
1. Se seleccionan centros médicos que tengan relación con enfermedades de este tipo
(MAS). Dentro de estos se toman aquellas personas que tengan enfermedades raras.
2. Bajo la misma situación que se va a estudiar que no es muy común, se van a seleccionar
hogares. Se observan todas las personas adultas con la enfermedad y a su vez de otros
familiares de otros hogares diferentes (primer grado de consanguinidad), es decir, una
persona que tenga muchos hermanos tiene más probabilidad de estar en la muestra.
Diseños como los ilustrados anteriormente están referidos a un muestreo de redes o muestreo
de multiplicidad. El muestreo de redes , una muestra aleatoria simple o estratificada de uni-
dades seleccionadas y todas las unidades observadas que están vinculadas a cualquiera de las
unidades seleccionadas son incluidas u observadas.
El estimador propuesto para la estimación del total para estos casos es llamado estimador
de multiplicidad, este es semejante al estimador de Hansen-Hurwitz tal y como lo veremos a
continuación.
137
138 7. MUESTREO DE REDES (NETWORK)
El diseño de muestreo de redes no fue propuesto para aumentar la eficiencia sino porque estas
situaciones son inevitables en el muestreo (un paciente tiene registros en más de un centro
medico).
Desarrollos teóricos posteriores muestran el potencial de este estimador para obtener varian-
zas estimadas más bajas que los procedimientos tradicionales y para incrementar el rendi-
miento del estudio, esto es el número de total de individuos en la muestra con la enfermedad
u otra caracterı́stica.
Algunas notaciones
yi : Valor de la variable de interés para la i-ésima unidad observada
1 X yi
t̂m =
n i∈s pi
M X yi
= (7.1.2)
n i∈s
mi
E(R) = npi
Definamos:
entonces, llamando
X yi
wj = (7.1.3)
Aj
pi
se tiene que
n
MX
t̂m = wj
n j=1
= M w̄ (7.1.4)
con varianza
M (M − n) 2
V (t̂m ) = sw
n
M2 n 2
= 1− σw (7.1.5)
n M
y estimador
M2 n 2
V̂ (t̂m ) = 1− s (7.1.6)
n M w
donde
M M
1 X 1 X
σw2 = (wj − w̄)2 ; w̄u = wj (7.1.7)
M − 1 j=1 M j=1
y
n n
1 X 1X
s2w = (wj − w̄)2 ; w̄s = wj (7.1.8)
n − 1 j=1 n j=1
140 7. MUESTREO DE REDES (NETWORK)
entonces,
Recuerde que una red está compuesta por todas las unidades de observación que tiene la
misma configuración de vı́nculos. Entonces particionando la población en k redes, indexadas
por 1, 2, 3, . . . , k y llamando:
Entonces:
M −m∗k
n
M
: Probabilidad de selección de una muestra de n unidades de selección
n no ligadas con la k-ésima red.
M −m∗k
n
πk = 1 − M
(7.2.1)
n
También, definiendo:
m∗kl
: Número de unidades de selección que están vinculadas a las redes
k y l.
M −m∗ −m∗ +m∗
k l lk
n
M
: probabilidad de selección de una muestra de n unidades de obser-
n vación no ligadas con las redes k y l.
7.2. ESTIMADOR DE HORVITZ-THOMPSON 141
y estimador
k k X
πkl − πk πl y ∗ y ∗
X 1 − πk X
V̂ (t̂π ) = yk∗ 2 + k l
k=1
πk2 k=1 k6=l
πk πl
πkl
k k X
X 1 1 ∗2
X 1 1
= 2
− yk + − yk∗ yl∗ (7.2.5)
k=1
π k π k
k=1 k6=l
π k π l π kl
Ejemplo 7.2.1. Se realizó un estudio para analizar una muestra de una enfermedad, para
esto se seleccionó una muestra aleatoria simple de 100 hogares, los residentes adultos de los
hogares seleccionados informan de sus hermanos en la ciudad como de ellos mismos. Los ho-
gares son las unidades de selección, mientras que los adultos son las unidades de observación
y la variable respuesta yk es codificada como 1 si la persona tiene la enfermedad y 0 en caso
contrario.
Se estima que en la ciudad existen 5 mil hogares, en 97 de los 100 hogares las personas
no tenı́an hermanos o no tenı́an la enfermedad, solamente se encontraron 3 personas con
la enfermedad y/o con hermanos, por lo tanto inicialmente se analizarán estos 3 hogares o
unidades de selección.
En la muestra del hogar 1 viven 2 adultos, los cuales son un hombre y una mujer. El hombre
tiene viviendo en la ciudad a 1 hermano, la persona seleccionada no tiene la enfermedad,
pero su hermano si. Estos conforman la red 1 con multiplicidad 2.
La mujer tiene dos hermanos, ella tiene la enfermedad, uno de los hermano tiene la enfer-
medad, pero el otro no. Estos 3 hermanos conforman la red 2 de multiplicidad 3.
El hogar del hermano de la mujer que no tiene la enfermedad, también salió seleccionado en
la muestra (hogar 2). En este hogar también vive un cuñado, quien no tiene la enfermedad y
142 7. MUESTREO DE REDES (NETWORK)
y3 = 0
M −→ y4 = 1 ; m2 = 3 H −→ y 6 = 0 ; m3 = 1
y5 = 0
entonces,
1 2 7
w1 = 2
+ 3
= 6
2 0 2
w2 = 3
+ 1
= 3
1
w3 = 1
=1
wj = 0, para el resto.
5000 7 2
t̂m = + + 1 + 0 + ··· + 0
100 6 3
= 5000(0.02833)
= 141.7
50002
100
V̂ (t̂m ) = 1− (0.02753)
100 5000
= 6745
Para el estimador de Horvitz-Thompson, las cuatro primeras redes de las distintas muestras
tienen totales y1∗ = 1, y2∗ = 2, y3∗ = 0,y y4∗ = 1.
1 2 0 1
t̂π = + + + + 0 + ··· + 0
0.039603 0.058819 0.02 0.02
= 109.3
1 1 2 1 1 2 1 1
V̂ (t̂π ) = − (1) + − (2) + −
0.0396032 0.039603 0.05881952 0.0588195 0.022 0.02
1 1 1 1
+2 − (2) + −
0.039603(0.0588195) 0.020769 0.039603(0.02) 0.0007844
1 1
+ − (2)
0.05819(0.02) 0.0011651
= 5617
Suponga que se desea estimar N, la cantidad de animales en una población, (por ejemplo
peces): se atrapan n1 animales, se marcan y luego se sueltan, permitiendo que los marcados
y no marcados se mezclen, luego se extrae una segunda muestra en forma independiente de
tamaño n2 , de tal forma que el p % de los n2 están marcados, luego se tiene que bajo el
supuesto que la población no ha cambiado entre ambas muestras y que la recolección pro-
porciona una muestra aleatoria simple de la población, se estima que el p % de la población
están marcados y que por lo tanto n1 , marcados en la primera muestra, representa el p % de
la población, entonces
Se estima N como:
n1 −→ p % 100×n1
⇒x=
x −→ 100 p%
145
146 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL
100 × n1
N̂ =
p%
100 × n1
=
100 × nm2
n1 × n2
=
m
3. Las dos muestras son independientes, es decir, que la probabilidad de que un pez sea
capturado en la segunda muestra es independiente (no depende) de su historia de
captura.
n2 n1 n2
N̂ = t̂yr = n1 =
m m
(Esta estimación coincide con la estimación de máxima verosimilitud). Se sigue entonces que
(ignorando la correción para poblaciones finitas):
8.1. ESTIMACIÓN POR CAPTURA Y RECAPTURA 147
(n1 + 1)(n2 + 1)
Ñ = −1 (8.1.1)
m+1
Con el estimador de la varianza (Seber 1970)
n1 n2
t̂y =
m
200(100)
=
20
= 1000 peces
148 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL
con
m
n21 1− n2
V̂ (t̂y ) =
m2 m
20
200 1002 1 − 100
2
=
202 20
100 (100 − 20)
= 100
20
2
100 (80)
=
20
= 40000
entonces,
√ 200
e.e
ˆ = 40000 = 200 y Cve = × 100 = 20 %
1000
para estimar las cifras esperadas usarı́amos m̂11 = x11 , m̂12 = x12 y m̂21 = x21 . Si la presencia
en la primera muestra es independiente de la presencia en la muestra segunda muestra,
8.2. TABLAS DE CONTINGENCIA PARA EXPERIMENTOS CON CAPTURA Y RECAPTURA 149
entonces las posibilidades de estar en la segunda muestra son las mismas para los individuos
m11 m12
marcados y los que no: = . En consecuencia, bajo la independencia, en la celda con
m21 m22
el individuo no incluido en cualquiera de las muestras es:
m̂12 m̂21
m̂22 =
m̂11
x12 x21
= ,
x11
y
Se calcula la estimación de N̂ con base a la hipótesis de que las dos muestras son indepen-
dientes; pero esa hipótesis no se puede verificar debido a que sólo se observan tres de las
cuatro celdas de la tabla de contingencias.
Además, estas hipótesis no se pueden probar, ya que solo se observan tres de las cuatro
celdas de la tabla de contingencia; son necesarias las cuatro para probar la independencia
de las muestras. Es posible ajustar modelos más complicados si se extraen K > 2 muestras
aleatorias y en particular si se hace uso de distintos tipos de marcas para los individuos
capturados en las diversas muestras.
donde:
ni es el tamaño de la muestra i.
Se utiliza el siguiente ejemplo para dar idea de lo que se trata hacer en esta sección.
2. Personas que iniciaron tratamiento contra el opio en 1989, del sistema de información
sobre uso de drogas en Cataluña, lista T.
Habı́a un total de 2864 personas distintas en las tres listas. Los integrantes de las tres listas
se compararon en los siguientes resultados:
¿Está en la lista D?
Sı́ No
¿Está en la lista T? ¿Está en la lista T?
Sı́ No Sı́ No
¿Está en Sı́ 6 27 314 1728
la lista E? No 8 69 712 ?
No es claro que estos datos cumplan las hipótesis para el método de captura y recaptura con
dos muestras. Como hay más de dos muestras, podemos evaluar las hipótesis de independencia
mediante modelos Log-lineales; sin embargo hay una hipótesis que nunca podremos probar:
La celda faltante sigue el mismo modelo que el resto de los datos.
Si se extraen tres muestras las cifras esperadas son:
¿Está en la muestra 3?
Sı́ No
¿Está en la muestra 2? ¿Está en la muestra 2?
Sı́ No Sı́ No
¿Está en la Sı́ m111 m121 m112 m122
muestra 1? No m211 m∗221 m∗212 m∗222
Pero, no se puede ajustar este modelo, debido a que requiere ocho grados de libertad y solo
hay siete celdas. Aun ası́, se pueden ajustar los siguientes modelos donde α se refiere a lista
E (muestra 1), β se refiere a lista T (muestra 2) y γ se refiere a lista D (muestra 3).
1. Completa independencia:
ln (mijk ) = µ + αi + βj + γk
152 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL
ln (mijk ) = µ + αi + βj + γk + (αβ)ij
Hay tres modelos de este tipo; los otros dos sustituyen (αβ)ij + (βγ)jk o (αγ)ik + (βγ)jk
en vez de (αβ)ij + (αγ)ik . La presencia de la lista de muertos o de tratamientos son
condicionalmente independientes dado el estado de la lista E (muestra 1); una vez que
sabemos que alguien esta en la lista de la sala de urgencias, el hecho de saber si esta
en la lista de muertos no proporciona información adicional acerca de la probabilidad
de que esté en la lista de tratamiento.
En este modelo siempre se ajustan perfectamente los datos: tiene la misma cantidad de
parámetros como celdas en la tabla de contingencia.
en la celda omitida; sea t el total des siete celdas observadas y sea û la estimación de
la celda faltante usando es modelo Log-lineal. Comark muestra que el conjunto:
2 2 u û
u : G (u) − G (û) + log − log < q1 (α)
t+u t + û
Aun con todo lo mostrado hasta el momento, en ninguno de los modelos se podrá demostrar
la hipótesis de que la celda faltante siga el modelo, pero al menos sera posible examinar las
hipótesis de independencia por parejas entre las muestras. Entonces, para la frecuencia de
adicción al opio se ajustaron los modelos Log-lineales vistos a partir de los datos, usando la
función glim de S-PLUS y se obtuvieron los siguientes resultados:
grados de Intervalo de
Modelo G2 libertad (gl) p−valor m̂222 N̂ confianza al 95 %
1 Independencia 1.80 3 0.62 3,967 6,891 [6.322; 7.407]
2a E*T 1.09 2 0.58 4,639 7,499 [5, 992; 9, 706]
2b E*D 1.79 2 0.41 3,959 6,823 [6, 296; 7, 425]
2c T*D 1.21 2 0.55 3,929 6,793 [6, 283; 7, 373]
3a E*T,E*D 0.19 1 0.67 6,141 9,005 [5, 921; 16, 445]
3b E*T,T*D 0.92 1 0.34 4,416 7,280 [5, 687; 9, 812]
3c E*D,T*D 1.20 1 0.27 3,918 6,782 [6, 253; 7, 388]
4 E*T,E*D,T*D – 0 – 7,510 10,374 [4, 941; 25, 964]
¿Está en la lista D?
Sı́ No
¿Está en la lista T? ¿Está en la lista T?
Sı́ No Sı́ No
¿Está en Sı́ 5.1 28.3 310.8 1730.7
la lista E? No 11.7 64.9 712.4 3966.7
Ahora, una aproximación a los resultados anteriores se puede apreciar si se realiza la rutina
con el procedimiento CATMOD en SAS para los datos suministrados: la rutina es la siguiente:
data opium;
input er treat death count;
cards;
1 1 1 6
1 1 2 314
1 2 1 27
1 2 2 1728
2 1 1 8
2 1 2 712
2 2 1 69;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat er*death;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat er*death treat*death;
run;
8.4. MUESTRO POR CUADRICULAS (ÁREAS) 155
La división por cuadricula suele ser conveniente por razones de eficiencia (precisión o acu-
racidad/costo) se aconseja áreas hexagonales, aunque debe tenerse en cuenta la facilidad de
delimitación de las áreas y la rapidez de su trazado.
Similar al muestreo por conglomerados o áreas, se prefieren muchas áreas pequeñas a pocas
áreas grandes, por efecto intracorrelación, o correlación positiva intraconglomerados, esto
puede aumentar los costos y el error o sesgo de contorno.
En el caso más simple consiste de varias lı́neas paralelas que atraviesan el ámbito que contiene
la población, estas lı́neas transversales o fajas se trazan previamente de manera que no se
corten entre sı́, y se eligen al azar entre un conjunto o sistema de lı́neas posibles, establecido
de antemano. Se van anotando los individuos o animales que se encuentren y los caracteres
que sean objeto de estudio, también se mide la distancia recorrida desde el origen hasta su
encuentro, la distancia del ejemplar a la lı́nea, ası́ como también ángulo de lı́nea con la visual
del observador al individuo.
Entonces, llamando
l : Largo de la transecta.
n : Número de animales observados.
Existen los siguientes criterios para la determinar la densidad de especies utilizando lı́neas
de transecta
n
1. D̂ = ; donde w̄ es el promedio de las distancias y 2w es el ancho promedio de la
2lw̄
faja.
n
2. D̂ = ; donde d¯ es el ancho promedio de la faja (método de King).
2ld¯
n
3. D̂ = ¯ ; donde α es el ángulo promedio y 2d¯sin α es el ancho promedio de la faja
2ld sin α
(método de Webbs).
N̂ = AD̂
n
=A
2lw̄
X yi
= 2lw̄
i A
1
yi : Caracterı́stica de interés =
0
Este método es conocido como de Transecta de lı́neas y aquı́ se asume que no todos los
individuos serán vistos (observados) por el observador y que el número de individuos vistos
(u observados) se incrementará con la distancia recorrida en la transecta. En esta técnica el
observador debe recorrer la lı́nea de transecta (l), contando los individuos (animales, arbo-
les, etc) a ambos lados de la lı́nea y registrando “sin error” di o wi cuando el individuo es
detectado.
8.5. MUESTREO POR FAJAS O BANDAS Y LÍNEAS TRANSVERSALES 157
Esta técnica de muestreo puede realizarse por tierra, mar o desde el aire.
Este tipo de muestreo por transectas de lı́nea exige ciertos criterios para obtener estimaciones
confiables de abundancia poblacional. Estos son:
1. Los individuos situados sobre la lı́nea nunca pueden dejar ser vistos.
2. Los individuos no se mueven antes de ser detectados, las distancias son medidas desde
la ubicación inicial del individuo y no son contados más de una vez.
Aquı́, n = n1 +n2 +· · ·+nm , son los números de observaciones en distintas clases de distancias.
1
D̂ =
n1 n2 nm
2L d1
+ d2
+ ··· + dm
1
Una propuesta puede ser D̂ =
nd1 nd2
donde ndk es el número de indivi-
ndm
2L d1
+ d2
+ ··· + dm
duos a la distancia dk
Para el caso que se tomen áreas de tipo circular de radio w, entonces la probabilidad del
k1 πw2
i-ésimo circulo es Pi = , ası́, la estimación de la densidad es (por unidad de área
A
medida)
n
D̂ =
k1 πw2
y la abundancia estimada es
N̂ = AD̂
nA
=
k1 πw2
Para que este método sea válido en el caso de animales, se debe estar seguro que se encontrará
cada individuo dentro de la faja y que su presencia a lo largo de la transecta no afectará la
presencia o ausencia de otro individuo.
N̂ = AD̂
nA
=
2Lw
n
X yi
= (8.6.2)
p
i=1 i
1 Si es de la especie 2Lw
con yi = y pi = → Proporcional al tamaño.
0 Caso contrario A
Donde A es el área del ámbito. Nuevamente, cuando se toma o selecciona varias transectas
n1
X
de ancho fijo w, se toma L = Li (como si se colocara una transecta detrás de la otra) con
i=1
Li la longitud o largo de cada transecta seleccionada.
Error estándar
Para transectas de ancho fijo
n nA
D̂ = y N̂ = (8.6.3)
2wL 2wL
Mientras que para el caso circular
n nA
D̂ = y N̂ = . (8.6.4)
k1 πw2 k1 πw2
Los errores de estimación dependen de las cantidades
v
n u k1 2
u k1 X
2 nk n
Se = t L − (8.6.5)
L L2 (k1 − 1) k=1 k Lk L
Para el caso de transecta de ancho fijo, donde nk es el número de individuos sobre la k-ésima
área.
Se Ln
e.e(D̂) = (8.6.7)
2w
y
n
Se k1
e.e(D̂) = (8.6.8)
πw2
En cualquiera de los casos
e.e(N̂ ) = Ae.e(D̂)
Intervalos de confianza pueden ser obtenidos asumiendo una distribución Log-normal para
D̂, ası́ un I.C.(95 %) es
!
D̂
, D̂C (8.6.9)
C
donde
n o
C = exp 1.96 × e.e loge D̂
y
s
2
e.e loge D̂ = loge 1 + Cve(D̂)
con
e.e(D̂)
Cve(D̂) =
D̂
Cuando n es pequeño es mejor usar el percentil t(k1 −1, 1− α2 ) .
lı́nea: 1 2 3 4 5 6 7 8 9 10
Li =Longitud (m): 208 401 401 299 350 401 393 405 385 204
Número de aves: 2 5 9 2 6 4 2 2 1 0
lı́nea: 11 12 13 14 15 16 17 18 19 Total
Li =Longitud (m): 39 47 204 271 236 189 177 200 20 4830
Número de aves: 0 0 2 3 3 0 4 2 0 47
Entonces,
19
X
L= Li
i=1
= 4830 m
= 4.83 km
47
D̂ =
2(0.070)(4.83)
= 69.51
∼
= 70 pajaros/km2
1.6887
e.e(D)
ˆ = = 12.02
2(0.070)
ii) En otros casos es necesario subdividir el área de interés en sub-áreas, siendo necesario
usar una estrategia de muestreo estratificado
ii) Aquellos elementos cuyas agujas interceptan la lı́nea elegida en R2 , serán incluidas en
la muestra.
Esta técnica de muestreo ha sido empleada en muestreo forestales para estimar la longitud
total de hileras (arboles) en una región, también se ha usado para evaluar el volumen, peso,
numero de troncos en áreas de bosques. Esta técnica también puede ser usada en problemas
de vegetación asociando objetos circulares tales como manchas o grupos de vegetación, a
los que se puede estimar cualquier caracterı́stica tales como su número, área total, biomasa,
número de flores, frutos, insectos, etc.
En pesquerı́a (área acuı́cola) se ha usado para evaluar algas y el recurso bentónico conocido
como “loco”.
Al centro del rectángulo se corre una lı́nea L0 L00 de longitud L, paralela a los lados de longitud
Li en forma aleatoria sobre A, bajo los siguientes supuestos.
i) Li ≤ w
wL
P1i = (8.7.1)
A
Bajo la condición que M ⊂ wL, la probabilidad de la intersección es:
1
L
2 i
P2i = 1 1
w π
2 2
2Li
= (8.7.2)
πw
Entonces la probabilidad buscada es:
Pi = P (M ∈ wL)P (Intersección/wL)
= P1i P2i
wL 2Li
=
A πw
2Li L
= (8.7.3)
Aπ
Asociando una aguja con un objeto circular en cuyo caso la probabilidad de que la aguja
insercepte la lı́nea central es donde di es el diametro del circulo que corta L0 L00
wL
Pi 0 =
A
1
di
= 21
2
w
Ldi
= (8.7.4)
A
Este estimador para objetos no circulares coinciden formalmente con el π-estimador, la dife-
rencia es que para el método de lı́neas de intersección el tamaño n de la muestra no se fija a
priori como en el t̂yπ , sino que el tamaño de la muestra es la variable aleatoria definida como
el número de agujas que cortaron a la intercepta.
y1 , y2 , . . . , yi , . . . , yn
8.9. VARIABLES CUANTITATIVAS 165
L1 , L2 , . . . , Li , . . . , Ln
θ θ̂ V (θ̂)
N n n 2
X yi π X yi π 2 X y i
ya = ŷa = t̂ya = V (ŷa ) =
i=1
A 2l i=1 Li 2l i=1
Li
N n n
2 X 2
X πA X yi 2 πA yi
y = ty yi = Aya ŷ = t̂yπ = Aŷa = V (ŷ) = A V (ŷa )
i=1
2l i=1 Li 2l i=1
Li
N n n 2
X yi X yi X yi − ỹs
N A Li Li
X yi i=1 i=1 i=1
ȳU = = N
ȳˆU = ỹs = n V (ỹs ) = n 2
i=1
N A
X 1 X 1
i=1
Li i=1
Li
Para yi = 1 ∀i = 1, 2, . . . , N , entonces
N̂ = Aŷa
n
πA X 1
= (8.9.1)
2L i=1 Li
Datos circulares
y1 , y2 , . . . , yi , . . . , yn
d1 , d2 , . . . , di , . . . , dn
θ θ̂ V (θ̂)
N n n 2
X yi π X yi π 2 X y i
ya = ŷa = t̂ya = V (ŷa ) =
i=1
A 2l i=1 Li 2l i=1
Li
N n n
2 X 2
X πA X yi 2 πA yi
y = ty yi = Aya ŷ = t̂yπ = Aŷa = V (ŷ) = A V (ŷa )
i=1
2l i=1 Li 2l i=1
Li
N n n 2
X yi X yi X yi − ỹs
N A Li Li
X yi i=1 i=1 i=1
ȳU = = N
ȳˆU = ỹs = n V (ỹs ) = n 2
i=1
N A
X 1 X 1
i=1
Li i=1
Li
θ θ̂ V (θ̂)
k k
X
Lj (yja − ŷa )2
X
Lj yaj nj
k X
j=1 π X yij j=1
ya = k
ŷa = k
V (ŷa ) = k
X X j=1 i=1
Lij X
Lj 2 Lj (k − 1) Lj
j=1 j=1 j=1
k k
X
Lj (ŷ0ja − ŷa0 )2
X
Lj y0ja nj
k X
j=1 π X yij j=1
ya0 = k
ŷa = Pk V (ŷa0 ) = k
X j=1 Lj j=1 i=1
dij X
Lj (k − 1) Lj
j=1 j=1
Muestreo de conglomerados
adaptativos
Este tipo de muestreo tuvo su origen en el problema de muestreo peculiares (o raros) en po-
blaciones agregadas. En esta técnica, se selecciona una muestra inicial de unidades y siempre
que el valor de la variable de interés satisfaga una condición especificada, las unidades vecinas
son adicionadas a la muestra. Por ejemplo: Una parcela se selecciona si contiene al menos un
organismo bajo estudio.
La vecindad de una unidad puede ser definida por aproximación espacial o, en el caso de
poblaciones humanas por vı́nculos sociales o genéticos u otras conexiones.
169
170 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS
Aun cuando las unidades en la muestra inicial son distintas (por ser un MAS), la selección
repetida se puede presentar en la muestra final cuando un conglomerado incluye más de una
unidad en la muestra inicial; por ejemplo si dos unidades que no son de borde en algún con-
glomerado, son seleccionados en la muestra inicial, entonces este conglomerado puede ocurrir
dos veces en la muestra final.
La vecindad puede ser definida para una variedad de patrones y las unidades en la vecindad
no tienen que ser contiguas. Sin embargo, si la unidad j está en la vecindad de la unidad i,
entonces la unidad i también está en la vecindad de la unidad j (relación de simetrı́a). Estas
vecindades no dependen de los valores de y en la población.
Las unidades de borde juegan un doble rol, lo cual hace que los conglomerados no sean las
unidades más útiles para los distintos desarrollos teóricos, si una unidad de borde es seleccio-
nada de la muestra inicial, ella forma un conglomerado de tamaño 1, si esta no es seleccionada
en la muestra inicial entonces aún esta puede ser seleccionada porque serı́a un miembro de
cualquier conglomerado para el cual ella es una unidad de borde.
Se define una red (network) Ai para la unidad i como el conglomerado generado por la unidad
i pero con unidades de borde removidas. Una selección de cualquier unidad en Ai , conduce a
la selección de todo el Ai , si la unidad i es la única unidad en el conglomerado que satisface
c, entonces Ai consiste justamente de la unidad i y forma una red de tamaño 1. Ası́ mismo,
toda unidad que no satisface c pasa a ser una red de tamaño 1, como cuando la selección no
conduce a la inclusión de ninguna otra unidad, esto significa que todas las conglomeraciones
de tamaño 1 son también redes de tamaño 1. También todas las unidades de borde son redes
de tamaño 1.
Ası́ cualquier conglomerado conformado por más de una unidad puede ser clasificado como
dentro de una red y en red de tamaño 1 (uno por cada unidad de borde).
A diferencia de tener conglomerados que pueden sobrelaparse con las unidades de borde, las
9.2. UN ESTIMADOR USANDO PROBABILIDADES DE INTERSECCIÓN INICIAL 171
N
1 X yi Ii
µ̂π1 = (9.2.3)
N i=1 πi
N −mi
n1
πi0 =1− N
(9.2.4)
n1
la cual puede ser interpretada como la probabilidad que la unidad i sea utilizada en la esti-
mación, o equivalentemente como la probabilidad que la muestra inicial intercepte a los Ai ,
la red para la unidad i. Esta cantidad ignora las cantidades de borde de los conglomerados en
el proceso de estimación, ası́, las observaciones que no satisfacen la condición son ignoradas
si ellas no son incluidas en la muestra inicial.
donde Ii0 toma el valor 1 (con probabilidad πi0 ) si la muestra inicial intercepta los Ai y 0 en
caso contrario.
donde αk = πi0 para cada unidad i en la k-ésima red. Además yk∗ es la suma de los valores-y
para la k-ésima red, K es el número total de las distintas redes en la población, k es el de las
distintas redes en la muestra, y Jk toma el valor 1 (con probabilidad αk ) si la muestra inicial
intercepta la k-ésima red, y 0 en otro caso.
Para un MAS
N −xk
n1
αk = 1 − N
(9.2.8)
n1
Para un MCR
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 173
xk n1
αk = 1 − 1 − (9.2.9)
N
Luego, haciendo Pjk = P (las redes j-ésima y k-ésima no se intercepten), entonces
αjk = αj + αk − (1 − Pjk )
N −xj
+ N n−x N −xj −xk
n1
k
− n1
=1− 1
N
, (9.2.10)
n1
K K
1 X X yj∗ yk∗ zj zk (αjk − αj αk )
V̂ (µ̂2 ) =
N 2 k=1 j=1 αk αj
" K K X K #
1 X 1 1 X 1 1
= 2 − yk∗ 2 zk + − yj∗ yk∗ zj zk (9.2.13)
N k=1 αk2 αk k=1 j=1
α j α k α jk
N
1 X I0
µ̂ = yi i 0 (9.3.1)
N i=1 E(Ii )
N
1 X fi
µ̃ = yi (9.3.2)
N i=1 E(fi )
Como las fi unidades son seleccionadas de mi unidades en Ai , entonces fi tiene una distri-
bución hipergeométrica Hg (N, mi , n1 ), donde E(fi ) = n1Nmi , entonces se tiene que:
N
1 X yi fi
µ̃ = (9.3.3)
n1 i=1 mi
n1 X
1 X 1
µ̃ = yj
n1 i=1 j∈A mi
j
n1
1 X 1 X
= yj
n1 i=1
mi j∈A
j
n1
1 X
= wi
n1 i=1
= w̄ (9.3.4)
N
1 X
E(µ̃) = wi
N i=1
K
1 X
= xk v̄k
K k=1
K
1 XX
= yi
N k=1 i∈B
k
=µ (9.3.5)
N
N − n1 X
V (µ̃) = (wi − µ)2 (9.3.6)
N n1 (N − 1) i=1
1
P (W = wi ) = ; i = 1, 2, . . . , N
N
y se tiene que
176 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS
σw2 = V (W )
N
1 X
= (wi − µ)2 (9.3.10)
N i=1
Luego,
σw2
V (µ̃) = V (w̄) = (9.3.11)
n1
con estimador insesgado
n1
1 X
V̂ (µ̃) = (wi − µ̃)2 (9.3.12)
n1 (n1 − 1) i=1
Ejemplo 9.3.1. Ilustraremos ahora el uso de los estimadores anteriores. En estas ilustracio-
nes, la vecindad de una unidad es definida como la unidad en si y cuatro unidades adyacentes
comparte una lı́nea de borde común.
Una de las unidades de la muestra inicial (cercana a la frontera) intercepta una red de m1 = 6
unidades conteniendo a un total de y ∗ = 36 puntos objetos. Otra unidad intercepta una red
de m2 = 11 unidades conteniendo y2∗ = 107 objetos. Para las otras ocho unidades dadas de
la muestra inicial yi = 0 y mi = 1. Habı́an también 28 unidades de borde, las que no son
usadas en el cálculo de los estimadores.
400−6
10
α1 = 1 − 400
10
= 1 − 0.8582
= 0.1418
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 177
400−11
10
α2 = 1 − 400
10
= 1 − 0.7542
= 0.2458
Para las redes de tamaño 1 la probabilidad es
10
αk = = 0.025
400
Entonces
1 36 107 0 0
µ̃ = + + + ··· +
400 0.1418 0.2458 0.025 0.025
= 1.723 objetos/unidades
o
t̂y = 400(1.723)
= 689 objetos en la población
Ahora
!
400−17
10
α12 = 0.1418 + 0.2458 − 1− 400
10
= 0.3876 − (1 − 0.6444)
= 0.0320
Entonces, reescribiendo
362 1072
1 1 1
⇒ V̂ (µ̃) = −1 + −1
4002 0.1418 0.1418 0.2458 0.2458
2(36)(107) 0.00320
+ −1
0.0320 (0.1418)(0.2458)
= 1.1157
178 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS
√
⇒ e.e
ˆ = 1.1157
= 1.056
wi = 0
1 36 107 0 0
⇒ µ̃ = + + + ··· +
10 6 11 1 1
= 1.573 objetos/unidades
o también
t̂y = 400(1.573)
= 629 objetos en la población
400 − 10
(6 − 1.573)2 + (6.9727 − 1.573)2
V̂ (µ̃) =
400(10)(10 − 1)
+ (0 − 1.573)2 + · · · + (0 − 1.573)2
= 1.147
√
⇒ e.e
ˆ = 1.147
= 1.070
y
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 179
√
⇒ e.e
ˆ = 183.520
= 13.546
Observe que la media de la muestra convencional de las 45 unidades (lo cual incluye 28
unidades de borde) en la muestra final estarı́a dada por:
143
ȳ =
45
= 3.178 objetos
con
t̂y = 400(3.178)
= 1271 objetos en la región
Muestreo de conglomerados
adaptativos estratificado
Desde el punto de vista práctico, los diseños de muestreo de conglomerados adaptativos es-
tratificados son importantes porque para muchas poblaciones existe información previa sobre
la cual se puede basar una estratificación inicial y no se puede predecir la distribución exacta
o los patrones de concentración de la población. En el muestreo estratificado convencional,
las unidades que se piensa que son similares se agrupan a priori en los estratos, sobre la base
de información previa sobre la población o simple proximidad de las unidades. Por otro lado,
el muestreo adaptativo de clusters proporciona un medio para aprovechar las tendencias de
agrupamiento en una población, cuando las ubicaciones y formas de los grupos no pueden
predecirse antes del estudio. Los diseños de muestreo descritos en este capı́tulo combinan los
dos métodos.
Los estimadores convencionales tales como la media de la muestra estratificada no son im-
parciales con los diseños adaptativos, por lo que los estimadores que son imparcial bajo los
diseños se dan en este capı́tulo. Una complicación que surge en el muestreo de agrupamiento
adaptativo estratificado es que una selección en un estrato puede resultar en la adición de
unidades de otros estratos a la muestra, de modo que las observaciones en estratos separados
no son independientes como en el muestreo estratificado convencional. Los diferentes estima-
dores no sesgados dados en este capı́tulo manejan tal cruce de lı́mites de estrato de maneras
ligeramente diferentes.
181
182 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO
10.1. Diseños
La población se divide en estratos L, cuyo estrato h está compuesto de unidades Nh , y el
número total de unidades en la población se denomina N . Asociado con la unidad uhi , la
i-ésima unidad del estrato h, es una variable de interés yhi . Para cualquier unidad uhi de la
población, el vecindad de la unidad uhi se define como una colección de unidades que incluye
uhi y con la propiedad de que si la unidad uh0 i0 está en el vecindario de la unidad uhi . La
vecindad de una unidad puede incluir unidades de más de un estrato. Se dice que una uni-
dad uhi satisface la condición de interés si el valor de y asociado con esa unidad está en un
conjunto C especificado.
En los diseños considerados en este capı́tulo, se selecciona una muestra inicial de unidades
de una población usando muestreo aleatorio estratificado; Es decir, dentro del estrato h, se
selecciona una muestra aleatoria simple de nh unidades sin sustitución, realizándose de forma
independiente las selecciones para estratos separados. Cada vez que una unidad seleccionada
satisface la condición, todas las unidades en su vecindario que no estén ya en la muestra
se añaden a la muestra. Pueden añadirse más unidades a la muestra siempre que alguna
de las unidades adicionalmente añadidas satisfaga la condición, de modo que la muestra
final contenga cada unidad en la vecindad de cualquier unidad de muestra que satisfaga la
condición.
Figura 10.1: Muestra aleatoria estratificada inicial de cinco unidades en cada uno de los dos
estratos.
la ubicación de una planta o animal. Una unidad satisface la condición aquı́ si contiene uno o
más objetos puntuales; Es decir, y ≥ 1. La población se divide en dos estratos, y una muestra
aleatoria simple de cinco unidades seleccionadas de cada estrato se muestra en la figura 10.1.
La vecindad de una unidad consiste en esa unidad junto con todas las unidades adyacentes
al norte, sur, este y oeste. La aplicación del diseño de muestreo de conglomerado adaptativo
estratificado da la muestra final mostrada en la figura 10.2.
La población puede ser dividida en k conjuntos de unidades, denominadas redes, de tal ma-
nera que la selección en la muestra inicial de cualquier unidad en una red dará lugar a la
inclusión en la muestra final de todas las unidades en esa red. Una unidad que no satisface
la condición pertenece a una red que consta de sı́ misma.
La selección inicial de una unidad que satisfaga la condición tı́picamente resultará en la adi-
ción a la muestra no sólo de todas las otras unidades de su red, sino también de unidades
que no están en su red, es decir, unidades que no satisfacen la condición pero en la vecindad
de uno o más miembros de la red. En la figura 10.3, las redes intersectadas por la muestra
inicial se delinean en lı́neas gruesas. Las otras unidades de la muestra, las unidades de borde,
no satisfacen la condición y no estaban en la muestra inicial, sino que están cada una en la
vecindad de una o más unidades que satisfacen la condición en las redes que intersecan la
muestra inicial.
El número de veces que se selecciona una unidad es igual al número de unidades de su red.
Sea rhi el número de veces que se selecciona la unidad uhi . Sea mkhi el número de unidades en
la intersección del estrato k con la red que contiene la unidad uhi . Para una unidad uhi que
no satisface la condición, sea akhi el número total de unidades en la intersección del estrato k
184 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO
con la colección de redes distintas, excluyendo el uhi mismo, que intersecan el vecindario de
la unidad uhi . La selección inicial de cualquiera de estas unidades akhi resultará en la adición
de unidad uhi a la muestra. Defina akhi como cero para cualquier unidad uhi que satisfaga la
condición.
Figura 10.3: Distintas redes intersectadas por la muestra inicial se delinean con lı́neas en
negrita.
10.2. Estimadores
Los estimadores convencionales tales como la media de la muestra estratificada, aunque no
sesgada para la media de la población con el muestreo aleatorio estratificado clásico, no son
imparciales con los diseños adaptativos. Sin embargo, puede obtenerse un estimador no equi-
tativo, aunque ineficiente, µ̂0 de la media poblacional, simplemente utilizando el estimador
estratificado convencional de la media basado en la muestra inicial, ignorando todas las ob-
servaciones posteriores.
Donde ξkhi es el total de los valores y en la intersección del estrato k con la red que incluye
la unidad uhi y mkhi es el número de unidades en esta intersección. El estimador de la media
poblacional es
L nh
1 X Nh X
µ̂1 = whi (10.2.1)
N h=1 nh i=1
Al dejar que la variable aleatoria rkhi represente el número de unidades en la muestra inicial
que están en la intersección del estrato k con la red a la que pertenece la unidad uhi , el
estimador puede escribirse en la forma alternativa
X L
y rkhi
L Nh hi
1 XX h=1
µ̂1 =
L
N h=1 i=1 X Nk
mkhi
k=1
nk
nk mkhi
Como E(rkhi ) = , se sigue que µ1 es un estimador no sesgado de la media de la
Nk
población.
186 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO
Con whi como variable de interés para la unidad uhi para cada unidad en la población, µˆ1
es la media de la muestra estratificada de una muestra aleatoria estratificada y por lo tanto
tiene varianza
L
1 X σ2
V (µ̂1 ) = 2 Nh (Nh − nh ) h (10.2.2)
N h=1 nh
En el cual el término de varianza de la población del estrato es
N
h
1 X
σh2 = (whi − w̄h )2 (10.2.3)
Nh − 1 i=1
1 X
y la media poblacional del estrato es w̄h = whi .
Nh
Se obtiene un estimador no sesgado V (µ̂1 ) de la varianza µ̂1 sustituyendo σh2 por la varianza
muestral
n
h
1 X
s2h = (whi − w̄h )2 (10.2.4)
nh − 1 i=1
1 X
Usando la media muestral w̄h = whi .
nh
Se puede construir una variación µ̂01 en el estimador µ̂1 que esté relacionada con el estimador
estratificado de “multiplicidad” del muestreo en red (Birnbaum y Sirken 1965, Levy 1977,
Sirken 1972a), en el cual el peso que recibe una observación depende del estrato en el que la
muestra inicial intercepta la red de esa unidad. Para la unidad uhi , defina la nueva variable
0
whi como el total de los valores de y en toda la red a la que pertenece la unidad uhi , dividida
por el número total de unidades en esa red; es decir
L
X
ξkhi
0 h=1
whi = L
(10.2.5)
X
mkhi
h=1
Para cada vez que se selecciona cualquier unidad de una red en la muestra inicial, el estimador
incluye un término con el total de los valores de y para esa red, dividido por el tamaño de
la red y ponderado por Nnkk para el estrato del cual la unidad fue seleccionado. Por lo tanto,
10.2. ESTIMADORES 187
cada valor y individual se produce en el estimador cada vez que se selecciona en la muestra
inicial cualquier unidad de la red a la que pertenece, pero con ponderaciones dependiendo de
los estratos de los que proceden las selecciones iniciales. Ası́, el estimador µ̂01 se puede escribir
en la forma alternativa
L
X
Nk
y
Nh hi
r
nk khi
L X
1 X h=1
µ̂01 = (10.2.6)
PL
N h=1 i=1
k=1 m khi
También es posible utilizar un estimador µ̂001 que ignora todas las unidades añadidas a través
00
de los lı́mites del estrato de cruce. Para este estimador, sea whi el total de los valores de
y en la intersección del estrato y la red de unidad uhi , dividido por el número de unidades
en esa intersección. El estimador y sus expresiones de varianza son entonces dados por las
Ecuaciones (10.2.1) a (10.2.4) con w00 reemplazando w. La falta de imparcialidad y otras pro-
piedades se derivan del caso no estratificado, ya que los componentes en diferentes estratos
son independientes.
Sean k redes distintas de la población se etiquetan 1, 2, . . . , k, sin tener en cuenta los lı́mites
del estrato. Sea yi el total de los valores y en la i − ésima red de la población. Sea xhi el
número de unidades en el estrato h que interceptan la red i. La probabilidad αi de que la
muestra inicial cruza la red i es
L
Y Nk − xki
nk
αi = 1 − k=1 (10.2.7)
Nk
nk
Dejando qi = 1 − αi , la probabilidad αij de que la muestra inicial intercepta ambas redes i y
j es
L
Y Nk − xki − xkj
nk
k=1
αij = 1 − qi − qj + (10.2.8)
Nk
nk
Suponiendo que la variable de indicadora zi sea 1 si la muestra inicial cruza la red i y cero
de lo contrario. El estimador estratificado del tipo Horvitz-Thompson modificado es
K
1 X yi zi
µ̂2 = (10.2.9)
N i=1 αi
Siempre que la probabilidad de intersección conjunta αij no sea cero para cualquier par de
redes.
El número real de objetos puntuales en la región es 397, de modo que la media de la población
397
verdadera es µ = 400 = 0.9925.
Para el diseño, la región de estudio se divide en dos estratos, y las muestras iniciales se se-
leccionan mediante muestreo aleatorio estratificado con tamaños de muestra iguales en cada
estrato. Una unidad satisface la condición si contiene uno o más de los objetos puntuales. El
vecindario de una unidad incluye todas las unidades adyacentes, de modo que una vecindad
tı́pico fuera del lı́mite consta de cinco parcelas en forma de cruz.
Considere el diseño con tamaños de muestra iniciales de cinco unidades en cada estrato. Un
resultado de la selección inicial de la muestra se muestra en la Figura (10.1), y la Figura
(10.2) muestra la muestra final que resulta. Los cálculos de la muestra se ilustran usando la
muestra ilustrada (Figura (10.2)). En el estrato 1 (a la izquierda), la muestra inicial ha inter-
sectado dos redes de tamaño mayor que el de una sola unidad. La primera red (a la izquierda)
consta de seis unidades, cuyo valor y total es 96. La segunda red tiene cinco unidades dentro
190 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO
del primer estrato y seis unidades dentro del segundo estrato. El total de los valores y en la
intersección de esta red con el primer estrato es 78, mientras que el total de los valores y en
la intersección de la red con el segundo estrato es 114. Por lo tanto, la segunda red tiene un
total de 11 unidades y un valor total de y de 192. En el segundo estrato, ninguna de las cinco
unidades de la muestra inicial (Figura (10.1)) satisfizo la condición.
00
Utilizando los datos de esta muestra (Figura (10.2)), el valor de la variable whi para el
00
estimador µ̂1 , que ignora el cruce entre estratos, es cero para todas las unidades que no
00
satisfacen la condición. En la primera red intersectada en el estrato 1, el valor es w11 = 96
6
=
00 78
16. Para la segunda red intersectada, el valor es w12 = 5 = 15.6, basado únicamente en
unidades dentro del estrato 1. La estimación de la población La media es
1 200 200
µ̂001 = (16 + 15, 6 + 0 + 0 + 0) + (0 + 0 + 0 + 0 + 0)
400 5 5
= 3.16
1 200(200 − 5)(74.9)
V̂ (µ̂001 ) = +0
4002 5
= 3.65
En el que 74.9 es la varianza muestral de los cinco números 16, 15, 6, 0, 0 y 0. Para el estima-
dor µ̂1 , la variable whi para la primera red de la muestra es w11 = 96
6
= 16. Para la segunda
192
red intersectada Por la muestra, el valor es w12 = 11 = 17.45.
La estimación es
1 200
µ̂1 = (16 + 17.45 + 0 + 0 + 0) + 0
400 5
= 3.35
La estimación de la varianza es
1 200(200 − 5)(84.2)
V̂ (µ̂1 ) = +0
4002 5
= 4.10
en la que 84.2 es la muestra varianza de los cinco valores muestrales de w1i en el primer
estrato. El estimador µ̂01 y su varianza estimada asumen los mismos valores que µ̂1 debido al
10.2. ESTIMADORES 191
Para el estimador µ̂2 , primero deben calcularse las probabilidades de intersección. Formar
cada unidad en la muestra inicial que no satisface la condición, la probabilidad de intersección
es α0 = Nnhh = 200
5
= 0.025 y es la misma en cada estrato, debido a los tamaños iguales de la
muestra y del estrato. Para la primera de las grandes redes intersectadas (la de la izquierda
en la Figura (10.3)), la probabilidad de inclusión es
200 − 6
5
α1 = 1 −
200
5
= 0.14261
200 − 5 200 − 6
5 5
α1 = 1 −
200 200
5 5
= 0.24554
200 − 6 − 5 200 − 0 − 6
5 5
α12 = 1 − (1 − 0.14261) − (1 − 0.2455) +
200 200
5 5
= 0.03240
El estimador estratificado es
962
1 192 0 0
µ̂2 = + + + ··· +
4002 0.14261 0.24554 0.025 0.025
= 3.64
La varianza estimada es
192 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO
962 1922
1 1 1
V̂ (µ̂2 ) = −1 + −1
4002 0.14261 0.14261 0.24554 0.24554
−1
0.0324
+ 2(96)(192)(0.0324 − (0.24554) − 1 + 0 + · · · + 0
0.14261
= 4.78
Capı́tulo 11
Detectabilidad y muestreo
En el marco de muestreo básico, se supone que la variable de interés es registrada sin error
para cada unidad de la muestra. En muchas situaciones reales, sin embargo, este no es el caso.
En los estudios de la mayorı́a de las especies de aves, es improbable que cada pájaro en una
parcela seleccionada sea detectado. En estudios aéreos de grandes mamı́feros, algunos ani-
males en el área observada pueden permanecer sin vigilancia. En un estudio de arrastre para
peces u otras especies marinas, no todos los individuos en el camino de la red se capturan.
De forma similar, cuando se evalúan muestras de suelo o de mineral para objetos minerales
como diamantes, algunos de los objetos en la muestra pueden ser perdidos.
En arqueologı́a, estudios en los que se buscan muestras o trincheras para detectar artefactos,
algunos artefactos en las parcelas de muestra pueden permanecer sin descubrir. En estudios
de poblaciones humanas también, algunos individuos en unidades muestreadas pueden per-
manecer sin ser detectados.
La probabilidad de que se observe un objeto en una unidad seleccionada sea visto, oı́do,
atrapado o detectado por otros medios, se denomina su detectabilidad. En este capı́tulo para
evitar referencias interminables a “objetos” sin nombre y porque gran parte el estudio del
problema de detectabilidad se ha asociado con estudios ecológicos, los objetos individuales
de la población se denominarán “animales”.
193
194 11. DETECTABILIDAD Y MUESTREO
E(y) = ty p (11.1.1)
con varianza
y(1 − p)
V̂ (t̂y ) = (11.1.5)
p2
La densidad de la población se define como
ty
D= (11.1.6)
A
el número de animales por unidad de área en la región de estudio. Un estimador insesgado
de la densidad es
y
D̂ = (11.1.7)
pA
Con varianza
ty 1−p
V (D̂) = 2
A p
y varianza estimada
11.2. ESTIMACIÓN DE LA DETECTABILIDAD 195
y 1−p
V̂ (D̂) = 2
A p2
Ejemplo 11.1.1. Las ubicaciones de nidos de abejas en una región de estudio de 400 por
1600 metros en el Delta Yukón-Kuskokwim de Alaska (datos de Anthony 1990) se muestran
en la figura (11.1). Los nidos han sido censados con una combinación de fotografı́as aéreas
en los estudios de terreno. Los 76 nidos se tomarán como la población total ty en la región
de estudio.
Supongamos que se propone una metodologı́a de estudio, por ejemplo, sola la observación
aérea, para lo cual se sabe que la detectabilidad es p = 0.9.
A partir de dicha estudio, el número total de nidos en la región del estudio se estimarı́a
dividiendo el número observado y por 0.9 y la varianza del estimador como dada en ecuación
anteriormente citada
1 − 0.9
V (t̂y ) = 76 = 8.4
0.9
√
El error estándar es 8.4 = 2.9
Basándose en el método mediante el cual p fue estimado, una estimación de V (p̂) usualmente
se puede determinar. Por ejemplo, supongamos que p se ha estimado como una relación
x̄
p̂ =
ȳ
En un estudio independiente, con una muestra aleatoria de n parcelas en las que xi es el
número de animales detectados en la i-ésima parcela por el método de estudio estándar y yi
es el número real presente basado en la búsqueda intensiva de la parcela. En la estimación
del total de la población total ty con
y
t̂y =
p̂
o la densidad D con
y
D̂ =
p̂A
se puede pensar en dividir el número de animales observados y por p̂ o de multiplicar y por
el recı́proco r = p̂1 .
s2d
V̂ (r) =
nx̄2
donde s2d es la usual varianza muestral residual utilizada en la estimación de razón,
n
1 X
s2d = (yi − p̂xi )2
n − 1 i=1
1
de la submuestra estima el p
recı́proco de detectabilidad.
t2y
1 1−p
V (t̂y ) ≈ 2 V (y) + t2y V (p̂) = ty
+ 2 V (p̂) (11.2.1)
p p p
762
V (t̂y ) ≈ 2.9 + (0.000625) = 8.4 + 4.5 = 12.9
0.92
En cualquiera de las situaciones, las propiedades de las observaciones, y por lo tanto de los
estimadores, dependerá tanto en el diseño del muestreo como en la detectabilidad.
N
X
ty = Yi (11.3.1)
i=1
ty
y la media de la población es µ = N . Los valores Y1 , Y2 , . . . , YN se consideran fijos. Dado
que la unidad i está en la muestra, yi es una variable aleatoria binomial con valor esperado
E(yi ) = Yi p con varianza V (yi ) = Yi p(1 − p). Una estimación del número de animales en la
unidad i es Ŷi = ypi . Condicionada a que la unidad i esté en la muestra,
Yi (1 − p)
E(Ŷi ) = Yi y V (Ŷi ) = (11.3.2)
p
Con una muestra aleatoria simple de n unidades, un estimador del total de la población ty es
ȳ
t̂y = N (11.3.3)
p
Donde ȳ es la media muestral de los valores observados.
N2
n 2 2 1−p µ
V (t̂y ) ≈ 1− σ +N (11.3.4)
n N p n
donde σ 2 es la varianza poblacional.
El término (1−p)
p
disminuye a medida que aumenta la probabilidad de detección p.
Un estimador insesgado de la varianza de t̂y es
N2
n 2 2 1 − p ȳ
V̂ (t̂y ) = 2 1 − s +N (11.3.5)
np N np p
Donde ȳ y s2 hacen referencia a la media y la varianza muestral de los valores observados.
Para estimar la media µ, use µ̂ = yp y divida lo que está después del N 2 por p2 .
Ejemplo 11.3.1. Supongamos que los 1600 metros de largo que tiene la región de estudio de
nidos de aves se divide en N = 16 parcelas, de modo que cada parcela se extiende 100 metros
horizontalmente y 400 metros verticalmente. Los valores poblacionales y, del número de nidos
en cada una de las parcelas rectangulares, son (de izquierda a derecha en la figura), 5, 4, 5,
3, 3, 1, 3, 1, 2, 5, 18, 4, 10, 4 y 4. La media poblacional de estos 16 valores es µ = 4.75 y la
11.4. DETECTABILIDAD ESTIMADA Y MUESTREO ALEATORIO SIMPLE 199
Con una detectabilidad perfecta, una estimación del número total de nidos basada en la
región de estudio de una muestra aleatoria simple de n = 8 de las parcelas serı́a t̂y = 16ȳ con
varianza
16.73
V (t̂y ) = 16(16 − 8) = 267.7
8
con un error estándar de 16.4.
16ȳ
Con detectabilidad p = 0.9 en cada parcela seleccionada, la estimación es t̂y = 0.9
con
varianza
162 (1 − 0.9)(4.75)
V (t̂y ) = 267.7 + = 267.7 + 16.9 = 284.6
(0.9)(8)
y error estándar 16.9.
N ȳ
t̂y = (11.4.1)
p̂
Con la detectabilidad estimada en el denominador, t̂y ya no es insesgado para ty (aunque
puede ser aproximadamente insesgado ası́). Por el teorema de Taylor, una aproximación de
la fórmula de la varianza de t̂y es
N2
V (ȳ) + µ2 V (p̂)
V (t̂y ) ≈ 2
p
N2 1 − p µ µ2
n 2 2
= n− σ +N + V (p̂) (11.4.2)
n N p n p2
N2 ȳ 2
n 2 2 1 − p̂ ȳ
V̂ (t̂y ) = 2 n − s +N + N 2 2 V̂ (p̂) (11.4.3)
np̂ N np̂ p̂ p̂
Ejemplo 11.4.1 (Muestreo aleatorio y detectabilidad estimada). Con la detectabilidad de
p = 0.9 del ejemplo de nido de pajaros independientemente estimado con varianza V (p̂) =
0.000625 y la muestra aleatoria simple de 8 de las 16 parcelas del estudio en la región, la
varianza del estimador
16ȳ
t̂y =
p̂
Con varianza aproximada
162 4.752
V̂ (t̂y ) = 267.7 + 16.9 + (0.000625)
0.92
= 267.7 + 16.9 + 4.50
= 289.1
N2 2
1−p µ
V (t̂y ) ≈ σ + N2 (11.5.2)
n p n
Sea
N yi
t̂yi = (11.5.3)
p
Entonces t̂y es una media muestral de n. independientes e idénticamente distribuidas variables
aleatorias t̂y1 , t̂y2 , . . . , t̂yn , por lo que una estimación no sesgada de la varianza de t̂y es
n
1 X 2
V̂ (t̂y ) = t̂yi − t̂y (11.5.4)
n(n − 1) i=1
N 2 µ2 N 2 ȳ 4
Cuando p es estimado, el término p2 V (p̂)
es agregado a la varianza teórica y p̂V̂ (p̂)
a la varianza
estimada.
11.6. MUESTREO PROBABILÍSTICO DE GRUPOS CON PROBABILIDADES DE DETECCIÓN DESIGUAL 201
Mi
X
tyi = yij (11.6.1)
i=1
Mi
N X
X
ty = yij (11.6.2)
i=1 j=1
v mi
X 1 X yij
t̂y = (11.6.3)
π g
i=1 i j=1 ij
N N X
X 1 − πi X πii0 − πi πi0
V (t̂y ) = +t2yi tyi tyi0
i=1
πi i=1 i0 6=1
πi πi 0
N Mi
X 1 X 1 − gij
+ yij2 (11.6.4)
π
i=1 i i=1
g ij
v v X
X 1 − πi X πii0 − πi πi0
V̂ (t̂y ) = 2
t2yi
+ t̂yi t̂yi0
i=1
π i 0
i=1 i 6=1
π i π i 0
v m i
X 1 X 1 − gij
+ 2
yij2 (11.6.5)
π
i=1 i i=1
g ij
donde
mi
X yij
t̂yi = (11.6.6)
j=1
gij
Capı́tulo 12
En un estudio por transectos lineales de una especie animal o vegetal, un observador que se
mueve a lo largo de una lı́nea seleccionada toma nota de la ubicación relativa a la lı́nea de
cada individuo de las especies detectadas. Suele ocurrir en tales estudios que más individuos
son detectado cerca de la lı́nea que lejos de ella, no porque la abundancia sea mayor cerca de
la lı́nea, sino porque la probabilidad de detección es más alta cerca de la lı́nea que lejos de esta.
Las funciones de detectabilidad son útiles para evaluar muchos métodos de estudios además
203
204 12. LÍNEAS Y PUNTOS TRANSECTOS
para transectos lineales, uno puede pensar en las unidades de detectabilidad, métodos y los
lugares seleccionados para hacer observaciones de una población difı́cil de alcanzar, como una
generalización de las unidades de muestreo clásico de estudios.
Una o más lı́neas de transecto, para las cuales la detectabilidad es virtualmente perfecta cerca
de la lı́nea pero disminuye con la distancia de la lı́nea, puede no ser inmediatamente aparente
cómo para estimar la abundancia o densidad de los animales en la población. Empezaremos
con un par de métodos simples, de sentido común para estimar la densidad de población o la
abundancia de estos datos, avanzando hacia métodos más avanzados, similitud de las ideas
subyacentes a los métodos simple y elaborado.
12.2. MÉTODO DE FRANJA ESTRECHA 205
En los métodos que siguen, el objeto es estimar la densidad de animales u otros objetos en
una región de estudio del área A. Para el i-ésimo transecto en la muestra, la variable de in-
terés yi es el número de animales observados. El tamaño de la muestra n se refiere al número
de transectos seleccionados (no a la variable de interés). El total del número de animales en
la región de estudio se denomina ty , y la densidad de animales es D = tAy . Burnham et al.
(1980, p.33) sugieren que los datos deben incluir al menos 40 detecciones para proporcionar
estimaciones confiables.
Sea L la longitud del transecto y sea w0 la distancia máxima desde la lı́nea a la que se
supone que la detectabilidad es perfecta. Entonces, la anchura de la franja es 2w0 y su área
es 2w0 L. Sea y0 el número de animales detectados dentro de la franja estrecha para estimar la
densidad D, es decir, el número de animales por unidad de área, se puede utilizar el número
de animales en la franja estrecha dividida por su área:
y0
D̂ = (12.2.1)
2w0 L
Si la región del estudio tiene área A, el número total de animales en la región de estudio es
estimado como
Ay0
t̂y = AD̂ = (12.2.2)
2w0 L
La distancia w0 es generalmente menor que la distancia máxima a la que los animales han
sido detectados, y por lo tanto el número de animales y0 utilizados para estimar la densidad
es generalmente menor que el número total y detectado. Varios métodos han sido propuesto
para elegir la distancia w0 a la que se asume la detección perfecta. Una manera es examinar
un histograma de los datos de distancia y buscar una distancia a la que la frecuencia relativa
de las observaciones cae bruscamente.
Ejemplo 12.2.1 (Método de franja estrecha). En un transecto de lı́nea de longitud L = 100
metros, un total de y = 18 aves fueron detectadas a las siguientes distancias (en metros) de
206 12. LÍNEAS Y PUNTOS TRANSECTOS
la lı́nea de transecto: 0, 0, 1, 3, 7, 11, 11, 12, 15, 15, 18, 19, 21, 23, 28, 33, 34, 44.
Se desea estimar la densidad de aves en la región de estudio.
Ası́, la franja estrecha tiene una anchura de 2w0 = 40 metros. El número de aves detectadas
dentro de esta tira fue de y0 = 12.
12
D̂ = = 0.003
2(20)(100)
Por lo que la estimación es de 0.003 aves por metro cuadrado o 30 aves por hectárea.
Aunque el método de la franja estrecha es muy simple, no es enteramente satisfactorio, pri-
mero porque no se utilizan todas las observaciones obtenidas, en segundo lugar porque la
determinación de la anchura de la franja estrecha parece algo arbitraria, y tercero porque la
detectabilidad puede de hecho disminuir suavemente con la distancia de modo que la franja
estrecha con detectabilidad perfecta realmente tiene ancho cero.
12.3. MÉTODO DE SUAVIZADO AL OJO 207
12
fˆ(0) = = 0.0333
18(20)
ya que 12 de los 18 pájaros fueron vistos en los primeros 20 metros de intervalo.
La franja estrecha utilizó solamente los datos de este primer intervalo. Para el intervalo de
la franja estrecha, la altura del histograma es fˆ(0) = ywy0
0
, ası́ que la estimación de la tira
estrecha de D se puede escribir en términos de fˆ(0) como
fˆ(0)y 0.0333(18)
D̂ = = = 0.003
2L 2(100)
El histograma para la distancia x de la lı́nea del transecto puede ser visto como aproximación
de la función de densidad de probabilidad suave f (x) que describirı́a la distribución de las
distancias de detección que se obtendrı́an si uno corriera un número infinito de lı́neas de
transecto seleccionadas aleatoriamente para la especie en cuestión.
Observando el histograma con intervalos de 10 metros, es fácil imaginar que se podrı́a obtener
una mejor estimación de f (0), el valor de la verdadera, suave densidad de detecciones a la
distancia cero de la lı́nea del transecto. La altura del histograma para el primer intervalo,
5
en el que se observaron cinco aves, es 18(10) = 0.028. Para el segundo intervalo, en el que se
7
detectaron siete aves, la altura es 18(10) = 0.039. Del mismo modo, para los tres intervalos
restantes, las alturas son 0.017, 0.011 y 0.006.
de las detecciones a la distancia cero, puede obtenerse ajustando una curva suave y decreciente
al histograma.
Ejemplo 12.3.1. Ajustar una curva de este tipo en el histograma y ver donde la curva
ajustada interceptó el eje vertical, la densidad de detecciones con curva exponencial ajustada.
Se obtuvo la estimación fˆ(0) = 0.036, que es mayor que el histograma en el primer intervalo
pero inferior al segundo.
La estimación de la densidad de población de aves a partir de esta estimación suavizada por
ojo de densidad a cero es
fˆ(0)y 0.036(18)
D̂ = = = 0.0032
2L 2(100)
o 32 aves por hectárea.
No se ilustra la curva alisada por el ojo del autor; el lector es alentado para hacer su propia
estimación lisa-por-ojo a partir del histograma de densidad de puesto que la elección del ancho
del intervalo y el suavizado son subjetivos, la estimación de una persona puede diferir de la
de otra persona. Los siguientes métodos reducen esta subjetividad en cierta medida, pero se
basan en la misma idea.
y fˆ(0)
D̂ = (12.4.1)
2L
y el punto crucial del problema es estimar f (0), la densidad a la distancia cero de la lı́nea.
Uno puede imaginar una trama de franjas equivalente, con detectabilidad perfecta para alguna
distancia w, en la que se verı́a el mismo número de animales, en promedio, como se ven desde
el transecto con detectable decreciente. La relación entre el transecto de lı́nea y el diagrama
de franjas efectivamente equivalente
12.4. MÉTODOS PARAMÉTRICOS 209
1
f (0) = (12.4.2)
w
donde w se denomina la media anchura efectiva del transecto. En términos de ancho medio
eficaz, la estimación de la densidad basada en una estimación ŵ de w es
y
D̂ = (12.4.3)
2Lŵ
Ası́, uno puede proceder de manera equivalente a estimar f (0) o a estimar w.
Cuando una forma paramétrica se especı́fica, es decir, una forma funcional de parámetros
desconocidos se asume para la función de detectabilidad g(x), métodos estadı́sticos pueden
utilizarse tales como máxima verosimilitud para estimar los parámetros desconocidos y ası́
obtener una estimación de f (0) o de w. Algunas clases de modelos paramétricos se exami-
nan en Buckland (1985), Burnham et al. (1980), Pollock (1978), Quinn y Gallucci (1980), y
Ramsey (1979). Se utilizarán dos de los más simples como ejemplos aquı́.
La ventaja de asumir una forma simple para la curva de detectabilidad es que conduce a es-
timadores simples de los estimadores de densidad de población que son los mejores en algún
sentido si la suposición es verdadera. La desventaja es que la clase de curva asumida puede no
tener la flexibilidad para representar la verdadera detectabilidad real asumida. Dos ejemplos
de funciones de detectabilidad paramétrica, el exponencial y la media-normal (half-normal),
se describen aquı́ principalmente porque conducen a estimadores de densidad simples.
Ejemplo 12.4.1 (Detectibilidad exponencial). Con los datos del ejemplo del pájaro (Ejemplo
1), la distancia media de detección es x = 16.39 metros. El estimado de densidad de población
es
18
D̂ = = 0.055
2(16.39)(100)
o de 55 aves por hectárea. La curva exponencial ajustada ĝ(x)/ŵ se muestra en la figura.
−πx2
g(x) = exp (12.4.4)
4w2
La estimación de máxima verosimilitud de w es
v
u y
uπ X
ŵ = t x2 (12.4.5)
2y i=1 i
Ejemplo 12.4.2 (Detectibilidad media-normal). Con los datos de aves del Ejemplo 1, la
distancia de detección al cuadrado medio es
n
1X 2 1 2
0 + · · · + 442 = 417.5
xi =
n i=1 18
La estimación de w es
s
3.1417
ŵ = 417.5 = 25.61
2
Entonces, la estimación de la densidad es
18
D̂ = = 0.0035
2(25.61)(100)
ĝ(x)
o 35 aves por hectárea. La curva semi-normal ajustada ŵ
se muestra en la figura.
12.5. MÉTODOS NO PARAMÉTRICOS 211
Existen modelos más complicados, pero con mayor flexibilidad para ajustar datos reales,
pero la estimación con tales modelos es algo complicada. Los modelos más adaptados son los
modelos no paramétricos, que esencialmente son técnicas de suavizamiento utilizadas para
estimar f (0).
y fˆ(0)
D̂ =
2L
212 12. LÍNEAS Y PUNTOS TRANSECTOS
La aplicación de la metodologı́a a la estimación del transecto lineal fue sugerida por Seber
(1986) y ha sido utilizada por Quang (1993) para el problema de estimación estrechamente
relacionado en los estudios de parcelas de variables circulares.
y fˆ(0)
D̂ =
2L
Ejemplo 12.5.1 (Kernel normal). En un transecto de lı́nea de longitud L = 100 metros, un
total de y = 18 aves fueron detectadas a las siguientes distancias (en metros) de la lı́nea de
transecto: 0, 0, 1, 3, 7, 11, 11, 12, 15, 15, 18, 19, 21, 23, 28, 33, 34, 44. La distancia absoluta
15
mediana es 15 y 1.34 = 11.19
Dado que 11.19 es menor que la desviación estándar de la muestra s = 12.56, la regla de
Silverman para elegir el ancho de ventana h da
1
h = 0.9(11.19)(18)− 5 = 5.65
La estimación del kernel normal de f (0), es
02 442
2
fˆ(0) = √ exp − + · · · + exp −
18(5.65) 2π 2(5.65)2 2(5.65)2
= 0.0376
18(0.0376)
D̂ = = 0.0034
2(100)
aves por metro cuadrado, o 34 aves por hectárea.
Donde w∗ es la distancia máxima a la que los animales pueden ser observados y los coeficientes
Âk son dados por
" y #
2 X kπxi
Âk = cos
yw∗ i=1 w∗
El número m de términos a utilizar en la aproximación es algo arbitrario, pero se ha reco-
mendado la siguiente regla general (Burnham et al., 1980): Comenzando con m = 1, elija el
primer número entero m tal que
214 12. LÍNEAS Y PUNTOS TRANSECTOS
r
1 2
≥ Âm+1
w∗ y+1
Para determinar la máxima distancia de detectabilidad w∗ , Burnham et al. (1980) y Crain et
al. (1979) recomiendan usar una distancia menor que la mayor distancia a la que se detectó
un animal, arrojando el mayor 1 % − 3 % de las distancias observadas como valores atı́picos
(véase también Burnham et al., 1981; Quang 1990).
La desigualdad de la regla general se satisface para el valor m = 1, por lo que solo se necesita
un término. Ası́, sólo se necesita calcular un coeficiente, Â1 , pero implica 17 términos (el
número de observaciones después de descartar el más grande).
El coeficiente A1 es
2 1(3.1417)(0) 1(3.1417)(34)
Â1 = cos + · · · + cos
17(34) 34 34
= 0.0091
La estimación de f (0) es
1
fˆ(0) = + 0.0091 = 0.00385
34
La estimación de la densidad de la población es
17(0.0385)
D̂ = = 0.0033
2(100)
o 33 aves por hectárea.
yi f (0)
Donde D̂i = 2E(L) , yi es el número de animales detectados del transecto i y E(L) es el valor
esperado de la longitud del transecto.
Si no es realista suponer que los animales de la población están ubicados de forma indepen-
diente, sin embargo, debemos mirar el diseño de muestreo para ayudar en la estimación de
la varianza.
Si se debe estimar f (0) mediante el método kernel, se puede determinar una anchura de
ventana hi separadamente para cada transecto o determinar una sola anchura de ventana h
de todos los datos de distancia. En el primer caso,
n
1 X xj
D̂i = K
hi E(L) j=1 hi
y
n
1X
D̂ = D̂i
n i=1
216 12. LÍNEAS Y PUNTOS TRANSECTOS
Dado que los estimadores de densidad en general no son imparciales, D̂ no es imparcial para
D, aunque es aproximadamente imparcial. Sin embargo, el estimador de varianza
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1
Es imparcial para la varianza de D̂, debido a que los D̂i son independientes e idénticamente
distribuidos debido a la selección aleatoria en los transectos en los n lugares.
Si los n transectos tienen condiciones de detectabilidad similares, se puede obtener una mejor
estimación de f (0) combinando todos los datos de distancia del estudio. Sea h el ancho de
ventana utilizado. El estimador es
n yi
ȳ fˆ(0) 1 X X xij
D̂ = = K
2E(L) nhE(L) i=1 j=1 h
Donde xij es la distancia a la i-ésima lı́nea transectada del j-ésimo animal detectada a partir
de ese transecto. Definimos
yi
1 X xij
D̂i = K
hE(L) j=1 h
n
1X
entonces D̂ = D̂i y la varianza del estimador
n i=1
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1
Sin embargo muchos animales pueden ser vistos desde un transecto, un solo transecto es una
muestra de tamaño 1. Una estimación más precisa de la abundancia o densidad en un estudio
se espera en una muestra probabilı́stica de n transectos, particularmente si los animales están
des-uniformemente distribuidos en la región de estudio.
Las estimaciones de varianza basadas en una muestra de varios transectos son preferibles
a estimaciones “analı́ticas” basadas en observaciones dentro de un solo transecto, esta es
una recomendación sugerida por varios autores (véase Burnham y Anderson, 1976, pag. 329;
Eberhardt 1978b; Overton 1969; y Seber 1982, pág. 467). Procedimientos para estimar la
varianza de los estimadores a partir de datos dentro de un solo transecto invariablemente
se basan en supuestos sobre la distribución de los animales, la suposición tı́pica es que los
animales están ubicados de manera uniforme en la región de estudio. Por ahora, evitamos
asiduamente tales suposiciones Barry y Welsh (2001) examinan la interacción entre el diseño,
el modelo y la función de detectabilidad con transectos lineales y señalan en particular el
problema de asumir implı́citamente la independencia al evaluar la eficacia de los métodos.
Otros aspectos del método observacional, como la velocidad a la cual un transecto de lı́nea es
atravesado, afectan la forma de las funciones de detectabilidad y, por lo tanto, las propiedades
de las observaciones y estimadores.
Los transectos se ejecutan completamente a través del área de estudio de acuerdo a la figura,
donde se seleccionan n = 10 transectos
218 12. LÍNEAS Y PUNTOS TRANSECTOS
Note que el muestreo es con reemplazo, aunque los lugares del transecto se seleccionan de
una distribución continua, existe una probabilidad cero de seleccionar el mismo transecto dos
veces.
Al seleccionar una muestra aleatoria de transectos, algunos sesgos pueden ser introducidos
por problemas de frontera, es decir, una probabilidad de detección media ligeramente inferior
para los animales cerca de la frontera.
B yi
D̂i =
A 2w
B yi f (0)
=
A 2
yi f (0)
= (12.7.1)
2E(L)
12.7. MUESTRA ALEATORIA SIMPLE DE TRANSECTOS 219
n
1X
D̂ = D̂i
n i=1
B ȳ
=
A 2w
B ȳf (0)
= (12.7.2)
A 2
Donde
n
1X
ȳ = yi
n i=1
Es la media muestral de los números observados.
Cuando w o f (0) en la expresión para D̂ se estima, por ejemplo, por uno de los métodos
que acabamos de dar, el valor estimado ŵ o fˆ(0) se sustituye en la expresión por D̂ y el
insesgamiento se mantiene sólo aproximadamente.
O
ŵ1 , . . . , ŵn
O
D̂i , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
220 12. LÍNEAS Y PUNTOS TRANSECTOS
n
1 X 2
V̂ (D̂) = D̂i − D̂ (12.7.3)
n(n − 1) i=1
Pn
i=1 Li D̂i
D̂r = P n
Li
Pi=1n
i=1 yi
=
2ŵ ni=1 Li
P
Pn
yi ˆ
= Pi=1 n f (0) (12.7.4)
2 i=1 Li
Donde
yi
D̂i =
2Li ŵ
yi fˆ(0)
=
2Li
n
1 X yi 2
V̂1 (D̂r ) = 2 − D̂r Li
L n(n − 1) i=1 2ŵ
n
!2
1 X yi fˆ(0)
= 2 − D̂r Li (12.7.5)
L n(n − 1) i=1 2
Donde
n
1X
L= Li
n i=1
12.8. ESTIMADOR JACKKNIFE EN MAS DE TRANSECTOS 221
Otro estimador para el tipo de estimador de razón es dado por: (ver Buckland 1982; Burnham
and Anderson 1976; Burnham et al. 1980; Seber 1979, 1982, p. 463)
n
1 X 2
V̂2 (D̂r ) = Li D̂i − D̂r
Ln(n − 1) i=1
ˆ 2
yi fi (0)
1 Xn
2
− Li D̂r
= (12.7.6)
Ln(n − 1) i=1 Li
B yi
D̂i =
A 2w
B yif (0)
=
A 2
yi f (0)
=
2E(L)
n
1X
D̂ = D̂i
n i=1
B ȳ
=
A 2w
B ȳf (0)
=
A 2
Donde
222 12. LÍNEAS Y PUNTOS TRANSECTOS
n
1X
ȳ = yi
n i=1
Es la media muestral de los números observados.
Cuando w o f (0) en la expresión para D̂ se estima, por ejemplo, por uno de los métodos
que acabamos de dar, el valor estimado ŵ o fˆ(0) se sustituye en la expresión por D̂ y el
insesgamiento se mantiene solo aproximadamente. Si las estimaciones individuales
ŵ1 , . . . , wˆn
o
fˆ1 (0), . . . , fnˆ(0)
se hacen independientemente para cada transecto y
Byi
D̂i =
2Aŵi
o
Byi fi ˆ(0)
D̂i =
A
Entonces
D̂1 , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) 1
Sin embargo, a menudo se obtiene una mejor estimación de w o f (0) mediante la agrupación
de los datos de distancia de todos los transectos del estudio.
Con
Byi
D̂i =
2Aŵ
o
Byi
D̂i =
fˆ(0)2A
usando las estimaciones agrupadas, los D̂i no son independientes y V̂ (D̂i ) tiende a subestimar
la varianza verdadera del estimador. Con las estimaciones agrupadas, se podrı́a obtener una
12.8. ESTIMADOR JACKKNIFE EN MAS DE TRANSECTOS 223
n
n − 1 Xh ˆ ˆ
i2
V̂j (D̂) = D(i) − D(.) (12.8.1)
n i=1
y
D̂ = (12.8.2)
2wL(v)
Donde w es la media anchura efectiva del transecto, v el punto de intersección de ese transec-
to con la lı́nea de base, y L(v) la anchura del área de estudio (la longitud del transecto) en
ese punto.
t
X
zj
y
j=1
E =E v
2wL(v) 2wL(v)
t
X
g(v − xj )
j=1
=
2wL(v)
t
g(v − xj ) L(v)
Z
1 X
E(D̂) = dv
2w j=1 R L(v) A
t
=
A
=D
Por lo tanto, D es insesgado para D, suponiendo que w o f (0) es conocido. Cuando una
estimación de w o f (0) = w1 está sustituido, el insesgamiento es aproximado. Denotar por D̂i
el estimador anterior para el i-ésimo transecto en la muestra. Cada uno de los n estimadores
es insesgado para D, de modo que su promedio
n
1X
D̂p = D̂i (12.8.3)
n i=1
Es insesgado para D.
Puesto que los n lugares de partida se seleccionaron independientemente y las detecciones son
independientes, los D̂i son variables aleatorias independientes e idénticamente distribuidas.
Un estimador imparcial de la varianza de su media de la muestra D̂p es por lo tanto
n
1 X 2
V̂ (Dˆp ) = D̂i − D̂p (12.8.4)
n(n − 1) i=1
estimaciones de varianza con los estimadores agrupados bajo muestreo con una probabilidad
proporcional a la longitud aún no está bien desarrollada.
Byi
D̂i =
2Aŵi
o
Byi fi ˆ(0)
D̂i =
A
Entonces
D̂1 , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1
Con tal muestra, se siguen los resultados sobre el insesgamiento o la aproximación para los
estimadores de densidad, pero no los resultados sobre el insesgamiento o aproximación al
insesgamiento del estimador de la varianza.
Se dispone de un estimador de varianza no sesgado para una muestra sistemática con más de
un punto de partida seleccionado al azar para muchas poblaciones. El estimador de la varianza
del muestreo aleatorio simple tienden a ser conservador-tiende a sobrestimar la varianza real
cuando se utiliza con muestreo sistemático con un único punto de partida.
226 12. LÍNEAS Y PUNTOS TRANSECTOS
Ejemplo:
los conteos de aves de Audubon de Navidad seleccionarán un perı́odo de 24 horas donde
los investigadores tratarán de encontrar el mayor número de especies de crı́a en un área
como sea posible dentro de las 24 horas.
Establecer un lı́mite de tiempo definido también permite que la estudio sea más estan-
darizado y los resultados se pueden comparar de año en año.
Para un estudio de muestreo sea considerado cientı́fico, debe ser al azar; es decir, los sitios
deben seleccionarse independiente de factores, tales como el número de organismos que se
encuentran en un sitio o la proximidad de un sitio al laboratorio; aunque estos parecen ser
razones válidas para pasar más esfuerzo en un sitio, esto sólo sirve para hacer que los sitios
muestreados de manera desigual con el resultado final sea las diferencias en la diversidad en-
tre los sitios no se pueden atribuir de manera convincente a algo distinto de la diferencia en el.
Para determinar cuánto esfuerzo Muestreo es necesario, hay dos consideraciones principales:
El número de animales mı́nimo (entre 10 y 20) que se recomienda para replicadas lı́neas
o puntos para permitir una estimación fiable.
Si la población presenta una distribución muy desigual, entonces más lı́neas o puntos son
necesarios, para asegurar que la variabilidad a través del área de estudio está adecuadamente
representada y estimada. Buckland et al., (2001, pp 240-241) también sugieren que al menos
entre 60 y 80 animales (o grupo de animales) debe de detectado para la estimación confiable
de la función de detección de lı́nea transectos; y para puntos como mı́nimo entre 75 y 100.
se(D̂)
Cve(D̂) =
D̂
donde se(D̂) es el error estándar de D̂.
n o2
K0 Cve(D̂)
K= n o2 (12.10.1)
Cvet (D̂)
Estudios de muestras piloto rara vez son lo suficientemente grandes para permitir este método,
supongamos que detectamos n0 animales desde los K0 puntos en la encuesta piloto, donde es
demasiado pequeño para permitir la estimación de D. n0 , Ahora podemos tomar
K0 b
K= o2 (12.10.2)
n0
n
Cvet (D̂)
La formular para el transecto de lı́nea y transecto de puntos son muy similares. Primero
Supongamos que un estudio piloto, realizado a lo largo de las lı́neas de la longitud total L0 ,
proporciona datos suficientes para estimar densidad D y su coeficiente de variación por D̂ y
Cve(D̂) respectivamente, y el coeficiente de variación en el tiempo recorrido Cvet (D̂). Luego
calculamos la longitud total de la lı́nea para el estudio principal como,
n o2
L0 Cve(D̂)
L= n o2 (12.10.3)
Cvet (D̂)
donde ,
L, distancia a recorrer en el diseño final del transecto (la longitud total de los transectos)
D̂ estimador de la densidad.
L0 b
L= o2 (12.10.4)
n0
n
Cvet (D̂)
Con el diseño descrito anteriormente, un arbusto grande tiene una mayor probabilidad de
inclusión en la muestra que un arbusto pequeño. El estimador insesgado del total de la
población depende en determinar estas probabilidades.
Sea K el número de objetos en la población. Asociado con el k-ésimo objeto está una variable
K
X
de interés yk . El objetivo es estimar la población total t = yi o la densidad por unidad
k=1
t
de área D = , donde A es el área de la región de estudio.
A
229
230 13. MUESTREO POR INTERSECTO DE LÍNEAS
Una estimación que depende sólo de los distintos objetos intersectados por la muestra de las
lı́neas de transecto puede ser obtenida por el método de Horvitz-Thompson. Sea k el número
de los distintos objetos intersectados. La probabilidad de que el k-ésimo objeto sea incluido
en la muestra es
πk = 1 − (1 − pk )n (13.1.6)
El estimador de Horvitz–Thompson es
k
X yk
t̂π = (13.1.7)
k=1
πk
Las fórmulas de la varianza para el estimador de Horvitz-Thompson dependen de las proba-
bilidades de inclusión conjunta. Sea wkh la anchura a lo largo de la lı́nea de base del conjunto
de posiciones desde las cuales la lı́nea perpendicular intersecta los objetos k y h. La anchura
total a lo largo de la lı́nea de base a partir de la cual el objeto k o el objeto h o ambos están
intersectados es wk + wh − wkh . La probabilidad de que tanto el objeto k como el objeto h
sean intersectados al menos una vez por los transectos de la muestra es
n
wk + wh − wkh
πkh = πk + πh − 1 + 1 − (13.1.8)
B
Las fórmulas Horvitz-Thompson de la varianza y de la varianza estimada pueden ser usadas
para t̂π .
Para cada tipo de estimador del total poblacional, un estimador de la densidad poblacional
puede obtenerse como
1
D̂ = t̂ (13.1.9)
A
con
1
V (D̂) = V t̂ (13.1.10)
A2
Si la región de estudio es rectangular de anchura b con cada transecto de longitud l a través de
esta, el área A = bl. Si el transecto es de forma irregular, la longitud li del i-ésimo transecto
A
seleccionado al azar es una variable aleatoria, con valor esperado E (li ) = (Seber 1979).
b
Si la región del estudio está más alejada que la longitud máxima l de un único transecto, la
lı́nea de base puede continuar en lı́neas paralelas a una distancia de l. Los estimadores dados
arriba son insesgados para t o D si las lı́neas son de igual longitud o no. Seber (1979) examinó
los estimadores de razón y los estimadores de la media de la razón basados en la longitud
de los transectos. En común con otros estimadores de tipo de razón, estos estimadores son
ligeramente sesgados.
232 13. MUESTREO POR INTERSECTO DE LÍNEAS
Ejemplo 13.1.1. Los datos para este ejemplo son de Becker (1991) y Becker y Gardner
(1990). Para estimar la abundancia de Lobeznos en una región de estudio, seleccionados los
transectos se vuela en condiciones climáticas apropiadas con observadores en los aviones bus-
cando pistas en la nieve. Una vez que se encuentra un conjunto de pistas, estos son seguidos
en cada dirección y mapeados. Para el k-ésimo conjunto de pistas, la variable de interés yk
es el número de Lobeznos asociados con ese conjunto.
Los resultados de dicho estudio se muestran en la siguiente figura, la cual representa una
región de estudio rectangular de 36 millas por 20 millas en las montañas de Chugach de
Alaska. El diseño de muestreo consistió en seleccionar al azar n = 4 posiciones de transectos
que fueron sistemáticamente arregladas. Las cuatro posiciones de partida al azar (A1 , B1 ,
C1 y D1 en la figura) se seleccionaron en las primeras 12 millas (B = 12) a lo largo de la
anchura de la zona de estudio. De cada posición de partida seleccionado, un transecto fue
volado a través de la región de estudio, con dos segmentos de transecto más (por ejemplo,
A2 y A3 para la posición A1 ) añadido sistemáticamente a intervalos de 12 millas de las
posiciones de partida. Obsérvese que no tiene ninguna complicación por el hecho de que el
diseño es una muestra sistemática replicada, ya que tenemos en efecto una muestra aleatoria
simple de cuatro transectos seleccionados dentro de las primeras 12 millas, con cada transecto
seleccionado continuado en tres segmentos.
wk
en las primeras 12 millas, las probabilidades de selección son pk = , dando p1 = 0.4375,
12
p2 = 0.625, p3 = 0.2 y p4 = 0.5875.
El primer transecto intersecta el primer, segundo y cuarto conjunto de pistas, ası́ que la
variable v1 es
1 2 1
v1 = + +
0.4375 0.625 0.5875
= 2.2857 + 3.2 + 1.7021
= 7.1878
El segundo transecto también se intersecta con el primer, segundo y cuarto conjunto de pistas,
ası́ que v2 = 7.1878. El tercer transecto se intersecta con el tercer y cuarto conjunto de pistas,
ası́ que
2 1
v3 = +
0.2 0.5875
= 10.0 + 1.7021
= 11.7021
el cuarto transecto también se intersecta con el tercer y cuarto conjunto de pistas, ası́ que
v4 = 11.7021.
1
t̂p = (7.1878 + 7.1878 + 11.7021 + 11.7021)
4
= 9.44
La anchura a lo largo de la lı́nea de base donde los conjuntos 1 y 2 se intersectan es w12 = 5.25.
Para las otras combinaciones, w13 = 0, w14 = 3.75, w23 = 0, w24 = 3.75 y w34 = 2.4. Las
probabilidades de inclusión conjuntas
4
5.25 + 7.5 − 5.25
π12 = 0.90 + 0.98 − 1 + 1 − = 0.90
12
4
5.25 + 2.4 − 0
π13 = 0.90 + 0.59 − 1 + 1 − = 0.51
12
4
5.25 + 7.05 − 3.75
π14 = 0.90 + 0.97 − 1 + 1 − = 0.88
12
4
7.5 + 2.4 − 0
π23 = 0.98 + 0.59 − 1 + 1 − = 0.57
12
4
7.5 + 7.05 − 3.75
π24 = 0.98 + 0.97 − 1 + 1 − = 0.95
12
4
2.4 + 7.05 − 2.4
π34 = 0.59 + 0.97 − 1 + 1 − = 0.59
12
1 1 2 1 1
22
V̂ t̂π = 2
− 1 + 2
−
0.90 0.90 0.98 0.98
1 1 2 1 1
+ − 2 + − 12
0.592 0.59 0.972 0.97
1 1 1 1
+2 − (1)(2) + 2 − (1)(2)
0.90(0.98) 0.90 0.90(0.59) 0.51
1 1 1 1
+2 − (1)(1) + 2 − (2)(2)
0.90(0.97) 0.88 0.98(0.59) 0.57
1 1 1 1
+2 − (2)(1) + 2 − (2)(1)
0.98(0.97) 0.95 0.59(0.97) 0.59
= 5.27
aleatoria de la región de estudio para ser el punto medio de un transecto de longitud L. En-
tonces, independientemente, un ángulo se elige de una distribución uniforme en [0, π), dando
la dirección de la lı́nea. El problema de lı́neas más cortas cerca de la frontera de la región de
estudio, que puede conducir a sesgos pequeños de otra manera en estimadores insesgados, se
trata generalmente, al menos teóricamente, extendiendo cualquier porción de corte de una
lı́nea seleccionada en otra parte de la región de estudio (Kaiser 1983). En la práctica, el sesgo
será pequeño si la región de estudio es grande en relación con la longitud de una lı́nea de
transecto.
Los estimadores insesgados del total poplacional t pueden obtenerse usando el condicional
o las probabilidades de selección (Kaiser 1983). Para el i-ésimo transecto seleccionado, se
definen las nuevas variables
X yk
vi (θ) = (13.2.1)
k∈Ci
p k (θ)
X yk
vi = (13.2.2)
k∈C
p k
i
n
1X
t̂p = vi (13.2.4)
n i=1
s2v
Un estimador insesgado de la varianza es n
, donde s2v es la varianza muestral basada en los
valores correspondientes de v.
Se necesita un estudio adicional con respecto a la eficiencia relativa de t̂p (θ) y t̂p (ver Kimura
y Lemberg 1981). La elección práctica puede depender de la relativa facilidad de medir wk (θ)
y ck para objetos muestreados. Kaiser (1983) da el ancho esperado del k-ésimo objeto como
c∗
ck = πk , donde c∗k es la longitud del perı́metro del conjunto convexo más pequeño que contiene
objetos k y sugiere que para la medición c∗k se coloca una cuerda alrededor de objeto k y se mi-
de la longitud de la cuerda (véase también Kendall y Moran 1963, p. 58; Salomón 1978, p. 17).