You are on page 1of 30

資料整理來源:陳順宇著,多變量分析

第七章 因素分析(Factor Analysis):

起源於心理學上的研究。在心理學上常會遇到一些不能直接量測的因素,例如:
人的智力、EQ、人格特質、食物偏好、消費者的購買行為等。對於這些無法明
確表示(抽象的)或無法測量的因素,希望可以經由一些可以測量的變數,加以訂
定出這些因素。

因素分析的主要目的是對資料找出其結構,以少數幾個因素來解釋一群相互有關
係存在的變數,而又能到保有原來最多的資訊,再對找出因素的進行其命名,如
此方可達到因素分析的兩大目標:資料簡化和摘要。

相互有關係存在的變數受共同因素(Common Factor)及獨特因素(Specific Factor)


的影響。

因素分析分成探索性因素分析(Exploratory Factor Analysis)與驗證性因素分析


(Confirmatory Factor Analysis)。探索性因素分析是在沒有任何限制之下,找出因
素的結構。驗證性因素分析是在已知可能的結構下,驗證是否仍適用,如線性結
構方程式(LISREL)。

因素分析的應用
1. 找出潛在因素

2. 篩選變數

3. 對資料做摘要

4. 由變數中選取代表性變數 (在因素中挑選一個變數使用)

5. 建構效度

6. 做資料簡化 (相關性高的變數,僅需選取一個做代表)

因素分析與主成分分析的比較
1. 主成分分析是以變異數為導向。因素分析是以共變異數為導向,關心每個變
數與其他變數共同享有部分的大小。

2. 主成分分析是選擇一組成份(Component),盡可能的解釋原變數的變異數。因
素分析是選取少數因素(Factor),解釋原變數的相關情形。

3. 主成分分析是所有變數的變異都考慮在內。因素分析只考慮每一變數與其他
變數共同享有的變異。

1
4. 主成分分析較適合做資料(變數)的簡化。因素分析較適合做偵測資料結構。

5. 主成分分析不需要旋轉。因素分析可能需要旋轉才能對因素命名與解釋。

6. 主成分分析是資料(變數)做變換(線性組合),對資料(變數)不需要任何假設。
因素分析是假設資料(變數)滿足某些結構而得到的結果。

因素分析的應用
經因素分析將資料(變數)簡化成少數幾個因素,可對個體分群(群集分析),或進
行 ANOVA 、 MDS( 多 元 尺 度 ) , 或 畫 因 素 得 點 的 散 佈 圖 找 出 異 常 點 , 或 做
LISREL(線性結構方程式)的構面中測量變數指標。

因素分析模式架構
設有 p 個變數,每個變數可分解成少數 q 個共同因素(Common Factor) fj (q < p)
及獨特因素(Specific Factor) εi 的線性組合。

x1 = µ1 + l11 f1 + l12 f 2 + Ll1q f q + ε 1


x 2 = µ 2 + l 21 f 1 + l 22 f 2 + L l 2 q f q + ε 2

x p = µ1 + l p1 f 1 + l p 2 f 2 + L l pq f q + ε p

f 1 , f 2 , L , f q 在每個變數中都擁有。 ε i 只在第 i 個變數中擁有。


l ij 為第 i 個變數在第 j 個共同因素的權重或因素負荷(Factor Loading)。

Î 矩陣表示法 X = µ + Lf + ε => X − µ = Lf + ε

⎡ x1 ⎤ ⎡ µ1 ⎤ ⎡ l11 l12 L l1q ⎤ ⎡ f1 ⎤ ⎡ε1 ⎤


⎢x ⎥ ⎢µ ⎥ ⎢l l 22 L l2q ⎥ ⎥ ⎢ f2 ⎥ ⎥ ⎢ε ⎥
其中 X = ⎢ 2⎥
,µ = ⎢ 2⎥
,L = ⎢
21
,f = ⎢ ,ε = ⎢ ⎥
2

⎢M⎥ ⎢ M ⎥ ⎢M M O M ⎥ ⎢M⎥ ⎢M⎥


⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ x p ⎥⎦ ⎢⎣ µ q ⎥⎦ ⎢⎣l p1 l p2 L l pq ⎥⎦ ⎢⎣ f q ⎥⎦ ⎢⎣ε p ⎥⎦

(基本假設) E ( f ) = 0 , Cov( f ) = Φ , E (ε ) = 0 , Cov(ε ) = Ψ , Cov( f , ε ) = 0

L 稱為負荷矩陣或圖案矩陣(Pattern matrix)

<通常假設 µ=0,Φ=I>

因素分析模式的基本假設

2
1. 獨特因素 ε 1 , ε 2 , L , ε p 是相互獨立的且是平均數為 0,變異數為ψ i 的常態分
配。

⎡ε1 ⎤ ⎛ ⎡0 ⎤ ⎡ψ 1 0 K 0 ⎤ ⎞
⎢ε ⎥ ⎜⎢ ⎥ ⎢ 0 ψ L 0 ⎥⎟
⎜ 0 ⎥⎟
ε = ⎢ ⎥ ~ MN ⎜ ⎢ ⎥, Ψ = ⎢
2 2

⎢M⎥ ⎢M⎥ ⎢M M O M ⎥⎟
⎢ ⎥ ⎜ ⎢ ⎥ ⎢ ⎥ ⎟⎟
ε ⎜ 0 0 0 ψ
⎣⎢ p ⎦⎥ ⎝⎣ ⎦ ⎣⎢ p⎥
⎦⎠

2. 共同因素 f 1 , f 2 , L , f q 間的共變異矩陣為 Φ ,

⎡ f1 ⎤ ⎡ Φ 11 Φ 12 L Φ 1q ⎤
⎢f ⎥ ⎢Φ Φ 22 L Φ 2 q ⎥⎥
f = ⎢ 2⎥
, Cov( f ) = E ( ff ) = Φ = ⎢
′ 21

⎢M⎥ ⎢ M M O M ⎥
⎢ ⎥ ⎢ ⎥
⎣⎢ f q ⎦⎥ ⎣⎢Φ q1 Φ q2 L Φ qq ⎦⎥

一般情況假設共同因素間獨立的且變異數皆為 1,即 Φ = I 。

3. 共同因素 f 1 , f 2 , L , f q 與獨立因素 ε 1 , ε 2 , L , ε p 間獨立,即 Cov( f j , ε i ) = 0 。

因素分析模式的重要結果
1. Σ = Cov( X ) = LΦL ′ + Ψ

Pf:
( X − µ )( X − µ )′ = ( Lf + ε )( Lf + ε )′
= Lf ( Lf )′ + ε ( Lf )′ + Lfε ′ + εε ′
= Lff L′ ′ + εf L
′ ′ + Lfε ′ + εε ′

Cov( X ) = E[( X − µ )( X − µ )′]


= E[ Lf ( Lf )′ + ε ( Lf )′ + Lfε ′ + εε ′]
= LE ( ff ′) L ′ + E (εf ′) L ′ + LE ( fε ′) + E (εε ′)
= LΦ L ′ + 0 + 0 + Ψ
= LΦ L ′ + Ψ

2. Φ=I 時,Cov( X , f ) = L 。若 X 為標準化,此時稱為結構矩陣(Structure Matrix)。

Pf:
Cov( X , f ) = E[( X − µ ) f ′] = E[( Lf + ε ) f ′] = LE ( ff ′) + E (εf ′) = L ⋅ I + 0

=L

q
3. xi = ∑ lij f j + ε i = ci + ε i ,i=1,2,...,p, ci 為 xi 的共通部分, ε i 為 xi 的獨特部分
j =1

3
q
Î Var ( xi ) = Var (∑ lij f j + ε i ) = Var (ci ) + Var (ε i ) (共通性 + 獨特性)
j =1
q
當 Φ=I 時, Var ( xi ) = ∑ l ij2 + ψ i 。
j =1
q
Pf: Σ = Cov( X ) = LΦL ′ + Ψ = LL ′ + Ψ ,故 Σ 對角線上的元素為 ∑ lij2 + ψ i 。 #
j =1
q
則共通性(Communality) Var (ci ) = hi2 = li21 + li22 + L + liq2 = ∑ l ij2 。
j =1
2
h i
各個因素解釋 xi 的變異數之比例的和為 。
σ 2
xi

又若 xi 為標準化後的資料, Var ( xi ) = 1 ,則獨特性ψ i = 1 − hi2 。

因素選取方法
1. 主成分法(Principal Component Analysis)

主成分分析:
p
y1 = ∑ a1 j x j
j =1
p
y2 = ∑ a2 j x j
j =1


p
y p = ∑ a pj x j
j =1

Î Y = AX,其中 AA′ = I ,即 A −1 = A′
Î X = A −1Y = A′Y ,其中 Var ( y i ) = λi

因素分析:
yi
Var ( f i ) = 1 ,故設 f i = ,i=1,2,…, p, f = ΛY Î Y = Λ−1 f ,
λi
則 X = A′Y = A′Λ−1 f = Lf , L = A′Λ−1 。
q p
得 xi = ∑ lij f j + ε i , ε i = ∑l ij f j ,i = 1,2,…, p
j =1 j = q +1

( L 中第 i 列全部變號亦為其解,有非唯一解。)

p q

∑ hi2 =∑ λi ,p 個變數的共通性之和 =
i =1 i =1
q 個特徵值之和
p p

∑ψ = ∑ λ
i =1
i
i = q +1
i ,p 個變數的獨特性之和 = 剩餘 p - q 個特徵值之和

4
q p

∑λ
i =1
i ∑h
i =1
i
2

故共同因素解釋變數的變異數的比例為 p
= p

∑λ
i =1
i ∑σ
i =1
2
xi

q p p

∑ λi ∑ λi
i = q +1
∑ψ i
i =1 i =1
共同因素不能解釋變數的變異數的比例為 1 - p
= p
= p

∑λ
i =1
i ∑λ
i =1
i ∑σ
i =1
2
xi

2. 主因素法(Principal Factor Analysis)

主成分分析是用 R 相關矩陣,求其特徵值及特徵向量,若將矩陣的對角線改
成小於 1 的數值( 起始共通性)R’ ,則稱為主因素法。常用複相關係數平方
(Square Multiple Correlation)取代。

缺點: R’不一定是正定,所以特徵值有可能是負的。

3. 最大概似法(Maximum Likelihood)

設 X i ~ MN p (0, Σ) , Σ = LΦL ′ + Ψ

將其概似函數取對數

ln(l ) = −1
2 n [ln | Σ | +tr (Σ −1 S )] + c
= −1
2 n [ln | LΦL ′ + Ψ | +tr (( LΦL ′ + Ψ ) −1 S )] + c

因為求 ln(l)極大,相當於求 H= ln | Σ | +tr (Σ −1 S ) 極小,則

∂H
= 2Σ −1 (Σ − S )Σ −1 L = 0
∂L
∂H
= diag (Σ −1 (Σ − S )Σ −1 ) = 0
∂Ψ
解聯立方程式,需用數值解。

應萃取的因素個數
1. 保留特徵值大於 1 的主成分,選取的因素解釋的比原來變數平均解釋的還多。

5
2. 利用陡坡圖(scree plot),如主成分分析方法。

3. 最大概似法選取因素可做因素個數的適合度檢定。

因素分析模式的合適性評估
1. 殘差分析

2. MSA 判斷準則

3. 最大概似法判斷準則

4. 偏相關判斷準則

因素的命名
負荷愈大表示該因素對變數的影響愈大,藉以對因素命名。所以想找共同因素使
負荷進可能的有很多元素很小,幾乎是零,這需要利用旋轉。

因素分析模式的旋轉
直交旋轉

1. 變異最大旋轉法(Varimax):負荷矩陣行變異最大

2. 四方最大的旋轉法(Quartimax):負荷矩陣列變異最大

3. 一般直交旋轉法:上面兩者的加權平均

4. 相等最大值法(Equamax):

斜交旋轉
1. 直接斜交轉軸法(Direct Oblimin)

2. 轉軸法(Promax)

6
主成分分析 SPSS 的點法:
Analyze Î Data Reduction Î Factor Analysis
Variables :
Descriptives -> Correlation Matrix : Coefficients, …
Extraction -> Method : Principal Components;
Analyze : Correlation Matrix (用 R 做分析)
Covariance Matrix (用 S 做分析)
(兩者選擇一個使用)
Extract : Eigenvalues over : 1 (只列出λ>1的主成分)
Number of factors: 3 (自行選擇主成分的個數)
Display : Unrotated factors solution (主成分分析未旋轉)
Scree plot (陡坡圖)
======================================================
因素分析: Analyze Î Data Reduction Î Factor Analysis
Variables :

Statistics(統計量):Univariate descriptives(敘述統計量); Intital solution(未轉軸的統計量)


Correlation Matrix(相關矩陣):Coefficients(相關係數)、Significance levels(顯著水準) 、
Determinant(行列式)、KMO and Bartlett’s test of sphericity(KMO 值愈大(>0.6)表示共同因素
愈多,愈適合進行因素分析。Bartlett’s test 檢定是否為多變量常態分配,亦可檢定 R 是否
適合進行因素分析)、Inverse(反矩陣)、Reproduced(重製矩陣:上三角為殘差值,下三角為
相關係數) 、Anti-image(逆映像:逆映像的共變數和相關矩陣)

7
Extraction(因素萃取)
Analyze(分析):Correlation matrix(相關矩陣 R);Covariance matrix(共變異數矩陣 S)
Display(報表顯示):Unrotated factor solution(未旋轉因素的解);Scree plot(陡坡圖)
Extract(萃取):Eigenvalues over(內設特徵值大於 1);Number of factors (因素個數)
Maximum Iterations for Convergence(內設最大疊代收斂次數為 25)

Method (估計方法)
Principal components(主成分法)
Unweighted least squares(未加權最小平方法)
Generalized least squares(一般化最小平方法)
Maximum likelihood(最大概似法)
Principal axis factoring(主軸因素法)
Alpha factoring(Alpha 因素法)

8
Method (轉軸的方法): 內設無旋轉;Display(報表顯示):轉軸後的解 (內設一
般報表)、Loading plot (負荷量圖)3D 或 2D 圖,顯示原始變數和因素之間的關係。

Factor Scores(因素得點)
Save as variables
Method(方法):Regression (內設為迴歸法);Bartlett ;Anderson-Rubin
Display factor score coefficient matrix (報表顯示因素得點的係數矩陣)

9
Options(選項)

Missing Values(遺失值的處理方法)
Exclude cases listwise(完全排除法);Exclude cases pairwise(成對排除法);
Replace with mean(平均數取代法)

Coefficient Display Format(顯示因素負荷的形式)


Sorted by size(因素負荷大小排序);Suppress absolute values less than(內設絶對值小於 0.1 的捨去)

以陳順宇著多變量分析``國產車偏見’’為例。

10
作業 (請於 4/17 交)

1. 針對 SAN4 的檔案共 150 筆資料,請使用 S 矩陣做因素分析。首先請分別解釋前兩個


因素的意義,接著做轉軸,再畫圖比對一下轉軸之後的結果,並解釋轉軸之後兩因素的
意義。(鄧家駒著多變量分析 ch10 習題 2)

2. 請將 ``大學生 EQ 資料檔” 做因素分析,試做成一份報告。可參閱陳順宇著多變量分


析(第四版)第 2-67 頁及第 2-68 頁的報表。

11
資料整理來源:陳順宇著,多變量分析

第八章 典型相關分析(Canonical Analysis):

典型相關分析簡介

假設有兩組變數,一組為 p 個變數,另一組為 q 個變數,欲研究這兩組變數之間


的相關性。

z 若這兩組分別只有一個變數時,則其相關稱為簡單(線性)相關(又稱做皮爾
森相關,Pearson Correlation)。

z 若其中一組只有一個變數,另一組有很多變數,則此兩組的相關稱為複相關
(multiple Correlation), 可以利用複迴歸分析來計算這個係數。

z 如果這兩組變數都是一個變數以上的,那量測這兩組變數間的相關稱為典型
相關(Canonical Correlation),指為本章節將介紹的主軸。例如

1. 教育研究者想了解 3 個學術能力指標與 5 個在校成績表現之間的相關性。

2. 社會學家想研究 2 個先前訪問而得的個人社會地位指標與後繼測量的 4 個不
同社會地位指標之前的關係。

上述這兩種情形,研究者所感興趣的都是兩組變數之間的關係。

典型相關分析的基本概念

最直覺的想法: x 組有 p 個變數, y 組有 q 個變數,則分別對這兩組變數各做線

性組合後,再計算此兩加權和的簡單相關係數,然後以這個簡單相關係數當做這
兩組變數之間相關性的衡量指標。

(白話的講, x 組有 p 個變數, y 組有 q 個變數,這種狀況我們不會算,我們只會

算 x 組有 1 個變數, y 組有 1 個變數這種情形,也就是簡單相關係數。因此,如

果可以把 x 組的 p 個變數組合成一個, y 組的 q 個變數也組合成一個,那我們就

1
可以利用簡單相關的技巧來衡量 x 組 p 個變數和 y 組 q 個變數之間的相關性)

問題的所在:我們剛剛說到把 x 組的 p 個變數組合成一個, y 組的 q 個變數也組

合成一個,然後計算簡單相關來衡量兩組之間的相關性。問題是如何組合?觀察
下面所提出的事實,就會知道光是有這個組合的想法,我們還是不能完美的衡量
兩組變數之間的相關性

⎛ x1 ⎞ ⎛ y1 ⎞
⎜ ⎟ ⎜ ⎟
設兩組變數分別為 x 組有 p 個變數 x = ⎜ M ⎟ 與 y 組有 q 個變數 y = ⎜ M ⎟ ,我們先
⎜x ⎟ ⎜y ⎟
⎝ p⎠ ⎝ q⎠
分別把 x 組和 y 組的變數組合起來(當然是用線性組合),也就是

x1* = a11 x1 + L + a1 p x p

y1* = b11 y1 + L + b1q y q

其中這些係數都是一些常數,就是你組合的比例,當然啦,因為是線性組合,所
以 a11 + L + a1 p = 1 且 b11 + Lb1q = 1 。觀察一下上面所描述的狀況,你會發現兩個

問題:
1. 給定不同的組合比例 a11 ,K, a1 p 以及 b11 ,K, b1q ,你都會算出不一樣的簡單相

關係數,這使得這個方法非常的不科學,每個人都可以依照自己的喜好來決
定組合比例,並且在衡量兩組變量之間相關性的問題上,也沒有一個統一的
說法。
2. 各組內變量之間的尺度不太相同,例如身高的尺度跟腳掌長度的尺度就不相
同,顯然前者的變異數會大於後者,這種狀況是不合理的。

針對第一個問題,“在所有的組合中,尋找一個組合使得 x1* 與 y1* 之間的簡單相

關係數為最大”,可能是個好想法;另外,尋找一個組合使得 x1* 與 y1* 之間的簡

單相關係數為最小此簡單相關係數就是典型相關係數,而典型相關係數的平方稱
為典型根(Canonical Root)。

對於第二個問題,解決的辦法是對資料進行標準化。

2
典型相關分析的理論架構及基本假設

⎛ x1 ⎞ ⎛ y1 ⎞
⎜ ⎟ ⎜ ⎟
設兩組變數分別為 x 組有 p 個變數 x = ⎜ M ⎟ 與 y 組有 q 個變數 y = ⎜ M ⎟ ,服從多
⎜x ⎟ ⎜y ⎟
⎝ p⎠ ⎝ q⎠

變量常態分配,典型相關分析是找 x 組的線性組合 x1* = a1′ x 與 y 組的線性組合

y1* = b1′ y ,使得 x1* 與 y1* 的(簡單)相關係數最大,其中

⎛ a11 ⎞ ⎛ b11 ⎞
⎜ ⎟ ⎜ ⎟
⎜ a12 ⎟ ⎜ b12 ⎟
a1 = ⎜ ⎟ b1 = ⎜ ⎟ 。
M M
⎜ ⎟ ⎜ ⎟
⎜a ⎟ ⎜b ⎟
⎝ 1p ⎠ ⎝ 1q ⎠

設 x 組的共變異數矩陣為 Σ xx , y 組的共變異數矩陣為 Σ yy , x 與 y 的共變異數矩

陣為 Σ xy ,

則 x1* 的變異數為

Var ( x1* ) = Var (a1′ x) = a1′Σ xx a1 ,

y1* 的變異數為

Var ( y1* ) = Var (b1′ y ) = b1′Σ yy b1 ,

x1* 與 y1* 的共變異數為

Cov( x1* , y1* ) = Cov(a1′ x, b1′ y ) = a1′Σ xy b1 ,

故 x1* 與 y1* 的簡單相關係數為

Cov( x1* , y1* ) a1′Σ xy b1


ρ ( x1* , y1* ) = =
Var ( x1* ) × Var ( y1* ) a1′Σ xx a1b1′Σ yy b1

典型相關問題,欲使得 x1* 與 y1* 的(簡單)相關係數最大,故

在 a1′Σ xx a1 = 1, b1′Σ yy b1 = 1 的條件下,求取使 a1′Σ xy b1 為最大的 a1 和 b1 。

即為藉由 Σ −xx1Σ xy Σ −yy1 Σ yx 和 Σ −yy1 Σ yx Σ −xx1Σ xy ,求出特徵值(典型根) λ1 ≥ λ 2 ≥ L ≥ λ m ,

其中 m=min(p,q),而 ai 和 bi 分別是 λi 的特徵向量,則 xi* = ai' x 和 y i* = bi' y ,稱為

3
第 i 組典型變量(Canonical Variable), xi* 和 y i* 的第 i 典型相關為 λi ,

i=1,2,…,m。

因為 Σ xx , Σ yy , Σ xy 未知,改以 S xx , S yy , S xy 取代之,而得 λˆ1 ≥ λˆ2 ≥ L ≥ λˆm 。

典型變量的係數稱為典型權重(Canonical Weights),權重愈大表示此變數對此
典型變量的貢獻愈大。在以上的計算中,此權重為標準化後的資料所得的,故第
( x jk − x j )
k 筆資料的第 i 典型變量得點為 ∑ aij 。
sj

典型負荷(Canonical Loading)為變數與典型變量的相關係數,可由相關係數的
平方了解此典型變量解釋了此變數多少比例的變異數。

1. x 組的第 j 個典型變量 x *j 解釋 x 組的第 i 個變數 xi 的變異數比例為 rx2* , x 。


j i

2. y 組的第 j 個典型變量 y *j 解釋 y 組的第 i 個變數 y i 的變異數比例為 ry2* , y 。


j i

3. x 組的第 j 個典型變量 x *j 解釋所有 x 組變數的變異數比例為 R(2j ) x 。為解釋 x


p

∑r 2
x*j , xi
S x2i
組內每個變數變異數比例的加權平均, R(2j ) x = i −1
p
,其中 S x2i 為第 i
∑Si −1
2
xi

∑r 2
x*j , xi
個變數 xi 的變異數。若資料為標準化的,則 R(2j ) x = i −1

p

4. y 組的第 j 個典型變量 y *j 解釋所有 y 組變數的變異數比例為 R(2j ) y。為解釋 y


q

∑r 2
y *j , yi
S y2i
組內每個變數變異數比例的加權平均, R(2j ) y = i −1
q
,其中 S y2i 為第 i
∑Si −1
2
yi

∑r 2
y *j , yi
個變數 y i 的變異數。若資料為標準化的,則 R(2j ) y = i −1

q

4
5. x 組的第 j 個典型變量 x *j 解釋所有 y 組變數的變異數比例為 R x2* = λˆ j R(2j ) y 重
j

∑r 2
xi x*j
疊係數(Redundancy)。若資料為標準化的,則 R x2* = λ̂ j i =1

j
p

6. y 組的第 j 個典型變量 y *j 解釋所有 x 組變數的變異數比例為 R y2* = λˆ j R(2j ) x 重


j

∑r 2
yi y *j
疊係數(Redundancy)。若資料為標準化的,則 R y2* = λ̂ j i =1

j
q
m
7. 所有 x 組的典型變量解釋所有 y 組變數的變異數比例為 R y2| x = ∑ R x2* 。
j
j =1

m
8. 所有 y 組的典型變量解釋所有 x 組變數的變異數比例為 R x2| y = ∑ R y2* 。
j
j =1

問題:要選擇多少組典型變量個數?
最多可選取 m = min(p,q)組,可經由『卡方檢定』決定要選取多少組典型變量。
先檢定最大的典型根,爾後在一個接著一個對各個根檢定,只保留那些有顯著的
根。也就是

1. H 0 : λ1 = λ 2 = λ3 = L = λ m = 0 ,卡方統計量為



2
1 ⎤
[ ]
χ 2 = − ⎢(n − 1) − ( p + q + 1)⎥ ln (1 − λˆ1 )(1 − λˆ2 )(1 − λˆ3 ) L (1 − λˆm ) ,其中 n 為樣

本數,m=min(p,q),拒絕域為 χ 2 > χ pq
2
,α 。

2. 當 H 0 是顯著的(拒絕 H 0 ),接著做 H 0 : λ 2 = λ3 = L = λ m = 0 ,卡方統計量為



2
1 ⎤
[ ]
χ 2 = − ⎢(n − 1) − ( p + q + 1)⎥ ln (1 − λˆ2 )(1 − λˆ3 ) L (1 − λˆm ) ,拒絕域為

χ 2 > χ (2p −1)( q −1),α 。

3. 當 H 0 是顯著的(拒絕 H 0 ),接著做 H 0 : λ3 = L = λ m = 0 ,卡方統計量為



2
1 ⎤
[ ]
χ 2 = − ⎢(n − 1) − ( p + q + 1)⎥ ln (1 − λˆ3 ) L (1 − λˆm ) ,拒絕域為 χ 2 > χ (2p − 2)( q − 2),α ,

4. 依此類推,至 H 0 : λt = L = λ m = 0 ,卡方統計量為

5


2
1 ⎤
[ ]
χ 2 = − ⎢(n − 1) − ( p + q + 1)⎥ ln (1 − λˆt ) L (1 − λˆm ) ,拒絕域為

χ 2 > χ (2p −t +1)( q −t +1),α 。

也可主觀的利用重疊係數加以判斷。當樣本數大時,典型相關 R ≥ 0.3 表示統計


上顯著的,即重疊係數未超過 0.09 時,此典型變量僅對變數的變異數解釋一小
部分。

SPSS 的語法
========================================
MANOVA
y1 y2 y3 … with X1 x2 x3 …
/discrim raw stan corr alpha(0.95)
/print signif(eign dimenr)
/design.

< alpha(0.95)顯示 λi =0 之假設檢定的 p 值在 0.95 之內的典型變量之相關統計

量,可把所有可能的典型變量顯示出來,內設為 alpha(0.05)>

SAS 的語法
======================================
Proc cancorr;
Var y1 y2 y3 …;
With x1 x2 x3 …;
Freq f; (若 data 的輸入為次數分配型態,f 變數為次數變數)
Run;

6
以陳順宇著,多變量分析,『購買行為』為例,購買數量和喜好程度為 y 組,其
餘 9 個變數為 x 組。

MANOVA
購買數量 喜好程度 with 提神 習慣性 解渴 換飲料 口感 享受感覺 品牌 價格合理 設計美觀
/discrim raw stan corr alpha(0.95)
/print signif(eign dimenr)
/design.
<寫作業時,可以不用 alpha(0.95) 指令>

Manova
The default error term in MANOVA has been changed from WITHIN CELLS to
WITHIN+RESIDUAL. Note that these are the same for all full factorial
designs.

* * * * * * A n a l y s i s o f V a r i a n c e * * * * * *

40 cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
1 non-empty cell.

1 design will be processed.


- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
EFFECT .. WITHIN CELLS Regression
Multivariate Tests of Significance (S = 2, M = 3 , N = 13 1/2)

Test Name Value Approx. F Hypoth. DF Error DF Sig. of F

Pillais 1.09013 3.99374 18.00 60.00 .000


Hotellings 6.85480 10.66303 18.00 56.00 .000
Wilks .10275 6.82985 18.00 58.00 .000
Roys .86788
Note.. F statistic for WILKS' Lambda is exact.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Eigenvalues and Canonical Correlations
Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. Sq. Cor

1 6.569 95.831 95.831 .932 .868


2 .286 4.169 100.000 .471 .222
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Dimension Reduction Analysis
Roots Wilks L. F Hypoth. DF Error DF Sig. of F
1 TO 2 .10275 6.82985 18.00 58.00 .000
2 TO 2 .77775 1.07160 8.00 30.00 .409
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

7
EFFECT .. WITHIN CELLS Regression (Cont.)
Univariate F-tests with (9,30) D. F.

Variable Sq. Mul. R Adj. R-sq. Hypoth. MS Error MS F


購買數量 .84766 .80196 6.01842 .32447 18.54821
喜好程度 .66670 .56671 13.39147 2.00839 6.66775

Variable Sig. of F
購買數量 .000
喜好程度 .000

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
Raw canonical coefficients for DEPENDENT variables
Function No.
Variable 1 2
購買數量 .626 -.931
喜好程度 .118 .657
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Standardized canonical coefficients for DEPENDENT variables
Function No.
Variable 1 2
購買數量 .802 -1.192
喜好程度 .254 1.414
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Correlations between DEPENDENT and canonical variables
Function No.
Variable 1 2
購買數量 .984 -.177
喜好程度 .830 .558
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variance in dependent variables explained by canonical variables
CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO
1 82.854 82.854 71.908 71.908
2 17.146 100.000 3.811 75.718
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Raw canonical coefficients for COVARIATES
Function No.
COVARIATE 1 2
提神 .255 -.301
習慣性 .428 .394
解渴 -.178 .694
換飲料 -.163 .061
口感 .560 1.467
享受感覺 .179 -1.454
品牌 -.076 .104
價格合理 -.026 -.180
設計美觀 -.162 -.252

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *

8
Standardized canonical coefficients for COVARIATES
CAN. VAR.
COVARIATE 1 2
提神 .303 -.358
習慣性 .489 .449
解渴 -.145 .566
換飲料 -.206 .077
口感 .713 1.866
享受感覺 .224 -1.820
品牌 -.100 .136
價格合理 -.029 -.205
設計美觀 -.175 -.273

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Correlations between COVARIATES and canonical variables
CAN. VAR.
Covariate 1 2
提神 .363 .208
習慣性 .552 .211
解渴 -.446 .430
換飲料 .338 -.227
口感 .621 -.101
享受感覺 .599 -.459
品牌 -.185 .244
價格合理 -.113 .011
設計美觀 -.151 -.278

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variance in covariates explained by canonical variables
CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO
1 15.082 15.082 17.378 17.378
2 1.684 16.766 7.577 24.954
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Regression analysis for WITHIN CELLS error term
--- Individual Univariate .9500 confidence intervals

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
Regression analysis for WITHIN CELLS error term (Cont.)
Dependent variable .. 購買數量
COVARIATE B Beta Std. Err. t-Value Sig. of t
提神 .33174 .30805 .174 1.905 .066
習慣性 .46063 .41061 .166 2.776 .009
解渴 -.28302 -.18018 .188 -1.507 .142
換飲料 -.19749 -.19512 .152 -1.303 .203
口感 .50079 .49765 .182 2.757 .010
享受感覺 .36508 .35699 .172 2.128 .042
品牌 -.10047 -.10326 .082 -1.225 .230
價格合理 -.01108 -.00990 .086 -.128 .899
設計美觀 -.16289 -.13761 .092 -1.772 .087

COVARIATE Lower -95% CL- Upper

9
提神 -.024 .687
習慣性 .122 .800
解渴 -.667 .101
換飲料 -.507 .112
口感 .130 .872
享受感覺 .015 .715
品牌 -.268 .067
價格合理 -.187 .165
設計美觀 -.351 .025
Dependent variable .. 喜好程度

COVARIATE B Beta Std. Err. t-Value Sig. of t


提神 .25391 .14018 .433 .586 .562
習慣性 .93585 .49598 .413 2.267 .031
解渴 .09699 .03671 .467 .208 .837
換飲料 -.23648 -.13891 .377 -.627 .535
口感 1.76327 1.04175 .452 3.902 .000
享受感覺 -.52634 -.30599 .427 -1.233 .227
品牌 -.06809 -.04160 .204 -.334 .741
價格合理 -.14459 -.07678 .215 -.674 .506
設計美觀 -.41222 -.20704 .229 -1.803 .082

COVARIATE Lower -95% CL- Upper


提神 -.631 1.139
習慣性 .093 1.779
解渴 -.857 1.051
換飲料 -1.007 .534
口感 .840 2.686
享受感覺 -1.398 .345
品牌 -.485 .348
價格合理 -.583 .294

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
Regression analysis for WITHIN CELLS error term (Cont.)
Dependent variable .. 喜好程度
(Cont.)
COVARIATE Lower -95% CL- Upper
設計美觀 -.879 .055

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
EFFECT .. CONSTANT
Multivariate Tests of Significance (S = 1, M = 0, N = 13 1/2)
Test Name Value Exact F Hypoth. DF Error DF Sig. of F
Pillais .10304 1.66575 2.00 29.00 .207
Hotellings .11488 1.66575 2.00 29.00 .207
Wilks .89696 1.66575 2.00 29.00 .207
Roys .10304
Note.. F statistics are exact.

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

10
Eigenvalues and Canonical Correlations
Root No. Eigenvalue Pct. Cum. Pct. Canon Cor.
1 .115 100.000 100.000 .321

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
EFFECT .. CONSTANT (Cont.)
Univariate F-tests with (1,30) D. F.
Variable Hypoth. SS Error SS Hypoth. MS Error MS F Sig. of F
購買數量 .96622 9.73423 .96622 .32447 2.97779 .095
喜好程度 1.68463 60.25181 1.68463 2.00839 .83880 .367

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
EFFECT .. CONSTANT (Cont.)
Raw discriminant function coefficients
Function No.
Variable 1
購買數量 1.542
喜好程度 .263

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Standardized discriminant function coefficients
Function No.
Variable 1
購買數量 .878
喜好程度 .372

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
EFFECT .. CONSTANT (Cont.)
Correlations between DEPENDENT and canonical variables
Canonical Variable
Variable 1
購買數量 .930
喜好程度 .493

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

11
作業 (請於 5/15 繳交)
⎡x ⎤ ⎡y ⎤
1. 設 x = ⎢ 1 ⎥ 和 y = ⎢ 1 ⎥ ,x 和 y 的期望值和共變異矩陣為
⎣ x2 ⎦ ⎣ ⎦
y2

⎡ µ x1 ⎤ ⎡− 3⎤ ⎡8 2 3 1 ⎤
⎢µ ⎥ ⎢ ⎥
2 ⎡Σ Σ12 ⎤ ⎢2 5 − 1 3 ⎥⎥

µ = ⎢ 2 ⎥ = ⎢ ⎥ 和 Σ = ⎢ 11 =
x

⎢ µ y1 ⎥ ⎢ 0 ⎥ ⎣Σ 21 Σ 22 ⎥⎦ ⎢3 − 1 6 − 2⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ µ y2 ⎥⎦ ⎣ 1 ⎦ ⎣1 3 − 2 7 ⎦
請問
(a)計算所有可能的典型相關, ρ1* , ρ 2* 。
(b)寫出所有可能的典型變數, ( x1* , y1* ) 和 ( x 2* , y 2* ) 。
⎛ ⎡ x1* ⎤ ⎞ ⎛ ⎡ x1* ⎤ ⎞
⎜⎢ ⎥⎟ ⎜⎢ ⎥⎟
⎜ ⎢ x 2* ⎥ ⎟ ⎜ x* ⎟ ⎛ Σ* Σ12
*

(c)計算(b)中的典型變數的期望值和共變異矩陣, E ⎜ * ⎟ 和 Cov⎜ ⎢ 2* ⎥ ⎟ = ⎜⎜ 11 * ⎟
⎟。
⎢ ⎥ ⎢ ⎥
⎜ ⎢ y1 ⎥ ⎟ ⎝ Σ 21 Σ 22 ⎠
*
⎜ ⎢ y1 ⎥ ⎟
⎜ ⎢ y* ⎥ ⎟ ⎜ ⎢ y* ⎥ ⎟
⎝⎣ 2 ⎦⎠ ⎝⎣ 2 ⎦⎠

2. TOEFL 資料檔,x 組:大學在學成績指標(GPA)、留美英文能力測驗(TOEFL)、


留 美 商 業 傾 向 智 能 測 驗 (GMAT) 與 y 組 : 工 作 年 資 (WORK) 、 其 他 申 請 資 格
(OTHER),考慮這兩組變數的典型相關。
(可參考鄧家駒著,多變量分析,p272-273)

12
資料整理來源:陳順宇著,多變量分析

第九章 信度與效度

信度(Reliability):一份量表所得分數的一致性。
1. 再測信度:不同時間,相同測驗。相關係數亦稱穩定係數。受記憶效用
影響。
2. 複本信度:不同時間,不同測驗。類似問卷(複本)。不受記憶效用影響。
3. 折半信度:相同時間,不同測驗。將問卷的題目分兩半。相關係數即為
折半信度係數。
4. Cronbach α 係數:一個研究構面有許多問項。

Cronbach α =
n ⎛⎜ ∑
1− 2
si2 ⎞
⎟ , sTOTAL
2
= Var (∑ X i ) , s i2 = Var ( X i ) 。
n − 1 ⎜⎝ sTOTAL ⎟

問項 n 越多,則 s 2
越大,使得
∑s 2
i
越接近 0,
n
越接近 1,則 Cronbach α
2
n −1
TOTAL
s TOTAL

將越接近 1。
若僅有一個問項,則 Cronbach α =1。

=====================================
SPSS 操作: AnalyzeÎ ScaleÎ Reliability
=====================================
SPSS 語法:
RELIABILITY
/VARIABLES= 問項1 問項2 …
/FORMAT=NOLABELS
/SCALE(ALPHA)=ALL/MODEL=ALPHA
/STATISTICS=DESCRIPTIVE SCALE HOTELLING CORR COV ANOVA TUKEY
/SUMMARY=TOTAL MEANS VARIANCE COV CORR
/ICC=MODEL(MIXED) TYPE(CONSISTENCY) CIN=95 TESTVAL=0 .

1
『購買行為』例子:(陳順宇著,多變量分析)

SPSS 語法:
RELIABILITY
/VARIABLES=口感 享受感覺 換飲料
/FORMAT=NOLABELS
/SCALE(ALPHA)=ALL/MODEL=ALPHA.

SPSS 報表:
Reliability Coefficients
N of Cases = 40.0 N of Items = 3
Alpha = .9411
=====================================

2
效度(Validity):一份量表能真正衡量到該量表想要衡量的能力或功能
之程度。
1. 內容效度(表面效度)
2. 效標關聯效度
z 預測效度
z 同時效度
3. 建構效度
z 收斂效度
z 區別效度

3
第十章 集群分析(Cluster Analysis)

將比較相似的樣本聚集在一起,形成集群(cluster)。以『距離』作為分類的依據,
『相對距離』愈近
的,『相似程度』愈高,歸類成同一群組。此統計分析方法不需要任何的假設。集群分析可分成分
層法(Hierarchical)、非分層法(Nonhierarchical)和兩階段法。

1. 分層法有凝聚分層法(Agglomerative)和分離分層法(Divisive)。『距離』可分為『點間距離』和
『群間距離』。
『點間距離』:
歐氏距離(Euclidean Distance):
馬氏距離(Mahalanobis Distance):
城市街距離(City Block Distance):
(1)凝聚分層法(Agglomerative):開始時每一個體為一群,然後最近的兩個體合成一群,一次
結合使群組越變越少,最後所有個體結合成一群。依不同的『群
間距離』分為,
(A)最近法(單一聯結法 Single Linkage):
d A, B = Min d ij
i∈ A
j∈B

(B)最遠法(完全聯結法 Complete Linkage):


d A, B = Max d ij
i∈ A
j∈B

(C)平均法(Average Linkage):

d A, B = ΣΣ d ij / n ,n 為全部距離的個數

(D)中心法(Centroid Method):

d A, B = d ( x A , x B ) =|| x A − x B || 2

(E)華德法(Wards Method 華德最小變異法):

d A, B = n A || x A − x || 2 + n B || x B − x || 2

(2)分離分層法(Divisive):開始所有個體為一群,然後分成兩群、三群,直到每個體為一群。
此法不常用。
2. 非分層法最具代表性的為 K 組平均法(K-Meanns)。開始任意將個體分成 K 組,然後將個體在
個群間移動,使(1)群內變異最小;(2)群間變異最大。

3. 兩階段法為第一階段分層法分群,決定群組個數,第二階段再以 K 組平均法進行群集,移動
各群組內的個體,保持全部群組為 k 組。

2
SPSS 點選方式:

分層法:

Variable(s):放入考慮之群集變數
Label Cases by:放入顯示個體的名稱變數
Cluster:Cases(做個體的群集分析);Variable s(做變數的群集分析)
Display:Statistics(統計量); Plots(圖形) 。預設值通常會保留。

3
Statistics:
凝聚過程(Agglomerative schedule)
近似性矩陣(Proximity matrix)
集群組員(Cluster Membership):(設定群集個數)
None:沒有設限制
Single solution:指定一個大於 1 的數
Range of solutions:指定一個範圍

You might also like