You are on page 1of 22

BAB 6

PEMERIKSAAN SISA DAN DATA BERPENGARUH

6.1 Kekurangcocokan
Model yang baik menangkap kecenderungan umum yang terdapat pada data. Dalam hal
demikian hubungan antara peubah dengan respons yang terdapat pada data telah terwakili dengan
cukup baik dalam model. Gambaran ini dapat dilukiskan sebagai

= () + .
Jadi jika antara model dengan data telah terdapat kecocokan yang baik maka sisa akan
berbentuk acak dan rataan kuadrat sisa merupakan penaksir 2 yang terbias. Sisa berpola acak bila
korelasi antara sisa sama, atau dekat, dengan nol. Salah satu cara yang baik untuk menguji apakah
kecocokan (lebih tepat, ketidakcocokan) antara model dengan data ialah dengan membanding
taksiran 2 yang diperoleh dari rataan kuadrat sisa dengan nilai 2 yang sesungguhnya. Bila rataan
kuadrat sisa/ 2 1 maka antara model dengan data terdapat kecocokan yang baik. Atau, lebih
tepat, tidak terdapat ketidakcocokan antara data dengan model.

Dalam praktek, kendati model sudah cukup baik, sulit mengharapkan pola sisa akan betul-
betul acak, begitupun rattan kuadat sisa dibagi 2 mungkin sedikit lebih besar dari 1. Kita mungkin
harus merasa puas bila keadaan yang kita peroleh tidak terlalu jauh menyimpang dari keadaan
ideal tersebut diatas.

Bila diketahui

Jika 2 diketahui maka

( ) 2
= 2
2 2
Bila 2 = rataan kuadrat sisa, n= ukuran terok, dan p = banyaknya parameter dalam model,
termasuk 0. Nilai 2 dengan = . Bila 2 hasil perhitungan lebih besar dari yang
tertera pada tabel untuk = dan taraf keberartian tertentu maka dikatakan
ketidakcocokan berarti pada taraf . Dalam keadaan demikian maka model lain perlu dicari karena
model yang telah diuji tidak mempunyai kecocokan yang baik dengan data.

Bila tidak diketahui

Umumnya 2 tidaklah diketahui. Hanya dalam keadaan tertentu tersedia nilai 2 dan hal
ini jarang terjadi. Karena itu diperlukan sumber khusus untuk mendapatkan penaksir 2 yang tak
bias dan tidak tergantung pada model. Sumber khusus ini adalah replikasi yang dengan sengaja
dibuat dalam rancangan penelitian.
Replikasi hendaklah dibedakan dengan pengulangan pengukuran (repitisi). Pengukuran
berat seseorang beberapa kali merupakan pengulangan pengukuran dan bertujuan meninggikan
keyakinan akan kebaikan / keburukan pengukuran tersebut. Makin kecil variasi pengukuran makin
yakin akan ketelitian alat/cara pengukuran. Tetapi jika ingin mengaitkan umur (x) dengan berat
badan orang (y) dan kita mengukur berat badan beberapa orang yang sama umurnya maka kita
membuat replikasi pengukuran pada suatu nilai x (umur) yang sama.

Tujuannya ialah untuk mengukur variansi pada setiap nilai x. Jumlah kuadrat yang muncul
dari repleksi disebut jumlah kuadrat galat murni, sedangkan jumlah kuadrat akibat belum cocoknya
model disebut jumlah kuadrat kekurang cocokan.

= +

Derajat kebebasan juga mengurai seperti itu.

Jumlah Kuadrat Galat Murni


Pada tiap nilai terdapat replikasi nilai dengan rata-rata:

=
= / seluruhnya ada = =1

Replikasi pada suatu xi menyumbang variansi pada jumlah kuadrat sisa sebeser
2

( )2 = 2 ( ) /
=1 =1 =1

Jika semua variansi ini dijumlahkan maka kita peroleh jumlah kuadrat galat murni

= ( )2
=1 =1

Jumlah kuadrat galat murni adalah bagian (komponen) dari jumlah kuadrat sisa dapat dilihat dari
penjelasan berikut. Sisa ke j pada pengamanan xi adalah

= ( ) + ( )

Perhatikan bahwa semua aplikasi , j= 1,2,3.....,ni pada xi yang sama mempunyai prediksi
yang sama pula. Kuadratkan dan jumlahkan kedua ruas maka diperoleh

( ) = ( ) + ( )2
2 2

=1 =1 =1 =1 =1 =1

Derajat kebebasan JKsisa juga mengurai mengikuti rumus (6.6):


dk Jksisa =dk JKgalat murni + dk JKkekurangaan.

Rataan kuadrat galat murni (RKGM) dihitung dengan membagi JKgalat murni dengan dk-
nya. Begitulah, rataan kuadrat kekurangcocokan (RKKC) diperoleh dengan membagi
JKkekurangcocokan dengan dk-nya.Bila kedua taksiran tidak banyak berbeda maka berarti galat yang
ditimbulkan oleh kekurangcocokan model dengan data dapat diabaikaan dan dikatakan bahwa
kekuraangcocokan tidak berarti. Ini berarti bahwa tidak ada alasan meraukan kebaikan model.
Secara formal ini dikerjakan dengan menghitung nisbah

Fhitung =

Fhitung ini kemudian dibanding dengan FV1 ,V2 dari tabel F , bila v1 dan v2, masing masing,
menyatakan dk JKkekurangcocokan dan dk JKgalat murni.
Pandang kembali tabel 2.5 dari bab 2. Darii tabel terlihat bahwa pengamatan nomer 3 dan
4 mempunya replikaasi ,juga nomor 6 dan 7, nomor 8, 9, 10, dan nomor 12, 13. Dua jalur paling
kanan tabel tersebut memberikan jumlah kuadrat galat murni dan derajat kebebasan nya dari tiap
kelompok.

Lihat tabel 2.5 dari bab 2 kembali. Pada bagian bawah tabel itu jumlah kuadrat sisa
diuraikan atas kedua unsurnya: jumlah kuadrat galat murni dan jumlah kuadrat kekurangcocokan.
Begitupun derajat kebebasan sisa mengurai dengan cara yang sama. Rataan kuadrat untuk kedua
bentuk kuadrat tersebut diperoleh seperti biasa dengan membagi jumlah kuadrat dengan derajat
kebebasan yang sesuai. Uji-F untuk kekurangcocokan diperoleh dengan membagi kedua rataan
kuadrat.

Pengaruh replikasi terhadap R2


R2 membesar bila makin banyak peubah bebas yang dimasukkan ke dalam model,tetapi
mengecil bila ukuran terok membesar. Bila data mengandung replikasi yang nilai y yang berlainan
pada nilai x yang sama maka nilai maksimum R2 sebesar 100% tidak akan tercapai. Makin banyak
replikasi,bila replikasi memberi nilai respons y yang berbeda,maka makin jauh R2 dari 100%. Nilai
maksimum 100% hanya tercapai bila JKSisa = 0. JKSisa = 0 sehingga R2 < 100%.

6.2 Gunanya Pemeriksaan Sisa


Makin besar sisa makin jauh data menyimpang dari model. Model yang sudah baik ditandai
oleh pola sisa yang acak. Salah satu kelemahan metode kuadrat terkecil ialah bahwa data yang
aneh tersebut mempunyai pengaruh yang proporsional lebih besar dari data yang terletak dibagian
tengah. Salah satu tujuan pemeriksaan sisa ialah untuk menentukan apakah data ini tadi dapat
dikategorikan sebagai penncilan atau bukan. Ini disebut diagnostik regresi.

Dalam membentuk model kita melihat pola umum data sedangkan dalam analisis sisa kita
lihat penyimpangannya dari pola itu. Dalam setiap analisis data keduanya harus dipadu secara
harmonis agar diperoleh model yang baik.
Bagaimana pentingnya pemeriksaan sisa telah ditunjukan oleh Anscombe melalui contoh berikut.
Pada tabel 6.3 tertera 4 kelompok data (xi,yi).

Kelompok (a) - (c) mempunyai x yang sama sedangkan kelompok (d) nilai x-nya hamper sama
semua kecuali pengamatan yang ke 8. Nilai y untuk tiap kelompok berlainan tapi rata-ratanya
sama, begitu pula variansinya. Tiap pasangan menghasilkan persamaan regresi
y 7,5 0,5( x 9,0)

Tabel 6.3 Empat kelompok data fiktif dari Anscombe

Data Peubah (a) - ( c (a) (b) (c) (d)


) y y y x y
x
No. Pengamatan 1 10,0 8,04 9,4 7,46 8,0 6,58
2 8,0 6,95 8,4 6,77 8,0 5,76
3 13,0 7,58 8,4 12,74 8,0 7,71
4 9,0 8,81 8,7 7,11 8,0 8,84
5 11,0 8,33 9,6 7,81 8,0 8,47
6 14,0 9,96 8,0 8,84 8,0 7,04
7 6,0 7,24 6,3 6,08 8,0 5,25
8 4,0 4,26 3,0 5,39 19,0 12,50
9 12,0 10,84 9,3 8,15 8,0 5,56
10 7,0 4,82 7,6 6,42 8,0 7,91
11 5,0 5,68 4,4 5,73 8,0 6,88
Jumlah 99 82,51 82,1 82,50 99 82,51
Rata-Rata 9 7,50 7,0 7,50 9 7,50
Variansi 11 4,127 4,27 4,123 11 4,123
Sumber : Anscombe, F.J, Graphs in statistical analysis, Am. Statistician 27 (1973).

Atau

y 0,5 x 3, (6.8)

Dengan rxy=0,8165 atau R2=66,7%. Nilai kritis untuk b adalah 0,002. Dari hasil ini
kelihataannya keempat kelompok tidaklah berbeda satu sama lain. Kecocokan antara data dan
model sudah lumayan baik. Koefisien regresi berbeda dengan nol.

Bagian a kedua gambar memperlihatkan bahwa kecocokan antara data dengan model sudah baik
dan kelihatannya sudah tidak dapat lagi diperbaiki. Sisa terlihat acak. Bagian b seperti
Y 0 1 x 11 x 2 , kelihatannya akan lebih baik. Dan bila ini dicoba diperoleh
y 6,00 2,78x 0,13x 2 , R 2 100,0%

Kecocokannya sempurna

Pada bagian c hamper semua datanya terletak pada suatu garis lurus kecuali satu. Kemungkinan
data ini merupakan pencilan, yang tidak jarang terjadi karena salah mencatat. Analisis sebaiknya
dikerjakan dengan membanding kecocokan garis regresi tanpa mengikutsertakan data yang aneh
tersebut. Kalau ini dikerjakan maka diperoleh suatu kecocokkan yang sempurna.

y 4,006 0,345 x, , R 2 100,0%

Perbedaan kedua kecocokkan regresi ternyata mencolok. Karena data ini hanya ciptaan,
jadi tidak berasal dari keadaan alam sesungguhnya, maka kita tidak dapat menyarankan kecocokan
yang mana sebaiknya diambil.

Bagian d lebih aneh lagi. Areh garis regresi sepenuhnya ditentukan oleh satu titik data dan
lebih aneh lagi data itu sama sekali tidak mengikuti pola data yang lainnya. Jika data yang aneh
ini dibuang maka sisanya hanyalah replikasi pada x=8,0 sebanyak 10 kali. Untuk mendapatkan
garis regresi yang baik dibutuhkan variasi nilai x yang lebih banyak.

Misalnya dimasukkan dalam bentuk linear padahal seharusnya berbentuk log. Di pihak
lain, data sesungguhnya tidak memenuhi anggapan regresi, seperti kesamaan variansi dan/atau
kenormalan. Dalam hal terakhir ini, harus diusahakan mencari transformasi sehingga, setelah
ditransformasikan, data yang baru ini memenuhi anggapan regresi. Pemilihan transformasi yang
sesuai untuk suatu kelompok data sering tidak begitu mudah. Cara sederhana menanganinya dapat
dilihat di Erickson dan Nosanchuk (1983), sedangkan cara yang lebih lanjut akan dibahas di pasal
6.6.

Tujuan pemeriksaan sisa


Secara umum, analisis sisa bertujuan memeriksa apakah anggapan regresi (keacakan,
kenormalan dan kesamaan variansi) dipenuhi dan apakah ada data yang tidak mengikuti pola
umum data. Adanya pencilan mungkin merupakan petunjuk bahwa modelnya belum cocok dengan
data, jadi modelnya masih perlu diperbaiki. Jika modelnya diperbaiki pencilan itu mungkin hilang.
Akan tetapi, dalam banyak hal, pencilan muncul secara wajar dan tidak mengisyaratkan
kekurangcocokan model. Bila n = 100, misalnya, maka wajar saja bila ada sekitar lima data
pengamatan yang nakal, yang tidak mengikuti pola umum data (lihat persamaan (1.13)).

Tujuan pemeriksaan sisa, secara implisit, juga berarti apakah peubah bebas yang besar
pengaruhnya sudah masuk ke dalam model dan dalam bentuk (linear, kuadrat, log, dsb) yang
sesuai. Secara lebih terperinci tujuan pemeriksaan sisa adalah :

1. Apakah sisa telah berpola acak;


2. Apakah anggapan normal tidak dilanggar;
3. Apakah variansi dapat dianggap tidak berubah (sama);
4. Apakah ada data yang tidak mengikuti pola umum (pencilan);
5. Apakah peubah yang masuk dalam model barangkali bukan berbentuk linear;
6. Apakah peubah yang berpengaruh telah masuk ke dalam model;

Perlu ditegaskan kembali bahwa uji statistik yang digunakan (t dan F) bersifat kekar. Ini berarti
bahwa anggapan kenormalan dan kesamaan variansi tidak perlu dipenuhi dengan ketat tapi cukup
agak kasar. Di samping itu perlu pula ditegaskan bahwa sesungguhnya distribusi normal lebih
merupakan mitos karena distribusi normal tidak ada dalam praktek. Data selalu diskret, seperti
juga halnya dengan alam semesta ini, sedangkan distribusi normal kontinu.

Berikut ini diberikan beberapa rajah sisa yang penting mengikuti N. Draper dan H. Smith, Applied
Regression Analysis.

1. Rajah sisa menurut besarnya.


2. Rajah menurut urutan pengambilan data, bila diketahui.
3. .
Rajah sisa terhadap
4. Rajah sisa terhadap Xij, j = 1,2,.,k.
5. Menurut setiap cara yang wajar sesuai persoalannya misalnya, rajah sisa terhadap peubah
bebas yang tidak termasuk dalam model untuk menentukan apakah peubah itu sebaiknya
masuk ke model atau tidak.

6.3 Berbagai Rajah Sisa

Berikut akan dibahas berbagai rajah sisa. Perlu dijelaskan bahwa sisa sebaiknya diajah menurut
setiap cara yang dianggap wajar dan pembahasan disini hanyalah sebagian daripadanya, tidak ada
cara yang baku mengerjakannya.
6.3.1 Rajah Sisa Menurut Besarannya
Gambar 6.3 menyajikan rajah e1, i = 1,2,,n, menurut besarnya dari contoh di tabel
6.2. Dalam gambar ini dua atau lebih titik sisa yang sama besarnya disusun bertumpuk.
Terlihat bahwa rajah a cukup lumayan, dalam arti kata, agak setangkup dan memencar
agak acak dan lebih banyak di tengah. Tidak ada tanda bahwa anggapan keacakan dan
kenormalan dilanggar oleh data. Bagian b agak aneh, datanya mengelompok. Kendati
bentuknya hampir setangkup tapi tidak acak. Pada bagian c, terlihat satu data
menyendiri di sebelah kanan dan cukup jauh dari titik nol (pusat data). Bagian d tidak
menunjukkan keanehan.
Pengamatan no.8 yang aneh memberikan e8 = 0 jadi rajah ini tidak mampu
mengungkapkan kelemahan tersebut, padahal pengamatan ke 8 tersebut mungkin suatu
pencilan.

6.3.2 Rajah Menurut Waktu


Pengaruh waktu sering masuk dalam pengambilan data melalui urutan melakukan
percobaan. suatu cara melihat apakah waktu mempengaruhi percobaan ialah dengan membuat
rajah sisa menurut urutan pengambilan data, bila urutan tersebut diketahui. Pada gambar 6.4
terdapat 4 jenis rajah sisa, yang di ambil menurut urutan waktu. Tanda pada gambar menunjukan
rajah suatu titik sisa. Pada a terlihat rajah sisa membentuk jalur datar, merupakan tanda bahwa katu
tidak mempengaruhi pengamatan. Pada b rajah sisa membentuk jalur miring atau trend naik. Ini
menunjukan bahwa waktu mempengaruhi mempengaruhi respons secara linear. Pada model agar
ditambahkan faktor waktu dalam bentuk linear, misalnya , suatu parameter. Dalam hal waktu
yang sesungguhnya ketika pengamatan dilakukan tidak diketahui maka terpaksa mengambil nilai
1,2, , . Kemudian Rajah c menunjukkan jalur yang melebar, menunjukkan bahwa sisa semakin
fluktuasi apabila waktunya bertambah besar. Dengan kata lain, anggapan kesamaan variansi
mungkin dilanggar. Dalam hal ini mungkin respon perlu ditransformasikan. Rajah d
menunjukkan pola kuadratik sehingga diperlu dimasukannya bentuk kuadrat ataupunperkalian
antara dua peubah bebas atau interaksi dalam model.
Rajah sisa dengan waktu juga dapat menunjukkan apakah respon merupakan deret waktu,
dalam hal demikian maka anggapan bahwa error berbentuk acak merupakan terok acak yang
dilanggar.

6.3.3 Rajah Sisa Menurut Dan , = , , ,


Sisa juga sebaiknya dirajah menurut dan masing masing peubah bebas , =
1,2, .
Dalam setiap hal, bila hasilnya mirip pola a gambar 6.4 maka tidak ada masalah. Pola
mestinya tidak muncul kecuali ada masalah dalam perhitungan. Padasetiap kasus yang dihadapi
tidak dapat diharapkan bahwa anggapan kenormalan dan kesamaan variansi akan dipenuhi dengan
tepat.
6.3.3 Rajah sisa menurut i dan xij , j= 1,2,...,k
Merajah sisa secara sederhana (terhadap nilai y atau lebih lagi,sisa terstudent ) mungki amat
bermanfaat dalam menyoroti kekeliruan model atau pelanggaran terhadap kesamaan variansi
.Rajah sisa terstudent lebih disenangi daripada rajah sisa biasa karena kenyataan bahwa variansi
sisa ke i tergantung padda diagonal TOPI ke i ,jadi variansi sisa akan berbeda bila unsur diagonal
TOPI berbeda. Tujuan penggunaan sisa terstudent ialah agar pada pembakuan. Jelaslah bila
diketahui ,maka di bawah persyaratan yang ideal (modelnya tepat , variansi homogen )

E =0 dan Var =1
1 1
Jadi sisa terstudent merupakan sekumpulan statistik yang bersifat baku bila syarat ideal dipenuhi.
Jadi setiap simpangan dari gambaran ideal menunjukkan pelanggaran terhadap anggapan baku .
Sisa juga sebaiknya dirajah menurut i dan masing-masing peubah bebas xij , j= 1,2,...,k
Apakah tarnsformasi betul diperlukan ,tergantung pada sejauh mana anggapan tersebut dilanggar
. Pada setiap kasus yang kita hadapi tidak dapat diharapkan bahwa anggapan kenormalan dan
kesamaan variansi akan dipenuhi dengan tepat statistik yang kita pakai mempunyai toleransi yang
cukup besar, jadi tidak mensyaratakan dipenuhinya anggapan tersebut dengan ketat .
Dalam praktek tiak dapat diiharapkann salah satu pola tadi akan muncul dengan jelas ,mungkin
pula yang muncul adalah gabungan antara beberapa pola . Sisa dirajah menurut cara yang dianggap
wajar . Membuat rajah sisa terhadap yi tidaklah banyak menolong dapat menyesatkan karena
demikian model sudah baik antara yi dan ei masih berkorelasi
6.4 Sisa dan Data Berpengaruh
n
Jika 0 0 mak atelah dijelaskan di depan bahwa e
1
i 0 . Begitupun telah dijelaskan di bab 5

bahwa bila modelnya takbias dan p menyatakan banyaknya parameter dalam model maka
n
E ( ei ) 2 (n p) ( lihat persamaan 5.36). jadi derajat kebebasan JK sisa hanya n-p, tidak
2

penuh sama dengan n. Jadi kendati 1 , 2 ,....., n bebas satu sama lain tetapi penaksirnya

e1 , e2 ,....., en tidaklah demikian. Ini berarti bahwa rajah sisa e1 , e2 ,....., en tidak akan benar-benar
acak, karena antara sisa tersebut terdapat korelasi.
Bentuk sisa yang lain ada dua, yaitu sisa terbaku dan sisa terstudent. Sisa terbaku yaitu apabila
anggapan kenormalan dan kesamaan variansi dipenuhi maka 1 / berdistribusi N (0,1), dan di

bawah anggapan keacakan 1 / , i = 1, 2,....,n, bebas satu sama lain. Karena itu beralasan

memandang sisa, dalam dalam bentuk e1 / , i = 1, 2,....,n, bila diketahui dan e1 / s bila
tidak diketahui jika s menyatakan rataan kuadrat sisa. Sisa itulah yang disebut sisa terbaku.
Pengamatan yang jauh dari pusat data sangat mungkin berpengaruh besar terhadap koefisien
regresi dan berpotensi sebagai pencilan. Cara yang dianggap lebih baik untuk membekukan sisa
ialah dengan membagi e i dengan penaksir simpangan bakunya :

ei
ei , i 1,2,..., n
a

s 1 hii

Besaran ini disebut sisa terstudent dan merupakan fungsi monoton dari distribusi t-student dan
dapat dipandang sebagai distribusi t dengan dk = n-p-1. Sisa ini mempunyai beberapa sifat yang

baik , seperti E ei a Eei 0 dan bila modelnya tidak bias, var ei a 1 untuk setiap i. Tetapi
a a
ei ,...., en tidaklah bebas satu sama lain. Dari rumus ini terlihat bahwa bila hii besar (mendekati

1) maka penyebut menjadi kecil sehingga ei a menjadi besar, pada umumnya.


6.4.1 Data Berpengaruh
Besarnya pengaruh suatu titik data tidak hanya ditentukan oleh nilai x (yang dapat dari besarnya
nilai hii, i = 1, 2,...,n) tetapi juga dari jauhnya nilai y dari rata-rata y seperti telah terlihat dari
contoh 6.1.
Pengamatan no.13 Pandang selanjutnya gambar 6.6. Pengamatan bertanda di a berpengaruh
besar terhadap koefisien regresi b1 sedangkan yang di b hanya berpengaruh terhadap b0 . Suatu
data mungkin letaknya terpencil, tapi kalau pengaruhnya terhadap koefisien regresi kecil maka
kita tidak perlu memberi perhatian besar padanya. Penelitian mengenai hal ini sudah banyak
dikerjakan orang akan tetapi belum ada cara yang sederhana mengerjakannya. Pembaca yang ingin
mendalami lebih lanjut dapat melihat, misalnya Weisberg(1980), Cook dan Weisberg(1982),
Bilsley dkk (1980), Daniel dan Wood (1971) Barnett dan Lewis (1978).
Makin besar ukuran terok n makin kecil pengaruh suatu titik data. Dalam banyak penelitian ilmu
sosial ukuran teroknya mencapai ratusan sehingga pengaruh suatu titik data yang terpencil
mungkin dapat diabaikan.
Pengaruh suatu data juga tergantung pada model yang digunakan. Suatu titik data munggkin
merupakan pencilan bila menggunakan suatu model tapi tidak bila model lain yang digunakan.
Sebagai contoh pandang data di tabel 7.1 di bab 7. Bila kita pandang regresi sederhana y dengan
x 4 maka untuk pengamatan ke 7 diperoleh hii 0,147 dan ei* 1,735, sedangkan untuk

pengamatan ke 15 hii 0,06 dan ei* 3,229. Nilai hii 0,147 3 p / n 0,375 tapi e7* 2 , jadi,

kendati hii cukup besar, pengaruhnya tidaklah sampai membuat sisa melebihi 2 simpangan baku.

Sebaliknya untuk pengamatan ke 15, nilai hii sangat kecil (jadi x 4 untuk pengamatan ke 15 dekat
*
ke x 4 ), tapi e15 3 sangat besar. Jika kita gunakan model dengan peubah bebas x1 , x2 , x4 ( p 4)

maka untuk pengamatan ke 15 diperoleh hii 0,505 2 p / n dan e15


*
1,488 2 , tidak begitu

besar. Pengamatan no.1 yang tadinya tidak menunjukkan keanehan (menggunakan model yang
lebih sederhana) sekarang memberikan e1* 2,700, cukup besar (maksimum); besarnya sisa ini

khusus disebabkan oleh x1 .


Cara termudah menilai pengaruh suatu titik data ialah dengan membuat dua analisis, satu dengan
seluruh data dan satu lagi tanpa data tersebut, kemudian bandingkan perbedaan koefisien regresi
yang diakibatkannya seperti telah dikerjakan pada tabel 2.7.
Seperti dikemukakan di depan, tidak ada cara yang mudah untuk memutuskan apakah suatu atau
lebih titik data merupakan pencilan. Beberapa uji pencilan telah dibuat orang (lihat, misalnya,
Weisberg (1985) dan Gentlemen dan Wilk (1975a-b)). Suatu cara sederhana ialah dengan
menggunakan sisa terstudent dengan dk = n-p-1. Bila sisa ini lebih besar dari nilai t (n p 1, )
dari tabel-t maka dianggap data tersebut terpencil. Cara ini mudah dikerjakan bila pencilannya
cuma satu, atau, kalau lebih dari satu, letaknya tidak berdekatan. Kalau pencilannya ditemukan
cukup banyak, barangkali modelnya tidak tepat; mungkin skala yang digunakan kurang tepat.
Dalam hal itu diperlukan transformasi terhadap x dan y, atau kedua-duanya.
6.5 Memilih trasformasi
Sudah banyak macam transformasi yang diusulkan dan bentuk yang cocok untuk suatu persoalan
jarang cocok untuk yang lain. Tujuan kita ialah mencari suatu transformasi (berbentuk fungsi)
sehingga data terok, dalam hal ini data sisa, menjadi berbentuk setangkup dan kedua ujungnya
tidak terlalu tebal (lihat padal 2.9). Data pencilan seharusnya masih tetap pencilan sesudah
transformasi, jika tidak maka barangkali transformasi telah memapatkan data terlalu keras.
Pengalaman dan pengetahuan mengenai persoalan yang melatarbelakangi data yang sedang
dihadapi sangat menolong dan kita sering harus berani main coba-coba. Ada dua macam
transformasi yang akan dibahas : transformasi mengenai y dan transformasi mengenai x.
transformasi perlu dikerjakan bersama. Seperti dikemukakan di pasal 6.2, tujuan kita ialah
mengusahakan agar anggapan regresi dipenuhi: kenormalan,kesamaan variansi dan peubah bebas
yang masuk ke dalam perasaan regresi berbentuk linear. Kalau data tidak diambil secara acak maka
tidak ada apapun yang dapat dikerjakan untuk memperbaikinya,nasi sudah menjadi bubur.
6.1.5. Transformasi
1
() , 0
= ={ (6.10)
ln , = 0
Untuk data yang positif (y > 0). Jika data yang kitahadapi negatif, penambahan dengan suatu
tatapan dapat dikerjakan. Perhatikan bagian kedua rumus di atas adalah hal khusus dari bagian
pertama bila 0. Ini diperlukan untuk menjaga agar z = () kontinu pada = 0.
Jika = , transformasi z = , yaitu mengambil akar dari semua data y; bila = 0,z = log y;
bila =-1z = l/y; sedangkan bila = l, z = y, artinya tidak perlu ada transformasi. Terlihat bahwa
transformasi Box dan Cox ini merupakan suatu kelompok transformasi untuk menangani berbagai
penyimpanan terhadap anggapan regresi.
Transformasi ini mengubah bentuk galat , jadi menganggap bahwa anggapan kenormalan belum
dipenuhi, karena itu pemeriksaan kenormalan masih perlu dilakukan terhadap sisa setelah
transformasi. Untuk menjaga agar masih dapat dibandingkan setelah transformasi maka
bentuk (6.10) perlu dibakuan dengan mengalikannya dengan Jakobinya, sehingga(6.10) menjadi
1
() , 0
= { (1) (6.11)
ln , = 0
n n
Dengan = ( yi )/ = eksp {(/) ln } menyatakan rataan geometri
i l i l

pengamatan.
Box dan Cox menggunakan metode kemungkinan maksimum untuk menaksir . Taksiran seperti
ini dapat pula dicari dengan mencari nilai yang meminimumkan JKS sebagai fungsi dari .
Untuk berbagi nilai , regresikan rspon z = () terhadap peumab bebas,mgambarkan grafik JKS()
sebagai fungsi dari , kemudian dari grafik baca nilai yang meminimumkan JKS. Ini harus
dikerjakan dengan sedikit main coba coba, mungkin memerlukan sekitar 10 percobaan atau lebih,
misalnya dimulai dengan beberapa nilai seperti = -2,-1,0,1, dan 2.
Selangnya kemudian dipersempit begitu kita mengetahui pada rentangan yang mana letaknya .
Contoh 6.2 Diberkan data berikut :
Nomor x y
1 1.1 79,57
2 2,7 288,14
3 3,3 437,58
4 4,5 749,88
5 5,9 1147,72
6 7,1 1588,68
7 8,4 2231,54
8 8,8 2473,41
9 9,6 2864,86
10 10,4 3241,56
11 10,9 3596,17
12 12,3 4678,13
Rajah data gambar 6.7 menunjukkan bahwa y tidak linear sebagai fungi dari x. Regresi y terhadap
x memberikan rajah peluang normal seperti di gmbar 6.8 dengan korelasi antara sisa dengan
taksirannya.
Transformasi Box dan Cox dicobakan mula-mula untuk = 2, 1, 0, 1, 2. Terlihat dari hasilnya
minimum JKS terletak antara 0 < < 1. Kemudian dicobakan beberapa nilai lagi, yaitu =
0,4; 0,5; 0,6. Ternyata = 0,5 memberikan hasil minimum. Hampir tidak banyak hasil akhirnya
jika yang diambil = 0,55 atau 0,5. Untuk = 0.5 diperoleh 2 = 99,9% (hamper sempurna).
dk diambil 9, berkurang 1 karena ditaksir. Korelasi sisa dengan taksiran harapannya 0,987.
Terlihat bahwa transformasi = () = dapat memperbaiki model.
Tabel 6.5 Beberapa statistik yang dipelukan
Peubah bebas Koefisien Simp. Baku nisbah-t P
Tetapan 154,39 24,35 6,34 0,000
X 367,259 3,095 118,67 0,000
s = 36,77 R2 = 99,9%
6.5.2 Transformasi pada x
Transformasi ini digunakan bila suku galat dianggap telah memenuhi anggapaan kenormalan,
tetapi belum semua peubah bebas 1 , 2 , , terkait secara linear dengan respons . Box dan
Tidwell (1962) mengusulkan transformasi
, 0
= { (6.12)
ln , = 0.
Kemudian gunakan model
= 0 + 1 + (6.13)
ditaksir melalui proses iterasi dan kekonvergenan, dalam banyak hal, dicapai secara cepat. Pada
nilai limit , JKS mencapai minimum sebagai fungsi dari . Iterasi dapat dimulai dari = 1 dan
dilanjutkan sebagai berikut:
Regresikan ( = 1) = 0 + 1 .
Kemudian bentuk peubah bebas baru, namakan misalnya z,
= . ln .
Regresikan terhadap dan :
= 01 + 11 + 1 .
Perhatikan bahwa umumnya 0 01 dan 1 11.
Misalkan selanjutnya
1 = (1 /1 ) + 1.
Pandang peubah baru = 1 dan ulangi proses semua. Deretan nilai 1 , 2 , akan menuju 1
akhirnya dan kemudian ambil
= 1 , 2 , ,
Bila iterasi dilakukan k kali.
Contoh 6.3 Diberikan data berikut (lihat tabel 6.6). Rajah data mentah disajikan digambar 6.10
yang menunjukkan bahwa bukan fungsi linear dari .
Regresi terhadap memberikan 2 = 61,2% dan pemeriksaan sisa menunjukkan adanya pola
yang tidak acak.
Ambil = 1 dan pandang = ln . Regresikan terhadap dan kemudian terhadap dan :
= 7,4788 0,570254 ,
Tabel 6.6 Data untuk contoh 6.3
x y
1 2,3 5,05
2 1,4 7,06
3 10,3 2,40
4 6,7 3,36
5 8,4 3,49
6 9,2 3,63
7 5,3 4,46
8 4,7 3,84
9 7,1 3,34
10 3,8 3,44
11 5,6 3,97
12 6,2 3,15
13 4,9 3,94
14 3,5 3,75
15 2,4 4,74
16 9,4 3,17
17 6,9 2,89
18 7,6 2,99
19 0,8 9,72
20 1,2 6,30
21 0,7 10,55

= 11,90 3,64 + 1,121699.

Usahakan mempertahankan sebanyak mungkin angka dibelakang koma, khususnya untuk


koefisien x pada persamaan pertama dan koefisien z karena merupakan dasar untuk perhitungan
berikutnya. Diperoleh

1,21699
1 = + 1 = 1,13413.
0,570254

Selanjutnya pandang = 1,13413 dan = ln . Regresikanlagi y terhadap dan terhadap


dan , yang menghasilkan

0,313117
2 = + 1 = 0,94039.
5,25005

Ambil = { 1,13413 }0,94039 = ( )0,94039 dan = ln , dsb. Hasil perhitungan disajikan


di tabel 6.7. terlihat bahwa pada iterasi keempat kekonvergenan sudah terlihat dan kita dapat
mengambil = 1,06414. Persamaan regresi yang diperoleh
Scatterplot of y vs x
11

10

7
y

2
0 2 4 6 8 10
x

Gambar 6.10 Rajah data tabel 6.6


= 2,66 + 5,4
Tabel 6.7 menentukan nilai
Nilai c/b + 1 JKSisa
1,00000 -1,13413 36,424
-1,13413 0,940359 3,791
-1,06648 0,997898 3,758
-1,064248 0,999902 3,758
-1,06414
Dengan = 1,06414. Tabel 6.8 (MINITAB) memberikan statistik yang lebih lengkap; dk = 18,
telah berkurang 1 karena penaksiran . Koefisien z(c) pada suatu tahap dapat dipakai untuk melihat
apakah transformasi masih perlu atau tidak. Bila c ~ 0 transformasi tidak lagi diperlukan. Korelasi
sisa dengan taksiran harapannya 0,994.

Tabel 6.8 Beberapa statistika yang diperlukan


Simpangan nisbah-
Prediktor Koefisien p
Baku t
Tetapan 2,6567 0,1383 19,21 0,0000
x 5,4134 0,2675 20,24
s= R-sq = 96,0
0,4569 % R-sq(adj)=95,8%
Korelasi sisa dengan taksiran harapa 0,994

Untuk tujuan praktis sesungguhnya lebih baik mengambil = 1, jadi transformasi menjadi =.
Yang terakhir ini lebih mudah ditafsirkan dan beda hasilnya dengan = 1,06 dapat diabaikan
untuk tujuan praktis.
Metode ini dapat diperluas sehingga mencakup k peubah bebas 1, 2,., . Transformasi menjadi

x j , j 0
x
*

ln x, j 0
j

Untuk j = 1, 2, ...,k. Dalam hal ini akan diperlukan k peubah bebas tambahan 1, 2,., dengan

z 'j z `j . ln x 'j , j=1,2,...,k,

bila dan nilai peubah acak , pada suatu tahap iterasi. Sebagai nilai permulaan dapat
diambil 1 = 2 = . = = 1.
6.5.3 Transformasi Menstabilkan Variansi
jika anggapan kesamaan variansi tidak dipenuhi maka diperlukan suatu transformasi untuk
menstabilkannya. transformasi ini umumnya menyangkut y dan kadang-kadang y dan x bersama-
sama. Pemilihan transformasi tergantung pada bentuk pelanggaran yang dihadapi. Rajah data
mentah y terhadap x, rajah sisa dan terhadap dan terhadap x akan sangat menolong mengenali
bentuknya. Transformasi ini diharapkan tidak saja menstabilkan variansi tapi juga membuat
anggapan kenormalan dipenuhi dengan lebih baik.
Gambar 6.11 memperlihatkan rajah data mentah y terhadap x yang berasal dari proporsi yang
berhasil pada distribusi binom dengan n = 5. Bilangan pada gambar menunjukkan banyaknya titik
data yang terletak di tempat itu. Terlihat pemencaran di tengah lebih lebar dari pada kedua
pinggirnya. Regresi sederhana y terhadap x menghasilkan sisa seperti gambar 6.12 yang
memperlihatkan lebih jelas bahwa kesamaan variansi memang dilanggar. Data seperti ini sering
muncul dari percobaan di laboratorium atau data yang bersifat proporsi. Pada distribusi binom
variansi merupakan fungsi dari rataannya.
Gambar 6.13 berasal dari distribusi Poisson n = 17, 2, memperlihatkan bentuk pemencaran
yang mirip dengan gambar 6.4 (c).
Pada distribusi Poisson rataan sama dengan variansi. Pada kedua contoh ini variansi
berkaitandengan rataan. Mengingat bahwa dalam model regresi (sederhana) E ( y) 0 x, jadi
E(y)berubah linier terhadap x, maka var (y) juga akan ikut berubah mengikuti x, sehingga anggapan
kesamaan variansi dilanggar pada kedua contoh ini.
Banyak contoh dalam praktek yang dapat dikemukakan yang mirip dengan contoh ini.
Kendall dan Stuart (1983), h. 98-102, begitu pula Bartlett (1947), h. 39-52, membahas cara
pemilihan transformasi bila var (y) merupakan fungsi dari E(y). Dalam hal Poisson maka
transformasi y = akan menyelesaikan masalah karena var () tidak tergantung pada

rataannya. Dalam hal binom disarankan menggunakan transformasi arcsin .


Tabel 6.9 Beberapa transformasi untuk menstabilkan variansi
Hubungan var (y) dengan E(y) Transformasi

var (y)= k E(y) (Poisson) y*= atau + + 1


var (y)= k E(y) {1-E(y)} (binom,proporsi
0%<y<100%) y*= arcsin
var (y)= k {E(y)} y*= log y

var (y)= k {E(y)} y*= 1/


var (y)= k {E(y)} y*=1/y

Jika anggapan kesamaan variansi tidak dipenuhi maka variansi dari taksiran koefisien regresi akan
membengkak (Teorema Gauss-Markov tidak lagi berlaku). Umumnya y harus lebih besar dari 0
agar dapat menggunakan transformasi di tabel 6.9. Fungsi log y akan mendekatkan nilai y yang
besar dan meregangkan nilai-nilai y yang kecil. Transformasi 1/ sedikit lebih keras dari log y

dan 1/y lebih keras dari . Transformasi 1/y akan cocok digunakan bila nilai-nilai (positif) dekat
0 (antara 0 dan 1) amat rapat sedangkan nilai y yang besar ada tapi amat jarang.
Contoh 6.4 Diketahui data berikut: Rajah data mentah dan pemencaran di tengah lebih lebar
daripada kedua pinggirnya, y berdistribusi Poisson. Penggunaan transformasi + + 1
menghasilkan persamaan regresi seperti di tabel 6.10 dengan rajah sisa. Korelasi sisa dengan
taksiran harapannya 0,994 dan rajah peluang normal cukup lurus.

Perlu dikemukakan bahwa transformasi diperlukan agar anggapan dalam model yang digunakan
dipenuhi tapi tafsiran hendaknya dikerjakan dalam peubah yang semula karena peubah semula itu
yang dihadapi dalam kenyataannya.

Data untuk Contoh 6.4

No. y x No. y X
1 1,97 1 21 3,30 21
2 2,02 2 22 2,84 22
3 3,04 3 23 3,20 23
4 2,12 4 24 2,54 24
5 2,77 5 25 3,27 25
6 2,21 6 26 3,72 26
7 2,46 7 27 3,61 27
8 2,70 8 28 3,39 28
9 2,54 9 29 3,24 29
10 2,94 10 30 3,27 30
11 2,98 11 31 3,98 31
12 2,84 12 32 4,01 32
13 3,20 13 33 3,91 33
14 2,91 14 34 4,41 34
15 3,11 15 35 3,56 35
16 3,59 16 36 3,86 36
17 3,47 17 37 3,75 37
18 3,78 18 38 3,36 38
19 3,08 19 39 3,53 39
20 3,70 20 40 3,70 40

Sering pula var (y) merupakan fungsi dari peubah bebas x, misalnya
var (y) = 2 , k suatu tetapan.

Dalam hal var (y) = 2 , transformasi = y/x akan membuat var ( ) stabil, karena

1
var (y/x) = 2 var (y) = k.

Dengan jalan yang sama, bila var (y) = , k dan m tetapan, maka transformasi

= y/ /2

akan menstabilkan var ( ).

Contoh 6.5 Diberikan data berikut. Diketahui rajahnya menunjukkan bahwa makin besar x
pemencaran data y makin lebar pula. Data ini mempunyai replikasi yang memudahkan untuk
menghitung besarnya pemencaran sebagai fungsi dari x.
Tabel 6.10 Beberapa statistik untuk data contoh 6.4
Predictor Koefisien Simpangan baku Nisbah-t P
Tetapan 3,39542 0,06666 50,93 0,000
X 0,021616 0,002833 7,63 0,000
s = 0,2069 R-sq = 60,5% R-sq (adj) = 59,5%
2
Terlihat bahwa nisbah var () sedikit berfluktuasi disekitar k = 2. Gunakan transformasi =

Gambar 6.15 Rajah sisa data contoh 6.4


Data untuk contoh 6.5
No y x
1 1.49 1
2 0.25 1
3 3.35 1
4 0.35 1
5 0.98 1.4
6 3.99 1.4
7 1.66 1.4
8 2.12 1.4
9 6.05 1.4
10 2.66 1.8
11 6.91 1.8
12 7.03 1.8
13 1.73 1.8
14 2.84 1.8
15 4.49 2.2
16 1.03 2.2
No y x
17 8.74 2.2
18 4.36 2.2
19 6.79 2.8
20 10.68 2.8
21 1.64 2.8
22 2.77 2.8
23 1.55 2.8
24 5.81 3.2
25 6.28 3.2
26 13.02 3.2
27 2.48 3.2
28 15.15 3.6
29 13.83 3.6
30 11.77 3.6
31 2.48 3.6
32 11.92 3.6

Gambar 6.16 Rajah data contoh 6.5


Data dalam banyak hal x juga perlu ditransformasi menjadi = 1 api dalam hal ini tidak.
Hasilnya diberikan di tabel 6.12 dan rajah sisa di gambar 6.17
Tabel 6.11 Simpangan baku (Sb.), y dan Var (y)x2
Sb.y : 1.44 2.06 2.35 3.16 3.97 4.42 4.98
x : 1 1.4 1.8 2.2 2.8 3.2 3.6
Var (y)/x2 : 2.1 2.2 1.7 2.1 2 1.9 1.9
Tabel 6.11 Simpangan baku (Sb.), y dan Var (y)x2
Simpangan
Prediktor Koefisien Baku Nisbah-t p
Tetapan 1,3634 0,6698 2,04 0,051
X 0,3399 0,2718 1,25 0,221
R-sq
S= 1,360 R-sq = 5,0% (adj)=1,8%
Koefisien regresi ternyata dapat dianggap sama dengan nol ( koefisien ini, sebelum
ditransformasikan, berbeda dengan nol dengan R2=39,7%) raja sisah data tersebar merata.
Korelasi sisa dengan taksiran harapannya 0,970.
Gambar 6.17 Rajah sisa data contoh 6.5

You might also like