Professional Documents
Culture Documents
Atas permintaan beberapa teman, saya akhirnya memutuskan untuk menulis dulu
mengenai topik ini sebelum melanjutkan topik mengenai Analisis Varian. Apa itu asumsi
linearitas? Bagaimana mengetahui apakah asumsi ini terpenuhi atau tidak? Dan mungkin
beberapa pertanyaan lain yang akan saya coba jawab dalam posting ini… omong-omong
kok saya jadi serius gini ya? Hmm…
Nah lalu bagaimana memutuskan apakah asumsi linearitas ini terpenuhi atau
tidak?
Ada beberapa pendapat yang beredar saat ini. Pendapat pertama menyatakan keputusan
diambil dengan melihat baris linearity, karena baris ini dianggap merupakan bagian JK
Antar yang mengikuti trend linear. Jika F untuk baris linearity ini signifikan, kita bisa
bilang bahwa bagian dari JK Antar yang mengikuti garis linear cukup besar, sehingga
dapat disimpulkan trend antara variabel independen dan dependen itu linear. Atau dapat
juga dikatakan bahwa garis linear dapat memberikan penjelasan yang baik mengenai
hubungan antara kedua variabel, dengan kata lain fit.
Ada juga pendapat yang mengatakan keputusan diambil dengan melihat baris deviation
from linearity. Deviation from linearity merupakan bagian dari A yang tidak mengikuti
garis linear. Jika baris ini tidak signifikan, maka dapat dikatakan bahwa hubungan antar
variabel dependen dan independen linear. Pemikirannya kurang lebih begini, sangat
mungkin hubungan antar variabel itu fit dengan garis linear, tapi tidak seluruh variasi dari
hubungan antar variabel ini dapat dijelaskan dengan garis linear ini. Ada sebagian lain
yang mengikuti pola hubungan yang tidak linear. Dalam hal ini, jika deviation from
linearity signifikan, ini menunjukkan bahwa sebagian lain variasi hubungan antar
variabel ini tidak mengikuti garis linear. Jadi disamping model linear kita perlu juga
melihat model non-linear. Nah, jika deviation from linearity ini tidak signifikan, ini
berarti variasi hubungan antar variabel hampir sepenuhnya mengikuti pola hubungan
linear.
Masalah
Saya pribadi kurang merasa ‘sreg’ dengan pendekatan ini, apalagi jika digunakan sebagai
satu-satunya sumber informasi untuk mengecek asumsi linearitas data.
Keberatan saya yang pertama, sebenarnya analisis ini merupakan analisis trend, jadi
bukan analisis yang memang dirancang untuk melihat linearitas hubungan antara dua
variabel dengan data kontinum. Apa bedanya? Analisis trend sebenarnya menganalisis
mean dari beberapa kelompok dari sampel penelitian. Kelompok-kelompok ini dibentuk
menurut kuantitas dari variabel independent. Misalnya variabel independennya obat A,
maka kelompok pertama misalnya diberi obat A sebanyak 10 gram, kelompok berikutnya
20 gram, dan seterusnya. Yang ingin dilihat apakah pemberian obat dengan kuantitas
tertentu ini akan memiliki efek yang linier terhadap variabel dependen, misalnya
kecepatan sembuh. Terkait dengan ini akan ada dua masalah yaitu:
a. Jika tiap nilai variabel independen hanya memiliki satu nilai unik untuk variabel
dependennya (misalnya setiap subjek yang memiliki skor IQ 100 memiliki nilai raport
10), analisis trend di SPSS ini tidak akan dapat dijalankan, karena SPSS tidak dapat
menghitung varians errornya.
b. Jika range dari variabel independent sangat besar, misalnya 100 point, maka derajat
kebebasan (df) untuk baris deviation from linearity akan cenderung besar. Ini
mengakibatkan Rerata Kuadratnya (MS deviation from linearity) akan cenderung kecil,
sehingga nilai F nya akan cenderung kecil juga. Hal ini mengakibatkan makin besar
kemungkinan untuk mendapatkan F yang tidak signifikan terlepas dari apakah kondisi
datanya linear atau tidak.
Kedua, terkait dengan ketergantungan teknik ini terhadap jumlah subjek. Semakin besar
subjek, makin kecil Rerata Kuadrat untuk error (MS error), yang mengakibatkan makin
besar kemungkinan untuk menolak hipotesis nol. Dalam baris linearity ini berarti makin
besar kecenderungan untuk mengatakan hubungan antar variabel itu linear padahal tidak
demikian. Dalam baris deviation from linearity ini berarti makin besar kecenderungan
untuk mengatakan hubungan antar variabel dapat dijelaskan dengan model non linear.
Scatter plot termasuk grafik yang menurut saya cukup berguna untuk mengecek linearitas
hubungan antar variabel. Beberapa manfaat yang dapat diperoleh antara lain, dapat
melihat secara langsung bentuk hubungan antar variabel. Seandainya hubungan antar
variabel tidak linear, dengan scatter plot kita dapat memperkirakan seperti apa bentuk
hubungannya; kuadratik, kubik, logaritmik, atau yang lain. Manfaat lainnya adalah dapat
mengecek outlier dalam data kita, keberadaannya dan pada variabel mana data tersebut
menjadi outlier.
Dalam dialog box tersebut kita bisa memasukkan variabel independen dalam kotak pada
garis horizontal dan variabel dependen dalam kotak pada garis vertikal. Kemudian klik
OK, yang akan memunculkan grafik seperti berikut:
Nah dari grafik ini bisa
dilihat bahwa hubungan kedua variabel dapat dikatakan linear. Jika kita menarik garis
lurus seperti di atas, kita dapat melihat titik-titik tersebut memiliki jarak yang relatif dekat
dengan garis. Dalam grafik ini juga dapat dilihat beberapa outlier sekaligus kemungkinan
heterogenitas varians.
Masalah utama terkait dengan grafik adalah subjektivitas penilaian seperti apa grafik
yang dapat dikatakan linear dan seperti apa yang dikatakan non linear. Dalam gambar di
atas, kita dapat melihat dengan cukup jelas bahwa hubungan keduanya linear, tetapi
dalam grafik lain sangat mungkin ada perbedaan pendapat mengenai linearitas hubungan
antara dua variabel. Oleh karena itu meminta penilaian orang lain mengenai bentuk
hubungan dalam hal ini cukup penting.
Saat ini saya sedang menggali kemungkinan-kemungkinan lain untuk menguji linearitas
hubungan ini. Saya belum menemukan sampai saya menyelesaikan tulisan ini. Jika suatu
hari nanti saya memperolehnya tentu saja akan saya upload artikel baru di blog ini.
Salam!
satu lagi pertanyaan, Pak... mengapa di buku Hair dkk. itu untuk
residunya menggunakan studentdized residual ya bukan
unstandardized residual?...
Jawab:
Ya ada beberapa macam residual yang dapat diperoleh ketika kita melakukan analisis
regresi. Yang pernah saya tuliskan di posting mengenai normalitas dalam regresi adalah
unstandardized residual.
Selain studentized, masih ada standardized residual, deleted standardized residual, dan
deleted studentized.
Standardized residual.
Standardized residual, seperti namanya, adalah residual yang distandardkan. Maksudnya
seperti mencari nilai Z dari residual. Keuntungan menggunakan standardized residual ini
adalah tidak terpengaruh terhadap unit ukur, karena semua distandardkan. Jadi
pengukuran menggunakan dua skala yang berbeda unit ukurnya (misalnya yang satu skor
maksimalnya 10 yang lain skor maksimalnya 100) akan muncul dalam unit yang sama
yaitu SD.
Studentized Residual
Kelemahan dari Standardized Residual adalah asumsi bahwa varians untuk semua residu
adalah sama. Kenyataannya, semakin jauh sebuah skor dari prediksinya, ia cenderung
memiliki variasi yang makin besar. Oleh karena itu diperbaiki dengan menerapkan rumus
tertentu (sering disebut leverage atau h) untuk memperbaiki situasi ini. Dengan
menggunakan rumus ini, makin jauh residu dari meannya (yang menggambarkan makin
jauh individu menyimpang dari prediksinya), makin besar varians residunya. Nah ketika
digambarkan dalam grafik, maka studentized residual ini akan mengikuti distribusi t (ini
makanya dikasih nama studentized, dari student t distribution).
Dari beberapa ukuran itu, menurut saya, Deleted Studentized Residual merupakan ukuran
yang paling sensitif terhadap observasi bermasalah. Jadi jika menghendaki analisis yang
peka, memang sebaiknya menggunakan Deleted Studentized. Nah seberapa peka itu
terserah pemakainya.
Kelemahan semua ukuran residu ini adalah kita tidak memiliki ukuran pembanding
'kekuatan' observasi bermasalah ini dalam mempengaruhi hasil analisis regresi. Oleh
karena itu seringkali peneliti melihat ukuran lain seperti Leverage atau Cook's D, atau
bahkan DFBeta dalam melakukan diagnostik. Ukuran residu ini digunakan sebagai
'screening' awal untuk melihat observasi bermasalah yang berpotensi mempengaruhi hasil
penelitian, dengan cara memplotkan ukuran residu ini dalam scatter plot, kemudian
dilihat mana observasi yang menyimpang sangat jauh dari rekan-rekannya. Kemudian
dilakukan diagnostik mendalam menggunakan Leverage atau Cook's D.
terkait dengan uji normalitas menurut saya (lagi-lagi pendapat tidak didasarkan pada
kajian atau analisis mendalam dari penelitian. Jadi lagi-lagi ini bisa diangkat jadi
penelitian untuk mengkaji adakah perbedaan hasil analisis normalitas untuk keempat
ukuran tersebut. Ada yang berminat? Mahasiswa lagi skripsi? Dosen yang lagi getol
penelitian?), keempat ukuran itu tidak akan memberikan hasil yang jauh berbeda terkait
dengan uji normalitas. Tentu saja jika mencari yang terbaik kita bisa menggunakan
Deleted Studentized Residual.
OK demikian jawaban saya Bu Susan. Semoga bisa memberi tambahan ide seputar uji
normalitas ini.
Demikan tiga pertanyaan mengenai asumsi normalitas (pertanyaan ini diberikan dalam
posting mengenai Uji Asumsi dalam Regresi):
1. Pak Agung yang baik saya masih bingung mengenai pernyataan ini: central limit
theorem disebutkan juga bahwa bagaimanapun bentuk distribusi data di populasinya,
semakin besar sampel semakin normal distribusi mean sampelnya (Keppel & Wickens,
2004; Howell, 1984). Dan distribusi terlihat ‘cukup’ normal ketika sampel berisi sekitar
30 orang. Mungkin ini juga alasan mengapa kita sering mendengar ‘minimal sampel’
sebesar 30 orang. Pembahasan mengenai besar sampel akan dilakukan tersendiri.
Sebab ketika saya membaca Bukunya Leech, Barrret, & Morgan (2005) yang berjudul
SPSS for intermediate statistics pada hal 28 disebutkan begini:
SPSS recommends that you divide the skewness by its standard error. If the result is less
than 2.5 (which is approximately the p = .01 level), then the skewness is not significantly
different from normal. A problem from this method, aside from having to use a
calculator, is that the standard error depends on the sample size, so with large samples
most variable would be found to be nonnormal.
apa yang dimaksud dengan so with large samples most variable would be found to be
nonnormal? bgaimana kaitan pernyataan ini dengan central limit theorem?
2. Yang kedua, pada regresi, jika yang dihitung adalah normalitas residu, bagaimana jika
asumsi normalitas tidak terpenuhi? bagaimana cara transformasinya, apakah caranya
sama dengan transformasi biasa?
3. Terus yang ketiga bagaimana dengan pernyataan bahwa regresi bivariat digunakan
untuk memprediksi skor satu variable tergantung yang normal atau berupa skala dari satu
variabel bebas yang normal atau skala (Leech, Barret, & Morgan, 2005, hal 198). Apakah
dari pernyataan tersebut dapat diinterpretasikan bahwa kita perlu menguji normalitas
kedua variabel (bebas dan tergantung)? lalu apakah masih perlu diuji normalitas
residunya?
Tjipto Susana
Saya akan berusaha menjawab pertanyaan ini sebaik mungkin. Semoga bisa menjawab
dengan baik.
Pertanyaan Pertama. Jawaban ini dilakukan sebelum saya membaca buku yang diacu
Bu Susan, semoga tidak meleset jawaban saya. Menurut saya yang dimaksud normalitas
dalam central limit theorem itu berbeda dengan yang dimaksud di SPSS dalam skewness
dibagi standard error skewness. Yang saya bahas dalam central limit theorem itu adalah
normalitas dari distribusi mean sampel dalam populasi, sementara yang dimaksud
dalam skewness adalah distribusi skor subjek dalam populasi.
Dalam central limit theorem disebutkan bahwa semakin besar n (besar sampel) maka
distribusi mean sampel akan makin mendekati normal tanpa mempedulikan distribusi
skor subjeknya. Jadi meskipun, anggap saja distribusi skor subjek di populasi itu nggak
normal, tapi jika kita mengambil jumlah subjek yang mencukupi, maka dapat
diasumsikan bahwa bentuk distribusi dari mean sampelnya normal.
Nah, yang diungkapkan Leech, Barrret, & Morgan (2005), itu merupakan 'kelemahan'
dari uji signifikasi pada umumnya. Makin besar sampel, maka makin kecil standard error
(mungkin bisa dibaca juga di posting mengenai signifikan tak selalu berarti besar), ini
mengakibatkan makin besar kemungkinan kita memperoleh statistik yang besar (hasil
bagi antara skewness dan standard error dari skewness), yang kemudian mengakibatkan
makin besar kemungkinan kita menolak hipotesis nol dan menyatakan distribusi data di
populasi tidak normal. Dalam hal ini kita cenderung melakukan tipe error I. Nah, di sini
terjadi tarik ulur antara memilih menganggap distribusi data di populasi normal padahal
tidak (tipe error II), atau memilih menganggap distribusi data di populasi tidak normal
padahal normal (tipe errorI).
Saya pribadi akan memilih melakukan tipe error II lebih besar, dengan alasan central
limit theorem tadi dan juga robustness dari statistik t dan F. Selain itu juga sangat
disarankan untuk melihat bentuk data di sampelnya dengan menggunakan grafik seperti
q-q plot atau stem and leaf plot sebelum mengambil keputusan mengenai uji normalitas
ini (bisa juga dibaca di posting saya mengenai uji asumsi dalam SPSS). Ini kebiasaan
baik yang tidak kita miliki saat ini. Mungkin bisa dimulai sejak posting ini diupload?
(semoga... nyanyi lagu Katon deh).
Pertanyaan Kedua. Mengenai normalitas residu, jika tidak normal maka transformasi
tetap dilakukan seperti biasa pada skor independen variabel. Hanya saja perlu berhati-hati
karena mencari transformasi yang tepat untuk mengatasi ketidaknormalan data sepertinya
cukup sulit . Saya sendiri belum banyak belajar mengenai transformasi ini, hanya pernah
mendengar komentar seseorang seperti ini,"It can be forever". Saran saya, pertama perlu
dilihat apakah ketidaknormalannya dapat dinilai parah. Jika iya, maka perlu dilakukan
diagnostik dulu untuk mencari skor subjek atau observasi yang jadi biang keladinya. Jika
semua baik-baik saja, baru kita cari transformasi yang pas.
Pertanyaaan Ketiga.Nah untuk pertanyaan satu ini saya agak ragu menjawabnya, karena
kurang yakin dengan pemahaman saya sendiri mengenai Regresi bivariat. Setahu saya
regresi biasanya selalu univariat. Nah regresi dengan model bivariat itu mungkin adalah
model korelasi product moment. Dalam hal ini, tidak ada prediktor dan kriterion.
Biasanya keduanya disebut sebagai response variable. Dalam model ini, kedua variabel
berupa random variable, atau variabel yang datanya tidak ditentukan terlebih dulu oleh
peneliti, melainkan berasal dari data di lapangan. Oke itu pemahaman saya mengenai
Regresi bivariat.
Nah, terkait apakah kedua variabel ini harus memiliki sebaran data yang normal begini:
Normalitas residu terkait sangat erat dengan pengujian hipotesis dalam Regresi. Misalnya
kita ingin menguji apakah F yang dihasilkan itu signifikan. Jika Regresi dilakukan hanya
untuk melihat koefisien korelasinya (atau koefisien regresinya), maka uji normalitas
residu tidak perlu dilakukan.
Lalu misalnya kita hendak melakukan uji hipotesis terkait dengan F-nya? maka menurut
saya yang diuji normalitas tetap residunya. Hanya saja kita melakukan uji normalitas
residu dua kali.Anggaplah kita memiliki dua variabel X dan Y. Uji normalitas residu
pertama dilakukan ketika X menjadi 'prediktor' dan Y menjadi 'kriterion' (ingat bahwa
sebenarnya dalam model ini tidak ada yang namanya prediktor atau kriterion). Uji yang
normalitas residu kedua dilakukan ketika Y yang menjadi 'prediktor' dan X yang menjadi
'kriterion'.
Demikian jawaban saya terhadap tiga pertanyaan ini. Semoga cukup jelas dan menjawab
dengan memuaskan.
Jika belum, please feel free to deliver more questions.
Praktek yang selama ini terjadi (setahu saya), ketika peneliti menguji normalitas sebaran
dalam regresi, yang diuji adalah variabel dependennya. Hal ini kurang tepat, karena
dalam pengujian hipotesis nol dari regresi (uji signifikasi) yang dibutuhkan adalah
normalitas sebaran residunya bukan normalitas sebaran variabel dependennya
(Pedhazur,1997).
Teknik regresi akan menghasilkan persamaan regresi. Persamaan regresi dalam sampel
akan berwujud : Y'= a + bX (beberapa buku menuliskan dengan notasi yang berbeda).
Nah Y' (prediksi dari Y) ini tidak selalu sama besarnya dengan Y yang dihasilkan dari
data penelitian. Ini diakibatkan Y' hanyalah prediksi nilai Y yang didasarkan pada X, dan
setiap prediksi akan mengandung error dalam jumlah tertentu. Semakin besar error yang
dihasilkan berarti semakin buruk prediksi yang dilakukan, dan sebaliknya.
Dari penjelasan di atas dapat ditemukan cara mencari error ini untuk tiap subjek; yaitu:
e=Y'-Y
Nah nilai e inilah yang diasumsikan mengikuti distribusi normal bukan nilai Y nya.
(penjelasan menyeluruh mengenai regresi akan dibahas dalam posting tersendiri).
Ada beberapa tahap yang perlu dilakukan untuk melakukan Uji Normalitas Residu dalam
SPSS
1. Menghitung nilai residu untuk tiap subjek. Menghitung? tenang saja, yang saya
maksud bukan kita menghitung satu-satu residu dari tiap subjek, tapi memerintahkan
SPSS untuk menghitung nilai residu dari tiap subjek. Begini caranya :
Pertama kita pilih Analyze - Regression - Linear
sehingga akan muncul dialog box
seperti berikut :
Setelah variabel diletakkan pada tempatnya, kita mengklik tombol Save untuk
memerintahkan SPSS menghitung nilai residu.
Dalam kotak ini kita perlu mengklik
Unstandardized dalam kotak Residuals untuk memerintahkan SPSS menghitung residu.
Kemudian klik Continue dan OK. Maka SPSS akan menampilkan hasil analisis regresi.
Lalu di mana nilai residu untuk tiap subjek?
Nilai residu ini ditempatkan dalam tampilan data view dalam satu kolom tersendiri
seolah-olah manjadi variabel baru dengan nama Res_1.
OK demikian kiranya melakukan uji normalitas pada residu. Saya masih menanti
pertanyaan dari anda semua.
Further Readings
• Pedhazur,E.J.(1997) Multiple regression in behavioral research.
Wadsworth:Thomson Learning
Dua post saya terdahulu tentang Uji Asumsi 1 berbicara hal-hal teoritis mengenai uji
normalitas. Sekarang bagaimana prakteknya? Maksud saya dengan praktek tentu saja
bagaimana cara menghitungnya.
Dalam kesempatan ini saya akan banyak berbicara mengenai bagaimana cara melakukan
uji normalitas menggunakan SPSS. Saya memilih SPSS dengan alasan program ini paling
banyak dipakai oleh mahasiswa psikologi sehingga bisa dikatakan paling familiar. Selain
itu SPSS termasuk program yang cukup user friendly sehingga cukup mudah digunakan
meskipun oleh orang yang tidak mempelajari statistik sangat dalam.
Langkah Awal
Saya berasumsi paling tidak pembaca artikel ini adalah orang yang sudah pernah
berurusan dengan SPSS. Paling tidak tahu bagaimana memulai SPSS dan membuka file.
Jadi saya akan langsung berkisah mengenai cara melakukan analisis datanya.
Cara Pertama
Ada satu kebiasaan yang saya amati ketika teman-teman hendak melakukan uji
normalitas dengan SPSS. Biasanya mereka memilih menu :
Cara Kedua
Cara yang pertama biasanya menghasilkan hasil analisis yang kurang akurat dalam
menguji apakah sebuah distribusi mengikuti kurve normal atau tidak. Ini disebabkan uji
Kolmogorov Smirnov Z dirancang tidak secara khusus untuk menguji distribusi normal,
tetapi distribusi apapun dari satu set data. Selain normalitas, analisis ini juga digunakan
untuk menguji apakah suatu data mengikuti distribusi poisson, dsb.
Cara kedua merupakan koreksi atau modifikasi dari cara pertama yang dikhususkan
untuk menguji normalitas sebaran data.
Jadi bagaimana membacanya? Kurang lebih sama seperti cara pertama. Untuk
memastikan apakah data yang kita miliki mengikuti distribusi normal, kita dapat melihat
kolom Sig. untuk kedua uji (tergantung jumlah subjek yang kita miliki). Jika sig. atau p
lebih dari 0.1 maka kita simpulkan hipotesis nol gagal ditolak, yang berarti data yang
diuji memiliki distribusi yang tidak berbeda dari data yang normal. Atau dengan kata lain
data yang diuji memiliki distribusi normal.
Cara Ketiga
Jika diperhatikan, hasil analisis yang kita lakukan tadi juga menghasilkan beberapa
grafik. Nah cara ketiga ini terkait dengan cara membaca grafik ini.
Ada empat grafik yang dihasilkan dari analisis tadi yang penting juga untuk dilihat
sebelum melakukan analisis yang sebenarnya, yaitu:
• Stem and Leaf Plot. Grafik ini akan terlihat seperti ini:
• Normal Q-Q Plots. Grafik Q-Q plots akan terlihat seperti ini:
Garis diagonal dalam grafik ini menggambarkan keadaan ideal dari data yang mengikuti
distribusi normal. Titik-titik di sekitar garis adalah keadaan data yang kita uji. Jika
kebanyakan titik-titik berada sangat dekat dengan garis atau bahkan menempel pada
garis, maka dapat kita simpulkan jika data kita mengikuti distribusi normal.
Dalam grafik ini kita lihat juga satu titik yang berada sangat jauh dari garis. Ini adalah
titik yang sama yang kita lihat dalam stem and leaf plots. Keberadaan titik ini menjadi
peringatan bagi kita untuk berhati-hati melakukan analisis berikutnya.
• Detrended Normal Q-Q Plots. Grafik ini terlihat seperti di bawah ini:
Titik 'nyeleneh' ini sering juga disebut Outlier. Titik yang berada nun jauh dari keadaan
subjek lainnya. Ada beberapa hal yang dapat menyebabkan munculnya outlier ini:
Jika outlier disebabkan oleh penyebab no 1 dan 2, maka outlier dapat dihapuskan dari
data. Tetapi jika penyebabnya adalah no 3, maka outlier tidak dapat dihapuskan begitu
saja. Kita perlu melihat dan mengkajinya lebih dalam subjek ini.
Lalu bagaimana tahu subjek yang mana yang menjadi outlier? Kita bisa melihat pada
grafik berikutnya yang dihasilkan dari analisis yang sama, grafik boxplot seperti berikut
ini:
Sebelum terjadi kesalahpahaman saya mau meluruskan dulu bahwa tulisan C10,Q1,
Median, Q3 dan C90 itu hasil rekaan saya sendiri. SPSS tidak memberikan catatan seperti
itu dalam hasil analisisnya. Grafik ini memberi gambaran mengenai situasi data kita
dengan menyajikan 5 angka penting dalam data kita yaitu: C10 (percentile ke 10), Q1
(kuartil pertama atau percentil ke 25), Median (yang merupakan kuartil kedua atau
percentile 50), Q3 (atau kuartil ketiga atau percentile 75) dan C90 (percentile ke 90).
Selain itu dalam data ini kita juga dapat melihat subjek yang menjadi outlier, dan SPSS
memberitahu nomor kasus dari subjek kita ini; yaitu no 3. Jadi jika kita telusuri data kita
dalam file SPSS, kita akan menemukan subjek no 3 ini yang menjadi outlier dalam data
kita.
Catatan akhir: Sangat penting bagi kita untuk tidak sepenuhnya bergantung pada hasil
analisis statistik dalam bentuk angka. Kita juga perlu untuk 'melihat' (dalam arti yang
sebenarnya) data kita dalam bentuk grafik bahkan keadaan data kita dalam worksheet
SPSS untuk memeriksa kejanggalan-kejanggalan yang mungkin terjadi.
Saya sempat ingin merevisi secara langsung post saya mengenai Uji Asumsi 1 karena ada
beberapa pemikiran tradisional di sana yang menurut saya kurang pas sekarang, seperti
pemilihan nilai signifikasi. Tapi kemudian saya putuskan untuk menulis satu post sendiri
agar pembaca bisa membandingkannya dengan post saya terdahulu, sehingga tahu mana
yang saya anggap kurang pas. Saya dengan sengaja juga mengubah tanggal post
terdahulu supaya bisa berdekatan dengan post yang ini, dengan harapan bisa mengurangi
diskontinuitas pembahasan.
Mari saya beri ilustrasi mengenai Tipe Error II. Ilustrasi ini sering saya pakai di kelas :
Pada suatu hari tertangkaplah seorang maling. Setelah diinterogasi, si maling mengaku
kalau dia adalah mahasiswa Universitas ANU. Dia tidak membawa kartu pengenal
apapun. Kemudian dia ditanya nomor mahasiswanya untuk dicocokkan dengan nomor
mahasiswa di universitas ANU. Kemudian dia menyebutkan dengan benar sebuah nomor
mahasiswa. Pertanyaan yang muncul: benarkah orang ini salah satu mahasiswa
universitas tersebut? Asumsi di balik perilaku menanyakan nomor mahasiswa mungkin
kurang lebih seperti ini: kecil kemungkinan orang yang bukan mahasiswa sebuah
universitas mengetahui secara tepat nomor mahasiswanya, apalagi pas dengan nama
mahasiswanya. Jadi kita gagal menolak bahwa orang ini bukan mahasiswa universitas
ANU.Tapi sebenarnya orang ini mengetahui nama dan nomor mahasiswa dari KTM yang
dia temukan dalam dompet yang dia copet. Jadi seharusnya kita menolak hipotesis nol
yang menyatakan orang ini adalah mahasiswa ANU, tapi kita gagal menolaknya.
Demikian juga dengan Tipe error II. Tipe error II terjadi ketika seharusnya kita menolak
hipotesis nol tapi gagal menolaknya.
Hubungan antara Tipe error I dan Tipe error II. Tipe error I dan II saling bertolak
belakang. Maksudnya jika kita memperkecil Tipe error I maka secara otomatis tipe error
II akan menjadi lebih besar. Sayangnya sampai sekarang kita belum dapat menentukan
dengan pasti (dengan cara yang mudah) besarnya tipe error II yang dibuat dalam suatu
penelitian. Jadi sampai sekarang aturan ini yang dipegang. Semakin kecil kita
menentukan Tipe error I, maka makin besar kemungkinan kita melakukan tipe error II.
Terus pilih mana Tipe error I atau II? Karena kita nggak mungkin terlepas dari kedua
error ini (memperkecil yang satu memperbesar yang lain), maka kita harus memilih error
yang kita ijinkan menjadi lebih besar. Misalnya begini : kita ingin menentukan apakah
seseorang memiliki kecenderungan bunuh diri atau tidak. Kita memiliki data mengenai
perilaku-perilaku yang menunjukkan kemungkinan orang yang akan melakukan bunuh
diri. Ketika kita melihat seseorang melakukan perilaku-perilaku ini, kita harus memilih
untuk menganggap orang ini termasuk orang yang akan bunuh diri tapi sebenarnya tidak
(gagal menolak hipotesis nol yang seharusnya ditolak, tipe error II), atau menganggap
orang ini baik-baik saja tapi sebenarnya akan bunuh diri (menolak hipotesis nol yang
benar, tipe error I). Jadi pemilihan tipe error I atau II sangat terkait dengan resiko apa
yang akan kita tanggung dengan melakukan kesalahan ini.
Mana yang lebih baik menyatakan suatu terapi itu dapat membuat perbedaan antara yang
menerima dan yang tidak padahal tidak ada efeknya (menolak hipotesis nol yang
benar,tipe error I) atau menganggap terapi ini tidak efektif padahal sebenarnya dapat
membuat perbedaan (gagal menolak hipotesis nol yang salah)?
Rasanya memang sedikit aneh karena kita terbiasa menguji dengan taraf 0,05 untuk
segala macam bentuk hipotesis. Tapi demikian pendapat saya dan alasan saya
menggunakan taraf 0,1 untuk menguji hipotesis nol terkait dengan asumsi normalitas.
Fiuhh.... baiklah untuk menghilangkan kepenatan teman-teman bisa melihat klip yang
kereeen abeees berikut ini:
Il divo dan Celine Dion
Setelah cukup lama bingung pilih-pilih tema yang mau diangkat perdana, saya akhirnya
mencoba memilih satu tema ini : Uji Asumsi Statistik Parametrik. Uji Asumsi yang
pertama akan saya bahas adalah Uji Normalitas.
Apa itu ?
Kita mulai dulu dari apa itu uji normalitas. Uji normalitas adalah uji yang dilakukan
untuk mengecek apakah data penelitian kita berasal dari populasi yang sebarannya
normal. Uji ini perlu dilakukan karena semua perhitungan statistik parametrik memiliki
asumsi normalitas sebaran. Formula/rumus yang digunakan untuk melakukan suatu uji (t-
test misalnya) dibuat dengan mengasumsikan bahwa data yang akan dianalisis berasal
dari populasi yang sebarannya normal. Ya bisa ditebak bahwa data yang normal memiliki
kekhasan seperti mean, median dan modusnya memiliki nilai yang sama. Selain itu juga
data normal memiliki bentuk kurva yang sama, bell curve. Nah dengan mengasumsikan
bahwa data dalam bentuk normal ini, analisis statistik baru bisa dilakukan.
Bagaimana Caranya?
Ada beberapa cara melakukan uji asumsi normalitas ini yaitu menggunakan analisis Chi
Square dan Kolmogorov-Smirnov. Bagaimana analisisnya untuk sementara kita serahkan
pada program analisis statistik seperti SPSS dulu ya. Tapi pada dasarnya kedua analisis
ini dapat diibaratkan seperti ini :
1. pertama komputer memeriksa data kita, kemudian membuat sebuah data virtual yang
sudah dibuat normal.
2. kemudian komputer seolah-olah melakukan uji beda antara data yang kita miliki
dengan data virtual yang dibuat normal tadi.
o jika p lebih kecil daripada 0,05 maka dapat disimpulkan bahwa data yang
kita miliki berbeda secara signifikan dengan data virtual yang normal
tadi. Ini berarti data yang kita miliki sebaran datanya tidak normal.
o jika p lebih besar daripada 0,05 maka dapat disimpulkan bahwa data yang
kita miliki tidak berbeda secara signifikan dengan data virtual yang
normal. Ini berarti data yang kita miliki sebaran datanya normal juga.
Ukuran inilah yang digunakan untuk menentukan apakah data kita berasal dari populasi
yang normal atau tidak.
1. Kita perlu ngecek apakah ketidaknormalannya parah nggak. Memang sih nggak ada
patokan pasti tentang keparahan ini. Tapi kita bisa mengira-ira jika misalnya nilai p yang
didapatkan sebesar 0,049 maka ketidaknormalannya tidak terlalu parah (nilai tersebut
hanya sedikit di bawah 0,05). Jika ketidaknormalannya tidak terlalu parah lalu
kenapa? Ada beberapa analisis statistik yang agak kebal dengan kondisi
ketidaknormalan ini (disebut memiliki sifat robust), misalnya F-test dan t-test. Jadi kita
bisa tetap menggunakan analisis ini jika ketidaknormalannya tidak parah.
2. Kita bisa membuang nilai-nilai yang ekstrem, baik atas atau bawah. Nilai ekstrem ini
disebut outliers. Pertama kita perlu membuat grafik, dengan sumbu x sebagai frekuensi
dan y sebagai semua nilai yang ada dalam data kita (ini tentunya bisa dikerjakan oleh
komputer). Nah dari sini kita akan bisa melihat nilai mana yang sangat jauh dari
kelompoknya (tampak sebagai sebuah titik yang nun jauh di sana dan nampak
terasing...sendiri...). Nilai inilah yang kemudian perlu dibuang dari data kita, dengan
asumsi nilai ini muncul akibat situasi yang tidak biasanya. Misal responden yang mengisi
skala kita dengan sembarang yang membuat nilainya jadi sangat tinggi atau sangat
rendah.
3. Tindakan ketiga yang bisa kita lakukan adalah dengan mentransform data kita. Ada
banyak cara untuk mentransform data kita, misalnya dengan mencari akar kuadrat dari
data kita, dll.
4. Bagaimana jika semua usaha di atas tidak membuahkan hasil dan hanya membuahkan
penyesalan (wah..wah.. nggak segitunya kali ya?) . Maka langkah terakhir yang bisa kita
lakukan adalah dengan menggunakan analisis non-parametrik. Analisis ini disebut juga
sebagai analisis yang distribution free. Sayangnya analisis ini seringkali mengubah data
kita menjadi data yang lebih rendah tingkatannya. Misal kalo sebelumnya data kita
termasuk data interval dengan analisis ini akan diubah menjadi data ordinal.
Well, demikian kiranya paparan atau sharing tentang normalitas. Semoga dalam waktu
dekat saya bisa tahu gimana caranya meng-upload gambar ke dalam blog ini dalam posisi
yang manis jadi penjelasan saya bisa jadi lebih visualized gitu deh. Semoga juga saya
juga bisa segera mengubah tampilan SPSS menjadi JPG, jadi kita bisa belajar baca hasil
analisis di blog ini, OK? Semoga..... (kayak lagunya katon nih)