You are on page 1of 14

Kuliah Oleh Ir. Rahayu Astuti, M.

Kes

UJI KORELASI PEARSON DAN REGRESI LINIER


PENDAHULUAN Dalam suatu penelitian kadang kita ingin mengetahui hubungan antara dua variabel yang numerik atau continuous misalnya ingin mengetahui apakah ada hubungan antara berat badan dengan tekanan darah sistole, apakah ada hubungan antara umur dengan kadar Hb, apakah ada hubungan antara umur pasien dengan lama hari rawat, apakah ada hubungan antara indeks masa tubuh (IMT) dengan kadar kholesterol dan sebagainya. Metode statistik yang paling umum digunakan untuk menggambarkan hubungan antara dua variabel yang numerik atau kuantitative ( X dan Y ) adalah korelasi linier dan regresi linier. Misalnya hubungan antara berat badan sekelompok ibu hamil dengan berat badan lahir bayinya. Untuk menilai seberapa kuat/ erat hubungan antara berat badan ibu dengan berat lahir bayi, maka digunakan koefisien korelasi untuk mengukur kekuatan hubungan antara dua variable tersebut. Namun jika ingin memprediksi berat lahir bayi jika berat badan ibu hamil diketahui maka digunakan analisis regresi linier.

KORELASI PEARSON
Korelasi Pearson digunakan untuk menguji hubungan dua variabel kuantitatif (interval, rasio) dan berdistribusi normal. Sedangkan korelasi Spearman atau Kendall tau-b mengukur hubungan antara dua variabel kualitatif atau kuantitatif yang tidak berdistribusi normal. Korelasi Pearson disamping dapat untuk mengetahui kekuatan/ keeratan hubungan, juga dapat untuk mengetahui arah hubungan dua variabel numerik. Misalnya apakah hubungan antara berat badan ibu dengan berat lahir bayi mempunyai hubungan yang kuat atau lemah, juga apakah hubungan tersebut berpola positif atau negatif. Secara sederhana atau secara visual hubungan dua variabel dapat dilihat dari diagram tebar/ pencar (scatter plot). Diagram tebar adalah grafik yang menunjukkan titik-titik perpotongan nilai data dari dua variabel ( X dan Y ). Pada umumnya dalam

RA

grafik, variabel independen (X) diletakkan pada garis horizontal sedangkan variabel dependen (Y) pada garis vertikal. Dari diagram tebar dapat diperoleh informasi tentang pola hubungan antara dua variabel X dan Y. Selain memberi informasi pola hubungan dari kedua variabel, diagram tebar juga dapat menggambarkan keeratan hubungan dari kedua variabel tersebut. . . . . . .. . . . . .. . . . . ... ________________ linier positif . . .... . .. . . .... . . .. . .. .. .. . . __________________ linier negatif . .. . ...... . . . . .. . .. . . . . .. . . . .. . . ... . . ... __________________ tidak ada hubungan inier

Derajat hubungan (kuat lemahnya hubungan) dapat dilihat dari tebaran datanya, semakin rapat tebaran datanya semakin kuat hubungannya dan sebaliknya semakin melebar tebarannya menunjukkan hubungannya semakin lemah. Untuk mengetahui lebih tepat kekuatan hubungan digunakan Koefisien Korelasi Pearson. Koefisien Korelasi disimbulkan dengan r (huruf r kecil) Koefisien Korelasi Pearsons Disimbulkan dengan r , dapat diperoleh dari formula berikut : ( XY ) [( X ) ( Y ) / n ] r = [( X2 ) ( X )2 /n ] [( Y2 ) ( Y )2 / n ] atau n ( XY ) ( X Y ) r = [ n X2 (X)2 ] [ n Y2 (Y)2 ]

Dari nilai r kita dapat menentukan : a. Kekuatan hubungan ( nilai 0 s/d 1 ) b. Arah hubungan ( + atau - )

RA

Kisaran nilai r antara 0 s/d 1 : 0 : tidak ada hubungan linier

+ 1 : ada hubungan linier positip sempurna - 1 : ada hubungan linier negatif sempurna Arah hubungan : + : hubungan positif : semakin besar nilai X semakin besar nilai Y : hubungan negatif : semakin besar nilai X semakin kecil nilai Y

Hubungan dua variabel dapat berpola positip atau negatip. Hubungan positip terjadi bila kenaikan satu variabel diikuti kenaikan variabel lain ,misalnya semakin bertambah berat badannya (semakin gemuk) semakin tinggi tekanan darahnya. Sedangkan hubungan negatip dapat terjadi bila kenaikan satu variabel diikuti penurunan variable yang lain, misalnya semakin bertambah umurnya (semakin tua) semakin rendah kadar Hb nya.

Asumsi : Koefisien Korelasi Pearson hanya valid jika asumsi berikut dipenuhi : 1. Untuk setiap nilai X, nilai Y terdistribusi secara normal 2. Untuk setiap nilai Y, nilai X terdistribusi secara normal 3. Perkalian antara X dan Y terdistribusi secara normal (bivariat normal distr.) (Kleinbaum, DG.;Kupper, LL.; Muller, KE.; Nizam, 1998)

Uji hipotesis : Koefisien korelasi yang telah dihasilkan merupakan langkah pertama untuk menjelaskan derajat hubungan linier antara dua variabel. Selanjutnya perlu dilakukan uji hipotesis untuk mengetahui apakah hubungan antara dua variabel terjadi secara signifikan atau hanya karena faktor kebetulan dari random sampel (by chance). Uji hipotesis dapat dilakukan dengan dua cara, yaitu pertama, membandingkan nilai r hitung dengan r tabel; kedua, menggunakan pengujian dengan pendekatan distribusi t. Formula uji t : t = r df = n 2 n2 1 r2 atau r t = ( 1 r2 ) / ( n 2 )

n = jumlah sampel
RA

Ho : Ha :

=0 0

Uji statistik : uji t (rumus diatas) Keputusan : Ho ditolak jika | t hitung | t ( tabel : /2, df = n-2 ) ) tidak

Jika keputusan Ho ditolak maka kesimpulannya koefisien korelasi populasi ( sama dengan nol dengan kata lain koefisien tersebut benar eksis/ada

Jika menggunakan program SPSS sudah langsung didapatkan nilai r dan nilai signifikansinya ( p value). Pengambilan keputusan : Ho ditolak jika p value < Koefisien Determinasi ( r2 ) Melihat besarnya variasi variabel Y (dalam proporsi) yang dapat dijelaskan oleh variabel X. Misalnya r = 0,8 , r2 = 0,64, artinya sebesar 64 % variasi nilai Y dapat dijelaskan oleh variabel X .

Batasan Korelasi Pearson: Hubungan kedua variabel linier (mendekati garis lurus) Kedua variabel berdistribusi normal. Bila salah satu variabel tidak normal penggunaan Korelasi Pearson kurang tepat. Adanya outlier mempengaruhi hubungan kedua variabel. Hubungan kedua variabel bukan hubungan sebab akibat.

Contoh:
Suatu studi ingin melihat hubungan antara variabel berat badan ibu dengan berat badan bayi yang dilahirkannya. Datanya sebagai berikut: Ibu 1 2 3 4 5 6 7 8 9 10 BB ibu (kg) 49,4 63,5 68,0 52,5 54,4 70,3 50,8 73,9 65,8 54,4 BB bayi (gram) 3515 3742 3629 2880 3008 4068 3373 4124 3572 3359

RA

Diagram tebar untuk data diatas:

Diagram tebar
4200 4000

3800

3600

3400

berat badan bayi

3200

3000 2800 40 50 60 70 80

berat badan ibu

Dari gambar diatas terlihat ada kecenderungan, bila BB ibu semakin meningkat maka BB bayi juga semakin meningkat dan berpola linier. Dari data diatas dapat dihitung: XY = 2151860,8 X2 = 37053,75 Y2 = 125845088 No 1 2 3 4 5 6 7 8 9 10 Jumlah X 49,4 63,5 68,0 52,5 54,4 70,3 50,8 73,9 65,8 54,4 602,7 Y 3515 3742 3629 2880 3008 4068 3373 4124 3572 3359 35270 X2 2440.36 4032.25 4624.00 2724.84 2959.36 4942.09 2580.64 5461.21 4329.64 2959.36 37053,75 Y2 12355225 14002564 13169641 8294400 9048064 16548624 11377129 17007376 12759184 11282881 125845088 XY 173641.0 237617.0 246772.0 150336.0 163635.2 285980.4 171348.4 304763.6 235037.6 182729.6 2151860,8 X = 602,7 Y = 35270

n ( XY ) ( X Y ) r = [ n X2 (X)2 ] [ n Y2 (Y)2 ] 10 (2151860,8) [(602,7) (35270)] r = = 0,8045 [(10) (37053,75) (602,7)2 ] [(10) (125845088) (35270)2 ]

RA

Interpretasi: besaran r mendekati angka 1 berarti semakin kuat hubungannya berpola linier positif, artinya semakin besar BB ibu semakin besar BB bayi 0

Uji hipotesis : Ho :

= 0, Ha :

a) Jika menggunakan tabel r Nilai r hasil perhitungan = 0,8045 Nilai r dari tabel dengan df = 10 2 = 8, Karena r hitung > r tabel maka tolak Ho Kesimpulannya: ada hubungan yang signifikan antara BB ibu dengan BB bayi dengan r positif artinya semakin besar BB ibu semakin besar pula BB bayi b) Jika menggunakan tabel t t = r n2 1 r2 10 2 1 (0,8045)2 = 0,05 two tail didapat 0,632

t = 0,8045

3,83 /2, df = n-2 )

Keputusan : Ho ditolak jika | t hitung | t ( tabel :

Nilai t tabel dengan /2 = 0,05/2 = 0,025 , df = 10-2 = 8 diperoleh 2,306 Karena t hitung ( 3,83 ) > t tabel ( 2,306 ) maka tolak Ho Kesimpulannya: ada hubungan yang signifikan antara BB ibu dengan BB bayi dengan r positif artinya semakin besar BB ibu semakin besar pula BB bayi.

Jika digunakan program SPSS maka diperoleh: 1. Uji kenormalan:


Tests of Normality Kolmogorov-Smirnov Statistic df Sig. ,243 10 ,097 ,138 10 ,200*
a

bb bumil (kg) bb bayi (gram)

Statistic ,901 ,959

Shapiro-Wilk df 10 10

Sig. ,222 ,773

*. This is a lower bound of the true significance. a. Lilliefors Significance Correction

Terlihat bahwa pada uji Kolmogorov-Smirnov, p-value bb bumil = 0,097 dan bb bayi = 0,200. Variabel bb ibu hamil dan bb bayi berdistribusi normal karena p-value >

RA

(0,05). Begitu pula dengan uji Shapiro-Wilk dimana p-value bb ibu hamil = 0,222 dan p-value bb bayi = 0,773.

2. Uji Korelasi Pearson:


Correlations bb bayi (gram) .805** .005 10 1.000 . 10

bb bumil (kg)

bb bayi (gram)

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

bb bumil (kg) 1.000 . 10 .805** .005 10

**. Correlation is significant at the 0.01 level (2-tailed).

Terlihat hasil analisis korelasi Pearson diperoleh koefisien korelasi ( r ) = 0,805 Dilihat dari besaran r mendekati nilai 1 sehingga korelasi kuat dan arahnya positif artinya semakin meningkat berat badan bumil semakin meningkat pula berat lahir bayi. Pada hasil analisis dengan komputer diperoleh p-value = 0,005. Karena p-value < tolak Ho sehingga kesimpulannya : Ada hubungan yang signifikan antara berat

badan ibu hamil dengan berat badan bayi lahir

REGRESI LINIER SEDERHANA


Analisis regresi dapat digunakan untuk menggambarkan hubungan linier antara dua variable numerik. Tujuan analisis regresi adalah untuk membuat perkiraan /

memprediksi nilai suatu variabel (variabel dependen) melalui variabel yang lain (variabel independen). Sebagai contoh dalam hubungan antara Pemberian Makanan Tambahan (PMT) dalam satuan Kalori dengan pertambahan berat badan dalam satuan kg, ingin diprediksi berapa besarnya pertambahan berat badan bila diketahui banyaknya Kalori pada PMT. Untuk melakukan prediksi digunakan persamaan garis yang dapat diperoleh dengan berbagai cara/ metode. Salah satu cara yang sering digunakan oleh peneliti adalah dengan menggunakan metode kuadrat terkecil (least square). Metode least square merupakan metode pembuatan garis regresi dengan cara meminimalkan jumlah kuadrat jarak antara nilai Y yang teramati dan nilai Y yang diramalkan oleh garis regresi .

RA

PERSAMAAN GARIS
Secara matematis model persamaan garis regresi sebagai berikut : = a+bX Dimana : : nilai Y yang diprediksi X : variabel independen = variabel bebas = prediktor a : intercept = nilai bila X=0 atau intercept/perpotongan garis regresi dengan sumbu Y b : slope = kemiringan garis regresi = koefisien regresi = nilai Y meningkat sebesar b unit untuk setiap kenaikan nilai X sebesar satu Sedangkan a dan b diperoleh dengan persamaan sebagai berikut: [ XY] [( X ) ( Y ) / n] b = [ X2] [( X)2 / n ] a = Y b X dimana Y = mean Y dan X = mean X

Perbedaan penting antara (nilai prediksi) dimana semua akan jatuh pada garis regresi sedangkan Y (nilai observasi) biasanya tidak semua jatuh pada pada garis regresi. Konstanta a dan b adalah estimasi dari dua parameter pada persamaan regresi yang sesungguhnya dimana dianggap pada lokasi garis.

Gambar 1 : Persamaan garis lurus Y = a + bX Y : X : : : a= Y intercept : : : X X+X Pada gambar terlihat: Konstanta a titik dimana garis lurus/garis regresi berpotongan dengan sumbu y. Sedangkan b slope atau gradien dari garis. Y b = = slope X

RA

Slope didefinisikan jumlah perubahan (Y)pada variabel dependen dibagi dengan jumlah perubahan (X)pada variabel independen. Slope disebut juga koefisien regresi Contoh: Suatu studi ingin melihat hubungan antara variabel berat badan ibu dengan berat badan bayi yang dilahirkannya. Datanya sebagai berikut: Ibu 1 2 3 4 5 6 7 8 9 10 BB ibu (kg) 49,4 63,5 68,0 52,5 54,4 70,3 50,8 73,9 65,8 54,4 BB bayi (gram) 3515 3742 3629 2880 3008 4068 3373 4124 3572 3359

Pada analisis korelasi diperoleh koefisien korelasi sebesar r = 0,805. Sehingga ada hubungan yang kuat antara BB ibu hamil dengan BB lahir bayi dengan r berpola linier positif artinya semakin besar BB ibu hamil semakin besar pula BB lahir bayi Pada contoh diatas dapat dilihat bagaimana BB lahir bayi tergantung dari BB ibu hamil. Untuk itu dapat dilakukan analisis regresi linier. Pada analisis ini dapat diprediksi berapa BB lahir bayi jika diketahui BB ibu hamil. Persamaan : = a + bX BB lahir bayi = a + b BB ibu hamil Pada soal diatas diperoleh: XY = 2151860,8 X2 = 37053,75 Y = 125845088 Sehingga: [ XY] [( X ) ( Y ) / n] b = [ X2] [( X)2 / n ] [2151860,8] [(602,7) (35270) / 10] 26137,9 b = = = 35,853 [37053,75] [(602,7)2 / 10 ] 729,021 a = 3527 ( 35,853 ) ( 60,27 ) = 1366,139
2

X = 602,7 Y = 35270

X = 60,27 Y = 3527

RA

Jadi persamaannya adalah : KOEFISIEN REGRESI

= 1366,139 + 35,853 X

Yaitu dilihat slope dari garis regresi atau dilihat nilai b Misalnya : b = 35,853 , artinya tiap kenaikan pada X sebesar 1 satuan X akan meningkatkan Y sebesar 35,853 satu satuan Y. Tiap kenaikan BB ibu hamil sebesar 1 kg maka meningkatkan BB lahir bayi sebesar 35,853 gram. KOEFISIEN DETERMINASI ( R2 ) = R-Square Koefisien determinasi mengukur proporsi varians Y yang dapat diterangkan oleh X. r = 0,805 sehingga R2 = 0,648 = 64,8 %. Jadi variabel berat lahir bayi dapat diterangkan oleh berat badan ibu hamil sebesar 64,8 % Jadi jika diketahu BB ibu hamil 50 kg maka berat lahir bayi : = 1366,139 + 35,853X = 1366,139 + 35,853 ( 50 ) = 3158,789 gram

Hasil analisis regresi linier menggunakan program SPSS:


a Coefficients

Model 1

(Constant) bb bumil (kg)

Unstandardized Coefficients B Std. Error 1366.114 569.599 35.853 9.357

Standardi zed Coefficien ts Beta .805

t 2.398 3.832

Sig. .043 .005

a. Dependent Variable: bb bayi (gram)

Diperoleh nilai a = 1366,114 nilai b = 35,853 sehingga persamaan garis regresinya adalah: = 1366,139 + 35,853 X

KETERBATASAN ANALISIS REGRESI LINIER Analisis regresi linier sangat banyak kegunaannya. Namun dalam

menerapkannya perlu diperhatikan keterbatasannya. Hal ini untuk mencegah penafsiran yang keliru, karena saat ini penghitungan analisis regresi linier tersebut telah sedemikian mudahnya dilakukan oleh komputer.

RA

10

Keterbatasannya adalah sebagai berikut: 1. Analisis regresi linier dihitung dengan asumsi khusus, sehingga asumsi ini harus diteliti apakah dipenuhi atau tidak. Pemeriksaan asumsi ini memerlukan perhitungan lebih lanjut yang tidak akan dijelaskan disini. Salah satu asumsi adalah sebaran residu yang mengikuti sebaran Gauss. Dengan demikian analisis regresi linier ini dilakukan dengan prosedur statistik parametric. 2. Penyimpulan hasil hendaknya memperhatikan rentang data yang diamati. Bila akan melakukan ekstrapolasi atau proyeksi, diperlukan berbagai asumsi agar linieritas garis dapat dipertahankan. 3. Hubungan yang digambarkan pada analisis regresi linier tidak dapat diartikan sebagai hubungan kausal atau sebab akibat. Dapat diingat bahwa simpulan hubungan sebab akibat harus didukung oleh beberapa hasil lain seperti yang diutarakan oleh Bradford Hill (1971).

SOAL: 1. Seorang peneliti ingin mengetahui hubungan antara umur dengan tekanan darah sistole. Datanya adalah sebagai berikut: Sampel 1 2 3 4 5 6 7 8 9 10 11 12 Umur 25 29 31 35 42 55 38 48 27 57 43 37 Tekanan darah sistole 105 110 112 115 120 130 118 125 106 140 125 115

Pertanyaan : a). Seberapa besar hubungan itu dan bagaimana arah hubungannya? (Hitung koefisien korelasinya) b). Apakah ada hubungan antara umur dengan tekanan darah sistole? c). Buatlah persamaan garis regresinya. d). Jika diketahui seseorang yang umurnya 45 tahun maka berapa prediksi tekanan darah sistoliknya?

RA

11

2. Pada data berikut: Sampel 1 2 3 4 5 6 7 8 9 10 Pertanyaan : a). Seberapa besar hubungan itu dan bagaimana arah hubungannya? (Hitung koefisien korelasinya). b). Apakah ada hubungan antara jumlah anggota keluarga dengan status gizi pada balita? c). Buatlah persamaan garis regresinya. Jumlah anggota keluarga 4 9 3 6 7 6 7 6 5 4 Status gizi (Z skor) -1.00 -2.81 -1.93 -1.97 -2.18 -2.63 -2.82 -1.69 -1.61 .19

Daftar Pustaka 1. Budiarto. Biostatistika untuk kedokteran dan kesehatan masyarakat. EGC. Jakarta. 2002 2. Chandra, B. Pengantar Statistik Kesehatan. Penerbit Buku Kedokteran EGC. Jakarta.1995. 3. Dawson B, Trapp RG. Basic and Clinical Biostatistics. Third Edition. McGraw-Hill International Editions. Lange Medical Books, The McGraw-Hill Companies. 2001. 4. Kleinbaum, DG.;Kupper, LL.; Muller, KE.; Nizam. Applied Regression Analysis and Other Multivariate Methods. 3rd.Ed.. Duxbury Press, California. 1998. 5. Kuzma. Basic Statistics for the Health Sciences. Mayfield Publishing Company. 1984 6. Norman and Streiner. Biostatistics : The Bare Essentials, Mosby. 1994. 7. Pagano, M dan K. Gaureau. Principles of Biostatistics. Belmont, Duxury Press.1993. 8. Prasetyo, SB. Aplikasi Analisis Regresi Linier. Program Studi Magister Kesehatan Masyarakat, FKM, UI. 2002. 9. Sabri dan Hastomo. Statistika kesehatan. PT Raja Grafindo Persada. Jakarta. 2006. 10. Sheskin, D.J. Handbook of Parametric and Nonparametric Statistical Prosedures. Third Edition. Chapman & Hall/CRC. Florida. 2004.

RA

12

TABEL NILAI KRITIS r PEARSON


0,05 0,1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 0.988 0.900 0.805 0.729 0.669 0.622 0.582 0.549 0.521 0.497 0.476 0.458 0.441 0.426 0.412 0.400 0.389 0.378 0.369 0.360 0.352 0.344 0.337 0.330 0.323 0.317 0.311 0.306 0.301 0.296 0.275 0.257 0.243 0.231 0.211 0.195 0.183 0.173 0.164 Tingkat signifikansi (one- tailed) 0,025 0,01 Tingkat signifikansi (two- tailed) 0,05 0,02 0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576 0.553 0.532 0.514 0.497 0.482 0.468 0.456 0.444 0.433 0.423 0.413 0.404 0.396 0.388 0.381 0.374 0.367 0.361 0.355 0.349 0.325 0.304 0.288 0.273 0.250 0.232 0.217 0.205 0.195 0.995 0.900 0.934 0.882 0.833 0.789 0.750 0.716 0.685 0.658 0.634 0.612 0.592 0.574 0.558 0.542 0.528 0.516 0.503 0.492 0.482 0.472 0.462 0.453 0.445 0.437 0.430 0.423 0.416 0.409 0.381 0.358 0.338 0.322 0.295 0.274 0.256 0.242 0.230 0,005 0,01 0.999 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708 0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537 0.526 0.515 0.505 0.496 0.487 0.479 0.471 0.463 0.456 0.449 0.418 0.393 0.372 0.354 0.325 0.302 0.283 0.267 0.254

df =n-2

RA

13

RA

14

You might also like