You are on page 1of 17

ANALISIS BUTIR SOAL

A. Pengertian Analisi Butir Soal

Menurut Kamus Besar Bahasa Indonesia (2002) analisis adalah penguraian suatu pokok
atas berbagai bagiannya dan penelaahan bagian itu sendiri serta hubungan antar bagian untuk
memperoleh pengertian yang tepat dan pemahaman arti keseluruhan.
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap
empirik. Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan dan
hasil jawaban terhadap butir-butir soal telah kita peroleh. Analisis butir soal adalah suatu
kegiatan analisis untuk menentukan tingkat kebaikan butir-butir soal yang terdapat dalam suatu
tes sehingga informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir soal dan
tes tersebut.

Identifikasi terhadap setiap butir item soal dilakukan dengan harapan akan
menghasilkan berbagai informasi berharga, yang pada dasarnya akan merupakan umpan
balik (feed back) guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali
terhadap butir-butir soal, sehingga pada masa-masa yang akan yang akan dating tes hasil
belajar yang disusun atau dirancang oleh guru itu betul-betul dapat menjalankan
fungsinya sebagai alat pengukur hasil belajar yang memiliki kualitas yang tinggi.
Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir soal merupakan
kegiatan penting dalam penyusunan soal agar diperoleh butir soal yang bermutu. Tujuan kegiatan
ini adalah:

1. Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum digunakan,
2. meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
3. mengetahui informasi diagnostik pada siswa apakah mereka telah memahami materi yang telah
diajarkan.
Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang
siswa mana yang telah menguasai materi dan siswa mana yang belum menguasai materi.
Selanjutnya menurut Anastasia dan Urbina (1997) dalam Suprananto (2012), analisis butir soal
dapat dilakukan secara kualitatif (berkaitan dengan isi dan bentuknya) dan kuantitatif (berkaitan
dengan ciri-ciri statistiknya). Analisis kualitatif mencakup pertimbangan validitas isi dan
konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validitas dan reliabilitas butir
soal, kesulitan butir soal serta diskriminasi soal. Kedua teknik ini masing-masing memiliki
keunggulan dan kelemahan, oleh karena itu teknik terbaik adalah menggunakan atau memadukan
keduanya.
B. Teknik Analisis Butir Soal
Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis pada
umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis
kuantitatif (quantitatif control).

1. Analisis Butir Soal Secara Kualitatif

Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah
penulisan soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini biasanya dilakukan sebelum
soal digunakan atau diujikan. Aspek yang diperhatikan dalam penelaahan secara kualitatif
mencakup aspek materi, konstruksi, bahasa atau budaya, dan kunci jawaban.
Ada beberapa teknik yang digunakan untuk menganalisis butir soal secara kualitatif, yaitu
teknik moderator dan teknik panel. Teknik moderator merupakan teknik berdiskusi yang
didalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal
didiskusikan secara bersama-sama dengan beberapa ahli.
Sedangkan teknik panel adalah teknik menelaah butir soal berdasarkan kaidah penulisan
butir soal. Kaidah itu diantaranya adalah materi, kontruksi, bahasa atau budaya, kebenaran kunci
jawaban. Caranya beberapa penelaah diberikan beberapa butir soal yang akan ditelaah, format
penelaahan, dan pedoman penelaahan.
Dalam menganalisis butir soal secara kualitatif penggunaan format penelaahan soal akan
membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal digunakan
sebagai dasar untuk menganalisis setiap butir soal.

2. Analisis Butir Soal Secara Kuantitatif

Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada bukti empirik.
Salah satu tujuan utama pengujian butir-butir soal secara emperik adalah untuk mengetahui
sejauh mana masing-masing butir soal membedakan antara mereka yang tinggi kemampuannya
dalam hal yang didefinisikan oleh kriteria dari mereka yang rendah kemampuannya.
Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam analisis
secara kuantitatif yaitu pendekatan secara klasik dan modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari
jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan
teori tes klasik. Pada teori tes klasik, analisis item tes dilakukan dengan memperhitungkan
kedudukan item dalam suatu kelas atau kelompok. Karakteristik atau kualitas item sangat
tergantung pada kelompok dimana diujicobakan sehingga kualitas item terikat pada sampel
responden atau peserta tes yang memberikan respons(sample bounded).
Ada beberapa kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar,
dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat menggunakan
beberapa data dari peserta tes.
Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori
respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan
fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir dengan
kemampuan siswa.
Teori ini muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu:

a. Tingkat kemampuan dalam teori klasik adalah true score. Artinya, jika suatu tes sulit
maka tingkat kemampuan peserta tes akan rendah.sebaiknya, jika suatu tes mudah maka
tingkat kemampuan peserta tes tinggi.
b. Tingkat kesukaran butir soal didefinisikan sebagai proporsi peserta tes yang menjawab
benar. Mudah atau sulitnya butir soal tergantung pada kemampuan peserta tes.
c. Daya pembeda, reliabilitas, dan validitas tes tergantung pada kondisi peserta tes.

C. Parameter Item Tes yang Baik


Sebagaimana telah disebut sebelumnya, bahwa item tes yang baik adalah item yang
memenuhi syarat sebagaimana kriteria atau karakteristik item tes yang baik. Karakteristik item
yang dimaksud adalah tingkat kesulitan atau kesukaran, daya pembeda, dan efektivitas pengecoh.

1. Tingkat Kesulitan atau Kesukaran

Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan
tertentu yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam
indeks kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang
menjawab benar soal tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan hasil
hitungan, berarti semakin mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui, tidak
terlalu sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan
daya pembeda. Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya
pembedanya akan rendah, demikian pula bila item itu terlalu mudah maka tidak akan memiliki
daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu
memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka
tingkat kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item untuk tes sumatif
berbeda dengan tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
T
Keterangan:
U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk
tiap soal.
L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.
T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower
group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes
tersebut, tiap-tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam
peringkat, kemudian kita ambil 25% (10 lembar jawaban siswa kelompok pandai), dan 10 lembar
jawaban siswa dari kelompok yang kurang pandai. Kemudian kita tabulasikan. Misalkan dari
tabulasi soal kita peroleh hasil sebagai berikut: yang menjawab benar dari kelompok pandai ada
9 siswa, dan yang menjawab benar dari kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah:
TK = U + L = 9 + 4 = 0,65 atau 65%
T 20
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau indeks
kesukaran adalah:
P= B
JS
Keterangan:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan benar.
JS = jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12
siswa yang mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
P = B
JS
= 12
40
= 0,30
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a. Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
b. Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
c. Soal dengan P 0,70 sampai 1,00 adalah soal mudah.

2. Daya Pembeda

Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu
membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum
atau kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien daya
pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peerta didik
yang menguasai kompetensi dengan pesertan didik yang kurang menguasai kompetensi.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya
pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:
DP = U – L
½T
Keterangan:
DP = indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar
untuk tiap soal.
L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T = jumlah siswa keseluruhan.
Contoh:
Dari hasil tes lomba olimpiade IPS, jumlah siswa yang dites adalah 40 siswa, sedangkan tes
tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam
peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25%
siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes,
kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis soal
tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita
analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa.
Maka daya pembedanya adalah:
DP = U – L
½T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda,
yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory).
D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).

3. Analisis pengecoh (Efektifitas Distraktor )

Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang
telah disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan
distraktor atau pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban
benar).
Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang
menjawab salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak
merata. Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau
mendekati jumlah ideal. Indeks pengecoh dihitung dengan rumus:

IP = P x 100%

(N - B) (n - 1)

Keterangan:

IP = indeks pengecoh

P = jumlah peserta didik yang memilih pengecoh

N = jumlah peserta didik yang ikut tes

B = jumlah peserta didik yang menjawab benar pada setiap soal

n = jumlah alternatif jawaban


1= bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka
IP = 0 yang berarti soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi.
Contoh:
50 orang peserta didik dites dengan 10 soal bentuk pilihan ganda. Tiap soal memiliki alternatif
jawaban (a, b, c, d, e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah soal no.8
diperiksa untuk semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik
menjawab benar dan 30 peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata.
Berikut ini adalah contoh soal no.8.

Alternatif jawaban A B C D E

Distribusi jawaban peserta


7 8 20 7 8
didik

IP 93% 107% ** 93% 107%

Kualitas pengecoh ++ ++ ++ ++ ++

Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik

 = kurang baik

_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya
dekat dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu
berfungsi. Jika pilihan jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya
seperti berikut:

Alternatif jawaban A B C D E

Distribusi jawaban peserta didik 20 2 20 8 0

IP 267% 27% ** 107% 0%

Kualitas pengecoh _ - ** ++ _

Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak
berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk
jelek, danpengecoh (b) perlu direvisikarena kurang baik. adapun kualitas pengecoh berdasar
indeks pengecoh adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%
D. Manfaat Kegiatan Menganalisis Butir Soal

Berdasarkan pendapat yang diungkapkan oleh Anastasia dan Urbina (1997) dalam
Suprananto (2012), analisis butir soal memiliki banyak manfaat, diantaranya yakni:
1. Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan,
2. relevan bagi penyusunan tes informal seperti tes yang disiapkan guru untuk siswa dikelas,
3. mendukung penulisan butir soal yang efektif,
4. secara materi dapat memperbaiki tes di kelas,
5. meningkatkan validitas soal dan reliabilitas.
Linn dan Gronlund (1995) dalam Suprananto (2012: 163), menambahkan bahwa pelaksanaan
kegiatan analisis butir soal, biasanya didesain untuk menjawab pertanyaan-pertanyaan berikut:
1. Apakah fungsi soal sudah tepat?
2. Apakah soal telah memiliki tingkat kesukaran yang tepat?
3. Apakah soal bebas dari hal-hal yang tidak relevan?
4. Apakah pilihan jawabannya efektif?
Selain itu, data hasil analisis butir soal juga sangat bermanfaat sebagai dasar untuk:
1. Diskusi tentang efisien hasil tes,
2. kerja remedial
3. peningkatan secara umum pembelajaran di kelas,
4. peningkatan keterampilan pada kontruksi tes.
Berdasarkan uraian di atas menunjukkan bahwa analisis butir soal memberikan manfaat:
1. Menentukan soal-soal yang cacat atau tidak berfungsi dengan baik,
2. meningkatkan butir soal melalui tiga komponen analisis yaitu, tingkat kesukaran, daya pembeda
dan pengecoh soal,

3. merevisi soal yang tidak relevan degan materi yang diajarkan, ditandai dengan banyaknya anak
yang tidak dapat menjawab butir soal tertentu.

1.1 Validitas Instrumen

1.1.1 Pengertian

Karakter pertama dan memiliki peranan sangat penting dalam


instrument evaluasi adalah valid. Suatu instrument dikatakan valid,
seperti yang duterangkan oleh Gay (1983) dan Johnson & Johnson
(2002), apabila instrument yang digunakan dapat mengukur apa yang
seharusnya diukur (Sukardi, 2008).

Pernyataan serupa juga disampaikan oleh Scarvia B. Anderson (dalam


Arikunto, 1997) bahwa “A test is valid if it measures what is purpose
to measure”. Atau jika diartikan krang lebih, sebuah tes dikatakan
valid apabila tes tersebut mengukur apa yang hendak diukur. Dalam
bahasa Indonesia “Valid” disebut dengan istilah “Sahih”.

Menurut Sukardi (2008: 31) validitas instrument suatu evaluasi, tidak


lain adalah derajat yang menunjukkan dimana suatu tes mengukur
apa yang hendak diukur. Validitas suatu instrument evaluasi
mempunyai beberapa makna penting diantaranya seperti berikut:

1) Validitas berhubungan dengan ketepatan interpretasi hasil tes atau


instrument evaluasi untuk group individual dan bukan instrument itu
sendiri.

2) Validitas diartikan sebagai derajat yang menunjukkan kategori yang


bisa mencakup kategori rendah, menengah dan tinggi.
3) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang
perlu diperhatikan oleh para peneliti adalah bahwa Ia hanya valid
untuk suatu tujuan tertentu saja.

1.1.2 Macam-macam Validitas

Menurut Sukardi (2008) secara metodologis validitas suatu tes dapat


dibedakan menjadi empat macam, yaitu validitas isi, validitas
konstruk, validitas konkruen dan validitas prediksi. Macam-macam
validitas tersebut akan diuraikan sebagai berikut:

1) Validitas isi

Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi
mengukur cakupan substansi yang ingin diukur. Untuk mendapatkan
validitas isi memerlukan dua spek penting, yaitu valid isi dan valid
teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan
dengan apakah item-item evaluasi menggambarkan pengukuran
dalam cakupan yang ingin diukur. Sedangkan validitas teknik
sampling pada umunya berkaitan dengan bagaimanakah baiknya
suatu sampel tes mempresentasikan total cakupan isi (Sukardi, 2008).

Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas


isi apabila mengukur tujuan khusus tertentu yang sejajar dengan
materi atau isi pelajaran yang diberikan. Oleh karena materi yang
diberikan tertera dalam kurikulum maka validitas isi juga disebut
validitas kurikuler.

2) Validitas Konstruk

Validitas konstruk merupakan derajat yang menunjukkan suatu tes


mengukur sebuah konstruk sementara atau Hyptotetical construct.
Secara definitife, konstruk merupakan suatu sifat yang tidak dapat
diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah
satu atau dua indera kita (Sukardi, 2008).

Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas


konstruksi apabila butir-butir soal yang membangun tes tersebut
mengukur setiap aspek berfikir seperti disebutkan dalam tujuan
instruksional khusus. Dengan kata lain jika butir-butir soal mengukur
aspek berfikir tersebut sudah sesuai dengan aspek berfikir yang
menjadi tujuan instruksional.

3) Validitas Konkruen

Validitas konkruen adalah derajat dimana skor dalam suatu tes


dihubungkan dengan skor lain yang telah dibuat. Tes dengan validitas
konkruen biasanya diadministrasi dalam waktu yang sama atau
dengan criteria valid yang sudah ada. Sering kali juga terjadi bahwa
tes dibuat atau dikembangkan untuk pekerjaan yang sama seperti
beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih
cepat. Validitas konkruen ditentukan dengan membangun analisis
hubungan dan perbedaan (Sukardi, 2008).

4) Validitas Prediksi

Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat


memprediksi tentang bagaimana baik seseorang akan melakukan
suatu prospek atau tugas atau pekerjaan yang direncanakan. Validitas
prediksi suatu tes pada umumnya ditentukan dengan membangun
hubungan antara skor tes dan beberapa ukuran keberhasilan dalam
situasi tertentu yang digunakan untuk memprediksi keberhasilan,
yang selanjutnya disebut sebagai predictor. Sedangkan tingkah laku
yang diprediksi disebut criterion (Sukardi, 2008).

Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal,


dan meramal selalun mengenai hal yang akan datang jika sekarang
belum terjadi. Sebuah tes memiliki validitas prediksi atau validitas
ramalan apabila mempunyai kemampuan untuk meramalkan apa
yang akan terjadi pada masa yang akan datang.

1.1.3 Faktor-faktor yang Mempengaruhi Validitas

Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid.
Beberapa faktor tersebut secara garis besar dapat dibedakan menurut
sumbernya, yaitu faktor internal dari tes, faktor eksternal tes, dan
faktor yang berasal dari siswa yang bersangkutan.

1) Faktor yang berasal dari dalam tes

1. Arahan tes yang disusun dengan makna tidak jelas sehingga


dapat mengurangi validitas tes
2. Kata-kata yang digunakan dalam struktur instrument evaluasi,
tidak terlalu sulit
3. Item tes dikonstruksi dengan jelas.
4. Tingkat kesulitan item tes tidak tepat dengan materi
pembelajaran yang diterima siswa.
5. Waktu yang dialokasikan tidak tepat, hal ini termasuk
kemungkinan terlalu kurang atau terlalu longgar.
6. Jumlah item terlalu sedikit sehingga tidak mewakili sampel
7. Jawaban masing-masing item evaluasi bisa diprediksi siswa

2) Faktor yang berasal dari administrasi dan skor tes.

1. Waktu pengerjaan tidak cukup sehingga siswa dalam


memberikan jawaban dalam situasi tergesa-gesa.
2. Adanya kecrangan dalam tes sehingga tidak membedakan
antara siswa yang belajar dengan melakukan kecurangan.
3. Pemberian petunjuk dari dari pengawas yang tidak dapat
dilakukan pada semua siswa.
4. Teknik pemberian skor yang tidak konsisten.
5. Siswa tidak dapat memngikuti arahan yang diberikan dalam tes
baku.
6. Adanya joki (orang lain bukan siswa) yang masuk dalam
menjawab item tes yang diberikan.

3) Faktor yang berasal dari jawaban siswa

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi


tidak valid, karena dipengaruhi oleh jawaban siswa dari pada
interpretasi item-item pada tes evaluasi (Sukardi, 2008).

1.1.4 Cara Mengetahui Validitas Alat Ukur

Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan


kriterium, dalam arti memilki kesejajaran antara hasil tes tersebut
dengan kriterium. Teknik yang digunakan untuk mengetahui
kesejajaran adalah dengan teknik korelasi product moment yang
dikemukakan oleh pearson (Arikunto, 1997)

1.2 Reliabelitas Instrumen

1.2.1 Pengertian

Menurut Sukardi (2008: 43) relaibelitas adalah karakter lain dari


evaluasi. Reliabelitas juga dapat diartikan sama dengan konsistensi
atau keajegan. Suatu instrument evaluasi dikatakan mempunyai nilai
reliabelitas tinggi, apabila tes yang dibuat mempunyai hasil konsisten
dalam mengukur yang hendak diukur.

Sehubungan dengan reliabelitas ini Scarvia B. Anderson dan kawan-


kawan (dalam Arikunto, 1997) menyatakan bahwa persyaratan bagi
tes, yaitu validitas dan reliabelitas ini penting. Dalam hal ini validitas
lebih penting, dan reliabelitas ini perlu, karena menyokong
terbentuknya validitas. Sebuah tes mungkin reliable tapi tidak valid.
Sebaliknya tes yang valid biasanya reliable.

1.2.2 Tipe-tipe Reliabelitas

Menurut Sukardi (2008) Ada beberapa tipe reliabelitas yang digunakan


dalam kegiatan evaluasi dan masing-masing reliebelitas mempunyai
konsistensi yang berbeda-beda. Beberap tipe reliebelitas di antaranya:
tes-retes, ekivalen, dan belah dua yang ditentukan melalui korelasi.

Berbagai tipe tersebut akan diuraikan sebagai berikut:

1) Relibalelitas Dengan Tes-Retes

Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan


konsistensi hasil sebuah tes dari waktu ke waktu. Tes-Retes
menunjukkan variasi skor yang diperoleh dari penyelenggaraan satu
tes evaluasi yang dilaksanakan dua kali atau lebih, sebagai akibat
kesalahan pengukuran. Dengan kata lain, kita tertarik dalam mencari
kejelasan bahwa skor siswa mencapai suatu tes pada waktu tertentu
adalah sama hasilnya, ketika siswa itu dites lagi dengan tes yang sama.
Dengan melakukan tes-retes tersebut. Seorang guru akan mengetahui
seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur
(Sukardi, 2008).

Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan


untuk menghindari dua penyusunan dua seri tes. Dalam
menggunakan teknik atau metode ini pengetes hanya memiliki satu
seri tes tapi dicobakan dua kali. Oleh karena tesnya satu dan
dicobakan dua kali, maka metode ini dapat disebut juga
dengan single-test-double-trial-method.

Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:


1. Selenggarakan tes pada suatu kelompok yang tepat sesuai
dengan rencana.
2. Setelah selang waktu tertentu, misalnya satu minggu atau dua
minggu, lakukan kembali tes yang sama dengan kelompok yang
sama tersebut.
3. Korelasikan kedua hasil tes tersebut.

Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah


bagus. Sebaliknya, jika korelasi rendah, berarti tes tersebut
mempunyai konsistensi rendah (Sukardi, 2008).

2) Reliabelitas Dengan Bentuk Ekivalensi

Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak
diukur reliabelitasnya dibuat identik dengan tes acuan. Setiap
tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua
tes tersebut sebaliknya mempunyai karate yang sama. Karakteristik
yang dimaksud misalnya mengukur variabel yang sama, mempunyai
jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan
mempunyai petunjuk, cara penskoran, dan interpretasi yang sama
(Sukardi 2008).

Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel
atau equivalent adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda.
Dalam istilah bahasa Inggris disebut Alternate-forms method
(parallel forms).

Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti


langkah-langkah sebagai berikut:

1. Tentukan sasaran yang hendak dites


2. Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
3. Administrasinya hasilnya secara baik.
4. Dalam waktu yang tidak terlalu lama, lakukan pengetesan yang
kedua kalinya pada kelompok tersebut
5. Korelasikan kedua hasil skor tersebut (Sukardi, 2008).

Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu


bahwa membuat dua buah tes yang secara esensial ekivalen adalah
sulit. Akibatnya akan selalu terjadi kesalahan pengukuran (Sukardi,
2008). Pernyataan lain juga disampaikan oleh Arikunto (1997: 88)
kelemahan dari metode ini adalah pengetes pekerjaannya berat karena
harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang
lama untuk mencobakan dua kali tes.

3) Reliebilitas Dengan Bentuk Belah Dua

Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk


reliabilitas yang mengukur konsistensi internal. Yang dimaksud
konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan
pada keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini
pelaksanaanya hanya satu kali.

Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan


dengan urutan sebagai berikut:

1. Lakukan pengetesan item-item yang telah dibuat kepada subjek


sasaran.
2. Bagi tes yang ada menjadi dua atas dasar dua item, yang paling
umum dengan membagi item dengan nomor ganjil dengan item
dengan nomor genap pada kelompok tersebut.
3. Hitung skor subjek pada kedua belah kelompok penerima item
genap dan item ganjil.
4. Korelasikan kedua skor tersebut, menggunakan formula
korelasi yang relevan dengan teknik pengukuran (Sukardi,
2008).

Untuk mengetahui seluruh tes harus digunakan rumus Spearman-Brown


(Arikunto, 1997):

1.2.3 Faktor-Faktor Yang Mempengaruhi Reliabilitas


Instrumen

Menurut Sukardi (2008:51-52) koefisien reliabilitas dapat dipengaruhi


oleh waktu penyelenggaraan tes-retes. Interval penyelenggaraan yang
terlalu dekat atau terlalu jauh, akan mempengaruhi koefisien
reliabilitas. Faktor-faktor lain yang juga mempengaruhi reliabilitas
instrument evaluasi di antaranya sebagai berikut::

1) Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak


jumlah item materi pembelajaran diukur.

2) Penyebaran skor, koefisien reliabelitas secara langsung dipengaruhi


oleh bentuk sebaran skor dalam kelompok siswa yang di ukur.
Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliable.

3) Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit
untuk siswa, cenderung menghasilkan skor reliabilitas rendah.

4) Objektifitas, yang dimaksud dengan objektif yaitu derajat dimana


siswa dengan kompetensi sama, mencapai hasil yang sama