Professional Documents
Culture Documents
Menurut Kamus Besar Bahasa Indonesia (2002) analisis adalah penguraian suatu pokok
atas berbagai bagiannya dan penelaahan bagian itu sendiri serta hubungan antar bagian untuk
memperoleh pengertian yang tepat dan pemahaman arti keseluruhan.
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap
empirik. Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan dan
hasil jawaban terhadap butir-butir soal telah kita peroleh. Analisis butir soal adalah suatu
kegiatan analisis untuk menentukan tingkat kebaikan butir-butir soal yang terdapat dalam suatu
tes sehingga informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir soal dan
tes tersebut.
Identifikasi terhadap setiap butir item soal dilakukan dengan harapan akan
menghasilkan berbagai informasi berharga, yang pada dasarnya akan merupakan umpan
balik (feed back) guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali
terhadap butir-butir soal, sehingga pada masa-masa yang akan yang akan dating tes hasil
belajar yang disusun atau dirancang oleh guru itu betul-betul dapat menjalankan
fungsinya sebagai alat pengukur hasil belajar yang memiliki kualitas yang tinggi.
Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir soal merupakan
kegiatan penting dalam penyusunan soal agar diperoleh butir soal yang bermutu. Tujuan kegiatan
ini adalah:
1. Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum digunakan,
2. meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
3. mengetahui informasi diagnostik pada siswa apakah mereka telah memahami materi yang telah
diajarkan.
Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang
siswa mana yang telah menguasai materi dan siswa mana yang belum menguasai materi.
Selanjutnya menurut Anastasia dan Urbina (1997) dalam Suprananto (2012), analisis butir soal
dapat dilakukan secara kualitatif (berkaitan dengan isi dan bentuknya) dan kuantitatif (berkaitan
dengan ciri-ciri statistiknya). Analisis kualitatif mencakup pertimbangan validitas isi dan
konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validitas dan reliabilitas butir
soal, kesulitan butir soal serta diskriminasi soal. Kedua teknik ini masing-masing memiliki
keunggulan dan kelemahan, oleh karena itu teknik terbaik adalah menggunakan atau memadukan
keduanya.
B. Teknik Analisis Butir Soal
Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis pada
umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis
kuantitatif (quantitatif control).
Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah
penulisan soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini biasanya dilakukan sebelum
soal digunakan atau diujikan. Aspek yang diperhatikan dalam penelaahan secara kualitatif
mencakup aspek materi, konstruksi, bahasa atau budaya, dan kunci jawaban.
Ada beberapa teknik yang digunakan untuk menganalisis butir soal secara kualitatif, yaitu
teknik moderator dan teknik panel. Teknik moderator merupakan teknik berdiskusi yang
didalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal
didiskusikan secara bersama-sama dengan beberapa ahli.
Sedangkan teknik panel adalah teknik menelaah butir soal berdasarkan kaidah penulisan
butir soal. Kaidah itu diantaranya adalah materi, kontruksi, bahasa atau budaya, kebenaran kunci
jawaban. Caranya beberapa penelaah diberikan beberapa butir soal yang akan ditelaah, format
penelaahan, dan pedoman penelaahan.
Dalam menganalisis butir soal secara kualitatif penggunaan format penelaahan soal akan
membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal digunakan
sebagai dasar untuk menganalisis setiap butir soal.
Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada bukti empirik.
Salah satu tujuan utama pengujian butir-butir soal secara emperik adalah untuk mengetahui
sejauh mana masing-masing butir soal membedakan antara mereka yang tinggi kemampuannya
dalam hal yang didefinisikan oleh kriteria dari mereka yang rendah kemampuannya.
Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam analisis
secara kuantitatif yaitu pendekatan secara klasik dan modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari
jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan
teori tes klasik. Pada teori tes klasik, analisis item tes dilakukan dengan memperhitungkan
kedudukan item dalam suatu kelas atau kelompok. Karakteristik atau kualitas item sangat
tergantung pada kelompok dimana diujicobakan sehingga kualitas item terikat pada sampel
responden atau peserta tes yang memberikan respons(sample bounded).
Ada beberapa kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar,
dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat menggunakan
beberapa data dari peserta tes.
Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori
respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan
fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir dengan
kemampuan siswa.
Teori ini muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu:
a. Tingkat kemampuan dalam teori klasik adalah true score. Artinya, jika suatu tes sulit
maka tingkat kemampuan peserta tes akan rendah.sebaiknya, jika suatu tes mudah maka
tingkat kemampuan peserta tes tinggi.
b. Tingkat kesukaran butir soal didefinisikan sebagai proporsi peserta tes yang menjawab
benar. Mudah atau sulitnya butir soal tergantung pada kemampuan peserta tes.
c. Daya pembeda, reliabilitas, dan validitas tes tergantung pada kondisi peserta tes.
Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan
tertentu yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam
indeks kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang
menjawab benar soal tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan hasil
hitungan, berarti semakin mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui, tidak
terlalu sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan
daya pembeda. Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya
pembedanya akan rendah, demikian pula bila item itu terlalu mudah maka tidak akan memiliki
daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu
memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka
tingkat kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item untuk tes sumatif
berbeda dengan tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
T
Keterangan:
U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk
tiap soal.
L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.
T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower
group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes
tersebut, tiap-tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam
peringkat, kemudian kita ambil 25% (10 lembar jawaban siswa kelompok pandai), dan 10 lembar
jawaban siswa dari kelompok yang kurang pandai. Kemudian kita tabulasikan. Misalkan dari
tabulasi soal kita peroleh hasil sebagai berikut: yang menjawab benar dari kelompok pandai ada
9 siswa, dan yang menjawab benar dari kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah:
TK = U + L = 9 + 4 = 0,65 atau 65%
T 20
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau indeks
kesukaran adalah:
P= B
JS
Keterangan:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan benar.
JS = jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12
siswa yang mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
P = B
JS
= 12
40
= 0,30
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a. Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
b. Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
c. Soal dengan P 0,70 sampai 1,00 adalah soal mudah.
2. Daya Pembeda
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu
membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum
atau kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien daya
pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peerta didik
yang menguasai kompetensi dengan pesertan didik yang kurang menguasai kompetensi.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya
pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:
DP = U – L
½T
Keterangan:
DP = indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar
untuk tiap soal.
L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T = jumlah siswa keseluruhan.
Contoh:
Dari hasil tes lomba olimpiade IPS, jumlah siswa yang dites adalah 40 siswa, sedangkan tes
tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam
peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25%
siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes,
kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis soal
tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita
analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa.
Maka daya pembedanya adalah:
DP = U – L
½T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda,
yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory).
D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).
Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang
telah disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan
distraktor atau pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban
benar).
Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang
menjawab salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak
merata. Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau
mendekati jumlah ideal. Indeks pengecoh dihitung dengan rumus:
IP = P x 100%
(N - B) (n - 1)
Keterangan:
IP = indeks pengecoh
Alternatif jawaban A B C D E
Kualitas pengecoh ++ ++ ++ ++ ++
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
= kurang baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya
dekat dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu
berfungsi. Jika pilihan jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya
seperti berikut:
Alternatif jawaban A B C D E
Kualitas pengecoh _ - ** ++ _
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak
berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk
jelek, danpengecoh (b) perlu direvisikarena kurang baik. adapun kualitas pengecoh berdasar
indeks pengecoh adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%
D. Manfaat Kegiatan Menganalisis Butir Soal
Berdasarkan pendapat yang diungkapkan oleh Anastasia dan Urbina (1997) dalam
Suprananto (2012), analisis butir soal memiliki banyak manfaat, diantaranya yakni:
1. Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan,
2. relevan bagi penyusunan tes informal seperti tes yang disiapkan guru untuk siswa dikelas,
3. mendukung penulisan butir soal yang efektif,
4. secara materi dapat memperbaiki tes di kelas,
5. meningkatkan validitas soal dan reliabilitas.
Linn dan Gronlund (1995) dalam Suprananto (2012: 163), menambahkan bahwa pelaksanaan
kegiatan analisis butir soal, biasanya didesain untuk menjawab pertanyaan-pertanyaan berikut:
1. Apakah fungsi soal sudah tepat?
2. Apakah soal telah memiliki tingkat kesukaran yang tepat?
3. Apakah soal bebas dari hal-hal yang tidak relevan?
4. Apakah pilihan jawabannya efektif?
Selain itu, data hasil analisis butir soal juga sangat bermanfaat sebagai dasar untuk:
1. Diskusi tentang efisien hasil tes,
2. kerja remedial
3. peningkatan secara umum pembelajaran di kelas,
4. peningkatan keterampilan pada kontruksi tes.
Berdasarkan uraian di atas menunjukkan bahwa analisis butir soal memberikan manfaat:
1. Menentukan soal-soal yang cacat atau tidak berfungsi dengan baik,
2. meningkatkan butir soal melalui tiga komponen analisis yaitu, tingkat kesukaran, daya pembeda
dan pengecoh soal,
3. merevisi soal yang tidak relevan degan materi yang diajarkan, ditandai dengan banyaknya anak
yang tidak dapat menjawab butir soal tertentu.
1.1.1 Pengertian
1) Validitas isi
Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi
mengukur cakupan substansi yang ingin diukur. Untuk mendapatkan
validitas isi memerlukan dua spek penting, yaitu valid isi dan valid
teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan
dengan apakah item-item evaluasi menggambarkan pengukuran
dalam cakupan yang ingin diukur. Sedangkan validitas teknik
sampling pada umunya berkaitan dengan bagaimanakah baiknya
suatu sampel tes mempresentasikan total cakupan isi (Sukardi, 2008).
2) Validitas Konstruk
3) Validitas Konkruen
4) Validitas Prediksi
Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid.
Beberapa faktor tersebut secara garis besar dapat dibedakan menurut
sumbernya, yaitu faktor internal dari tes, faktor eksternal tes, dan
faktor yang berasal dari siswa yang bersangkutan.
1.2.1 Pengertian
Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak
diukur reliabelitasnya dibuat identik dengan tes acuan. Setiap
tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua
tes tersebut sebaliknya mempunyai karate yang sama. Karakteristik
yang dimaksud misalnya mengukur variabel yang sama, mempunyai
jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan
mempunyai petunjuk, cara penskoran, dan interpretasi yang sama
(Sukardi 2008).
Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel
atau equivalent adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda.
Dalam istilah bahasa Inggris disebut Alternate-forms method
(parallel forms).
3) Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit
untuk siswa, cenderung menghasilkan skor reliabilitas rendah.