You are on page 1of 22

BAB I PENDAHULUAN

1.1 Latar Belakang Kelemahan pokok butir soal buatan guru ialah konstruksinya kurang tersusun secara baik. Kelemahan ini terutama disebabkan oleh sempitnya waktu yang tersedia pada guru untuk menyusun butir dan perangkat soal yang mutunya dapat dipertanggungjawabkan. Di samping itu masih banyak juga guru yang memang kurang terlatih untuk menyusun butir dan perangkat soal. Sebagai akibat kelemahan ini ialah banyak butir soal yang digunakan tidak dapat mengukur aspek hasil belajar yang diharapkan untuk dapat diukur. Untuk mengurangi kelemahan ini, maka setiap guru diharapkan memiliki pengetahuan dan kemampuan untuk menilai butir dan perangkat soal yang digunakan. Kemampuan ini menjadi lebih penting bagi guru-guru sekolah di Indonesia, karena kita belum terbiasa untuk menggunakan butir tes baku. Bahkan di Indonesia belum ada tes baku yang dapat diperoleh dengan mudah oleh para pekerja professional, karena memang belum ada badanbadan pengembang tes baku yang menyediakan tes hasil belajar secara komersial. Di beberapa Negara maju hal ini tidak terlalu menjadi masalah, karena telah tumbuh berbagai badan dan lembaga yang mengembangkan tes baku secara komersil. Yang ditumbuhkan ialah setiap guru haruslah memenuhi persyaratan untuk dapat membeli dan menggunakan tes baku tersebut. Persyaratan tersebut adalah latar belakang pendidikan yang dipunyai oleh guru, dan pengakuan organisasi professional akan kemampuan guru itu untuk dapat menggunakan tes baku untuk level tertentu. Kenyataan ini memperkuat alasan akan keharusan bagi setiap guru untuk dapat mengembangkan butir dan perangkat tesnya sendiri yang secara akademik dapat dipertanggungjawabkan sebagai alat ukur keberhasilan belajar. Kemampuan itu harus pula disertai dengan kemampuan

| Validitas, Reliabilitas, Analisis Butir | 1

menganalisis butir dan perangkat soal, sehingga setiap butir dan perangkat soal yang digunakan benar-benar merupakan perangkat alat ukur yang baik dan terpercaya. Dalam makalah ini akan dibahas berbagai aspek yang secara langsung dapat mengetahui kualitas butir dan perangkat soal. Aspek-aspek tersebut mencakup (1) alasan yang menyebabkan perlu dilakukan analisis butir soal, (2) karakteristik dan spesifikasi butir soal, (3) analisis butir soal, (4) validitas soal, dan (5) reliabilitas soal.

1.2 Rumusan Masalah Berdasarkan latar belakang di atas, adapun masalah yang akan dibahas di makalah ini yaitu: 1.2.1 Apakah yang dimaksud dengan Validitas? 1.2.2 Apakah yang dimaksud dengan Reliabilitas? 1.2.3 Apakah yang dimaksud dengan Analisis Butir?

1.3 Tujuan Penulisan Adapun tujuan dari penulisan makalah ini yaitu untuk mengetahui: 1.3.1 Untuk mengetahui pengertian Validitas. 1.3.2 Untuk mengetahui pengertian Reliabilitas. 1.3.3 Untuk mengetahui pengertian Analisis Butir.

| Validitas, Reliabilitas, Analisis Butir | 2

BAB II PEMBAHASAN

2.1 Validitas A. Pengertian Validitas Validitas berasal dari bahasa Inggris dari kata validity yang berarti keabsahan atau kebenaran. Dalam konteks alat ukur atau instrumen asesmen, validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam melakukan fungsi ukurnya. Sebuah instrumen yang valid akan menghasilkan data yang tepat seperti yang diinginkan. Sebagai contoh, jika kita ingin mengetahui berat maka alat ukur yang tepat adalah timbangan atau neraca bukan meteran, termometer, atau alat yang lain. Dengan kata lain, sifat valid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sesungguhnya dari apa yang diinginkan. Validitas sangat berkaitan dengan tujuan pengukuran. Validitas tidak berlaku secara umum bagi semua pengukuran. Suatu tes mempunyai hasil ukuran yang baik (valid) untuk suatu tujuan tertentu yang sepesifik tetapi tidak valid untuk tujuan yang lain atau bahkan untuk tujuan yang sama pada kelompok yang lain. Linn & Gronlund (2000) mengemukakan hakikat validitas tes dan asesmen sebagai berikut. 1. Validitas menyatakan ketepatan interpretasi hasil bukan pada prosedurnya. 2. Validitas merupakan persoalan yang berkaitan dengan derajat (tingkatan), sebagai konsekuensinya kita harus menghindari pemikiran hasil asesmen sebagai valid atau tidak valid. Oleh karena validitas adalah persoalan derajat maka sebuah instrumen dapat dikategorikan mempunyai derajat validitas tinggi, sedang, dan rendah. 3. Validitas selalu bersifat khusus untuk penggunaan atau interpretasi tertentu. Tidak ada asesmen yang valid untuk semua tujuan. Sebagai contoh, hasil tes aritmatika mungkin mempunyai tingkat validitas yang tinggi untuk

| Validitas, Reliabilitas, Analisis Butir | 3

kemampuan hitung, validitas yang rendah untuk alasan-alasan aritmatika, dan mempunyai derajat validitas sedang untuk memprediksi kesuksesan prestasi matematika yang akan datang. 4. Validitas merupakan kesatuan konsep. Hakikat konsep validitas dipandang sebagai sebuah kesatuan konsep berdasarkan berbagai macam bagian dari fakta. 5. Validitas melibatkan sebuah keputusan evaluatif yang menyeluruh.

B. Macam-macam Validitas Macam-macam Validitas, antara lain : 1) Validitas Isi (Content Validity) Validitas isi disebut juga validitas kurikuler. Oleh karena itu, validitas ini erat kaitannya dengan materi yang akan diukur dalam tes. Tentu saja materi yang dimaksud adalah materi yang terdapat dalam kurikulum. Validitas isi mencerminkan sejauh mana butir-butir dalam tes mencerminkan materi yang disajikan dalam kurikulum. Sebuah tes dikatakan memiliki validitas isi jika butir-butir tes bersifat representatif terhadap isi materi dalam kurikulum tersebut. Pengujian validitas isi tidak melalui prosedur pengujian secara statistik, melainkan melalui analisis secara rasional. Pengetahuan terhadap kurikulum menjadi dasar berpijak yang penting untuk dapat melakukan analisis validitas isi. Cara yang praktis untuk melakukan analisis validitas isi adalah dengan melihat apakah butir-butir tes telah disusun sesuai dengan blue-print (kisi-kisi) yang sudah dirancang sebelumnya. Blue print menjadi acuan dalam menuangkan domain atau ranah dan indikator yang akan diukur dalam tes. 2) Validitas Konstruk (Construct Validity) Validitas konstruk adalah validitas yang menyangkut bangunan teoretik variabel yang akan diukur. Sebuah tes dikatakan mempunyai validitas konstruk apabila butir-butir soal yang disusun dalam tes mengukur setiap aspek berpikir dari sebuah variabel yang akan diukur melalui tes tersebut.

| Validitas, Reliabilitas, Analisis Butir | 4

Seperti halnya validitas isi, untuk mempertinggi validitas konstruk dapat dilakukan dengan cara memerinci dan memasangkan setiap butir soal dengan setiap aspek. Pengujian validitas konstruk diperlukan analisis statistik yang kompleks seperti prosedur analisis faktor. Salah satu prosedur pengujian validitas konstruk yang tidak terlalu kompleks dapat dilakukan dengan pendekatan multi-trait multi-method. Dua atau lebih trait yang diukur melalui dua atau lebih metode dapat diuji secara serentak dengan pendekatan ini, sehingga akan diperoleh bukti adanya validitas diskriminan dan validitas konvergen. Validitas diskriminan ditunjukkan oleh rendahnya korelasi antara faktor skala atau tes yang mengukur trait yang berbeda terutama bila digunakan metode yang sama. Validitas konvergen ditunjukkan oleh tingginya korelasi skor tes-tes yang mengukur trait yang sama dengan menggunakan metode yang berbeda. 3) Validitas Berdasarkan Kriteria Sesuai dengan namanya, validitas ini didasarkan pada kriteria tertentu. Dengan demikian bukti adanya validitas ditunjukkan adanya hubungan korelasional skor pada tes yang bersangkutan dengan skor suatu kriteria. Pengujian validitas ini bersifat empirik, artinya pengujian hanya dapat dilakukan setelah mendapatkan data di lapangan. Apabila berdasarkan hasil analisis yang dilakukan terhadap data hasil pengamatan di lapangan terbukti bahwa tes hasil belajar dapat mengukur hasil belajar yang seharusnya diungkap secara tepat maka berarti alat tes tersebut mempunyai validitas empirik. Untuk keperluan pengujian jenis validitas ini dapat dilakukan dengan dua cara yaitu dari segi kemampuannya dalam melakukan ramalan (predictive validity) serta daya ketepatan bandingannya (concurent validity). Perbedaan utama antara validitas ramalan dengan validitas bandingan adalah ketersediaan pembanding (kriterium). Pada validitas ramalan, kriterium diperoleh pada waktu yang akan datang setelah dilakukan tes yang akan diukur validitasnya tersebut. Sedangkan pada validitas bandingan, kriterium sudah ada atau dapat diperoleh pada saat yang sama dengan waktu untuk

| Validitas, Reliabilitas, Analisis Butir | 5

memperoleh data tentang tes yang akan diukur validitasnya tersebut tanpa harus menunggu masa yang akan datang. a) Validitas ramalan (predictive validity) Sebagai ilustrasi adalah adanya tes masuk Perguruan Tinggi Negeri. Setelah melalui serangkaian tes maka hanya calon mahasiswa yang mempunyai skor tinggi yang diterima oleh panitia seleksi mahasiswa baru. Sesungguhnya keputusan panitia seleksi yang hanya menerima mahasiswa yang mempunyai skor tinggi saja berarti sudah

memprediksikan bahwa calon mahasiswa dengan skor tinggi tersebut kelak yang akan lebih berhasil dalam studinya. Sedangkan para calon mahasiswa yang mempunyai skor sedang apalagi rendah diprediksikan akan banyak menemui kendala dalam studinya. Oleh karena itu tes yang digunakan dalam seleksi calon mahasiwa baru tersebut akan mempunyai tingkat validitas prediktif yang tinggi apabila secara empirik terbukti bahwa prestasi belajar mereka juga baik. Dengan demikian antara skor tes masuk dengan prestasi belajar harus mempunyai korelasi yang positif. Pada kasus di atas, yang dipermasalahkan validitasnya adalah tes masuk. Oleh karena itu hasil belajar pada masa perkuliahan digunakan sebagai tolok ukur (kriterium). Adanya kesejajaran, kesesuaian, kesamaan arah antara tes seleksi masuk dengan hasil belajar mempunyai korelasi yang positif. b) Validitas bandingan (Concurent Validity) Validitas ini sering pula disebut sebagai validitas ada sekarang, validitas sama saat, validitas pengalaman, dan validitas empiris. Disebut sebagai validitas ada sekarang karena pengujiannya berdasarkan pengalaman yang saat ini sudah ada di tangan. Disebut sebagai validitas sama saat karena validitas ini segera dapat kita peroleh informasinya pada saat yang sama dengan waktu diperolehnya data hasil tes yang diukur validitasnya tersebut. Disebut validitas pengalaman (empiris) karena

| Validitas, Reliabilitas, Analisis Butir | 6

validitas ini dikaitkan dengan pengalaman yang sudah ada. Dalam hal ini pengalaman digunakan sebagai kriterium. Guna menentukan validitas bandingan ini tidak perlu menunggu waktu untuk membuktikannya. Seperti disebutkan pada alenia di atas bahwa yang berfungsi sebagai kriterium adalah data hasil pengalaman. Apabila data dari tes yang ada sekarang mempunyai hubungan yang searah dengan data hasil pengalaman maka dikatakan telah mempunyai validitas bandingan.

C. Faktor-faktor yang Mempengaruhi Validitas Faktor-faktor yang mempengaruhi validitas, antara lain : 1. Faktor dari dalam tes itu sendiri a. Petunjuk yang tidak jelas. Petunjuk yang tidak jelas menyebabkan siswa kehilangan waktu untuk sekedar memahami petunjuk pengerjaan atau bahkan tidak dapat melakukan apa yang seharusnya dilakukan. b. Penggunaan kosa kata dan struktur kalimat yang sulit. Penggunaan kosa kata atau struktur kalimat yang sulit dapat menyebabkan siswa terjebak untuk pemahaman terhadap pemahaman maksud dari sebuah pertanyaan bukan untuk menyelesaikan pertanyaan itu sendiri. c. Ambiguitas. Ambiguitas yaitu adanya kemungkinan multi tafsir juga menyebabkan menurunnya validitas sebuah tes. d. Alokasi waktu yang tidak cukup. Seharusnya sebuah tes disediakan waktu yang cukup untuk mengerjakan seluruh butir tes yang ada. Kekurangan waktu dalam menyelesaikan sebuah tes bisa jadi bukan karena siswa tidak mampu untuk menyelesaikan tesnya tetapi karena keterbatasan kesempatan untuk mengerjakannya.

| Validitas, Reliabilitas, Analisis Butir | 7

e. Penekanan yang berlebihan terhadap aspek tertentu, sehingga terlalu mudah ditebak kecenderungan dari jawaban soal akan menyebabkan menurunnya tingkat validitas soal. f. Kualitas butir tes yang tidak memadai untuk mengukur hasil belajar. Kualitas yang tidak memadai misalnya tes dimaksudkan untuk megukur kemampuan berpikir tingkat tinggi (higher order thinking) jelas tidak cukup hanya digunakan tes yang bersifat untuk mengungkap pengetahuan faktual saja. g. Susunan tes yang jelek. h. Tes terlalu pendek. i. Penyusunan butir tes yang tidak runtut . j. Pola jawaban yang mudah ditebak, misalnya pada soal pilihan ganda jawabannya adalah A semua, atau B semua atau menunjukkan pola tertentu misalnya D, C, B, A, D, C, B, A, dan sebagainya. 2. Faktor berfungsinya tes dan prosedur mengajar. Pemberian skor terhadap jawaban siswa (testee) harus dilakukan secara hati-hati jangan sampai salah tulis atau meremehkan selisih angka walaupun hanya sedikit. Hal ini akan menyebabkan hasil pengujian terhadap validitas akan memberikan makna yang berbeda. 3. Faktor administrasi dan penskoran. Tanggapan siswa yang tidak serius biasanya dijumpai pada saat siswa diminta untuk mengisi sebuah angket. Hal ini akan menyebabkan siswa mengisi angket secara sembarangan karena merasa tidak penting maupun alasan-alasan yang lain. Oleh karena itu berikan angket pada waktu dan kondisi yang tepat . 4. Faktor tanggapan siswa. 5. Hakekat kelompok dan criteria Seperti sudah dijelaskan di atas bahwa validitas bersifat spesifik. Sebuah asesmen atau instrumen alat ukur mungkin hanya valid untuk kelompok tertentu saja dan tidak valid untuk kelompok yang lain. Sebagai contoh

| Validitas, Reliabilitas, Analisis Butir | 8

misalnya sebuah tes diujicobakan pada sekelompok siswa pada sebuah sekolah dengan kualitas biasa-biasa saja tentu akan berbeda hasilnya jika tes yang sama diberikan pada sekelompok siswa pada sekolah yang favorit.

2.2 Reliabilitas A. Pengertian Reliabilitas Reliabilitas diterjemahkan dari kata reliability yang berarti hal yang dapat dipercaya (tahan uji). Sebuah tes dikatakan mempunyai reliabilitas yang tinggi jika tes terebut memberikan data hasil yang ajeg (tetap) walaupun diberikan pada waktu yang berbeda kepada responden yang sama. Hasil tes yang tetap atau seandainya berubah maka perubahan itu tidak signifikan maka tes tersebut dikatakan reliabel. Oleh karena itu reliabilitas sering disebut dengan keterpercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya. Sebuah alat ukur yang baik harus valid dan reliabel. Namun demikian validitas lebih penting dibandingkan dengan reliabilitas. Reliabilitas merupakan penyokong validitas. Sebuah alat ukur yang valid selalu reliabel. Akan tetapi alat ukur yang reliabel belum tentu valid, seperti digambarkan pada ilustrasi gambar.

B. Metode Mencari Koefisien Reliabilitas Seperti halnya validitas, reliabilitas juga merupakan tingkatan. Tingkat atau kadar reliabilitas dinyatakan dengan koefisien reliabilitas. Berikut ini akan dibahas macam-macam metode mencari besarnya koefisien reliabilitas.

| Validitas, Reliabilitas, Analisis Butir | 9

1) Metode Tes Ulang (Test Retest Method) Metode ini diterapkan untuk menghindari adanya penyusunan dua seri tes. Teknisnya adalah sebuah tes yang sama diberikan dua kali kepada responden yang sama dengan jarak waktu tertentu. Jika hasil tes pertama mempunyai kesejajaran dengan hasil tes yang kedua maka tes tersbut dikatakan reliable. Oleh karena pengujian ini dilakukan terhadap sebuah tes yang diujicobakan dua kali maka sering disebut pula sebagai single-test-double-trial-method. Kelemahan metode ini adalah jika jeda waktu tes terlalu singkat sedangkan soal tes banyak mengungkapkan aspek pengetahuan maka responden cenderung masih mengingat materi yang diteskan, sehingga ada

kemungkinan hasil tes yang kedua lebih baik daripada hasil tes pertama. Sebaliknya jika jeda waktu tes pertama dengan kedua terlalu lama dikhawatirkan banyak faktor serta situasi dan kondisi sudah banyak berubah dan mempengaruhi hasil tes yang kedua. 2) Metode Tes Sejajar (Equivalent) Metode ini mengharuskan adanya dua buah seri soal yang mempunyai kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetapi butirbutir soalnya berbeda. Dengan kata lain, dua buah tes yang digunakan harus sejajar (paralel, equivalen). Koefisien reliabilitas diperoleh dengan

mengkorelasikan hasil tes pertama dengan hasil tes kedua. Oleh karena metode ini menggunakan dua buah tes yang berbeda dan diteskan pada siswa yang sama maka disebut juga doubl test double trial method. Sudah tentu metode ini akan menambah kerepotan. Kelebihan dari metode ini adalah dapat memperbaiki kelemahan pada metode pertama yaitu terhindarnya dari kondisi siswa masih mengingat materi tes pertama. Aspek ingatan dan hafalan pada pengerjaan tes pertama tidakterbawa pada saat mengerjakan tes yang kedua. 3) Metode Tes Tunggal (Single Test Single Trial) Metode tes tunggal dilihat dari kepraktisannya lebih praktis dari pada dua metode sebelumnya. Metode ini hanya melakukan sekali tes kepada

| Validitas, Reliabilitas, Analisis Butir | 10

sekelompok subjek. Dengan demikian tidak perlu menunggu waktu maupun harus mempunyai data dari tes sejenis reliabilitasnya. untuk dapat menentukan

C. Menentukan Koefisien Reliabilitas dengan Metode Tes Tunggal a) Formula Kuder Richardson (KR20) Formula KR20 dapat diterapkan pada instrumen yang mempunyai data skor dikotomi dari tes yang seolah-olah dibagi-bagi menjadi belahan sebanyak butir yang dimiliki. Hasil perhitungan dengan rumus KR20 lebih teliti, tetapi perhitungan lebih rumit. Rumus: ( Keterangan: = koefisien reliabilitas n = banyaknya butir soal = varians skor total p = proporsi subjek yang menjawab soal secara benar q = proporsi subjek yang menjawab soal secara salah (q = 1 p) b) Formula Kuder Richardson (KR21) Formula KR21 lebih sederhana dalam perhitungannya. Kelemahannya adalah kurang teliti dibandingkan dengan KR20. Rumusnya : ( Keterangan: = koefisien reliabilitas n = banyaknya butir soal 1 = bilangan konstan = mean total (rata-rata hitung dari skor total) = varian total | Validitas, Reliabilitas, Analisis Butir | 11 )( ) )( )

c) Formula Spearman-Brown Formula Spearman-Brown hanya dapat diterapkan pada soal yang mempunyai jumlah butir genap. Formula ini menggunakan teknik belah dua ( split half method), yaitu soal dibelah menjadi 2 bagian (belahan ganjil dan belahan genap atau belahan kiri dengan belahan kanan ). Kedua belahan tersebut sejajar. Rumus :

Keterangan: = koefisien reliabilitas = koefisien korelasi product moment antara skor belahan satu dengan skor belahan yang lain 1 & 2 = bilangan konstan c) Formula Rulon Formula Rulon ini juga dapat diterapkan dengan belah dua (split half method) seperti halnya pada formula Spearman-Brown. Hanya saja cara pandangnya terhadap reliabilitas berbeda dengan Spearman-Brown. Menurut Rulon reliabilitas dapat dipandang dari adanya selisih skor yang diperoleh oleh responden pada belahan pertama dengan belahan kedua. Selisih tersebut yang menjadi sumber variasi error sehingga bila dibandingkan dengan variasi skor akan dapat menjadi dasar untuk melakukan estimasi reliabilitas tes. Rumus :

Keterangan : = koefisien reliabilitas = varians perbedaan skor belahan = varians skor total 1 = bilangan konstan | Validitas, Reliabilitas, Analisis Butir | 12

d) Formula Alpha Formula-formula di atas (Spearman-Brown, KR, Rulon) hanya berlaku untuk soal objektif yang mempunyai kemungkinan jawaban benar dan salah. Sedangkan untuk soal yang mempunyai gradualitas skor jawaban misalnya pada soal uraian ataupun pada angket (tes sikap) formula yang paling pas adalah dengan menggunakan Formula Alpha. Hal ini dimungkinkan karena Formula Alpha mengakomodasi adanya variasi skor dalam setiap butir soal. Rumus : ( Keterangan : = koefisien reliabilitas = varians skor tiap-tiap butir soal = varians skor total 1 = bilangan konstan e) Formula C. Hoyt Berbeda dengan formula-formula yang lain, C. Hoyt memandang bahwa sebuah tes dapat dipandang sebagai sebuah interaksi faktorial di mana skorskor tes dianggap sebagai hasil eksperimen. Dalam hal ini, berlaku sebagai faktor I adalah subjek (responden) sedangkan faktor II adalah butir soal. Dengan demikian masing-masing sel terdiri atas satu subjek, untuk selanjutnya dapat dicari interaksi antara subjek dengan butir soal. Kelebihan formula ini adalah dapat diterapkan baik pada soal yang mempunyai skor dikotomi 1 dan 0 maupun pada soal yang mempunyai variasi skor pada butirnya (tes sikap maupun tes uraian). Rumus : )( )

| Validitas, Reliabilitas, Analisis Butir | 13

Keterangan : = koefisien reliabilitas = mean kuadrat interaksi antara subjek dengan butir soal = mean kuadrat antarsubjek 1 = bilangan konstan f) Formula Flanagan Reliabilitas pada formula Flanagan tidak didasarkan pada ada tidaknya korelasi antara belahan I dengan belahan II. Dasar dari formula Flanagan adalah jumlah kuadrat deviasi (varians) pada tes belahan I, jumlah kuadrat (varians) deviasi pada tes belahan II, dan jumlah kuadrat deviasi (varians) skor total. Rumus : ( Keterangan: = koefisien reliabilitas = varians skor belahan 1 = varians skor belahan 2 = varians skor total 2 & 1 = bilangan konstan )

D. Faktor-faktor yang Mempengaruhi Reliabilitas 1. Jumlah butir tes Umumnya semakin besar jumlah butir soal tes samakin tinggi pula reliabilitasnya. Hal ini terjadi karena semakin panjang tes (semakin banyak butir soal) sehingga semakin banyak perilaku yang terukur dengan lebih tepat. Skorskor yang diperoleh tepat dan kemungkinan sedikit mengalami penyimpangan (distorsi) oleh adanya faktor -faktor yang sudah biasa dikenal dengan sebuah tes yang diberikan atau kurangnya pemahaman terhadap apa yang diharapkan pada sebuah tes yang diberikan. | Validitas, Reliabilitas, Analisis Butir | 14

2. Penyebaran skor Sebagai catatan awal, koefisien reliabilitas secara langsung dipengaruhi oleh penyebaran skor dalam kelompok yang diukur. Hal-hal lain menjadi sama, semakin besar penyebaran skor maka semakin besar pula indeks reliabilitas yang diperoleh. Karena semakin besar indeks reliabilitas yang dihasilkan ketika individu-individu berada pada posisi yang relatif sama dalam sebuah kelompok sebuah asesmen dengan asesmen yang lain, hal ini secara alami mengikuti bahwa segala sesuatu yang mengurangi kemungkinan bergeser nya posisi dalam kelompok juga turut andil dalam memperbesar koefisien reliabilitas. Dalam kasus ini, semakin besar perbedaan skor individu mengurangi kemungkinan pergeseran pososi. Dengan kata lain kesalahan dalam pengukuran kurang berpengaruh terhadap posisi relatif individu ketika perbedaan -perbedaan di antara anggota - anggota kelompok yang besar. Hal ini terjadi ketika skornya tersebar luas. 3. Objektivitas Objektivitas sebuah alat ukur menyatakan derajad untuk pemberi skor kompeten yang sama mendapatkan ha sil yang sama. Sebagian besar tes bakat dan tes prestasi standar mempunyai objektivitas yang tinggi. Butirbutir skor tes objektif seperti pilihan ganda dan skor yang dihasilkan tidak dipengaruhi oleh keputusan dan pendapat pemberi skor. Semakin tinggi tingkat objektivitas tes semakin tinggi pula tingkat reliabilitasnya. 4. Metode estimasi reliabilitas Saat menguji koefisien reliabilitas tes standar, memutuskan metode yang digunakan untuk menentukan besarnya koefisien reliabilitas merupakan hal yang penting. Secara umum, besarnya koefisien reliabilitas berkaitan erat dengan metode yang digunakan untuk estimasi reliabilitas.

| Validitas, Reliabilitas, Analisis Butir | 15

2.3 Analisis Butir A. Pengertian Analisis Butir Analisis butir adalah proses menguji respom-respon siswa untuk masingmasing butir tes dalam upaya menjustifikasi kualitas item. Kualitas item, khususnya direpresentasi oleh daya beda item, tingkat kesukaran item, dan khusus untuk tes pilihan ganda tidak kalah pentingnya adalah keefektifan pengecoh. Ada beberapa alasan mengapa diperlukan analisis butir soal. Alasan tersebut antara lain : a. Untuk dapat mengetahui kekuatan dan kelemahan butir tes, sehingga dapat dilakukan seleksi dan revisi butir soal. b. Untuk tersedianya informasi tentang spesifikasi butir soal secara lengkap, sehingga akan lebih memudahkan bagi guru menyusun perangkat soal yang akan memenuhi kebutuhan ujian dalam bidang dan tingkat tertentu. c. Untuk segera dapat diketahui masalah yang terkandung dalam butir soal, seperti : kemenduaan butir soal, kesalahan meletakkan kunci jawaban, soal yang terlalu sukar atau terlalu mudah, atau soal yang tidak dapat membedakan antara siswa yang mempersiapkan diri secara baik atau tidak dalam menghadapi tes. Masalah ini bila dapat diketahui dengan segera, maka memungkinkan guru untuk mengambil keputusan apakah butir soal yang bermasalah itu akan digugurkan atau tidak dalam menentukan nilai siswa. d. Untuk dijadikan alat guna menilai butir soal yang akan disimpan dalam kumpulan soal atau bank soal. Kegiatan mengumpulan butir soal yang baik menjadi kumpulan soal atau bank soal merupakan hal yang dianjurkan kepada guru. Bila seorang guru telah memiliki sejumlah besar butir soal yang baik, maka ia dengan mudah dapat menyusun suatu perangkat soal yang baik untuk digunakan dalam suatu tes. Dengan demikian guru tersebut tidak perlu khawatir akan mutu butir soal yang digunakannya, karena semua

| Validitas, Reliabilitas, Analisis Butir | 16

butir soal yang dipakai dalam ujian tersebut telah diketahui karakteristik dan spesifikasinya sebelum ujian dilakukan. e. Untuk memperoleh informasi tentang butir soal sehingga memungkinkan untuk menyusun beberapa perangkat soal yang parallel. Penyusunan perangkat seperti ini sangat bermanfaat bila akan melakukan ujian ulang atau mengukur kemampuan beberapa kelompok peserta tes dalam waktu yang berbeda.

B. Karakteristik Butir Soal Karakteristik butir soal ialah parameter kuantitatif butir soal. Dalam bidang tes dan pengukuran, dikenal beberapa parameter butir soal. Untuk tes hasil belajar umumnya dipertimbangkan 3 karakteristik butir soal, yaitu : 1. Tingkat Kesukaran Yang dimaksud tingkat kesukaran butir soal ialah proporsi peserta tes menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal biasanya dilambangkan dengan p. makin besar nilai p (yang berarti butir soal itu makin mudah. Tingkat kesukaran butir soal berkisar makin besar proporsi yang menjawab benar terhadap butir soal tersebut.), maka makin rendah tingkat kesukaran butir soal tersebut. Yang berarti antara 0.0 sampai dengan 1.0. butir soal yang mempunyai tingkat kesukaran 0.0 berarti tidak seorang pun peserta tes dapat menjawab butir soal tersebut secara benar. Tingkat kesukaran 1.0 berarti bahwa semua peserta tes dapat menjawab butir soal tersebut secara benar. Rumus untuk menghitung tingkat kesukaran ialah :

2. Daya Beda Daya beda butir soal ialah indeks yang menunjukkan tingkat kemampuan butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi rendah (kelompok bawah) di antara para peserta tes. Secara lebih singkat daya beda dapat didefinisikan sebagai

| Validitas, Reliabilitas, Analisis Butir | 17

kemampuan butir soal untuk membedakan kemampuan antar individu peserta tes. Karena daya beda dihitung dari hasil tes kelompok peserta ujian tertentu, maka dalam penafsiran daya beda pun haruslah selalu dikaitkan dengan kelompok peserta tes (kelompok sampel) tertentu itu. Daya beda suatu butir soal yang didasarkan pada hasil tes suatu kelompok belum tentu akan berlaku pada kelompok peserta tes itu sangat berbeda. 3. Tingkat Penerkaan Setiap jawaban butir soal tipe objektif mengandung kemungkinan sebagai hasil terkaan atau tebakan. Tingkat penerkaan adalah indeks yang menunjukkan probabilitas jawaban merupakan.hasil terkaan atau tebakan. Tingkat penerkaan itu adalah satu per jumlah option dalam butir soal itu. Bila butir soal itu mempunyai dua option (B S), maka tingkat penerkaannya adalah 0.50. Bila butir soal itu mempunyai tiga option, maka tingkat penerkaannya adalah 0.33, Untuk butir soal dengan empat option tingkat penerkaannya adalah 0.25. Dan butir soal yang mempunyai 5 option, tingkat penerkaannya adalah 0.20. Prinsipnya ialah makin kecil tingkat penebakan, makin baik butir soal tersebut. Tetapi butir soal yang terlalu banyak optionnya juga bukan merupakan butir soal yang baik konstruksinya. Karena itu ada semacam kesepakatan di antara para penulis buku tes dan pengukuran bahwa jumlah option yang baik adalah berkisar antara empat atau lima saja.

C. Interpretasi Data Analisis Butir Beberapa interpretasi yang dapat ditampilkan terkait dengan data analisis butir, adalah sebagai berikut. 1. Data analisis butir tidak analog dengan validitas butir. Tes-tes psikologi seyogyanya memperhitungkan validitas butir, seperti construct validity. Namun, untuk tes hasil belajar, meneliti konsistensi internal butir tampak lebih penting dibandingkan menganalisis validitasnya. Hal ini karena tes hasil belajar lebih menyandarkan diri pada validitas isi.

| Validitas, Reliabilitas, Analisis Butir | 18

Jadi kriteria internal menjadi lebih penting untuk diperhitungkan. Kriteria internal mendasarkan diri pada skor total tes. 2. Indesk Dayabeda Butir tidak selalu suatu ukuran kualitas butir. Artinya, rendahnya IDB bukan ukuran rendahnya kualitas butir tersebut. Ada beberapa alasan mengapa IDB suatu butir bisa bernilai rendah. (1) Semakin sukar atau semakin mudah suatu butir, semakin rendah IDB-nya, tetapi Guru sering membutuhkan item-item yang sukar atau mudah agar representasif terhadap karakteristik materi dantujuan belajar siswa. Jadi butir yang kualitasnya relati rendah tetap dipertimbangkan sebagai butir tes ketiak butir tersebut memang diperlukan. (2) Tujuan item hubungannya dengan tes keseluruhan akan mempengaruhi besarnya IDB. Hal ini karena skor total merupakan kriteria internal yang digunakan. Skor total merupakan gabungan skor keseluruhanbutir, baik yang sukar maupun yang mudah, dari berbagai pokok bahasan dengan segala keragaman karakteristiknya, dan dari keragaman jenjang tes. Misalkan butirpada jenjang evaluasi (C6) hanya 5% dari keseluruhan tes, kemungkinan besar butir-butir yang merepresentasikan jenjang kemampuan tersebut akan memiliki IDB yang relatif rendah, tetapi tetap dibutuhkan sebagai butir tes. 3. Data analisis butir versifat tentatif. Sering dipersepsi oleh para Guru bahwa IKB dan IDB bersifat tetap. Hal ini tidak benar. Data analisis butir dipengaruhi oleh karakteristik responden, jumlah responden, pembelajaran yang diterapkan oleh Guru, dan peluang kesalahan. Pertimbangan Guru terhadap kualitas butir hendaknya lebih ditekankan pada mampu atau tidaknya suatu butir mencerminkan pengukuran terhadap tujuan belajar dibandingkan dengan besarnya IKB dan IDB. Jadi, ketika analisis IKB dan IDB yang tidak bisa dilakukan, maka proses pengembangan butir yang lebih baik yang mampu mencerminkan validitas isi yang lebih komprehensif akan menjadi lebih penting dibandingkan dengan hanya memperhitungkan besarnya IKB dan IDB.

| Validitas, Reliabilitas, Analisis Butir | 19

4. Hindari seleksi butir-butir tes secara murni pada basis sifat-sifat statistik butir tersebut. Satu dari cara-cara terbaik untuk menseleksi butir-butir tes adalah dengan memilih butir-butir yang memiliki IKB dan IDB yang tepat. Ini bukan berarti bahwa analisis statistik menjadi faktor utama, khususnya tes hasil belajar buatan Guru untuk sekolah dasar, di mana sampel mungkin hanya 30 orang, yang boleh jadi tidak reliabel. Alasan lain, bahwa IKB bolah jadi dipengaruhi oleh cara siswa menjawab dengan tebak-tebakan, cara menempatkan jawaban benar, dan cara menempatkan urutan item pada tes tersebut. Alasan lain, bahwa seleksi secara statistik sering memberikan pertimbangan yang bias, bahwa item boleh jadi tidak mengukur tujuan 10 pembelajaran, yang berarti membuat validitas isi menjadi rendah. Menseleksi butirbutir tes akan lebih baik berdasarkan kategori taksonomi yang secara jelas telah tergambar dalam kisi-kisi tes.

| Validitas, Reliabilitas, Analisis Butir | 20

BAB III PENUTUP

3.1 Simpulan a. Validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam melakukan fungsi ukurnya. b. Macam-macam validitas, antara lain validitas isi, validitas konstruk, dan validitas berdasarkan kriteria. c. Reliabilitas sering disebut dengan keterpercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya. d. Menentukan koefisien reliabilitas dengan metode tes tunggal, antara lain dengan formula kuder Richardson (KR20), formula kuder Richardson (KR21), formula Spearman-Brown, formula Rulon, formula Alpha, formula C. Hoyt, dan formula Flanagan. e. Faktor-faktor yang mempengaruhi reliabilitas, antara lain jumlah butir tes, penyebaran skor, objektivitas, dan metode estimasi reliabilitas. f. Analisis butir adalah proses menguji respon-respon siswa untuk masingmasing butir tes dalam upaya menjustifikasi kualitas item. g. Karakteristik butir soal, antara lain tingkat kesukaran, daya beda, dan tingkat penerkaan.

3.2 Saran Sebagai calon pendidik, dalam melakukan penilaian dan evaluasi hasil belajar peserta didik membutuhkan instrumen penilaian yang valid dan reliabel agar dapat mengukur dengan baik tingkat pencapaian peserta didik. Untuk memperoleh instrumen penilaian yang valid dan reliabel maka guru harus melakukan analisis butir soal.

| Validitas, Reliabilitas, Analisis Butir | 21

DAFTAR PUSTAKA

Hamalik,Oemar.2008.Kurikulum dan Pembelajaran.Jakarta:PT Bumi Aksara Sudijono,Anas.2005.Pengantar Evaluasi Pendidikan.Jakarta:PT Raja Grafindo Persada Hamid Hasan, Asmawi Zainul.1991.Evaluasi Hasil Belajar.Departemen Pendidikan dan Kebudayaan Slameto.2001.Evaluasi Pendidikan.Jakarta:Grafika Offset

| Validitas, Reliabilitas, Analisis Butir | 22

You might also like