Professional Documents
Culture Documents
A. Definisi Validitas
Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan
kecermatan suatu instrument pengukuran (tes) dalam melakukan fungsi ukurnya. Dalam
bahasa Indonesia valid sering diwakili oleh istilah sahih (Suharsini A., 1999;65). Sahih
sendiri berasal dari bahasa arab artinya tepat atau yang benar (Ahmad Warson Munawwir,
1997:764)
Secara umum validitas merupakan kekuatan dari hasil interpretasi anda dan
menggunakan hasil penilaian (asesmen). Hasil penilaian memiliki perbedaan tingkat
validitas, yang bergantung pada bagaimana hasil di interpretasikan dan digunakan (Nitko
& Brookhart, 1996:38).
Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Validitas didefinisikan sebagai
ukuran seberapa cermat suatu tes dilakukan fungsi ukurnya. Tes hanya dapat melakukan
fungsinya dengan cermat kalau ada sesuatu yang diukurnya. Jadi, untuk dikatakan valid, tes
harus mengukur sesuatu dan melakukannya dengan cermat.
Validitas instrument tes adalah ketepatan mengukur apa yang seharusnya diukur melalui
item tes (Allen & Yen, 1979:95). Instrumen tes dalam penelitian dinyatakan valid berdasarkan
validitas fakta. Validitas fakta diperoleh melalui validitas isi, validitas kongruen dan validitas
konstrak (Ebel & Frisbie, 1986:90). Untuk itu dilakukan telaah item tes, mencari korelasi
(korelasi pearson) antara skor tiap item tes dengan skor total, dan mencari korelasi antara skor
uji coba intrumen dengan skor matematika ulangan.
Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi
apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang
sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki
validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran.
Terkandung di sini pengertian bahwa ketepatan pada validitas suatu alat ukur tergantung
pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki dengan
tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A dan kemudian memberikan
hasil pengukuran mengenai variabel A, dikatakan sebagai alat ukur yang memiliki validitas
tinggi. Suatu tes yang dimaksudkan mengukur variabel A akan tetapi menghasilkan data
mengenai variabel A' atau bahkan B, dikatakan sebagai alat ukur yang memiliki validitas
rendah untuk mengukur variabel A dan tinggi validitasnya untuk mengukur variabel A' atau B
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur
yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus
memberikan gambaran yang cermat mengenai data tersebut.
Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan
yang sekecil-kecilnya di antara subjek yang satu dengan yang lain. Sebagai contoh, dalam
bidang pengukuran aspek fisik, bila kita hendak mengetahui berat sebuah cincin emas maka
kita harus menggunakan alat penimbang berat emas agar hasil penimbangannnya valid, yaitu
tepat dan cermat. Sebuah alat penimbang badan memang mengukur berat, akan tetapi tidaklah
cukup cermat guna menimbang berat cincin emas karena perbedaan berat yang sangat kecil
pada berat emas itu tidak akan terlihat pada alat ukur berat badan.
Demikian pula kita ingin mengetahui waktu tempuh yang diperlukan dalam perjalanan
dari satu kota ke kota lainnya, maka sebuah jam tangan biasa adalah cukup cermat dan
karenanya akan menghasikan pengukuran waktu yang valid. Akan tetapi, jam tangan yang
sama tentu tidak dapat memberikan hasil ukur yang valid mengenai waktu yang diperlukan
seorang atlit pelari cepat dalam menempuh jarak 100 meter dikarenakan dalam hal itu
diperlukan alat ukur yang dapat memberikan perbedaan satuan waktu terkecil sampai kepada
pecahan detik yaitu stopwatch.
Masalah validitas berhubungan dengan sejauh mana suatu alat mampu mengukur apa yang
dianggap orang seharusnya diukur oleh alat tersebut. Definisi yang paling lazim mengenai
validitas tercerminkan dalam pertanyaan: Apakah kita benar-benar mengukur apa yang ingin
kita ukur? Dalam pertanyaan ini yang ditekankan adalah apa yang sedang diukur.
Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu akan
tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan menimbulkan kesalahan
atau eror. Alat ukur yang valid akan memiliki tingkat kesalahan yang kecil sehingga angka
yang dihasilkannya dapat dipercaya sebagai angka yang sebenarnya atau angka yang
mendekati keadaan sebenarnya.
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu,
tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur
biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan
demikian, anggapan valid seperti dinyatakan dalam "alat ukur ini valid" adalah kurang
lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan yang menunjuk kepada
tujuan (yaitu valid untuk mengukur apa), serta valid bagi kelompok subjek yang mana?
Lebih lanjut, pengertian validitas suatu tes tidaklah umum untuk semua tujuan ukur.
Sebuah tes biasanya hanya menghasilkan ukuran yang valid untuk satu tujuan ukur tertentu.
Karena itu predikat valid seperti dalam pernyataan tes ini valid tidaklah benar. Pernyataan
valid harus diiringi oleh keterangan yang menunjuk kepada tujuan, yaitu valid untuk
mengukur apa dan bagi siapa. Karena itu, suatu tes yang sangat valid guna pengambilan suatu
keputusan dapat sangat tidak berguna dalam pengambilan keputusan lain.
Berdasarkan hal di atas maka dapat disimpulkan bahwa validitas adalah suatu proses
untuk mengukur dan menggambarkan objek atau keadaan suatu aspek sesuai dengan fakta.
Dalam konsep validitas setidaknya terdapat dua makna yang terkandung di dalamnya, yaitu
relevans dan accuracy. Relevansi menunjuk pada kemampuan instrumen untuk memerankan
fungsi untuk apa instrumen tersebut dimaksudkan (what it is intended to measure). Accuracy
menunjuk ketepatan instrumen untuk mengidentifikasi aspek-aspek yang diukur secara tepat,
yang berarti dapat menggambarkan keadaan yang sebenarnya. Kedudukan validitas sangat
penting dalam suatu kegiatan termasuk dalam evaluasi pembelajaran karena menyangkut hasil
pembelajaran dilandasi dan didukung oleh fakta-fakta yang representatif. apabila tidak ada
validitas maka suatu proses maupun hasil pembelajaran tidak akan berjalan objektif
melainkan subjektif hal ini tentu akan merugikan semua pihak terutama siswa.
F. Aplikasi
Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas
kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat
dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk
menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan gagasan teoretik di
pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu konstruk,
kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-
butir instrumen yang telah dikembambangkan diujicobakan secara empiris.
Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen
dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian
secara teoretis dan secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub
pokok bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan yang diukur oleh
setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan pokok bahasan dan
subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan validitas konstruk dapat
dikaji melalui penilaian panelis. Penilaian panelis dimaksudkan untuk menilai kesesuaian
setiap butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya.
Prosedur yang digunakan adalah meminta para panelis untuk mencermati butir-butir
instrumen. Kemudian menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan
subpokok bahasan yang diukurnya.
Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan
melalui penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapat dilakukan
melalui beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan, yaitu: 1 = tidak
relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 = sangat relevan. Kedua,
menetapkan kriteria penilaian yang mencakup: (1) mengukur indikatornya; (2) hanya
memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidak bersifat faktual; dan (5) tidak
tumpang tindih dengan butir-butir lainnya. Ketiga, menetapkan pilihan, yaitu: 1 (tidak
relevan) jika hanya satu atau semua kriteria tidak terpenuhi; 2 (kurang relevan) jika hanya dua
kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang terpenuhi; 4 (relevan)
jika hanya empat kriteria yang terpenuhi; dan 5 (sangat relevan) jika semua kriteria terpenuhi.
Keempat, kualitas masing-masing butir instrumen didasarkan atas rerata hasil penilaian
panelis, dengan kriteria sebagai berikut:
Rerata Penilaian Keputusan
1,0 2,9 Tidak sesuai Direvisi
3,0 3,9 Cukup sesuai Diterima dengan revisi
4,0 5,0 SesuaiDiterima
Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba
instrumen kepada responden yang sesuai dengan karakteristik responden tempat pemberlakuan
instrumen final. Penetapan jumlah sampel dapat diacuh dari pendapat Nunnaly (1970) bahwa
untuk mengurangi resiko kehilangan butir-butir instrumen dan agar memungkinkan untuk
mengeliminasi faktor-faktor yang tidak dikehendaki maka dalam analisis instrumen
direkomendasikan untuk digunakan sampel 510 kali jumlah butir instrumen.
Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas konstruk
instrumen secara empiris. Validitas isi biasanya digunakan untuk menyebut validitas instrumen
tes, sedangkan validitas konstruk biasanya digunakan untuk menyebut validitas instrumen non
tes. Secara empiris, kedua jenis validitas tersebut dianalisis dengan cara yang berbeda.
Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk
tes pilihan ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis ini dimaksudkan
untuk mendapatkan informasi tentang: indeks kesukaran butir tes, indeks daya beda butir, dan
keberfungsian pengecoh. Disamping itu, juga untuk menentukan: korelasi biserial titik (point
biserial correlation), dan keseimbangan isi atau keterwakilan materi yang hendak diukur.
Secara empiris kelima informasi tersebut dibutuhkan karena saling berhubungan antara satu
dengan yang lainnya, dimana keberfungsian pilihan dapat meningkatkan indeks kesukaran
butir tes, indeks kesukaran butir tes dapat menentukan daya beda butir, dan indeks kesukaran
dan daya beda butir dapat mempengaruhi interkorelasi butir, dan secara keseluruhan kelima
informasi tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya prosedur analisis
butir dan penetapan kriteria untuk menerima, menolak atau merevisi butir-butir tes, secara
berturut-turut sebagai berikut:
a) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang
menjawab benar butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7
paling baik pada 0,5; karena p=0,5 dapat memberikan kontribusi optimal terhadap
korelasi biserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang
memiliki indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan
apabila ada pertimbangan keterwakilan pokok bahasan yang diukurnya.
b) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk
membedakan siswa mampu dan kurang mampu. Indeks daya beda butir mempunyai
rentang nilai 1 ke +1, namun nilai negatif dan rendah menunjukkan kinerja butir
yang rendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D 2,0.
Indeks daya beda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu
= proporsi kelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang
menjawab benar. Pembagian kelompok responden didasarkan atas pendapat Kelly
(1939) yang dikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir
yang lebih stabil dan sensitif dapat dicapai dengan menggunakan 27 persen kelompok
atas dan 27 persen kelompok bawah.
c) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes
dengan skor total. Korelasi biserial titik dapat disamakan dengan daya beda butir,
namun rpbi itu sendiri perlu dihitung karena dapat menyediakan refleksi yang
sebenarnya dari kontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi
rpbi suatu butir tes semakin tinggi kontribusinya dalam memprediksi kriteria. Suatu
butir tes dapat dipertahankan apabila memiliki rpbi 0,30.
d) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhi
syarat-syarat: (1) kunci jawaban (keyed answer) harus dipilih lebih banyak oleh
kelompok atas daripada kelompok bawah; (2) setiap penggagal (foils) harus dipilih
minimal 2 persen dari keseluruhan peserta tes dan dipilih minimal 5 persen kelompok
bawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks daya beda
penggagal harus negatif.
Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen non
tes juga diujicobakan secara empiris kepada sejumlah responden (5-10 kali jumlah butir
instrumen). Data hasil ujicoba secara empiris dari instrumen non tes biasanya dianalisis
dengan menggunakan Analisis Faktor Konfirmasi (Confirmatory Factor Analysis) dengan
menggunakan metode ekstraksi komponen utama (principle component extraction). Analisis
tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuan dalam
pengembangan instrumen, dengan cara menentukan struktur atau model faktor dari sejumlah
butir instrumen berdasarkan muatan faktor (factor loading) jumlah varians (eigenvalue), dan
proporsi varians (communality). Dalam analisis ini juga digunakan rotasi ortogonal dan
varimax. Beberapa kriteria yang dijadikan acuan dalam analisis faktor adalah:
a) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan
menggunakan rumus Kaiser-Meyer-Olkin (KMO), yaitu dengan membandingkan nilai
koefisien korelasi observasi dengan koefisien korelasi parsial (Norusis, 1996). Jika
koefisien korelasi parsial kecil maka nilai KMO besar (mendekati satu) berarti dapat
digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial besar maka
nilai KMO kecil (mendekati nol) berarti tidak dapat digunakan analisis faktor.
Jelasnya penafsiran nilai KMO diacuh dari ciri yang dikemukakan oleh Kaiser (1974)
seperti dikutip oleh Norusis (1996) bahwa KMO 0,90 baik sekali (marvelous); 0,80
baik (meritorius); 0,70 sedang (middling); 0,60 kurang (mediocre); 0,50 sangat kurang
(miserable); dan dibawah 0,50 tidak dapat diterima (unacceptable).
b) Uji Bartlett tentang bentuk matriks korelasi (Bartletts test of sphericity). Uji ini
dimaksudkan untuk memastikan apakah matriks korelasi berasal dari matriks identitas
atau bukan. Dalam uji ini digunakan pendekatan Chisquare dan dibutuhkan data yang
berasal dari populasi normal multivariat. Dengan ketentuan bahwa bila matriks
korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan selain diagonal
0) maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks korelasi bukan
matriks identitas maka dapat digunakan analisis faktor.
c) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang
dikemukakan oleh Norusis (1996) bahwa jumlah faktor harus diekstraksi sama dengan
jumlah faktor yang mempunyai varians (eigenvalue) lebih besar dari 1,0.
d) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi
komponen utama (extracting principal component) dengan rotasi ortogonal untuk
memaksimalkan varians (variance maximizing/ varimax) antara variabel utama.
Muatan faktor yang tetap dipertahankan adalah di atas 0,3. Hal ini sesuai dengan
aturan yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor yang
lebih dari 0,3 cenderung siginifikan, sebaliknya muatan faktor yang kurang dari 0,3
tidak dapat memberikan kontribusi yang siginifikan terhadap suatu faktor tertentu.
Keterangan:
= Kesalahan standad estimasi x terhadap y, yaitu deviasi standard distribusi y
untuk harga x tertentu.
= Deviasi standard skor criteria y (distribusi marginal).
= Koefisien korelasi antara predictor x dan criteria y.
Dengan asumsi homoscedasticity, maka harga akan mengecil akibat restriksi
sistematis yang terjadi. Secara umum dapat dikatakan bahwa restriksi sebaran yang
menjadikan variasi skor murni predictor mengecil akan menghasilkan underestimasi
terhadap koefisien validitas yang sesungguhnya.
. Dengan bertambah panjangnya tes sebesar J kali panjang semula, maka validitas
maksimumnya dapat dilambangkan sebagai , sehingga rasio antara validitas
maksimum setelah penambahan dan sebelum penambahan item adalah:
Dimana:
= validitas maksimum setelah memperpanjang tes menjadi J kali jumlah item semula.
Dimana:
= Mean distribusi skor golongan atas, yang biasanya diambil dari 25% subyek
yang mempunyai skor total tertinggi, untuk item i.
K. Penyebab Invaliditas
Ancaman utama terhadap validitas instrumen adalah:
1. Ketakterwakilan konstruk; menunjukkan bahwa tugas yang diukur dalam penilaian
tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak
mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang
hendak diukur oleh instrumen;
2. Penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur
terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi
konstruk. Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu
penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan
kesukaran konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan
konstruk terjadi ketika faktor-faktor luar seperti kata-kata kunci atau bentuk instrumen
memungkinkan seseorang untuk menjawab benar dengan cara yang tidak sesuai
dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi bila
aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan terhadap
sebagian atau keseluruhan anggota kelompok. Sementara bila terjadi penyimpangan
keragaman konstruk yang pertama menyebabkan seseorang memperoleh skor yang
lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan terjadinya
penyimpangan keragaman konstruk yang kedua menyebabkan seseorang memperoleh
skor yang lebih rendah dibanding dengan kemampuan yang sebenarnya.
Keterangan
Validitas mengacu pada apakah kuesioner benar-benar dapat mengukur apa yang ingin diukur
Sebagian besar validitas diukur secara logika (subyekif), hanya validitas konstruk yang dapat
diukur secar matematika/statistika.
DAFTAR PUSTAKA
Ebel, R. L., & Frisbie, D. A. (1986). Essential of educational measurement ( ed). New
Jersey: Prentice-Hall, Inc.
Djemari Mardapi, (2004). Penyusunan tes hasil belajar. Yogyakarta: Pascasarjana Univarsitas
Negeri Yogyakarta.