Professional Documents
Culture Documents
analisis diskriminan adalah teknik statistik yang tepat ketika variabel dependen adalah
kategoris ( nominal atau nonmetric) variabel dan variabel independen adalah metrik
variabel.
Dalam banyak kasus, variabel dependen terdiri dari dua kelompok atau klasifikasi,
misalnya, laki-laki dibandingkan perempuan atau tinggi dibandingkan rendah. Dalam kasus lain,
lebih dari dua kelompok yang terlibat, seperti rendah, sedang, dan klasifikasi yang tinggi. analisis
diskriminan mampu menangani baik dua kelompok atau beberapa (tiga atau lebih) kelompok.
Ketika dua klasifikasi yang terlibat, teknik ini disebut sebagai dua kelompok analisis diskriminan.
Ketika tiga atau lebih klasifikasi diidentifikasi, teknik ini disebut sebagai beberapa analisis
diskriminan (MDA). Regresi logistik terbatas dalam bentuk dasarnya untuk dua kelompok,
meskipun formulasi lain dapat menangani kelompok lagi.
Analisis diskriminan
analisis diskriminan melibatkan berasal sebuah variate. The variate diskriminan adalah
kombinasi linear dari dua (atau lebih) variabel independen yang akan melakukan diskriminasi
terbaik antara objek (orang, perusahaan, dll) di kelompok didefinisikan a priori. Diskriminasi
dicapai dengan menghitung bobot variate untuk masing-masing variabel independen untuk
memaksimalkan perbedaan antara kelompok (yaitu, antara kelompok varians relatif terhadap
varians dalam kelompok). The variate untuk analisis diskriminan, juga dikenal sebagai fungsi
diskriminan, berasal dari persamaan seperti yang terlihat pada regresi berganda. Ini mengambil
bentuk sebagai berikut:
dimana
a = intercept
Seperti dengan variate dalam regresi atau teknik multivariat lainnya kita melihat skor
diskriminan untuk setiap objek dalam analisis (orang, perusahaan, dll) menjadi penjumlahan dari
nilai yang diperoleh dengan mengalikan masing-masing variabel independen berat diskriminan
nya. Apa yang unik tentang analisis diskriminan adalah bahwa lebih dari satu fungsi diskriminan
dapat hadir, sehingga setiap objek mungkin memiliki lebih dari satu skor diskriminan. Kita akan
membahas apa yang menentukan jumlah fungsi diskriminan kemudian, tetapi di sini kita melihat
bahwa analisis diskriminan memiliki kesamaan dan unsur-unsur yang unik jika dibandingkan
dengan teknik multivariat lainnya.
Analisis diskriminan adalah teknik statistik yang sesuai untuk menguji hipotesis bahwa
kelompok berarti dari satu set variabel independen untuk dua atau lebih kelompok adalah sama.
Dengan rata-rata skor diskriminan untuk semua individu dalam kelompok tertentu, kita sampai
pada rata-rata kelompok. berarti kelompok ini disebut sebagai centroid. Ketika analisis melibatkan
dua kelompok, ada dua centroid; dengan tiga kelompok, ada tiga centroid; Dan seterusnya.
Centroids menunjukkan paling Lokasi khas dari setiap anggota dari kelompok tertentu, dan
perbandingan centroid kelompok menunjukkan seberapa jauh kelompok-kelompok yang dalam
hal fungsi diskriminan.
Tes untuk signifikansi statistik dari fungsi diskriminan adalah ukuran umum dari jarak
antara centroid kelompok. Hal ini dihitung dengan membandingkan distribusi skor diskriminan
untuk kelompok. Jika tumpang tindih dalam distribusi kecil, fungsi diskriminan memisahkan
kelompok dengan baik. Jika tumpang tindih yang besar, fungsi ini diskriminator miskin antara
kelompok. Dua distribusi skor diskriminan yang ditunjukkan pada Gambar 1 lebih lanjut
menggambarkan konsep ini. Diagram atas mewakili distribusi skor diskriminan untuk fungsi yang
memisahkan kelompok dengan baik, menunjukkan tumpang tindih minimal (daerah yang diarsir)
antara kelompok. Diagram yang lebih rendah menunjukkan distribusi skor diskriminan pada fungsi
diskriminan yang merupakan discriminator relatif miskin antara kelompok A dan B.
Analisis diskriminan beberapa unik di salah satu ciri khas antara hubungan ketergantungan.
Jika variabel dependen terdiri dari lebih dari dua kelompok, analisis diskriminan akan menghitung
lebih dari satu fungsi diskriminan. Sebagai soal fakta, itu akan menghitung NG - 1 fungsi, di
mana
NG adalah jumlah kelompok. Setiap fungsi diskriminan akan menghitung diskriminan
terpisah
Z skor. Dalam kasus variabel dependen tiga kelompok, masing-masing objek
(responden, perusahaan, dll) akan memiliki skor yang terpisah untuk fungsi diskriminan satu dan
dua, yang memungkinkan objek yang akan diplot dalam dua dimensi, dengan masing-masing
dimensi yang mewakili diskriminan sebuah fungsi. Dengan demikian, analisis diskriminan tidak
terbatas pada variate tunggal, seperti regresi berganda, tapi menciptakan beberapa variates
mewakili dimensi diskriminasi antara kelompok-kelompok.
Aplikasi dan interpretasi dari analisis diskriminan adalah sama seperti dalam analisis
regresi. Artinya, fungsi diskriminan adalah kombinasi linear (variate) dari metrik pengukuran
untuk dua atau lebih variabel independen dan digunakan untuk menggambarkan atau memprediksi
variabel dependen tunggal. Perbedaan utama adalah bahwa analisis diskriminan sesuai untuk
masalah penelitian dimana variabel dependen adalah kategorikal (nominal atau nonmetric),
sedangkan regresi digunakan ketika variabel dependen adalah metrik. Seperti dibahas sebelumnya,
regresi logistik adalah varian dari regresi dengan banyak kesamaan kecuali untuk jenis variabel
dependen.
Misalkan KitchenAid ingin menentukan apakah salah satu dari baru produk-makanan baru
dan ditingkatkan mixer-akan sukses secara komersial. Dalam melaksanakan penyelidikan,
KitchenAid terutama tertarik dalam mengidentifikasi (jika mungkin) konsumen yang akan
membeli produk baru dibandingkan dengan mereka yang tidak. Dalam terminologi statistik,
KitchenAid ingin meminimalkan jumlah kesalahan itu akan membuat dalam memprediksi
konsumen akan membeli mixer makanan baru dan mana yang tidak. Untuk membantu dalam
mengidentifikasi potensi pembeli, KitchenAid dirancang skala penilaian pada tiga karakteristik-
daya tahan, kinerja, dan gaya-yang akan digunakan oleh konsumen dalam mengevaluasi produk
baru. Daripada mengandalkan pada setiap skala sebagai ukuran terpisah, KitchenAid berharap
bahwa kombinasi tertimbang dari ketiga akan lebih baik memprediksi kemungkinan pembelian
konsumen.
Sebagai contoh, jika respon “akan membeli” selalu dikaitkan dengan rating daya tahan
tinggi dan respon “tidak akan membeli” selalu dikaitkan dengan rating daya tahan rendah,
KitchenAid bisa menyimpulkan bahwa karakteristik daya tahan membedakan pembeli dari
nonpurchasers. Sebaliknya, jika KitchenAid menemukan bahwa sekitar banyak orang dengan
rating tinggi pada gaya mengatakan mereka akan membeli mixer makanan sebagai orang-orang
yang mengatakan mereka tidak akan, maka gaya adalah karakteristik yang membedakan buruk
antara pembeli dan nonpurchasers.
Tabel 1 berisi daftar peringkat dari mixer baru pada tiga karakteristik ini (pada harga
tertentu) oleh panel 10 calon pembeli. Dalam rating mixer makanan, masing-masing anggota panel
secara implisit membandingkannya dengan produk yang sudah ada di pasaran. Setelah produk
tersebut dievaluasi, evaluator diminta untuk menyatakan niat mereka membeli ( “akan membeli”
atau “tidak akan membeli”). Lima menyatakan bahwa mereka akan membeli mixer baru dan lima
mengatakan mereka tidak akan.
Memeriksa Tabel 1 mengidentifikasi beberapa variabel diskriminatif potensial. Pertama,
perbedaan substansial memisahkan peringkat rata-rata X 1 ( daya tahan) untuk kelompok “akan
membeli” dan “tidak akan membeli” (7,4 vs 3,2). Dengan demikian, daya tahan muncul untuk
membedakan dengan baik antara kedua kelompok dan cenderung menjadi karakteristik penting
untuk calon pembeli. Sebaliknya, karakteristik gaya ( X 3) memiliki perbedaan yang jauh lebih
kecil dari 0,2 antara peringkat rata-rata (4.0 - 3.8 = 0,2) untuk kelompok “akan membeli” dan
“tidak akan membeli”. Oleh karena itu, kita akan mengharapkan karakteristik ini menjadi kurang
diskriminatif dalam hal keputusan pembelian. Namun, sebelum kita dapat membuat pernyataan
seperti itu meyakinkan, kita harus memeriksa distribusi skor untuk setiap kelompok. standar
deviasi besar dalam satu atau kedua kelompok mungkin membuat
perbedaan antara berarti tidak
signifikan dan tidak penting dalam membedakan antara kelompok.
Karena kita hanya memiliki 10 responden dalam dua kelompok dan tiga variabel
independen, kami juga dapat melihat data grafis untuk menentukan apa analisis diskriminan
mencoba mencapai. Gambar 2 menunjukkan 10 responden pada masing-masing tiga variabel. The
“akan membeli” kelompok diwakili oleh lingkaran dan “tidak akan membeli” kelompok oleh
kotak. nomor identifikasi responden berada di dalam bentuk.
Tabel 2 berisi hasil untuk tiga formulasi yang berbeda dari fungsi diskriminan, masing-
masing mewakili kombinasi yang berbeda dari tiga variabel independen.
Seperti yang terlihat dalam contoh sederhana ini, analisis diskriminan mengidentifikasi
variabel dengan perbedaan terbesar antara kelompok dan berasal koefisien diskriminan yang bobot
masing-masing variabel untuk mencerminkan perbedaan-perbedaan ini. Hasilnya adalah fungsi
diskriminan yang mendiskriminasikan terbaik antara kelompok didasarkan pada kombinasi dari
variabel independen.
Sebuah ilustrasi grafis dari analisis dua kelompok lain akan membantu untuk lebih menjelaskan
sifat dari analisis diskriminan [6]. Gambar 3 menunjukkan apa yang terjadi ketika fungsi
diskriminan dua kelompok dihitung. Asumsikan kita memiliki dua kelompok, A dan B, dan dua
pengukuran, V 1 dan V 2,
pada masing-masing anggota dari dua kelompok. Kita bisa plot dalam
diagram pencar dari asosiasi variabel V 1 dengan variabel V 2 untuk masing-masing anggota dari
dua kelompok. Pada Gambar 3 titik-titik kecil mewakili pengukuran variabel untuk anggota
kelompok B dan titik-titik besar orang untuk kelompok A. elips diambil sekitar titik-titik besar dan
kecil akan lampirkan beberapa proporsi prespecified poin, biasanya 95 persen atau lebih di setiap
kelompok. Jika kita menarik garis lurus melalui dua titik di mana elips berpotongan dan kemudian
memproyeksikan garis ke yang baru Z sumbu, kita dapat mengatakan bahwa tumpang tindih antara
distribusi univariat A dan B (diwakili oleh daerah yang diarsir) lebih kecil dari yang diperoleh oleh
jalur lain yang ditarik melalui elips yang dibentuk oleh [6] scatterplots.
Hal yang penting untuk dicatat tentang Gambar 3 adalah bahwa Z sumbu mengungkapkan
profil dua variabel kelompok A dan B sebagai nomor tunggal (skor diskriminan). Dengan
menemukan kombinasi linear dari variabel asli V 1 dan V 2, kita dapat memproyeksikan hasil
sebagai fungsi diskriminan. Sebagai contoh, jika titik-titik besar dan kecil diproyeksikan ke baru
Z sumbu sebagai diskriminan Z skor, hasilnya mengembun informasi tentang perbedaan kelompok
(ditampilkan dalam V 1 V 2 Plot) menjadi satu set poin ( Z skor) pada sumbu tunggal, yang
ditunjukkan oleh distribusi A dan B .
Untuk meringkas, untuk masalah analisis diskriminan diberikan, kombinasi linear dari
variabel independen berasal, menghasilkan serangkaian skor diskriminan untuk setiap objek dalam
setiap kelompok. Skor diskriminan dihitung sesuai dengan aturan statistik memaksimalkan varians
antara kelompok dan meminimalkan varians dalam diri mereka. Jika varians antara kelompok
besar relatif terhadap varians dalam kelompok, kita mengatakan bahwa fungsi diskriminan
memisahkan kelompok dengan baik.
Dua kelompok Contohnya saja diperiksa menunjukkan alasan dan manfaat dari
menggabungkan variabel independen dalam variate untuk tujuan membedakan antara kelompok.
analisis diskriminan juga memiliki cara lain diskriminasi-estimasi dan penggunaan beberapa
variates-dalam kasus tiga atau lebih kelompok. Fungsi-fungsi diskriminan sekarang menjadi
dimensi diskriminasi, setiap dimensi terpisah dan berbeda dari yang lain. Dengan demikian, selain
meningkatkan penjelasan dari keanggotaan kelompok, fungsi-fungsi diskriminan tambahan
menambah wawasan ke dalam berbagai kombinasi variabel independen yang membedakan antara
kelompok-kelompok.
Sebagai ilustrasi dari aplikasi tiga kelompok analisis diskriminan, kita meneliti penelitian
yang dilakukan oleh HBAT mengenai kemungkinan pelanggan pesaing beralih pemasok. Sebuah
pretest skala kecil melibatkan wawancara dari 15 pelanggan dari pesaing utama. Dalam perjalanan
dari wawancara, pelanggan diminta probabilitas mereka beralih pemasok pada skala tiga kategori.
Tiga kemungkinan tanggapan yang “pasti beralih,” “ragu-ragu,” dan “pasti tidak beralih.”
Pelanggan ditugaskan untuk kelompok 1, 2, atau 3, masing-masing, sesuai dengan tanggapan
mereka. Para pelanggan juga dinilai pesaing pada dua karakteristik: daya saing harga ( X 1) dan
tingkat layanan ( X 2). Masalah penelitian sekarang untuk menentukan apakah peringkat
pelanggan dari pesaing dapat memprediksi probabilitas mereka beralih pemasok. Karena variabel
dependen pemasok beralih diukur sebagai variabel kategoris (nonmetric) dan peringkat dari harga
dan layanan yang metrik, analisis diskriminan adalah tepat.
Tabel 3 berisi hasil survei untuk 15 pelanggan, 5 di setiap kategori variabel dependen.
Seperti yang kita lakukan pada contoh dua kelompok, kita dapat melihat nilai rata-rata untuk setiap
kelompok untuk melihat apakah salah satu variabel mendiskriminasikan baik di antara semua
kelompok. Untuk X 1, daya saing harga, kita melihat perbedaan berarti agak besar antara kelompok
1 dan kelompok 2 atau 3 (2,0 vs 4,6 atau 3,8).
X 1 mungkin membedakan dengan baik antara
kelompok 1 dan kelompok 2 atau 3, tetapi jauh kurang efektif dalam membedakan antara
kelompok 2 dan 3. Untuk X 2, tingkat layanan, kita melihat bahwa perbedaan antara kelompok 1
dan 2 sangat kecil (2,0 vs 2,2), sedangkan perbedaan besar antara kelompok 3 dan kelompok 1
atau 2 (6.2 vs 2.0 atau 2.2). Demikian, X 1 membedakan kelompok 1 dari kelompok 2 dan 3, dan
X 2 membedakan kelompok 3 dari kelompok 1 dan 2. Sebagai hasilnya, kami melihat bahwa X 1
dan X 2 memberikan yang berbeda ukuran diskriminasi antara kelompok.
Gambar 4 juga berisi plot masing-masing responden dalam representasi dua dimensi.
Pemisahan antara kelompok sekarang menjadi cukup jelas, dan masing-masing kelompok dapat
dengan mudah dibedakan. Kita dapat membangun nilai-nilai pada setiap dimensi yang akan
menentukan daerah yang berisi masing-masing kelompok (misalnya, semua anggota kelompok 1
adalah di wilayah tersebut kurang dari 3,5 pada dimensi 1 dan kurang dari 4,5 pada dimensi 2).
Masing-masing dari kelompok lain dapat didefinisikan sama dalam hal rentang skor fungsi
diskriminan mereka.
Dari segi dimensi diskriminasi, fungsi diskriminan pertama, daya saing harga,
membedakan antara pelanggan ragu-ragu (ditunjukkan dengan persegi) dan para pelanggan yang
telah memutuskan untuk beralih (lingkaran). Tapi daya saing harga tidak membedakan orang-
orang yang telah memutuskan untuk tidak beralih (berlian). Sebaliknya, persepsi tingkat layanan,
mendefinisikan fungsi diskriminan kedua, memprediksi apakah pelanggan akan memutuskan
untuk tidak beralih dibandingkan apakah pelanggan ragu-ragu atau bertekad untuk beralih
pemasok. peneliti dapat hadir untuk manajemen dampak yang terpisah dari kedua daya saing harga
dan tingkat layanan dalam membuat keputusan ini.
Estimasi lebih dari satu fungsi diskriminan, bila mungkin, menyediakan peneliti dengan
kedua ditingkatkan diskriminasi dan perspektif tambahan pada fitur dan kombinasi yang terbaik
membedakan antara kelompok-kelompok. Bagian berikut detail langkah-langkah yang diperlukan
untuk melakukan analisis diskriminan, menilai tingkat dari prediksi fit, dan kemudian menafsirkan
pengaruh variabel independen dalam membuat prediksi itu.
KEPUTUSAN PROSES UNTUK ANALISIS DISKRIMINAN
Penerapan analisis diskriminan dapat dilihat dari enam tahap perspektif model bangunan
digambarkan pada Gambar 5 (tahap 1-3) dan Gambar 6 (tahap 4-6). Seperti dengan semua aplikasi
multivariat, menetapkan tujuan adalah langkah pertama dalam analisis. Maka peneliti harus
mengatasi masalah desain yang spesifik dan pastikan asumsi yang mendasari terpenuhi. Hasil
analisis dengan derivasi dari fungsi diskriminan dan penentuan apakah fungsi signifikan secara
statistik dapat diturunkan untuk memisahkan dua (atau lebih) kelompok. Hasil diskriminan
kemudian dinilai untuk akurasi prediksi dengan mengembangkan matriks klasifikasi. Berikutnya,
interpretasi dari fungsi diskriminan menentukan variabel independen memberikan kontribusi
paling untuk membedakan antara kelompok. Akhirnya, fungsi diskriminan harus divalidasi dengan
sampel ketidaksepakatan. Masing-masing tahap ini dibahas dalam bagian berikut.
Sebuah tinjauan dari tujuan untuk menerapkan analisis diskriminan harus lebih memperjelas
sifatnya. analisis diskriminan dapat mengatasi salah satu tujuan penelitian sebagai berikut:
1. Menentukan apakah perbedaan yang signifikan secara statistik ada antara skor rata-rata
profil di satu set variabel untuk dua (atau lebih) a priori kelompok didefinisikan
2. Menentukan variabel independen yang paling account untuk perbedaan dalam profil skor
rata-rata dari dua atau lebih kelompok
3. Menetapkan jumlah dan komposisi dimensi diskriminasi antara kelompok dibentuk dari
set variabel independen
4. Menetapkan prosedur untuk mengklasifikasikan obyek (individu, perusahaan, produk, dll)
ke dalam kelompok atas dasar nilai mereka pada satu set variabel independen
Seperti tercantum dalam tujuan-tujuan ini, analisis diskriminan berguna ketika peneliti tertarik
baik dalam memahami perbedaan kelompok atau benar mengklasifikasikan objek ke dalam
kelompok atau kelas. analisis diskriminan, oleh karena itu, dapat dianggap baik jenis analisis profil
atau teknik prediksi analitis. Dalam kedua kasus, teknik yang paling tepat dalam situasi dengan
variabel dependen kategori tunggal dan beberapa variabel independen secara metrik skala.
• Sebagai analisis profil, analisis diskriminan memberikan penilaian obyektif dari perbedaan
antara kelompok pada seperangkat variabel independen. Dalam situasi ini, analisis
diskriminan sangat mirip dengan analisis multivariat varians. Untuk memahami perbedaan
kelompok, analisis diskriminan meminjamkan wawasan peran variabel individu serta
mendefinisikan kombinasi dari variabel-variabel ini yang mewakili dimensi diskriminasi
antara kelompok-kelompok. Dimensi ini adalah efek kolektif dari beberapa variabel yang
bekerja bersama-sama untuk membedakan antara kelompok. Penggunaan metode estimasi
sekuensial juga memungkinkan untuk mengidentifikasi subset variabel dengan kekuatan
diskriminatif terbesar.
• Untuk tujuan klasifikasi, analisis diskriminan memberikan dasar untuk mengklasifikasikan
tidak hanya sampel yang digunakan untuk memperkirakan fungsi diskriminan tetapi juga
setiap pengamatan lain yang dapat memiliki nilai-nilai untuk semua variabel independen.
Dengan cara ini, analisis diskriminan dapat digunakan untuk mengklasifikasikan
pengamatan lainnya ke dalam kelompok didefinisikan.
Untuk menerapkan analisis diskriminan, peneliti harus terlebih dahulu menentukan variabel yang
menjadi tindakan independen dan variabel mana adalah menjadi ukuran tergantung. Ingat bahwa
variabel dependen adalah nonmetric dan variabel independen adalah metrik.
Variabel dependen Peneliti harus fokus pada variabel dependen pertama. Jumlah
kelompok variabel dependen (kategori) bisa dua atau lebih, tetapi kelompok-kelompok ini harus
saling eksklusif dan lengkap. Dengan kata lain, setiap pengamatan dapat ditempatkan ke dalam
hanya satu kelompok. Dalam beberapa kasus, variabel dependen mungkin melibatkan dua
kelompok (dikotomis), seperti baik versus buruk. Dalam kasus lain, variabel dependen mungkin
melibatkan beberapa kelompok (multichotomous), seperti pekerjaan dokter, pengacara, atau
profesor.
1. Selain menjadi saling eksklusif dan lengkap, kategori variabel dependen
harus berbeda
dan unik pada set variabel independen yang dipilih. Analisis diskriminan mengasumsikan
bahwa masing-masing kelompok harus memiliki profil yang unik pada variabel
independen yang digunakan dan dengan demikian mengembangkan fungsi diskriminan
untuk maksimal memisahkan kelompok berdasarkan ini variabel. analisis diskriminan
tidak, bagaimanapun, memiliki sarana menampung atau menggabungkan kategori yang
tidak berbeda pada variabel independen. Jika dua atau lebih kelompok memiliki profil
cukup mirip, analisis diskriminan tidak akan dapat unik profil masing-masing kelompok,
sehingga penjelasan lebih miskin dan klasifikasi kelompok secara keseluruhan. Dengan
demikian, peneliti harus memilih variabel dependen dan kategori untuk mencerminkan
perbedaan dalam variabel independen. Sebuah contoh akan membantu menggambarkan
masalah ini.
Asumsikan peneliti ingin mengidentifikasi perbedaan antara kategori pekerjaan
berdasarkan pada sejumlah karakteristik demografis (misalnya, karakteristik pendapatan,
pendidikan, rumah tangga). Jika pekerjaan yang diwakili oleh sejumlah kecil kategori
(misalnya, kerah biru, kerah putih, ulama / staf, dan profesional / atas manajemen), maka
kita akan mengharapkan perbedaan yang unik antara kelompok dan analisis diskriminan
yang terbaik dapat mengembangkan fungsi diskriminan yang akan menjelaskan
perbedaan kelompok dan berhasil mengklasifikasikan individu ke dalam kategori yang
benar mereka.
2. Peneliti juga harus berusaha, semua hal lain sama, untuk yang lebih kecil daripada yang
lebih besar
jumlah kategori dalam ukuran tergantung. Ini mungkin tampak lebih logis
untuk memperluas jumlah kategori mencari kelompok yang lebih unik, tetapi memperluas
jumlah kategori menyajikan lebih kompleksitas dalam profil dan klasifikasi tugas analisis
diskriminan. Jika analisis diskriminan dapat memperkirakan hingga NG - 1 (jumlah
kelompok minus satu) fungsi diskriminan, maka peningkatan jumlah kelompok
memperluas jumlah kemungkinan fungsi diskriminan, meningkatkan kompleksitas dalam
mengidentifikasi dimensi yang mendasari diskriminasi tercermin oleh masing-masing
fungsi diskriminan serta mewakili efek keseluruhan dari masing-masing variabel bebas.
Sebagai dua masalah ini menyarankan, peneliti harus selalu menyeimbangkan keinginan untuk
memperluas kategori untuk meningkatkan keunikan versus peningkatan efektivitas dalam
sejumlah kecil kategori. peneliti harus mencoba dan memilih variabel dependen dengan kategori
yang memiliki perbedaan maksimum antara semua kelompok tetap menjaga baik dukungan
konseptual dan relevansi manajerial.
Konversi Variabel Metric. Contoh sebelumnya dari variabel kategori yang dikotomi
benar (atau multichotomies). Dalam beberapa situasi, bagaimanapun, analisis diskriminan sesuai
bahkan jika variabel dependen bukan nonmetric (kategoris) variabel yang benar. Kita mungkin
memiliki variabel dependen yang merupakan ordinal atau pengukuran selang yang ingin kita
gunakan sebagai variabel dependen kategoris. Dalam kasus tersebut, kita harus membuat variabel
kategoris, dan dua pendekatan yang paling umum digunakan:
• Pendekatan yang paling umum adalah untuk menetapkan kategori menggunakan skala
metrik. Sebagai contoh, jika kita memiliki variabel yang diukur rata-rata jumlah minuman
cola yang dikonsumsi per hari, dan individu merespon pada skala dari nol sampai delapan
atau lebih per hari, kita bisa membuat trikotomi buatan (tiga kelompok) dengan hanya
menunjuk orang-orang individu yang mengkonsumsi tidak ada, satu, atau dua minuman
cola per hari sebagai pengguna ringan, mereka yang mengonsumsi tiga, empat, atau lima
per hari sebagai pengguna media, dan mereka yang mengkonsumsi enam, tujuh, delapan,
atau lebih sebagai pengguna berat. Prosedur tersebut akan membuat tiga kelompok
kategoris variabel di mana tujuannya adalah untuk membedakan antara ringan, menengah,
dan pengguna berat cola. Sejumlah kelompok kategorial dapat dikembangkan. Paling
sering, pendekatan akan melibatkan menciptakan dua, tiga, atau empat kategori.
• Ketika tiga atau lebih kategori yang dibuat, kemungkinan timbul dari memeriksa hanya
kelompok ekstrim dalam analisis diskriminan dua kelompok. Itu ekstrem kutub pendekatan
melibatkan membandingkan hanya ekstrim dua kelompok dan tidak termasuk kelompok
menengah dari analisis diskriminan. Misalnya, peneliti bisa memeriksa ringan dan
pengguna berat minuman cola dan belum termasuk pengguna menengah. Pendekatan ini
dapat digunakan setiap saat peneliti ingin meneliti hanya kelompok ekstrim. Namun,
peneliti juga mungkin ingin mencoba pendekatan ini ketika hasil dari analisis regresi yang
tidak sebagus diantisipasi. prosedur tersebut dapat membantu karena ada kemungkinan
bahwa perbedaan kelompok mungkin muncul meskipun hasil regresi miskin. Artinya,
ekstrem kutub pendekatan dengan analisis diskriminan dapat mengungkapkan perbedaan
yang tidak menonjol dalam analisis regresi dari kumpulan data lengkap [6]. manipulasi
seperti data secara alami akan memerlukan hati-hati dalam menafsirkan temuan seseorang.
Variabel independen Setelah keputusan telah dibuat pada variabel dependen, peneliti harus
menentukan variabel independen untuk memasukkan dalam analisis. variabel independen biasanya
dipilih dalam dua cara. Pendekatan pertama melibatkan mengidentifikasi variabel baik dari
penelitian sebelumnya atau dari model teoritis yang merupakan dasar yang mendasari pertanyaan
penelitian. Pendekatan kedua adalah intuisi-memanfaatkan pengetahuan peneliti dan intuitif
memilih variabel yang tidak ada penelitian sebelumnya atau teori ada tapi itu secara logis mungkin
terkait dengan memprediksi kelompok untuk variabel dependen.
Dalam kedua kasus, variabel independen yang paling tepat adalah mereka yang berbeda di
setidaknya dua dari kelompok variabel dependen. Ingat bahwa tujuan dari setiap variabel
independen adalah untuk menyajikan profil unik dari setidaknya satu kelompok dibandingkan
dengan orang lain. Variabel yang tidak berbeda di seluruh kelompok yang jarang digunakan dalam
analisis diskriminan.
Ukuran sampel
Analisis diskriminan, seperti teknik multivariat lainnya, dipengaruhi oleh ukuran sampel yang
dianalisis. Sangat sampel kecil memiliki begitu banyak sampling error bahwa identifikasi dari
semua tapi perbedaan terbesar adalah mustahil. Selain itu, ukuran sampel yang sangat besar akan
membuat semua perbedaan signifikan secara statistik, meskipun perbedaan-perbedaan yang sama
mungkin memiliki sedikit atau tidak ada relevansi manajerial. Dalam antara ekstrem, peneliti harus
mempertimbangkan dampak dari ukuran sampel pada analisis diskriminan, baik di tingkat
keseluruhan dan secara kelompok-by-kelompok.
CONTOH UKURAN PER KATEGORI Selain ukuran sampel keseluruhan, peneliti juga harus
mempertimbangkan ukuran sampel dari masing-masing kategori. Minimal, ukuran kelompok
terkecil dari kategori harus melebihi jumlah variabel independen. Sebagai pedoman praktis, setiap
kategori harus memiliki setidaknya 20 observasi. Bahkan ketika semua kategori melebihi 20
pengamatan, bagaimanapun, peneliti harus juga mempertimbangkan ukuran relatif dari kategori.
variasi luas dalam ukuran kelompok akan berdampak pada estimasi fungsi diskriminan dan
klasifikasi observasi. Pada tahap klasifikasi, kelompok yang lebih besar memiliki kesempatan
proporsional lebih tinggi dari klasifikasi. Jika ukuran kelompok yang sangat bervariasi, peneliti
mungkin ingin secara acak sampel dari kelompok yang lebih besar (s), sehingga mengurangi
ukuran mereka ke tingkat yang sebanding dengan kelompok yang lebih kecil (s). Selalu ingat,
namun, untuk mempertahankan ukuran sampel yang memadai baik secara keseluruhan dan untuk
setiap kelompok.
Divisi Sampel
Satu catatan terakhir tentang dampak ukuran sampel dalam analisis diskriminan. Seperti yang akan
dibahas kemudian dalam tahap 6, sarana disukai memvalidasi analisis diskriminan adalah untuk
membagi sampel menjadi dua subsampel, yang digunakan untuk estimasi fungsi diskriminan dan
lain untuk tujuan validasi. Dalam hal pertimbangan ukuran sampel, adalah penting bahwa setiap
sub-sampel menjadi ukuran yang memadai untuk mendukung kesimpulan dari hasil. Dengan
demikian, semua pertimbangan yang dibahas dalam bagian sebelumnya berlaku tidak hanya untuk
total sampel, tetapi juga untuk masing-masing dua subsampel (terutama subsampel digunakan
untuk estimasi). Tidak ada aturan keras-dan-cepat telah ditetapkan, tetapi tampaknya logis bahwa
peneliti akan ingin setidaknya 100 dalam total sampel untuk membenarkan membaginya ke dalam
dua kelompok.
Ketika memilih analisis dan ketidaksepakatan sampel, satu biasanya mengikuti prosedur
pengambilan sampel secara proporsional stratified. Asumsikan pertama bahwa peneliti yang
diinginkan 50-50 split. Jika kelompok-kelompok kategorial untuk analisis diskriminan sama-sama
diwakili dalam total sampel, maka estimasi dan ketidaksepakatan sampel harus dari ukuran kira-
kira sama. Jika kelompok-kelompok asli tidak sama, ukuran estimasi dan ketidaksepakatan sampel
harus proporsional dengan total distribusi sampel. Misalnya, jika sampel terdiri dari 50 laki-laki
dan 50 perempuan, estimasi dan ketidaksepakatan sampel akan memiliki 25 laki-laki dan 25
perempuan. Jika sampel mengandung 70 perempuan dan 30 laki-laki, maka estimasi dan
ketidaksepakatan sampel akan terdiri dari 35 perempuan dan 15 laki-laki masing-masing.
Seperti semua teknik multivariat, analisis diskriminan didasarkan pada sejumlah asumsi. Asumsi
ini berhubungan dengan kedua proses statistik yang terlibat dalam estimasi dan klasifikasi
prosedur dan isu-isu yang mempengaruhi interpretasi hasil. Bagian berikut membahas setiap
jenis asumsi dan dampak pada aplikasi yang tepat dari analisis diskriminan.
Asumsi utama untuk menurunkan fungsi diskriminan adalah normalitas multivariat variabel
independen dan tidak diketahui (tapi sama) dispersi dan kovarians struktur (matriks) untuk
kelompok seperti yang didefinisikan oleh variabel dependen [7, 9]. Meskipun bukti dicampur
mengenai sensitivitas analisis diskriminan pelanggaran asumsi ini, peneliti harus selalu memahami
dampak pada hasil yang bisa diharapkan. Apalagi jika asumsi dilanggar dan obat potensial yang
tidak dapat diterima atau tidak mengatasi keparahan masalah, peneliti harus mempertimbangkan
metode alternatif (misalnya, regresi logistik).
DAMPAK TERHADAP ESTIMASI Data tidak memenuhi asumsi normalitas multivariat dapat
menyebabkan masalah dalam estimasi fungsi diskriminan. Remedies dimungkinkan melalui
transformasi data untuk mengurangi kesenjangan antara matriks kovarians. Namun, dalam banyak
kasus obat ini tidak efektif. Dalam situasi ini, model harus benar-benar divalidasi akan. Jika ukuran
tergantung adalah biner, regresi logistik harus digunakan jika mungkin.
DAMPAK KLASIFIKASI Matriks kovarians yang tidak sama juga negatif mempengaruhi proses
klasifikasi. Jika ukuran sampel kecil dan matriks kovarians tidak sama, maka signifikansi statistik
dari proses estimasi terpengaruh. Semakin besar kemungkinan kasus adalah bahwa dari
covariances yang tidak sama antara kelompok ukuran sampel yang memadai, dimana pengamatan
overclassified ke dalam kelompok-kelompok dengan matriks kovarians yang lebih besar. Efek ini
dapat diminimalkan dengan meningkatkan ukuran sampel dan juga dengan menggunakan matriks
kovarians kelompok tertentu untuk tujuan klasifikasi, tetapi pendekatan ini mandat cross-validasi
dari hasil diskriminan. Akhirnya, teknik klasifikasi kuadrat tersedia dalam berbagai program
statistik jika perbedaan besar ada antara matriks kovarians dari kelompok dan obat tidak
meminimalkan efek [5, 10, 12].
Karakteristik lain dari data yang mempengaruhi hasil adalah multikolinieritas di antara variabel
independen. Multikolinearitas, diukur dari segi toleransi, menunjukkan bahwa dua atau lebih
variabel independen sangat berkorelasi, sehingga satu variabel dapat sangat dijelaskan atau
diprediksi oleh variabel lain (s) dan dengan demikian itu menambah sedikit kekuatan penjelas dari
seluruh set. Pertimbangan ini menjadi sangat penting ketika prosedur bertahap bekerja. peneliti,
dalam menafsirkan fungsi diskriminan, harus menyadari tingkat multikolinearitas dan yang
dampak pada menentukan variabel memasuki solusi bertahap.
Seperti halnya teknik multivariat menggunakan variate sebuah, asumsi implisit adalah
bahwa semua hubungan yang linear. hubungan nonlinier tidak tercermin dalam fungsi diskriminan
kecuali transformasi variabel tertentu yang dibuat untuk mewakili efek nonlinear. Akhirnya,
outlier dapat memiliki dampak besar pada keakuratan klasifikasi dari setiap hasil analisis
diskriminan. Peneliti didorong untuk memeriksa semua hasil untuk kehadiran outlier dan untuk
menghilangkan outlier benar jika diperlukan.
Untuk menurunkan fungsi diskriminan, peneliti harus menentukan metode estimasi dan kemudian
menentukan jumlah fungsi yang harus dipertahankan (lihat Gambar 6). Dengan fungsi perkiraan,
secara keseluruhan model fit dapat dinilai dalam beberapa cara. Pertama, diskriminan Z skor, juga
dikenal sebagai Z skor, dapat dihitung untuk setiap objek. Perbandingan kelompok berarti
(centroid) di Z Skor menyediakan satu ukuran diskriminasi antara kelompok-kelompok. akurasi
prediksi dapat diukur sebagai jumlah observasi diklasifikasikan ke dalam kelompok-kelompok
yang benar, dengan sejumlah kriteria yang tersedia untuk menilai apakah proses klasifikasi
mencapai praktis atau signifikansi statistik. Akhirnya, diagnostik casewise dapat mengidentifikasi
ketepatan klasifikasi masing-masing kasus dan dampak relatif terhadap keseluruhan estimasi
model.
Tugas pertama dalam menurunkan fungsi diskriminan (s) adalah untuk memilih metode estimasi.
Dalam membuat pilihan ini, peneliti harus menyeimbangkan kebutuhan untuk kontrol atas proses
estimasi versus keinginan untuk kekikiran dalam fungsi diskriminan. Dua metode yang tersedia
adalah metode simultan (langsung) dan metode stepwise, masing-masing dibahas berikutnya.
ESTIMASI SIMULTAN estimasi simultan melibatkan komputasi fungsi diskriminan sehingga
semua variabel independen dianggap secara bersamaan. Dengan demikian, fungsi diskriminan
dihitung berdasarkan seluruh himpunan variabel independen, terlepas dari kekuatan diskriminatif
dari masing-masing variabel independen. Metode simultan sesuai ketika, karena alasan teoritis,
peneliti ingin untuk memasukkan semua variabel independen dalam analisis dan tidak tertarik
melihat hasil antara hanya berdasarkan variabel paling diskriminatif.
ESTIMASI STEPWISE Estimasi stepwise adalah sebuah alternatif untuk pendekatan simultan.
Ini melibatkan memasukkan variabel independen ke dalam fungsi diskriminan satu per satu atas
dasar kekuatan diskriminatif mereka. Pendekatan bertahap mengikuti proses berurutan
menambahkan atau menghapus variabel dengan cara sebagai berikut:
Metode stepwise berguna ketika peneliti ingin untuk mempertimbangkan jumlah yang
relatif besar variabel independen untuk dimasukkan dalam fungsi. Dengan berurutan memilih
variabel terbaik diskriminatif berikutnya di setiap langkah, variabel yang tidak berguna dalam
membedakan antara kelompok dieliminasi dan satu set mengurangi variabel diidentifikasi. set
berkurang biasanya adalah hampir sama baiknya-dan kadang-kadang lebih baik dari-set lengkap
variabel.
Peneliti harus mencatat bahwa estimasi bertahap menjadi kurang stabil dan
digeneralisasikan sebagai rasio ukuran sampel untuk penurunan variabel independen di bawah
tingkat yang direkomendasikan dari 20 pengamatan per variabel independen. Hal ini sangat
penting dalam hal ini untuk memvalidasi hasil dalam berbagai cara yang mungkin.
Signifikansi statistik
Setelah estimasi fungsi diskriminan (s), peneliti harus menilai tingkat signifikansi untuk kekuatan
diskriminatif kolektif dari fungsi diskriminan (s) serta signifikansi masing-masing fungsi
diskriminan yang terpisah. Mengevaluasi signifikansi keseluruhan menyediakan peneliti dengan
informasi yang diperlukan untuk memutuskan apakah akan melanjutkan ke interpretasi analisis
atau jika respecification diperlukan. Jika model keseluruhan yang signifikan, maka mengevaluasi
fungsi individu mengidentifikasi fungsi (s) yang harus dipertahankan dan diinterpretasikan.
SIGNIFIKANSI KESELURUHAN Dalam menilai signifikansi statistik dari model keseluruhan,
kriteria statistik yang berbeda berlaku untuk simultan terhadap prosedur estimasi bertahap. Dalam
kedua situasi, uji statistik berhubungan dengan kemampuan fungsi diskriminan (s) untuk
memperoleh diskriminan Z skor yang secara signifikan berbeda antara kelompok.
PENTINGNYA FUNGSI DISKRIMINAN INDIVIDU Jika jumlah kelompok tiga atau lebih,
maka peneliti harus memutuskan tidak hanya apakah diskriminasi antara kelompok keseluruhan
signifikan secara statistik tetapi juga apakah masing-masing fungsi diskriminan yang diperkirakan
adalah signifikan secara statistik. Seperti dibahas sebelumnya, analisis diskriminan
memperkirakan fungsi satu kurang diskriminan dari ada kelompok-kelompok. Jika tiga kelompok
dianalisis, maka dua fungsi diskriminan akan diestimasi; untuk empat kelompok, tiga fungsi akan
diperkirakan; dan seterusnya. Program komputer semua memberikan peneliti informasi yang
diperlukan untuk memastikan jumlah fungsi yang dibutuhkan untuk mendapatkan signifikansi
statistik, tanpa termasuk fungsi diskriminan yang tidak meningkatkan daya diskriminatif secara
signifikan.
Kriteria penting konvensional 0,05 atau di luar sering digunakan, namun beberapa peneliti
memperpanjang tingkat signifikansi yang diperlukan (misalnya, 0,10 atau lebih) berdasarkan
trade-off biaya versus nilai informasi. Jika tingkat yang lebih tinggi dari risiko termasuk hasil yang
tidak signifikan (misalnya, tingkat signifikansi> 0,05) dapat diterima, fungsi diskriminan dapat
dipertahankan yang signifikan pada 0,2 atau bahkan tingkat 0,3.
Jika satu atau lebih fungsi dianggap tidak signifikan secara statistik, model diskriminan
harus reestimated dengan sejumlah fungsi untuk diturunkan terbatas pada sejumlah fungsi yang
signifikan. Dengan cara ini, penilaian akurasi prediksi dan interpretasi dari fungsi diskriminan
akan didasarkan hanya pada fungsi signifikan.
Menilai keseluruhan Model Fit
Setelah fungsi diskriminan signifikan telah diidentifikasi, perhatian bergeser ke memastikan fit
keseluruhan fungsi diskriminan dipertahankan (s). Penilaian ini melibatkan tiga tugas:
Untuk setiap observasi dalam sampel. Skor diskriminan bertindak sebagai representasi ringkas dan
sederhana dari masing-masing fungsi diskriminan, menyederhanakan proses interpretasi dan
penilaian dari kontribusi independen variabel. Kelompok dapat dibedakan dengan skor
diskriminan mereka dan, seperti yang akan kita lihat, skor diskriminan dapat memainkan peran
penting dalam memprediksi keanggotaan kelompok.
where
a = intercept
Centroid kelompok pada setiap fungsi diskriminan juga dapat diplot untuk menunjukkan
hasil dari perspektif grafis. Plot biasanya disiapkan untuk dua atau tiga fungsi diskriminan pertama
(dengan asumsi mereka adalah fungsi signifikan secara statistik). Nilai-nilai untuk setiap
kelompok menunjukkan posisinya dalam mengurangi ruang diskriminan (disebut demikian karena
tidak semua fungsi dan dengan demikian tidak semua dari varian diplot). peneliti dapat melihat
perbedaan antara kelompok pada masing-masing fungsi; Namun, inspeksi visual tidak benar-benar
menjelaskan apa perbedaan ini. Lingkaran dapat ditarik melampirkan distribusi pengamatan di
sekitar centroid masing-masing untuk memperjelas perbedaan kelompok lebih lanjut, tetapi
prosedur ini adalah di luar lingkup teks ini (lihat Dillon dan Goldstein [3]).
• Cutting Skor Perhitungan Menggunakan fungsi diskriminan dianggap signifikan, kita dapat
mengembangkan matriks klasifikasi dengan menghitung skor cutting ( juga disebut kritis nilai
Z) untuk setiap fungsi diskriminan. Skor pemotongan adalah kriteria terhadap yang skor
diskriminan setiap objek dibandingkan untuk menentukan ke dalam kelompok yang objek harus
diklasifikasikan. Skor pemotongan merupakan titik pemisah yang digunakan untuk
mengklasifikasikan pengamatan ke kelompok berdasarkan diskriminan skor fungsi mereka.
Perhitungan nilai pemotongan antara dua kelompok didasarkan pada dua centroid kelompok
(group rata skor diskriminan) dan ukuran relatif dari kedua kelompok. Centroid kelompok
mudah dihitung dan diberikan pada setiap tahap proses bertahap.
Dengan kata lain, masing-masing kelompok diasumsikan memiliki kesempatan yang sama
terjadi bahkan jika ukuran kelompok dalam sampel tidak sama. Jika peneliti tidak yakin tentang
apakah proporsi yang diamati dalam sampel adalah wakil dari proporsi populasi, pendekatan
konservatif untuk menggunakan probabilitas yang sama. Dalam beberapa kasus estimasi
probabilitas sebelumnya mungkin tersedia, seperti dari penelitian sebelumnya. Berikut asumsi
default probabilitas sebelum sama diganti dengan nilai yang ditetapkan oleh peneliti. Dalam kedua
contoh, ukuran kelompok yang sebenarnya diganti berdasarkan probabilitas sebelum yang
ditentukan.
Namun, jika sampel dilakukan secara acak dan peneliti merasa bahwa ukuran kelompok
mewakili populasi, maka peneliti dapat menentukan probabilitas sebelum didasarkan pada sampel
estimasi. Dengan demikian, ukuran kelompok yang sebenarnya diasumsikan perwakilan dan
digunakan secara langsung dalam perhitungan skor pemotongan (lihat pembahasan berikut).
Dalam semua kasus, bagaimanapun, peneliti harus menentukan bagaimana probabilitas sebelum
harus dihitung, yang mempengaruhi ukuran kelompok yang digunakan dalam perhitungan seperti
yang diilustrasikan.
𝑁𝐴 𝑍𝐵 + 𝑁𝐵 𝑍𝐴
𝑍𝐶𝑆 =
𝑁𝐴 +𝑁𝐵
dimana
Dengan ukuran kelompok yang tidak sama, skor pemotongan yang optimal untuk fungsi
diskriminan sekarang rata-rata tertimbang dari centroid kelompok. Skor pemotongan tertimbang
terhadap kelompok yang lebih kecil, mudah-mudahan membuat untuk klasifikasi yang lebih baik
dari kelompok yang lebih besar.
Jika kelompok-kelompok yang ditentukan untuk menjadi ukuran yang sama (probabilitas
sebelum didefinisikan sebagai sama), maka skor pemotongan optimum akan setengah jalan antara
dua centroid kelompok dan menjadi hanya rata-rata dari dua centroid:
𝑍𝐴 + 𝑍𝐵
𝑍𝐶𝐸 =
2
Dimana
Kedua rumus untuk menghitung skor pemotongan optimal berasumsi bahwa distribusi adalah
normal dan struktur dispersi kelompok yang dikenal.
Konsep skor pemotongan optimal untuk kelompok yang sama dan tidak sama
diilustrasikan dalam Gambar 7 dan 8, masing-masing. Baik tertimbang dan skor pemotongan
tertimbang yang akan ditampilkan. Hal ini jelas bahwa jika kelompok A jauh lebih kecil dari
kelompok B, skor pemotongan yang optimal akan lebih dekat dengan pusat massa dari kelompok
A daripada ke pusat massa dari kelompok B. Juga, jika skor pemotongan tertimbang digunakan,
tidak satupun dari benda-benda di grup A akan kesalahan klasifikasi, tetapi sebagian besar dari
mereka dalam kelompok B akan kesalahan klasifikasi.
Dalam prakteknya, ketika menghitung skor pemotongan, tidak perlu untuk memasukkan
pengukuran variabel baku untuk
setiap individu ke dalam fungsi diskriminan dan untuk
mendapatkan skor diskriminan untuk setiap orang untuk digunakan dalam menghitung Z
SEBUAH dan Z B ( kelompok A dan centroid B). Program komputer akan memberikan skor
diskriminan serta Z SEBUAH dan Z B sebagai output biasa. Ketika peneliti memiliki centroid
kelompok dan ukuran sampel, skor pemotongan yang optimal dapat
diperoleh hanya dengan
mengganti nilai-nilai ke dalam rumus yang tepat.
Klasifikasi dari setiap pengamatan dapat dicapai melalui salah satu dari pendekatan
klasifikasi dibahas sebelumnya. Untuk pendekatan Fisher, observasi diklasifikasikan ke dalam
kelompok dengan terbesar skor fungsi klasifikasi. Bila menggunakan skor diskriminan dan skor
pemotongan optimal, prosedur adalah sebagai berikut:
atau
dimana
Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks, seperti yang ditunjukkan
pada Tabel 4. entri pada diagonal matriks tersebut merupakan jumlah individu diklasifikasikan
dengan benar. Nomor off diagonal mewakili klasifikasi yang salah. Entri di bawah kolom berlabel
“Sebenarnya Grup Size” merupakan jumlah individu sebenarnya di masing-masing dua kelompok.
Entri di bagian bawah kolom merupakan jumlah individu ditugaskan untuk kelompok dengan
fungsi diskriminan. Persentase diklasifikasikan dengan benar untuk setiap kelompok ditampilkan
di sisi kanan dari matriks, dan persentase keseluruhan diklasifikasikan dengan benar, juga dikenal
sebagai rasio hit, ditampilkan di bagian bawah.
Dalam contoh kita, jumlah orang benar ditugaskan untuk kelompok 1 adalah 22, sedangkan
3 anggota kelompok 1 yang tidak benar ditugaskan untuk kelompok 2. Demikian pula, jumlah
klasifikasi yang benar untuk
Kelompok 2 adalah 20, dan jumlah tugas yang tidak benar untuk kelompok 1 adalah 5. Dengan
demikian, persentase akurasi klasifikasi fungsi diskriminan untuk kelompok yang sebenarnya 1
dan 2 adalah 88 dan 80 persen, masing-masing. Akurasi klasifikasi keseluruhan (rasio hit) adalah
84 persen.
Salah satu topik akhir mengenai prosedur klasifikasi adalah t Tes yang tersedia untuk menentukan
tingkat signifikansi untuk akurasi klasifikasi. Rumus untuk analisis dua kelompok (ukuran sampel
yang sama) adalah
Dimana
N = ukuran sampel
Formula ini dapat diadaptasi untuk digunakan dengan lebih kelompok dan ukuran sampel yang
tidak sama.
• Standar Perbandingan untuk Ratio Hit untuk Equal Grup Ukuran Ketika ukuran sampel dari
kelompok yang sama, penentuan klasifikasi kesempatan agak sederhana; diperoleh dengan
membagi 1 dengan jumlah kelompok. Rumusnya adalah:
Misalnya, untuk fungsi dua kelompok probabilitas kesempatan akan 0,50; untuk fungsi tiga kelompok probabilitas
• Standar Perbandingan untuk Ratio Hit untuk tidak merata Grup Ukuran Penentuan
klasifikasi kesempatan untuk situasi
di mana ukuran kelompok tidak sama agak lebih terlibat.
Haruskah kita menganggap hanya kelompok terbesar, probabilitas gabungan dari semua
kelompok ukuran yang berbeda, atau standar lainnya? Mari kita asumsikan bahwa kita memiliki
sampel total 200 observasi dibagi menjadi ketidaksepakatan dan analisis sampel dari 100
observasi masing-masing. Dalam sampel ketidaksepakatan, 75 mata pelajaran milik satu
kelompok dan 25 yang lain. Kami akan memeriksa cara yang mungkin di mana kita dapat
membangun standar untuk perbandingan dan apa masing-masing mewakili.
Dalam contoh sederhana kami sampel dengan dua kelompok (75 dan 25 orang masing-
masing), menggunakan metode ini akan menetapkan 75 persen akurasi klasifikasi, apa yang akan
dicapai dengan mengelompokkan orang ke dalam kelompok terbesar tanpa bantuan fungsi
diskriminan. Dapat disimpulkan bahwa kecuali fungsi diskriminan mencapai akurasi klasifikasi
yang lebih tinggi dari 75 persen, itu harus diabaikan karena belum membantu kami meningkatkan
akurasi prediksi kita bisa mencapai tanpa menggunakan analisis diskriminan sama sekali.
• Ketika ukuran kelompok yang tidak sama dan peneliti ingin benar mengidentifikasi anggota semua
kelompok, bukan hanya kelompok terbesar, kriteria kesempatan proporsional dianggap oleh
banyak untuk menjadi yang paling tepat. Rumus untuk kriteria ini adalah
CPRO = p2 + (1 – p)2
Dimana
Menggunakan ukuran kelompok dari contoh sebelumnya kami (75 dan 25), kita melihat bahwa
kriteria kesempatan proporsional akan 62,5 persen [0,75 2 + ( 1,0-0,75) 2 = . 625] dibandingkan
dengan 75 persen. Oleh karena itu, dalam hal ini, ketepatan prediksi yang sebenarnya dari 75
persen mungkin dapat diterima karena berada di atas kriteria kesempatan proporsional 62,5 persen.
• Masalah dengan baik kesempatan maksimum atau kriteria kesempatan proporsional adalah ukuran
sampel yang digunakan untuk menghitung standar. Apakah Anda menggunakan ukuran kelompok
dari keseluruhan sampel, sampel analisis / estimasi, atau validasi / sampel ketidaksepakatan?
Beberapa saran:
• Jika ukuran sampel analisis dan estimasi sampel masing-masing dianggap cukup besar (yaitu,
jumlah sampel sebanyak 100 dengan
masing-masing kelompok memiliki setidaknya 20
kasus), berasal standar terpisah untuk masing-masing sampel.
• Jika sampel terpisah tidak dianggap cukup besar, gunakan ukuran kelompok dari total sampel
dalam menghitung standar.
• Menyadari ukuran kelompok berbeda antara sampel bila menggunakan kriteria kesempatan
maksimal, karena tergantung pada ukuran kelompok terbesar. pedoman ini sangat penting
ketika ukuran sampel kecil atau ketika kelompok ukuran proporsi variatif dari sampel ke
sampel. Ini adalah alasan lain untuk berhati-hati dalam penggunaan kriteria kesempatan
maksimal.
• Kriteria Model kesempatan ini berguna hanya jika dihitung dengan sampel ketidaksepakatan
(pendekatan split-sampel). Jika individu yang digunakan dalam menghitung fungsi diskriminan
adalah orang-orang yang diklasifikasikan, hasilnya akan bias ke atas dalam akurasi prediksi.
Dalam kasus tersebut, kedua kriteria ini harus disesuaikan ke atas untuk memperhitungkan bias
ini.
Misalnya, jika akurasi kesempatan adalah 50 persen, akurasi klasifikasi harus 62,5 persen
(62,5% = 1,25 × 50%). Jika akurasi kesempatan adalah 30 persen, akurasi klasifikasi harus
37,5
persen (37,5% = 1,25 × 30%).
Kriteria ini hanya menyediakan perkiraan kasar dari tingkat akurasi prediksi. Kriteria ini
mudah untuk menerapkan dengan kelompok-kelompok dengan ukuran yang sama. Dengan
kelompok ukuran yang tidak sama, batas atas tercapai ketika model kesempatan maksimum
digunakan untuk menentukan akurasi kesempatan. Ini tidak hadir terlalu besar masalah, namun,
karena dalam berbagai situasi, model kesempatan maksimum tidak akan digunakan dengan ukuran
kelompok yang tidak sama.
Secara keseluruhan Versus Rasio Hit Group-Spesifik. Untuk saat ini, kami fokus pada
evaluasi rasio hit keseluruhan di semua kelompok dalam menilai akurasi prediksi dari analisis
diskriminan. Peneliti juga harus peduli dengan rasio hit (persen diklasifikasikan dengan benar)
untuk setiap kelompok yang terpisah. Jika Anda fokus hanya pada rasio hit keseluruhan, adalah
mungkin bahwa satu atau lebih kelompok, terutama kelompok-kelompok kecil, mungkin memiliki
rasio hit tidak dapat diterima sedangkan rasio hit keseluruhan dapat diterima. peneliti harus
mengevaluasi rasio hit masing-masing kelompok dan menilai apakah analisis diskriminan
menyediakan tingkat yang memadai akurasi prediksi baik di tingkat keseluruhan serta untuk setiap
kelompok.
Statistik Berdasarkan Ukuran Klasifikasi Akurasi Relatif untuk Chance. Sebuah uji
statistik untuk kekuatan diskriminatif dari matriks klasifikasi bila dibandingkan dengan model
kesempatan adalah
press Q statistik. ukuran sederhana ini membandingkan jumlah klasifikasi
yang benar dengan total ukuran sampel dan jumlah kelompok. nilai dihitung kemudian
dibandingkan dengan nilai kritis (nilai chi-square untuk 1 derajat kebebasan pada tingkat
kepercayaan yang diinginkan). Jika melebihi nilai kritis ini, maka matriks klasifikasi dapat
dianggap statistik lebih baik dari kesempatan. Itu
Q statistik dihitung dengan rumus berikut:
Dimana
Diagnostik Casewise
Sarana final menilai model fit adalah untuk menguji hasil prediksi atas dasar kasus per
kasus. Serupa dengan analisis residual regresi ganda, tujuannya adalah untuk memahami yang
pengamatan (1) telah kesalahan klasifikasi dan (2) tidak mewakili anggota kelompok yang tersisa.
Meskipun matriks klasifikasi memberikan akurasi klasifikasi secara keseluruhan, itu tidak detail
hasil kasus individu. Juga, bahkan jika kita dapat menunjukkan kasus-kasus yang benar atau salah
diklasifikasikan, kita masih membutuhkan ukuran kesamaan pengamatan terhadap sisa kelompok.
Profil pada Variabel Independen. Memeriksa kasus ini pada variabel independen dapat
mengidentifikasi tren nonlinear atau hubungan atau atribut lain yang menyebabkan kesalahan
klasifikasi tersebut. Beberapa teknik yang sangat tepat dalam analisis diskriminan:
• Sebuah representasi grafis dari pengamatan mungkin yang paling sederhana namun efektif
pendekatan untuk meneliti karakteristik pengamatan, terutama pengamatan kesalahan
klasifikasi. Pendekatan yang paling umum adalah untuk merencanakan pengamatan
berdasarkan diskriminan mereka Z skor dan menggambarkan tumpang tindih antara
kelompok-kelompok dan kasus-kasus kesalahan klasifikasi. Jika dua atau lebih fungsi
dipertahankan, titik-titik pemotongan yang optimal juga dapat digambarkan untuk
memberikan apa yang dikenal sebagai
peta wilayah menggambarkan daerah yang sesuai
dengan masing-masing kelompok.
• Merencanakan pengamatan individu bersama dengan centroid kelompok, seperti yang
dibahas sebelumnya, menunjukkan tidak
hanya karakteristik kelompok umum
digambarkan dalam centroid, tetapi juga variasi dalam anggota kelompok. Hal ini analog
dengan daerah yang sudah ditentukan pada contoh tiga kelompok di awal bab ini, di mana
pemotongan skor pada kedua fungsi daerah yang sudah ditentukan sesuai dengan prediksi
klasifikasi untuk masing-masing kelompok.
• Sebuah penilaian empiris langsung dari kesamaan pengamatan terhadap anggota kelompok
yang lain dapat dilakukan dengan mengevaluasi Mahalanobis D 2 jarak pengamatan ke
centroid kelompok. Berdasarkan set variabel independen, pengamatan lebih dekat ke pusat
massa memiliki Mahalanobis yang lebih kecil D 2 dan diasumsikan lebih mewakili
kelompok daripada mereka lebih jauh.
• Ukuran empiris harus dikombinasikan dengan analisis grafis, namun, karena meskipun
Mahalanobis besar D 2 nilai tidak menunjukkan pengamatan yang cukup berbeda dari
centroid kelompok, itu tidak selalu menunjukkan kesalahan klasifikasi. Misalnya, dalam
situasi dua kelompok, anggota kelompok A mungkin memiliki Mahalanobis besar D 2
jarak, menunjukkan kurang perwakilan kelompok. Namun, jika jarak yang jauh dari pusat
massa kelompok B, maka akan benar-benar meningkatkan kesempatan klasifikasi yang
benar, meskipun kurang perwakilan kelompok. Sebuah jarak yang lebih kecil yang
menempatkan sebuah pengamatan antara dua centroid mungkin akan memiliki
kemungkinan lebih rendah dari klasifikasi yang benar, meskipun lebih dekat dengan pusat
massa kelompoknya daripada situasi sebelumnya.
Meskipun tidak ada analisis prespecified ditetapkan, seperti ditemukan dalam regresi
berganda, peneliti didorong untuk mengevaluasi kasus-kasus kesalahan klasifikasi dari beberapa
perspektif dalam upaya untuk mengungkap fitur unik yang mereka pegang dibandingkan dengan
anggota kelompok mereka yang lain.
Jika fungsi diskriminan signifikan secara statistik dan akurasi klasifikasi diterima, peneliti harus
fokus pada pembuatan penafsiran substantif temuan. Proses ini melibatkan memeriksa fungsi
diskriminan untuk menentukan kepentingan relatif dari masing-masing variabel independen dalam
membedakan antara kelompok. Tiga metode penentuan kepentingan relatif telah diusulkan:
Berat diskriminan
Pendekatan tradisional untuk menafsirkan fungsi diskriminan meneliti tanda dan besarnya standar
berat diskriminan ( juga disebut sebagai koefisien diskriminan) ditugaskan untuk setiap variabel
dalam menghitung fungsi diskriminan. Ketika tanda diabaikan, masing-masing berat badan
merupakan kontribusi relatif dari variabel yang terkait dengan fungsi itu. variabel bebas dengan
bobot yang relatif lebih besar kontribusi lebih kepada kekuatan diskriminatif dari fungsi daripada
variabel dengan bobot yang lebih kecil. tanda menunjukkan hanya itu variabel membuat baik
positif atau kontribusi negatif.
Penafsiran bobot diskriminan adalah analog dengan interpretasi bobot beta dalam analisis
regresi dan karena itu tunduk pada kritik yang sama. Misalnya, berat badan kecil mungkin
menunjukkan baik bahwa variabel yang sesuai adalah tidak relevan dalam menentukan hubungan
atau yang telah partialed dari hubungan karena tingkat tinggi multikolinearitas. Masalah lain
dengan penggunaan bobot diskriminan adalah bahwa mereka tunduk pada ketidakstabilan yang
cukup. Masalah-masalah ini menyarankan hati-hati dalam menggunakan bobot untuk menafsirkan
hasil analisis diskriminan.
Muat diskriminan
Salah satu karakteristik unik dari beban adalah bahwa beban dapat dihitung untuk semua
variabel, apakah mereka digunakan dalam estimasi fungsi diskriminan atau tidak. Aspek ini sangat
berguna ketika prosedur estimasi bertahap digunakan dan beberapa variabel yang tidak termasuk
dalam fungsi diskriminan. Daripada harus ada cara untuk memahami dampaknya relatif mereka,
beban memberikan efek relatif dari setiap variabel pada ukuran umum.
Dengan beban, pertanyaan utama adalah: Apa nilai harus beban mencapai dipertimbangkan
diskriminator substantif patut dicatat? Dalam kedua analisis diskriminan simultan atau bertahap,
variabel yang menunjukkan pemuatan; 0,40 atau lebih tinggi dianggap substantif. Dengan prosedur
bertahap, tekad ini dilengkapi karena teknik mencegah variabel tidak signifikan memasuki fungsi.
Namun, multikolinearitas dan faktor lainnya mungkin menghalangi variabel memasuki
persamaan, yang tidak selalu berarti bahwa itu tidak memiliki efek yang cukup besar.
Beban diskriminan (seperti bobot) dapat dikenakan ketidakstabilan. Beban dianggap relatif
lebih valid dari bobot sebagai sarana menafsirkan kekuatan diskriminatif variabel independen
karena sifat korelasional mereka. Peneliti masih harus berhati-hati ketika menggunakan beban
untuk menafsirkan fungsi diskriminan.
Sebagian F nilai-nilai
Seperti yang dibahas sebelumnya, dua komputasi pendekatan-simultan dan bertahap-dapat
dimanfaatkan dalam menurunkan fungsi diskriminan. Ketika metode stepwise dipilih, sarana
tambahan menafsirkan kekuatan diskriminatif relatif dari variabel independen tersedia melalui
penggunaan parsial F nilai-nilai. Hal ini dilakukan dengan memeriksa ukuran absolut dari
signifikan F nilai-nilai dan peringkat mereka. Besar F nilai-nilai menunjukkan kekuatan
diskriminatif yang lebih besar. Dalam prakteknya, peringkat menggunakan F Pendekatan nilai-
nilai yang sama dengan peringkat yang diperoleh dari menggunakan bobot diskriminan, tetapi F
nilai-nilai menunjukkan tingkat terkait signifikansi untuk masing-masing variabel.
Dalam kasus dua atau lebih fungsi diskriminan signifikan, kita dihadapkan dengan masalah
tambahan penafsiran. Pertama, bisa kita menyederhanakan bobot diskriminan atau beban untuk
memfasilitasi profiling masing-masing fungsi? Kedua, bagaimana kita mewakili dampak dari
setiap variabel di semua fungsi? Masalah-masalah ini ditemukan baik dalam mengukur efek
diskriminatif Total di seluruh fungsi dan dalam menilai peran masing-masing variabel dalam profil
masing-masing fungsi secara terpisah. Kami membahas dua pertanyaan ini dengan
memperkenalkan konsep rotasi fungsi, indeks potensi, dan membentang vektor representasi.
POTENSI INDEX Sebelumnya, kita bahas dengan menggunakan bobot standar atau
beban diskriminan sebagai ukuran kontribusi variabel untuk fungsi diskriminan. Ketika dua atau
lebih fungsi yang berasal Namun, suatu ukuran gabungan atau ringkasan berguna dalam
menggambarkan kontribusi dari variabel di semua fungsi yang signifikan. Itu indeks potensi adalah
ukuran relatif antara semua variabel dan merupakan indikasi dari kekuatan diskriminatif masing-
masing variabel ini [14]. Ini mencakup kontribusi variabel ke fungsi diskriminan (memuat
diskriminan) dan kontribusi relatif dari fungsi untuk solusi
secara keseluruhan (ukuran relatif
antara fungsi berdasarkan nilai eigen). komposit hanyalah jumlah dari indeks potensi individu di
semua fungsi diskriminan signifikan. Interpretasi dari ukuran gabungan terbatas, namun, oleh fakta
bahwa itu hanya berguna dalam menggambarkan posisi relatif (seperti urutan peringkat) dari
masing-masing variabel, dan nilai
absolut tidak memiliki arti sebenarnya. Indeks potensi
dihitung dengan proses dua langkah:
Langkah 1 : Menghitung nilai potensi masing-masing variabel untuk setiap fungsi yang
signifikan. Pada langkah pertama,
kekuatan diskriminasi dari variabel, yang
diwakili oleh nilai kuadrat dari pemuatan diskriminan unrotated, adalah
“tertimbang” oleh kontribusi relatif dari fungsi diskriminan untuk solusi secara
keseluruhan. Pertama, ukuran eigen relatif untuk masing-masing fungsi
diskriminan signifikan dihitung hanya sebagai:
Eigen Relatif
Nilai Eigen dari Fungsi Diskriminan j
dari Fungsi = Jumlah dari Nilai Eigen di Semua Fungsi yang Signifikan
Diskriminan j
Nilai potensi variabel i pada fungsi j = (Diskriminan Loadingij)2 x Nilai Eigen Relatif Fungsi j
Langkah 2 : Hitung indeks potensi komposit di semua fungsi yang signifikan. Setelah nilai
potensi
telah dihitung untuk setiap fungsi, indeks potensi komposit untuk
masing-masing variabel dihitung sebagai:
Teritorial Peta. Metode grafis yang paling umum adalah peta wilayah, di mana setiap
pengamatan diplot dalam tampilan grafis berdasarkan fungsi diskriminan Z Skor dari pengamatan.
Sebagai contoh, asumsikan bahwa analisis diskriminan tiga kelompok memiliki dua signifikan
fungsi diskriminan. Sebuah peta wilayah dibuat dengan memplot diskriminan setiap pengamatan
ini Z
skor untuk fungsi diskriminan pertama pada sumbu X dan skor untuk fungsi diskriminan
kedua pada sumbu Y. Dengan demikian, ia menyediakan beberapa perspektif tentang analisis:
Vektor Plot diskriminan Muat. Pendekatan grafis sederhana untuk menggambarkan beban
diskriminan adalah untuk merencanakan beban diputar atau unrotated sebenarnya pada grafik.
Pendekatan ini lebih suka akan merencanakan beban diputar. Mirip dengan penggambaran grafis
dari faktor loadings, metode ini menggambarkan sejauh mana masing-masing variabel
berhubungan dengan masing-masing fungsi diskriminan.
Bahkan lebih akurat pendekatan,
bagaimanapun, melibatkan merencanakan beban serta vektor Menggambarkan untuk setiap
bongkar kelompok massa. SEBUAH vektor hanyalah garis lurus yang ditarik dari titik asal (pusat)
dari grafik untuk koordinat beban diskriminan variabel tertentu atau centroid kelompok. Dengan
vektor membentang representasi, panjang setiap vektor menjadi indikasi kepentingan relatif dari
setiap variabel dalam membedakan antara kelompok-kelompok. Prosedur merencanakan hasil
dalam tiga langkah:
1. Memilih variabel: Semua variabel, baik yang termasuk dalam model signifikan atau tidak,
mungkin
diplot sebagai vektor. Dengan cara ini, pentingnya variabel collinear yang tidak
disertakan, seperti dalam larutan bertahap, masih bisa digambarkan.
2. Peregangan vektor: beban diskriminan masing-masing variabel yang membentang dengan
mengalikan
diskriminan pemuatan (sebaiknya setelah rotasi) oleh univariat masing-
masing F nilai. Kami mencatat bahwa vektor menunjuk ke arah kelompok memiliki rata-
rata tertinggi pada prediktor masing-masing dan jauh dari kelompok-kelompok yang
memiliki skor terendah rata-rata.
3. Memplot centroid kelompok: Centroid kelompok juga membentang dalam prosedur ini
dengan multitafsir
mengalikan mereka dengan perkiraan F nilai yang terkait dengan
masing-masing fungsi diskriminan. Jika beban yang membentang, centroid harus
meregang juga untuk plot mereka secara akurat pada grafik yang sama. perkiraan F nilai-
nilai untuk setiap fungsi diskriminan diperoleh dengan rumus berikut:
𝑁Estimation Sample − NG
𝐹 valueFunction 𝑖 = Eigen valueFunction𝑖 ( )
𝑁𝐺 − 1
Dimana
Estimation Sample = Ukuran sampel atas sampel estimasi
Beberapa metode untuk menafsirkan sifat fungsi diskriminan telah dibahas, baik untuk
single dan multiple-fungsi solusi. Metode yang harus digunakan? Loadings pendekatan lebih valid
dari penggunaan bobot dan harus dimanfaatkan bila memungkinkan. Penggunaan univariat dan
parsial F nilai-nilai memungkinkan peneliti untuk menggunakan beberapa langkah-langkah dan
mencari beberapa konsistensi dalam evaluasi dari variabel. Jika dua atau lebih fungsi diperkirakan,
maka peneliti dapat menggunakan beberapa teknik grafis dan indeks potensi, yang membantu
dalam menafsirkan solusi multidimensi. Hal yang paling mendasar adalah bahwa peneliti harus
menggunakan semua metode yang tersedia untuk sampai pada penafsiran yang paling akurat.
Tahap akhir dari analisis diskriminan melibatkan memvalidasi hasil diskriminan untuk
memberikan jaminan bahwa hasil memiliki validitas eksternal maupun internal. Dengan
kecenderungan analisis diskriminan untuk mengembang rasio hit jika dievaluasi hanya pada
sampel analisis, validasi merupakan langkah penting. Selain memvalidasi rasio hit, peneliti harus
menggunakan grup profiling untuk memastikan bahwa cara kelompok merupakan indikator yang
valid dari model konseptual yang digunakan dalam memilih variabel independen.
Prosedur validasi
Validasi merupakan langkah penting dalam setiap analisis diskriminan karena berkali-kali,
terutama dengan sampel yang lebih kecil, hasilnya bisa kurang generalisasi (validitas eksternal).
Pendekatan yang paling umum untuk mendirikan validitas eksternal adalah penilaian dari rasio hit.
Validasi dapat terjadi baik dengan sampel terpisah (ketidaksepakatan sampel) atau memanfaatkan
prosedur yang berulang kali memproses sampel estimasi. validitas eksternal didukung ketika rasio
hit dari pendekatan yang dipilih melebihi standar perbandingan yang mewakili akurasi prediksi
yang diharapkan secara kebetulan (lihat pembahasan sebelumnya).
Peneliti lain telah menyarankan bahwa kepercayaan yang lebih besar bisa ditempatkan di
keabsahan fungsi diskriminan dengan mengikuti prosedur ini beberapa kali [14]. Alih-alih secara
acak membagi total sampel dalam analisis dan ketidaksepakatan kelompok sekali, peneliti secara
acak akan membagi total sampel dalam analisis dan ketidaksepakatan sampel beberapa kali, setiap
kali pengujian validitas fungsi diskriminan melalui pengembangan matriks klasifikasi dan rasio
hit . Kemudian beberapa rasio hit akan dirata-ratakan untuk mendapatkan ukuran tunggal.
Cross-validasi cukup sensitif terhadap ukuran sampel yang kecil. Pedoman menyarankan
bahwa itu digunakan hanya ketika ukuran kelompok terkecil adalah setidaknya tiga kali jumlah
variabel prediktor, dan sebagian besar peneliti menyarankan rasio 5: 1 [11]. Namun, cross-validasi
mungkin merupakan satu-satunya pendekatan validasi mungkin dalam kasus di mana sampel asli
terlalu kecil untuk membagi ke dalam analisis dan ketidaksepakatan sampel tapi masih melebihi
pedoman sudah dibahas. Cross-validasi juga menjadi lebih banyak digunakan sebagai program
komputer utama menyediakan sebagai program pilihan.
Teknik validasi lain adalah dengan profil kelompok pada variabel independen untuk memastikan
korespondensi mereka dengan basis konseptual yang digunakan dalam formulasi model asli.
Setelah peneliti mengidentifikasi variabel independen yang membuat kontribusi terbesar dalam
membedakan antara kelompok, langkah berikutnya adalah untuk membuat karakteristik kelompok
berdasarkan kelompok berarti. Profil ini memungkinkan peneliti untuk memahami karakter
masing-masing kelompok sesuai dengan variabel prediktor.
Pendekatan lain adalah untuk profil kelompok pada satu set terpisah dari variabel yang harus
mencerminkan perbedaan kelompok yang diamati. profil yang terpisah ini memberikan penilaian
terhadap validitas eksternal dalam kelompok bervariasi pada kedua variabel independen (s) dan
set variabel terkait.