You are on page 1of 8

ANALISIS DATA MINING UNTUK KLASIFIKASI PENYAKIT LEUKIMIA

DENGAN ALGORITMA NAÏVE BAYES

DATA ANALYZE TO CLASSIFICATION DISEASE LEUKIMIA


WITH NAÏVE BAYES ALGORITHM

Huda Sepriandi Ibrahim, Riyan Nursyalim,M. Zahra, Dwi Wahyu A.S, Panca Kurniawan

Program Studi Ilmu S1 Komputasi Fakultas Informatika Universitas Telkom


hudasepriandi@student.telkomuniversity.ac.id, riyannursyalim@student.telkomuniversity.ac.id,
muhzhr@student.telkomuniversity.ac.id, wahyuakbar@student.telkomuniversity.ac.id,
pancakur@student.telkomuniversity.ac.id.

Abstrak
Naïve Bayes Classifier merupakan salah satu metode algoritma yang digunakan untuk membuat model klasifikasi
berdasarkan data yang dikumpulkan. Dengan menggunakan Teorema Bayes bisa mendapatkan model klasifikasi
untuk membedakan objek kelasnya. Dalam jurnal ini diklasifikasikan 2 jenis penyakit leukemia yaitu ALL(kanker
yang mempengaruhi sel darah putih yang masih muda) dan AML(kanker pada sel darah dan tulang sum-sum
bagian belakang). Dilakukan 2 skenario klasifikasi yaitu dengan menormalisasi data terlebih dahulu dan tidak.
Hasilnya kedua skenario mempunyai tingkat akurasi mencapai 100%

Kata Kunci : Leukimia,Normalisasi, Data Mining, Naïve Bayes Classifier

Abstract
Naïve Bayes Classifier Is one of algorithm can be using for build a model based on data. With TByes Theorm we
can get a model classification for sever object class. In this Journal we clasificationg 2 types of leukimia disease .
The type is ALL (cancer who influence young white blood cell) and AML (Cancer in all blood cel and back bone).
We make 2 scenario . The first scenario is normalization data and second with real dat. The result, accuration of
all scenario is 100%

1. Pendahuluan

Data Mining adalah serangkaian proses untuk menggali informasi yang selama ini tidak diketahui
secara manual ataupun dari aplikasi yang biasa digunakan dalam mengolah data seperti MS Excel. Pengalian
data itu dapat dilakukan dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data
yang terdapat dalam data. Pola itu yang nantinya akan menjadi informasi yang berguna untuk kepentingan
yang ada.

Data mining biasa juga dikenal nama lain seperti : Knowledge discovery (mining) in databases (KDD),
ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan kecerdasan bisnis (business intelligence).
Data mining merupakan alat yang penting untuk memanipulasi data untuk penyajian informasi sesuai
kebutuhan user dengan tujuan untuk membantu dalam analisis koleksi pengamatan perilaku. secara umum
definisi data-mining dapat diartikan sebagai berikut:

 Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
 Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit, sebefumnya belum
diketahui potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumfah besar.
 Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah besar
untuk mencari pola dan aturan yang berarti.

Salah satu metode klasifikasi adalah teorema Bayes. Teorema Bayes dikemukakan oleh seorang
pendeta presbyterian Inggris pada tahun 1763 yang bernama Thomas Bayes. Teorema Bayes digunakan untuk
menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil observasi.

Probabilitas Bayesian adalah suatu interpretasi dari kalkulus yang memuat konsep probabilitas sebagai derajat
dimana suatu pernyataan dipercaya benar. Teori Bayesian juga dapat digunakan sebagai alat pengambilan
keputusan untuk memperbaharui tingkat kepercayaan dari suatu informasi.

Teori probabilitas Bayesian merupakan satu dari cabang teori statistik matematik yang memungkinkan
kita untuk membuat satu model ketidakpastian dari suatu kejadian yang terjadi dengan menggabungkan
pengetahuan umum dengan fakta dari hasil pengamatan.

Teori Bayesian menurut Grainner (1998), mempunyai beberapa kelebihan, yaitu:

1. Mudah untuk dipahami.


2. Hanya memerlukan pengkodean yang sederhana.
3. Lebih cepat dalam penghitungan.

Kekurangan dari Teori probabilitas Bayesian yang banyak dikritisi oleh para ilmuwan adalah karena
pada teori ini, satu probabilitas saja tidak bisa mengukur seberapa dalam tingkat keakuratannya. Dengan kata
lain, kurang bukti untuk membuktikan kebenaran jawaban yang dihasilkan dari teori ini.

Teorema Bayes menerangkan hubungan antara probabilitas terjadinya peristiwa A dengan syarat
peristiwa B telah terjadi dan probabilitas terjadinya peristiwa B dengan syarat peristiwa A telah terjadi.
Teorema ini didasarkan pada prinsip bahwa tambahan informasi dapat memperbaiki probabilitas. Teorema
Bayes ini bermanfaat untuk mengubah atau memutakhirkan (meng-update) probabilitas yang dihitung dengan
tersedianya data dan informasi tambahan.

Sesuai dengan probabilitas subyektif, bila seseorang mengamati kejadian B dan mempunyai keyakinan
bahwa ada kemungkinan B akan muncul, maka probabilitas B disebut probabilitas prior. Setelah ada informasi
tambahan bahwa misalnya kejadian A telah muncul, mungkin akan terjadi perubahan terhadap perkiraan
semula mengenai kemungkinan B untuk muncul. Probabilitas untuk B sekarang adalah probabilitas bersyarat
akibat A dan disebut sebagai probabilitas posterior. Teorema Bayes merupakan mekanisme untuk
memperbaharui probabilitas dari prior menjadi probabilitas posterior.
2. Dasar Teori

2.1 Naïve Bayes

Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema
Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa
kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan
kehadiran atau ketiadaan dari kejadian lainnya.

Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi
dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalm hal ini lebih disorot mengenai
penggunaan teorema Naive Bayesian untuk spam filtering

Persamaan Naïve Bayes dapat dirumuskan dengan

(1)

Contoh Implementasinya adalah sebagai berikut

Tabel 2.1.1 Implementasi Naïve Bayes


Data Testing : X = (age <= 30, income = medium, student = yes, credit_rating = fair)

Tabel 2. Data Testing

P(C)

P(buys_computer = “yes”) = 9/14 = 0.643


P(buys_computer = “no”) = 5/14 = 0.357

P(X|C)
P(Age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222
P(Age = “<=30” | buys_computer = “no”) = 3/5 = 0.6
P(Income = “medium” | buys_computer = “yes”) = 4/9 = 0.444
P(Income = “medium” | buys_computer = “no”) = 2/5 = 0.4
P(student = “yes” | buys_computer = “yes”) = 6/9 = 0.667
P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2
P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667
P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4
P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci)
P(X|buys_computer = “yes”)*P(buys_computer = “yes”) = 0.028
P(X|buys_computer = “no”)*P(buys_computer = “no”) = 0.007

Untuk age = “<=30”, income = “medium”, student = “yes”, credit_rating = “fair”, masuk ke kelas
buys_computer= “yes

Sedangkan Untuk klasifikasi dengan data kontinyu digunakan rumus Densitas Gauss :

Contoh dari implementasi rumus ini :

Tabel 3. Contoh Implementasi rumus Densitas Gauss

Humidity
Play Yes 86 96 80 65 70 80 70 90 75
golf
No 85 90 70 95 91

Mean (yes) = 79.1, StDev = 10.2

Mean (no) = 86.2, StDev = 9.7

𝑃(ℎ𝑢𝑚𝑖𝑑𝑖𝑡𝑦 = 74
Maka keputusnnya adalah “no”

2.2 Leukimia

Kanker adalah suatu penyakit yang tidak menular dan disebabkan oleh munculnya sel-sel abnormal
yang membelah diri secara berlebihan atau tak terkendali dan menghancurkan jaringan tubuh. Kanker
merupakan penyakit yang menjadi salah satu penyebab utama kematian, terutama di negara-negara
berkembang. Kanker biasa disebabkan oleh pola hidup yang tidak sehat seperti merokok, minum minuman
alkohol, begadang, dll. Dan sebagian besar kanker biasanya membentuk tumor, namun ada juga yang tidak,
semisal leukemia.

Leukemia merupakan salah satu jenis kanker yang menyerang jaringan pembentuk darah, biasanya
berada di tulang sumsum.Leukemia memiliki banyak jenis, seperti Leukemia Limfoblastik akut, Leukemia
mieloid akut, Leukemia limfositik kronis. Banyak pasien dengan leukemia yang lambat berkembang tidak
memiliki gejala. Leukimia yang cepat berkembang dapat menyebabkan gejala yang termasuk kelelahan,
penurunan berat badan, sering infeksi, dan mudah berdarah atau memar. Pengobatan sangat bervariasi. Untuk
leukemia yang lambat tumbuh, pengobatan dapat mencakup pemantauan. Untuk leukemia agresif,
pengobatan termasuk kemoterapi yang kadang-kadang diikuti dengan radiasi dan transplantasi sel induk.

Leukemia Limfoblastik akut adalah jenis kanker darah dan sumsum tulang yang mempengaruhi sel-sel.
Ini biasanya terjadi ketika sel sumsum tulang belakang memiliki masalah dalam DNA-nya. Gejalanya dapat
berupa kelenjar limfa membesar, memar, demam, nyeri tulang, pendarahan dari gusi, dan sering infeksi.
Perawatannya bisa menggunakan kemoterapi atau obat khusus yang ditargetkan untuk membunuh sel kanker.
Leukemia Limfoblastik akut ini termasuk penyakit kanker jenis langka karena hanya terjadi 150 ribu kasus saja
per tahun di Indonesia.

Leukemia mieloid akut adalah suatu jenis kanker darah dan sumsum tulang belakang dengan sel-sel
darah putih yang belum matang dalam jumlah berlebihan. Leukemia Mieloid akut termasuk kanker jenis langka
karena hanya terjadi kurang dari 150 ribu kasus per tahun di Indonesia. Leukemia Mieloid akut memiliki gejala
berupa kelelahan, infeksi berulang, dan mudah memar. Penanganannya berupa kemoterapi, terapi obat
lainnya, dan transplantasi sel induk. Dan kebanyakan penderitanya adalah orang dewasa di atas usia 60 tahun.

3. Pembahasan
3.1 Flowchart

3.1.1 Flowchart klasifikasi naïve bayes


3.2 Data Leukimia

Data yang digunakan ada 2 jenis yaitu data yang dinormalisasi dan tidak. Kemudian data di split
menjadi data Testing dan data Training

Gambar 3.2.1 data training non normalisasi

Gambar 3.2.2 data training normalisasi


Kemudian data dimasukan kedalam Weka untuk data yang dinormalisasi. Hasil dari Testing nya adalah

Gambar 3.2.3 hasil testing data yang di normalisasi

Sedangkan untuk data yang tidak di normalisasi dikerjakan menggunakan bahasa Python . Hasilnya adalah
:

Gambar 3.2.4 hasil testing data yang tidak normalisasi

Kesimpulan

Dari system yang kita buat, dapat disimpulkan bahwa klasifikasi data penyakit leukimia dengan menggunakan
algoritma naïve bayes, baik data yang di normalisasi terlebih dahulu ataupun tidak, mendapatkan akurasi yang
sama sebesar 100% dengan data berdimensi tinggi.

You might also like