Professional Documents
Culture Documents
Data Warehouse
Sebuah gudang data adalah gudang data organisasi disimpan secara
elektronik, dirancang untuk memfasilitasi pelaporan dan [analisis 1].
Definisi dari data warehouse berfokus pada penyimpanan data. Namun, cara
untuk mengambil dan menganalisis data, ekstrak, transformasi dan data
beban, dan untuk mengelola data kamus juga dianggap komponen penting
dari sistem penyimpanan data. Banyak referensi ke data pergudangan
menggunakan konteks yang lebih luas. Jadi, definisi yang diperluas untuk
data pergudangan meliputi alat intelijen bisnis, alat untuk ekstrak, transform
dan load data ke dalam repositori, dan alat untuk mengelola dan mengambil
metadata.
Data pergudangan muncul membutuhkan sebuah organisasi untuk dapat
diandalkan, laporan konsolidasi, unik dan terpadu dan analisis data tersebut,
pada tingkat agregasi yang berbeda.
Realitas praktis organisasi yang paling adalah bahwa data infrastruktur
mereka dibuat oleh sistem koleksi heterogen. Sebagai contoh, sebuah
organisasi mungkin memiliki satu sistem yang menangani hubungan
pelanggan, sistem yang menangani karyawan, sistem yang menangani data
penjualan atau data produksi, belum lagi sistem keuangan dan data
anggaran, dll Dalam prakteknya, sistem ini sering buruk atau tidak semua
pertanyaan yang terintegrasi dan sederhana seperti: Berapa banyak waktu
Arsitektur
arsitektur yang benar atau salah, melainkan ada beberapa arsitektur yang
ada untuk mendukung berbagai lingkungan dan situasi. Kelayakan arsitektur
dapat dinilai dari bagaimana bantuan konseptualisasi di gedung,
pemeliharaan, dan penggunaan data warehouse.
Satu konsep sederhana yang mungkin dari sebuah arsitektur data warehouse
terdiri dari lapisan-lapisan saling berikut:
Operasional lapisan database
Sumber data untuk data warehouse Sebuah organisasi sistem Enterprise
Resource Planning jatuh ke dalam lapisan ini.
Lapisan akses data
Antarmuka antara lapisan akses operasional dan informasi Tools untuk
mengekstrak, mengubah, data beban ke gudang jatuh ke dalam lapisan ini.
Metadata lapisan
Direktori data Ini biasanya lebih rinci dari suatu direktori data sistem
operasional.Ada kamus untuk seluruh gudang dan kadang-kadang kamus
untuk data yang dapat diakses oleh sebuah laporan tertentu dan alat
analisis.
Lapisan akses informasi
Data diakses untuk melaporkan dan menganalisis dan alat untuk pelaporan
dan analisa data Bisnis intelijen alat jatuh ke dalam lapisan ini. Dan
perbedaan Inmon-Kimball tentang metodologi desain, dibahas kemudian
dalam artikel ini, ada hubungannya dengan lapisan ini
Ada dua pendekatan utama untuk menyimpan data dalam data warehouse
pendekatan dimensi dan pendekatan normal.
Dalam pendekatan dimensi, data transaksi yang dibagi menjadi baik fakta,
yang biasanya data transaksi numerik, atau dimensi, yang merupakan
informasi referensi yang memberikan konteks untuk fakta-fakta. Sebagai
contoh, transaksi penjualan dapat dipecah menjadi fakta seperti jumlah
produk yang dipesan dan harga yang dibayarkan untuk produk, dan masuk
ke dimensi seperti tanggal order, nama pelanggan, nomor produk, agar
kapal-dan tagihan-untuk lokasi , dan bertanggung jawab untuk menerima
perintah penjual. Keuntungan utama dari pendekatan dimensi adalah bahwa
data warehouse lebih mudah bagi pengguna untuk memahami dan
menggunakan. Selain itu, pengambilan data dari data warehouse cenderung
Sesuai informasi
Fakta lain yang penting dalam merancang sebuah gudang data adalah data
yang sesuai dan bagaimana agar sesuai data. Misalnya, satu sistem
operasional makan data ke dalam data warehouse dapat menggunakan M
dan F untuk menunjukkan jenis kelamin seorang karyawan sementara
yang lain sistem operasional dapat menggunakan Pria dan
Wanita. Meskipun ini adalah contoh sederhana, banyak pekerjaan dalam
menerapkan data warehouse dikhususkan untuk membuat data konsisten
makna yang sama ketika mereka disimpan di gudang data. Biasanya,
ekstrak, mengubah, alat beban yang digunakan dalam karya ini.
Master Data Management memiliki tujuan sesuai data yang dapat dianggap
dimensi.
Bottom-up desain
Ralph Kimball, seorang penulis terkenal pada data pergudangan, [4] adalah
pendukung pendekatan desain data warehouse sering dianggap sebagai
bottom-up [5.].
Dalam mart yang disebut pendekatan bottom-up data yang pertama
diciptakan untuk menyediakan laporan dan kemampuan analisis untuk
proses bisnis yang spesifik. Meskipun penting untuk dicatat bahwa dalam
metodologi Kimball, proses bottom-up adalah hasil dari bisnis awal analisis
top-down yang berorientasi kepada bisnis proses yang relevan akan dibuat
modelnya.
Data mart mengandung, terutama, dimensi dan fakta. Fakta dapat berisi
data baik atom dan, jika perlu, diringkas data. The data mart tunggal sering
model area bisnis yang spesifik seperti Penjualan atau Produksi. Data
mart ini akhirnya dapat diintegrasikan untuk membuat sebuah gudang data
yang komprehensif. Integrasi data mart dikelola melalui penerapan apa yang
Kimball panggilan data warehouse arsitektur bus. [6]. Data gudang
arsitektur bus terutama merupakan implementasi dari bus koleksi dimensi
conforme, yang dimensi yang berbagi (dengan cara tertentu) antara fakta di
mart dua atau lebih data.
Integrasi data mart di gudang data terpusat pada dimensi conforme (yang
berada di bus) yang mendefinisikan integrasi mungkin titik di antara
pasar data. Integrasi aktual mart dua atau lebih data ini kemudian dilakukan
dengan proses yang dikenal sebagai Drill di. A drill-seluruh karya
pengelompokan (meringkas) data sepanjang kunci-kunci (shared) dimensi
conforme setiap fakta berpartisipasi dalam latihan di diikuti dengan
bergabung pada tombol ini dikelompokkan (diringkas) fakta.
Mempertahankan manajemen yang ketat terhadap arsitektur data
warehouse bus merupakan dasar untuk menjaga integritas data warehouse.
Tugas manajemen yang paling penting adalah membuat dimensi yakin di
antara pasar data konsisten. Dengan kata Kimball, ini berarti bahwa dimensi
sesuai.
Perihal berorientasi
Data dalam data warehouse diorganisir sehingga semua elemen data yang
berhubungan dengan acara yang sama di dunia nyata atau objek yang
dihubungkan bersama.
Non-volatile
Data dalam data warehouse tidak pernah over-tertulis atau dihapus sekali
berkomitmen, data statis, read-only, dan saldo untuk pelaporan masa depan.
Terpadu
Gudang data berisi data dari sebagian besar atau seluruh sistem operasional
organisasi dan data ini dibuat konsisten.
Sisa-varian
Metodologi desain top-down dilihat dimensi menghasilkan data yang sangat
konsisten di seluruh pasar data karena semua pasar data diambil dari
repositori terpusat. desain top-down juga terbukti tahan terhadap perubahan
bisnis. Membangkitkan data mart dimensi baru terhadap data yang
tersimpan di gudang data adalah tugas yang relatif sederhana. Kerugian
utama ke metodologi atas ke bawah adalah bahwa itu merupakan proyek
yang sangat besar dengan cakupan yang sangat luas. Biaya di muka untuk
menerapkan data warehouse dengan menggunakan metodologi atas ke
bawah adalah signifikan, dan durasi waktu dari awal proyek sampai pada
titik bahwa pengalaman pengguna akhir awal dapat manfaat besar. Selain
itu, metodologi top-down dapat fleksibel dan tidak responsif terhadap
perubahan kebutuhan departemen selama tahap pelaksanaan. [6]
Hybrid desain
Seiring waktu itu telah menjadi jelas bagi para pendukung bottom-up dan
top-down data desain gudang yang kedua metodologi memiliki manfaat dan
risiko.metodologi Hybrid telah berevolusi untuk memanfaatkan waktu putarsekitar cepat desain bottom-up dan konsistensi data perusahaan-macam
desain top-down.
gudang data pada tahap ini akan diperbarui setiap kali sistem operasional
melakukan transaksi.
Kekurangan
Ada juga kerugian untuk menggunakan data warehouse. Beberapa di
antaranya adalah:
* Data gudang tidak lingkungan optimal untuk data tidak terstruktur.
* Karena data harus diekstrak, diubah dan dimasukkan ke dalam gudang,
ada unsur latency dalam data data warehouse.
* Selama hidup mereka, gudang data dapat memiliki biaya tinggi.
Contoh Aplikasi
Masa depan
penunjangkeputusan.
merupakan
dasar-dasar
Data
warehousing
arsitektural
bagi
dan
sistem-sistem
data
mining
pendukung
berguna
untuk
mengotomatisasi
kegiatan-kegiatan
penting
dan
KeuntungandankerugianData Warehouse
BAB II
Pembahasan
2.1 Pengertian data warehouse Gudang data (Bahasa Inggris: data warehouse)
Suatu sistem kompute runtuk mengarsipkan dan menganalisis data historis
suatu organisasi seperti data penjualan, gaji, dan informasi lain dari
operasiharian. Pada umumnya suatu organisasi menyalin informasi dari sistem
operasionalnya (seperti penjualandan SDM) kegudang data menurut jadwal teratur,
misalnyase tiap malama tau setiap akhi rminggu. Setelah itu, manajemen
dapatmelakukankuerikompleksdananalisis(contohnyapenambangan
data,
data
pendekatan Top Down, pendekatan ini menyatakan bahwa data warehouse berawal
dari kumpulan data mart yang telah dibangun terlebih dahulu untuk masingmasing departemen. Data mart yang telah dibangun kemudian digabungkan untuk
membangun suatu data warehouse yang utuh.
2.3 Data Mining
Data mining memerlukan data yang banyak untuk dianalisa dan mendapatkan
pattern tertentu, datanya dari data warehouse yang menyimpan banyak data.
DataWare Housepake OLAP ini biar lebih cepet pemrosesannya CMIIW.
2.4 Perbedaan datawarehousing dan data mining
Data warehouse dan data mining adalah dua hal yang berbeda. Data warehouse
adalah database biasa yang berisi summary atau rekapuntuk subject tertentu yang
sudah diketahui. Misalnya manajemen ingin mengetahui informasi tentang penjualan
produk, maka dalam data warehouse dimasukkan rekap data penjualan dari database
transaksi penjualan. bentuknya pun tabel biasa saja. Tabel rekap ini hanya boleh
diretrieve (diambildatanya) dan ditambah, tidak boleh diubah, atau di hapus. Rekap ini
biasanya akan ditampilkan dalam bentuk tabel, grafik, chart didashboard (aplikasi
Business Intelligence). Data mining adalah proses pengolahan data untuk
mendapatkan informasi yang belum diketahui informasi apa saja yang terdapat di
kumpulan data tersebut. data mining dapatdilakukan terhadap berbagai jenis
sumber data, misalnya data warehouse, artikel web, multimedia (gambar, suara,
video),
atau
dokumen
(files).
Data
mining dilakukan
dengan
Dimension table adalah pengelompok kanuntuk data yang ada di fact table, misalnya
lokasi toko ,usia pembeli, nama departemen, jenis pengadaan dan seterusnya
2.6 KeuntungandanKerugian DataWarehouse
a.
Keuntungan Data Warehouse
Data warehouse menyediakan model data yang bervariasi,dan tidak bergantung
pada
satu
sumber
data
saja.
Hal
ini
memudahkan
pimpinan
ke gudang data menurut jadwal teratur, misalnya setiap malam atau setiap akhi
rminggu. Setelah itu, manajemen dapat melakukan kuerikompleks dan analisis
(contohnya penambangan data, data mining) terhadap informasi tersebut tanpa
membebani sistem yang operasional.
Daftar Pustaka
http://id.wikipedia.org/wiki/Gudang_datahttp://my.opera.com/aviciena/blog/2010/06/05/data-mininghttp://www.kaskus.us/showthread.php?t=5073964http://rencanait.wordpress.com/category/data-mining-dan-businessintelligence/- http://geeks.netindonesia.net/blogs/muhammadsubhan/archive/2009/1
1/10/tujuan-datawarehouse.aspx
sehingga data yang ada adalah data yang dibutuhkan dan beberapa data
yang saling berkaitan dan end user dapat mengakses data tersebut.
3. Arsitektur Data warehouse Dan Lindstedt Data Vault
1.
2.
3.
Top Down
Bottom Up
Kombinasi
Sumber:
http://pascasarjana.budiluhur.ac.id/wpcontent/uploads/2013/02/Windarto_TM_Vol3No21.pdf
==============================================
=============================
Taufik Hilmi
Kelas
3D
Nama
1 Datawarehouse
kumpulan macam-macam data yang subject oriented, integrated, time variant, dan
nonvolatile. dalam mendukung proses pembuatan keputusan. (Inmon and
Hackathorn - 1994)
~Subject oriented: diorganisasikan pada subjek-subjek utama, seperti pelanggan,
barang/ produk, dan penjualan.
~Integrated: menggabungkan data yang berbeda. relational database, flat file, dan
on-line transaction record ~Time variant: data yang tahun-tahun lalu
~Non volatile: data akan di tampung dalam tiap-tiap waktu.dua operasi initial
loading of data dan access of data
1.2 Arsitektur Data Warehouse
Kelebihan
Kekurangan
Kekurangan
-Integrasi
-Mapping dari pemodelan
berdimensi ke sistem yang sudah
ada.
-Sulit untuk memastikan
kekonsisten dimensi dari semua
data cabang.
Kekurangan
- Perancangan top-down
menghasilkan dimensional view
yang konsisten untuk semua data,
Karena semua data diload dari
repository terpusat/ terintegrasi.
- Top down sanggup menghadapi
perubahan bisnus, membuat data
dimensional cabang yang baru
menjadi tugas yang mudah.
2 Data Mart
Data yang terdapat dalam data warehouse dapat dibagi perbagian sesuai dengan
kebutuhan dalam informasi. Dalam data mart, data yang ada hanya berasal dari
satu bagian atau satu departemen saja, sedangkan pada data warehouse, data
yang ada berasal dari seluruh bagian dalam perusahaan tersebut
DISCOVERY MODEL
system secara langsung
menemukan informasi-informasi
penting yang tersembunyi dalam
suatu data yang besar. Data-data
yang ada kemudian dipilah-pilahuntuk-menemukan suatu pola, trend
yang ada, dan keadaaan umum
pada saat itu tanpa adanya campur
tangan dan tuntunan dari
pengguna.
besar seperti data warehouse, karena tidak semua transaksi membutuhkan analisis
tren. Dengan menggunakan open database connectivity (ODBC), data dapat diimpor
dari basis data relasional menjadi suatu basis data multidimensi untuk OLAP.
4.1 Kelebihan
- Dapat meningkatnya produktivitas bisnis, IT developers, dan seluruh organisasi.
- Akses yang lebih terkendali terhadap informasi yang dapat meningkatkan
efektivitas pengambilan keputusan.
- Mempercepat respon terhadap permintaan pasar.
- Mengurang backlogpengembangan aplikasi bagi staf IT dengan membua
tpemakai akhir dapat merubah schema dan membangun model sendiri.
- Penyimpana pengawasan organisasi melalui integritas data koorporasi sebagai
aplikasi OLAP tergantung pada data warehouse dan sistem OLTP untuk
memperbaharui sumber tingkatan data mereka.
- Mengurangi aktifita squery dan lalulintas jaringan pada sistem OLTP atau pada
data warehouse.
- Meningkatkan hasil dan keuntungan secara potensial dengan mengizinkan
organisasi untuk merespon permintaan pasar lebih cepat.
4.2 Implementasi
Kunci dari BI, yang digunakan untuk menganalisisis data dan informasi yang pada
akhirnya akan menjadi dasar basis Decision Support System (DSS)
Aktivitas yang dapat dilakukan melalui OLAP antara lain seperti : menlakukan query,
meminta laporan yang ad hoc, mendukung analisis statistik, analisis interaktif, serta
membangun aplikasi multimedia.
Kelemahan
- Pembangunan BI langsung
mencakup data seluruh organisasi
- Kerangka BI akan lebih terstruktur, - Waktu implementasi lebih lama
bukan gabungan dari berbagai data - Risiko kegagalan relatif tinggi
mart (data parsial)
karena kerumitannya
- Penyimpanan data menjadi
- Membutuhkan biaya yang relatif
terpusat
besar
- Kontrol informasi dapat dilakukan
secara tersentralisasi
~ Bottom-up Approach
Pendekatan ini sangat tepat bagi kebutuhan suatu organisasi yang memprioritaskan
pembangunan BI di suatu departemen terlebih dahulu. Kemudian setelah sukses di
departemen tersebut akan dilanjutkan ke departemen lainnya.
Kelebihan
Kelemahan
~ Practical Approach
Pengembangan BI di suatu organisasi akan dimulai dengan perencanaan dan
pendefinisian arsitektur kebutuhan data warehouse organisasi secara keseluruhan
(standardisasi). Baru kemudian akan dilakukan serangkaian pembuatan BI pada tiap
departemen yang membutuhkan
Tahapan Pengembangan BI
BI, ekspektasi (harapan), dukungan formal dari Pimpinan organisasi , serta capaiancapaian (milestone) yang akan dituju.
- Tahap Analisis Kebutuhan (Requirement Analysis)
Pada tahap ini harus sudah teridentifikasi kebutuhan pengembangan BI secara
detail. Hal ini dapat dilakukan dengan menyusun dan mengumpulkan information
package
- Tahap Desain dan Konstruksi (Design and Construction)
Pada tahap ini harus telah tersusun arsitektur dan infrastruktur yang diinginkan dari
desain BI, yang akan mencakup:
a. data acquisition
Bagian ini terkait dengan upaya meng-ekstraksi data dari sumber-sumber data, dan
upaya memindahkan data yang sudah diekstrak tersebut ke staging area (tempat
dimana semua data ekstraksi diletakkan bersama-sama)
b. data storage
upaya loading data dari staging area ke data warehouse repository (berupa
relational data base)
c. Information Delivery
Bagian ini terkait dengan upaya menyediakan user interface yang akan
menghubungkan pengguna dengan data warehouse. Jenisnya dapat berupa OLAP,
data mining, maupun report/query.
Jika proses cleansing ini salah, maka informasi yang dihasilkan oleh data
warehouse juga akan salah
Metode yang digunakan untuk melakukan proses ekstrasi secara logic (logical
exctraction) ada 2, yaitu :
o
Full Extraction,
Proses ekstraksi dilakukan dengan mengambil seluruh data dari source system
yang diperlukan
o
Increment Extraction
Proses ekstraksi hanya pada data yang berubah atau belum ada pada target sistem
pada periode tertentu
Online extraction
Data di ekstrak dari source system ke target system secara langsung. Proses
ekstraksi dilakukan dengan cara langsung connect ke source system untuk
mengakses source table.
o
Offline Extraction
Data tidak di ekstrak secara langsung dari source system, namun berada diluar
source system. Data yang akan di ekstrak sudah mempunyai struktur table dan
struktur data yang diharapkan sudah sesuai dengan data warehouse. Misalnya flat
file.
1. Granularity
Adalah tingkat kedetailan data dalam suatu data warehouse. Semakin detail
data, maka tingkat granularity-nya akan semakin rendah juga. Level yang
paling terendah dari granularity adalah data transaksi
1. Metadata
1. Data Target
Versi
1. Clean Up Rules
Mapping antara elemen data pada original data source dengan data
warehouse
Rules yang digunakan untuk mengisi nilai pada fields yang kosong
1. Transformation Rules
Algoritma (business rules) untuk menentukan nilai yang diambil (nilai asal)
1. Mapping
Rules untuk melakukan filter data dan untuk melakukan penggabungan data
dari field atau sumber data yang berbeda.
Menjelaskan interface yang memungkinkan user untuk mengakses direktori bisnis dan
data warehouse. Dengan menggunakan kompunen ini, user dapat melakukan :
1. Melakukan akses dan drill down pada data warehouse
2. Melakukan querry ke data warehouse
Data warehouse didefinisikan sebagai kumpulan subyek data yang terintegrasi, bervariasi, dan
non volatile [3]. Immon mendefinisikan data warehouse sebagai gabungan dari beberapa sistem
yang terintegrasi dan didesain untuk menyediakan informasi yang dibutuhkan untuk
pengambilan keputusan[8]. Data warehouse juga dapat didefinisikan dengan dua asumsi implisit,
yaitu [3]:
1. Sebuah database yang mendukung sistem pendukung keputusan dan di-maintain secara
terpisah dari database operasional perusahaan
2. Sebuah database yang mendukung pemrosesan informasi dengan menyediakan platform
yang terintegrasi dan data historis untuk melakukan analisis.
Fungsi utama dari data warehouse adalah menyediakan data untuk mendukung pembuatan
keputusan. Dalam beberapa kasus jenis-jenis dari aplikasi yang telah digunakan misalnya untuk
sistem informasi eksekutif (executive information system). Data warehouse juga menyediakan
berbagai data sebagai input untuk menunjang suatu bisnis dalam melakukan proses analisa
bisnis.
Ada beberapa karekteristik yang dimiliki oleh sebuah data warehouse, yaitu [8]:
1. Orientasi Subyek.
Suatu data warehouse didesain dan dibangun secara khusus dari database transaksional
berdasarkan keperluan perusahaan, semisal data warehouse untuk kastemer, sales, dan
lain-lain. Hanya data yang benar-benar diperlukan yang dimasukkan kedalam database.
2. Integrasi data.
Untuk mendapatkan informasi yang diinginkan, data yang ada dalam data warehouse
akan dibangun dari beberapa macam sistem yang ada diperusahaan. Kemudian data
tersebut ditransformasi dan diload. Karena itu ketika disimpan ke dalam data warehouse
data tersebut akan diintegrasikan sehingga hanya ada satu cara dan atribut dengan format
dan unit yang sama.
3. Nonvolatile
Pada database transaksional, operasi yang dilakukan adalah operasi update (insert, delete,
dan update). Sedangkan dalam data warehouse metode ini tidak digunakan. Data
disimpan
ke dalam data warehouse pada periode waktu tertentu setelah dilakukan beberapa
perhitungan (calculation) dan rangkuman (summary).
4. Setiap unit data akan relevan dengan waktu tertentu
Setiap data yang dimasukkan ke data warehouse pasti memiliki dimensi waktu. Dimensi
waktu ini dipergunakan sebagai pembanding dalam perhitungan untuk menghasilkan
laporan yang diinginkan. Selain itu, dengan menggunakan dimensi waktu pembuat
keputusan dapat mengenal kecenderungan (trend) dan pola dari suatu data.
Teknik Pemodelan Data Warehouse
Data warehouse dan OLAP dibangun berdasarkan multidimensional data model. Pada model ini
diperlukan tabel fakta dan tabel dimensi. Tabel fakta berisi fakta numerik yang memiliki ciriciri : panjang, kurus, dan besar, serta sering berubah dan berguna untuk mengukur (measure).
Sedangkan tabel dimensi berisi kolom yang bersifat desktiptif, kecil, pendek, dan lebar yang
berguna untuk filtering (menyaring) dan didasarkan pada atribut dimensi..
Dalam dimensional modeling, ada beberapa pendekatan yang digunakan untuk membuat data
warehouse, yaitu [3]:
1. Skema bintang (star schema)
Skema ini mengikuti bentuk bintang, dimana terdapat satu tabel fakta (fact table) di pusat
bintang dengan beberapa tabel dimensi (dimensional tables) yang mengelilinginya.
Semua tabel dimensi berhubungan dengan ke tabel fakta. Tabel fakta memiliki beberapa
key yang merupakan kunci indek individual dalam tabel dimensi.
2. Skema bola salju (snowflake Schema)
Skema bola salju merupakan perluasan dari skema bintang dengan tambahan beberapa
tabel dimensi yang tidak berhubungan secara langsung dengan tabel fakta. Tabel dimensi
tersebut berhubungan dengan tabel dimensi yang lain.
3. Fact constellations
Pada skema ini terdapat beberapa tabel fakta yang menggunakan satu atau beberapa tabel
dimensi secara bersama-sama sehingga jika digambarkan akan terlihat seperti
sekumpulan bintang. Skema ini juga dikenal dengan galaxy schema.
Analisa Multidimensi
Data perlu diorganisasi dalam bentuk lain berupa data multidimensi yang dinamakan MOLAP
(Multidimensional Online Analytical Processing) atau data relasional ROLAP (Relational Online
Analytical Processing). Data disimpan dalam data warehouse dalam bentuk multidimensi
dioptimasi untuk pencarian kembali (retrieval) untuk OLAP (Online Analytical Processing).
Setelah itu dilakukan analisa multidimensi yang memberikan kemampuan untuk melakukan
query dan membuat laporan (reporting).
Suatu cara melihat data dengan multidimensi tersebut dikenal dengan nama kubus (cube). Kubus
ini menjadi struktur OLAP yang utama yang digunakan untuk melihat data (view). Analisa
menggunakan kubus ini memberikan fasilitas banyak dimensi untuk melihat data yang
diinginkan. Sehingga memungkinkan untuk mengakses data dengan lebih mudah dan cepat untuk
menjawab pertanyaan yang dikemukakan.
Operasi-operasi OLAP
Operasi-operasi yang terdapat pada OLAP antara lain :
1. Slicing dan Dicing
Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus. Dengan
slicing dan dicing pengguna dapat melihat data dari beberapa perspektif. Pengguna dapat
mengekstrak bagian dari data agregrated dan dapat memeriksa dengan detail berdasarkan
dimensi-dimensi yang diinginkan. Data Agregrated merupakan data praperhitungan
(precalculated)
dalam
bentuk
rangkuman data (data summarized) sehingga query pada kubus (cube) lebih cepat. Slicing
memotong kubus sehingga dapat memfokuskan pada perspektif yang spesifik (pada suatu
dimensi). Sedangkan dicing memberikan kemampuan untuk melihat pemilihan data pada dua
dimensi atau lebih. Yaitu dengan merotasi cube pada perspektif yang lain sehingga pengguna
dapat melihat lebih spesifik terhadap data yang dianalisa.
1. Roll up dan drill down
Drill down dan roll up adalah operasi untuk melihat data global atau detail disepanjang
level hiraraki dimensi. Roll up untuk melihat data secara global atau rangkuman
(summary). Drill down memandu pengguna untuk memperoleh data yang lebih detail.
Drill down ini biasa digunakan untuk menjawab pertanyaan atas suatu kasus tertentu.
Misalnya untuk menjawab pertanyaan ketika sebuah summary number (rata-rata atau
jumlah) di bawah atau di atas harapan.
Arsitektur Data Warehouse
Dalam pemilihan sebuah arsitektur data warehouse terlebih dahulu harus ditentukan dimana data
warehouse ditempatkan dan juga dimana kendali kontrol data. Sebagai contoh data dapat
ditempatkan di lokasi terpusat yang diatur secara terpusat (centralized global warehouse) atau
data ditempatkan terdistribusi (distributed global warehouse). Secara fisik centralized global
warehouse digunakan oleh semua organisasi. Sedangkan sebuah distributed global warehouse
juga digunakan untuk semua organisasi tetapi distribusinya melalui beberapa lokasi fisik dalam
organisasi.
Implementasi Data Warehouse
Beberapa pendekatan yang digunakan untuk mengimplementasikan arsitektur warehouse, yaitu
secara bottom up, top down atau kombinasi antara keduanya[3].
1. Desain Implementasi Pendekatan Top Down
Langkah awal implementasi data warehouse dengan pendekatan top down adalah
membangun sebuah data warehouse pada semua data perusahaan, setelah itu dilanjutkan
dengan membangun data mart yang berisi data warehouse khusus yang merupakan
bagian dari data warehouse yang dibangun sebelumnya.
2. Pendekatan Buttom Up
Dalam beberapa kasus pendekatan tidak harus dengan bottom up atau top down tetapi
juga bisa dilakukan dengan kombinasi keduanya. Hal ini untuk mencari alternatif yang
terbaik sesuai dengan kebutuhan.
search
Cari untuk:
Mei 2014
S
Mar
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Kategori
o
My Thesis
SQL Server
TOEFL
Umum
Halaman
About Me
Blog Stats
o
98,131 hits
Klik tertinggi
o
burhanudin.web.id/program
Feeds
Full
Komentar
Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama, seperti
beberapa pendapat berikut ini :
Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai
sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam
mendukung proses pengambilan keputusan management.
Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only
yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada
query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses
transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja
analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data
dari berbagai macam sumber.
Data warehouse (DW) adalah database yang digunakan untuk pelaporan. Data yang diturunkan
dari sistem operasional untuk pelaporan. Data mungkin melalui Operasional Data Store (ODS)
untuk operasi tambahan sebelum digunakan di DW untuk pelaporan. (Wikipedia)
Ada juga yang mengatakan data warehouse merupakan metode dalam perancangan database,
yang menunjang DSS(Decission Support System) dan EIS (Executive Information System).
Bill Inmon, sebuah gudang data adalah, subjek berorientasi terintegrasi, waktu-varian dan
koleksi non-volatile data dalam mendukung keputusan manajemen proses pengambilan.
Subject-Oriented: Data warehouse dapat digunakan untuk menganalisis bidang subjek tertentu.
Misalnya, penjualan bisa menjadi subyek tertentu.
Integrated: Data warehouse mengintegrasikan data dari sumber data. Sebagai contoh, sumber
sumber A dan B mungkin memiliki cara yang berbeda untuk mengidentifikasi produk, tapi dalam
data warehouse, akan ada hanya satu cara identifikasi produk.
Sisa-Varian: Historical data disimpan dalam sebuah gudang data. Sebagai contoh, seseorang
dapat mengambil data dari 3 bulan, 6 bulan, 12 bulan, atau data bahkan lebih tua dari sebuah
gudang data. Hal ini kontras dengan sistem transaksi, dimana sering hanya data terbaru disimpan.
Sebagai contoh, sistem transaksi dapat menahan alamat terbaru dari seorang pelanggan, dimana
data warehouse dapat menyimpan semua alamat yang terkait dengan pelanggan.
Non-volatile: Setelah data di gudang data, tidak akan berubah. Jadi, data historis dalam data
warehouse tidak boleh diubah.
Ralph Kimball,sebuah gudang data adalah salinan data transaksi khusus terstruktur untuk query
dan analisis.Ini adalah pandangan fungsional dari sebuah gudang data. Kimball tidak alamat
bagaimana data warehouse dibangun seperti Inmon lakukan, bukan dia berfokus pada
fungsionalitas dari sebuah gudang data.
Sehingga, dapat disimpulkan bahwa data warehouse adalah
kumpulan data dari berbagai sumber yang ditempatkan menjadi 1
dalam tempat penyimpanan berukuran besar lalu diproses menjadi
bentuk penyimpanan multidimensional dan di design untuk
querying dan reporting.
pengembang (analisis dan dukungan). Lapisan integrasi digunakan untuk mengintegrasikan data
dan memiliki tingkat abstraksi dari pengguna. Lapisan akses untuk mendapatkan data keluar bagi
pengguna.
Istilah-istilah yang berkaitan dengan data warehouse :
1. Data Mart
Adalah suatu bagian pada data warehouse yang mendukung pembuatan laporan dan analisa data
pada suatu unit, bagian atau operasi pada suatu perusahaan.
1. On-Line Analytical Processing(OLAP)
Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi untuk dapat
menampilkan berbagai macam bentuk laporan, analisis, query dari data yang berukuran besar.
1. On-Line Transaction Processing(OLTP)
Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi
sehari-hari.
1. Dimension Table
Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan. Seperti
laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang berupa perbulan,
perkwartal dan pertahun).
1. Fact Table
Merupakan tabel yang umumnya mengandung angka dan data history dimana key (kunci) yang
dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci asing) yang merupakan
primary key (kunci utama) dari beberapa dimension table yang berhubungan.
1. DSS
Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan bagaimana
sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang baik.
Kunci perkembangan pada tahun-tahun awal Data Warehousing adalah:
*1960-General Mills dan Dartmouth College,
mengembangkan dimensi syarat dan fakta-fakta.
dalam
proyek
penelitian
*1970-ACNielsen dan IRI memberikan mart dimensi data untuk penjualan eceran.
bersama,
Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data
berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi
tertentu. Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :
Data Operasional
Dirancang berorientasi hanya
aplikasi dan fungsi tertentu
Data Warehouse
pada Dirancang berdasar pada subjek-subjek
tertentu(utama)
Focusnya pada desain database dan Focusnya pada pemodelan data dan
proses
desain data
Berisi rincian atau detail data
akan
Relasi antar
terkini(selalu
terbaru)
dapat
tersaji
1. 2. Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah
kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan
demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang
menunjang keseluruhan konsep data warehouse itu sendiri.
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara:
konsisten dalam penamaan variable
konsisten dalam ukuran variable
konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.
Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula
dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut
ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable
tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan
demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah
data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
Integrasi Data Warehouse
Sumber :
http://www.cait.wustl.edu/papers/prism/vol1_no1/integration/home.html
1. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu.
Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data
warehouse, kita dapat menggunakan cara antara lain :
Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu,
misalnya antara 5 sampai 10 tahun ke depan.
Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data
warehouse baik implicit maupun explicit ,secara explicit dengan unsur waktu dalam hari,
minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir
bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian
snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai
keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
Time Variancy
Data Warehouse
Snapshot data:
Operasional
Current value data:
Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data
warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara
reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari
pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini,
kemudian secara incremental disatukan dengan data sebelumnya.
Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap
data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan
memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data
warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada
kegiatan updating data).
Kegunaan Data Warehouse
Dengan adanya data warehouse, akan mempermudah pembuatan aplikasi-aplikasi DSS dan EIS
karena memang kegunaan dari data warehouse adalah khusus untuk membuat suatu database
yang dapat digunakan untuk mendukung proses analisa bagi para pengambil keputusan.
Pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling umum
dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari,perbulan, pertahun
atau jangka waktu kapanpun yang diinginkan.
1. On-Line Analytical Processing (OLAP)
Dengan adanya data warehouse,semua informasi baik detail maupun hasil summary yang
dibutuhkan dalam proses analisa mudah didapat.
OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai
menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini
dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa
dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP
adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari
suatu informasi dan roll-up adalah kebalikannya.
1. Data mining
Data mining merupakan proses untuk menggali(mining) pengetahuan dan informasi baru dari
data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan
(Artificial Intelegence), statistik dan matematika. Data mining merupakan teknologi yang
diharapkan dapat menjembatani komunikasi antara data dan pemakainya.
Beberapa solusi yang diberikan data mining antara lain :
1. 1. Menebak target pasar
Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
1. 3. Cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk
lainnya.
1. 4. Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui
kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
1. 5. Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi
dengan informasi statistik lainnya.
1. Proses informasi executive
Data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan membuat
keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data
warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara
lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada
laporan data warehouse menjadi target informative bagi user.
Membangun data warehouse tentu saja memberikan keuntungan lebih bagi suatu perusahaan,
karena data warehouse dapat memberikan keuntungan strategis pada perusahaan tersebut
melebihi pesaing-pesaing mereka. Keuntungan tersebut diperoleh dari beberapa sumber (Sean
Nolan,Tom Huguelet):
Kemampuan untuk mengakses data yang besar
Kemampuan untuk memiliki data yang konsistent
Kemampuan kinerja analisa yang cepat
Mengetahui adanya hasil yang berulang-ulang
Menemukan adanya celah pada business knowledge atau business process.
Mengurangi biaya administrasi
Memberi wewenang pada semua anggota dari perusaahan dengan menyediakan kepada mereka
informasi yang dibutuhkan agar kinerja bisa lebih efektif.
Keuangan peramalan
Prediksi Churn pelanggan Telecom, dll pengguna Kartu Kredit
Asuransi penipuan analisis
Panggilan catatan analisis
Logistik dan manajemen persediaan
Pertanian
Membangun Data Warehouse
Menurut Poe, arsitektur adalah sekumpulan atau struktur yang memberikan kerangka
untuk keseluruhan rancangan suatu sistem atau produk.
Ada
arsitektur client-server, arsitektur networking dan masih banyak arsitektur lainnya. Arsitektur
data menyediakan kerangka dengan mengidentifikasikan dan memahami bagaimana data akan
pindah melalui sistem dan digunakan dalam perusahaan. Arsitektur data untuk data warehouse
mempunyai komponen utama yaitu read-only database.
Karakterisitik arsitektur data warehouse (Poe) :
1. Data diambil dari sistem asal (sistem informasi yang ada), database dan file.
2. Data dari sistem asal diintegrasikan dan ditransformasi sebelum disimpan ke
dalam Database Management System (DBMS) seperti Oracle,Ms SQL Server,
Sybase dan masih banyak yang lainnya.
3. Data warehouse merupakan sebuah database terpisah bersifat hanya dapat
dibaca yang dibuat khusus untuk mendukung pengambilan keputusan
4. Pemakai mengakses data warehouse melalui aplikasi front end tool
Arsitektur dan komponen utama dari data warehouse dapat dilihat pada gambar berikut ini :
Sumber : Conolly,T.M.,Begg
1. a. Operational Data
Sumber data dari data warehouse dapat diambil langsung dari mainframe, basis data
relasional seperti Oracle, Ms SQL server dan sebagainya. Selain itu dapat melaluo
Operational Data Source(ODS). ODS menampung data yang diekstrak dari sistem utama atau
sumber-sumber data yang ada dan kemudian data hasil ekstrasi tersebut dibersihkan.
1. b. Load manager
Load manager juga disebut sebagai komponen front-end yang bertugas melakukan seluruh
operasi yang berhubungan dengan ekstrasi dan me-load data ke warehouse.
1. c. Warehouse Manager
Query manager juga disebut komponen back-end, melakukan operasi-operasi yang berhubungan
dengan manajemen user queries. Operasi-operasi yang dilakukan oleh komponen ini termasuk
mengarahkan query kepada tabel-tabel yang tepat dan menjadwalkan eksekusi dari query
tersebut.
1. e. End-user Access Tools
Prinsip atau tujuan utama dari dibangunnya data warehouse adalah untuk menyediakan
informasi bisnis kepada user-user untuk dapat melakukan pengambilan keputusan secara
cepat dan tepat.User ini berinteraksi dengan warehouse melalui end-user access tools. Data
warehouse harus secara efisien mendukung secara khusus kebutuhan user serta secara rutin
melakukan analisis. Performa yang baik dapat dicapai dengan merencanakan dahulu keperluankeperluan untuk melakukan joins,summations dan laporan-laporan per periode dengan end-users.
Berdasarkan kategori yang dikemukakan oleh Berson dan Smith terdapat lima grup utama dari
tools tersebut, antara lain :
1. Reporting and query tools
2. Application development tools
3. Executive information System (EIS) tools
4. Online Analytical Processing (OLAP) tools
5. Data mining tools
data
warehouse
semua
memiliki
lapisan
sebagai
berikut:
Operasi
Layer
Mendapat data menarik dari sumber data ke dalam sistem gudang data. Ada beberapa
kemungkinan pembersihan data minimal, tetapi ada tidak mungkin ada transformasi data besar.
Pementasan Area
Ini adalah dimana data duduk sebelum menjadi digosok dan berubah menjadi gudang data / data
mart. Setelah satu area umum membuat lebih mudah untuk memproses data berikutnya /
integrasi.
ETL Layer
Ini adalah dimana data keuntungan kecerdasan, seperti logika diterapkan untuk mengubah data
dari sifat transaksional yang bersifat analitis. Lapisan ini juga dimana data pembersihan terjadi.
Penyimpanan Data Layer
Ini adalah dimana data ditransformasikan dan dibersihkan duduk. Berdasarkan lingkup dan
fungsionalitas, 3 jenis entitas dapat ditemukan di sini: data warehouse, data mart, dan
menyimpan data operasional (BPO). Dalam setiap sistem yang diberikan, Anda mungkin hanya
salah satu dari tiga, dua dari tiga, atau semua tiga jenis.
Data Logic Layer
Ini adalah di mana aturan-aturan bisnis disimpan. Bisnis aturan disimpan di sini tidak
mempengaruhi aturan transformasi data dasar, namun tidak mempengaruhi apa yang tampak
seperti laporan.
Data Presentation Layer
Hal ini mengacu pada informasi yang mencapai pengguna. Ini bisa dalam bentuk laporan tabel /
grafik dalam browser, laporan diemail yang mendapat secara otomatis dihasilkan dan dikirim
sehari-hari, atau peringatan yang memperingatkan pengguna pengecualian, antara lain.
Metadata Layer
Ini adalah tempat informasi tentang data yang disimpan dalam sistem gudang data disimpan.
Sebuah model data logis akan menjadi contoh dari sesuatu yang ada di lapisan metadata.
Sistem Operasi Layer
Lapisan ini mencakup informasi tentang bagaimana sistem data warehouse beroperasi, seperti
status pekerjaan ETL, kinerja sistem, dan sejarah pengguna akses.
Infrastruktur Data Warehouse
Infrastruktur data warehouse adalah software, hardware, pelatihan dan komponenkomponen lainnya yang memberikan dukungan yang dibutuhkan untuk
mengimplementasikan data warehouse(Poe).
Salah satu instrumen yang mempengaruhi keberhasilan pengembangan data warehouse adalah
pengidentifikasian arsitektur mana yang terbaik dan infrasruktur apa yang dibutuhkan. Arsitektur
yang sama, mungkin memerlukan infrastruktur yang berbeda, tergantung pada lingkunan
perusahaan ataupun organisasi.
Data ini merupakan ringkasan atau rangkuman dari current detail data. Data ini dirangkum
berdasar periode atau dimensi lainnya sesuai dengan kebutuhan.
Ringkasan dari current detail data belum bersifat total summary.Data-data ini memiliki detil
tingkatan yang lebih tinggi dan mendukung kebutuhan warehouse pada tingkat departemen.
Tingkatan data ini di sebut juga dengan data mart. Akses terhadap data jenis ini banyak
digunakan untuk view suatu kondisi yang sedang atau sudah berjalan.
Highly summarized data
Data ini merupakan tingkat lanjutan dari Lightly summarized data, merupakan hasil ringkasan
yang bersifat totalitas, dapat di akses misal untuk melakukan analisis perbandingan data
berdasarkan urutan waktu tertentu dan analisis menggunakan data multidimensi.
Metadata
Metadata bukan merupakan data hasil kegiatan seperti keempat jenis data diatas. Menurut Poe,
metadata adalah data tentang data dan menyediakan informasi tentang struktur data dan
hubungan antara struktur data di dalam atau antara storage(tempat penyimpanan data).
Metadata berisikan data yang menyimpan proses perpindahan data meliputi database
structure,contents,detail data dan summary data, matrics,versioning, aging criteria,versioning,
transformation criteria. Metadata khusus dan memegang peranan yang sangat penting dalam
data warehouse.
Metadata sendiri mengandung :
Struktur data
Sebuah direktori yang membantu user untuk melakukan analisis Decission Support System dalam
pencarian letak/lokasi dalam data warehouse.
Algoritma
Algoritma digunakan untuk summary data. Metadata sendiri merupakan panduan untuk
algoritma dalam melakukan pemrosesan summary data antara current detail data dengan lightly
summarized data dan antara lightly summarized data dengan hightly summaried data.
Mapping
Sebagai panduan pemetaan(mapping) data pada saat data di transform/diubah dari lingkup
operasional menjadi lingkup data warehouse.
Metodologi
Warehouse
Perancangan
Database
untuk
Data
Menurut Kimball ada sembilan tahap metodologi dalam perancangan database untuk data
warehouse, yaitu :
Langkah 1 : Pemilihan proses
1. Data mart yang pertama kali dibangun haruslah data mart yang dapat dikirim
tepat waktu dan dapat menjawab semua pertanyaan bisnis yang penting
2. Pilihan terbaik untuk data mart yang pertama adalah yang berhubungan
dengan sales, misal property sales, property leasing,property advertising.
2. Semua fakta harus diekspresikan pada tingkat yang telah ditentukan oleh
sumber
Model Dimensional
Model dimensional merupakan rancangan logikal yang bertujuan untuk menampilkan data dalam
bentuk standar dan intuitif yang memperbolehkan akses dengan performa yang tinggi.
Model dimensional menggunakan konsep model hubungan antar entity (ER) dengan beberapa
batasan yang penting. Setiap model dimensi terdiri dari sebuah tabel dengan sebuah komposit
primary key, disebut dengan table fakta, dan satu set table yang lebih kecil disebut table dimensi.
Setiap table dimensi memiliki sebuah simple primary key yang merespon tepat pada satu
komponen primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri
dari dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau join
bintang.
Fitur terpenting dalam model dimensional ini adalah semua natural keys diganti dengan kunci
pengganti(surrogate keys). Maksudnya yaitu setiap kali join antar table fakta dengan table
dimensi selalu didasari kunci pengganti. Kegunaan dari kunci pengganti adalah memperbolehkan
data pada data warehouse untuk memiliki beberapa kebebasan dalam penggunaan data, tidak
seperti halnya yang diproduksi oleh sistem OLTP.
Sebuah sistem OLTP memerlukan normalisasi untuk mengurangi redudansi, validasi untuk input
data, mendukung volume yang besar dari transaksi yang bergerak sangat cepat. Model OLTP
sering terlihat seperti jaring laba-laba yang terdiri atas ratusan bahkan ribuan tabel sehingga sulit
untuk dimengerti.
Sebaliknya, dimension model yang sering digunakan pada data warehouse adalah skema bintang
atau snowflake yang mudah dimengerti dan sesuai dengan kebutuhan bisnis, mendukung query
sederhana dan menyediakan performa query yang superior dengan meminimalisasi tabel-tabel
join. Berikut contoh perbandingan diagram antara model data OLTP dengan dimension table data
warehouse :
Dimension Model
Schema Bintang
Skema bintang merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data
faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data.
Jenis-jenis Skema Bintang
1. 1. Skema bintang sederhana
Dalam skema ini, setiap table harus memiliki primary key yang terdiri dari satu kolom atau
lebih.Primary key dari table fakta terdiri dari satu atau lebih foreign key.Foreign key merupakan
primary key pada table lain.
1. 2. Skema bintang dengan banyak table fakta
Skema bintang juga bisa terdiri dari satu atau lebih table fakta. Dikarenakan karena table fakta
tersebut ada banyak, misalnya disamping penjualan terdapat table fakta forecasting dan result.
Walaupun terdapat lebih dari satu table fakta, mereka tetap menggunakan table dimensi bersamasama.
Adapun ketentuan dalam pembacaan skema bintang adalah :
Bagian yang ada di bawah judul tabel merupakan kolom-kolom tabel tersebut
Primary key diarsir sedang Foreign key yang bukan primary tidak
ditunjukkan
dengan
garis
yang
Kolom yang bukan kunci disebut kolom data pada table fakta dan atribut pada table dimensi
Snowflake Schema
Merupakan varian dari skema bintang dimana table-table dimensi tidak terdapat data yang di
denormalisasi. Dengan kata lain satu atau lebih table dimensi tidak bergabung secara langsung
kepada table fakta tapi pada table dimensi lainnya. Sebagai contoh, sebuah dimensi yang
mendeskripsikan produk dapat dipisahkan menjadi tiga table (snowflaked) seperti contoh
dibawah ini :
Snowflake Schemes
Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan data mining dapat
menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang
berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang
berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di
data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte)
dan disini terlihat peran penting database terutama dalam optimisasi query-nya.
Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases
(KDD). Kehadiran data mining dilatar belakangi dengan problema data explosion yang
dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun
lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir
semua data tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk
menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction
Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam
Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa
besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang,
apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat
me-nambang-nya untuk mencari emas, berlian yaitu informasi yang berguna untuk
organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.
Data mining dapat menambang data transaksi belanja kartu kredit untuk melihat manakah
pembeli-pembeli yang memang potensial untuk membeli produk tertentu. Mungkin tidak sampai
presisi 10%, tapi bayangkan jika kita dapat menyaring 20% saja, tentunya 80% dana dapat
digunakan untuk hal lainnya.
Lalu apa beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)?
Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP
dimanfaatkan penuh untuk melakukan data mining. Gambar di bawah menunjukkan posisi
masing-masing teknologi:
Dari gambar di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan
OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang
informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan
ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data
warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan
OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining,
banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu
informasi), high performance computing, visualisasi, machine learning, statistik, neural networks
(jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction
serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam
rangka melakukan data mining terhadap data image/spatial.
Dengan memadukan teknologi OLAP dengan data mining diharapkan pengguna dapat
melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data
lebih dalam atau lebih umum, pivoting, slicing dan dicing. Semua hal tersebut diharapkan
nantinya dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi.