You are on page 1of 17

Ghema Nusa Persada

LZT4 1701497885
7023T Advanced Database Systems

Due Date : 08 November 2015


Tugas Personal ke 4
Week 8 - Session 9
Answer these questions below and submit it before 4th personal assignment deadline.
1. Can we do ETL process manually?
Answer :
ETL (Extract, Transform, Loading) dapat dilakukan secara manual. Proses ETL
(Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam
pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap
proses.
Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem
operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi
ekstraksi data, yaitu :
1. Ekstraksi data secara otomatis dari aplikasi sumber.
2. Penyaringan atau seleksi data hasil ekstraksi.
3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
4. Perubahan format layout data dari format aslinya.
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari
sumber lain.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Transformasi Data (Transformation)


Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan
diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi
data adalah sebagai berikut :
1. Memetakan data input dari skema data aslinya ke skema data warehouse.
2. Melakukan konversi tipe data atau format data.
3. Pembersihan serta pembuangan duplikasi dan kesalahan data.
4. Penghitungan nilai-nilai derivat atau mula-mula.
5. Penghitungan nilai-nilai agregat atau rangkuman.
6. Pemerikasaan integritas referensi data.
7. Pengisian nilai-nilai kosong dengan nilai default.
8. Penggabungan data.

Pengisian Data (Loading)


Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari
hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan
menjalankan SQL scriptsecara periodik

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

2. Do we need special hardware or software in ETL process? Explain your answering,


please!
Answer :
Kebutuhan perangkat keras untuk melakukan proses ETL
adalah sebagai berikut :
1. Processor

: CPU 1.7 Ghz

2. Memory

: 128 MB

3. Hardisk

: 20 GB

4. VGA

: 32 MB

5. Reolusi Min

: 1024 x 768

Dari minimum Requirement diatas maka dapat disimpulkan


kebutuhan untuk melakukan ETL dapat dilakukan pada semua
spesifikasi komputer, tanpa harus ada perangkat tambahan.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Software tool yang biasa digunakan untuk ETL diantaranya :


Informatica - Power Center
IBM - Websphere DataStage(Formerly known as Ascential DataStage)
SAP - BusinessObjects Data Integrator
IBM - Cognos Data Manager (Formerly known as Cognos DecisionStream)
Microsoft - SQL Server Integration Services
Oracle - Data Integrator (Formerly known as Sunopsis Data Conductor)
SAS - Data Integration Studio
Oracle - Warehouse Builder
AB Initio
Information Builders - Data Migrator
Pentaho - Pentaho Data Integration
Embarcadero Technologies - DT/Studio
IKAN - ETL4ALL
IBM - DB2 Warehouse Edition
Pervasive - Data Integrator
ETL Solutions Ltd. - Transformation Manager
Group 1 Software (Sagent) - DataFlow
Sybase - Data Integrated Suite ETL
Talend - Talend Open Studio
Expressor Software - Expressor Semantic Data Integration System
Elixir - Elixir Repertoire
OpenSys - CloverETL

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

3. What do you know about star schema, snowflake schema and fact constellation schema,
explain each of them and figure out the example for each!
Answer :

Gambar 1 Star Schema


Dibilang star schema karena entity-relationship diagram atau ERD-nya yang menyerupai
konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-bintang yang
lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011)

Fact table menampung nilai-nilai metric yang direkam untuk suatu kejadian yang
spesifik. Sehubungan dengan tujuan untuk menampul data atomik, biasanya
terdapat sejumlah besar record (jutaan). Pengelolaan khusus dilakukan untuk
meminimalisasi jumlah dan ukuran atribut dengan tujuan membatasi ukuran tabel
keseluruhan dan mengatur performa. Fact tables biasanya berupa transaksi (faktafakta mengenai kejadian tertentu, misalnya penjualan), snapshot (fakta-fakta yang
direkam pada suatu waktu tertentu, misalnya rincian Account pada awal bulan),

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

dan tabel-tabelsnapshot akumulasi (misalnya, penjualan month-to-date untuk suatu


produk).

Dimension tables biasanya memiliki record yang lebih sedikit dibandingkanfact


tables, tetapi bisa memiliki jumlah atribut yang besar untuk mendeskripsikan data
fakta.

Gambar 2 Contoh Star Schema

Gambar 3 Snowflake Schema

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Menurut Connolly dan Begg (2010:1229), snowflake adalah jenis dari star skema
dimana tabel dimensinya tidak mengandung denormalisasi.

Gambar 4 Contoh Snowflake Skema


Berikut adalah kelebihan dan kekurangan model dimensi star schema.
Kelebihan model dimensi star schema :
1. cenderung mudah dipahami karena modelnya yang lebih sederhana,
2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by
step dari masing-masing dimensinya,
3. proses query lebih cepat pada saat proses OLAP.
Kekurangan model dimensi star schema :
1. ukuran data lebih besar karena ada data yang disimpan ulang,
2. maintenance dan update lebih sulit.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema.


Kelebihan model dimensi snowflake schema :
1. ukuran data lebih kecil di dalam tempat penyimpanan,
2. lebih mudah dilakukan maintenance dan update,
3. proses query lebih cepat pada saat proses ETL.
Kekurangan model dimensi snowflake schema :
1. cenderung lebih sulit dipahami karena kompleksitasnya,
2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.

4. Snowflaking is normalized unnormalized star schema. Give explanation and


understanding for that term

Answer :

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Menurut connolly dan Begg (2010:1229) snowflake merupakan variasi dari star skema
dimana tabel dimensi diperbolehkan memiliki tabel dimensi. Kenapa dilakukan
snowflaking yakni untuk dapat memahami lebih rinci dari fact table serta merincikan dari
tabel dimensi menjadi tabel dimensi baru untuk merincikan tabel dibensi. Snowflaking itu
sendiri merupakan metode normalisasi. Snowflaking juga membuat browsing antara
dimensi atribut menjadi lambat. Jelas tabel kategori snowflaked akan tampil sangat baik
jika user meminta hanya untuk nilai-nilai yang berbeda dari kategori tanpa tambahan,
tetapi jika user membatasi pada jenis paket pada saat yang sama, maka query harus
menggabungkan kembali tabel kategori snowflaked melalui dimensi produk dan mungkin
keluar melalui link lain ke snowflake yang mungkin akan menimbulkan kendala. Dalam
dimensi produk realistis dengan 250.000 records, query ini bisa berjalan selama beberapa
menit pada sistem basis data relasional terkenal, dan query sederhana ini harus mampu
menampilkan hasilnya pada user interface dalam satu atau dua detik.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

5. Design TPS (Transactional Processing System) database design from figure star schema
above with UML class diagram or ERD (Entity Relationship Diagram)!
Answer :
Usecase Diagram

SALESORD

DIMPRODUCT

Cust

DIMWEEK

DIMSTORE

Admin

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

6. Change figure star schema above into snowflake schema!


Answer :

dimlocation

dimstore

Idlocation (PK)
Namelocation
1 *

Idstore (PK)
Namestore
Idlocation (FK)

salesord

IdProduct (FK)
Idstore (FK)
*
Datetrans (FK)
Price
Amount

dimweek
Datetrans (PK)
week
month

dimProduct
*

IdProduct (PK)
1 Nameproduct
Nametypeproduct

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

7. Give explanation and example about multidimensional from figure star schema above!
Answer :

Multidimensional database atau sering disebut dengan cube adalah sebuah bentuk
database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut
ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah Dimension ini
secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk membentuk sebuah
bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran dalam bentuk cube (3
dimensi) ini dimaksud untuk mempermudah visualisasi kita tentang sifat multi
dimensionalnya. Sebagai contoh,"penjualan" bisa dilihat dengan dimensi (1) model
produk, (2)geografi, (3) waktu, atau (4) beberapa dimensi tambahan.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Gambar 5 Contoh Multidimensional

8. Give explanation and example about roll up from figure star schema above!
Answer :
Roll up adalah termasuk dalam jenis-jenis query pada OLAP. Yang dimaksud Roll up
sendiri adalah melakukan agregasi pada level yang berbeda dari hirarki dimensi.
Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan tiap
propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota dalam
satu propinsi.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

9. Give explanation and example about drill down from figure star schema above!
Answer :
Drill down sendiri memandu pengguna untuk memperoleh data yang lebih detail
(Kamber, 2006). Jadi drill dwon menavigasikan dari data rinci yang sedikit hingga yang
lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk sebuah dimensi atau
memperkenalkan dimensi tambahan. Penambahan sebuah dimensi baru berarti tabel fact
pasti berisikan (atau ditambahkan) data di dalam dimensi tersebut, misalnya untuk setiap
propinsi dapat diberikan total penjualan, maka total penjualan tiap kota dapat di-drill
down

10. Give explanation and example about slice and dice from figure star schema above!
Answer :
Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus.
Dengan slicing dan dicing pengguna dapat melihat data dari beberapa perspektif.
Pengguna dapat mengekstrak bagian dari data agregrated dan dapat memeriksa dengan
detail berdasarkan dimensi-dimensi yang diinginkan. Data Agregrated merupakan data

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

praperhitungan

(precalculated)

dalam

bentuk

rangkuman

data (data

summarized) sehingga query pada kubus (cube) lebih cepat. Slicing memotong kubus
sehingga dapat memfokuskan pada perspektif yang spesifik (pada suatu dimensi).
Sedangkan dicing memberikan kemampuan untuk melihat pemilihan data pada dua
dimensi atau lebih. Yaitu dengan merotasi cube pada perspektif yang lain sehingga
pengguna dapat melihat lebih spesifik terhadap data yang dianalisa.

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Gambar Roll up, drill dwon, slice

Ghema Nusa Persada


LZT4 1701497885
7023T Advanced Database Systems

Referensi :
Lane, P. (2005). Oracle Database Data Warehousing Guide, 10g Release 2 (10.2). Redwood
City, CA 94065, U.S.: Oracle Corporation.
Connolly, Thomas M. and Carolyn E.Begg. (2005). Database system A Practical Approach,
Implementasi and Management. Fourth Edition. Addison Wesley Publishing Company,
United States of America
Kimbal, Raphl and Margy Ross. (2007). The Data Warehouse Toolkit. Third Edition. John Wiley
& sons Inc, United States of America
http://datawarehouse4u.info/ETL-tools.html
http://jurnalinformatika.petra.ac.id/index.php/inf/article/view/18250/18118
http://blog.putsall.com/data-ware-house-dan-olap/
http://core.ac.uk/download/pdf/11734553.pdf
http://stti.i-tech.ac.id/component/phocadownload/category/63-data-warehousedatamining?download=315:modul-kuliah-dw-sesi-5

You might also like