You are on page 1of 33

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE NGENERA DE SSTEMAS E NFORMTCA


E.A.P DE NGENERA DE SSTEMAS
Una metodoIoga para sectorizar pacientes
en eI consumo de medicamentos
apIicando Datamart y Datamining en un
HospitaI NacionaI
CAPTULO II. MARCO TERICO
TESS Para optar el ttulo profesional de: NGENERO DE SSTEMAS.
AUTOR:
Ivn GiIdo Tapia Rivas
LIMA - PER 2006











CAP TULO I I
MARCO TERI CO


13



2 . 1 ANTECEDENTES.

Como f r ut o de la bsqueda r eal izada por el aut or , se ha
encont r ado algunas concept ualizaciones sobr e la
invest igacin, que han ser vido par a l a el abor aci n del
pr esent e t r abaj o y apar ecen consignados en el mar co
concept ual.

Sin embar go, cabe indicar que hast a el pr esent e no se han
desar r ollado t r abaj os sobr e Dat amar t , Dat amining y Toma de
Decisiones en el mbit o del Consumo de Medicament os y,
especf i cament e, en el Hospi t al Nacional Guiller mo Almenar a
I r igoyen.

Asimismo, con r elacin a las var iables del t ema, no se han
encont r ado invest igaciones que hayan abor dado est os t emas
aplicados a la pr oblemt ica plant eada, con lo cual
consider amos que la pr esent e invest i gacin r ene las
condiciones met odolgicas suf ici ent es par a ser consider ada
indit a.


2 . 2 CONCEPTOS SOBRE DATAWAREHOUSE,
DATAMART Y OLAP.

2 . 2 . 1 DATAWAREHOUSE.
Un Dat aWar ehouse es un r eposit or io cent r al o coleccin
de dat os en l a cual se encuent r a i nt egr ada la inf or macin de
14



la or gani zacin y que se usa como sopor t e par a el pr oceso de
t oma de decisiones ger enciales.
El concept o de Dat aWar ehouse comenz a sur gir cuando las
or ganizaciones t uvier on la necesi dad de usar los dat os que
car gaban a t r avs de sus si st emas oper acionales par a
planeamient o y t oma de decisiones.
Par a cumplir est os obj et ivos se necesi t an ef ect uar consul t as
que sumar izan los dat os, y que si se hacen sobr e los
sist emas oper acionales r educen mucho la per f or mance de las
t r ansacci ones que se est n haci endo al mismo t iempo. Fue
ent onces que se decidi separ ar los dat os usados par a
r epor t es y t oma de decisiones de los sist emas oper acionales
y as, disear y const r uir los llamados Dat aWar ehouses par a
al macenar est os dat os.
Las pr incipales car act er st icas que posee un Dat aWar ehouse
son:

Es or ient ado a l a inf or macin r el evant e de la or ganizacin:
En un Dat aWar ehouse la inf or macin se clasif ica en base a
los aspect os de int er s par a la empr esa, es decir , se disea
par a consult ar ef icient ement e i nf or maci n r elat iva a l as
act ividades bsicas de la or ganizacin, como vent as, compr as
y pr oduccin, y no par a sopor t ar l os pr ocesos que se r eal i zan
en ella, como gest in de pedidos, f act ur acin, et c.
Es i nt egr ado: int egr a dat os r ecogidos de dif er ent es
sist emas oper acionales de la or ganizacin y/ o f uent es
ext er nas. Est a int egr acin se hace est abl eciendo una
consist encia en l as convenciones par a nombr ar los dat os, en
15



la def inici n de las claves, y en las medidas unif or mes de los
dat os.
Es var iable en el t iempo: los dat os son r elat ivos a un
per iodo de t iempo y deben ser incr ement ados
per idicament e. La inf or macin almacenada r epr esent a
f ot ogr af as cor r espondient es a cier t os per odos de t i empo.
Es no volt il: la inf or macin no se modif ica despus de que
se inser t a, solo se incr ement a. El per i odo cubi er t o por un
Dat aWar ehouse var a de 2 a 10 aos. [ PATRI CI A ZVENGER]

Ar qu i t ect u r a Dat aw ar eh ou se

Podemos dividir la en dos t ipos:
Di se o Lgi co.
De acuer do a [ PATRI CI A ZVENGER] , exist en algunos
r equer imient os que debe cubr ir un diseo lgico
par a un Dat awar ehouse.
- Pr epar ar el dat awar ehouse par a sopor t ar la
r ecuper acin de una gr an cant idad de f ilas de dat os
en f or ma r pida.
- La mayor a de los analist as de negocios van a
quer er ver dat os t ot alizados. Est os dat os en lo
posible deben pr ecal cular se y almacenar se de
ant emano par a que est a r ecuper acin sea r pida y
ef icient e. Es impor t ant e adems discut ir el nivel de
gr anul ar idad y de det alle esper ado por los analist as
cuando hacen oper aciones de DRI LLDOWN.
16



- El diseo debe est ar conduci do por el acceso y por
el uso, es decir , t eniendo en cuent a qu t ipo de
r epor t es o r esmenes son los ms f r ecuent es, y
cules los ms ur gent es.
- Un diseo nor malizado no es bueno, no solo por lo
mencionado en la seccin ant er ior , sino por que no
r esult a demasi ado int uit ivo par a una per sona de
negocios, y podr a volver se demasi ado complej o.
- Todos l os dat os que se i ncl uyan ya deben exi st i r
en las f uent es de dat os oper acional es, o ser
der ivables a par t ir de ellos. [ PATRI CI A ZVENGER]

Las dos t cnicas de diseo ms popular es de
almacenamient o lgico de un dat awar ehouse son las
siguient es:
Esqu ema Est r el l a.
Est e esquema est f or mado por un element o cent r al
que consist e en una t abla llamada la Tabla de
Hechos, que est conect ada a var ias Tablas de
Dimensi ones.
Las t abl as de hechos cont i enen los valor es
pr ecalculados que sur gen de t ot alizar valor es
oper acionales at micos segn las dist int as
dimensiones, t al es como client es, pr oduct os o
per odos de t iempo.
Las t abl as de hechos r epr esent an un event o cr t ico y
cuant if icable en el negoci o, como vent as o cost os.
Su clave est compuest a por las claves pr imar ias de
17



las t ablas de di mensin r elacionadas ( las FOREI GN
KEYS) . Pueden exist ir var ias t ablas de hechos con
inf or macin r edundant e, por que podr an cont ener
dist int os niveles de agr egacin de los mismos dat os.
Por ej emplo podr a exist ir una t abl a de hechos par a
las Vent as por Sucur sal, Regin y Fecha, ot r a par a
Vent as por Pr oduct os, Sucur sal y Fecha, y ot r a par a
Vent as por Client e, Regin y Fecha.
En gener al las t ablas de hechos t ienen muchas f ilas
y r elat i vament e pocas columnas.
Las t abl as de dimensin r epr esent an l as dif er ent es
per spect ivas desde donde se ven y anal i zan l os
hechos de la t abla de hechos. A dif er encia de las
ant er ior es, su clave pr imar ia est f or mada por un
solo at r ibut o, y su car act er st ica pr incipal es que
est n denor mali zadas. Est o si gni f i ca que si l a
dimensin incluye una j er ar qua, las columnas que
la def inen se al macenan en la misma t abla dando
lugar a valor es r edundant es, lo cual es acept able en
est e esquema.
En gener al suel en t ener muchas columnas per o
pocas f il as. Siempr e que sea posi ble, es convenient e
compar t ir las t ablas de dimensin ent r e dist int as
t ablas de hechos.
Una de las dimensiones mas comunes es la que
r epr esent a el t iempo, con at r ibut os que descr iben
per iodos par a aos, cuat r imest r es, per iodos f iscales,
y per iodos cont ables.
18



Ot r as dimensiones comunes son las de client es,
pr oduct os, r epr esent ant es de vent as, r egiones,
sucur sal es.
El esquema est r ella es el ms usado por que manej a
bien la per f or mance de consult as y r epor t es que
i ncl uyen aos de dat os hi st r i cos, y por su
simplicidad en compar acin con una base de dat os
nor malizada.
En la siguient e f igur a vemos un ej emplo de esquema
Est r el l a, donde l a t abl a de hechos es l a t abl a
Vent as, y el r est o son l as t ablas de di mensiones.
[ PATRI CI A ZVENGER]
Fi gu r a 2 . 1 . Esqu ema Est r el l a.

Esqu ema Copo de Ni ev e.
Es una var iant e del esquema est r ella en el cual las
t ablas de dimensin est n nor malizadas, es deci r ,
pueden i ncluir claves que apunt an a ot r as t ablas de
dimensin.
19



Las vent aj as de est a nor malizaci n son la r educcin
del t amao y r edundanci a en las t ablas de
dimensin, y un aument o de f l exi bi l i dad en l a
def inicin de dimensiones.
Sin embar go, el incr ement o en la cant idad de t ablas
hace que se necesit en ms oper aciones de uni n
par a r esponder a las consult as, lo que empeor a la
per f or mance, adems del mant eni mient o que
r equier en las t ablas adicionales.
En la siguient e f igur a vemos un esquema similar al
ant er ior , donde l a t abla de dimensin Sucur sal se
expande en l as t ablas Di st r it o y Regin. Ahor a l a
t abla Sucur sal cont iene una col umna clave Dist r it oI d
que apunt a a la t abla Dist r it o, y est a a su vez t iene
una columna RegionI d que apunt a a la t abla de
dimensin Regin. [ PATRI CI A ZVENGER]
Fi gu r a 2 . 2 . Esqu ema Copo de Ni ev e

20



Di se o Fsi co.
Ent r e las decisiones de implement acin que se deben
t omar se incluyen el t amao del espacio libr e, el
t amao del buf f er , el t amao del bloque, y si se usa o
no una t cnica de compact acin de la base de dat os.
Todas est as cuest iones af ect ar n la per f or mance del
Dat aWar ehouse.
Algunos t emas que impact an sobr e el r endimient o del
Dat awar ehouse son:
- Par t i ci onami ent o.
Gener al ment e cuando se habl an de base de dat os
enor mes, donde las t ablas de hechos ocupan var ios
cient os de gigabyt es. El par t icionamient o per mit e
que los dat os de una t abla lgica, est en var ios
dat os f sicos.
El par t icionamient o es impor t ant e, pues per mit e
r ealizar r espaldos de por ciones de una t abla, si n
i mpact ar en su accesi bi l i dad. Por ot r o lado, per mit e
guar dar inf or macin mas f r ecuent ement e accedidos,
en disposit ivos ms r pi dos. [ PATRI CI A ZVENGER]
- Clust er ing.
Es una t cnica t il, par a el acceso secuenci al de
gr andes cant idades de dat os. Se obt iene def ini endo
un ndi ce de cl ust er i ng par a una t abla, el cual
det er mina el or den secuenci al f sico en el que se
almacenan l as f ilas en los conj unt os de dat os.
Est a t cnica mej or a dr st icament e el acceso
secuenci al, y es la t cnica mas usada par a
21



pr ocesamient o OLAP. Cuando l as f i l as de l a t abl a no
per manezcan almacenadas en el or den
cor r espondient e a su ndice cl ust er ing, si t uaci n
conocida como f r agment acin, la per f or mance
baj ar y habr que r eor ganizar la t abla. [ PATRI CI A
ZVENGER]
- I ndexado.
Exist en dos est r at egias ext r emas de indexado: una
es indexar t odo, y la ot r a es no indexar nada, per o
ninguna de l as dos es conveni ent e. Las col umnas
que se el ij an par a indexar deben ser las que se usan
ms f r ecuent ement e par a r ecuper ar l as f i l as, y l as
que t ienen una alt a dist r ibucin de valor es, no una
baj a como por ej emplo Cdigo Post al.
Una vez que se det er minan las columnas a indexar ,
hay que det er minar la est r at egi a de ndice. La
mayor a de las DBMSs pr oveen var ios algor it mos,
ent r e ell os B- t r ee, Hash, ar chivo I nver t ido, Spar se y
Binar io. Se deber a opt ar por el ms pt imo par a el
pr oduct o DBMSs que se est usando. [ PATRI CI A
ZVENGER]
- Reor gani zaciones.
Las car gas incr ement ales de las bases de dat os ir n
f r agment ando las t ablas, y est a f r agment acin
puede r esult ar en un decaimient o de l a
per f or mance. La mayor a de las DBMSs pr oveen
r ut inas de r eor ganizacin par a r eclamar el espaci o
f r agment ado y mover r egist r os.
22



Las act ividades bsicas involucr adas en la
r eor gani zacin de una base de dat os implican copi ar
la base de dat os viej a en ot r o disposit ivo,
r ebloquear las f ilas y r ecar gar las. Est as t ar eas no
son t r iviales en un Dat aWar ehouse, per o t odos l os
DBMSs per mit en r eor ganizar par t iciones, lo cual es
ot r a buena r azn par a par t icionar las t ablas.
[ PATRI CI A ZVENGER]
- Backup y Recuper o.
Los DBMSs pr oveen ut ilidades par a hacer backups
complet os y t ambin incr ement al es. Muchas
or ganizaciones t ienen la er r nea impr esin de que
los Dat aWar ehouses siempr e se pueden r ecr ear a
par t ir de las f uent es de dat os or iginales. Si n
embar go, adems de que est a t ar ea puede llevar
mucho t iempo por que hay que r eej ecut ar los
pr ogr amas de ext r accin, t r ansf or macin y car ga, es
posible que est os pr ogr amas y los dat os mismos ya
no est n disponi bles. [ PATRI CI A ZVENGER]
- Ej ecucin de las consult as en par alelo.
Par a mej or ar la per f or mance de una consult a es
mej or di vi di r l a en component es que ej ecut en
concur r ent ement e. Algunos DBMSs of r ecen
ej ecucin par alel a en f or ma t r anspar ent e, es deci r ,
dividen la consult a por si solos. [ PATRI CI A
ZVENGER]

23



2 . 2 . 2 DATAMART.
Las cor por aciones de hoy se esf uer zan por conducir sus
negocios hacia una base i nt er naci onal.
Vemos compaas que sur gier on en Est ados Unidos y se
expandi er on a Eur opa, Asia y f r ica. La expansin del
negocio cr ea la necesidad de acceder a dat os cor por at ivos
que est n ubicados en dif er ent es punt os geogr f icos. Por
ej emplo, un ej ecut ivo de vent as de una compaa con or igen
en Br asil que est sit uado en Chile puede necesit ar acceso a
la base de dat os de la empr esa par a ident if icar l os client es
pot enci al es que r esi den sol o en Chi l e.
Est e pr oblema se soluciona cr eando ver siones ms pequeas
del Dat aWar ehouse, los dat amar t s. Est as ver siones se cr ean
usando algn cr it er io par t icul ar , como por ej emplo el lugar
geogr f ico. En el ej empl o ant er ior los dat os de los client es
que r esi den en Chile se deben al macenar en el dat amar t de
la sucur sal en ese pas.
La exist encia de los dat amar t s cr ea nuevas f or mas de pensar
cuando se disean los r eposit or ios cor por at ivos de dat os.
Algunas cor por aciones r eemplazan compl et ament e el
concept o de t ener un Dat aWar ehouse cent r al, por var ios
dat amar t s ms pequeos que se aliment en dir ect ament e de
los sist emas oper acionales.
Ot r as compaas usan dat amar t s par a compl ement ar sus
Dat aWar ehouses. Mueven dat os desde el Dat aWar ehouse
hacia var ios dat amar t s con el f i n de per mit ir un anlisis ms
ef icient e. La separ acin de l os dat os se det er mi na segn
24



cr it er ios como depar t ament os, r eas geogr f icas, per iodos de
t iempo, et c.
Finalment e, algunas or ganizaciones usan sus dat amar t s como
el pr imer paso de almacenami ent o de dat os oper acionales.
Luego los dat os de t odos los dat amar t s se r eplican en un
Dat aWar ehouse cor por at ivo cent r al . [ PATRI CI A ZVENGER] .

25



2 . 2 . 3 Al macen ami en t o OLAP.
OLAP se def ine como el anl i si s mul t i di mensi onal e
int er act ivo de la inf or macin de negocios a escal a
empr esar ial. El anlisis mult idimensional consist e en
combinar dist int as r eas de la or ganizacin, y as ubicar
cier t os t ipos de i nf or maci n que r evel en el compor t amient o
del negocio. [ PATRI CI A ZVENGER]
Los usuar ios de her r amient as OLAP se mueven desde una
per spect i va de negoci o a ot r a, por ej emplo, pueden est ar
obser vando las vent as anuales por sucur sal y pasar a ver las
sucur sal es con ms ganancias en los lt i mos t r es meses, y
adems con la posibilidad de el egir ent r e dif er ent es niveles
de det alle, como vent as por da, por semana o por
cuat r imest r e. Es est a expl or acin int er act iva lo que dist ingue
a OLAP de las her r amient as simples de consult a y r epor t es.
[ PATRI CI A ZVENGER]
El anli sis mult idimensi onal, per mit e a los analist as de
negocios examinar sus i ndicador es clave o medi das, como
vent as, cost os, y ganancias, desde dist i nt as per spect ivas,
como per iodos de t iempo, pr oduct os, r egiones. Est as
per spect ivas const it uyen l as dimensiones desde las que se
explor a la inf or macin.
La escal a empr esar ial, se r ef i er e a que OLAP t r abaj a con
f uent es de dat os cor por at ivos, que cont ienen dat os de t oda la
empr esa.

Par a pr oveer est as car act er st icas, t oda her r amient a OLAP
t iene t r es pr incipales car act er st icas:
26



Un modelo mult idimensional de la inf or macin par a el
anlisis int er act ivo.
Un mot or OLAP que pr ocesa las consult as
mul t i di mensi onal es sobr e l os dat os.
Un mecanismo de almacenami ent o par a guar dar los dat os
que se van a analizar . Est e component e puede ser ext er no a
la her r amient a, como un RDBMS o un Dat aWar ehouse.

La her r amient a no solo per mit e f lexibilidad en cuant o a la
navegaci n por el modelo mult idimensional de la
inf or macin, sino que t ambin es f lexibl e en la def inicin de
los r epor t es y aplicaciones que se const r uyen a par t ir de ella.
[ PATRI CI A ZVENGER]

CUBOS MULTI DI MENSI ONALES
En una base de dat os mult idimensional, el modelo de dat os
est a const it uido por lo que se denomina un Cubo
mult idimensional o simplement e Cubo. En un cubo la
inf or macin se r epr esent a por medio de mat r ices
mult idimensionales o cuadr os de mlt iples ent r adas, que nos
per mit e r ealizar dist int as combinaciones de sus element os
par a visualizar l os r esult ados desde dist i nt as per spect ivas y
var iando los ni veles de det alle. Est a est r uct ur a es
independient e del sist ema t r ansacci onal de l a or gani zaci n,
f acilit a y agiliza la consult a de inf or macin hist r ica
of r eciendo la posibilidad de navegar y analizar los dat os.
27



Aqu vemos como ej emplo un cubo mult idimensional que
cont iene inf or macin de vent as di scr i mi nadas por per i odos de
t iempo, pr oduct os y zonas geogr f icas de l a empr esa.
Fi gu r a 2 . 3 . Cu bo Mu l t i di men si on al

Los ej es del cubo son las Dimensiones, y los valor es que se
pr esent an en l a mat r iz, son las Medidas. [ PATRI CI A
ZVENGER]

DI MENSI ONES
Son obj et os del negocio con los cuales se puede analizar la
t endencia y el compor t amient o del mi smo. Las def i ni ci ones
de las dimensiones se basan en polt icas de la compaa o del
mer cado, e indi can la maner a en que la or ganizacin
i nt er pr et a o cl asi f ica su inf or macin par a segment ar el
anlisis en sect or es, f acil i t ando l a obser vaci n de l os dat os.
28



Par a det er minar las dimensiones r equer idas par a analizar los
dat os podemos hacer pr egunt as como: Cundo, Dnde, Qu,
Quin, Cul, et c. [ PATRI CI A ZVENGER]

MEDI DAS O METRI CAS
Son car act er st icas cualit at ivas o cuant it at ivas de los obj et os
que se desean analizar en las empr esas. Las medi das
cuant it at ivas est n dadas por valor es o cif r as por cent uales.
Por ej emplo, las vent as en dlar es, cant idad de unidades en
st ock, cant idad de unidades de pr oduct o vendidas, hor as
t r abaj adas, el pr omedio de piezas pr oducidas, el por cent aj e
de acept acin de un pr oduct o, el consumo de combust ible de
un vehculo, et c. [ PATRI CI A ZVENGER]

JERARQUI AS DE DI MENSI ONES Y NI VELES
Gener al ment e las dimensiones se est r uct ur an en j er ar quas,
y en cada j er ar qua exist en uno o mas ni vel es, l os l l amados
Niveles de Agr egacin o si mplement e Ni veles. Toda
dimensin t iene por lo menos una j er ar qua con un ni co
nivel. En la f igur a vemos un ej emplo de una di mensin de
vendedor es, que consist e de una ni ca j er ar qua, y t r es
niveles de agr egacin par a agr upar los por ciudades y por
r egiones.





29



Fi gu r a 2 . 4 . Di men si on es y Jer ar qu as.

En el gr af ico ant er ior , los ni veles de Zonas y Ger encia no
est n r el aci onados ent r e si , a pesar de que ambos est n
r elacionados con l as r eas. [ PATRI CI A ZVENGER]

2 . 2 . 4 ESTRATEGI AS DE ALMACENAMI ENTO. ( ROLAP,
MOLAP, HOLAP)

Las bases de dat os r elacional es est n opt imizadas par a
obt ener una per f or mance pt i ma en consult as simples y
f r ecuent es, per o no f uncionan de maner a ideal par a las
consult as mult idimensional es y complej as de est as
aplicaciones, ya que exist en muchas de ellas que no se
pueden expr esar en una nica consult a SQL, y segur ament e
se r equer ir n muchas oper aciones de JOI N, lo cual r educe
dr st icament e el t iempo de r espuest a de l a consult a.
Par a cubr ir est as def iciencias sur gier on t r es est r at egias de
almacenamient o:
30



Bases de dat os mult idimensionales especializadas, que
pr oveen almacenamient o y r ecuper o de dat os opt i mi zado
par a consult as OLAP.
Dat aWar ehouses, const r uidos sobr e una t ecnologa
r elacional, per o la opt imizacin se dir ige al sopor t e de
decisiones en l ugar de a l as oper aciones t r ansaccionales.
Una t er cer a est r at egia que consist e en la combinacin de
l as dos ant er i or es.
Las her r amient as OLAP que usan almacenami ent o
mult idimensional son llamadas MOLAP, mient r as que a las
que almacenan l os dat os en bases r elacionales se les llama
her r amient as ROLAP. Las her r amient as que combinan los dos
enf oques se conocen como OLAP Hbr ido u HOLAP.
Cada alt er nat iva t iene sus vent aj as y desvent aj as. En lugar
de discut ir cual de las dos es mej or hay que def inir un
cr it er io par a opt ar por una u ot r a, y eval uar el al cance de
HOLAP, que en la pr ct i ca int ent a combinar lo mej or de
ambos mundos.
Algunas de las vent aj as ms i mpor t ant es de cada enf oque
son:
MOLAP
Buena per f or mance en las consult as, ya que el
almacenamient o est a opt imizado par a el anli sis
mult idimensional.
La escalabilidad est limit ada por l a capaci dad del Mot or de
Base de Dat os y por el t iempo de car ga de los dat os.
En gener al el anlisis est l i mi t ado a l os dat os t ot al i zados o
sumar izados.
31



El modelo mult idimensional no es lo suf icient ement e
f l exi bl e como par a acomodar se a l as necesidades
const ant ement e cambiant es del negocio.
La est r uct ur a que guar da los dat os est incluida en l a
her r amient a.
Requi er e una capa adi ci onal de manej o de dat os.
No incluye sopor t e de par alelismo, r eplicacin ni
r ecuper acin de dat os.
Puede r equer ir apr endizaj e por ser una t ecnologa nueva en
la or ganizacin. [ PATRI CI A ZVENGER]
ROLAP
La per f or mance de las consult as no es t an pt ima como en
MOLAP.
Es capaz de manej ar conj unt os de dat os muy gr andes, por
encima de un t er abyt e.
Adems del anlisis de inf or macin sumar izada, se pueden
analizar dat os det allados hast a el ni vel de l as t r ansacci ones.
Es capaz de analizar los dat os desde cualquier per spect iva
en cual quier moment o.
La her r amient a ROLAP r equier e un Dat aWar ehouse de
donde ext r aer los dat os par a analizar .
Las cuest iones t cnicas del manej o de los dat os est a
car go del Mot or de Base de Dat os.
I ncluye sopor t e par a r eplicacin, r ollback y r ecuper acin, y
par a acceso mult iusuar io. [ PATRI CI A ZVENGER]

32



2 . 3 CONCEPTUALI ZACI ONES SOBRE TRANSFORMA-
CI ON Y CARGA DE DATOS.

2 . 3 . 1 MI GRACI ON DE DATOS: EXTRACCI ON,
TRANSFORMACI ON Y CARGA

La migr acin de l os dat os desde l as f uent es oper aci onal es al
Dat aWar ehouse r equier e la necesidad de pr ocesos par a
ext r aer , t r ansf or mar y car gar l os dat os, act ividad que se
conoce como ETL.
La mayor a de l os dat os de or i gen son l os dat os
oper acionales act uales, aunque par t e de ellos pueden ser
dat os hist r icos ar chivados.
Si los r equer imient os de dat os incluyen algunos aos de
hi st or i a es necesar i o desar r ol l ar t r es conj unt os de pr ogr amas
ETL: una Car ga I nicial, una Car ga Hist r ica, y una Car ga
I ncr ement al.
Car ga I n i ci al
La car ga inicial se asemej a mucho al pr oceso de conver si n
ent r e si st emas que se da en l as or gani zaci ones cuando
pasan, por ej emplo, de sus viej os sist emas oper acionales a
un pr oduct o ERP.
Car ga Hi st r i ca
Est e pr oceso debe ver se como una ext ensin de la car ga
inicial, per o la conver sin aqu es un poco dif er ent e por que
l os dat os hi st r i cos son dat os est t i cos.
A dif er encia de los dat os oper acionales, los dat os est t icos ya
se ar chi var on en disposit ivos de almacenamient o of f line. Es
33



comn que con el t r anscur so del t iempo se eliminen
element os de dat os que ya no si r ven, se agr eguen nuevos,
se modi f iquen los t ipos de cier t os dat os o l os f or mat os de los
r egist r os, lo que implica que los dat os hist r icos no
necesar i ament e se puedan sincr onizar con los dat os
oper aci onal es. Por l o t ant o los pr ogr amas de conver sin
escr it os par a l a car ga i ni ci al qui z no sean aplicables a la
car ga de dat os hi st r icos sin algunos cambios pr evios.
Car ga I n cr emen t al
Una vez que el Dat aWar ehouse est car gado con dat os
iniciales e hist r icos, hay que desar r ol l ar ot r o pr oceso par a l a
car ga incr ement al, que se ej ecut ar mensual, semanal o
diar iament e. Exist en dos f or mas de di sear l a car ga
incr ement al:
Ext r aer t odos l os r egi st r os: Se ext r aen t odos los r egist r os
oper acionales, independient ement e de los valor es que hayan
cambiado desde l a lt i ma car ga r eal i zada.
En gener al est a opcin no es viabl e debido al volumen de l os
dat os, por eso la mayor a opt a por la si guient e opci n.
Ext r aer Delt as solament e: Sol o se ext r aen r egi st r os nuevos
o r egist r os que cont engan valor es que cambiar on desde la
lt ima car ga r eal izada.
Disear pr ogr amas ETL par a ext r acciones delt a es ms f cil
cuando las f uent es consist en en bases de dat os r elacionales y
cont amos con una columna t imest amp par a det er minar los
delt as. [ PATRI CI A ZVENGER]

Expliquemos ahor a, lo que debe cont empl ar est e pr oceso:
34



A. Ext r aer l os Dat os.
Que consist e en det er minar t cnicas, par a combinar
ef icienci a en el uso de la dat a de or igen, as como det ect ar
r edundancias y dat os y algn ot r o r uido. Adems, hay que
dist ingui r un dat o que puede est ar duplicado en dist int as
t ablas.
B. Tr ansf or mar Dat os.
Est e pr oceso es el ms cr t ico, debido a que debe cont r olar
algunos f act or es:
Claves pr imar ias inconsist ent es, val or es i nconsi st ent es,
dat os con dif er ent es f or mat os, valor es er r neos,
sinnimos y homnimos, Lgica embebida, I nt egr acin y
Der ivaci n, et c. descr it os en [ PATRI CI A ZVENGER]
En la f igur a vemos algunos ej emplos de t r ansf or macin de
dat os: El pr imer o r ef er ent e a sexo, el segundo r ef er ent e a
unidades de medi da, el t er cer o se r ef i er e a est andar izar
nombr es, y por lt imo, est andar izar f or mat os de f echa.
35



Fi gu r a 2 . 5 . Ej empl os de Tr an sf or maci n

C. Car gar Dat os.
Est e paso, es el ms simple, y ser ia el que complet ar a el
pr oceso ETL. Aqu se t endr a que t ener cuidado,
bsicament e con los ndices, y a la int egr idad r ef er encial.

2 . 4 CONCEPTOS SOBRE MI NERI A DE DATOS.

2 . 4 . 1 DATA MI NI NG.

Dat a Mi ning, l a ext r acci n de inf or maci n ocult a y
pr edeci ble de gr andes bases de dat os, es una
t ecnologa par a ayudar a las compaas a descubr ir
inf or macin r elevant e en sus bases de inf or macin. Las
her r amient as de Dat a Mining clasif ican y pr edicen
f ut ur as t endenci as y compor t ami ent os. Los anl i si s
36



pr ospect ivos aut omat izados of r ecidos por la
aut omat izacin del Dat a Mining van ms all de l os
event os pasados pr ovist os por las her r amient as
usuales de sist emas de sopor t e de deci si n.

Est as her r amient as explor an las bases de dat os en
busca de pat r ones ocult os, encont r ando inf or macin
pr edeci ble que un exper t o no puede llegar a encont r ar .

Muchas compaas ya colect an y r ef i nan cant idades
masivas de dat os. Las t cnicas de Dat a Mining pueden
ser implement adas r pidament e en plat af or mas ya
exist ent es de sof t war e y har dwar e par a acr ecent ar el
valor de las f uent es de inf or macin exist ent es y
pueden ser i nt egr adas con nuevos pr oduct os y
sist emas.

Los algor it mos de Dat a Mining ut ilizan t cnicas que
han exist ido por lo menos desde hace 10 aos, per o
que slo han sido implement adas r ecient ement e como
her r amient as madur as y conf i abl es.

[ MAGDALENA SERVENTE] ot or ga cier t as capaci dades a
la t ecnol oga de Dat a Mi ning:

- Descr i pci n de cl ases: Pr ovee una cl asi f i caci n
( car act er i zacin) concisa y r esumida de un
37



conj unt o de dat os y los dist ingue ( discr iminacin)
unos de ot r os.
- Asoci aci n : Es el descubr imient o de r elaciones
de asoci acin o cor r elacin en un conj unt o de
dat os.
- Cl asi f i caci n : Analiza un conj unt o de dat os de
ent r enamient o cuya cl asif icacin de clase se
conoce y const r uye un modelo de obj et os par a
cada clase. Puede r epr esent ar se en r boles de
decisin o r eglas de cl asif i cacin.
- Pr edi cci n : Est a f unci n de la miner a pr edice
los valor es posi bles de dat os f al t ant es o l a
dist r ibucin de valor es de ci er t os at r i but os en un
conj unt o de obj et os.
- Cl u st er i n g: I dent if ica clust er s en los dat os,
donde un cl ust er es una col eccin de dat os
si mi l ar es . La si mi l i t ud puede medir se mediant e
f unciones de dist ancia, especif icadas por los
usuar ios o por exper t os. La Miner a de Dat os t r at a
de encont r ar clust er s de buena calidad que sean
escal abl es a gr andes bases de dat os y a
dat awar ehouses mult idimensionales.
- An l i si s de Ser i es a t r av s de Ti empo:
Analiza un gr an conj unt o de dat os obt eni dos con el
cor r er del t i empo par a encont r ar en l
r egular idades y car act er st icas int er esant es,
incluyendo la bsqueda de pat r ones secuenciales,
per i di cos, modas y desvi aci ones.
38




2 . 4 . 1 . 1 Al gor i t mo K- Mean s ( K- Medi as)

Uno de los algor it mos ms ut ilizados par a hacer
clust er ing es el k- medias ( kmeans) , que se car act er i za
por su senci l l ez. [ MOLI NA GARCI A]
1. En pr imer lugar se debe especif icar por adelant ado
cuant os clust er s se van a cr ear , st e es el par met r o k ,
par a l o cual se sel ecci onan k el ement os al eat or iament e,
que r epr esent ar n el cent r o o medi a de cada cl ust er .
2. A cont inuacin cada una de las inst ancias, ej empl os,
es asignada al cent r o del cl ust er ms cer cano de
acuer do con la di st ancia Euclidea que l e separ a de l .
3. Par a cada uno de l os clust er s as const r uidos se
calcula el cent r oide de t odas sus inst ancias y est os
cent r oides son t omados como los nuevos cent r os de sus
r espect ivos clust er s.
4. Finalment e se r epit e el pr oceso complet o con los
nuevos cent r os de los cl ust er s.
5. La it er acin cont ina hast a que se r epit e la
asignaci n de l os mismos ej emplos a los mismos
clust er s, ya que los punt os cent r ales de l os clust er s se
han est abilizado y per manecer n invar iables despus de
cada it er acin. [ MOLI NA GARCI A]
Par a obt ener los cent r oides, se calcula l a media o la
moda segn se t r at e de at r ibut os numr icos o
simblicos.
El algor it mo lo ponemos par a mej or ent endi mient o:
39




Ex pl i caci n :
- Se det er minan K cent r os iniciales
- Se r epi t e:
- Cr ear l os K gr upos en base a l os pat r ones ms
cer canos a cada cent r o.
- Recalcular los K cent r os como l os punt os medios de
cada gr upo cr eado.
Mi ent r as l os K cent r os t engan una var iaci n apr eci able en
posicin ent r e dos it er aciones.
Event ual ment e, luego de algunas i t er aci ones l os cent r os se
est abilizan y con ellos la par t ici n del espaci o f or mado por l os
K gr upos def inidos por est os cent r os.
40



El Diagr ama de Fluj o del algor it mo podr a ser el siguient e:
[ SANDRA CARTAGENOVA]
Fi gu r a 2 . 6 . Al gor i t mo K- Mean s


41



A cont inuacin, se muest r an ej emplos de clust er ing con el
algor it mo k- medi as.
EJEMPLO 1: [ MOLI NA GARCI A]
Fi gu r a 2 . 7 . Ej empl o K- Mean s

En est e caso se par t e de un t ot al de nueve ej empl os o
inst ancias, se conf igur a el algor it mo par a que obt enga 3
clust er s, y se inicializan al eat or i ament e los cent r oides
de los clust er s a un ej emplo det er minado. Una vez
inicializados los dat os, se comienza el bucle del
algor it mo. En cada una de las gr f icas inf er ior es se
muest r a un paso por el al gor i t mo. Cada uno de l os
ej emplos se r epr esent a con un t ono de color dif er ent e
que i ndi ca la per t enenci a del ej emplo a un cl ust er
det er minado, mi ent r as que los cent r oides si guen
most r ndose como cr culos de mayor t amao y sin
42



r el l eno. Por ul t i mo el pr oceso de cl ust er ing f inaliza en el
paso 3, ya que en l a si guient e pasada del al gor it mo
( r ealment e har a cuat r o pasadas, si se conf igur ar a as)
ningn ej emplo cambiar a de clust er .

EJEMPLO 2: [ LUI S GABRI EL]
En la pr imer a columna se encuent r a la posicin del
element o y en la segunda su valor . Se han el egido
i ni ci al ment e 2 cent r oi des, ubi cados en las posiciones 2 y
7. En l a columna con et iquet a dist 1 se ha r egist r ado la
dist ancia de cada obj et o al pr imer cent r oide. De igual
f or ma, en la siguient e columna se ha r egist r ado la
dist ancia de cada obj et o al sigui ent e cent r oide. Luego
se han escogido las dist ancias mnimas, y en la l t ima
col umna de l a t abl a se r ealiza la asignacin de
element os a cada uno de los gr upos.
Tabl a 2 . 1 . Ej empl o K- Mean s

Se r ecal culan los cent r os, como el pr omedio de las
dist ancias dent r o de cada conglomer ado. Los nuevos
cent r oides son: 4. 25, 2. 83.
43




Tabl a 2 . 2 . Ej empl o K- Mean s

Ahor a, en est a t abla, se calcul a la dist ancia de cada
element o a los nuevos cent r os. Est e pr oceso se r epi t e
it er at ivament e hast a un nmer o de veces pr opuest o por
el usuar io o hast a que no var i l a conf igur acin dent r o
de los gr upos.

You might also like