E.A.P DE NGENERA DE SSTEMAS Una metodoIoga para sectorizar pacientes en eI consumo de medicamentos apIicando Datamart y Datamining en un HospitaI NacionaI CAPTULO II. MARCO TERICO TESS Para optar el ttulo profesional de: NGENERO DE SSTEMAS. AUTOR: Ivn GiIdo Tapia Rivas LIMA - PER 2006
CAP TULO I I MARCO TERI CO
13
2 . 1 ANTECEDENTES.
Como f r ut o de la bsqueda r eal izada por el aut or , se ha encont r ado algunas concept ualizaciones sobr e la invest igacin, que han ser vido par a l a el abor aci n del pr esent e t r abaj o y apar ecen consignados en el mar co concept ual.
Sin embar go, cabe indicar que hast a el pr esent e no se han desar r ollado t r abaj os sobr e Dat amar t , Dat amining y Toma de Decisiones en el mbit o del Consumo de Medicament os y, especf i cament e, en el Hospi t al Nacional Guiller mo Almenar a I r igoyen.
Asimismo, con r elacin a las var iables del t ema, no se han encont r ado invest igaciones que hayan abor dado est os t emas aplicados a la pr oblemt ica plant eada, con lo cual consider amos que la pr esent e invest i gacin r ene las condiciones met odolgicas suf ici ent es par a ser consider ada indit a.
2 . 2 CONCEPTOS SOBRE DATAWAREHOUSE, DATAMART Y OLAP.
2 . 2 . 1 DATAWAREHOUSE. Un Dat aWar ehouse es un r eposit or io cent r al o coleccin de dat os en l a cual se encuent r a i nt egr ada la inf or macin de 14
la or gani zacin y que se usa como sopor t e par a el pr oceso de t oma de decisiones ger enciales. El concept o de Dat aWar ehouse comenz a sur gir cuando las or ganizaciones t uvier on la necesi dad de usar los dat os que car gaban a t r avs de sus si st emas oper acionales par a planeamient o y t oma de decisiones. Par a cumplir est os obj et ivos se necesi t an ef ect uar consul t as que sumar izan los dat os, y que si se hacen sobr e los sist emas oper acionales r educen mucho la per f or mance de las t r ansacci ones que se est n haci endo al mismo t iempo. Fue ent onces que se decidi separ ar los dat os usados par a r epor t es y t oma de decisiones de los sist emas oper acionales y as, disear y const r uir los llamados Dat aWar ehouses par a al macenar est os dat os. Las pr incipales car act er st icas que posee un Dat aWar ehouse son:
Es or ient ado a l a inf or macin r el evant e de la or ganizacin: En un Dat aWar ehouse la inf or macin se clasif ica en base a los aspect os de int er s par a la empr esa, es decir , se disea par a consult ar ef icient ement e i nf or maci n r elat iva a l as act ividades bsicas de la or ganizacin, como vent as, compr as y pr oduccin, y no par a sopor t ar l os pr ocesos que se r eal i zan en ella, como gest in de pedidos, f act ur acin, et c. Es i nt egr ado: int egr a dat os r ecogidos de dif er ent es sist emas oper acionales de la or ganizacin y/ o f uent es ext er nas. Est a int egr acin se hace est abl eciendo una consist encia en l as convenciones par a nombr ar los dat os, en 15
la def inici n de las claves, y en las medidas unif or mes de los dat os. Es var iable en el t iempo: los dat os son r elat ivos a un per iodo de t iempo y deben ser incr ement ados per idicament e. La inf or macin almacenada r epr esent a f ot ogr af as cor r espondient es a cier t os per odos de t i empo. Es no volt il: la inf or macin no se modif ica despus de que se inser t a, solo se incr ement a. El per i odo cubi er t o por un Dat aWar ehouse var a de 2 a 10 aos. [ PATRI CI A ZVENGER]
Ar qu i t ect u r a Dat aw ar eh ou se
Podemos dividir la en dos t ipos: Di se o Lgi co. De acuer do a [ PATRI CI A ZVENGER] , exist en algunos r equer imient os que debe cubr ir un diseo lgico par a un Dat awar ehouse. - Pr epar ar el dat awar ehouse par a sopor t ar la r ecuper acin de una gr an cant idad de f ilas de dat os en f or ma r pida. - La mayor a de los analist as de negocios van a quer er ver dat os t ot alizados. Est os dat os en lo posible deben pr ecal cular se y almacenar se de ant emano par a que est a r ecuper acin sea r pida y ef icient e. Es impor t ant e adems discut ir el nivel de gr anul ar idad y de det alle esper ado por los analist as cuando hacen oper aciones de DRI LLDOWN. 16
- El diseo debe est ar conduci do por el acceso y por el uso, es decir , t eniendo en cuent a qu t ipo de r epor t es o r esmenes son los ms f r ecuent es, y cules los ms ur gent es. - Un diseo nor malizado no es bueno, no solo por lo mencionado en la seccin ant er ior , sino por que no r esult a demasi ado int uit ivo par a una per sona de negocios, y podr a volver se demasi ado complej o. - Todos l os dat os que se i ncl uyan ya deben exi st i r en las f uent es de dat os oper acional es, o ser der ivables a par t ir de ellos. [ PATRI CI A ZVENGER]
Las dos t cnicas de diseo ms popular es de almacenamient o lgico de un dat awar ehouse son las siguient es: Esqu ema Est r el l a. Est e esquema est f or mado por un element o cent r al que consist e en una t abla llamada la Tabla de Hechos, que est conect ada a var ias Tablas de Dimensi ones. Las t abl as de hechos cont i enen los valor es pr ecalculados que sur gen de t ot alizar valor es oper acionales at micos segn las dist int as dimensiones, t al es como client es, pr oduct os o per odos de t iempo. Las t abl as de hechos r epr esent an un event o cr t ico y cuant if icable en el negoci o, como vent as o cost os. Su clave est compuest a por las claves pr imar ias de 17
las t ablas de di mensin r elacionadas ( las FOREI GN KEYS) . Pueden exist ir var ias t ablas de hechos con inf or macin r edundant e, por que podr an cont ener dist int os niveles de agr egacin de los mismos dat os. Por ej emplo podr a exist ir una t abl a de hechos par a las Vent as por Sucur sal, Regin y Fecha, ot r a par a Vent as por Pr oduct os, Sucur sal y Fecha, y ot r a par a Vent as por Client e, Regin y Fecha. En gener al las t ablas de hechos t ienen muchas f ilas y r elat i vament e pocas columnas. Las t abl as de dimensin r epr esent an l as dif er ent es per spect ivas desde donde se ven y anal i zan l os hechos de la t abla de hechos. A dif er encia de las ant er ior es, su clave pr imar ia est f or mada por un solo at r ibut o, y su car act er st ica pr incipal es que est n denor mali zadas. Est o si gni f i ca que si l a dimensin incluye una j er ar qua, las columnas que la def inen se al macenan en la misma t abla dando lugar a valor es r edundant es, lo cual es acept able en est e esquema. En gener al suel en t ener muchas columnas per o pocas f il as. Siempr e que sea posi ble, es convenient e compar t ir las t ablas de dimensin ent r e dist int as t ablas de hechos. Una de las dimensiones mas comunes es la que r epr esent a el t iempo, con at r ibut os que descr iben per iodos par a aos, cuat r imest r es, per iodos f iscales, y per iodos cont ables. 18
Ot r as dimensiones comunes son las de client es, pr oduct os, r epr esent ant es de vent as, r egiones, sucur sal es. El esquema est r ella es el ms usado por que manej a bien la per f or mance de consult as y r epor t es que i ncl uyen aos de dat os hi st r i cos, y por su simplicidad en compar acin con una base de dat os nor malizada. En la siguient e f igur a vemos un ej emplo de esquema Est r el l a, donde l a t abl a de hechos es l a t abl a Vent as, y el r est o son l as t ablas de di mensiones. [ PATRI CI A ZVENGER] Fi gu r a 2 . 1 . Esqu ema Est r el l a.
Esqu ema Copo de Ni ev e. Es una var iant e del esquema est r ella en el cual las t ablas de dimensin est n nor malizadas, es deci r , pueden i ncluir claves que apunt an a ot r as t ablas de dimensin. 19
Las vent aj as de est a nor malizaci n son la r educcin del t amao y r edundanci a en las t ablas de dimensin, y un aument o de f l exi bi l i dad en l a def inicin de dimensiones. Sin embar go, el incr ement o en la cant idad de t ablas hace que se necesit en ms oper aciones de uni n par a r esponder a las consult as, lo que empeor a la per f or mance, adems del mant eni mient o que r equier en las t ablas adicionales. En la siguient e f igur a vemos un esquema similar al ant er ior , donde l a t abla de dimensin Sucur sal se expande en l as t ablas Di st r it o y Regin. Ahor a l a t abla Sucur sal cont iene una col umna clave Dist r it oI d que apunt a a la t abla Dist r it o, y est a a su vez t iene una columna RegionI d que apunt a a la t abla de dimensin Regin. [ PATRI CI A ZVENGER] Fi gu r a 2 . 2 . Esqu ema Copo de Ni ev e
20
Di se o Fsi co. Ent r e las decisiones de implement acin que se deben t omar se incluyen el t amao del espacio libr e, el t amao del buf f er , el t amao del bloque, y si se usa o no una t cnica de compact acin de la base de dat os. Todas est as cuest iones af ect ar n la per f or mance del Dat aWar ehouse. Algunos t emas que impact an sobr e el r endimient o del Dat awar ehouse son: - Par t i ci onami ent o. Gener al ment e cuando se habl an de base de dat os enor mes, donde las t ablas de hechos ocupan var ios cient os de gigabyt es. El par t icionamient o per mit e que los dat os de una t abla lgica, est en var ios dat os f sicos. El par t icionamient o es impor t ant e, pues per mit e r ealizar r espaldos de por ciones de una t abla, si n i mpact ar en su accesi bi l i dad. Por ot r o lado, per mit e guar dar inf or macin mas f r ecuent ement e accedidos, en disposit ivos ms r pi dos. [ PATRI CI A ZVENGER] - Clust er ing. Es una t cnica t il, par a el acceso secuenci al de gr andes cant idades de dat os. Se obt iene def ini endo un ndi ce de cl ust er i ng par a una t abla, el cual det er mina el or den secuenci al f sico en el que se almacenan l as f ilas en los conj unt os de dat os. Est a t cnica mej or a dr st icament e el acceso secuenci al, y es la t cnica mas usada par a 21
pr ocesamient o OLAP. Cuando l as f i l as de l a t abl a no per manezcan almacenadas en el or den cor r espondient e a su ndice cl ust er ing, si t uaci n conocida como f r agment acin, la per f or mance baj ar y habr que r eor ganizar la t abla. [ PATRI CI A ZVENGER] - I ndexado. Exist en dos est r at egias ext r emas de indexado: una es indexar t odo, y la ot r a es no indexar nada, per o ninguna de l as dos es conveni ent e. Las col umnas que se el ij an par a indexar deben ser las que se usan ms f r ecuent ement e par a r ecuper ar l as f i l as, y l as que t ienen una alt a dist r ibucin de valor es, no una baj a como por ej emplo Cdigo Post al. Una vez que se det er minan las columnas a indexar , hay que det er minar la est r at egi a de ndice. La mayor a de las DBMSs pr oveen var ios algor it mos, ent r e ell os B- t r ee, Hash, ar chivo I nver t ido, Spar se y Binar io. Se deber a opt ar por el ms pt imo par a el pr oduct o DBMSs que se est usando. [ PATRI CI A ZVENGER] - Reor gani zaciones. Las car gas incr ement ales de las bases de dat os ir n f r agment ando las t ablas, y est a f r agment acin puede r esult ar en un decaimient o de l a per f or mance. La mayor a de las DBMSs pr oveen r ut inas de r eor ganizacin par a r eclamar el espaci o f r agment ado y mover r egist r os. 22
Las act ividades bsicas involucr adas en la r eor gani zacin de una base de dat os implican copi ar la base de dat os viej a en ot r o disposit ivo, r ebloquear las f ilas y r ecar gar las. Est as t ar eas no son t r iviales en un Dat aWar ehouse, per o t odos l os DBMSs per mit en r eor ganizar par t iciones, lo cual es ot r a buena r azn par a par t icionar las t ablas. [ PATRI CI A ZVENGER] - Backup y Recuper o. Los DBMSs pr oveen ut ilidades par a hacer backups complet os y t ambin incr ement al es. Muchas or ganizaciones t ienen la er r nea impr esin de que los Dat aWar ehouses siempr e se pueden r ecr ear a par t ir de las f uent es de dat os or iginales. Si n embar go, adems de que est a t ar ea puede llevar mucho t iempo por que hay que r eej ecut ar los pr ogr amas de ext r accin, t r ansf or macin y car ga, es posible que est os pr ogr amas y los dat os mismos ya no est n disponi bles. [ PATRI CI A ZVENGER] - Ej ecucin de las consult as en par alelo. Par a mej or ar la per f or mance de una consult a es mej or di vi di r l a en component es que ej ecut en concur r ent ement e. Algunos DBMSs of r ecen ej ecucin par alel a en f or ma t r anspar ent e, es deci r , dividen la consult a por si solos. [ PATRI CI A ZVENGER]
23
2 . 2 . 2 DATAMART. Las cor por aciones de hoy se esf uer zan por conducir sus negocios hacia una base i nt er naci onal. Vemos compaas que sur gier on en Est ados Unidos y se expandi er on a Eur opa, Asia y f r ica. La expansin del negocio cr ea la necesidad de acceder a dat os cor por at ivos que est n ubicados en dif er ent es punt os geogr f icos. Por ej emplo, un ej ecut ivo de vent as de una compaa con or igen en Br asil que est sit uado en Chile puede necesit ar acceso a la base de dat os de la empr esa par a ident if icar l os client es pot enci al es que r esi den sol o en Chi l e. Est e pr oblema se soluciona cr eando ver siones ms pequeas del Dat aWar ehouse, los dat amar t s. Est as ver siones se cr ean usando algn cr it er io par t icul ar , como por ej emplo el lugar geogr f ico. En el ej empl o ant er ior los dat os de los client es que r esi den en Chile se deben al macenar en el dat amar t de la sucur sal en ese pas. La exist encia de los dat amar t s cr ea nuevas f or mas de pensar cuando se disean los r eposit or ios cor por at ivos de dat os. Algunas cor por aciones r eemplazan compl et ament e el concept o de t ener un Dat aWar ehouse cent r al, por var ios dat amar t s ms pequeos que se aliment en dir ect ament e de los sist emas oper acionales. Ot r as compaas usan dat amar t s par a compl ement ar sus Dat aWar ehouses. Mueven dat os desde el Dat aWar ehouse hacia var ios dat amar t s con el f i n de per mit ir un anlisis ms ef icient e. La separ acin de l os dat os se det er mi na segn 24
cr it er ios como depar t ament os, r eas geogr f icas, per iodos de t iempo, et c. Finalment e, algunas or ganizaciones usan sus dat amar t s como el pr imer paso de almacenami ent o de dat os oper acionales. Luego los dat os de t odos los dat amar t s se r eplican en un Dat aWar ehouse cor por at ivo cent r al . [ PATRI CI A ZVENGER] .
25
2 . 2 . 3 Al macen ami en t o OLAP. OLAP se def ine como el anl i si s mul t i di mensi onal e int er act ivo de la inf or macin de negocios a escal a empr esar ial. El anlisis mult idimensional consist e en combinar dist int as r eas de la or ganizacin, y as ubicar cier t os t ipos de i nf or maci n que r evel en el compor t amient o del negocio. [ PATRI CI A ZVENGER] Los usuar ios de her r amient as OLAP se mueven desde una per spect i va de negoci o a ot r a, por ej emplo, pueden est ar obser vando las vent as anuales por sucur sal y pasar a ver las sucur sal es con ms ganancias en los lt i mos t r es meses, y adems con la posibilidad de el egir ent r e dif er ent es niveles de det alle, como vent as por da, por semana o por cuat r imest r e. Es est a expl or acin int er act iva lo que dist ingue a OLAP de las her r amient as simples de consult a y r epor t es. [ PATRI CI A ZVENGER] El anli sis mult idimensi onal, per mit e a los analist as de negocios examinar sus i ndicador es clave o medi das, como vent as, cost os, y ganancias, desde dist i nt as per spect ivas, como per iodos de t iempo, pr oduct os, r egiones. Est as per spect ivas const it uyen l as dimensiones desde las que se explor a la inf or macin. La escal a empr esar ial, se r ef i er e a que OLAP t r abaj a con f uent es de dat os cor por at ivos, que cont ienen dat os de t oda la empr esa.
Par a pr oveer est as car act er st icas, t oda her r amient a OLAP t iene t r es pr incipales car act er st icas: 26
Un modelo mult idimensional de la inf or macin par a el anlisis int er act ivo. Un mot or OLAP que pr ocesa las consult as mul t i di mensi onal es sobr e l os dat os. Un mecanismo de almacenami ent o par a guar dar los dat os que se van a analizar . Est e component e puede ser ext er no a la her r amient a, como un RDBMS o un Dat aWar ehouse.
La her r amient a no solo per mit e f lexibilidad en cuant o a la navegaci n por el modelo mult idimensional de la inf or macin, sino que t ambin es f lexibl e en la def inicin de los r epor t es y aplicaciones que se const r uyen a par t ir de ella. [ PATRI CI A ZVENGER]
CUBOS MULTI DI MENSI ONALES En una base de dat os mult idimensional, el modelo de dat os est a const it uido por lo que se denomina un Cubo mult idimensional o simplement e Cubo. En un cubo la inf or macin se r epr esent a por medio de mat r ices mult idimensionales o cuadr os de mlt iples ent r adas, que nos per mit e r ealizar dist int as combinaciones de sus element os par a visualizar l os r esult ados desde dist i nt as per spect ivas y var iando los ni veles de det alle. Est a est r uct ur a es independient e del sist ema t r ansacci onal de l a or gani zaci n, f acilit a y agiliza la consult a de inf or macin hist r ica of r eciendo la posibilidad de navegar y analizar los dat os. 27
Aqu vemos como ej emplo un cubo mult idimensional que cont iene inf or macin de vent as di scr i mi nadas por per i odos de t iempo, pr oduct os y zonas geogr f icas de l a empr esa. Fi gu r a 2 . 3 . Cu bo Mu l t i di men si on al
Los ej es del cubo son las Dimensiones, y los valor es que se pr esent an en l a mat r iz, son las Medidas. [ PATRI CI A ZVENGER]
DI MENSI ONES Son obj et os del negocio con los cuales se puede analizar la t endencia y el compor t amient o del mi smo. Las def i ni ci ones de las dimensiones se basan en polt icas de la compaa o del mer cado, e indi can la maner a en que la or ganizacin i nt er pr et a o cl asi f ica su inf or macin par a segment ar el anlisis en sect or es, f acil i t ando l a obser vaci n de l os dat os. 28
Par a det er minar las dimensiones r equer idas par a analizar los dat os podemos hacer pr egunt as como: Cundo, Dnde, Qu, Quin, Cul, et c. [ PATRI CI A ZVENGER]
MEDI DAS O METRI CAS Son car act er st icas cualit at ivas o cuant it at ivas de los obj et os que se desean analizar en las empr esas. Las medi das cuant it at ivas est n dadas por valor es o cif r as por cent uales. Por ej emplo, las vent as en dlar es, cant idad de unidades en st ock, cant idad de unidades de pr oduct o vendidas, hor as t r abaj adas, el pr omedio de piezas pr oducidas, el por cent aj e de acept acin de un pr oduct o, el consumo de combust ible de un vehculo, et c. [ PATRI CI A ZVENGER]
JERARQUI AS DE DI MENSI ONES Y NI VELES Gener al ment e las dimensiones se est r uct ur an en j er ar quas, y en cada j er ar qua exist en uno o mas ni vel es, l os l l amados Niveles de Agr egacin o si mplement e Ni veles. Toda dimensin t iene por lo menos una j er ar qua con un ni co nivel. En la f igur a vemos un ej emplo de una di mensin de vendedor es, que consist e de una ni ca j er ar qua, y t r es niveles de agr egacin par a agr upar los por ciudades y por r egiones.
29
Fi gu r a 2 . 4 . Di men si on es y Jer ar qu as.
En el gr af ico ant er ior , los ni veles de Zonas y Ger encia no est n r el aci onados ent r e si , a pesar de que ambos est n r elacionados con l as r eas. [ PATRI CI A ZVENGER]
2 . 2 . 4 ESTRATEGI AS DE ALMACENAMI ENTO. ( ROLAP, MOLAP, HOLAP)
Las bases de dat os r elacional es est n opt imizadas par a obt ener una per f or mance pt i ma en consult as simples y f r ecuent es, per o no f uncionan de maner a ideal par a las consult as mult idimensional es y complej as de est as aplicaciones, ya que exist en muchas de ellas que no se pueden expr esar en una nica consult a SQL, y segur ament e se r equer ir n muchas oper aciones de JOI N, lo cual r educe dr st icament e el t iempo de r espuest a de l a consult a. Par a cubr ir est as def iciencias sur gier on t r es est r at egias de almacenamient o: 30
Bases de dat os mult idimensionales especializadas, que pr oveen almacenamient o y r ecuper o de dat os opt i mi zado par a consult as OLAP. Dat aWar ehouses, const r uidos sobr e una t ecnologa r elacional, per o la opt imizacin se dir ige al sopor t e de decisiones en l ugar de a l as oper aciones t r ansaccionales. Una t er cer a est r at egia que consist e en la combinacin de l as dos ant er i or es. Las her r amient as OLAP que usan almacenami ent o mult idimensional son llamadas MOLAP, mient r as que a las que almacenan l os dat os en bases r elacionales se les llama her r amient as ROLAP. Las her r amient as que combinan los dos enf oques se conocen como OLAP Hbr ido u HOLAP. Cada alt er nat iva t iene sus vent aj as y desvent aj as. En lugar de discut ir cual de las dos es mej or hay que def inir un cr it er io par a opt ar por una u ot r a, y eval uar el al cance de HOLAP, que en la pr ct i ca int ent a combinar lo mej or de ambos mundos. Algunas de las vent aj as ms i mpor t ant es de cada enf oque son: MOLAP Buena per f or mance en las consult as, ya que el almacenamient o est a opt imizado par a el anli sis mult idimensional. La escalabilidad est limit ada por l a capaci dad del Mot or de Base de Dat os y por el t iempo de car ga de los dat os. En gener al el anlisis est l i mi t ado a l os dat os t ot al i zados o sumar izados. 31
El modelo mult idimensional no es lo suf icient ement e f l exi bl e como par a acomodar se a l as necesidades const ant ement e cambiant es del negocio. La est r uct ur a que guar da los dat os est incluida en l a her r amient a. Requi er e una capa adi ci onal de manej o de dat os. No incluye sopor t e de par alelismo, r eplicacin ni r ecuper acin de dat os. Puede r equer ir apr endizaj e por ser una t ecnologa nueva en la or ganizacin. [ PATRI CI A ZVENGER] ROLAP La per f or mance de las consult as no es t an pt ima como en MOLAP. Es capaz de manej ar conj unt os de dat os muy gr andes, por encima de un t er abyt e. Adems del anlisis de inf or macin sumar izada, se pueden analizar dat os det allados hast a el ni vel de l as t r ansacci ones. Es capaz de analizar los dat os desde cualquier per spect iva en cual quier moment o. La her r amient a ROLAP r equier e un Dat aWar ehouse de donde ext r aer los dat os par a analizar . Las cuest iones t cnicas del manej o de los dat os est a car go del Mot or de Base de Dat os. I ncluye sopor t e par a r eplicacin, r ollback y r ecuper acin, y par a acceso mult iusuar io. [ PATRI CI A ZVENGER]
32
2 . 3 CONCEPTUALI ZACI ONES SOBRE TRANSFORMA- CI ON Y CARGA DE DATOS.
2 . 3 . 1 MI GRACI ON DE DATOS: EXTRACCI ON, TRANSFORMACI ON Y CARGA
La migr acin de l os dat os desde l as f uent es oper aci onal es al Dat aWar ehouse r equier e la necesidad de pr ocesos par a ext r aer , t r ansf or mar y car gar l os dat os, act ividad que se conoce como ETL. La mayor a de l os dat os de or i gen son l os dat os oper acionales act uales, aunque par t e de ellos pueden ser dat os hist r icos ar chivados. Si los r equer imient os de dat os incluyen algunos aos de hi st or i a es necesar i o desar r ol l ar t r es conj unt os de pr ogr amas ETL: una Car ga I nicial, una Car ga Hist r ica, y una Car ga I ncr ement al. Car ga I n i ci al La car ga inicial se asemej a mucho al pr oceso de conver si n ent r e si st emas que se da en l as or gani zaci ones cuando pasan, por ej emplo, de sus viej os sist emas oper acionales a un pr oduct o ERP. Car ga Hi st r i ca Est e pr oceso debe ver se como una ext ensin de la car ga inicial, per o la conver sin aqu es un poco dif er ent e por que l os dat os hi st r i cos son dat os est t i cos. A dif er encia de los dat os oper acionales, los dat os est t icos ya se ar chi var on en disposit ivos de almacenamient o of f line. Es 33
comn que con el t r anscur so del t iempo se eliminen element os de dat os que ya no si r ven, se agr eguen nuevos, se modi f iquen los t ipos de cier t os dat os o l os f or mat os de los r egist r os, lo que implica que los dat os hist r icos no necesar i ament e se puedan sincr onizar con los dat os oper aci onal es. Por l o t ant o los pr ogr amas de conver sin escr it os par a l a car ga i ni ci al qui z no sean aplicables a la car ga de dat os hi st r icos sin algunos cambios pr evios. Car ga I n cr emen t al Una vez que el Dat aWar ehouse est car gado con dat os iniciales e hist r icos, hay que desar r ol l ar ot r o pr oceso par a l a car ga incr ement al, que se ej ecut ar mensual, semanal o diar iament e. Exist en dos f or mas de di sear l a car ga incr ement al: Ext r aer t odos l os r egi st r os: Se ext r aen t odos los r egist r os oper acionales, independient ement e de los valor es que hayan cambiado desde l a lt i ma car ga r eal i zada. En gener al est a opcin no es viabl e debido al volumen de l os dat os, por eso la mayor a opt a por la si guient e opci n. Ext r aer Delt as solament e: Sol o se ext r aen r egi st r os nuevos o r egist r os que cont engan valor es que cambiar on desde la lt ima car ga r eal izada. Disear pr ogr amas ETL par a ext r acciones delt a es ms f cil cuando las f uent es consist en en bases de dat os r elacionales y cont amos con una columna t imest amp par a det er minar los delt as. [ PATRI CI A ZVENGER]
Expliquemos ahor a, lo que debe cont empl ar est e pr oceso: 34
A. Ext r aer l os Dat os. Que consist e en det er minar t cnicas, par a combinar ef icienci a en el uso de la dat a de or igen, as como det ect ar r edundancias y dat os y algn ot r o r uido. Adems, hay que dist ingui r un dat o que puede est ar duplicado en dist int as t ablas. B. Tr ansf or mar Dat os. Est e pr oceso es el ms cr t ico, debido a que debe cont r olar algunos f act or es: Claves pr imar ias inconsist ent es, val or es i nconsi st ent es, dat os con dif er ent es f or mat os, valor es er r neos, sinnimos y homnimos, Lgica embebida, I nt egr acin y Der ivaci n, et c. descr it os en [ PATRI CI A ZVENGER] En la f igur a vemos algunos ej emplos de t r ansf or macin de dat os: El pr imer o r ef er ent e a sexo, el segundo r ef er ent e a unidades de medi da, el t er cer o se r ef i er e a est andar izar nombr es, y por lt imo, est andar izar f or mat os de f echa. 35
Fi gu r a 2 . 5 . Ej empl os de Tr an sf or maci n
C. Car gar Dat os. Est e paso, es el ms simple, y ser ia el que complet ar a el pr oceso ETL. Aqu se t endr a que t ener cuidado, bsicament e con los ndices, y a la int egr idad r ef er encial.
2 . 4 CONCEPTOS SOBRE MI NERI A DE DATOS.
2 . 4 . 1 DATA MI NI NG.
Dat a Mi ning, l a ext r acci n de inf or maci n ocult a y pr edeci ble de gr andes bases de dat os, es una t ecnologa par a ayudar a las compaas a descubr ir inf or macin r elevant e en sus bases de inf or macin. Las her r amient as de Dat a Mining clasif ican y pr edicen f ut ur as t endenci as y compor t ami ent os. Los anl i si s 36
pr ospect ivos aut omat izados of r ecidos por la aut omat izacin del Dat a Mining van ms all de l os event os pasados pr ovist os por las her r amient as usuales de sist emas de sopor t e de deci si n.
Est as her r amient as explor an las bases de dat os en busca de pat r ones ocult os, encont r ando inf or macin pr edeci ble que un exper t o no puede llegar a encont r ar .
Muchas compaas ya colect an y r ef i nan cant idades masivas de dat os. Las t cnicas de Dat a Mining pueden ser implement adas r pidament e en plat af or mas ya exist ent es de sof t war e y har dwar e par a acr ecent ar el valor de las f uent es de inf or macin exist ent es y pueden ser i nt egr adas con nuevos pr oduct os y sist emas.
Los algor it mos de Dat a Mining ut ilizan t cnicas que han exist ido por lo menos desde hace 10 aos, per o que slo han sido implement adas r ecient ement e como her r amient as madur as y conf i abl es.
[ MAGDALENA SERVENTE] ot or ga cier t as capaci dades a la t ecnol oga de Dat a Mi ning:
- Descr i pci n de cl ases: Pr ovee una cl asi f i caci n ( car act er i zacin) concisa y r esumida de un 37
conj unt o de dat os y los dist ingue ( discr iminacin) unos de ot r os. - Asoci aci n : Es el descubr imient o de r elaciones de asoci acin o cor r elacin en un conj unt o de dat os. - Cl asi f i caci n : Analiza un conj unt o de dat os de ent r enamient o cuya cl asif icacin de clase se conoce y const r uye un modelo de obj et os par a cada clase. Puede r epr esent ar se en r boles de decisin o r eglas de cl asif i cacin. - Pr edi cci n : Est a f unci n de la miner a pr edice los valor es posi bles de dat os f al t ant es o l a dist r ibucin de valor es de ci er t os at r i but os en un conj unt o de obj et os. - Cl u st er i n g: I dent if ica clust er s en los dat os, donde un cl ust er es una col eccin de dat os si mi l ar es . La si mi l i t ud puede medir se mediant e f unciones de dist ancia, especif icadas por los usuar ios o por exper t os. La Miner a de Dat os t r at a de encont r ar clust er s de buena calidad que sean escal abl es a gr andes bases de dat os y a dat awar ehouses mult idimensionales. - An l i si s de Ser i es a t r av s de Ti empo: Analiza un gr an conj unt o de dat os obt eni dos con el cor r er del t i empo par a encont r ar en l r egular idades y car act er st icas int er esant es, incluyendo la bsqueda de pat r ones secuenciales, per i di cos, modas y desvi aci ones. 38
2 . 4 . 1 . 1 Al gor i t mo K- Mean s ( K- Medi as)
Uno de los algor it mos ms ut ilizados par a hacer clust er ing es el k- medias ( kmeans) , que se car act er i za por su senci l l ez. [ MOLI NA GARCI A] 1. En pr imer lugar se debe especif icar por adelant ado cuant os clust er s se van a cr ear , st e es el par met r o k , par a l o cual se sel ecci onan k el ement os al eat or iament e, que r epr esent ar n el cent r o o medi a de cada cl ust er . 2. A cont inuacin cada una de las inst ancias, ej empl os, es asignada al cent r o del cl ust er ms cer cano de acuer do con la di st ancia Euclidea que l e separ a de l . 3. Par a cada uno de l os clust er s as const r uidos se calcula el cent r oide de t odas sus inst ancias y est os cent r oides son t omados como los nuevos cent r os de sus r espect ivos clust er s. 4. Finalment e se r epit e el pr oceso complet o con los nuevos cent r os de los cl ust er s. 5. La it er acin cont ina hast a que se r epit e la asignaci n de l os mismos ej emplos a los mismos clust er s, ya que los punt os cent r ales de l os clust er s se han est abilizado y per manecer n invar iables despus de cada it er acin. [ MOLI NA GARCI A] Par a obt ener los cent r oides, se calcula l a media o la moda segn se t r at e de at r ibut os numr icos o simblicos. El algor it mo lo ponemos par a mej or ent endi mient o: 39
Ex pl i caci n : - Se det er minan K cent r os iniciales - Se r epi t e: - Cr ear l os K gr upos en base a l os pat r ones ms cer canos a cada cent r o. - Recalcular los K cent r os como l os punt os medios de cada gr upo cr eado. Mi ent r as l os K cent r os t engan una var iaci n apr eci able en posicin ent r e dos it er aciones. Event ual ment e, luego de algunas i t er aci ones l os cent r os se est abilizan y con ellos la par t ici n del espaci o f or mado por l os K gr upos def inidos por est os cent r os. 40
El Diagr ama de Fluj o del algor it mo podr a ser el siguient e: [ SANDRA CARTAGENOVA] Fi gu r a 2 . 6 . Al gor i t mo K- Mean s
41
A cont inuacin, se muest r an ej emplos de clust er ing con el algor it mo k- medi as. EJEMPLO 1: [ MOLI NA GARCI A] Fi gu r a 2 . 7 . Ej empl o K- Mean s
En est e caso se par t e de un t ot al de nueve ej empl os o inst ancias, se conf igur a el algor it mo par a que obt enga 3 clust er s, y se inicializan al eat or i ament e los cent r oides de los clust er s a un ej emplo det er minado. Una vez inicializados los dat os, se comienza el bucle del algor it mo. En cada una de las gr f icas inf er ior es se muest r a un paso por el al gor i t mo. Cada uno de l os ej emplos se r epr esent a con un t ono de color dif er ent e que i ndi ca la per t enenci a del ej emplo a un cl ust er det er minado, mi ent r as que los cent r oides si guen most r ndose como cr culos de mayor t amao y sin 42
r el l eno. Por ul t i mo el pr oceso de cl ust er ing f inaliza en el paso 3, ya que en l a si guient e pasada del al gor it mo ( r ealment e har a cuat r o pasadas, si se conf igur ar a as) ningn ej emplo cambiar a de clust er .
EJEMPLO 2: [ LUI S GABRI EL] En la pr imer a columna se encuent r a la posicin del element o y en la segunda su valor . Se han el egido i ni ci al ment e 2 cent r oi des, ubi cados en las posiciones 2 y 7. En l a columna con et iquet a dist 1 se ha r egist r ado la dist ancia de cada obj et o al pr imer cent r oide. De igual f or ma, en la siguient e columna se ha r egist r ado la dist ancia de cada obj et o al sigui ent e cent r oide. Luego se han escogido las dist ancias mnimas, y en la l t ima col umna de l a t abl a se r ealiza la asignacin de element os a cada uno de los gr upos. Tabl a 2 . 1 . Ej empl o K- Mean s
Se r ecal culan los cent r os, como el pr omedio de las dist ancias dent r o de cada conglomer ado. Los nuevos cent r oides son: 4. 25, 2. 83. 43
Tabl a 2 . 2 . Ej empl o K- Mean s
Ahor a, en est a t abla, se calcul a la dist ancia de cada element o a los nuevos cent r os. Est e pr oceso se r epi t e it er at ivament e hast a un nmer o de veces pr opuest o por el usuar io o hast a que no var i l a conf igur acin dent r o de los gr upos.