Professional Documents
Culture Documents
PROYECTO DE INVESTIGACION
Autor
Bach. Daniel E. Gatica Quispe
Asesor
Ing. David Mamani Pari
INTRODUCCIN
La Tecnologa de la Informacin se ha convertido en la actualidad en una
herramienta clave en los ms importantes procesos dentro de las
organizaciones. La creciente competitividad del mercado y la globalizacin de
la industria nos hacen pensar que para las organizaciones ya no basta con slo
cumplir sus objetivos y metas individuales, sino que es necesario plantearse
nuevos retos. Puesto que cada vez es ms necesaria la innovacin y el
planeamiento estratgico que permita a las organizaciones trascender con su
producto o servicio, es que se requiere tomar medidas que permitan a cada
organizacin destacar en su mercado y tener mayor acogida.
Actualmente el mercado ya no slo busca un producto que satisfaga sus
necesidades, siempre busca algo ms. Los clientes ya no salen a buscar el
mercado, es el mercado el que debe buscar al cliente. Para poder llegar mejor
al cliente es necesario tomar decisiones que involucren a toda la organizacin,
pero estas decisiones deben estar sustentadas en una base segura y confiable.
Un componente indispensable en la toma de decisiones es el manejo eficaz
y eficiente de los datos y la informacin que forma parte del conocimiento de la
organizacin. En este contexto es donde aparecen conceptos como el de
Inteligencia de Negocios, Datamart que es una base de datos departamental,
especializada en el almacenamiento de los datos de un rea de negocio
especfica y que apoyados en tcnicas, herramientas, estrategias y
metodologas, buscan brindar a las organizaciones, en base a la informacin
que stas poseen, los parmetros e indicadores que se necesitan para el
proceso de la toma de decisiones (Reyes, 2007)
En el mercado existen numerosas herramientas que apoyan la
implementacin de soluciones de Inteligencia de Negocios, pero muy pocas
organizaciones las utilizan en nuestro pas debido a diversos factores como la
falta de conocimiento en el tema, el alto costo que implica implantar una
plataforma informtica de este tipo o porque las existentes presentan
limitaciones en sus funcionalidades que no les permite adaptarse al espectro
de requerimientos de las empresas. En otros casos, stas soluciones no estn
integradas o no ofrecen apoyo para todas las etapas de un proyecto de
Inteligencia de Negocios.
La Organizaciones dedicadas a la atencin de la Salud, asisten a un proceso
de creciente informatizacin. La mayor parte de las aplicaciones an se
vinculan con procesos netamente administrativo-contables, pero los datos
estrictamente mdicos y estrictamente el consumo de medicamentos aun no lo
2
est. La Bases de Datos transaccionales propias de la organizacin mdica en
estudio no escapa a los problemas que afectan a las organizaciones de los
otros sectores, y los analistas se enfrentan a muchos problemas en cuanto a la
Restriccin de los Datos. El control de medicamentos y especialmente, su
abastecimiento a tiempo, es uno de los problemas con ms repercusin en los
procesos de la Clnica Americana Juliaca.
El presente proyecto de investigacin enumera y describe cada uno de los
aspectos realizados dentro del trabajo de investigacin, que se llevar a cabo
en la sectorizacin del consumo de medicamentos en la Clnica Americana -
Juliaca, con el fin de implementar una metodologa de inteligencia de negocio
que permita el anlisis de informacin y a la vez apoye en la toma de
decisiones a las autoridades la Clnica.
RESUMEN
La Minera de Datos (Data Mining) es la bsqueda de patrones interesantes
enumerar patrones presentes en los datos. Una forma para describir los
3
atributos de una entidad de una base de datos es utilizar algoritmos de
o insatisfaccin del paciente, y para que sirva como una herramienta en la toma
encuentra contenida
INDICE
INTRODUCCIN........................................................................................................2
4
RESUMEN...................................................................................................................4
CAPTULO I................................................................................................................7
Ttulo.............................................................................................................................7
2. Planteamiento de le Investigacin......................................................................9
3. Objetivo General...............................................................................................10
4. Justificacin......................................................................................................11
CAPITULO II.............................................................................................................12
2. Marco Terico...................................................................................................12
2.3. Datawarehousing..............................................................................................14
2.10. WEKA...........................................................................................................31
CAPITULO III............................................................................................................33
3. Marco Metodolgico.........................................................................................33
4. Materiales y Mtodos........................................................................................35
5. Cronograma de actividades...............................................................................36
4.2 Validacin.........................................................................................................38
Referencias.................................................................................................................61
6
CAPTULO I
Ttulo
Implementacin de una metodologa para sectorizar pacientes en el consumo de
que para las organizaciones ya no basta con slo cumplir sus objetivos y metas
individuales, sino que es necesario plantearse nuevos retos. Puesto que cada vez es ms
trascender con su producto o servicio, es que se requiere tomar medidas que permitan a
siempre busca algo ms. Los clientes ya no salen a buscar el mercado, es el mercado el
que debe buscar al cliente. Para poder llegar mejor al cliente es necesario tomar
decisiones que involucren a toda la organizacin, pero estas decisiones deben estar
el manejo eficaz y eficiente de los datos y la informacin que forma parte del
7
apoyados en tcnicas, herramientas, estrategias y metodologas, buscan brindar a las
nuestro pas debido a diversos factores como la falta de conocimiento en el tema, el alto
costo que implica implantar una plataforma informtica de este tipo o porque las
problemas que afectan a las organizaciones de los otros sectores, y los analistas se
8
2. Planteamiento de le Investigacin
Como en Cualquier institucin de salud asisten a un proceso de creciente
Los usuarios que toman decisiones y planifican da a da, a mediano plazo o a largo
para esta toma de decisiones se usara Inteligencia de Negocios, Datamart que es una
decisiones.
9
3. Objetivo General
Implementar Data Mart utilizando las tecnologas data warehouse, Minera de Datos
Americana Juliaca.
a. Objetivos Especficos
Analizar la informacin del control de medicamentos en la Clnica
10
4. Justificacin
En la Actualidad las organizaciones en salud asisten a un proceso de creciente
como a los que acuden a la consulta ambulatoria dentro de la Clnica Amrica. Para que
esta atencin tenga las caractersticas mencionadas, los integrantes del equipo de salud
11
CAPITULO II
2. Marco Terico
Esta primera parte se presenta el marco terico necesario para comprender el
tema en mencin y otros que se han considerado tiles por estar relacionados con el
Cubos OLAP.
informacin sobre lo que haba sucedido (hechos). Mediante el uso de tecnologas y las
12
El proceso de Business Intelligence incluye la comunicacin de los descubrimientos
y efectuar los cambios. Las reas incluyen clientes, proveedores, productos, servicios y
toma de decisiones. Cuando un responsable tiene que tomar una decisin pide o busca
informacin, que le servir para reducir la incertidumbre. Sin embargo, aunque todos la
factores, como pueden ser su experiencia, formacin, disponibilidad, etc. Del mismo
Los beneficios que se pueden obtener a travs del uso de BI pueden ser de distintos
13
2.3. Datawarehousing
Para mostrar de manera grfica los aspectos comunes a todos los datawarehouses
mencionados anteriormente, se propone la figura 1, que representa en s la arquitectura
general de un datawarehouse.
14
2.3.1. Modelo multidimensional
que tienen unos atributos, que pueden verse con mayor o menor detalle segn ciertas
dimensiones (Kimball, 2004). Los conceptos importantes que se manejan dentro del
ejemplo anterior, las medidas para el hecho de las ventas podran ser: Cuntos
para el hecho de las ventas podran ser: la fecha de la venta, la hora, o el lugar.
Una vez comprendidos estos conceptos, podemos definir los elementos de los
15
Existen dos tipos de tablas, que se muestran grficamente en la figura 2:
Tabla hecho: en ella se almacenan las medidas y las claves de las tablas de
relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake
Schema) [30]. Un esquema en estrella est formado por una tabla por cada dimensin y
una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una
llave extranjera hacia cada tabla de dimensin como se puede apreciar en la figura 3
16
Figura 3 Esquema en estrella
En un esquema copo de nieve las tablas de dimensiones estn normalizadas. Esto
evita redundancia en los datos. Este esquema representa mejor la semntica de las
dimensiones del ambiente de los negocios, ya que tiene un acceso ms directo a los
17
2.4. Data Mart
Es un subconjunto de los datos de un datawarehouse, normalmente en la forma de
negocio particular.
Un data mart puede ser considerado como un centro de distribucin, creado para
los distintos anlisis que se quiere realizar en cada departamento, as como la estructura
general que sta posea. Existen tres modelos de desarrollo generales, Top Down, Botton
Unido al trabajo que se pretende alcanzar con la Data warehouse, debe mencionarse
que los Data marts son bodegas de datos con informacin de inters particular para un
determinado sector de la empresa y aun que su enfoque sea para una sola perspectiva
18
o Extraccin de los datos desde sistemas operacionales, su limpieza,
Data mart.
presentacin.
diferencia de datawarehouse.
Debido a que los datamarts contienen menos informacin comparados con los
La existencia de los datamarts crea nuevas formas de pensar cuando se disean los
19
Figura 5 Arquitectura 1 datamarts
datos desde el DataWarehouse hacia varios datamarts con el fin de permitir un anlisis
20
Finalmente, algunas organizaciones usan sus datamarts como el primer paso de
la necesidad de procesos para extraer, transformar y cargar los datos, actividad que se
21
Figura 8 Arquitectura ETL
datos seria duplicar el contenido completo de los todos los archivos y bases de datos
operacionales y pasar este conjunto de datos duplicado al personal que se encarga de crear el
DataWarehouse. Sin embargo, los programas ETL tendran que manejar archivos gigantes
seria ordenar, filtrar, limpiar y agregar todos los datos requeridos si es posible en un solo
paso y en las mismas fuentes. Sin embargo, en algunas organizaciones este proceso
podra impactar tanto que los sistemas operacionales tendran que suspenderse las actividades
procesar las bases de datos operacionales antes de que los sistemas se pongan en funcionamiento
para la actividad diaria. Esta es la principal razn por la que la migracin de los datos se divide
tiempo de uso de las fuentes de datos. Es decir, los programas de extraccin de datos se tienen
22
que disear para maximizar la eficiencia del procesamiento ETL, pero adems deben liberar las
fuentes de datos lo antes posible, aunque este es un objetivo bastante difcil de lograr.
Una de las razones que dificultan la tarea de extraccin es la redundancia de datos en los
sistemas operacionales, redundancia que los programas de extraccin deben detectar. Por
ejemplo, el elemento de datos que almacena el nombre del cliente puede existir en varios
archivos y bases de datos de origen. Estas ocurrencias redundantes deben consolidarse, con
Adems, es necesario examinar las interdependencias operacionales entre los distintos archivos
La conciliacin de datos, al igual que la limpieza son actividades que tienden a estar
orden en el caos de los datos y continan desplazando los datos desde las fuentes al
DataWarehouse tal cual estn. Su nico objetivo es que la estructura receptora de los
datos no los rechace por razones tcnicas como claves duplicadas, o tipos y longitudes
que no coincidan.
Sin embargo, la gente de negocios espera calidad y consistencia en los datos, y esto
correspondientes.
23
Las actividades de ordenar, mezclar, y transformar los datos requieren un espacio de
DataWarehouse.
manejar sus transacciones u operaciones cotidianas. Estos son los sistemas que operan
siempre han sido las primeras partes de la empresa a ser informatizados. A travs de los
operar sin sus sistemas operacionales y los datos que estos sistemas mantienen. Sin
soportarlo.
24
Reportes estadsticos, debido a que la informacin cambia constantemente
y los resultados tambin podran variar con cada ejecucin del reporte. Un
datos.
Para mostrar de manera grfica los aspectos comunes a todos los data
6. Mezclar entidades.
7. Crear arreglos.
25
8. Separar los datos.
torno a hechos, que tienen unos atributos o medidas, que pueden verse
vendidos?
podemos tener: ao, semestre, trimestre, mes, semana, da, hora. Una
26
implementacin: las tablas y los esquemas (Inmon, 2005). Existen
funciones de agregacin.
2004) .
sobre los cuales se aplican distintos operadores para dar los resultados a
27
cubo se compone de ejes, representados por las dimensiones y celdas que
28
Figura 10 Tcnicas de almacenamiento de cubos ROLAP y MOLAP
La diferencia entre ambas tcnicas radica en la implementacin fsica y no en
2.8. Datamining.
Es la extraccin de informacin oculta y predecible de grandes bases
por los usuarios o por expertos. (Tapia, Ruiz, & Ruiz, 2007)
Snchez, 1996)
29
a. En primer lugar se debe especificar por adelantado cuantos
de los clusters.
30
Tabla 1 Ejemplo de Algoritmo K-Means
2.10. WEKA
De las herramientas vistas en el captulo 3 para aplicar algoritmos de data mining a
los datos almacenados en el datawarehouse se escogi Weka por las siguientes razones
(Weka, 2009):
comando.
31
Puede tomar los datos desde cualquier fuente con archivos de datos.
los siguientes:
Maneja todos los conjuntos de datos que est analizando en memoria, lo que hace
No puede conectarse con un manejador de bases de datos relacional para extraer los
Para poder aplicar los mtodos en Weka, la informacin debe estar en un formato
32
CAPITULO III
3. Marco Metodolgico.
Una de las principales caracterstica que define este estudio es su metodologa de
los trabajos similares, realizados hasta la fecha, respecto al tema. La informacin fue
Negocios.
11.
33
Figura 11 Etapas del Datamarting
Kettle
Mondrian
Weka
4. Materiales y Mtodos
4.1. Lugar de ejecucin y tipo de Investigacin
El presente estudio es de tipo Descriptivo se establece especficamente en la
Farmacia de la Clnica Americana de Juliaca (CAJ), ya que no cuenta con una
sectorizacin de paciente con relacin a los medicamentos que se consume.
Asimismo, se definen pasos a seguir para obtener resultados que apunten a
conseguir una mejor toma de decisin en el abastecimiento de medicamentos
5. Cronograma de actividades
Las actividades de ejecucin del proyecto de desarrollo de un Data Mart de LA
35
est estructurado y detallada de acuerdo a la metodologa Datamarting, vista a
continuacin.
Sustentacin X
Fuente: Propia
36
Captulo IV: Resultados y discusin
37
4.2 Validacin
La capa de anlisis, pas por una etapa de validacin, para corroborar que el
sistema estuviera entregando resultados viables y confiables. Esta etapa fue muy
importante, ya que los resultados entregados sern usados por el administrador de
la empresa como justificacin para las decisiones que sean tomadas.
Para los reportes de OLAP, se tuvo una entrevista con el encargado de la
Farmacia para verificar que los datos estuvieran correctos. Esta validacin
permiti comprobar que los resultados obtenidos de los reportes eran correctos.
De esta manera el usuario tiene la seguridad de tomar decisiones basadas en
resultados confiables, as mismo l puede realizar nuevos clculos con los
resultados obtenidos y de igual manera se estarn manejando resultados fiables.
En la tabla 3.1 mostramos los tiempos que tardan en ejecutarse cada una de las
etapas que conforman el proceso.
SEXO:
Gnero de las personas que acuden de la Clnica
Sus posibles valores son:
M : Masculino
F: Femenino
38
ESTCIV:
Estado Civil de las personas que acuden a la Clnica Americana
Sus posibles valores son:
S: Soltero
C: Casado
V: Viudo
D: Divorciado
CODLOGISTICO:
Cdigo Logstico con el que se adquieren los
medicamentos. En la data considerada, se
encontr que se registraron 94 medicamentos. Sus
posibles valores son:
39
EQUIPO DE VENOCLISIS EMPAQUE INDIVIDUAL ESTERIL
DESCART
CAJ010850037 SELEGILINA 5 MG
CAJ011000001 ALPRAZOLAM 0.5 MG
CAJ010400046 ORCIPRENALINA 0.5 MG/ML
CAJ010250101 METRONIDAZOL 500 MG
CAJ010450021 LACTULOSA 3,33 G/5 ML JARABE X 100 ML O MAS
CAJ010850022 FENOBARBITAL 100 MG/ML X 2 ML
CAJ010250089 IMIPENEM + CILASTATIN 500 MG + 500 MG
CAJ010900011 DERIVADOS DE METILCELULOSA GOTAS OFTALMICAS
CAJ010050009 CODEINA FOSFATO 60 MG
CAJ010750018 INSULINA NPH HUMANA 100 U.I./ML
CAJ010250042 CEFTRIAXONA 1 G
CAJ010150008 METILPREDNISOLONA (SODIO SUCCINATO, ACETATO)
500 MG
CAJ010250080 FLUCONAZOL 100 MG P/INF.IV
CAJ010750016 INSULINA CRISTALINA HUMANA 100 U.I./ML
CAJ010250103 METRONIDAZOL 500 MG/100 ML
CAJ010250003 ACICLOVIR 250 MG P/INF.IV
CAJ010250095 KANAMICINA 1 G
CAJ010750031 OCTREOTIDE (ANALOGO DE SOMATOSTATINA) 0.2
MG/ML
CAJ011050014 CLORURO DE POTASIO 20 % X 10 ML
CAJ010400093 GELATINA ENLAZADA 4 % X 500 ML
CAJ011050024 DEXTROSA 10 % X 1,000 ML
CAJ010050045 TRAMADOL (CLORHIDRATO) 50 MG/ML
CAJ010350015 CICLOSPORINA 100 MG/ML X 50 ML SOLUCION O
MICROEMULSION
CAJ010700029 HEPARINA SODICA 5,000 U.I./ML
CAJ010500005 BECLOMETASONA 50 MG P/INHAL AEROSOL
CAJ011050010 ALBUMINA HUMANA 25 % X 50 ML
CAJ010250036 CEFEPIME 1 G
CAJ010400021 ENALAPRIL 10 MG
CAJ010800026 VACUNA CONTRA LA HEPATITIS B MONODOSIS
40
CAJ010400020 DOPAMINA 200 MG/5 ML P/INF.IV
CAJ010700044 CONCENTRADO DE FACTOR VIII 250 U.I.
CAJ010350017 CICLOSPORIN 50 MG (MICROEMULSION)
CAJ010700014
FACTOR DE CRECIMIENTO DE COLONIAS GRANULOCITICAS Y
MACR
CAJ011050061 SOLUCION PARA DIALISIS PERITONEAL 4.25 % X 5
LITROS
CAJ010200006 FLUMAZENIL 0.1 MG/ML X 5 ML
CAJ011050027 DEXTROSA 5 % X 1,000 ML
A990000006 AGUA DE BICARBONATADA
CAJ010250045 CIPROFLOXACINO 200 MG
CAJ010250024 BENCILPENICILINA PROCAINICA 1,000,000 U.I. (CON
DILUYEN
CAJ010350042 FOLINATO CALCICO 15 MG
CAJ010250009 AMINOPENICILINA/INHIBIDOR DE BETALACTAMASA
1,000/200-50
CAJ010250043 CEFUROXIMA 750 MG
CAJ010850006 BIPERIDENO 5 MG/ML
CAJ010700001 ACIDO FOLICO 0.5 MG
CAJ010650028 NISTATINA 25,000 U.I./G X 60 G CREMA VAGINAL
CAJ010550012 CLOTRIMAZOL 1 % CREMA
CAJ010650016 ESTROGENOS CREMA
CAJ010750041 CARBONATO DE CALCIO 500 MG O MAS DE ION CA
CAJ010650030 OXITOCINA 10 U.I./ML
CAJ010700008 ERITROPOYETINA HUMANA 2,000 U.I.
CAJ010350016 CICLOSPORINA 25 MG (MICROEMULSION)
CAJ010700002 ACIDO TRANEXAMICO 1 G
CAJ010250037 CEFOTAXIMA 0.5 G
CAJ010250084 GANCICLOVIR 500 MG
CAJ010400019 DOBUTAMINA 250 MG/20 ML P/INF.IV
CAJ010250021 ANFOTERICINA B 50 MG P/INF.IV
CAJ011050002 AGUA DESTILADA X 1,000 ML
CAJ010250047 CIPROFLOXACINO 500 MG (TABLETA RANURADA)
41
CAJ010400037 ISOSORBIDE DINITRATO 5 MG SUBLINGUAL
CAJ010400060 NITROGLICERINA 5 MG/ML
CAJ011050031 DEXTROSA 50 % X 1000 ML
CAJ010450034 SALES DE REHIDRATACION ORAL (FORMULA OMS)
27.9 G PARA D
CAJ010050035 PARACETAMOL 500 MG
CAJ010250159 ACICLOVIR 400 MG
CAJ010050018 IBUPROFENO 400 MG
CAJ010250061 DICLOXACILINA 500 MG
CAJ010050002 ALOPURINOL 100 MG
CAJ010400039 LOVASTATINA 20 MG
CAJ010850017 FENITOINA 100 MG
CAJ011000009 DIAZEPAM 10 MG
CAJ010750021 LEVOTIROXINA SODICA 0.1 MG
CAJ010350057 MERCAPTOPURINA 50 MG
CAJ010250133 SULFAMETOXAZOL + TRIMETROPRIMA 400 + 80 MG
CAJ010500017 IPRATROPIO BROMURO 20 MG P/INHAL AEROSOL
CAJ010250051 CLINDAMICINA 600 MG
CAJ010100014 LIDOCAINA 2 % X 20 ML
CAJ010250035 CEFAZOLINA 1 G
CAJ010500013 FENOTEROL 0.5 % X 20 ML P/INHAL
DIAGNOS:
Corresponden a todos los diagnsticos catalogados en la Organizacin
Mundial de la Salud. Los valores se detallan en [OMS].
42
PRESENTA:
Nos muestra las presentaciones con las que pueden presentarse los
medicamentos. Sus posibles valores son:
o AMPOLLETA
o BALON
o CAPSULA
o CARTUCHO
o CENTIMETRO CUBICO
o EQUIPOS
o FRASCO
o GRAMO
o OVULOS
o POTE
o SOBRE
o SUPOSITORIO
o TABLETA
o TONELADA
o TUBO
o UNIDAD
SERVICIO:
Son los Servicios con los que cuenta el Clinica
Sus posibles valores son:
CPQ: CIRUGIA PLASTICA
MI1: MED.1
NEF: NEFROLOGIA
URO: UROLOGIA
NER: NEUROLOGIA DES. VAS. CEREBRO
NEC: NEUROCIRUGIA
OTO: OTORRINO LARINGOLOGIA
NEU: NEUMOLOGIA
CTC: CIR. DE TORAX
HEM: HEMATOLOGIA CLINICA
ONC: ONCOLOGIA
CG1: CIR.1
GAS: GASTROENTEROLOGIA
END: ENDOCRINOLOGIA
DER: DERMATOLOGIA
GIN: GINECOLOGIA GENERAL
43
PQG: PSIQ. GENERAL
REU: REUMATOLOGIA
CIM: CIR. DE MANOS Y MICROCIR. EXTREMIDADES
OBA: OBSTETRICIA ALTO RIESGO
TRA: TRAUMATOLOGIA ORTOPEDIA
CLP: CLIN. PEDIATRICA
MI2: MED.2
MI3: MED.3
MI5: MED.5
CG2: CIR.2
CG3: CIR.3
CG5: CIR.5
CIP: CIR. PEDIATRICA
CCC: CIR. CAB. CUELLO. MAXIMOFACIAL
EME: EMERGENCIA
GER: GERIATRIA
UCI: SERV. CUIDADOS INTERMEDIOS
UTI: SERV. CUIDADO INTENSIVOS
ANE: ANESTESIOLOGIA
CGV: CIR.5 (PARES)
UCP: UTI PEDIATRICA
NUI: INTERMEDIOS-NEUROCIRUGIA
NUC: UCI NEUROCIRUGIA
UQT: U. QUEMADOS INTERMEDIO
ODO: ODONTOLOGIA
OFT: OFTAMOLOGIA
CG4: CIR.4
PTH: TRANSPLANTE/CIR. DE HIGADO.
UCN: UNID. CUID. INTERM. DE NEUMOLOGIA
UOB: SALA DE CUIDADOS ESPEC.
PERINATALES
UIM: UNID. CUID. INTERM. DE MI2
UM1: UNID. CUID. INTERM. DE MI1
UNC: UNID. CUID. INTERM. DE NER
44
UM5: UNID. CUID. INTERM. DE MI5
URG: UROLOGIA GENERAL DAMAS
CPO: CLINICA PEDIATRICA ONCOLOGICA
SEGURO:
Son los Servicios con los que cuenta la Clnica Americana.
Sus posibles valores son:
HIJO
OBLIGATORIO__DEPEND.
CONYUGE
PENSIONISTA
VIUDEZ
SEGURO_PERSONAL
TERCERO
SERVIDORA_DEL_HOGAR
INVALIDEZ
SEGURO_FAMILIAR
FOPASEF
SEG.UNIVERSITARIO
SEG.INDEPENDIENTE
TRABAJADOR_IPSS
FACULT._CONTINUADOR
CONCUBINO
FACULT._INDEPENDTE
CONSTRUCCION_CIVIL
MAGISTERIO
HIJO_INCAPACITADO
AMA_DE_CASA
POR_REGULARIZAR
CHOFER_PROFESIONAL
Aplicacin del Algoritmo k-means
Tomando en cuenta que el algoritmo a utilizar es el K-means, vamos a explicar como
trabaja este algoritmo sobre nuestra data, para finalmente poder obtener nuestros
grupos (o sectores) de pacientes que es lo que finalmente se desea.
45
En el Capitulo II, se ve ms detalladamente la forma como trabaja el algoritmo sobre
los datos. Segn lo visto en (Ferrero, 2006), y tomando como referencia una de las
dimensiones de nuestra data, podemos correr el algoritmo de manera equivalente.
Utilizando una WEKA herramienta que contempla este algoritmo, podemos realizar
las siguientes visualizaciones:
Reemplazar Figura
46
NumClusters = 2 Speed=10
NumClusters = 3 Speed=10
NumClusters = 4 Speed=10
NumClusters = 5 Speed=10
NumClusters = 6 Speed=10
NumClusters = 7 Speed=10
NumClusters = 8 Speed=10
Con estos resultados, vemos que los clusters quedan como sigue:
- El nmero de instancias que el algoritmo ha
utilizado. Es el nmero de registros sobre el cual acta el algoritmo. En este caso son
3725 tems o registros.
- El nmero de atributos por los que se van a agrupar u obtener los clusters. En este caso
son 8:
Sexo, Estado Civil, Controlado, Cdigo Logstico, Diagnostico, Presentacin, Servicio
y Seguro.
- Vemos que el grupo que contiene mayor cantidad
de poblacin lo tiene el primer cluster (28%). Esto
quiere decir, que la mayor cantidad de pacientes
atendidos presenta las caractersticas del cluster
encontrado.
- Los clusters encontrados en la data seleccionada
utilizando el algoritmo K-Means:
47
Cluster 0: F C A010250042 N J15.9 AMPOLLETA MI3
OBLIGATORIO_DEPENDIENTE.
Sexo: FEMENINO
Estado Civil: CASADO
CodLog: A010250042 (CEFTRIAXONA 1 G)
Control: NO CONTROLADO
Diagnostico: J15.9 (NEUMONIA BACTERIANA, NO
ESPECIFICADA)
Tipo de Presentacin: AMPOLLETA
Servicio: MI3
Tipo de Seguro: OBLIGATORIO_DEPENDIENTE
48
Cluster 3:
M S A010250139 N K70.3 AMPOLLETA UTI
OBLIGATORIO__DEPENDIENTE
Sexo: MASCULINO
Estado Civil: SOLTERO
CodLog: A010250139 (VANCOMICINA 500 MG P/INF IV)
Control: NO CONTROLADO
Diagnostico: k70.3 (CIRROSIS HEPATICA ALCOHOLICA)
Tipo de Presentacin: AMPOLLETA
Servicio: UTI
Tipo de Seguro: OBLIGATORIO DEPENDIENTE.
49
Servicio: MI2
Tipo de Seguro: PENSIONISTA
Cluster 6:
M C A010250080 N39.0 N AMPOLLETA UCI
PENSIONISTA
Sexo: MASCULINO
Estado Civil: CASADO
CodLog: A010250080 (FLUCONAZOL 100 MG P/INF.IV)
Control: NO CONTROLADO
Cluster 7
F C A010250089 J96.0 N AMPOLLETA URO CONYUGUE.
Sexo: FEMENINO
Estado Civil: CASADO
CodLog: A010250089 (IMIPENEM + CILASTATIN 500 MG +
500 MG)
Control: NO CONTROLADO
Diagnostico: J96.0 (INSUFICIENCIA RESPIRATORIA AGUDA)
Tipo de Presentacin: AMPOLLETA
Servicio: URO
Tipo de Seguro: CONYUGUE
Esto quiere decir que dentro de toda nuestra informacin almacenada, tenemos varios
grupos o sectores cuyo centro (centroide) presenta las siguientes caractersticas:
50
i. Mujeres con seguro de Obligatorio Dependiente, casadas cuyo diagnstico es
Neumona bacteriana, no especificada, procedentes de Medicina Interna
usando como medicamento
ii. Los mdicos que los tratan, les recetan medicamentos no controlados,
mayoritariamente Ceftriaxona 1G. en presentacin de Ampolleta.
iii. Mujeres con seguro de Hijo, solteros cuyo diagnostico es Leucemia, no
especificada, procedentes de Medicina Interna 3. Los mdicos que los tratan,
les recetan medicamentos no controlados, mayoritariamente Ceftriaxona 1 G
en presentacin de ampolleta.
iv. Mujeres con seguro de Cnyuge, solteras cuyo diagnostico es Insuficiencia
Renal Terminal, procedentes de Nefrologa. Los mdicos que los tratan, les
recetan medicamentos no controlados, mayoritariamente Solucin para
dilisis peritoneal (SD) 1.5% x 2L en presentacin de frasco.
v. Varones con seguro de Obligatorio Dependiente, solteros cuyo diagnostico
es Cirrosis heptica alcohlica, procedentes de UTI. Los mdicos que los
tratan, les recetan medicamentos No Controlados, mayoritariamente
Vancomicina 500 mg. p/inf IV en presentacin de ampolleta.
vi. Varones con seguro de Hijo, solteros cuyo diagnostico es Diabetes mellitus
no insulinodependiente, con complicaciones circulatorias perifricas, No
Especificada, procedentes de Urologa. Los mdicos que los tratan, les
recetan medicamentos No Controlados, mayoritariamente Ceftriaxona 1G en
presentacin de ampolleta.
vii. Varones con seguro de Pensionista, casados cuyo diagnostico es Insuficiencia
Respiratoria, no especificada, procedentes de Medicina Interna
viii. Los mdicos que los tratan, les recetan medicamentos No Controlados,
mayoritariamente Ceftazidima 1 G en presentacin de ampolleta.
ix. Varones con seguro de Pensionista, casados cuyo diagnostico es Infeccin de
vas urinarias, sitio no especificado, procedentes de Unidades de Cuidados
Intermedios. Los mdicos que los tratan, les recetan medicamentos No
controlados, mayoritariamente Fluconazol 100 Mg. p/inf IV en presentacin
de ampolleta.
x. Mujeres con seguro Cnyugue, casadas cuyo diagnostico es Insuficiencia
respiratoria aguda, procedentes de Urologa. Los mdicos que los tratan, les
recetan medicamentos no controlados, mayoritariamente Imipenem +
Colastatin 500 Mg. + 500Mg. en presentacin de ampolleta.
xi. Se inici utilizando como variables a evaluar o a agrupar, datos como: Sexo,
Estado Civil, etc. pues lo que se desea, es confirmar los consumos de los
51
mismos, y la existencia de tipos o grupos de pacientes que consumen
medicamentos.
xii. A continuacin, presentamos algunos grficos correspondientes a los
resultados del algoritmo:
52
2. Resultado CLUSTERS vs. Atributo ESTADOCIVIL
53
4. Resultado CLUSTERS vs. Atributo CONTROLADO
54
Interpretacin de Graficos: Con estos grficos, podemos analizar algunas
caractersticas de los pacientes atendidos, en relacin a sus consumos de medicamentos.
7. La idea, es poder reconocer qu pacientes usan ciertos medicamentos y se encuentran
en estos Clusters, ya que es lo que, a sugerencia de los mdicos, les interesa analizar.
Los mdicos llevan un historial por grupos de pacientes. Este trabajo se focaliza en
obtener grupos de clusters, e identificar qu pacientes se encuentran en estos clusters,
para finalmente entregar los resultados a las reas mdicas para su respectivo anlisis.
55
La infraestructura descrita anteriormente est considerada para efectuar nicamente
el proceso de inteligencia empresarial, si la Clnica Americana cuenta con una mquina
con stas caractersticas y puede compartirse para realizar las operaciones de anlisis,
entonces puede reutilizarse, de lo contrario ser preferible designar una mquina
especial para efectuar el procedimiento.
56
Captulo V: Conclusiones y Recomendaciones
5.1. CONCLUSIONES
En el trascurso del desarrollo de la tesis se defini una metodologa de
sectorizacin usando el algoritmo k-means y las cuales hicieron el proceso de
implementacin ms ordenado y de acuerdo a los objetivos especficos se llegaron a las
siguientes conclusiones
57
Los aportes principales de la tesis son:
Utilizacin de herramientas como Servicios de Minera de Datos. Con lo cual se ha
demostrado que se puede modelar sistemas de minera de datos, con algoritmos simples
en este caso K-means pero robustas para cualquier proyecto de
clusterizacin(sectorizacin).
Otras reas de estudio que tambin pueden resultar provechosas para la Clinica.
Identificar los diagnsticos por los que los pacientes de nuestra zona acuden a la
Clnica americana y esto nos permitira conocer tambin, la realidad en la regin
en cuanto al tema de Salud personal.
58
defecto, se podra evaluar la frmula de constitucin de ese medicamento, como
caso extremo.
Este proyecto pretende sirva como un modelo para futuros proyectos que tengan
relacin con la medicina, la psicologa, y en cualquier otro campo donde se puede
identificar tendencias de conductas o patrones de las mismas.
5.2. RECOMENDACIONES.
59
La oportunidad en este punto, es bsicamente, extender el estudio hacia otras
reas como Laboratorio, las reas de diagnstico, etc. y poder complementar el
anlisis realizado en este trabajo.
A efectos de incorporar esta ampliacin ser necesario tener en cuenta la
integracin de todos los sistemas transaccionales, ya que determinada
informacin que disponen algunas reas y departamentos no est integrada con
los principales sistemas del Clnica Americana-Juliaca
60
Referencias
ArsonGroup. (29 de 07 de 2009). Expertos en Tecnologa de Negocios. Obtenido de
http://www.arsongroup.com/PDFs/BICase.pdf
Harjinder, S., & et.al. (1996). La integracin de informacin para la mejor toma de
Integration: http://kettle.pentaho.org/
Kimball, R. (2004). The Data Warehouse Toolkit series. Estados Unidos: Editorial
Pascual , D., Pla, F., & Snchez, S. (1996). Algoritmos de agrupamiento . Cuba.
http://www.pentaho.com/products/discover_bi_suite.php
61
Reyes, M. (20 de 08 de 2007). Desarrollo de un Datamart de informacin Acadmica
Tapia, I., Ruiz, M., & Ruiz, E. (2007). Una metodologa para sectorizar pacientes en el
62