You are on page 1of 38

Tema 2:

Medición de Calidad de Datos y Planes de Medición


Versión 2.0. Extendida

Calidad y Medición de Sistemas de Información


Curso 2008/09

Dr. Ismael Caballero


Ismael.Caballero@uclm.es
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha

Índice de Contenidos

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

1
Introducción

•Focos de estudio de la calidad de los datos (Piattini et al., 2006)

Calidad de los Datos

Calidad de la Base de Datos Calidad de la Presentación

Calidad del Modelo de


Calidad del SGBD Calidad de los Datos
Datos

Calidad del Modelo Calidad del Modelo Calidad del Modelo


Conceptual Lógico Físico

Introducción (II)

• La calidad de los datos depende de:


 Los propios datos (extensión de los datos)
• Influyen en la efectividad de los procesos de negocio
(Dependencia de la Semántica de los negocios)
 El esquema de los datos (intensión de los datos)
• Influye en el ciclo de vida de los datos.
• Eg. Tablas no normalizadas convenientemente
• Pueden no dar el soporte para los aspectos de calidad
requerida por el usuario.
 Procesos Técnicos sobre los datos (SGBD):
• Pueden no implementar mecanismos que aseguren:
– Que no se producen errores en los datos
– Que los datos satisfagan los requisitos de los usuarios.
• Pueden depender de la calidad de los procesos o de la
utilización de ciertos recursos de la organización
• Están normalmente implementados sobre el SGBD y
dependen del soporte que de a esos procesos.

2
Introducción (III)

• Medición en la Calidad de los Datos


 Para tener una idea cuantitativa de cómo de bueno son los
datos para una aplicación es necesario medirlos.
 En las semanas anteriores se han presentado:
• Formalización de Medidas mediante SMO
• Método Alarcos para la Definición de Métricas
– Validación Teórica de Métricas
– Validación Empírica de Métricas
 A continuación se van a presentar algunas medidas para
medir la calidad de los datos de los sistemas de
información en el esquema de los datos y en los propios
datos.
• Se ha necesitado adaptar SMO a DQ obteniendo DQMO.
 Es importante tener en cuenta la necesidad de
automatizar todas estas métricas definiendo previamente
los planes de medida necesarios.
5

Introducción (IV)

• Método Alarcos de Definición de Métricas


Métrica Retirada
Reutilización
IDENTIFICACIÓN

OBJETIVOS HIPÓTESIS ACREDITACIÓN

Objetivos

Requisitos Realimentación

CREACIÓN

Objetivos
DEFINICIÓN DE MÉTRICAS APLICACIÓN

Métricas Aceptadas

Métricas No
Aceptadas

VALIDACIÓN EMPÍRICA ACEPTACIÓN


VALIDACIÓN
TEÓRICA
CASOS DE
APROX AXIOM EXPERIMENTOS ENCUESTAS
ESTUDIO
TEORIA DE LA
MEDIDA

EXPLICACIÓN PSICOLÓGICA

Métricas Válidas 6

3
Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

Medición del Modelo de Datos

•Calidad de los modelados conceptuales


 Se puede decir que de la calidad de los modelos conceptuales
depende el resto de calidades.
• Calidad del Producto
– Calidad del Modelo Conceptual
– Calidad del Modelo Lógico
• Calidad del Proceso
– Calidad de Cómo se desarrolla el Modelo Conceptual
– Son tratadas en Moody (1998) y Maier (2001)

4
Medición del Modelo de Datos (II)

•Dimensiones (Propiedades) de Calidad de Datos para los


Modelos Conceptuales

Autores Propiedades

Compleción, corrección, minimalidad,


Batini et al. (1992) expresividad, legibilidad, autoexplicación,
extensibilidad y normalidad.
Corrección conceptual, compleción conceptual,
Reingruber y Gregory (1994) corrección sintáctica, compleción sintáctica,
conocimiento de la empresa.
Facilidad de comprensión, corrección semántica,
Boman et al. (1997)
estabilidad, compleción, enfoque conceptual.
Legibilidad, Grado de Normalización,
Corrección con respecto al modelo,
Redman (1996) Corrección con respecto a los requisitos,
Minimalización, Compleción, Pertinencia

Medición del Modelo de Datos (III)

• Utilización
 Se establecen Marcos de Referencia (conocidos en SMO
como Modelos de Calidad) que organizan y estructuran
los conceptos claves y características en el modelado
conceptual de los datos.
 Algunos de estos marcos establecen dimensiones pero no
las métricas (medidas en SMO) ya que su definición es
compleja debido a la dependencia del usuario y de la
utilización que vaya a hacer de esos datos.
 A continuación se exponen los marcos más importantes
(Piattini et al., 2006)

10

5
Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

11

Medición del Modelo Conceptual de Datos

•Propuesta de Lindland et al. (1994)


Medios
Tipos de calidad Objetivos
Propiedades modelo Actividades
Corrección
Sintáctica Sintaxis formal Verif. Sintáctica
sintáctica

Verif. Consistencia
Validez viable Semántica formal
Semántica Inserción sentencias
Compleción viable Modificabilidad
Borrado sentencias

Inserción sentencias
Semántica percibida Borrado sentencias
Entrenamiento
Inspección
Visualización
Filtrado
Economía expresiva
Presentación diag.
Estética
Comprensión Parafrasear
Pragmática Explicación
viable
Entrenamiento
Ejecución
Ejecutabilidad Animación
Simulación
Análisis punto vista
Social Acuerdo viable Modelado conflicto Resolución conflicto
Fusión de modelos
12

6
Medición del Modelo Conceptual de Datos (II)

•Propuesta de Moody y Shanks (1994)


Factor de calidad Métricas

Nº de elementos del modelo de datos que no corresponden con requisitos de usuario


Nº de requisitos de usuario no representados en el modelo de datos
Compleción Nº de elementos de datos que corresponden a requisitos de usuario pero definidos de forma
inexacta
Nº de inconsistencias con el modelo de procesos
Nº de reglas del negocio que no se hacen cumplir por el modelo de datos
Integridad Nº de restricciones de integridad incluidas en el modelo de datos que no corresponden a políticas
del negocio
Nº de elementos en el modelo que están sujetos a cambios en el futuro
Flexibilidad Costes estimados de los cambios
Importancia estratégica de los cambios
Valoración de los usuarios sobre la comprensibilidad del modelo
Comprensibilidad Capacidad de los usuarios de interpretar el modelo correctamente
Valoración de los desarrolladores de aplicaciones sobre la comprensibilidad del modelo
Nº de violaciones de las convenciones de modelado de datos
Corrección Nº de violaciones a las formas normales
Nº de instancias de redundancia en el modelo
Nº de entidades
Simplicidad Nº de entidades e interrelaciones
Nº de constructores (aNE + bNR + cNA)
Nº de conflictos con el modelo de datos corporativo
Integración Nº de conflictos con los sistemas existentes
Valoración de los representantes de todas las áreas de negocio
Valoración de riesgo técnico
Valoración de riesgo de planificación
Implementabilidad
Estimación del coste de desarrollo
Nº de elementos físicos incluidos en el modelo de datos 13

Medición del Modelo Conceptual de Datos (III)

•Propuesta de Shanks y Darke (1997)

T IPO S D E Enfoque
D O M I IO M E D IO S
C A L ID A D teó rico

ad ecu ad o es logrado
clasifica
p ara p or
con tien e
rep resen ta
tien e
conocim iento L E  G U A JE
de O B JE T IV O
usad o P R O P IE D A D
en
ad ecu ad o
para

M ODELO s e correspond e
A U D IE  C IA in terp reta con se correspon d e A C T IV ID A D
con
se ocup a O
de

es asign ado es lograd o por

asign a u sado por FACTOR DE


C A L ID A D
P E SO
es asign ad o

valu ado p or

M ETODO DE E nfoque
VALORES
pu ntú a E V A L U A C IO  práctico

14

7
Medición del Modelo Conceptual de Datos (IV)

•Propuesta de Kesh (1995)

Calidad

Funcionamiento Ontología

Usabilidad Usabilidad
Mantenibilidad
(usuario) (diseñador)

Precisión Rendimiento Estructura Contenido

Adecuación al ambiente
Compleción
Validez
Cohesión
Consistencia
Validez
Concisión

15

Medición del Modelo Conceptual de Datos (V)

•Propuesta de Schuette y Rotthowe (1998)


Principios Objetivos
Consenso a cerca de la definición de la definición del problema
Consenso a cerca de la representación del modelo
Principio de adecuación de la
Consistencia intra-modelo
construcción
Consistencia inter-modelo
Minimalidad
Corrección del lenguaje
Adaptación del lenguaje
Principio de adecuación del
Poder semántico
lenguaje
Formalización
Comprensibilidad del lenguaje
Consenso
Principio de la eficiencia
La comprensibilidad y aplicación del lenguaje
económica
Comparabilidad estructura sistemática
Diseño jerárquico
Diseño del esquema
Principio de claridad Filtrado
Filtros metódicos
Filtros de contenido
Consistencia inter-modelo entre los modelos de la estructura y el
Principio del diseño sistemático comportamiento
Arquitecturas de los sistemas de información
Comparabilidad a nivel de meta modelo
Transformación completa
Principio de comparabilidad
Traducción consistente
Comparabilidad a nivel del modelo 16

8
Medición del Modelo Conceptual de Datos (VI)

•Propuesta del Grupo Alarcos


ombre Definición

E Número total de Entidades dentro de un modelo ER.

Número total de Atributos en un modelo ER, teniendo en cuenta los atributos de las relaciones como
A
los de las entidades. En este número se incluyen atributos simples, compuestos y multivaluados.

DA Número total de Atributos Derivados en una modelo ER.


CA Número total de Atributos Compuestos en un modelo ER.
MVA Número total de Atributos Multivaluados en un modelo ER.

R Número total de Relaciones en una modelo ER, teniendo en cuenta solamente relaciones comunes.

M:R Número total de Relaciones M:N en un modelo ER.

1:R Número total de Relaciones 1:N (incluyendo también relaciones 1:1) en un modelo ER.

BinaryR Número total de Relaciones Binarias en un modelo ER.

-AryR Número total de Relaciones N-arias (no binarias) en un modelo ER.


Número total de Relaciones Es_Un (generalización/especialización) que existen en un modelo ER. En
IS_AR
este caso, se considera una relación por cada par padre-hijo, dentro de la relación Es_Un.
refR Número total de Relaciones Reflexivas que existen en un modelo ER.
RR Número de Relaciones Redundantes en un modelo ER.
17

Índice de Contenidos

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

18

9
Medición del Modelo Lógico de Datos

• Criterios de Medición del Modelo Lógico


 Para las mediciones del modelo lógico, la mayoría de los
estudios se ha basado en la Teoría de la Normalización
para bases de datos relacionales.
• Medidas
 Para Bases de Datos Relacionales
 Para Bases de Datos Multidimensionales

19

Medición del Modelo Lógico de Datos (II)

•Para Bases de Datos Relacionales (1/3)


Métrica Notación Definición

Número de NA(T),
Atributos de Number of definida como el número de atributos de una tabla T
una Tabla Attributes

NFK(T),
Número de
Number of definida como el número de claves ajenas de una tabla T
Claves Ajenas
Foreign Keys

Definida como la profundidad máxima de todos los caminos


Profundidad DRT(T), referenciales del grafo que se forma, tomando la tabla T
del Árbol Depth of the como el nodo raíz del grafo y todas las tablas relacionadas
Referencial de Referential con T mediante integridad referencial como el resto de
una Tabla Tree. nodos y siendo las relaciones de integridad referencial los
arcos del mismo

definida como el porcentaje de atributos de la tabla T que


Ratio de RFK(T), son claves ajenas
Claves Ajenas Ratio of
FK (T )
de una Tabla Foreign Key RFK (T ) =
A(T )

20

10
Medición del Modelo Lógico de Datos (III)

•Para Bases de Datos Relacionales (2/3)


Métrica Notación Definición

NT, definida como el número total de tablas que hay en el


Número de Tablas. esquema
Number of Tables

definida como la suma del número de tablas al cuadrado


que hay en cada componente no conexa del grafo del
COS, esquema, siendo los nodos de este grafo las tablas del
Cohesión del esquema y los arcos las relaciones de integridad
Cohesion of the
Esquema. referencial
Schema |US |
COS = ∑ TUSi
i =1

definida como la relación entre el número de tablas en


tercera forma normal (o superior) entre el número total de
tablas
NR, T 3 F
Ratio de Normalidad. R =
Normality Ratio T
Siendo NT3NF es el número de tablas en 3NF

definida como el número total de atributos que hay en el


NA, esquema
Número de Atributos. Number of T

Attributes A = ∑ A(Ti )
i =1

21

Medición del Modelo Lógico de Datos (IV)

• Para Bases de Datos Relacionales (3/3)


Métrica Notación Definición

definida como el número total de claves


NFK, ajenas que hay definidas en el esquema
Número de Claves Ajenas Number of T

Foreign Keys FK = ∑ FK (Ti )


i =1

Definida como la profundidad máxima de


todos los caminos referenciales del grafo
que se forma tomando las tablas del
DRT, esquema como los nodos y las relaciones
Profundidad del Árbol Depth of the de integridad referencial como los arcos del
Referencial Referential mismo
Tree
DRT = max iT
=1 ( DRT (Ti ))

definida como el porcentaje de atributos del


RFK, esquema que son claves ajenas
Ratio de Claves Ajenas Ratio of FK
Foreign Key RFK =
A
22

11
Medición del Modelo Lógico de Datos (V)

• Métricas a Nivel de Estrella

Métrica Descripción

NDT(S) Número de tablas dimensionales de una estrella

NT(S) Número de tablas de la estrella

NADT(S) Número de atributos de las tablas dimensionales de una estrella

NAFT(S) Número de atributos de la tabla de hechos de la estrella

NA(S) Número de atributos de la estrella.

NFK(S) Número de claves ajenas de una estrella

Ratio de atributos de la estrella. Número de atributos de las tablas


RSA(S) dimensionales dividido por el número de atributos de las tabla de
hechos

Ratio de claves ajenas. Número de atributos de la tabla de hechos


RFK(S)
que son claves ajenas

23

Medición del Modelo Lógico de Datos (VI)

•Métricas a nivel de Esquema para DW


Métrica Descripción
NFT(Sc) Número de tablas de hechos del esquema
NDT(Sc) Número de tablas de dimensión del esquema
NSDT(Sc) Número de tablas dimensionales compartidas por más de una estrella
NT(Sc) Número de tablas del esquema
NAFT(Sc) Número de atributos de las tablas de hechos del esquema
NADT(Sc) Número de atributos de las tablas de dimensión del esquema
NASDT(Sc) Número de atributos de las tablas de dimensión compartidas
NA(Sc) Número de atributos del esquema
NFK(Sc) Número de claves ajenas del esquema.
Ratio de de tablas dimensionales compartidas. Cantidad de tablas dimensionales
RSDT(Sc)
que están relacionadas con más de una estrella
RT(Sc) Ratio de tablas. Cantidad de tablas dimensionales por cada tabla de hechos
Ratio de atributos del esquema. Número de atributos de las tablas dimensionales
RScA(Sc)
dividido por el número de atributos de las tablas de hechos
RFK(Sc) Ratio de claves ajenas. Número de atributos que son claves ajenas
Ratio de atributos de las tablas dimensionales compartidas. Número de atributos
RSDTA(Sc)
del esquema que son compartidos
24

12
Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

25

Medición de la Calidad de los Propios Datos

• Aspectos de Medición para Calidad de los Propios


Datos:
 Es necesario medir para Gestionar la Calidad de los
propios datos.
 Tradicionalmente se han desarrollado métricas ad hoc
para dimensiones de calidad identificadas a partir de las
necesidades de los usuarios.
 No existe un conjunto de dimensiones universales porque
cada autor define las que mejor se adaptan a su contexto.
 Como las métricas se definen para esas dimensiones,
también dependen fuertemente del contexto y son poco
exportables a otros contextos y por tanto poco
generalizables.
 Muchos autores presentan sus propios modelos de calidad
(en terminología SMO) o conjunto de dimensiones de
calidad que mejor se adaptan a su propio problema.
26

13
Medición de la Calidad de los Propios Datos (II)

• Vista ontológica de la realidad (Wand y Wang, 1996)


 Calidad de los datos.
 Naturaleza de la deficiencia.
 Compleción.
 Representación Impropia.
• Ciclo de Vida de los datos (Redman, 1996)
 Vista Conceptual
• Contenido, Alcance, Nivel de Detalle, ...
 Valores de los Datos
• Exactitud, Compleción, Actualidad, ...
 Representación de los datos.
• Portabilidad, Corrección del Formato, ...
• Tipos de investigaciones (Huang et al.1999)
 Experiencias de los autores.
 Intuición de los autores.
 Vista del sistema por parte del autor.

27

Medición de la Calidad de los Propios Datos (III)

• English (1999) distingue dos categorías de


dimensiones:
 Calidad inherente
• Exactitud de los datos, compleción de valores, ...
 Calidad Pragmática
• Oportunidad, Características, ...
• Strong et al. (1997) identifica las siguientes:
 Intrínsecas La más
• Precisión, Objetividad, Credibilidad,... aceptada
y
 Accesibilidad
utilizada
• Accesibilidad, Seguridad en el acceso, ...
 Contextual
• Relevancia, Valor añadido, oportunidad,...
 Representacional
• Interpretabilidad, facilidad de comprensión , ...
28

14
Medición de la Calidad de los Propios Datos (IV)

• Algunas Dimensiones inherentes a los datos:


 Accuracy (exactitud/precisión)
• Definida como la diferencia entre el valor real v y el valor
almacenado en la base de datos v’
– Ejemplos:
» Una persona se llama “Ismael” y en la base de datos
aparece “Ishmail” (sintatic accuracy)
» Una persona se llama “Ismael” y en la base de datos
aparece como “Ramón” (semantic accuracy)
 Compleción
• Definida como la medida en la que los datos tienen suficiente
alcance o profundidad para la tarea que se está realizando”.
– Ejemplos:
» Cuando se dejan valores sin almacenar en una base de
datos, bien porque no se conocen, bien porque no existen.

29

Medición de la Calidad de los Propios Datos (V)

• Algunas Dimensiones relacionadas con el Tiempo:


 Oportunidad (Timeliness)
• Expresa cómo de actuales son los datos para una tarea.
– Ejemplos:
» Cotizaciones de Valores de Bolsa: si llega un dato en un instante t
y hay que decidir realizar una acción antes de un instante t’ en el
que con toda probabilidad ese dato va a cambiar. Si se toma la
decisión pasado t’ con el dato que se tenía en el momento t las
consecuencias de la decisión probablemente no serán las mismas.
 Volatilidad (Volatility)
• Caracteriza la frecuencia con la que los datos varían en el tiempo.
– Ejemplos:
» Fechas de Nacimiento no varían (Volatilidad 0).
» Cotizaciones de Valores de Bolsa (gran volatilidad)
 Actualidad (Currency)
• Se refiere al retraso que se puede producir al actualizar los datos.
– Ejemplo:
» Se le quiere mandar una felicitación de Navidad a una persona que
cambió de dirección postal

30

15
Medición de la Calidad de los Propios Datos (VI)

• Dimensiones Relacionadas con la Integridad


 Consistencia (Consistency)
• Captura la violación de las reglas semánticas definidas para
un conjunto de datos.
– Ejemplo:
» Violación de las reglas de integridad de identidad
» Violación de las reglas de integridad referencial
» Violación de las reglas de integridad de dominio

• Otras dimensiones:
 Accesibilidad
• Determinar el grado en el que un usuario puede acceder a
los datos.

31

Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

32

16
Ontología de la Medición de la Calidad de Datos
Muchas Preguntas
Ejemplo de Medida (Escala Tipo Ratio)

¿Se deben ¿Es el momento


aportar datos ¿Es subjetiva la
adecuado para el
que complementen ejecutar la
percepción delpersonas
¿Hay criterio?
significado delmedición?
dato en la responsabilizadas de la
dirección marcada por la ¿Cuántas
medición?
¿Cómo se define dimensión?
el personas deberían
Criterio? opinar?
¿A quién hay que
úmeroDeUn
¿Es idadesDeDatosQueoSa
posible automatizar tisfacenUn
presentarle los Criterio
CDMedida = 1 −el proceso de medición? resultados y en qué
úmeroTota lDeUnidadesDeDatos
formato?
¿Cuántas Unidades ¿Cuántas Unidades
de Datos hay de Datos hay
que/es viable que/es viable
observar?
¿Es legal acceder a esos observar?
¿Se puede acceder a los
datos? localizadas/
¿Están datos para medirlos?
¿Interfiere el proceso de
identificados los medición en otros
atributos medibles procesos de la
donde están los datos? organización?
33

Ontología de la Medición de la Calidad de Datos

• Medición de la Calidad de los Datos (DQMIM):


 Algunas Preguntas previas a la medición y su solución:
• ¿Qué objetivo se tiene al medir la calidad de los datos?
– Sub-Ontología de Caracterización y Objetivos de Medida
• ¿Qué entidades (esquemas y/o datos) se necesitan
medir para lograr el objetivo? ¿Qué dimensiones se
necesitan medir sobre esas entidadese?
– Sub-Ontología de Medidas de Calidad de Datos
• ¿Qué procedimientos se utilizarán para medir?
– Sub-Ontología de Formas de Medir
• ¿Quién quiere medir? ¿Cuándo va a medir? ¿Cómo se van a
gestionar los resultados?
– Sub-Ontología de Medición.
• ¿Para quién se va a medir? ¿cómo se le tienen que
presentar los resultados? ¿Quién es el propietario de las
entidades?
– SMO (García et al., 2005) debe ser ampliado para responder a
esas preguntas porque es necesaria una Ontología de Medida
de Calidad de Datos que permita coordinar todos estos
conceptos.
34

17
Ontología de la Medición de la Calidad de Datos (II)

Sub-Ontología de Caracterización y Objetivos de Medida.


Necesidad de Información

1..*
está relacionado con

1 0..*
Modelo de calidad evalúa
Concepto Medible
clase
1..* 1..*
1..*
0..*
*
sub-Concepto Medible
relaciona
definido para
incluye

0..* 1 1..*

Categoría de Entidad tiene Atributo


0..* 1 1..*
1..*

pertenece a

0..*

0..* Entidad

compuesta de

35

Ontología de la Medición de la Calidad de Datos (III)


Elementos de la Sub-Ontología
Concepto Descripción Ejemplos para DQ (*)

Necesidad Información necesaria para Conocer el nivel de exactitud de


de gestionar un proyecto (sus los datos que un determinado
Información objetivos, hitos, riesgos, …) BP utiliza para generar su IP
Concepto Relación abstracta entre Exactitud, Temporalidad, Dimensiones
Medible atributos atributos y necesidades Precisión, Correción, … de Calidad
de información
Entidad Un objeto que va a ser Base de Datos “Academia”,
caracterizado mediante una Tabla “Empleados”, …
medición de sus atributos
Categoría de Una colección de entidades Bases de Datos Relacionales,
Entidad caracterizadas por satisfacer un Ficheros XML, Ficheros de
cierto predicado común Texto, Bases de Datos XML,

Atributo Una propiedad mensurable, Número de tuplas de una tabla,


física o conceptual, que número de atributos, número de
comparten todas las entidades atributos con typos
de una categoría de entidad
Modelo de Conjunto de Conceptos Medibles Modelo de Calidad de ISO
Calidad y las relaciones entre ellos que 9126, Ejemplos concretos de
proporciona la base para Redman, Wang, … específicos
especificar y ealuar la calidad de para un contexto (*)
las entidades

36

18
Ontología de la Medición de la Calidad de Datos (IV)

•Aspectos Particulares:
 Concepto Medible:
• Se corresponde con las dimensiones de calidad vistas en las
transparencias anteriores tanto para esquema como para los
propios datos
 Entidad:
• Particularizaciones de las categorías de entidad
 Categorías de Entidad:
• Se referirían a cualquiera de las entidades de la figura, pero nos
centraremos en los modelos y en los propios datos.

37

Ontología de la Medición de la Calidad de Datos (V)

 Atributo
• Se refiere a algo físico o conceptual que se pueda medir.
• Muchas veces la dificultad está en identificar esos atributos.
 Modelo de Calidad
• Se refiere al conjunto de dimensiones que se aplican sobre
una determinada entidad (o categoría de entidad) para medir
un concepto medible sobre uno de los atributos.
• Para cada contexto se podría llegar a definir un Modelo de
Calidad válido para ese contexto.

38

19
Ontología de la Medición de la Calidad de Datos (VI)

Sub-Ontología de las Medidas de Calidad De Datos


Atributo
(from Caracterización y Objetivos)

1..* Unidad de
Medición
0..1
se define para
expresada en

0..* 1..*
0..*
se transforma en Medida tiene Escala
1..* 1
0..*
1..*
pertenece a
1
Tipo de Escala

Medida Base Medida Derivada Indicador

39

Ontología de la Medición de la Calidad de Datos (VII)


Elementos de la Sub-Ontología

Concepto Descripción Ejemplos para DQ Equiv. DQ

Atributo Véase Sub-Ontología “Caracterización y Objetivos”

Medida La forma de medir (método de La medida “grado de usabilidad


medición, función de cálculo, o de la tabla proveedores” puede
modelo de análisis) y la escala ser definida para realizar
de medición mediciones de la “compleción”
de “la tabla proveedores” de la
base de datos de productos.
Escala Un conjunto de valores con Ratio (porcentaje)
propiedades definidas
Tipos de Indica la naturaleza de la Nominal, Ordinal, Intervalo,
Escala relación entre los valores de la Ratio y Absoluta
escala

Unidad de Una cantidad particular, definida Al ser la escala de tipo ratio no


Medición y adoptada por convención, con tiene unidad como tal.
la que se puede comprar otras
cantidades de la misma clase
para expresar sus magnitudes
respecto a esa cantidad
particular

40

20
Ontología de la Medición de la Calidad de Datos (VIII)
Elementos de la Sub-Ontología (II)

Concepto Descripción Ejemplos para DQ Equiv. DQ

Medida Base Una medida de un atributo que EsNull(atributo)


no depende de ninguna otra NANT(T): Nº Atributos Nulo
medida, y cuya forma de medir Tupla T
es un método de medición NTCAN(T): Número de Tuplas
con Atributos Nulo de la Tabla
(T)
NTT(T)=Número de Tuplas de
la Tabla (T)
Medida Una medida qe es derivada de GC(T) = NTCAN(T) / NTT(T):
Derivada otra base o derivada, utilizando Grado Compleción de la Tabla
una función de cálculo como T
forma de medir.
Indicador Una medida que es derivada de UT (T) nos dice cómo de
otras medidas utilizando un usable es una tabla (T). Sus
modelo de análisis como forma valores depende de GC(T)
de medir.

41

Ontología de la Medición de la Calidad de Datos (IX)

• Aspectos Particulares:
 Medida:
• Son los valores que cuantitativamente indican la magnitud de
un concepto medible sobre una entidad. Esta medida es el
resultado de una medición directa, de una derivada o de un
indicador.
 Medida Base:
• Es el resultado de medir directamente sobre la entidad: por
ejemplo número de atributos, número de tuplas,…
 Medida Derivada:
• Es el resultado de combinar varias medidas bases o
derivadas según una función de cálculo.
• En numerosas ocasiones, para obtener una medida de los
propios datos hay que usar medidas base sobre el esquema
lógico. Por eso hay que integrar las medidas para los
esquemas conceptuales y/o lógicos con la forma de medir la
calidad de los propios datos.
42

21
Ontología de la Medición de la Calidad de Datos (X)

 Clasificaciones Medidas:
• Dependencia del Modelo Lógico
– Medidas Dependientes del Modelo de Datos.
– Medidas Independientes del Modelo de Datos
• Dependencia del Contexto de los datos
– Medidas Dependientes (relacionadas con Reglas de Negocio)
– Medidas Independientes (son propias del esquema de la base de
datos)

Dependientes Independientes
de Contexto de Contexto
(Comparativas
o Semánticas) (Calculadas)

Independientes Fiabilidad,
del Modelo de Temporalidad, Compleción,
Datos (Sólo del
Credibilidad, Accesibilidad
Valor de los
Datos) Relevancia

Exactitud,
Dependientes Consistencia,
del Modelo de Cantidad Compleción
Datos apropiada de
datos,

43

Ontología de la Medición de la Calidad de Datos (XI)

Sub-Ontologías de las formas de Medir


Medida 1..*
(from Medidas Software)

Necesidad de Información
(from Caracterización y Objetivos)

0..*

satisface

1..* usa
Medida Base Medida Derivada Indicador
(from Medidas Software) (from Medidas Software) (from Medidas Software)

1..* 0..* 1..* 1..*


0..*
usa usa calculada con calculado con
usa
1 0..* 0..* 1 1
Método de Medición Función de Cálculo Modelo de Análisis 0..*

1..*
usa

1..*
Forma de Medir
(from Acción de Medir)
Criterio de Decisión

44

22
Ontología de la Medición de la Calidad de Datos (XII)
Elementos de la Sub-Ontología

Concepto Descripción Ejemplos para DQ Equiv. DQ

Necesidad Véase Sub-Ontología “Caracterización y Objetivos”


de
Información
Método de La forma de medir una medida Contar si un atributo tiene el
Medición base, Secuencia lógica de valor null; Contar el número de
operaciones, descrita de forma atributos de una tupla que tiene
genérica, usadas para realizar el valor null,
mediciones de un atributo
respecto de una escala
específica
Función de La forma de medir una medida GC(T) = NTCAN(T) / NTT(T):
Cálculo derivada. Algoritmo o cálculo Dividir el NTCAN e una tabla T
realizado para combinar dos o entre su NTT
más medidas base y/o
derivadas
Modelo de La forma de medir un indicador. Modelo de Análisis para decidir
Análisis Algoritmo o cálculo realizado como de usable es una tabla T.
para combiar una o más Puede ser necesario modelar
medidas con criterios de el contexto en el que se usa la
decisión asociadas tabla.

45

Ontología de la Medición de la Calidad de Datos (XIII)


Elementos de la Sub-Ontología (II)

Concepto Descripción Ejemplos para DQ Equiv. DQ

Criterio de Valores Umbral, Objetivos, o Si 0<GU(T)< 40% la tabla no


Decisión patrones usados para es usable.
determinar la necesidad de una Si 41%<GU(T)< 80% la tabla
acción o investigación posterior, es aceptablemente usable.
o para describir el nivel de Si 81<GU(T)< 100% la tabla es
confianza de un resultado dado muy usable.
Forma de Véase Sub-Ontología “Acción de Medir”
Medir
Indicador Véase Sub-Ontología “Medidas Software”
Medida Véase Sub-Ontología “Medidas Software”
Medida Base Véase Sub-Ontología “Medidas Software”

Medida Véase Sub-Ontología “Medidas Software”


Derivada

46

23
Ontología de la Medición de la Calidad de Datos (XIV)

• Aspectos particulares:
 Observaciones:
• En ocasiones es preciso utilizar varias medidas base para llegar a una
medida.
• Es frecuente que para obtener una medida haya que comparar el valor
del atributo o un valor relacionado con él con un valor umbral en el
sentido del concepto medible.
– Tanto el esquema conceptual como el lógico tienen que dar soporte para el
almacenamiento de los valores relacionados con los propios datos. (Wang,
1998)
• Las relacionadas con los propios datos suelen basarse en una
comparación objetiva con las reglas de negocio
 Método de Medición
• Sirve para describir cómo obtener una medida base. Implica una
secuencia de pasos finitos y ordenados que explican como obtener un
valor para dicha medida base.
– Ejemplos:
» Contar el número de valores nulos que hay para una tupla NVN(Tupla)
» Contar el número de atributos de una tabla (NA(T))
» Contar el número de valores que no pertenecen al dominio de un
atributo
47

Ontología de la Medición de la Calidad de Datos (XV)

 Función de Cálculo
• Es el “método de medición” para una medida derivada a partir de
una o varias bases. Se aplica cuando la medida no necesita
basarse en aspectos subjetivos de los usuario. Por ejemplo, contar
el número de valores nulos de una tabla.
• Es necesario que el SGBDR de soporte a las reglas de negocio y
que éstas se implementen.
• Ejemplo:
– Para medir la compleción (concepto medible) de una tupla (entidad), se
puede definir la Densidad de Atributos Nulos (medida derivada) como
la proporción del Número de Atributos Nulos (medida base) que tiene
una determinado tupla (atributo) y dependerá tanto del número de
atributos como del número de valores nulos para esa tupla.

V (T )
DA (T ) =
A(T )
– Es importante observar que NA(T) es una medida base del esquema del
modelo lógico en el que está la tabla T.

48

24
Ontología de la Medición de la Calidad de Datos (XVI)

 Modelo de Análisis
• Se aplica cuando para calcular la medida es necesario establecer
ciertos criterios para poder comparar el valor del dato u otro
relacionado con él con un valor umbral para el concepto medible con
sentido en el contexto de los datos. Esta comparación puede ser:
– Comparación objetiva con un valor umbral proporcionado y accesible.
» Ejemplo: en función de la diferencia de los datos correspondientes
a los valores de bolsa que hayan sido guardados en la base de
datos antes de la hora de la última transacción (guardada en otra
base de datos) la medida tomará un valor mayor o más pequeño.
– Comparación subjetiva con la opinión de un usuario expresada en
forma cuantitativa.
» Ejemplo: Se quiere conocer el grado de confiabilidad de unos
datos y se le pregunta al usuario qué opina sobre ese dato.
– Cuando en vez del valor del dato se necesite comparar con otro valor
asociado es preciso adaptar el esquema de la base de datos para que de
soporte al almacenamiento de estos nuevos valores.
» Ejemplo: Si se quisiera saber si una tupla está actualizada, habría
que almacenar en la base de datos la fecha en la que se produjo la
última actualización y tener un criterio de decisión que decida si
está o no actualizada, comparando ese valor de
FechaUltimaActualización con por ejemplo FechaDelSistema.

49

Ontología de la Medición de la Calidad de Datos (XVII)

• Como caracterizar el Contexto


 Mediante Reglas de Negocio
• A través de Restricciones de Integridad:
– Integridad de Entidad
– Integridad Referencial
– Integridad de Columna: Dominios
– Restricciones Semánticas
• Cómo se implementan:
– Mediante la implementación de los distintos de restricciones
» Accesibles a través del diccionario de datos (metadatos)
– Mediante procedimientos almacenados
– Mediante Disparadores
– Mediante Programación externa.
 Proporcionando Valores extras
• Sirven como base para juzgar la calidad de los datos, pero sería
necesario definir una serie de reglas de negocio.
• Donde y cómo almacenar estos datos:
– Misma base de datos (Añadir reglas de negocio específicas para juzgar)
» Es importante decidir dónde se puede/debe almacenar este valor.
» Fiabilidad/Confianza de una fuente externa de datos.

50

25
Ontología de la Medición de la Calidad de Datos (XVIII)

•Algunos ejemplos de Formas de Medir1 (Lee et al., 2006)


 Grado de Adherencia a las restricciones de Integridad de
una tabla T:
• Integridad de Entidad:
úmerodePKulas (T )
GAIE (T ) = 1 − NT=Número de Tuplas
T (T )
• Integridad Referencial:
úmerodeFKoExistentes(T ) NT=Número de Tuplas
GAIR(T , TD ) = 1 −
T (TD ) TD= Tabla Dependiente

• Integridad de Atributo o Columna (Accuracy):


VI ( A) NVI(A)= Número de
GAIA( A) = 1 − Valores Incorrectos del
Atributo A
T ( A) NT=Número de Tuplas
 Compleción de una Tabla
VC (T ) NVNC(T)= Número de
C (T ) = 1 − Valores no Completos
de la tabla T
T (T ) NT=Número de Tuplas

1
Muchas de estas métricas se pueden definir de la misma forma sobre distintas entidades,
por lo que habría que identificar dichas entidades y adaptar la definición a ellas.
51

Ontología de la Medición de la Calidad de Datos (XIX)

•Algunos ejemplos de Formas de Medir (Lee et al., 2006) (2)


 Grado de Consistencia de una Tabla (T)
VTC (T ) NVTC=Número de
GC (T ) = 1 − Violaciones de Tipo de
Consistencia
T (T )
 Grado de Credibilidad de una tabla:

GC (T ) = min(GC (TO ), GC (T ' )) TO=Tabla Origen


T’= Comparación Lógica

 Cantidad Apropiada De Datos:


NVP(T)=Número de
 VP(T ) V (T )  Valores
TCAD (T ) = min  ,  Proporcionados

 V (T ) VP(T )  NVN(T)=Número de


Valores Necesarios
 Tasa de Actualidad de los Datos
s
  Actualidad (T )   S= Sensibilidad del

TasaOportunidad (T ) = max (1 − ),0  Contexto

  Volatilidad (T )  

52

26
Ontología de la Medición de la Calidad de Datos (XX)

Sub-Ontología de la Acción de Medir.


Entidad Atributo
(from Caracterización y Objetivos) (from Caracterización y Objetivos)

1 1

se realiza sobre
se realiza sobre

* *
1 ejecuta * Medición
Forma de Medir
instanteTemporal

*
1

usa produce

1 1
Resultado de la
Medida Medición
(from Medidas Software)
valor

53

Ontología de la Medición de la Calidad de Datos (XXI)


Elementos de la Sub-Ontología

Concepto Descripción Ejemplos para DQ Equiv. DQ

Atributo Véase Sub-Ontología “Caracterización y Objetivos”

Entidad Véase Sub-Ontología “Caracterización y Objetivos”

Forma de Secuencia de Operaciones cuyo Véanse ejemplos de método


Medir objeto es determinar el valor del de medición, función de cálculo
resultado de la medición. Una o modelo de análisis, ya que la
forma de medir puede ser un forma de medir es una
método de medición, función de generalización de ellas (véase
cálculo, o modelo de análisis sub-ontología formas de medir)
Medición2 Conjunto de Operaciones que Acción consistente en usar la
permite obtener el valor del forma de medir “Contar el
resultado de la medición para número de valores nulos de
un atributo de una entidad, una tupla” para obtener el
usando una forma de medir resultado de la medición del
atributo “compleción de la tabla
de proveedores ”
Resultado Categoría o número asignado a Grado de usabilidad del 80%
de la un atributo de una entidad como
Medición resultado de una medición
2
En este concepto no se tiene en cuenta la posible necesidad de muestrear los datos que van a ser
medidos
54

27
Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

55

Metodología CALIDAT
Planes de Medición

• Planes de Medición
 El proceso de medición influye en la propia medida
 Es necesario desarrollar planes de Medición
 Por cada métrica/medida es necesario (Redman, 2001) indicar:
• Dónde se va a realizar la medida
• Qué datos van a ser incluidos en la medida
• El dispositivo de medición
• La escala de la medición
 Proponemos completar estos pasos con los conceptos
presentados en la Ontología de la Medición:
• Quién va a realizar la medición
• Cómo se va a modelar el contexto para poder comparar
• Dónde se van a guardar los valores para ciertos conceptos medibles
necesarios.
• Cómo se van a guardar según la Tecnología de la base de datos.
• Cuándo se va a realizar
• Dónde se va a almacenar los resultados
• A quiénes se van a presentar.
• Cómo se van a representar los resultados
 El resultado es la Metodología CALIDAT para la definición de
Planes de Medición de la Calidad de los Datos.
56

28
Metodología CALIDAT
Uso de Subrogados

•Uso de Subrogados para almacenar valores sobre los valores


(Wand y Wang, 1995)

Alumno IdSelectividad IdCarrera


Smith NS001 NC001
Hackman NS002 NC002

IdCarrera Valorota Fecha Fuente


NC001 7 30/07/95 ESI
NC002 8 29/07/94 ESI

IdSelectividad Valorota Fecha Fuente


NS001 8 30/10/90 MEC
NS002 9 30/06/90 MEC

57

Metodología CALIDAT
Tablas Anidadas

•Uso de Tablas Anidadas para almacenar valores sobre los


valores.

CREATE TYPE Nota AS OBJECT (


ValorNota number;
FechaTerminación date;
FuenteInformación varchar2(5)
);
CREATE TABLE candidatos (
Nombre varchar2(20);
NotaSelectividad Nota;
NotaMediaCarrera Nota)

58

29
Metodología CALIDAT
Visión Global

Requisitos de 1.
1. Documentación del Sistema de
calidad de Usuario Identificación Almacenamiento de Datos
Identificación
de
deObjetivos
Objetivosyy
Medidas.
Medidas.

o es suficiente la Sirven resultados


2.
2. estructura de anteriores. 4.
4.
Creación
Creacióndedeuna
una calidad Análisis
Análisisyy
Naturaleza
Naturaleza
Estructura
Estructuradede Evaluación
Evaluacióndede
Objetivo
Objetivo
calidad. Atributos
calidad. Atributosde
de
Sólo se necesitan Calidad
Calidad
nuevas mediciones.

3.
3.
Medición
Medicióndede
Atributos
Atributosde
de Valoración de la
Calidad.
Calidad. Calidad de Datos.

59

Metodología CALIDAT
Actividad 1 – Visión Global

Estándares internos de
documentación de resultados Documentación del Sistema de
Requisitos de calidad
del usuario. 1.1. Almacenamiento de Datos
1.1. (Catálogo de la BD)
Identificación
Identificaciónde
delas
las
necesidades de
necesidades de
información
información

Objetivos de
ecesidades de Información
1.2. 1.3.
1.2. 1.3.
Identificación
Identificaciónde
delos
los Identificación
Identificacióndedelas
las
Conceptos Medibles Entidades y sus
Conceptos Medibles Entidades y sus
Lista de Conceptos atributos a valorar
atributos a valorar
Medibles
Lista de Conceptos Localización física,
Medibles temporal y de los
atributos de las entidades
1.4. que van a ser medidos.
1.4.
Definición
Definicióndedelos
los
Criterios de Decisión
Criterios de Decisión

Criterios de Decisión
60

30
Metodología CALIDAT
Actividad 1 – Tarea 1.1

Requisitos de calidad
del usuario.

1.1.
1.1. ecesidades de
Identificación
Identificaciónde
de Información.
Resultados Encuestas las
y entrevistas
lasnecesidades
necesidades
de
deinformación.
información.

Estándares de
documentación

61

Metodología CALIDAT
Actividad 1 – Tarea 1.2

Requisitos de calidad 1.2.1


del usuario. 1.2.1
Identificación
Identificación Conceptos
de
delos
los Medibles.
Conceptos
Conceptos
ecesidades de
Medibles
Medibles
Información

1.2.2.
1.2.2. Formas de
Definición
Definiciónde
de Medir
las
lasFormas
Formasdede
Medir
Medir

62

31
Metodología CALIDAT
Actividad 1 – Tarea 1.3

1.3.1.
1.3.1.
Determinación
Determinacióndedelala Parámetros del
ecesidades de cantidad
cantidadde
dedatos
datosaa
Información valorar. muestreo
valorar.

1.3.2.
1.3.2. Agenda para la
Requisitos de calidad Elección
Elecciónde
delos
los
momentos medición
del usuario. momentosde demedición
medición de datos
yyde evaluación
de evaluación
Estándares de
documentación. 1.3.3.
1.3.3.
Localización
Localizacióndedelos
los
Ubicación física y/o
atributos
atributosaamedir.
medir. lógica de los datos.
Documentación del
Esquema
(Catálogo de la BD).
1.3.4.
1.3.4.
Identificación Lista de las fuentes de
Identificaciónde
delas
las
fuentes
fuentesde
dedatos.
datos. datos

63

Metodología CALIDAT
Actividad 1 – Tarea 1.4

Requisitos de calidad
del usuario.

1.4.
1.4. Criterios de Decisión
Identificación
Identificación
de
delos
loscriterios
criterios
de
dedecisión
decisión
ecesidades de
Información.

64

32
Metodología CALIDAT
Actividad 2 – Visión Global

Contexto
Modelado

¿Hay base de
¿Hay base de SI
datos?
datos?

Documentación del
Sistema de
Almacenamiento de ¿Hay
O datos.
¿Hay
estructura de
estructura
Calidad? de
(Catálogo de la BD) SI Calidad?

¿Es necesario NO
¿Es necesario
modificarla?
modificarla?

SI

2.1.
2.1. 2.3.
2.3. 2.2.
2.2.
Crear
Crearuna
unaBD
BD Modificar
Modificarla
la Crear
Crear
NO
con Calidad.
con Calidad. estructura
estructurade
de estructura
estructuradede
calidad
calidad Calidad
Calidadpara
paraBD
BD

Estructura de Calidad creada 65

Metodología CALIDAT
Actividad 2– Tarea 2.1

SGBD:
•Relacional
Requisitos del •Objeto-Relacional
usuario para la
BD. 2.1.1.
2.1.1. 2.1.3.
2.1.3.
Diseño
Diseño Conversión
Conversióndeldel
Esquema
Esquema esquema
esquemaE/R E/R
Conceptual
Conceptual extendido
extendidoal al
Esquema
EsquemaLógico.
Lógico.

Esquema Entidad / Esquema Entidad /


Interrelación con Esquema relacional /
Interrelación
atributos de calidad objeto-relacional
2.1.2
2.1.2 2.1.4.
Ampliación 2.1.4.
Indicadores de Ampliacióndel
del Implementación
Implementación
Esquema
Esquema en
Calidad
Conceptual enun
unSGBD
SGBD
Conceptualcon
conlos
los determinado.
determinado.
Indicadores
Indicadoresdede
Calidad
Calidad

Esquema Físico. 66

33
Metodología CALIDAT
Actividad 2 – Tarea 2.2

2.2.1.
2.2.1. 2.2.2.
2.2.2. 2.2.3.
2.2.3.
Determinar
Determinarel el Determinar
Determinarel el Insertar
Insertarenenla
la
tipo
tipode
dedato
datodel
del tipo
tipode
dedato
datodel
del tabla
tablaorigen
origenun
un
atributo
atributoaa subrogado.
subrogado. campo
campopara
parael
el
valorar.
valorar. subrogado.
subrogado.

2.2.6.
2.2.6. 2.2.5.
2.2.5. 2.2.4.
2.2.4.
Rellenar
Rellenarlala Crear
Crearla
latabla
tabla Crear
Crearununvalor
valor
tabla
tabla destino
destino destino.
destino. para
paracada
cadauna
una
con
conlos
losvalores
valores de
delas
lasfilas
filasdel
del
de
delalaorigen
origen subrogado
subrogado

67

Metodología CALIDAT
Actividad 2 – Tarea 2.3

¿Qué
¿Qué
acción
acciónse
se
desea?
desea?

2.3.1.
2.3.1. 2.3.2.
2.3.2. 2.3.3.
2.3.3. 2.3.4.
2.3.4.
Borrar
Borrarunun Agregar
Agregarun un Agregar
Agregarun un Modificar
Modificarlas
las
atributo
atributodede atributo
atributodede atributo
atributodede características
características
calidad
calidadde
deuna
una calidad.
calidad. calidad.
calidad. de
deun
unatributo
atributo
tabla.
tabla. de
decalidad.
calidad.

68

34
Metodología CALIDAT
Actividad 2 – Tarea 2.3 – Subtareas 2.3.1 y 2.3.2

¿Quedan ¿Hay ya algún


¿Quedan ¿Hay ya algún
más atributos? atributo?
más atributos? atributo?

o Sí o Sí

2.3.1.1
2.3.1.1 2.3.1.2
2.3.1.2 2.3.2.1
2.3.2.1 2.3.2.2
2.3.2.2
Deshacer
Deshacerelel Borrar
Borrarelel Añadir
Añadirelelindicador
indicador Crear
Crearuna
unatabla
tabla
subrogado
subrogado subrogado
subrogadosin sin normalmente
normalmente destino
destinonueva.
nueva.
más
más

69

Metodología CALIDAT
Actividad 3 – Visión Global

o ¿Es Sí
¿Es
necesario
necesario
medir?
medir?

3.1.
3.1. 3.2.
3.2.
Las
Lasnecesidades
necesidadesdede Las
Las necesidadesde
necesidades de
Información
Informaciónnono Información
Información
requieren
requierennuevas requieren
nuevas requieren nuevas
nuevas
mediciones.
mediciones. mediciones.
mediciones.

70

35
Metodología CALIDAT
Actividad 3 – Tarea 2

3.2.1.
3.2.1. 3.2.2.
3.2.2. 3.2.3.
3.2.3.
Recogida
Recogidade de Recuperación
Recuperación Comparación
Comparaciónde de
valores
valoresde
delala del
delvalor
valordel
del ambos
ambosenenlala
fuente
fuentedededatos.
datos. sistema
sistemade de dimensión
dimensiónde de
almacenamiento
almacenamiento calidad.
calidad.

3.2.5.
3.2.5. 3.2.4.
3.2.4.
almacenamiento
almacenamiento Generación
Generaciónde de
de
de estenuevo
este nuevo un
un nuevovalor
nuevo valor
valor
valoren
ensu
susitio
sitio para
paraelelindicador
indicador
correspondiente
correspondiente

71

Metodología CALIDAT
Actividad 4 – Visión Global

o se requiere muestreo
¿Se requiere

¿Se requiere
muestreo?
muestreo?

4.1
4.1
Sí Calcular
4.4. Calcularparámetros
parámetros
4.4. necesarios
Calcular necesariospara
paraelel
Calcularestadísticos
estadísticos muestreo.
según muestreo.
segúntipo
tipode
de
análisis
análisis arealizar.
a realizar. ¿Se admite la
¿Se admite la
muestra?
muestra?

4.2.
4.2.
Ejecución
EjecuciónPlan
Plan
o
Muestreo
Muestreo
4.5.
4.5. 4.3.
4.3.
Representación
Representaciónde Replanificación
de Replanificacióndel
del
los
los Muestreo
Muestreo
resultados.
resultados.

72

36
Metodología CALIDAT
Resultados que deberían Obtenerse

18
16

Porcentaje de Desfase
14
12
10
Datos inválidos encontrados 8
6

Datos con 4
Datos formato 2
Redundantes inadecuado 0
15% 7% Datos 1 2 3 4 5 6 7 8 9
Inexactos
25% Número de Datos

Datos
Incompletos
53%
Datos Inválidos Encontrados

Datos Materia Métodos Mano


15 o revisan los
Redundantes l El SGBDR no da Obra
datos
Datos Incompletos 54
soporte suficiente o se recogen o recoge bien los
bien los datos datos
El SGBDR tiene
Datos Inexactos 25 o se
fallos El hardware tiene Varios
fallos almacenan bien
Datos con formato los datos Catálogo
7
inadecuado s por
Datos irrelevantes
“Hay goteras” Persona
0 10 20 30 40 50 60

Datos Inexactos
Datos Incompletos

Materias Medio Ambiente


Primas 73

Índice

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

74

37
Bibliografía y Referencias

• Batini, C., C. S., et al. (1992). Conceptual database design. An entity relationship
approach., Benjamin Cummings Publishing Company.
• Batini, C. and M. Scannapieco (2006). Data Quality: Concepts, Methodologies
and Techniques. Berlin, Springer-Verlag Berlin Heidelberg.
• Boman, M., J. Bubenko, et al. ((1997)). Conceptual Modelling., Prentice Hall.
• English, L. (1999). Improving Data Warehouse and Business Information Quality:
Methods for reducing costs and increasing Profits. New York, NY, USA, Willey &
Sons.
• García, F., M. F. Bertoa, et al. (2005). "Towards a consistent terminology for
software measurement." Information and Software Technology 48(2006): 631-
644.
• Huang, K. T., Y. W. Lee, et al. (1999). Quality Information and Knowledge. Upper
Saddle River, NJ, USA, Prentice-Hall.
• Kesh, S. (1995). "Evaluating the Quality of Entity Relationship Models."
Information and Software Technology. Special Issue on Controlled Experiments in
Software Engineering 37(12): 681-689.
• Lee, Y. W., L. L. Pipino, et al. (2006). Journey to Data Quality. Cambridge, MA,
USA, Massachussets Institute of Technology.
• Lindland, O., G. Sindre, et al. (1994). "Understanding Quality in Conceptual
Modelling." IEEE Software 11(2): 42-49.
• Maier, R. (2001). Organizational concepts and measures for the evaluation of
data modelling. Developing quality complex databases systems: practices,
techniques and technologies. B. S. Hershey, PA, USA, Idea Group Publishing: 1-
27.

75

Bibliografía y Referencias (II)

• Moody, D. (1998). Metrics For Evaluating the Quality of Entity Relationship


Models. Proceedings of the Seventeenth International Conference on
Conceptual Modelling (ER ´98), Singapore.
• Moody, D. and S. G. (1994). What Makes A Good Data Model? Evaluating
The Quality of Entity Relationships Models. Proceedings of the 13th
International Conference on Conceptual Modelling (ER ´94), Manchester, UK.
• Piattini, M., F. García, et al. (2006). Calidad de Sistemas Informáticos.
Madrid, Ra-Ma.
• Redman, T. C. (1996). Data Quality for the Information Age. Boston, MA,
USA, Artech House Publishers.
• Reingruber, M. and W. Gregory (1994). The Data Modelling Handbook. A
best-practice approach to building quality data models., John Wiley & Sons,
Inc.
• Shanks, G. y. D., P. ((1997)). “Quality in Conceptual Modelling: Linking
Theory and Practice”. Proc. Pacific Asia Conference on Information Systems,
Brisbane, Queensland University of Technology.
• Strong, D. M., Y. W. Lee, et al. (1997). "Data Quality in Context."
Communications of the ACM 40(5): 103-110.
• Wand, Y. and R. Y. Wang (1996). "Anchoring Data Quality Dimensions in
Ontological Foundations." Communications of the ACM 39(11): 86-95.

76

38

You might also like