You are on page 1of 2

Valores faltantes

Los valores faltantes, perdidos o ausentes (missing values) pueden ser reemplazados por
varias razones. En primer lugar, el mtodo de minera de datos que utilicemos puede no
tratar bien los campos faltantes. En segundo lugar, podemos querer agregar los datos
(especialmente los numricos) para realizar otras vistas minables y que los valores faltantes
no nos permitan agregar correctamente (totales, medias, etc.). En tercer lugar es posible
que tenga un mtodo de sustitucin de campos faltantes que no sea adecuado debido a
que no conoce el contexto asociado al atributo faltante.
Si los datos proceden de una base de datos, basta mirar en la tabla de resumen de
atributos/caractersticas y ver la cantidad de nulos que tiene cada atributo. El problema es
que a veces los campos faltantes no estn representados como nulos. Por ejemplo, aunque
hay campos en los que las restricciones de integridad del sistema evitan introducir cdigos
fuera del formato para representar valores faltantes, esto al final ocurre en muchos otros,
especialmente en campos sin formato: direcciones o telfono como "no tiene", cdigos
postales o nmeros de tarjeta de crdito con valor 1.
Algunos valores faltantes expresan caractersticas relevantes. Por ejemplo, la falta de
telfono puede representar en muchos casos un deseo de que no se moleste a la persona
en cuestin, o un cambio de domicilio reciente.
Valores no existentes. Muchos valores faltantes existen. en la realidad, pero otros no. Por
ejemplo, el cliente que se acaba de dar de alta no tiene un registro de accidentes medio
de los ltimos aos.
Datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele
hacer la unin y no la interseccin campos, con lo que muchos datos faltantes representan
que esas tupas vienen de una/s ente/s diferente/sal resto.

Finalmente, si se han conseguido establecer los datos faltantes e, sobre datos, idealmente,
sus causas, procederemos a su tratamiento. Las posibles acciones
Segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen
modelos diferentes para cada segmento y luego se combinan.
Modificar la poltica de calidad de datos y esperar hasta que los datos faltantes estn
disponibles.
Quizs una de las soluciones anteriores ms frecuentes cuando el algoritmo a utilizar no
maneja bien los nulos sea reemplazar el valor. Si sustituimos un dato faltante por un dato
estimado, hemos de tener cuenta que, en primer lugar, perdemos informacin, ya que ya
no se sabe que el dato era faltante y, en segundo lugar, inventamos informacin, con los
riesgos que pueda tener de que sea errnea. El primer problema tambin ocurre en el caso
de que eliminemos toda la columna. La solucin a ambos problemas pasa por crear un
nuevo atributo lgico (booleano) indicando si el atributo original era nulo o no. Esto permite
saber que el dato era faltante y, por tanto, que el valor hay que tomarlo con cautela. En el
caso en el que el atributo original sea nominal no es necesario crear un nuevo atributo,
basta con aadir un valor adicional, denominado "faltante".
Calidad de datos
Calidad de datos se refiere a los procesos, tcnicas, algoritmos y operaciones encaminados
a mejorar la calidad de los datos existentes en empresas y organismos. Hay varias
definiciones de calidad en datos, pero la ms comn es que sirven su propsito. Limpieza
de datos tal vez se requiere para asegurar la calidad de dichos datos.

Restricciones de integridad
En este tema se trata uno de los aspectos ms importantes para aadir consistencia a los
diseos de bases de datos: son las restricciones de integridad que ayudan a mantener la
consistencia semntica de los datos. Adems de las restricciones de integridad definidas por
las claves y las restricciones de cardinalidad y participacin estudiadas en el modelo
entidad-relacin, se tratan las restricciones de los dominios, la integridad referencial, las
dependencias funcionales y las dependencias multivaloradas, as como la forma de
implementarlas mediante asertos y disparadores.
Las restricciones de integridad proporcionan un medio de asegurar que las modificaciones
hechas a la base de datos por los usuarios autorizados no provoquen la prdida de la
consistencia de los datos.

You might also like