Calidad de Los Datos en Los Sig Final

“Año del Diálogo y Reconciliación Nacional”
Línea de investigación:
CALIDAD DE LOS DATOS EN LOS SIG
Ing.: SANJURJO VILCHEZ, José Antonio
CURSO: Geomatica y sistema de información geográfica
ALUMNO: AQUIJE ROJAS, Jimmy Luis
HUAYHUA CCORIMAYA, Juan Carlos
MOLINA GARCIA, Meyferson
ESTRADA VELA, Eric
YUMBATO PANDURO, Skeytin Gisela
HIDALGO CHAVEZ, Stephany
FACULTAD. Ingeniería Civil
BASE LEGAL: Ley Universitaria N° 30220: En su Capítulo VIII referente a la Investigación
IQUITOS – PERÙ
2018
1
INDICE
- INTRODUCCIÓN ……………………………………………………………………3
- MARCO TEORICO…………………………………………………………………..4
I. DEFINICIONES BASICAS (CALIDAD DE DATOS, ERROR,
EXACTITUD Y PRECISION)…………………………………………5
II. PROPAGACION DE LOS ERRORES………………………………9
III. EVALUACIÓN DEL ERROR EN LOS MAPAS (ERROR MEDIO
CUADRÁTICO - RMS, MATRIZ DE CONFUSIÓN-KAPPA)……20
- CONCLUSIONES…………………………………………………………………..27
- BIBLIOGRAFÍA……………………………………………………………………28
2
INTRODUCCION:
Puesto que los datos son la base de todo el trabajo que realizamos en un SIG, su calidad
es vital para que ese trabajo tenga sentido y aporte unos resultados coherentes y útiles.
Siendo la calidad el conjunto de propiedades y de características de un producto o
servicio que le confieren su aptitud para satisfacer unas necesidades explícitas e
implícitas desde el punto de vista del SIG unos datos espaciales de calidad serán
aquellos que puedan servir para alcanzar los objetivos de un proyecto concreto, dando
sentido a este.
Por definición, ningún dato es perfecto. Todo dato que utilicemos va a contener errores,
y estos pueden ser desde totalmente irrelevantes para el desarrollo de un proceso de
análisis hasta de tal magnitud que desvirtúen por completo los resultados de dicho
análisis. Es importante no solo contar con datos de calidad en los que estos errores sean
mínimos, sino conocer el tipo de error que existe en nuestros datos y la magnitud de
estos. Saber gestionar el error y ser consciente de las limitaciones de los datos de los
que se dispone es importante para saber interpretar los resultados derivados del trabajo
con dichos datos.
A lo largo de este capítulo veremos los aspectos más importantes que derivan de
considerar el error como parte inevitable de nuestro trabajo con datos espaciales. Ello
nos permitirá saber evaluar las capacidades de los datos para servir como punto de
partida de nuestro trabajo, y a llevar este a cabo de la mejor manera posible,
considerando que se trabaja simultáneamente con un conjunto de datos y con un error
implícito asociado a estos.
Según Gómez (2004) apunta las siguientes etapas para la modelación del error:
Identificación de la fuente de error, detección y medida del error, modelación de la
propagación del error propuestas de estrategias para la gestión y reducción del error.
Será sobre estas distintas fases sobre las que trataremos en las próximas secciones.
3
MARCO TEORICO.
En esta investigación se ha tenido la necesidad de hacer una concepción breve
de lo que caracteriza un sistema de información geográfica (SIG). Ya que es
necesario aproximarse a su entendimiento un sistema de información geográfica
Particulariza un conjunto de procedimientos sobre una base de datos no gráfica o
descriptiva de objetos del mundo real que tienen una representación gráfica y que
son susceptibles de algún tipo de medición respecto a su tamaño y dimensión
relativa a la superficie de la tierra. A parte de la especificación no gráfica el SIG
cuenta también con una base de datos gráfica con información georreferenciada o
de tipo espacial y de alguna forma ligada a la base de datos descriptiva. La
información es considerada geográfica si es mesurable y tiene localización. En un
SIG se usan herramientas de gran capacidad de procesamiento gráfico y
alfanumérico, estas herramientas van dotadas de procedimientos y aplicaciones
para captura, almacenamiento, análisis y visualización de la información
georefenciada. La mayor utilidad de un sistema de información geográfico está
íntimamente relacionada con la capacidad que posee éste de construir modelos o
representaciones del mundo real a partir de las bases de datos digitales, esto se
logra aplicando una serie de procedimientos específicos que generan aún más
información para el análisis.
Frente a este contexto podemos decir que Todo dato espacial contiene algún tipo
de error, en mayor o menor medida. Conocer las razones por las cuales aparecen
esos errores es importante para poder evaluar correctamente la validez del trabajo
que realizamos con los datos y los resultados que obtenemos a partir de ellos. En
este capítulo se estudiaran los principales errores que pueden afectar a los distintos
tipos de datos espaciales, las fuentes principales de dichos errores y las maneras
en que estos pueden gestionarse dentro de un proyecto SIG.
Puesto que los datos son la materia prima para obtención de nuevos datos a través
de los procesos y operaciones que dentro de un SIG realizamos con ellos,
trataremos también la forma en que los errores en los datos de partida afectan a
los resultados que derivemos de ellos.
Antes de entrar en el estudio directo de la calidad de los datos Y el estudio de los

errores que pueden presentarse en un dato espacial, es necesario definir
algunos conceptos básicos y alguna terminología al respecto de manera
consistente en el ámbito de la Geomática.
4
I. DEFINICIONES BASICAS (CALIDAD DE DATOS, ERROR, EXACTITUD Y
PRECISION).
Calidad de los datos.
La calidad de datos espaciales no ha sido una preocupación hasta hace relativamente

poco tiempo. Los textos sobre Sistemas de Información Geográfica tales Foote2000 y
Oort2005NGC, y solo en la actualidad aparece una concienciación acerca de la
importancia que la calidad de los datos espaciales tiene sobre el desarrollo de cualquier
trabajo basado en ellos.
Las razones por las que la calidad de los datos empieza a considerarse como un
elemento de gran relevancia en el ámbito geográfico son principalmente dos
 Aparición de los SIG.

 Amplio crecimiento del volumen de datos espaciales disponibles, especialmente los
derivados de satélites.
Estos dos factores, inevitablemente unidos, han favorecido que el volumen de trabajo
sobre datos espaciales sea mayor y que además se use un número más elevado de
datos distintos. Es lógico pensar que, a raíz de esto, haya surgido el interés por evaluar
y tratar de forma rigurosa las condiciones en las que estos trabajos se están llevando a
cabo.
La preocupación por la calidad de los datos es básica por el simple hecho de que datos
de mala calidad generan invariablemente resultados de mala calidad. Utilizar un dato de
mala calidad es equivalente a utilizar un modelo equivocado. Si el modelo no es cierto,
no importa la buena calidad de los datos, ya que los resultados que arrojará tampoco lo
serán. Del mismo modo, un dato con un error superior al que puede resultar tolerable
para una determinada tarea hace que la calidad de este sea insuficiente, y los resultados
obtenidos carecen de valor.
A pesar de que la aparición de los SIG ha sido una de las razones principales para que
se tenga en consideración la calidad de los datos y se especifique formalmente el modo
de tratarla y gestionarla, los SIG en sí no disponen apenas de herramientas para asistir
en estas tareas. Aunque la ciencia de la información geográfica ha avanzado mucho en
ese sentido, y el conocimiento relativo a la calidad de los datos espaciales es mucho
mayor, los SIG no han incorporado ese conocimiento, y carecen de funcionalidades al
respecto. Dicho de otro modo, existen las formulaciones y los elementos teóricos, pero
5
estos aún no se han visto materializados (o lo han hecho de forma prácticamente
anecdótica) en los SIG de uso habitual. Por esta razón, la mayoría de usuarios de SIG
no tienen en cuenta rigurosa y formalmente la calidad de los datos a la hora de
desarrollar su trabajo, quedando aún mucho por avanzar en este sentido.
Un elemento clave para el control de la calidad es la existencia de metadatos, que

informan acerca de dichos datos sobre una serie de aspectos relativos a estos, entre
ellos aquellos que afectan a la calidad.
Error.
Según el Vocabulario internacional de Metrología VIM. Define el término error de

medida como la diferencia entre un valor medido de una magnitud y un valor de
referencia (valor convencional o valor verdadero) El error de medida tiene dos
componentes, el error sistemático y el error aleatorio.
A modo de ejemplo, para aclarar estos conceptos, supóngase que se captura un dato,
como puede ser la longitud de una distancia, con un determinado método e instrumento
obteniendo una medida muy exacta. Considerando todas las correcciones necesarias,
su valor final es de 317,518 m con una incertidumbre muy pequeña, casi despreciable,
digamos por debajo de la décima de milímetro. Por tanto, la longitud 317,518 m se
considerará como el valor de referencia de la distancia en cuestión. Supóngase, que con
posterioridad se realiza una medición de esa distancia con otro instrumento, resultando
un valor de 317,515 m. El error de medida de este resultado es de (317,515 – 317,518)
m = -0,003 m. Una segunda medición da un valor medido de 317,514 m, con un error
medida de (317,514 – 317,518) m = -0,004 m. Tras tomar 200 medidas y sacar un
promedio se obtiene un valor de 317,516 m con un error de medida de (317,516 –
317,518) m = -0,002 m. Este sesgo de medida, cuyo valor es de -0,002 m es el
denominado error sistemático de medida,
Un parámetro relativo al error es la incertidumbre. Habitualmente, el valor real es

desconocido, por lo que el error no puede conocerse. La incertidumbre refleja la
medida en que no podemos tener certeza de la validez de nuestros datos. La
incertidumbre es un concepto más amplio que el error, Según (Fisher1999)
Tradicionalmente se ha trabajado con el error y no con el concepto de incertidumbre,

pero conocer esta es igualmente importante a la hora de evaluar la calidad de los
6
datos, y la modelización de la incertidumbre es una alternativa a la modelización del
error.
La precisión
Se refiere al nivel registrado de detalle. Una distancia registrada como 173.345 metros
es más precisa que si se registra como 173 metros. Sin embargo, es bastante posible
que los datos sean exactos (dentro de una cierta tolerancia) sin ser precisos. También
es posible ser preciso sin ser exacto. De hecho, los datos registrados con un alto grado
de precisión pueden dar una impresión equivocada de exactitud.
La exactitud
La exactitud nos indica el grado en que un valor de datos de medición se aproxima a su
valor real. Ningún conjunto de datos es cien por ciento exacto. La exactitud podría
cuantificarse utilizando intervalos de tolerancia, es decir, la distancia entre dos puntos
puede ser expresado como 173 metros más o menos 2 metros. Estas bandas se
expresan generalmente en términos probabilísticos (es decir, 173 metros más o menos
2 metros con 95 por ciento de confianza).
Figura 1. Precisión frente exactitud. Las medidas exactas caen en el centro. Las mediciones precisas
están estrechamente agrupadas. Las medidas exactas y precisas están estrechamente agrupados en el
centro.
Dos términos importantes en el estudio de la calidad son la precisión y exactitud. La

precisión indica el nivel de detalle con el que se recoge la información. Un capa en la
7
que las posiciones se han medido con 5 valores decimales es más precisa que una en
la que se han medido con un único decimal.
Diferencia entre precisión y exactitud.
precisión exactitud
En a) y b) la precisión es elevada, Por su parte, en a) y c) la exactitud es
mientras que en c) y d) es baja. baja, siendo alta en b) y d).
La exactitud se calcula con el error Mientras que la precisión se calcula a

sistemático partir del error aleatorio.
Es posible, no obstante, que un dato sea muy preciso pero poco exacto, ya que las
magnitudes de los distintos tipos de errores pueden ser muy distintas. Este hecho
puede verse claramente en la figura 1
Dependiendo del uso que se pretenda dar a una capa de datos geográficos, se
requerirá una u otra precisión. Un trabajo geodésico requerirá medir la localización de
un punto con precisión milimétrica, mientras que para un muestreo para inventario
forestal es suficiente localizar las parcelas correspondientes con una precisión mucho
menor.
8
II. FUENTES DE INEXACTITUD E IMPRECISION. TIPOS DE ERROR (EXACTITUD
Y PRECISION: PISICIONAL, DE LOS ATRIBUTOS, CONCEPTUAL Y LOGICA).
El error posicional es el que más a menudo concierne a los sistemas de información

geográficos SIG, pudiendo afectar a diferentes características de la información
almacenada en una base de datos.
2.1. Fuentes de inexactitud e imprecisión.
Son muchas las fuentes de error que pueden afectar la calidad del conjunto de datos de
un SIG. Esto, que resulta muy obvio, puede no ser tan difícil de discernir. Algunas de
ellas serán automáticamente identificadas por el mismo SIG, pero es responsabilidad
del usuario su prevención. Algunos casos particulares puede necesitar de
comprobaciones específicas de error, porque los propios SIG son capaces de inducir al
usuario una falsa sensación de exactitud y precisión sin garantizar la validez de los
datos. Por ejemplo, suavizar cambios en las líneas fronterizas, en las curvas de nivel y
en las zonas de cambio de los mapas de coropletas es una "elegancia que falsea" la
realidad. En realidad, estas cuestiones son a menudo "vagas, graduales o azarosas"
Según Burrough ( 1986).
Por otro lado Koeln (1994). Hay una imprecisión inherente en la cartografía como
resultado de los procesos de proyección y la necesaria distorsión producida en algunos
de sus datos (una imprecisión que puede continuar a través de los procesos aplicados
con los SIG. Los usuarios de los SIG deben ser capaces, no sólo de reconocer el error,
sino el grado de error tolerable y asumible del sistema.
En esta misma linea Burrough (1986) divide los tipos de error en tres grandes categorías:
1. Fuentes de error obvias.

2. Errores resultantes de la variación natural de las mediadas originales.
3. Errores surgidos en los procesamientos.
2.1.1. Fuentes obvias de error
2.1.1.1. Antigüedad de los datos.
Las fuentes de datos pueden ser simplemente antiguas para ser usadas en
un proyecto SIG. Las colecciones estándar del pasado pueden ser
desconocidas, inexistentes o desfasadas. Por ejemplo, los datos topográficos
9
del Gran Cañón obtenidos por el decimonónico John Wesley Powell,
contienen falta de precisión para ser utilizados hoy en día. Además, una parte
de la información base puede, además, haber cambiado como consecuencia
de la erosión, la deposición o cualquier otro proceso geomorfológico. Pese al
poder de los SIG, la dependencia de datos antiguos puede tergiversar, sesgar
o convertir en negativos los resultados.
2.1.1.2. Área de cobertura.
Los datos de una zona determinada pueden haber desaparecido

completamente, o únicamente una parte de los niveles de información pueden
ser utilizables en un proyecto SIG. Por ejemplo, los mapas de vegetación o de
suelo pueden estar incompletos en las zonas de transición o faltarles exactitud
en la representación. Otro ejemplo, es la falta de datos proporcionados por los
sensores remostos en ciertas partes del mundo al estar permanentemente
nublado. La exactitud de una cobertura uniforme pude no estar disponible y el
usuario debe decidir qué nivel de generalización debe ser necesario si una
nueva colección de datos es requerida.
2.1.1.3. Escala del mapa.
La posibilidad de los mapas para mostrar detalles está determinada por la

escala. Un mapa con una escala 1:1.000 puede ilustrar detalles más precisos
que otro a una escala 1:25.000. La escala determina el tipo, calidad y cantidad
de los datos (Star and Estes 1990). Se debe elegir siempre la escala
adecuada al nivel de detalles requerido en el proyecto. Transformar la
pequeña escala de un mapa en otra más grande no amentará el número de
detalles o el nivel de precisión de dicho mapa.
2.1.1.4. Densidad de las observaciones.
El número de observaciones realizadas en un área es una guía de la

verosimilitud del mapa y debe ser conocido por los usuarios del mismo. Un
insuficiente número de observaciones puede no proporcionar el adecuado
nivel de resolución requerido para efectuar análisis espaciales y resolver los
objetivos marcados en el proyecto SIG. En el caso de un punto, si las curvas
de nivel poseen un intervalo de 120 cm, no es posible bajar el nivel de
precisión. Las lineas de un mapa son una generalización basada en el
10
intervalo de datos grabados, de este modo el más cercano al intervalo
muestral, alcanza la mayor precisión de datos dibujados.
2.1.1.5. Relevancia.
Bastante a menudo, no es posible satisfacer los deseos de obtener datos de

un lugar o de un área, y en su lugar se sustituyen estos datos por otros. Ha
de existir una relación de validez entre los datos sustituidos y el fenómeno a
estudiar, pero aun así pueden producirse errores en tanto en cuanto los
fenómenos no han sido medidos directamente. Un ejemplo local en el uso de
datos sustituidos puede tomarse de los estudios del hábitat de la urruca en
Hill Country. Es muy costoso (y molesto para los pájaros) inventariar esto
hábitat mediante observación directa. No obstante, las urrucas prefieren vivir
en viejos cedros Juniperus ashei. Los hábitats pueden ser localizados por
fotografía aérea. La densidad de los Juniperus ashei puede utilizarse para
deducir la densidad del hábitat de las urrucas. Por supuesto, algunas áreas
de cedro estarán inhabitadas o, por contra, tendrán una gran densidad. Estas
áreas pueden también no ser visibles cuando se utiliza fotografía aérea para
tabular el hábitat.
Otro ejemplo de deducción de datos se produce con la señal electrónica

utilizada para estimar mediante imágenes de satélite la cobertura vegetal, los
tipos de suelo, la erosionabilidad y otras tantas características. Los datos son
obtenidos por métodos indirectos. Los sensores de los satélites no pueden
"ver" los árboles, si no únicamente ciertas signaturas digitales típicas de los
árboles y la vegetación. En ocasiones, estas signaturas son almacenadas por
los satélites aunque no estén presentes los árboles y la vegetación (falso
positivo) o no ser recogidas cuando los árboles y la vegetación si están
presentes (falso negativo). Dado el alto coste de obtención de datos in situ,
sustituir los datos por deducción es con frecuencia utilizado y el usuario debe
entender estas variaciones y asumir, o no, su validez en función de la
exactitud requerida en el proyecto.
2.1.1.6. Formato.
Los métodos para transmitir, almacenar y procesar la información de forma

digital, pueden introducir error en los datos. Las conversiones de escala y
11
proyección, los cambios desde raster a vector y la resolución del tamaño y
profundidad del píxel, son ejemplos de los posibles errores inherentes al
formato de los datos. En ocasiones, los datos han de ser transmitidos y
utilizadas en múltiples SIG por lo que deben reformarse bajo un mínimo
denominador común. Múltiples conversiones desde un formato a otro pueden
crear un efecto similar a realizar copia tras copia en una máquina
fotocopiadora. Además, hay que tener en cuenta que los estándares
internacionales para la transmisión, almacenamiento y recuperación de datos
cartográficos no estén totalmente realizados.
2.1.1.7. Accesibilidad.
La accesibilidad de los datos es otra cosa. Lo que está disponible en un país

puede no estarlo en otros. Antes de la desaparición de la Unión Soviética, no
pocos mapas eran considerados como documentación clasificada y por lo
tanto, imposibles de obtener por la mayor parte de la gente. Las restricciones
militares, la rivalidad entre agencias, las leyes de privacidad y los factores
económicos pueden restringir la validad de los datos o su nivel de exactitud.
2.1.1.8. Coste.
Extensos y veraces datos son, a menudo, demasiado caros de obtener o

convertir. Iniciar una nueva colección de datos puede ser demasiado caro para
los beneficios generados en un determinado proyecto SIG y sus diseñadores
deben moverse entre su deseo de exactitud y el coste de la información. La
verdadera exactitud es cara y puede ser inasequible.
12
2.1.2. Errores resultantes de la variación natural de los datos originales.
En ocasiones estas fuentes de error pueden no ser tan obvias, una revisión
cuidadosa puede mostrar su trascendencia en el proyecto.
2.1.2.1 Exactitud posicional.
La exactitud en la posición es una medida del desajuste entre los elementos

del mapa y la verdadera posición de los atributos (Antenucci and others, 1991,
102). Depende del tipo de datos usados u observados. Los cartógrafos
pueden situar con exactitud objetos bien definidos, como carreteras, edificios,
líneas divisorias y unidades topográficas discretas en mapas y en sistemas
digitales, mientras que separaciones menos discretas como las existentes
entre la vegetación o los tipos de suelo pueden ser el resultado de las
estimaciones del cartógrafo. El clima, los biomas, el relieve, los tipos de suelo,
el drenaje y otros elementos faltos de una clara delimitación en la naturaleza,
son susceptibles de ser interpretados. Defectos o trabajos parciales, errores
de digitalización de mapas y de conversión en los mapas o en los escáner,
pueden todos ellos producir mapas inexactos en un proyecto SIG.
2.1.2.2 Precisión en el contenido.
Los mapas deben de ser correctos y estar libre de presuposiciones. La

precisión cualitativa hace referencia a la corrección en la clasificación y a la
presencia de elementos específicos. Por ejemplo, un bosque de pinos puede
estar incorrectamente clasificado como un bosque de abetos, introduciendo
de esta forma errores que no pueden ser conocidos o sospechados por el
usuario de los datos o del mapa. Ciertos elementos pueden ser omitidos tanto
desde el mapa como desde la base de datos espacial por descuido o
intencionadamente.
Otros errores en exactitud cuantitativa pueden ocurrir por los defectos de los
instrumentos de calibración usados para medir aspectos concretos como la
altitud; el pH del suelo o del agua, o los gases atmosféricos. Los errores
cometidos en el campo o en el laboratorio, pueden ser indetectables en un
proyecto SIG, salvo que el usuario confirmara o corroborara la validad de la
información.
2.1.2.3 Fuentes de variación de datos.
13
Las variaciones en los datos pueden realizarse por la introducción de errores
de medida durante la observación, por la predisposición del observador o por
falta de una adecuada calibración del equipamiento. Por ejemplo, se puede
no esperar precisiones submétricas con un GPS de mano sin corrector
diferencial. Por otra parte, una incorrecta calibración en las formas de disolver
el oxígeno puede producir valores incorrectos de concentración del mismo en
una corriente.
Puede ser también una variación natural durante la toma de datos. Así, por
ejemplo, la salinidad en la bahía y en el estuario de Texas varía durante el
año dependiendo del influjo de la las corrientes frías en profundidad y de la
evaporación. Si alguien no fuera consciente de esta variación natural, ideas y
decisiones erróneas pudieran ser tomadas, introduciendo un significativo error
en el proyecto SIG. En algunos casos, si el error no da lugar a inesperados
resultados, su detección sería extremadamente difícil.
2.1.3. Errores originados durante los procesos
Los errores originados durante los procesos son los más difíciles de detectar por los
usuarios de los SIG. Pueden ser específicamente buscados para lo cual se requiere
conocimiento de la información y de los sistemas usados en su procesamiento. Hay
suberrores que ocurren de diferentes modos, habiendo otros potencialmente más
insidiosos, porque pueden ocurrir en múltiples conjuntos de datos durante su
manipulación en un proyecto SIG.
2.1.3.1. Errores numéricos.
Diferentes ordenadores pueden no tener la misma capacidad para construir

complejas operaciones matemáticas, pudiendo producir resultados
significativamente diferentes desde un mismo problema. Borrough (1990) cita
un ejemplo en la elevación al cuadrado de un número, lo que produce una
diferencia del 1.200 %. Los errores en los procesos de cálculo ocurren en las
operaciones de redondeo y son inherentes al número de dígitos manipulados
por el procesador. Otra fuente de error puede deberse a defectos del propio
procesador, como ha sucedido con un problema matemático identificado en
los chips del Pentium de Intel (tm). En ciertos cálculos, el chip ofrecía
respuestas equivocadas.
14
Un mayor reto es el de la exactitud en la conversión de mapas existentes en
formato digital (Muehcke 1986). Como los ordenadores manipulan los datos
en formato digital, los errores numéricos pueden producir resultados
inexactos. En cualquier caso, los errores en los procesos numéricos son
extremadamente difíciles de detectar, y quizá requieran de una sofisticación
no presente en la mayoría de los usuarios de SIG o promotores de proyectos.
2.1.3.2. Errores en los análisis topológicos.
Los errores lógicos pueden causar una incorrecta manipulación de los datos
y de los análisis topológicos. Se pueden reconocer qué datos no son
uniformes y están sujetos a variaciones. La superposición de múltiples capas
de mapas puede resultar ocasionar problemas del tipo "Slivers", "Overshoots"
y "Dangles". Variaciones en la exactitud entre diferentes capas del mapas
pueden oscurecer durante le proceso en la creación de "datos virtuales los
cuales pueden dificultar el reconocimiento de los datos reales" (Sample,
1994).
2.1.3.3. Problemas de clasificación y generalización.
Para el entendimiento humano, la comprensión de una vasta cantidad de

datos reside en su clasificación, y en algunos casos en su generalización.
Siguiendo a Borrough (1986, 137) clasificar los datos en torno a siete
divisiones es el ideal, ya que se pueden retener fácilmente en la memoria.
Definir como se harán los intervalos es otro problema. Por ejemplo, definir la
causa de muerte en hombres de entre 18-25 años será significativamente
diferente que entre 18-40 años. Los datos son más exactos y manipulables
entre múltiplos pequeños. Definir un múltiplo razonable y preguntases "por
qué hay que comparar", es esencial (Tufte 1990, 67-79). La clasificación y la
generalización de atributos usada en un SIG está sujeta a errores de
interpolación y puede introducir irregularidades en lo datos difíciles de
detectar.
2.1.3.4. Digitalización y errores geocodificados.
Los errores ocurridos durante el transcurso de las fases de manipulación de

datos tales como la digitalización y la geocodificación, el recubrimiento y las
intersecciones de los límites, y los errores de rasterización de un mapa
15
vectorial. Los errores fisiológicos del operador por contracciones involuntarias
del músculo pueden dar lugar a "spikes" (puntos), a "switchbacks" (zig-zags),
a "polygonal knots" (nodos poligonales), y a "loops" (lazos). Los errores
asociados con los mapas fuente dañados, el error del operador mientras lo
convertía a digital, y los prejuicios puede ser comprobados comparando los
mapas originales con versiones convertidas a digital. Otros errores resultan
más evasivos.
2.2 Tipos de error.
Cuando un dato espacial llega a nosotros para ser empleado en un SIG, ha pasado por
una serie de etapas a lo largo de los cuales puede haber incorporado errores.
Estudiando esas etapas por separado, encontramos las siguientes fuentes de error.
Taylor (1998).
2.2.1. Errores de concepto y modelo.
Al recoger la información espacial utilizamos algún modelo de representación (ráster,

vectorial), el cual siempre tiene alguna deficiencia. La realidad y las tareas que
pretendemos realizar con una capa de información espacial no se adaptan por completo
a ninguno de los modelos de representación, y el hecho de optar por uno u otro conlleva
la introducción de algún error, o condiciona para la aparición de unos u otros errores en
las etapas posteriores.
2.2.2..Errores en las fuentes primarias.
El dato vectorial del que disponemos proviene originariamente de una fuente primaria,
la cual puede contener errores. Si esta fuente contiene errores, estos aparecerán
también en los datos que se deriven de este. Así, si digitalizamos en base a un mapa
escaneado y la hoja original es errónea, también lo serán las capas que creemos en esa
digitalización.
2.2.3. Errores en los procesos de creación de la capa.
Los procesos que realizamos para crear la capa pueden incorporar errores en el
resultado. Por ejemplo, en el proceso de digitalización en base a ese mapa escaneado
pueden aparecer errores por razones tales como un mal trabajo del operario, ya sea al
digitalizar las entidades sobre una tableta o al teclear los valores de los atributos. Otros
procesos, como pueden ser los de conversión entre los modelos ráster y vectorial,
16
también pueden tener como consecuencia la aparición de errores. Los capítulos
Creacion_capas_raster y Creacion_capas_vectoriales tratan estos procesos de
conversión, y se verá en su momento los posibles errores que pueden aparecer en cada
caso y las razones por las que lo hacen. Igualmente, se verá como aplicar a esos
procesos los elementos de medida del error que se desarrollarán más adelante en este
capítulo.
2.2.2.4. Errores en los procesos de análisis.
Un dato espacial puede derivar de un proceso de análisis, y en él pueden aparecer

errores debidos principalmente a dos razones: o bien la capa original objeto de análisis
contiene de por sí errores, o bien el proceso no es por completo correcto. Veremos en
el capítulo Geomorfometria cómo a partir de un MDE podemos calcular una capa con
valores de pendiente, y cómo existen varios algoritmos distintos para realizar este
cálculo. Ninguno de esos algoritmos es completamente preciso, y los valores calculados
presentaran discrepancias de distinta magnitud con el valor real de pendiente, en función
de diversos factores. Por su parte, el propio MDE también tiene sus propios errores, y
estos se propagan a los resultados que derivamos de él, como veremos más adelante
con detalle. En la parte de procesos veremos muchas operaciones que van a generar
nuevos datos espaciales, y que pueden implicar la aparición de errores. Trataremos
estos en su momento en la medida que ello pueda ser relevante para el manejo y
utilización de esos datos derivados.
17
2.3. Las componentes de la calidad.
2.3.1 Exactitud y precisión posicional
Todo dato espacial tiene asociada una referencia geográfica. La precisión con la que se
toma esta condiciona la calidad del dato. Esta precisión puede considerarse únicamente
en los ejes x e y, o también en el eje z (elevación). Esta última, no obstante, puede
considerarse como un atributo si se trabaja en un SIG bidimensional, y tratarse de la
misma forma que cualquier otra variable de similar índole sin significado espacial, tal
como la temperatura en el punto (x,y) en cuestión
Exactitud y precisión están en función de la escala en la que ha sido creado el mapa

(impreso o digital). Exactitud y precisión están unidas a la escala original del mapa y no
cambia aunque se use el zoom para aumentar o reducir la vista. Estas operaciones
pueden incluso hacer creer -falsamente- que la exactitud y la precisión son mejores.
2.3.2. Exactitud y precisión de los atributos
Los datos no espaciales unidos a la localización pueden ser inexactos o imprecisos. La

inexactitud puede ser consecuencia de errores de distinto tipo. Los datos no espaciales
pueden variar mucho también en precisión. La información precisa que los atributos
describan fenómenos con gran detalle. Por ejemplo, la descripción precisa de una
persona que vive en una dirección particular puede incluir género, edad, ingresos,
ocupación, nivel de educación y muchas otras características. Una descripción
imprecisa puede incluir sólo los ingresos o sólo el género.
2.3.3. Exactitud y precisión conceptual
Los SIG dependen sobretodo de la abstracción y la clasificación de los fenómenos del

mundo real. Los usuarios determinan que cantidad de información debe usarse y como
ésta debe ser clasificada en categorías apropiadas. En ocasiones, los usuarios pueden
usar inapropiadas categorías o una clasificación errónea de la información. Por ejemplo,
la clasificación de ciudades por el comportamiento del voto electoral es una vía
inadecuada para estudiar la fertilidad de las parejas; fallos en la clasificación de las
líneas de alto voltaje puede limitar la efectividad en el diseño de un SIG en la
construcción de las infraestructuras eléctricas. Aún empleando correctas categorías los
datos pueden estar mal clasificados. Un estudio de los sistemas de drenaje puede
necesitar de una clasificación de las corrientes y ríos por su "orden", atendiendo su
jerarquía al lugar donde una corriente particular desagua en el sistema tributario de la
18
red. Los canales individuales pueden estar mal clasificados si los tributarios están mal
localizados. Por ello, algunos estudios pueden no requerir un tipo preciso de
categorización del orden de las corrientes. Todo lo más que pueden necesitar es la
localización y el nombre de las corrientes fluviales, sin tener en cuenta el orden.
2.3.4. La lógica de la exactitud y precisión
La información almacenada en una base de datos puede estar ilógicamente introducida.

Por ejemplo, los permisos necesarios para construir una subdivisión residencial en un
plano de inundación pueden necesitar comparar la proposición con el mapa del plano
de inundación. Por lo tanto, la construcción puede ser posible en algunas zonas del
plano de inundación pero su uso no será conocido hasta que las variaciones de la
inundación potencial hayan sido registradas y puedan ser usadas en la comparación. La
cuestión es, pues, que la información almacenada en la base de datos de un SIG puede
ser usada y cuidadosamente comparada, si produce resultados útiles. Los SIG están
normalmente incapacitados para avisar a los usuarios cuando se produce una
inapropiada comparación o si los datos han sido utilizados incorrectamente. Algunas
reglas de uso pueden ser incorporadas en el diseño de un SIG, como sucede con los
"sistemas expertos", pero los desarrolladores necesitarían estar seguros que las reglas
empleadas corresponden al mundo real de los fenómenos que ellos modelan.
Finalmente señalar, cometeremos una equivocación si creemos que una gran exactitud
y una gran precisión de la información es necesario para todas las aplicaciones de los
SIG. La necesidad de exactitud y precisión puede variar radicalmente dependiendo del
tipo de información codificada y del nivel de medida necesario para una particular
aplicación. Son los usuarios los que deben determinar el alcance de su trabajo. Excesiva
exactitud y precisión no sólo es costoso, sino también puede resultar un gran engorro.
19
III. PROPAGACION DE LOS ERRORES.
El análisis de un dato espacial con errores va a dar un resultado que contiene a

su vez errores, y existirá una relación directa entre los errores en el dato de partida
y aquellos que aparecen en el dato resultante de su análisis. Este hecho se conoce
como propagación de errores.
La propagación de errores puede ser muy variable en función del tipo de error que
aparezca y la clase de análisis que se lleve a cabo. Errores de gran magnitud en
el dato original pueden no tener apenas efecto en el resultado, mientras que
pequeños errores pueden causar grandes alteraciones en la calidad del resultado
Una de las áreas en las que más se ha trabajado en el estudio de la propagación

de errores es el trabajo con Modelos Digitales de Elevaciones. Las Modelación De
Error (MDE) son un dato de primer orden, ya que resultan de utilidad en
prácticamente cualquier tipo de proyecto SIG, y son muy numerosos los distintos
parámetros que podemos derivar de ellos. Por esta razón, la propagación de
errores es un asunto importante dentro del trabajo con un MDE, pues de él se van
a obtener muchos datos nuevos, e interesa saber cómo la calidad de estos nuevos
datos se va a ver afectada por la calidad del MDE de partida.
El error principal que se estudia en este tipo de análisis en un MDE es el de los

atributos, es decir, el de la elevación. Los datos empleados se basan en el modelo
de representación ráster, ya que este es el más habitualmente empleado para los
análisis de un MDE. No obstante, metodologías como la que veremos a
continuación pueden aplicarse igualmente para la modelación de otros errores,
tales como los errores posicionales en la digitalización de una capa vectorial.
Estudiar la distribución del error en el MDE en base a un juego de datos de

referencia (generalmente un conjunto de puntos con mediciones precisas). Para
modelizar el error no basta simplemente medir este con un parámetro como el
error medio cuadrático, sino analizar su distribución y calcular parámetros
estadísticos en base al conjunto de todos los errores medidos. Si se asume una
distribución normal de los errores, la media y la desviación típica son necesarias
para definir esa distribución. Al igual que sucede con los datos en sí, los errores
presentan una dependencia espacial. Esto es, cerca de un valor que presenta un
20
gran error, aparecerán otros también con errores notables, y cerca de valores
donde el error es pequeño, no existirán puntos muy erróneos.
La influencia del error en la incertidumbre de un resultado se denomina

propagación del error e ignorarlo puede conducir a dar por válidos resultados que
no lo son en absoluto.
Modelo digital de pendientes de

una misma zona. El MDP
presenta en el documento
original una leyenda con
intervalos de 5º; El error en el
MDE puede hacer que estas
categorías, y especialmente las
de pendiente menor, sean
imprecisas hasta el punto de
invalidar el modelo para
algunos usos donde se exige
una valoración precisa de las
zonas de poca inclinación.
Los trabajos existentes tienen por objeto llamar la atención sobre los efectos de
la propagación del error en algunas simulaciones, especialmente las
relacionadas con las pendientes y orientaciones del terreno. Sin embargo, los
métodos prácticos de "vivir con el error" en una base de datos cartográfica y de
controlar sus efectos de forma general no están aún claros.
En el caso de la realización práctica de modelizaciones, se han citado tres formas

de trata problema de propagación del error Según Hunter y Goodchild, (1994):
omitir toda referencia al mismo, proporcionar un descriptor estadístico,
proporcionar varios productos finales dentro del posible rango de variación. El
primer caso es, sin duda, el más frecuente y la forma más simple de tratar el
problema, pero obviarlo puede tener consecuencias negativas en función de las
21
decisiones que se tomen a partir de la información defectuosa. En el segundo caso
se presenta información sintética mediante descriptores como las bandas épsilon,
los valores de ECM, etc. Estas medidas pueden poner sobre aviso de la calidad
de los datos por lo que suponen un avance notable sobre la primera actitud. Sin
embargo, no dan cuenta de los posibles efectos del error en el producto final
cuando éste es el resultado de una modelización compleja.
Con el último planteamiento se presentarían diferentes resultados generados

dentro del rango de error real con el fin de ilustrar las variaciones permitidas por
la incertidumbre de los datos originales. Queda, finalmente, una cuarta opción
que la presentación de los resultados clave para una decisión asociados a su
nivel de incertidumbre y no de forma determinística estricta. Por ejemplo, si es
necesario delimitar las zonas con pendiente menor de 5º, el modelo que se
presente puede tener una frontera difusa entre la clase p<5º y el resto, p m 5º
con un significado similar a la banda épsilon.
Las normas de propagación del error no son necesariamente simples, por lo que
su solución analítica puede ser inabordable. Asimismo, dependen estrechamente
de los algoritmos utilizados y, ocasionalmente, pueden cambiar en función de las
características del relieve de la zona.
22
IV. EVALUACIÓN DEL ERROR EN LOS MAPAS (ERROR MEDIO CUADRÁTICO -
RMS, MATRIZ DE CONFUSIÓN-KAPPA)
Generalmente se considera que existen dos tipos de error en los mapas o en las
imágenes clasificadas; los errores temáticos, que se refieren a errores de atributo
(etiqueta), y los errores geométricos (de posición) en la delimitación de los polígonos o
la ubicación de los pixeles. Estos dos tipos de error están estrechamente ligados y es
difícil separarlos. Carmel (2000) y Pearson (1995) distinguen un tercer componente de
error potencial en los mapas temáticos, el cual se atribuye a la heterogeneidad dentro
de un polígono.
El proceso de evaluación de la confiabilidad temática se divide en tres etapas

(Stehman y Czaplewski,1998).
a) El diseño del muestreo que consiste en la selección de las unidades de

muestreo.
b) La evaluación del sitio de verificación, que permite obtener la clase

correspondiente a cada unidad de muestreo.
c) El análisis de los datos, que consiste generalmente en la elaboración de una

matriz de confusión y et cálculo de índices de confiabilidad.
A) diseño del muestreo.
El diseño de muestreo contempla la determinación del tipo de unidades de muestreo,

del método de selección de las mismas, así como del número de unidades de muestreo
54 Investigaciones Geográficas, Boletín 51, 2003 Evaluación de la confiabilidad
temática de mapas o de imágenes clasificadas: una revisión necesaria (tamaño de
muestra).
La unidad de muestreo permite relacionar la localización de la información del mapa y

del terreno. Puede ser un punto, un píxel, un grupo de píxeles, un polígono del mapa
o una unidad de superficie con formas predeterminadas, por ejemplo, un cuadro o un
círculo de una hectárea.
23
Durante el análisis de la unidad de muestreo, se sugiere tener en cuenta su entorno.
B) la evaluación de los sitios de verificación.
Este paso consiste en la caracterización del sitio de verificación para asociarlo a una
o varias clases de la leyenda del mapa que se evalúa. En la práctica, la evaluación de
la unidad de muestreo, en particular si es un punto o un pixel, se lleva a cabo con base
en el análisis de una cierta área alrededor del mismo. Comúnmente, esta evaluación
conduce a asociar el sitio de verificación a una sola categoría de la leyenda del mapa.
Sin embargo, no es siempre posible ni conveniente limitarse a una clase única para
caracterizar el sitio de verificación, porque este ejercicio puede ser muy subjetivo.
C) análisis de los datos.
El análisis de los datos de confiabilidad se hace generalmente a través de una matriz

de confusión, que permite confrontar la información de los sitios de verificación con
aquella de la base cartográfica que se pretende evaluar. En la matriz de confusión, las
filas representan generalmente las clases de referencia y las columnas las clases del
mapa. La diagonal de la matriz expresa el número de sitios de verificación para los
cuales hay concordancia entre el mapa y los datos de referencia, mientras los
marginales indican errores de asignación.
MATRIZ DE CONFUSIÓN
La misma es una matriz cuadrada en la que se compara la clasificación de la imagen

con la verdad de terreno. A través de la matriz de confusión se evalúa la exactitud de la
clasificación, situando en las filas las clases o categorías de nuestro mapa y en las
columnas las mismas clases para la verdad de terreno o campo.
24
Las características más destacadas de esta matriz son:
• Presenta una visión general de las asignaciones, tanto de las clasificaciones correctas
(elementos de la diagonal) como de las migraciones o fugas (elementos fuera de la
diagonal).
• Recoge los denominados errores de omisión y de comisión
IV. Errores de comisión: elementos que no perteneciendo a una clase

aparecen en ella. o
V. Errores de omisión: elementos que perteneciendo a esa clase no
aparecen en ella por estar erróneamente incluidos en otra.
Al sumar los píxeles correspondientes a la diagonal principal, se puede bservar que

sobre un total de 2.661 píxeles, 2.421 han resultado coincidentes con la clasificación
verdad-terreno.
Con estos valores, puede estimarse la fiabilidad global de la clasificación digital:
FG = 2421/ 2661 =0,9098 es decir, la fiabilidad global es del orden del 91,0 %
La estimación de fiabilidad global, está dada como el cociente entre la traza de la matriz
de confusión y la suma de sus elementos
EL ERROR CUADRÁTICO MEDIO (RMSE)
Mide la cantidad de error que hay entre dos conjuntos de datos. En otras palabras,
compara un valor predicho y un valor observado o conocido. También se lo conoce
25
como Raíz de la Desviación Cuadrática Media y es una de las estadísticas más
utilizadas en SIG.
Por ejemplo, podemos comparar un punto de elevación LiDAR predicho con una
medición topográfica del terreno (valor observado).
ÍNDICE KAPPA.
Este estadístico es una medida de la diferencia entre la exactitud lograda en la

clasificación y la chance de lograr lo mismo con una clasificación correcta con un
clasificador aleatorio. Se calcula como:
26
CONCLUSIONES.
 El creciente auge y utilización de la informática en los Sistemas de Información

Geográfica (SIG) ha facilitado el uso y análisis de datos espaciales dentro de
muchas organizaciones en diferentes disciplinas. Los errores e inconsistencias
de los datos y mapas fuente no eran evidentes antes de que se utilizaran
computadoras para procesar, analizar y tomar decisiones basados en dicha
información. Sin embargo, ahora el tratamiento y procesamiento digital a través
de los SIG pueden evidenciar las debilidades de los datos y la necesidad de
documentar tanto la calidad de los datos fuente como la de los productos que se
obtienen a partir de ellos.
 El uso de la tecnología no garantiza la calidad de los datos y puede ocasionar

errores en los resultados. El valor de los datos depende de su calidad; serán
valiosos en la medida en que sean útiles para tomar decisiones acertadas
El tener control de la calidad de los datos espaciales es una labor

indispensable en la producción de datos espaciales y productos derivados, por
los perjuicios que se pueden derivar de un producto con “calidad pobre”, o
mejor dicho, sin calidad. Por ello todas las Instituciones generadoras de datos
espaciales, productos y servicios deben disponer de métodos y normas
adecuadas para estos fines.
 es importante ser consciente de los errores que contienen los datos y de la

posible aparición de estos a medida que realizamos tareas con ellos, con
objeto de minimizar dicha aparición y limitar la presencia e influencia de los
errores en los resultados finales.
27
BIBLIOGRAFÍA
 Ariza, Francisco, 2002. Calidad en la Producción Cartográfica. 389 pp. Madrid, Ra-
Ma Editorial.
 International Organization for Standardization, 2002. Norma 19113, Principios de
calidad. 30 pp.
 International Organization for Standardization, 2002. Norma 19114, Procedimientos
de evaluación de la calidad. 30 pp.
 Moles i Plaza, Ramón, 2001. Derecho y calidad. El régimen jurídico de la
normalización técnica. 332 pp. Barcelona, Ariel.
 Burrough, P.A. 1990. Principles of Geographical Information Systems for Land
Resource Assessment. Clarendon Press. Oxford.
28

Calidad de Los Datos en Los Sig Final

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Calidad de Los Datos en Los Sig Final

Uploaded by

Copyright:

Available Formats

“Año del Diálogo y Reconciliación Nacional”

CALIDAD DE LOS DATOS EN LOS SIG

Ing.: SANJURJO VILCHEZ, José Antonio

CURSO: Geomatica y sistema de información geográfica

ALUMNO: AQUIJE ROJAS, Jimmy Luis

HUAYHUA CCORIMAYA, Juan Carlos

MOLINA GARCIA, Meyferson

ESTRADA VELA, Eric

YUMBATO PANDURO, Skeytin Gisela

HIDALGO CHAVEZ, Stephany

FACULTAD. Ingeniería Civil

BASE LEGAL: Ley Universitaria N° 30220: En su Capítulo VIII referente a la Investigación

I. DEFINICIONES BASICAS (CALIDAD DE DATOS, ERROR,

II. PROPAGACION DE LOS ERRORES………………………………9

III. EVALUACIÓN DEL ERROR EN LOS MAPAS (ERROR MEDIO

CUADRÁTICO - RMS, MATRIZ DE CONFUSIÓN-KAPPA)……20

Antes de entrar en el estudio directo de la calidad de los datos Y el estudio de los

Calidad de los datos.

La calidad de datos espaciales no ha sido una preocupación hasta hace relativamente

 Aparición de los SIG.

Un elemento clave para el control de la calidad es la existencia de metadatos, que

Según el Vocabulario internacional de Metrología VIM. Define el término error de

Un parámetro relativo al error es la incertidumbre. Habitualmente, el valor real es

Tradicionalmente se ha trabajado con el error y no con el concepto de incertidumbre,

Dos términos importantes en el estudio de la calidad son la precisión y exactitud. La

Diferencia entre precisión y exactitud.

La exactitud se calcula con el error Mientras que la precisión se calcula a

El error posicional es el que más a menudo concierne a los sistemas de información

2.1. Fuentes de inexactitud e imprecisión.

1. Fuentes de error obvias.

2.1.1. Fuentes obvias de error

2.1.1.1. Antigüedad de los datos.

2.1.1.2. Área de cobertura.

Los datos de una zona determinada pueden haber desaparecido

2.1.1.3. Escala del mapa.

La posibilidad de los mapas para mostrar detalles está determinada por la

2.1.1.4. Densidad de las observaciones.

El número de observaciones realizadas en un área es una guía de la

Bastante a menudo, no es posible satisfacer los deseos de obtener datos de

Otro ejemplo de deducción de datos se produce con la señal electrónica

Los métodos para transmitir, almacenar y procesar la información de forma

La accesibilidad de los datos es otra cosa. Lo que está disponible en un país

Extensos y veraces datos son, a menudo, demasiado caros de obtener o

2.1.2.1 Exactitud posicional.

La exactitud en la posición es una medida del desajuste entre los elementos

2.1.2.2 Precisión en el contenido.

Los mapas deben de ser correctos y estar libre de presuposiciones. La

2.1.2.3 Fuentes de variación de datos.

2.1.3. Errores originados durante los procesos

2.1.3.1. Errores numéricos.

Diferentes ordenadores pueden no tener la misma capacidad para construir

2.1.3.2. Errores en los análisis topológicos.

2.1.3.3. Problemas de clasificación y generalización.

Para el entendimiento humano, la comprensión de una vasta cantidad de

2.1.3.4. Digitalización y errores geocodificados.

Los errores ocurridos durante el transcurso de las fases de manipulación de

2.2 Tipos de error.

2.2.1. Errores de concepto y modelo.

Al recoger la información espacial utilizamos algún modelo de representación (ráster,

2.2.2..Errores en las fuentes primarias.

2.2.3. Errores en los procesos de creación de la capa.

2.2.2.4. Errores en los procesos de análisis.

Un dato espacial puede derivar de un proceso de análisis, y en él pueden aparecer