JLB MineriaDatos PDF

Miner a de Datos
Jos e L. Balc azar

Dept. LSI, UPC
UNED Febrero de 2012
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Indice
Los Top-Ten Algorithms en Miner a de Datos, I

IEEE Int. Conf. Data Mining, ICDM06
Ver: http://www.cs.uvm.edu/icdm/algorithms/index.shtml (Y bajar a: Panel Slides with Voting Results.)
El Proceso KDD: Knowledge Discovery in Data, I

Intuici on
Los datos suelen ser poco sosticados.
El proceso KDD
pretende encontrar informaci on impl cita en los datos, dando lugar a descripciones m as sosticadas de los mismos: correctas, se corresponden con los mismos datos, novedosas, no triviales ni expl citas, accionables, sugieren c omo actuar. Es dif cil precisar con suciente exactitud estas condiciones.
El Proceso KDD: Knowledge Discovery in Data, II

La descripci on acad emica intuitiva de Fayyad (1996)
El Proceso KDD: Knowledge Discovery in Data, III

1. Selecci on de los datos a tratar, 2. Preproceso, 3. Transformaci on, 4. Modelado, construcci on de modelos o patrones, 5. Evaluaci on, interpretaci on, despliegue de decisiones en base a los resultados.
El Proceso KDD: Knowledge Discovery in Data, III

1. Selecci on de los datos a tratar, 2. Preproceso, 3. Transformaci on, 4. Modelado, construcci on de modelos o patrones, 5. Evaluaci on, interpretaci on, despliegue de decisiones en base a los resultados. La expresi on miner a de datos a veces se reere al proceso KDD completo, y a veces se reere u nicamente a la fase de modelado. Es la fase en que se aplican algoritmos procedentes mayoritariamente del ambito Machine Learning.
El Proceso KDD: Knowledge Discovery in Data, IV

La descripci on desde la perspectiva industrial: CRISP-DM (1996)
Los Top-Ten Algorithms en Miner a de Datos, II

En concreto, con nombres y apellidos
Los resultados que se obtuvieron:

1. C4.5 (61 votos) 2. K-Means (60 votos) 3. SVM (58 votos) 4. Apriori (52 votos) 5. EM (48 votos) 6. PageRank (46 votos) 7. AdaBoost (45 votos), kNN (45 votos), Na ve Bayes (45 votos) 8. 9. (empate a votos) (empate a votos)
10. CART (34 votos)
El Proceso KDD: Knowledge Discovery in Data, V

El rol de la parte Data Mining
La parte de Data Mining es central al proceso KDD, aunque el resto de fases a un son mayor a y requieren la mayor parte del trabajo.
El Proceso KDD: Knowledge Discovery in Data, V

El rol de la parte Data Mining
La parte de Data Mining es central al proceso KDD, aunque el resto de fases a un son mayor a y requieren la mayor parte del trabajo. Sin embargo, es la que se trata en m as profundidad en todos los libros y cursos. La raz on es que es donde hay m as cantidad de algor tmica no trivial, pero bastante sistematizable. Para las otras fases de KDD hay poco que ense nar: hay estudios publicados pero queda todo muy ad-hoc. En la fase de Data Mining, es irrelevante si los datos vienen de una base de datos, de un Data Warehouse, de una hoja de Excel o de cheros planos (ASCII).
El Proceso KDD: Knowledge Discovery in Data, VI

Las fases de preproceso y transformaci on
C omo son los datos?

Su formato e incluso su codicaci on dependen del algoritmo que se desee usar, o incluso de su implementaci on. Transaccional: Secuencia de conjuntos de tems (atributos binarios, interpretaci on de presencia) Transaccional binario: Secuencia de bitvectors (similar a atributos binarios) [arff, csv]; Transaccional relacional: Tabla relacional que contiene la misma informaci on que el formato transaccional. Relacional: Como una tabla para SQL [arff, csv]; Multirelacional: Varias tablas, posibles claves for aneas; Piedrecitas en el zapato:
Encabezamientos de columnas? Identicadores de las? Separadores? Alg un separador que no deber a estar? Una marca de n de datos donde m as estorba?
An alisis de Datos
Tendremos todos los datos?
Objetivo:
una ventaja econ omica o (menos frecuentemente) humana. La intenci on es lograrla mediante predicciones acertadas, al menos parcialmente. Dos posturas frecuentes:
La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos, que yo estudio hasta obtener una comprensi on m as profunda que me permite hacer yo las predicciones.
An alisis de Datos
Tendremos todos los datos?
Objetivo:
una ventaja econ omica o (menos frecuentemente) humana. La intenci on es lograrla mediante predicciones acertadas, al menos parcialmente. Dos posturas frecuentes:
La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos, que yo estudio hasta obtener una comprensi on m as profunda que me permite hacer yo las predicciones.
Predecir al azar dif cilmente proporciona ventajas: queremos hacerlo mejor que al azar.
Para ello, habremos de basarnos en algo. Por ejemplo, en datos disponibles. Pero, si tenemos todos los datos, no hay nada a predecir.
Ingrediente imprescindible: la incertidumbre.
An alisis de Datos, II
Torturar los datos hasta que conesen todo lo que sepan no va a funcionar
Tenemos pocos datos o muchos?

Las actitudes intuitivas naturales pueden no ser del todo correctas. He medido tambi en esta otra variable adicional, para tener m as datos.

Pero entonces no tienes m as datos, tienes menos!: el mismo n umero de observaciones, en un espacio de dimensi on mayor.
Si tenemos pocos datos, obtendremos poca informaci on; pero extraigamos toda la que se pueda.

Con menos datos, obtendremos m as informaci on.

Con menos datos, obtendremos m as informaci on. Pero ser a m as falsa!
La mente humana tiene serios problemas para enfrentarse a espacios de dimensionalidad elevada.
Indice
Probabilidad
Reencontramos algunos viejos conocidos
Espacios de probabilidad X . Distribuci on de probabilidad D : X [0, 1], reparte una masa unitaria de probabilidad entre todos los elementos de X . Diferencia formal entre distribuciones de probabilidad y sus correspondientes densidades. El motivo de las dicultades formales: el deseo de admitir espacios de probabilidad innitos (y mucho!), como los reales: obliga a asignar probabilidad cero a la inmensa mayor a de los puntos. En nuestro caso no habr a este tipo de problemas: trabajaremos directamente con distribuciones dando en realidad sus funciones de densidad.
Evaluaci on de la Probabilidad
Caso discreto
Probabilidad conceptual o probabilidad emp rica? Slogan: Casos favorables dividido por casos posibles. Ejemplos: tiradas de uno o varios dados (leg timos o cargados), extracci on de bolitas de una o varias urnas, extracci on de una carta de un mazo previamente barajado. . .
Evaluaci on de la Probabilidad
Caso discreto
Probabilidad conceptual o probabilidad emp rica? Slogan: Casos favorables dividido por casos posibles. Ejemplos: tiradas de uno o varios dados (leg timos o cargados), extracci on de bolitas de una o varias urnas, extracci on de una carta de un mazo previamente barajado. . . Con eventos concretos: Pr(resultado del dado es 4) =
1 6 (dado 1 Pr(resultado par del dado) = 2 (id.), 12 3 Pr(la carta es una gura) = 40 = 10 .
leg timo),
Repaso de la Distribuci on Normal

Tambi en conocida como campana de Gauss
Fuente: Wikipedia.
Probabilidad en los Reales

C omo nos lo vamos a montar entonces?
Todos nuestros valores ser an oats de precisi on nita.

Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales.

Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales. Ejemplo: Una longitud de p etalo de 1.234cm es indistinguible de una longitud de p etalo de 1.234000001.

Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales. Ejemplo: Una longitud de p etalo de 1.234cm es indistinguible de una longitud de p etalo de 1.234000001.
En efecto: la diferencia corresponde aproximadamente a la cuarta parte del tama no medio de un atomo de hidr ogeno (Radio de Bohr).
Eventos
En un espacio de probabilidad X
Eventos son subconjuntos del espacio a los que podemos asociar un valor de probabilidad. En todos nuestros casos, todos los subconjuntos son v alidos como eventos. (No es as con los reales de verdad, donde es preciso restringirse a - algebras y seguir los axiomas de Kolmogorov.) Variable aleatoria: manera informal de referirnos a un proceso de evaluaci on de la probabilidad de un evento. Informalmente, imaginamos que la variable representa un elemento de X elegido seg un la probabilidad, del cual preguntamos si pertenece al evento. on.) (En los reales no es posible implementar esta interpretaci
Independencia, I
Noci on crucial
Cu ando podemos decir que dos eventos son independientes? Al lanzar dos dados, el resultado de cada uno no deber a inuir en el resultado del otro.
Independencia, I
Noci on crucial
Cu ando podemos decir que dos eventos son independientes? Al lanzar dos dados, el resultado de cada uno no deber a inuir en el resultado del otro. Extraemos una carta: el que sea o no una gura no deber a tener relaci on con el que sea o no un basto.
Independencia, II
Comparamos algunos casos
Ejemplos:
1 , Pr(la carta es un basto) = 4 12 40 3 10 ,
3 40 .
Pr(la carta es una gura) =
Pr(la carta es una gura de bastos) = 3 3 Se cumple: 40 = 10 1 4.
Independencia, II
Ejemplos:
3 40 .
Pr(la carta es 5) = 1 2, Pr(la carta es par (J = 8, K = 10)) = 1 2,

Pr(la carta es par y 5) = 1 1 1 Sin embargo: 1 5 = 2 2 = 4.
2 10
=1 5.
Independencia, II
Ejemplos:
3 40 .
Pr(la carta es 5) = 1 2, Pr(la carta es par (J = 8, K = 10)) = 1 2,

Pr(la carta es par y 5) = 1 1 1 Sin embargo: 1 5 = 2 2 = 4.
2 10
=1 5.
Intuici on: el conocer el resultado de un evento nos modica la probabilidad del otro? (Pero considerados a la vez!)
Probabilidad Condicional, I
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que se cumple el evento A. Podemos decir algo sobre el evento B ?
Probabilidad Condicional, I
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que se cumple el evento A. Podemos decir algo sobre el evento B ? Ejemplo: Sabemos que la carta es 5. Cu al es ahora la probabilidad de que sea par? De nuevo el slogan: Casos favorables dividido por casos posibles; el resultado es: Pr(la carta es par la carta es 5) = 2 5, (Ojo: De nuevo, la probabilidad condicional en los reales requiere m as cuidado en las deniciones.)
Probabilidad Condicional, II
En caso de independencia
Los eventos A y B son independientes cuando: Pr(A B ) = Pr(A)*Pr(B ) Pr(A B ) = Pr(A) Pr(B A) = Pr(B ) Ejemplos: Pr(la carta es una gura de bastos) =
3 40 3 10 1 4 . 3 10 .
1 Pr(la carta es un basto la carta es una gura) = 4 .
Pr(la carta es una gura la carta es un basto) =
Probabilidad e Independencia
Soporte, Conanza y Lift
Costumbres terminol ogicas

Ideas b asicas de probabilidad en Miner a de Datos: Probabilidad emp rica (soporte, coverage); no es raro mantenerlo sin normalizar:
supp(A): n umero de observaciones en que A se da.
(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.)

(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.) Probabilidad condicional (renombrada conanza); suele escribirse sugiriendo una implicaci on:
conf(A B ) =
supp(AB ) supp(A)

(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.) Probabilidad condicional (renombrada conanza); suele escribirse sugiriendo una implicaci on:
conf(A B ) =
supp(AB ) supp(A)
Es habitual denominar lift a la desviaci on (multiplicativa) respecto de la independencia:

lift(A B ) =
supp(AB ) supp(A)supp(B )
Casos Contraintuitivos de la Probabilidad, I

Desconanza en la conanza
Conanza y correlaci on negativa

La conanza como grado de implicaci on no es able. Dataset CMC (Contraceptive Method Choice): Survey sobre m etodos anticonceptivos en Indonesia en 1987. Con soporte m as de 10% y conanza aproximada 90% aparece la implicaci on near-low-wife-education good-media-exposure no-contraception-method


La conanza como grado de implicaci on no es able. Dataset CMC (Contraceptive Method Choice): Survey sobre m etodos anticonceptivos en Indonesia en 1987. Con soporte m as de 10% y conanza aproximada 90% aparece la implicaci on near-low-wife-education good-media-exposure Pero el soporte de good-media-exposure es. . . m as del 92%! no-contraception-method


La conanza como grado de implicaci on no es able. Dataset CMC (Contraceptive Method Choice): Survey sobre m etodos anticonceptivos en Indonesia en 1987. Con soporte m as de 10% y conanza aproximada 90% aparece la implicaci on near-low-wife-education good-media-exposure Pero el soporte de good-media-exposure es. . . m as del 92%! La correlaci on es de hecho negativa! no-contraception-method


La conanza como grado de implicaci on no es able. Dataset CMC (Contraceptive Method Choice): Survey sobre m etodos anticonceptivos en Indonesia en 1987. Con soporte m as de 10% y conanza aproximada 90% aparece la implicaci on near-low-wife-education good-media-exposure Pero el soporte de good-media-exposure es. . . m as del 92%! La correlaci on es de hecho negativa! Si normalizamos para resolver el problema, vamos a parar al lift, y se pierde la noci on de orientaci on de la implicaci on. no-contraception-method
Casos Contraintuitivos de la Probabilidad, II

Rosencrantz y Guildenstern han muerto
En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una.

En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no?

En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no? Pues, de hecho. . . no! Son eventos independientes!

En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no? Pues, de hecho. . . no! Son eventos independientes! (Y, en efecto, Rosencrantz lanza la nonag esimo segunda moneda y. . . adivina lo que ocurre.) 2011: El regreso de la martingala!
Casos Contraintuitivos de la Probabilidad, III

Un ejemplo famoso
La paradoja de Monty Hall

(El Kiko Ledgard de otros tiempos y otras latitudes.) Se supone que todos los participantes en el juego conocen las reglas. Detr as de una de las tres puertas est a el coche; t u eliges una puerta. Kiko abre una puerta distinta de la elegida, y te muestra que el coche no est a tras ella. Y te pregunta: seguro que no quieres cambiar? Es mejor cambiar? es mejor mantener la elecci on? da igual?
Casos Contraintuitivos de la Probabilidad, III

Un ejemplo famoso
La paradoja de Monty Hall

(El Kiko Ledgard de otros tiempos y otras latitudes.) Se supone que todos los participantes en el juego conocen las reglas. Detr as de una de las tres puertas est a el coche; t u eliges una puerta. Kiko abre una puerta distinta de la elegida, y te muestra que el coche no est a tras ella. Y te pregunta: seguro que no quieres cambiar? Es mejor cambiar? es mejor mantener la elecci on? da igual? Para que el problema est e bien planteado hemos de acordar qu e signica mejor!
Casos Contraintuitivos de la Probabilidad, IV

Otro ejemplo famoso
La paradoja de Simpson
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos;

Otro ejemplo famoso
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos.

Otro ejemplo famoso
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos. Podemos deducir que esa correlaci on se da en toda Extremadura, no?

Otro ejemplo famoso
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos. Podemos deducir que esa correlaci on se da en toda Extremadura, no? Error! Es posible que, en la poblaci on conjunta, la ratio vaya a la inversa.
Espacios num ericos

La ventaja de poder tomar t erminos medios
Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales.
Espacios num ericos

Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales. (M as en general, lo crucial es que sea un TAD que admita la operaci on de suma y la de multiplicar por un real.)
Espacios num ericos

Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales. (M as en general, lo crucial es que sea un TAD que admita la operaci on de suma y la de multiplicar por un real.) Si podemos multiplicar probabilidades por eventos, podemos evaluar esperanzas, que son t erminos medios. Ejemplos: Dado leg timo: 1 1 6 +2 1 6 +3
1 6
+4
1 10
1 6
+5
1 10
1 6
+6
1 10
1 6
= 3.5;
1 2
Dado cargado: 1 1 1 10 + 2 10 +3
+4
+5
+6
= 4.5.
Esperanza, I
Esperanza como funci on lineal: Linearity of expectation
Por denici on: E [X ] =
x (x
Pr[X = x ]).
Esperanza, I
Esperanza como funci on lineal: Linearity of expectation
Por denici on: E [X ] =
x (x
Pr[X = x ]).
(Ojo: En espacios de probabilidad innitos la suma no vale y hay que recurrir a una integral.) Propiedades importantes: E [X + Y ] = E [X ] + E [Y ], E [ X ] = E [X ], y, m as en general, E [
i
i Xi ] =
i (i
E [Xi ]).
Entre eventos independientes, E [X Y ] = E [X ] E [Y ].
Esperanza, II
Esperanza como funci on lineal: ejemplos
Si en tu dado leg timo has multiplicado por dos el valor de cada cara, la nueva esperanza es 7. Si sumas la tirada de tres dados leg timos, la esperanza es 10.5. Pero si uno de esos tres dados es el que ha multiplicado por dos, la esperanza es 14.
Indice
Ser Humano y Realidad

La realidad suele ser complicada
El ser humano aprovecha su capacidad de abstracci on (lenguaje) para intentar interactuar con la realidad de manera m as ecaz. Comunicaci on entre personas (o entre momentos distintos de la misma persona), Memorizaci on, Creaci on (sobre todo colectiva), Toma de decisiones hacia un objetivo. . . Actitud humana casi permanente de modelado.
Modelado
D onde hay modelos?
Ejemplos:
Realidades o potencialidades:
Este edicio, un circuito sumador, una sinfon a, un sistema software. . .
Modelado
D onde hay modelos?
Ejemplos:
Realidades o potencialidades:
Este edicio, un circuito sumador, una sinfon a, un sistema software. . .
Modelos:
Los planos del edicio, el diagrama del circuito, la partitura, las especicaciones UML. . .
Lenguaje de modelado: convenci on verbal, escrita, gr aca. . . Dependencia de los objetivos.
Modelos
Ayudas a la comprensi on humana
Llamamos modelo a la expresi on de una descripci on simplicada pero que se espera u til de un conjunto de hechos actuales o potenciales. A partir de qu e se construye?
Conceptualizaci on de la realidad (permite la invenci on). Observaciones, m as o menos mediatizadas (muestra bien parametrizada, datos disponibles por otros motivos, interacciones. . . ).
Lenguajes de Modelado
Variopintos y de todos los sabores
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful.
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful. (Busca un poco en Internet y encontrar as deliciosas disputas sobre esa armaci on.)
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful. (Busca un poco en Internet y encontrar as deliciosas disputas sobre esa armaci on.) El problema radica en que suele ser dif cil, cuando no imposible, demostrar que un modelo est a mal. Es f acil caer en la tentaci on de arse m as del modelo que de los datos.
Taxonom a de Modelos
No hay acuerdo general
Seg un algunas fuentes: Modelos descriptivos Modelos predictivos (predicci on)

Clasicaci on (o discriminaci on): predicci on no num erica Regresi on: predicci on num erica
Regresi on (o interpolaci on) lineal Regresi on (o interpolaci on) polin omica Regresi on SVR (maximizaci on de m argenes)
Taxonom a de Modelos
No hay acuerdo general
Seg un otras fuentes: Modelos descriptivos Modelos predictivos

Clasicaci on o discriminaci on Predicci on
Regresi on (lineal si no se especica otra cosa) Regresi on polin omica Regresi on SVR (maximizaci on de m argenes)
Indice
Predicci on
Contexto de clasicaci on, o discriminaci on
Estructura de los datos:

Datos relacionales: deseamos predecir el valor de uno de los atributos (la clase). Por el momento, la clase admite dos valores: predicci on binaria (casos buenos y casos malos).
Accuracy (ratio de aciertos),

la medida m as natural: N umero de aciertos dividido por n umero total de datos.
Evaluaci on de Predictores Binarios

Renando la evaluaci on un poquito
La matriz de contingencia (o matriz de confusi on): Positivos ciertos (aciertos, casos buenos aceptados), Falsos positivos (fallos, casos malos aceptados), Negativos ciertos (aciertos, casos malos rechazados), Falsos negativos (fallos, casos buenos rechazados). En funci on de la predicci on hecha (casos aceptados) y de lo que se espera de ella (casos buenos). (A qu e llamamos positivo sin m as adjetivos?) (Ejemplo sobre Titanic.)
Predicci on Probabil stica

Modelos predictivos basados en probabilidades
Podemos calcular diversas probabilidades emp ricas a la vista de los datos: meras frecuencias normalizadas. Diferenciamos la predicci on a priori de la predicci on a posteriori
(antes o despu es de conocer los valores de los dem as atributos para la predicci on).
Probabilidad a priori: frecuencia de cada valor de la clase. M aximo a priori: Predecimos el valor m as frecuente.
Predicci on Probabil stica

Modelos predictivos basados en probabilidades
Podemos calcular diversas probabilidades emp ricas a la vista de los datos: meras frecuencias normalizadas. Diferenciamos la predicci on a priori de la predicci on a posteriori
(antes o despu es de conocer los valores de los dem as atributos para la predicci on).
Probabilidad a priori: frecuencia de cada valor de la clase. M aximo a priori: Predecimos el valor m as frecuente. Probabilidad a posteriori: frecuencia de cada posible valor de la clase, condicionada a cada posible conguraci on de los dem as atributos. M aximo a posteriori (MAP): Predecimos el valor m as frecuente para esos valores de los dem as atributos: arg maxC {Pr (C |A1 . . . An )}
Inconveniente
Por qu e hemos de hacerlo de otro modo
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria.
Inconveniente
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados.
Inconveniente
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados. Necesitamos estimar 220 probabilidades (para uno de los dos valores de la clase en cada posible conguraci on de los dem as atributos) a partir de los datos. (Para el otro valor de la clase, aplicamos que han de sumar uno.)
Inconveniente
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados. Necesitamos estimar 220 probabilidades (para uno de los dos valores de la clase en cada posible conguraci on de los dem as atributos) a partir de los datos. (Para el otro valor de la clase, aplicamos que han de sumar uno.) Sabidur a popular: si tienes menos de diez observaciones por cada par ametro a estimar, ni lo intentes.
Caso de Eventos Independientes

Una manera de salir del paso (a veces)
Para calcular arg maxC {Pr (C |A1 . . . An )}: repasamos la regla de Bayes y la aplicamos, Pr (C |A1 . . . An ) = Pr (A1 . . . An |C ) Pr (C )/Pr (A1 . . . An ) El divisor es el mismo para todos los valores de C , por lo cual para encontrar el valor de C que maximiza la probabilidad podemos prescindir de la divisi on. Y ahora suponemos independencia (condicionada a la clase). Pr (A1 . . . An |C ) Pr (C ) = Pr (A1 |C ) . . . Pr (An |C ) Pr (C )
El Predictor Na ve Bayes
Funciona mejor de lo que uno se espera
Precalculamos Pr (Ai |C ) para todos los valores individuales de los atributos condicionados a los valores de la clase. En vez de predecir arg maxC {Pr (C |A1 . . . An )}, predecimos arg maxC {Pr (A1 |C ) . . . Pr (An |C ) Pr (C )}
El Predictor Na ve Bayes
Funciona mejor de lo que uno se espera
Precalculamos Pr (Ai |C ) para todos los valores individuales de los atributos condicionados a los valores de la clase. En vez de predecir arg maxC {Pr (C |A1 . . . An )}, predecimos arg maxC {Pr (A1 |C ) . . . Pr (An |C ) Pr (C )} En el caso anterior (diez atributos con una media de cuatro valores en cada uno, clasicaci on binaria) son 41 valores a estimar y conservar. (Ejemplos y comparativa sobre Titanic, por separado y en KNIME.)
Indice
Atributos Num ericos

Se asimilan a reales o racionales
Atributos: Binarios, o Booleanos (caso particular del siguiente), Nominales, tambi en llamados categ oricos, Num ericos, tambi en llamados continuos. Los predictores MAP y Na ve Bayes, tal como los hemos visto hasta ahora, suponen atributos nominales. Pero los datos son frecuentemente num ericos.
Predicci on con Atributos Num ericos

Qu e signica Pr (Ai |C ) con atributos num ericos?
Modus operandi : Suponemos una familia concreta de distribuciones de probabilidad en (un intervalo de) los reales. En vez de usar los datos para aproximar las probabilidades calculando la frecuencia relativa, los usamos para aproximar par ametros de la distribuci on. Habitual: 1. Suponer que Pr (A|C ) ser a una distribuci on normal, 2. usar los datos para evaluar su media y su desviaci on est andar y 3. calcular la clase de probabilidad m axima a posteriori por Na ve Bayes a partir de las distribuciones obtenidas. Estudios recientes sugieren que puede ser preferible discretizar.
Modelos Predictivos sin Calcular Modelos

Los propios datos como modelo predictivo
Intuici on de continuidad:
Datos que se parecen llevar an etiquetas similares.

Datos que se parecen llevar an etiquetas similares. Conservamos todos los datos (en una estructura de datos adecuada). Cuando hemos de clasicar un dato nuevo, calculamos la etiqueta m as frecuente entre los k datos m as similares (k NN, k nearest neighbors ).

Datos que se parecen llevar an etiquetas similares. Conservamos todos los datos (en una estructura de datos adecuada). Cuando hemos de clasicar un dato nuevo, calculamos la etiqueta m as frecuente entre los k datos m as similares (k NN, k nearest neighbors ). La intuici on de continuidad muchas veces es correcta, y muchas no lo es. En dimensiones elevadas, calcular los vecinos es computacionalmente costoso.
Indice
Medidas Alternativas
La accuracy no basta
Si la mayor a de los ejemplos est an etiquetados negativamente, un predictor que contesta siempre que no tiene una accuracy elevada. (Problema an alogo en information retrieval, IR.) Conanza de bueno aceptado Sensitivity (en IR recall ): positivos ciertos dividido por buenos. Conanza de aceptado bueno: En IR precision: positivos ciertos dividido por aceptados. Conanza de malo rechazado: Specicity : negativos ciertos dividido por malos. Relaci on con la accuracy : combinaci on lineal de Sensitivity (ponderada por la ratio de casos buenos) y Specicity (ponderada por el n umero de casos malos).
Curvas ROC
Cuando tenemos m as informaci on
Frecuentemente podemos ordenar los casos aceptados: En IR : concepto de top -k , los k objetos que parecen m as relevantes (lo sean o no); Si usamos un regresor como predictor: el valor oat de la regresi on permite ordenar los casos aceptados. Para cada k , de 0 a N : En abscisas, ratio de falsos positivos a casos malos: restar de 1 la Specicity.
O sea, la Specicity pero de derecha a izquierda.
En ordenadas, ratio de positivos ciertos a casos buenos: la Sensitivity. Curva ROC: Receiver/Relative Operating Characteristics.
Curvas ROC: Ejemplos

Fuente: Wikipedia, 2009
El Area Bajo la Curva, AUC

Est a de moda pero no se ha de usar como comparativa
Reduce a un u nico n umero el comportamiento de un clasicador que ordena, sin tener que jarnos en toda la curva. Corresponde a: Ponderar de manera distinta los errores por falso positivo que los errores por falso negativo,
El Area Bajo la Curva, AUC

Est a de moda pero no se ha de usar como comparativa
Reduce a un u nico n umero el comportamiento de un clasicador que ordena, sin tener que jarnos en toda la curva. Corresponde a: Ponderar de manera distinta los errores por falso positivo que los errores por falso negativo, pero con una ponderaci on que depende del clasicador! (Hand, 2009, Machine Learning Journal.) Evitemos el uso de AUC para comparar clasicadores. Alternativas: AUC con una medida no uniforme.
Validaci on Cruzada
Tal como la hemos visto hasta ahora
Tenemos nuestros datos.

Primera opci on:
1. entrenamos nuestro modelo y 2. vemos si se equivoca mucho o poco sobre esos datos.
Nos dar a una evaluaci on demasiado optimista, porque hemos entrenado justo con esos datos. Segunda opci on: Separamos en datos de entrenamiento y datos de prueba, para evitar evaluar el modelo con los mismos datos a los que se ha ajustado: pero existe arbitrariedad. Tercera opci on: N folds separando training set de test set de N maneras distintas, de forma que cada dato est e en exactamente un test set.
Indice
Predictores
Vistos como supercies que separan clases
Un predictor ya entrenado marca una supercie frontera entre las distintas clases. Cada modelo predictivo ofrece sus propias posibilidades para la forma de la frontera. Decision Stumps:
hiperplanos paralelos a los ejes;
Reglas de decisi on y arboles de decisi on:

paralelep pedos de caras paralelas a los ejes.
Na ve Bayes es capaz de generar fronteras muy sosticadas.
Predictores Lineales
Vistos como supercies que separan clases
Caso particular: clasicaci on binaria, la clase puede tomar dos valores. En los predictores lineales, la frontera es un hiperplano: en el espacio de entrada al que pertenecen los datos, o bien en un espacio de caracter sticas al cual traduciremos los datos.
Predictores 2 Lineales en el Plano

Un ejemplo en R :
1 x 2
+1
Predictores 3 Lineales en el Espacio

Un ejemplo en R : 2x + y 1
Predicci on por Hiperplanos

Peque nas variantes
Ejemplo: frontera z = 2x + y 1; formalmente la predicci on es p (x , y , z ) = sign(2 x + y z 1) = 1 En R 3 , el predictor viene dado por pesos y t ermino independiente: (wx , wy , wz , b ); la predicci on es sign(wx x + wy y + wz z + b ) o una aproximaci on a ese valor. Hard threshold, umbral duro o umbral de Heaviside. En general, en R n , el predictor es (w , b ) con w R n y la predicci on es sign(w T x + b ). Soft threshold, umbral blando. En general, en R n , el predictor es (w , b ) con w R n y la predicci on es (w T x + b ) para una funci on continua y diferenciable (sigmoide) que aproxima el umbral duro.
Sigmoides
Una posibilidad y una variante
1 1 + 2 x La segunda, de lejos y de cerca:
2 1 1 + 2 x
Perceptr on
Nombres cl asicos y resultones para los predictores lineales
Perceptr on, Neurona Formal, Neurodo. . .
Cuanticaci on del Error

Cu anto se equivoca un hiperplano dado en los datos
Datos de entrenamiento xi R n , cada uno con su clase yi = 1: Error de clasicaci on (0-1 loss ): n umero de errores, M = {i yi = sign(w T x + b )} Alternativas: cuanticar los m argenes que indican cu anto de mal est an los puntos que est an mal clasicados,
i M
yi (w T x + b )
(o bien
(w T x + b ) ||w ||
i M
yi (w T x + b ))
Observaci on: ignorando el signo, hiperplano: el margen.
es la distancia de x al
Datos linealmente separables:

Cuando existe alg un hiperplano que no comete error (M = ).
Separabilidad Lineal
Un ejemplo
Entrenamiento de Perceptron
C alculo del hiperplano a partir de los datos, 1958
Confusi on entre especicaci on e implementaci on: el hiperplano se describe impl citamente mediante el algoritmo que lo construye.
Reducci on del error:

Dado un hiperplano candidato (w , b ), reducimos su error
i M
yi (w T x + b )
M = {i yi = sign(w T x + b )}
modicando aditivamente los valores de w y b seg un las derivadas parciales sugieran que se reduce m as el error. Empezamos con un hiperplano al azar y lo vamos corrigiendo. La minimizaci on del error mediante los m etodos cl asicos de derivadas parciales no se puede aplicar con umbral duro.
Visi on Actual del Perceptr on

El entrenamiento cl asico est a obsoleto
Problem atica:
Si los datos son linealmente separables, est a garantizado que el algoritmo converge pero:
no sabemos a qu e soluci on, porque hay muchas; puede tardar mucho en converger; el hiperplano nal depende de la inicializaci on.
Si los datos no son linealmente separables, el algoritmo entra en un bucle que puede ser largo y dif cil de detectar. Se puede encontrar un hiperplano soluci on mucho m as r apidamente mediante Programaci on Lineal, usando las restricciones: yi (w T xi + b ) > 0
Predictores Lineales Actuales

Hacia SVM
Slogan: Margen m aximo; no te acerques a ninguna de las clases m as de lo imprescindible.
Planteamiento de optimizaci on:

x +b ) m. Maximizar m, bajo las condiciones: yi (w||w ||
T
Tenemos un grado de libertad que no hemos usado: la longitud del vector director del hiperplano es irrelevante. Consideramos: yi (w T x + b ) m||w ||
1 Elegimos ||w || = m : escalamos de tal manera que nuestra unidad de medida coincida con el margen optimo. El nuevo problema es una optimizaci on cuadr atica convexa.
Software: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
Separabilidad Lineal con Margen M aximo

Un ejemplo
Support Vector Machines y Separabilidad Lineal

Margen duro y margen blando
Si los datos no son linealmente separables ni siquiera en el espacio asociado al n ucleo; o si lo son pero nos parece que corremos riesgo de sobreajustar: opci on margen blando. Margen duro en el entrenamiento (hard margin, no confundir con umbral duro en la predicci on): todos los datos han de olo es factible en datos linealmente obedecer el margen. S separables. Margen blando en el entrenamiento (soft margin): datos linealmente separables o no.
Permiten que algunos de los datos queden por debajo del margen, incluso mal clasicados. Estos errores se penalizan con un peso por error (que usualmente se denota C ).
Un Ejemplo Linealmente Separable

Construimos las envolventes convexas de cada clase
Envolventes Convexas
Cu al es el hiperplano de margen m aximo?
Hiperplano de Margen M aximo

Bisecando el segmento que une los puntos m as pr oximos de las envolventes convexas
Un Ejemplo Linealmente Inseparable

No hay hiperplanos soluci on
Un Hiperplano con Margen Blando

Cu anto error comete?
Otro Hiperplano con Margen Blando

Cu al es su margen?
Ese Mismo Hiperplano con Margen Blando

Cu anto error comete?
Baricentros de Pares de Puntos

La traducci on del margen blando en envolventes convexas
Envolventes Convexas Reducidas

Problema reducido a linealmente separable
Hiperplano con Margen Blando M aximo

La soluci on es paralela a la encontrada con envolventes convexas reducidas
Propiedades del Dual

La clave para la ecacia del predictor
Condiciones de Karush, Kuhn, Tucker y otras propiedades.

Interpretaci on en t erminos de envolventes convexas. El problema de optimizaci on se soluciona en tiempo cuadr atico. Las u nicas operaciones que se necesita hacer sobre los datos es producto escalar. La soluci on es combinaci on lineal de los datos. Los u nicos datos con coeciente no nulo caen exactamente sobre el margen (vectores soporte).
N ucleos
Cambiamos de espacio de Hilbert con el truco del n ucleo
Reproducing Kernel Hilbert Spaces:

Determinadas funciones en el espacio de entrada dan el mismo resultado que el que dar a el producto escalar en otros espacios. Por ejemplo: una c onica en dos dimensiones,
2 2 w 1 x1 + w 2 x2 + ws x1 x2 + w4 x1 + w5 X2 + w6
es un producto escalar de (w1 , w2 , w3 , w4 , w5 , w6 ) con una transformaci on f de (x1 , x2 ) a R 6 :

2 2 f (x1 , x2 ) = (x1 , x2 , x1 x2 , x1 , x2 , 1)
Calcula ((x1 , x2 )(y1 , y2 ) + 1)2 .
N ucleos
Cambiamos de espacio de Hilbert con el truco del n ucleo
Reproducing Kernel Hilbert Spaces:

Determinadas funciones en el espacio de entrada dan el mismo resultado que el que dar a el producto escalar en otros espacios. Por ejemplo: una c onica en dos dimensiones,
2 2 w 1 x1 + w 2 x2 + ws x1 x2 + w4 x1 + w5 X2 + w6
es un producto escalar de (w1 , w2 , w3 , w4 , w5 , w6 ) con una transformaci on f de (x1 , x2 ) a R 6 :

2 2 f (x1 , x2 ) = (x1 , x2 , x1 x2 , x1 , x2 , 1)
Calcula ((x1 , x2 )(y1 , y2 ) + 1)2 . El producto escalar en R 6 f (x1 , x2 )f (y1 , y2 ) se puede calcular sin movernos de R 2 .
Support Vector Machines: Resumen

El m as prominente ejemplo de kernel methods
Son predictores lineales. Entrenamiento: consiste en calcular el hiperplano de margen m aximo. Se aplica para ello una variante dual de programaci on cuadr atica convexa que opera con los datos mediante productos escalares. En lugar del producto escalar, es posible emplear una funci on n ucleo (kernel ) que tenga determinadas propiedades; equivale a usar hiperplanos en un espacio de dimensi on mayor, con la consiguiente exibilidad adicional. La opci on de margen blando permite relajar la obligatoriedad de separabilidad lineal. La idea de n ucleos es aplicable en otros dominios: es posible replantear el algoritmo del perceptr on, por ejemplo, en t erminos de productos escalares, y entonces se puede aplicar la misma idea.
Indice
Implicaciones
Redescubriendo el Mediterr aneo
La l ogica implicacional y sus variantes aparecen en: Geometr a,

Geometr as convexas,
Antimatroides;
L ogica,
C alculo proposicional,
Cl ausulas de Horn;
Algebra de ordenes,
Semiret culos, operadores de clausura,
Diagramas de conceptos formales;
Inteligencia Articial,
Representaci on del conocimiento,
Knowledge compilation;
Bases de Datos,
Teor a de la normalizaci on,
Dependencias funcionales.
Motivaci on
Por qu e tantos caminos llevan a Roma?
Comprobar si una armaci on es consecuencia de otra,

en cualquier l ogica razonable (como primer orden), es desafortunadamente indecidible; incluso en l ogicas muy limitadas (como la proposicional) es desafortunadamente intratable (NP-hard ).
Qu e podemos hacer?
Si nos limitamos un poco m as a un, encontramos una l ogica que es, poco m as o menos, lo m as expresiva posible bajo la condici on de tratabilidad de la noci on de consecuencia l ogica.
Motivaci on
Por qu e tantos caminos llevan a Roma?
Comprobar si una armaci on es consecuencia de otra,

en cualquier l ogica razonable (como primer orden), es desafortunadamente indecidible; incluso en l ogicas muy limitadas (como la proposicional) es desafortunadamente intratable (NP-hard ).
Qu e podemos hacer?
Si nos limitamos un poco m as a un, encontramos una l ogica que es, poco m as o menos, lo m as expresiva posible bajo la condici on de tratabilidad de la noci on de consecuencia l ogica. Y el concepto es tan natural que la gente se lo ha ido encontrando: l ogica de Horn, conjunciones de cl ausulas de tipo (a b c ) o, lo que es lo mismo, (a b c )
Ejemplos en Miner a de Datos

Un cl asico y un desconocido
Adult Dataset
Exec-managerial Husband Married-civ-spouse

Adult Dataset
ML Abstracts Dataset
support margin vector descent gradient hilbert space

Adult Dataset
ML Abstracts Dataset
support margin vector descent gradient hilbert space carlo monte monte carlo
La Causalidad como Proceso Cognitivo

La relaci on causa-efecto en la vida cotidiana
La generalidad de los humanos nos encontramos casi permanentemente detectando relaciones de causalidad. Nos apoyamos en ellas para estructurar nuestras percepciones.
(Las tantas de la noche, sale de un bar, se tambalea, canturrea, seguramente est a borracho.)
Nos apoyamos en ellas para generar nuestras expectativas.

(Puede ser un tipo majo, pero si est a bebido podr a ser agresivo.)
Formalizaciones de la Inferencia
No todas son del todo correctas
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad.
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad. (Aunque la correspondencia es ilusoria!)
Intuici on u til:
Procesos deductivos:
Deducci on: dado p q , si observamos p , inferimos q .
(Lindas propiedades de soundness y completitud.)
Abducci on: dado p q , si observamos q , inferimos p .

Incorrecto (unsound ) en general; muy frecuente en el razonamiento cotidiano humano; el grado de correcci on puede admitir un an alisis estad stico.
Intuici on u til:
Procesos deductivos:
Deducci on: dado p q , si observamos p , inferimos q .
(Lindas propiedades de soundness y completitud.)
Abducci on: dado p q , si observamos q , inferimos p .

Incorrecto (unsound ) en general; muy frecuente en el razonamiento cotidiano humano; el grado de correcci on puede admitir un an alisis estad stico.
PERO: qui en nos da p q ?
Implicaciones y Asociaciones
Causalidad versus Simultaneidad
Las relaciones de causalidad son un motor para la Ciencia. Pero no basta con predecir, hay que construir teor as que expliquen relaciones de causa y efecto entre los hechos.
5.1361 Der Glaube an den Kausalnexus ist der Aberglaube
(LW, T L-Ph)
La noci on crucial es la de implicaci on. La piedra angular de la L ogica, y el gran avance de Arist oteles sobre Plat on. 2350 a nos de estudio.
Una sintaxis muy atractiva
Nuestro sesgo computacional de hoy:

No nos alejemos de la L ogica Proposicional. Enfoque sobre implicaciones, consecuencia l ogica y axiomatizaciones.

No nos alejemos de la L ogica Proposicional. Enfoque sobre implicaciones, consecuencia l ogica y axiomatizaciones. Aceptamos p q cuando vemos que as ocurre.

Ha de ocurrir siempre?

Ha de ocurrir siempre? Basta con que sea casi siempre?

Ha de ocurrir siempre? Basta con que sea casi siempre? C omo se mide ese casi?
Datos Transaccionales
Todos los atributos son booleanos
Implicaciones: cl ausulas de Horn con el mismo antecedente. (Rich Male) (Rich White) = Rich Male, White Propiedades: a, b, c, d; Observaciones: m1 , m2 , m3 , Id m1 m2 m3 a 1 0 0 b 1 1 1 c 0 1 0 d 1 1 1 transacci on {a , b , d } {b , c , d } {b , d } d b a, b d a b, d ...
Caso relacional: Un atributo booleano por cada par atributo-valor.
Envolventes Horn
Caracterizaci on sem antica
Dataset, conjunto de transacciones: Cada transacci on es un conjunto de items; o, lo que es lo mismo, un modelo proposicional.
Propiedad crucial:
Es equivalente: armar que un dataset es cerrado por intersecci on o armar que un dataset admite una descripci on Horn. Teor a Horn: cl ausulas de Horn (implicaciones) que se cumplen en todos los datos. Envolvente Horn: cierre por intersecci on; da lugar a un ret culo.
Envolventes Horn
Caracterizaci on sem antica
Dataset, conjunto de transacciones: Cada transacci on es un conjunto de items; o, lo que es lo mismo, un modelo proposicional.
Propiedad crucial:
Es equivalente: armar que un dataset es cerrado por intersecci on o armar que un dataset admite una descripci on Horn. Teor a Horn: cl ausulas de Horn (implicaciones) que se cumplen en todos los datos. Envolvente Horn: cierre por intersecci on; da lugar a un ret culo. Cu anto de realista es requerir que la totalidad de los datos cumplan la implicaci on?
Reglas de Asociaci on
Cl ausulas de Horn que permiten excepciones
Por ejemplo:
En censos estadounidenses, en m as de 2/3 de los casos: United-States, White Husband Male, Married-civ-spouse Married-civ-spouse Husband, Male Not-in-family <= 50K Black <= 50K , United-States Adm-clerical, Private <= 50K Self-emp-not-inc Male <= 50K , Sales Private hours-per-week:50 Male Female, Some-college <= 50K Divorced <= 50K
Extracci on de Implicaciones Parciales

Association Rule Mining
Las implicaciones exigen absoluta ausencia de contraejemplos. Frecuentemente esta condici on es demasiado estricta.
Planteamiento m as com un:

Cota inferior sobre el soporte para reducir el espacio a explorar: conjuntos frecuentes. Cota inferior sobre la intensidad de implicaci on que identique reglas con pocas excepciones. Dicultad: No es obvio c omo relajar la implicaci on y formalizar la condici on de tener pocas excepciones; y no por falta de ideas, sino por exceso.
Intensidad de Implicaci on
C omo medir cu anto de pocas son las excepciones
Propuesta habitual: la conanza: c (X Y ) = supp(XY ) supp(X )
umero de donde supp (X ) es el soporte del conjunto X : el n transacciones que contienen X .
A favor:
Es muy natural. Es f acil de explicar a un usuario no experto.
Intensidad de Implicaci on
C omo medir cu anto de pocas son las excepciones
Propuesta habitual: la conanza: c (X Y ) = supp(XY ) supp(X )
umero de donde supp (X ) es el soporte del conjunto X : el n transacciones que contienen X .
A favor:
Es muy natural. Es f acil de explicar a un usuario no experto.
No termina de convencer:
La cota sobre la conanza no previene contra las correlaciones negativas. Docenas de propuestas alternativas.
M etricas Alternativas
Para seleccionar reglas de asociaci on
Criterios de intensidad de implicaci on:

Conanza, Correcci on de Laplace, Indice de Gini, J-Measure, Leverage, Conanza total, Prevalence, Jaccard, Relative risk ...
Clausuras
Conjuntos cerrados
Opci on sencilla: En el momento de extender un conjunto con un item, comprobamos si el soporte decrece; si no lo hace, el conjunto no es cerrado. Los conjuntos cerrados act uan como resumen de todos los frecuentes. Inconvenientes: Si vamos a calcular todas las reglas dentro de cada clausura, sin comparar clausuras, no merece la pena. Si vamos a calcular reglas comparando clausuras, el proceso requiere calcular qu e clausuras son subconjuntos de otras.
Obtenemos mucha menos redundancia entre las reglas, pero es mucho mas laborioso computacionalmente.
Reglas de Asociaci on en la Pr actica

A un no est an realmente aceptadas
Basaremos un proyecto de Data Mining en reglas de asociaci on?
A favor:
Algoritmos razonablemente ecaces (y open source ). El preproceso de los datos no es trivial pero es bastante sencillo. Relativamente poca formaci on basta para entender el resultado.
Reglas de Asociaci on en la Pr actica

A un no est an realmente aceptadas
Basaremos un proyecto de Data Mining en reglas de asociaci on?
A favor:
Algoritmos razonablemente ecaces (y open source ). El preproceso de los datos no es trivial pero es bastante sencillo. Relativamente poca formaci on basta para entender el resultado.
En contra:
Ajustaremos las cotas de soporte y de intensidad de implicaci on por el famoso m etodo I.P.: ir probando. Qu e medida usaremos para la intensidad de implicaci on? C omo se la explicaremos al usuario? Pero esto no es lo peor. . .
Abundancia de Reglas de Asociaci on

El gran problema de este enfoque
Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes...

Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran.

Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran. United-States, White Husband United-States, White Married-civ-spouse United-States, White . . . (En general, todas las que los datos no desmienten.)

Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran. United-States, White Husband United-States, White Married-civ-spouse United-States, White . . . (En general, todas las que los datos no desmienten.)
Necesitamos:
Nociones precisas de redundancia entre reglas de asociaci on, m etodos para encontrar bases m nimas, y maneras de descartar las reglas poco novedosas.
La L ogica de las Implicaciones

C alculo correcto y completo
Sem antica: consecuencia l ogica, X1 Y1 , . . . , Xk Yk |= X0 Y0 C alculo sint actico: derivabilidad, X1 Y1 , . . . , Xk Yk X0 Y0
Esquemas de Armstrong
Reexividad: si Y X , X Y; XX YY ; X Z. Aumentaci on: X Y , X Y Transitividad: X Y , Y Z
La consecuencia l ogica y la derivabilidad son equivalentes.
Redundancia entre Implicaciones

Base can onica
Dado un conjunto de implicaciones: sobra alguna? Podemos prescindir de aquellas que se puedan recuperar aplicando los esquemas de Armstrong.
Basis, cover de un conjunto de implicaciones

Subconjunto de implicaciones de las que se pueden deducir todas las dem as. Base can onica o de Guigues-Duquenne: alcanza tama no m nimo. No es factible si requerimos mantener la sintaxis Horn. Desarrollo an alogo en dependencias funcionales. (Dicultades de aceptaci on social.)
Redundancia en Reglas de Asociaci on

Conanza menor que 1
X : cierre de X por las implicaciones: a nadimos a X todos los items implicados por items ya en X (y X es una clausura si y s olo si X = X ).
Comparando dos reglas parciales,

X Y es redundante respecto a X Y cuando c (X Y ) c (X Y ) y s (XY ) s (X Y ) en todos los datasets que cumplan las implicaciones B ; c (X Y ) c (X Y ) en todos los datasets que cumplan las implicaciones B ; X X y X Y XY
Bases y Reglas Representativas

C omo evitar la redundancia?
Con respecto a este tipo de redundancia,

es una base m la base B nima de las reglas parciales;
alternativa para una variante de esta redundancia: las llamadas reglas representativas. La misma idea permite medir cu anto de novedosa es una regla, en relaci on a las dem as: Una regla es muy novedosa cuando todas las reglas que la hacen redundante tienen una conanza mucho menor. Variante m as estricta relajando la redundancia l ogica: condence boost.
Tama no de las Bases, Seg un la Conanza

Un fen omeno curioso
Bases M nimas
Reglas no redundantes y novedad objetiva
Con respecto a este tipo de redundancia,

se construye buscando casos extremos: reglas La base B X Y con X cerrado lo m as peque no posible y XY cerrado lo m as grande posible.
Es una base m nima de las reglas parciales (a combinar con la base GD de las implicaciones). Las llamadas reglas representativas proporcionan una alternativa si no queremos tratar las implicaciones por separado. Condence width: cu anto m as alta es la conanza de la regla respecto a la de reglas que la hacen redundante. Condence boost: cu anto m as alta es la conanza de la regla respecto a la de reglas que la hacen redundante, o de reglas an alogas con la parte izquierda m as reducida.
Medidas de Novedad Objetiva

Aunque parezca una contradicci on en t erminos
Condence boost:
Medida objetiva de la novedad de una regla parcial. Idea: en lugar de una cota absoluta sobre la conanza, una on de reglas relacionadas. cota relativa en funci Intuici on (inexacta): en qu e ratio crece la conanza de una regla con respecto de las reglas que la hacen redundante? Las reglas redundantes dan valores inferiores a 1.
Medidas de Novedad Objetiva

Aunque parezca una contradicci on en t erminos
Condence boost:
Medida objetiva de la novedad de una regla parcial. Idea: en lugar de una cota absoluta sobre la conanza, una on de reglas relacionadas. cota relativa en funci Intuici on (inexacta): en qu e ratio crece la conanza de una regla con respecto de las reglas que la hacen redundante? Las reglas redundantes dan valores inferiores a 1. Los valores superiores a 1 indican mayor novedad cuanto m as altos son. Un valor s olo levemente superior a 1 indica que la regla no es redundante pero que hay otra muy parecida con casi la misma conanza. Implementaci on disponible: yacaree.sf.net
Condence Boost en Censos

C omo se reducen las reglas representativas acotando condence boost
Training set de Adult (UCI), soporte 2%, conanza 75%.
Resumen sobre Reglas de Asociaci on

A un muchos ecos sueltos
Implicaciones totales y parciales:

Disfraces o variantes de la l ogica de Horn; Inferencia a partir de datos; Admitir excepciones es crucial; Las implicaciones parciales traen m as dicultades...
Conceptos clave:
Conjuntos frecuentes y conjuntos cerrados; Reglas, redundancia y c alculos deductivos; Bases m nimas, varias opciones; Intensidad de implicaci on: conanza, lift, . . . Medidas de novedad objetiva, conanza relativa respecto de otras reglas (condence boost ).
Indice
Sistemas de B usqueda
De Information Retrieval a la Web
Contexto:
Una colecci on enorme de documentos procesables por computador:
Documentos en sentido literal (bibliotecas digitales), P aginas web, . . .
Usuarios que desear an que se les proporcionen algunos de esos documentos como respuesta a sus solicitudes (queries).
C omo elegir qu e documentos proporcionar como respuesta? C omo priorizarlos? Much simos avances importantes en el campo de Information Retrieval.
Varios Niveles de Abstracci on

Para analizar esta problem atica
Con cada propuesta conceptual, aparecen muchas ideas adicionales, potencialmente muy ecientes pero que hay que valorar experimentalmente.
Enfoque conceptual y enfoque tecnol ogico

Concepto: ndice inverso. Tecnolog a: c omo programarlo. Concepto: proximidad entre documento y query. Tecnolog a: ajustes en su denici on. Concepto: en la priorizaci on de resultados, qu e informaci on consideramos? con qu e algoritmo la procesamos? Tecnolog a: implementaci on y paralelizaci on de esos algoritmos.
Indices Inversos
El ingrediente ineludible de Information Retrieval
Estructuras de datos que permiten encontrar: todos los documentos en los que aparece un t ermino, y todas las posiciones en que aparece dentro de cada uno de ellos.
Requieren:
Precisar a qu e llamamos t ermino, Dise nar una estructura adecuada con punteros al interior de los documentos, Dise nar algoritmos razonablemente ecientes que preprocesen los documentos y lo construyan, y Dise nar algoritmos ecientes para combinar posiciones en los documentos.
Medidas de Proximidad
Un leit-motiv
Saber en qu e sentido dos cosas se parecen:

Selecci on y construcci on de caracter sticas:
Atributos irrelevantes? Combinar atributos existentes en otros m as complejos?
Segmentaci on (Clustering ), Predicci on (Nearest neighbors, N ucleos y SVM, . . . )
Medidas de Proximidad para Information Retrieval

Muchos a nos de estudio
Un peque no rodeo:
Asociamos un peso a cada t ermino en cada documento. Comparamos documentos en base a los pesos que cada t ermino adquire en cada uno de ellos. Tratamos las queries como documentos.
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Imaginamos el t ermino como una componente de una query.
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.)
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d .
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d . Quiz a hay t erminos muy frecuentes que no aportan relevancia (stop words ).
Ponderamos tf por la frecuencia global del t ermino?
Opciones:
Ponderamos tf por la frecuencia global del t ermino? Mejor: ponderamos tf por el n umero de documentos en que aparece el t ermino, df (t ).
Opciones:
Ponderamos tf por la frecuencia global del t ermino? Mejor: ponderamos tf por el n umero de documentos en que aparece el t ermino, df (t ). A un mejor: ponderamos tf por el logaritmo de la frecuencia umero de documentos en que aparece el t ermino. (inversa) del n
La Ponderaci on tf-idf
El esquema de ponderaci on que todo el mundo usa
Ponderaci on:
Term frequency, inverse document frequency : tdf (t , d ) = tf (t , d ) log N df (t )
Da lugar a una matriz de t erminos por documentos. Cada documento es ahora un vector con una dimensi on por cada t ermino. El origen de coordenadas ser a el documento vac o, pero tambi en otros documentos caen en el mismo punto cero (cu ales?). Podemos considerar vectores parecidos, pero resulta m as ecaz comparar mejor u nicamente sus direcciones: similaridad a trav es del angulo que forman.
La Ponderaci on tf-idf y el Modelo Vectorial

La respuesta m as ecaz a la cuesti on de la proximidad
Similaridad entre dos documentos:

Normalizamos dividiendo por la longitud eucl dea y calculamos el coseno del angulo mediante un producto escalar; la similaridad entre d1 y d2 es: Vd1 Vd2 |Vd1 | |Vd2 | Cada query da lugar a un vector an alogo. Podemos buscar los documentos cuyo vector sea m as pr oximo al (es decir, tenga menor angulo con el) vector de la query.
Presencia de Enlaces
La novedad de nales del Siglo XX
Las bibliotecas digitales ten an documentos individuales.
Ahora resulta que est an enlazados entre s :

P aginas web, Art culos que referencian otros art culos. . . La web no ser a lo que es sin un juicioso equilibrio: El spam entre p aginas web siempre ser a posible,

P aginas web, Art culos que referencian otros art culos. . . La web no ser a lo que es sin un juicioso equilibrio: El spam entre p aginas web siempre ser a posible, pero ha de ser dif cil!

P aginas web, Art culos que referencian otros art culos. . . La web no ser a lo que es sin un juicioso equilibrio: El spam entre p aginas web siempre ser a posible, pero ha de ser dif cil! Los primeros buscadores usaban la tecnolog a de Information Retrieval ; no nos hubieran tra do a donde estamos. La novedad que trajo Google: combinaci on de
relevancia por contenido (text mining) y relevancia basada en los enlaces (link mining).
La intuici on de Pagerank
Pocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella,
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola.
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola. Pero a los inform aticos no nos asusta la recursividad.
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola. Pero a los inform aticos no nos asusta la recursividad. El u nico problema es que no parece que haya caso base. . .
La clave de Pagerank
Parece imposible, pero. . .
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R .
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R . La condici on relevancia proporcional a la de las p aginas que le apuntan se convierte en: R = MR es decir, estamos hablando de vectores propios.
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R . La condici on relevancia proporcional a la de las p aginas que le apuntan se convierte en: R = MR es decir, estamos hablando de vectores propios. Hay que tratar con cuidado las p aginas que no apuntan a nadie.
Pagerank
Versi on paseante sin rumbo
Paseo al azar por la web (como grafo):

Vector todo unos: presupuesto inicial de importancia. Cada p agina reparte toda su importancia entre las p aginas a las que apunta, recibe la que le env en. . . y repetimos.
Pagerank
Versi on paseante sin rumbo
Paseo al azar por la web (como grafo):

Vector todo unos: presupuesto inicial de importancia. Cada p agina reparte toda su importancia entre las p aginas a las que apunta, recibe la que le env en. . . y repetimos. Matriz estoc astica: el proceso converge al vector propio que corresponde al mayor valor propio, y este vale 1.
Es iterar un producto (potencia) de matrices. Buenos algoritmos.
Combinaci on lineal con el salto al azar (teleport ): Ri +1 = /N + (1 )MRi No se emplea directamente as , sino que se incorpora el salto al azar a la matriz; se rumorea que = 0.15.
En la Pr actica
Nadie dijo que fuera f acil
B usquedas exitosas:
Filtrar lo irrelevante y luego priorizar lo m as relevante. El enfoque m as extendido est a basado en algebra lineal (con no pocas extensiones). Conviene considerar dos v as de an alisis:
Textual (por contenido, text-based ) y Relacional (por referencia mutua y enlaces, link-based ).
La similaridad por cosenos tiene buen rendimiento para el an alisis textual. El vector propio de una matriz estoc astica tiene buen rendimiento para el an alisis por enlaces. Para que todo funcione hacen falta muchas m as cosas, desde tecnolog as de implementaci on (MapReduce) a conceptos adicionales (relevance feedback).
Indice
Muestreo (Sampling ): Dos Intuiciones Diferentes

Frente al exceso de datos
Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces?

Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces? Pues. . . obvio: mirar unas pocas; tomar una muestra. Muestreo en el sentido estad stico: elegir datos que resulten globalmente representativos del total de los datos.

Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces? Pues. . . obvio: mirar unas pocas; tomar una muestra. Muestreo en el sentido estad stico: elegir datos que resulten globalmente representativos del total de los datos. Segmentaci on (clustering ): elegir datos que resulten individualmente representativos de grupos (los segmentos o clusters ) de datos.
Segmentaci on
Abstracci on por computador
Agrupar datos:
Discernir diferentes subconjuntos de los datos en base a caracter sticas similares; Tratar del mismo modo datos parecidos (p. ej. campa nas de marketing ); Describir los datos de manera m as sucinta; Identicar rasgos aproximadamente comunes a un segmento de una poblaci on (p. ej. representar mediante un u nico punto cada uno de los grupos). Simplicaci on de hoy: todos los atributos son oats.
Noci on de Supervisi on
Comparando con modelos predictivos
Para entrenar un predictor,

Tienes especicados cu ales son los atributos en que se apoya la predicci on, y cu al es el atributo a predecir; pero alguien ha de suministrar tuplas completas de entrenamiento, que incluyan valores correctos a predecir. Disponer de esas etiquetas correctas suele ser caro en la mayor a de los casos; e incluso es posible que no est e claro qu e atributo es el que se ha de predecir. Ejemplos: s ntomas de enfermedades que pueden presentarse conjuntamente; cestas de la compra; usos de bicing /TUSBIC/. . . Los modelos de segmentaci on son no supervisados.
Dicultades
Crecen...
Ya en modelos supervisados tenemos problemas:

Qu e sesgo aplicamos?
Independencia de los atributos? (NB) Descomposici on en paralelep pedos paralelos a los ejes? (Arboles de decisi on) Aproximaci on lineal en un espacio de caracter sticas? (Redes neuronales, perceptrones, SVMs. . . )
Al menos, sabemos qu e es lo que buscamos:

Aproximar una funci on de los atributos predictores a la clase.
Dicultades
Crecen...
Ya en modelos supervisados tenemos problemas:

Qu e sesgo aplicamos?
Independencia de los atributos? (NB) Descomposici on en paralelep pedos paralelos a los ejes? (Arboles de decisi on) Aproximaci on lineal en un espacio de caracter sticas? (Redes neuronales, perceptrones, SVMs. . . )
Al menos, sabemos qu e es lo que buscamos:

Aproximar una funci on de los atributos predictores a la clase.
Pero en modelos no supervisados, ni siquiera sabemos qu e buscamos.
Consecuencias
Segmentaci on versus clasicaci on
Modelos descriptivos:
Describen los datos, no predicen valores. Cada persona tiene percepciones y prioridades distintas. Para otra persona, la mejor descripci on no es la misma. Una propuesta de modelo descriptivo nos requiere especicar el problema concreto que resolveremos, adem as de c omo lo haremos.
Slogans habituales en Clustering:

Usualmente concretaremos el problema que resolvemos mediante una funci on objetivo a optimizar, de tal modo que: los datos del mismo segmento se parecer an mucho entre s (m as prioritario); los datos de segmentos distintos no se parecer an entre s (menos prioritario).
El Enfoque Te orico (Simplicado)

Qu e es exactamente clustering ?
Los axiomas de Kleinberg: Invariancia de escala: Ha de importar d onde est a cada punto, no la unidad de medida. Ausencia de sesgos (riqueza de opciones): No hay segmentaciones prohibidas a priori. Coherencia: Si segmentas, y luego modicas los datos reduciendo distancias dentro de los segmentos y/o ampli andolas entre segmentos, la segmentaci on no cambia.

Teorema (Kleinberg, 2003)

No existen algoritmos que cumplan las tres propiedades.

Teorema (Kleinberg, 2003)

No existen algoritmos que cumplan las tres propiedades. Obviamente, a posteriori todo el mundo tiene sus reservas sobre alguno de los tres axiomas. Cu ales son los axiomas razonables?
Medidas de Similaridad
C omo decidir si dos datos se parecen, y cu anto se parecen?
Clave: dos datos pueden parecerse mucho, poco o nada. Necesitamos medir la similaridad entre dos datos.
Distancias:
La m as frecuentemente usada es la eucl dea entre vectores reales (norma L2 ); alternativas m as comunes: Manhattan: camino m as corto que se mantenga paralelo a los ejes (norma L1 ); Minkowski: norma Lp ; Mahalanobis: similar, pero tiene en cuenta las correlaciones estad sticas entre los atributos. Existen medidas de similaridad que no son distancias en el sentido matem atico del t ermino.
Minimizar el Error Cuadr atico

Hacia el algoritmo K-means
Sesgos concretos:
Los datos son n vectores reales xi , y un entero positivo k ; elegiremos una partici on de los datos en k clusters Cj ; elegiremos un vector real cj (llamado centroide de Cj ) como representante de cada cluster Cj ; queremos elegir todo de tal manera que minimicemos el error cuadr atico medio: 1 d (xi , cj )2 n
j xi Cj
Observaci on:
no requerimos (por ahora) que los cj se encuentren entre los xi .
Minimizar el Error Cuadr atico

Hacia el algoritmo K-means
Sesgos concretos:
Los datos son n vectores reales xi , y un entero positivo k ; elegiremos una partici on de los datos en k clusters Cj ; elegiremos un vector real cj (llamado centroide de Cj ) como representante de cada cluster Cj ; queremos elegir todo de tal manera que minimicemos el error cuadr atico medio: 1 d (xi , cj )2 n
j xi Cj
Observaci on:
no requerimos (por ahora) que los cj se encuentren entre los xi .
Malas noticias: Es NP-hard.
Propiedades del Error Cuadr atico

Profundicemos un poco en el estudio del problema
Una vez elegidos los centroides:

Est a claro c omo habr a que organizar la partici on: Cj son los puntos que est an m as pr oximos a cj que a ning un otro cm . De lo contrario, el error ser a mayor. Dados los centroides, podemos construir f acilmente la partici on.


Una vez elegida la partici on:

Est a claro c omo habr a que elegir los centroides: para minimizar 2 xi C d (xi , c ) , derivamos e igualamos a cero.


Una vez elegida la partici on:

Est a claro c omo habr a que elegir los centroides: para minimizar 2 xi C d (xi , c ) , derivamos e igualamos a cero. Dada la partici on, podemos construir f acilmente los centroides: el centroide de cada cluster ha de ser su baricentro.
El Algoritmo K-Means
Un intento de aproximaci on a la minimizaci on del error cuadr atico
Alternemos:
Recalculamos los centroides a partir de la partici on, recalculamos la partici on a partir de los centroides, y repetimos. Inicializaci on: varias opciones, Aleatoria, El primer centroide aleatorio, y los sucesivos lo m as alejados posible de los anteriores. . .
K-Means en Acci on
Observaciones, variantes y demos
Resultados:
Muy frecuentemente buenos o muy buenos; ocasionalmente mal simos; habitual: repetir varias veces con distintas inicializaciones y elegir la partici on mejor de entre las obtenidas. Variantes: k-medoids (varios algoritmos):
minimiza error absoluto en vez de cuadr atico; el centroide es un elemento del cluster ; muy lento; buenas variantes basadas en muestreo.
Expectation-Maximization (EM): K-Means probabilista.
Demos: http://home.dei.polimi.it/matteucc/Clustering/tutorial html/AppletKM.h http://www.paused21.net/o/kmeans/bin/
Indice
La Esencia Conceptual de Expectation-Maximization

K-Means probabilista
Sesgo: suma de campanas de Gauss

Centroides: medias de esas distribuciones normales. Suponemos que cada dato ha sido generado por una de las gaussianas, que corresponde a su segmento. Pero no sabemos cu al!
La Esencia Conceptual de Expectation-Maximization

K-Means probabilista
Sesgo: suma de campanas de Gauss

Centroides: medias de esas distribuciones normales. Suponemos que cada dato ha sido generado por una de las gaussianas, que corresponde a su segmento. Pero no sabemos cu al! Para cada dato, para cada centroide, mantenemos una probabilidad de que ese dato provenga de la gaussiana con media en el centroide. Se puede ver como una versi on probabilista de la asignaci on de puntos a centroides en K-Means. Vemos un ejemplo simplicado; pero, antes. . .
Utilidad de la Distribuci on Normal

De la f ormula a los datos, y viceversa
Propiedades:
Aparece con mucha frecuencia (aunque no siempre), es el caso l mite de otras distribuciones tambi en frecuentes, tiene una f ormula cerrada,
1 x 2 1 e 2 ( ) 2
podemos generar puntos sabiendo s olo la media y la desviaci on t pica, y podemos aproximar la media y la desviaci on t pica a partir de los puntos. M as del 99% de los datos est an a una distancia de la media inferior a 3 desviaciones t picas.
Comparaci on
Recordemos. . .
En K-Means,
teniendo los centroides era f acil asignar datos a los segmentos: el centroide m as pr oximo; teniendo asignados los datos a segmentos era f acil calcular el centroide: el punto medio (baricentro). Pero, al no tener ninguna de las dos cosas, empez abamos con centroides arbitrarios e bamos repitiendo los dos procesos. Haremos algo parecido.
Comparaci on
Recordemos. . .
En K-Means,
teniendo los centroides era f acil asignar datos a los segmentos: el centroide m as pr oximo; teniendo asignados los datos a segmentos era f acil calcular el centroide: el punto medio (baricentro). Pero, al no tener ninguna de las dos cosas, empez abamos con centroides arbitrarios e bamos repitiendo los dos procesos. Haremos algo parecido. Si supi eramos las medias y desviaciones t picas de cada gaussiana, podr amos asignarles f acilmente los puntos; si supi eramos a qu e gaussiana va cada punto, podr amos estimar f acilmente la media y la desviaci on t pica de cada una.
Un Ejemplo Concreto
Combinaci on de dos gaussianas
from random import gauss, random for i in range(20): if random() < 0.333:
print %2.4f % gauss(1,0.8)
else:
print %2.3f % gauss(-1,0.6)
-1.150 -2.105 -0.974 1.7531
-1.410 -0.339 -0.019 -1.570
1.0845 -2.888 1.2649 -1.840
-1.451 0.248 -1.038 0.205
1.5767 -1.365 -1.0894 -1.713
Sabemos que p = 0.333, m0 = 1, d0 = 0.8, m1 = 1, d1 = 0.6. eramos? Pero, y si no lo supi
Continuaci on del Ejemplo Concreto: Variables Latentes

Dos gaussianas y una trampita
Sabemos:
que es una elecci on con probabilidad p entre dos gaussianas.
Variable latente:
Variable que interviene pero no es directamente observable. Aqu : la elecci on de rama (aunque s que es observable en nuestro ejemplo, porque hemos hecho trampa en el formato de los oats ).
Continuaci on del Ejemplo Concreto: Variables Latentes

Dos gaussianas y una trampita
Sabemos:
que es una elecci on con probabilidad p entre dos gaussianas.
Variable latente:
Variable que interviene pero no es directamente observable. Aqu : la elecci on de rama (aunque s que es observable en nuestro ejemplo, porque hemos hecho trampa en el formato de los oats ).
Continuaci on del Ejemplo Concreto: Maximization

Dos gaussianas, y suponiendo que sabemos algo m as
Imaginemos que alguien nos revela el valor de la variable latente. Es decir, la rama del if elegida en cada punto: para cada yi , gi {0, 1}: yi viene de N (mgi , dgi ). En nuestro caso: p
5 20
= 0.25, ratio de datos que traen 4 cifras decimales;
m0 y d0 ser an la media y la desviaci on t pica de los datos que traen 4 cifras decimales (m0 0.9176); y m1 y d1 ser an la media y la desviaci on t pica de los datos que traen 3 cifras decimales (m1 1.1606).
(Para tan pocos datos, no est an tan mal esas aproximaciones.)
Continuaci on del Ejemplo Concreto: Maximization

Dos gaussianas, y suponiendo que sabemos algo m as
Imaginemos que alguien nos revela el valor de la variable latente. Es decir, la rama del if elegida en cada punto: para cada yi , gi {0, 1}: yi viene de N (mgi , dgi ). En nuestro caso: p
5 20
= 0.25, ratio de datos que traen 4 cifras decimales;
m0 y d0 ser an la media y la desviaci on t pica de los datos que traen 4 cifras decimales (m0 0.9176); y m1 y d1 ser an la media y la desviaci on t pica de los datos que traen 3 cifras decimales (m1 1.1606).
(Para tan pocos datos, no est an tan mal esas aproximaciones.)
Maximization:
Buscamos los par ametros de las distribuciones normales que mejor explican los datos que corresponden a cada una de ellas.
Continuaci on del Ejemplo Concreto: Expectation

Dos gaussianas, y suponiendo que sabemos otra cosa
En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato.

En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato. La reemplazaremos por su valor esperado:

Cada yi viene de la primera rama con la probabilidad que le asigne N (m0 , d0 ), multiplicada por p ; cada yi viene de la segunda rama con la probabilidad que le asigne N (m1 , d1 ), multiplicada por (1 p ); la probabilidad total de cada yi es la suma de ambas. Para cada yi , dividimos la probabilidad de venir de la segunda rama por la probabilidad total.
(Todo eso requiere conocer p , m0 , d0 , m1 y d1 .)

Cada yi viene de la primera rama con la probabilidad que le asigne N (m0 , d0 ), multiplicada por p ; cada yi viene de la segunda rama con la probabilidad que le asigne N (m1 , d1 ), multiplicada por (1 p ); la probabilidad total de cada yi es la suma de ambas. Para cada yi , dividimos la probabilidad de venir de la segunda rama por la probabilidad total.
(Todo eso requiere conocer p , m0 , d0 , m1 y d1 .)
Expectation:
Hacemos corresponder cada dato a cada distribuci on en funci on de la probabilidad con la que lo puede generar.
La Esencia Algor tmica de Expectation-Maximization

El bucle principal es parecido al de K-Means
Iniciamos con centroides (medias de las gaussianas) aleatorios, y con la desviaci on t pica dada por la totalidad de los datos.
Repetimos:
Recalculamos la probabilidad con que asignamos cada dato a cada gaussiana, en funci on de la distancia que los separa del centroide (la media) y de la desviaci on t pica correspondiente a esa gaussiana. Recalculamos las distribuciones (sus medias y sus desviaciones t picas), estimando cada gaussiana a partir de la probabilidad de cada dato para esa gaussiana. Al calcular una distribuci on normal a partir de los datos, podemos ponderar con el grado en que el dato corresponde a la distribuci on (esperanza de la variable latente).
Expectation-Maximization en Este Ejemplo

Las f ormulas por las que se rige
Notaci on: Pr0 (y ) N (m0 , d0 ), Pr1 (y ) N (m1 , d1 ). Expectation: Valor esperado (en [0, 1]) de la variable latente gi {0, 1}; ser a m as pr oximo a 1 cuanto m as probable sea que yi venga de Pr1 (la segunda rama del if ) y no de Pr0 : gi = (1 p ) Pr1 (yi ) p Pr0 (yi ) + (1 p ) Pr1 (yi )
Maximization: Nuevas estimaciones de los par ametros, m1 =

i (1 i
gi y i i gi
2 d1 =
gi (yi m1 )2 i gi gi )(yi m0 )2 i (1 gi )
m0 =
gi )yi i (1 gi )
2 d0 =
i (1
Distribuci on Normal Multidimensional

Generalizaci on natural a varios atributos
Cuando los datos son multidimensionales:

Noci on natural de media y desviaci on t pica. Caso f acil: independencia, sin interacciones entre los atributos.
Distribuci on Normal Multidimensional

Generalizaci on natural a varios atributos
Cuando los datos son multidimensionales:

Noci on natural de media y desviaci on t pica. Caso f acil: independencia, sin interacciones entre los atributos. En general: los atributos no son independientes entre s .
Generalizaci on de la f ormula cerrada al espacio vectorial correspondiente. La matriz de covariancia relaciona unas dimensiones con otras.
El algoritmo EM se aplica sin problema al caso multidimensional. Hay muchas versiones de EM m as generales; el caso que hemos descrito se llama a veces algoritmo de Baum-Welch. Demo: http://lcn.ep.ch/tutorial/english/gaussian/html/index.html
Indice
Relaci on
Entre problemas predictivos
Reducir clasicaci on a regresi on: Numeriza las etiquetas (por ejemplo, 1) y aplica regresi on. Reducir regresi on a clasicaci on: Haz una copia de los datos sumando M al valor a predecir, haz otra copia de los datos restando M al valor a predecir, y aplica clasicaci on para separar ambas copias. (En ambos casos, existen otras opciones.)
Reducci on de Regresi on a Clasicaci on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on

Intuici on
Indice
Modelos Predictivos Basados en los Datos

Simplemente qu edate con el modelo que mejor predice los datos
El problema del sobreajuste:

(En ingl es overtting.) Acertar muy bien en los datos no implica predecir bien en datos que no se han usado en el entrenamiento. Un planteamiento que clarica un poquito es el an alisis del error en t erminos de dos fuentes de error diferentes: sesgo y varianza.
Ejemplo Sencillo
En el que apoyarnos para entender sesgo y varianza
Desarrollamos un caso muy simple: dada una treintena de oats que provienen de una distribuci on normal, cu al nos parece que ser a la media de la distribuci on? Por ejemplo, en un problema de regresi on, podr a tratarse de valores de la y para valores de la x muy pr oximos entre s .
Ejemplo Sencillo
En el que apoyarnos para entender sesgo y varianza
Desarrollamos un caso muy simple: dada una treintena de oats que provienen de una distribuci on normal, cu al nos parece que ser a la media de la distribuci on? Por ejemplo, en un problema de regresi on, podr a tratarse de valores de la y para valores de la x muy pr oximos entre s . Podemos aproximar la media de muchas maneras. Usaremos la media de la muestra pero con distinta precisi on (cantidad de decimales). Es mejor pocos decimales o muchos?
Sesgo y Varianza
Dos fuentes diferenciadas de error
Varianza:
Riesgo de error debido a la dependencia de la muestra; es la varianza en el sentido estad stico. Con m as decimales el riesgo puede crecer!
Sesgo y Varianza
Dos fuentes diferenciadas de error
Varianza:
Riesgo de error debido a la dependencia de la muestra; es la varianza en el sentido estad stico. Con m as decimales el riesgo puede crecer!
Sesgo:
Riesgo de error debido a que el estimador no tienda realmente al valor a estimar; por ejemplo, en casos en que no incluya el valor a estimar entre sus posibles resultados. Con menos decimales el riesgo puede crecer!
Expresiones del Sesgo y de la Varianza

La formalizaci on sirve para casos m as generales
Contexto:
Valor a predecir y ; Muestra aleatoria s que revela informaci on sobre y ; Estimador e (s ) que intenta acertar con y a la vista de s . El valor e (s ) es una variable aleatoria: depende de la muestra s .

Contexto:
Varianza:
Diferencia cuadr atica media entre e (s ) y su propia media E [e (s )]: E [(e (s ) E [e (s )])2 ].

Contexto:
Varianza:
Diferencia cuadr atica media entre e (s ) y su propia media E [e (s )]: E [(e (s ) E [e (s )])2 ].
Sesgo:
Diferencia absoluta entre el valor esperado de e (s ) (su media, el valor que estimar a si viera todos los datos) y el valor y a predecir: |E [e (s )] y |.
Observaciones Sencillas
Que no lo ser an tanto al ponerlas juntas
Observemos que:
1. Sesgo y varianza se miden en distinta escala por culpa del cuadrado que aparece en la varianza; 2. El valor a predecir y y el valor esperado del estimador E [e (s )] son independientes de la muestra y act uan como constantes; 3. Sabemos que la esperanza es una funci on lineal: E [X + Y ] = E [X ] + E [Y ] y E [aX ] = aE [X ] si a es constante. 4. Por tanto,
E E [e (s )]2 = E [e (s )]2 , E [y ] = y , E [y 2 ] = y 2 , E e (s )E [e (s )] = E [e (s )]E [e (s )] = E [e (s )]2 .
Descomposici on del Error

En qu e sentido sesgo y varianza son los ingredientes del error?
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 =

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 =

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 =

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 =

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] =

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] = E [(e (s ) y )2 ]

Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] = E [(e (s ) y )2 ]
El error cuadr atico medio se descompone como suma de la variancia m as el cuadrado del sesgo.
Consecuencias
D onde est an los riesgos?
Error, sesgo y varianza:

Aplicando e () repetidamente sobre varias muestras podemos hacernos una idea de cu al es la varianza. No podemos hacernos una idea del error ni del sesgo porque ambos dependen de y , el valor a estimar, que es desconocido. Si e () es muy r gido (ofrece pocos posibles resultados), es probable que su mejor opci on quede lejos del valor deseado: el error debido al sesgo puede crecer. Si e () es muy exible (ofrece muchos posibles resultados, puede aproximar muy bien cualquier objetivo) el sesgo ser a reducido pero ser a muy sensible a m nimas variaciones en la muestra: el error debido a la varianza puede crecer (aunque ser a menor cuanto m as datos tengamos).
Indice
Predictores Arborescentes: Intuici on

Twenty questions
Juego muy popular en algunos pa ses:

Adivina en qu e estoy pensando. Puedes hacer hasta 20 preguntas. La respuesta ha de ser s o no.

Twenty questions

Adivina en qu e estoy pensando. Puedes hacer hasta 20 preguntas. La respuesta ha de ser s o no. Son muchas m as de 220 posibilidades.

Twenty questions

Adivina en qu e estoy pensando. Puedes hacer hasta 20 preguntas. La respuesta ha de ser s o no. Son muchas m as de 220 posibilidades. (Porque cada pregunta puede depender de las respuestas recibidas.)

Twenty questions

Adivina en qu e estoy pensando. Puedes hacer hasta 20 preguntas. La respuesta ha de ser s o no. Son muchas m as de 220 posibilidades. (Porque cada pregunta puede depender de las respuestas recibidas.) Podemos construir un mecanismo predictor con esa misma estructura?
Ejemplos
Y un viejo chiste
Adivinando animales:
Puede caminar? No. Vive en el agua? S . Es un pez? . . .
Ejemplos
Y un viejo chiste
Adivinando animales:
Puede caminar? No. Vive en el agua? S . Es un pez? . . .
Un cl asico:
Hace esquinas? S . Es una lagarta? . . .
Ejemplo Financiero
Le damos la hipoteca a este cliente?
Misma mec anica arborescente para predecir: Llega a mileurista? No: Denegar. S :
Tiene n omina? S :
Est a domiciliada aqu ? ...
Ventajas
Comp aralo con las tablas de probabilidades de Na ve Bayes
Con un mecanismo predictor as , calcular la predicci on es f acil, incluso puede ser divertido, explicar la decisi on al jefe nanciero es f acil, incluso explicarle la decisi on al cliente puede ser f acil.
Ventajas
Comp aralo con las tablas de probabilidades de Na ve Bayes
Con un mecanismo predictor as , calcular la predicci on es f acil, incluso puede ser divertido, explicar la decisi on al jefe nanciero es f acil, incluso explicarle la decisi on al cliente puede ser f acil.
Condiciones legales:
En algunos estados est a prohibido usar condiciones como ser negro para este tipo de decisiones (consecuencia: red lining).
Predictores en Arbol
Todos los caminos relevantes en la misma estructura
Nodos del arbol: permiten bifurcar en funci on de los atributos y sus valores. Hojas del arbol: nos proporcionan una predicci on. Deseamos que la predicci on asociada a una hoja sea buena para los datos cuyos valores en los atributos lleven a esa hoja. Planteamiento muy estudiado, muchas propuestas y variantes, buenos resultados en muchas aplicaciones.
Rol de los Datos:

Han de permitir construir el arbol.
Riesgo de Sobreajuste
Una dicultad importante de los predictores
Reducir a cero el error de entrenamiento no es lo mismo que reducir a cero el error de generalizaci on sobre datos desconocidos.
Sobreajuste:
El predictor se ajusta tanto a predecir correctamente en los datos de entrenamiento disponibles que pierde de vista lo que se desea realmente predecir. Los datos de entrenamiento pueden incluir excepciones, casos raros o ruido. Tracking the noise : ajustamos el modelo para seguir la pista a valores irrelevantes. Cuanto m as exible es el modelo, mejor se puede ajustar a los datos. . .
Riesgo de Sobreajuste
Una dicultad importante de los predictores
Reducir a cero el error de entrenamiento no es lo mismo que reducir a cero el error de generalizaci on sobre datos desconocidos.
Sobreajuste:
El predictor se ajusta tanto a predecir correctamente en los datos de entrenamiento disponibles que pierde de vista lo que se desea realmente predecir. Los datos de entrenamiento pueden incluir excepciones, casos raros o ruido. Tracking the noise : ajustamos el modelo para seguir la pista a valores irrelevantes. Cuanto m as exible es el modelo, mejor se puede ajustar a los datos. . . . . . pero es posible que eso le haga predecir peor.
Control de la Flexibilidad
Evitar el riesgo de sobreajuste
En arboles de decisi on:

Elevada exibilidad: en cuanto nos permitimos hacer unas cuantas preguntas podemos tener una hoja del arbol para cada uno de los datos; consecuencia: sobreajuste.
Arbol no demasiado grande:

Admitir error de entrenamiento no nulo. Podar el arbol una vez construido.
Control de la Flexibilidad
Evitar el riesgo de sobreajuste
En arboles de decisi on:

Elevada exibilidad: en cuanto nos permitimos hacer unas cuantas preguntas podemos tener una hoja del arbol para cada uno de los datos; consecuencia: sobreajuste.
Arbol no demasiado grande:

Admitir error de entrenamiento no nulo. Podar el arbol una vez construido.
Mala noticia:
Construir el arbol de decisi on m as peque no posible que no supere un error de entrenamiento dado no es factible computacionalmente (NP-hard o similar).
Arboles de Decisi on
Taxonom a y construcci on
Construcci on pr actica:
Heur stica greedy sin retorno, de la ra z a las hojas (TDIDT, top-down induction of decision trees ). Bifurcaciones en los nodos: ID3, C4.5, j48, C5.0: Ramicaci on no acotada. CART: Restricci on binaria. Predictor en las hojas: ID3, C4.5, j48, C5.0: Clase. CART: Predictor lineal (regresi on).
Nodos
Bifurcando a partir de los datos
El nodo corresponde a las condiciones a lo largo del camino que lleva hasta el. Sobre los datos de entrenamiento, consideramos s olo los datos que llegan a ese nodo; si todos (o casi todos) son de la misma clase, no bifurcamos m as; si decidimos bifurcar, hemos de
elegir un atributo sobre el que bifurcar y, posiblemente, elegir c omo bifurcar sobre ese atributo.
En cada rama de la bifurcaci on, nuevo nodo (llamada recursiva).
Criterio de Bifurcaci on
Elecci on de atributo y valores
Posibilidades:
Un camino para cada valor de un atributo nominal; Dos caminos, en funci on de encontrarse o no el valor del atributo en un determinado conjunto:
edad > 18 color {rojo,amarillo,verde}
M as en general, dos o m as caminos, cada uno correspondiendo a un conjunto de valores: los conjuntos han de formar una partici on.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos.
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad.
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos.
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos. Precisamos una denici on precisa de heterogeneidad.
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos. Precisamos una denici on precisa de heterogeneidad. (El problema no es que no las haya, el problema es que cada cual ha propuesto la suya.)
Intuici on de Heterogeneidad
El caso elemental: dos valores
Heterogeneidad en funci on de la ratio de aparici on de uno de los valores:
Formalizaci on de la Heterogeneidad
Existen muchas propuestas diferentes
Consideramos atributos nominales con una bifurcaci on por valor. Para valores C1 , . . . , Ck de la clase, sean q1 , . . . , qk las frecuencias con que aparecen entre los datos de un conjunto S de tama no s : casos de clase Ci dividido por total de casos s . Las combinamos al estilo de la entrop a de Shannon (informaci on media en S ): I (S ) = qi log(qi ) Una alternativa es el ndice de Gini: para k = 2, q2 = 1 q1 , G (S ) = 2 q1 (1 q1 ) y, en el caso general, G (S ) = 1 qi2 .
(A veces el factor de normalizaci on es 4.)
Comparativa
Informaci on media con dos valores versus ndice de Gini
Elecci on del Atributo de Bifurcaci on

Depende de la formalizaci on de la heterogeneidad
Al bifurcar por un atributo que genera la partici on S1 , . . . , Sr , de tama nos s1 , . . . , sr , podemos considerar la ganancia de informaci on (Information Gain): I (S ) I (Sj ) (sj /s )
ID3 elige el atributo que maximiza la ganancia de informaci on. La ganancia de informaci on favorece a los atributos sobrebifurcadores.
Ganancia Normalizada
Procura evitar la sobrebifurcaci on
Normalizamos la ganancia dividiendo por la cantidad de informaci on que se gana por el mero hecho de bifurcar, sin mirar las clases: J (S ) = (sj /s ) log((sj /s ))
Ganancia Normalizada (Gain Ratio ): I (S ) I (Sj ) (sj /s ) J (S )
C4.5 y j48 eligen el atributo que maximiza la ganancia normalizada. Favorece bifurcaciones desequilibradas.
Indice de Gini
Procura evitar la sobrebifurcaci on de otra manera
Opera del mismo modo que con la ganancia de informaci on, pero usando el ndice de Gini en vez de la informaci on media de Shannon. G (S ) G (Sj ) (sj /s ) CART elige el atributo que maximiza el incremento en el ndice de Gini. Esta alternativa favorece atributos con muchos valores; por ello, CART u nicamente usa bifurcaciones binarias. Puede funcionar mal cuando hay muchas clases.
Resumen sobre Predictores Arborescentes

A modo de conclusiones
La idea de predecir mediante arboles parece buena:

Es enormemente popular;


Es enormemente popular; en muchos casos funciona muy bien experimentalmente hablando;


Es enormemente popular; en muchos casos funciona muy bien experimentalmente hablando; existe alg un progreso formal al respecto de estos predictores;


Es enormemente popular; en muchos casos funciona muy bien experimentalmente hablando; existe alg un progreso formal al respecto de estos predictores; sin embargo, requieren decidir una manera de elegir el atributo bifurcador:


Es enormemente popular; en muchos casos funciona muy bien experimentalmente hablando; existe alg un progreso formal al respecto de estos predictores; sin embargo, requieren decidir una manera de elegir el atributo bifurcador: existen muchas propuestas y ninguna parece ser la mejor.
Indice
Predictores Limitados
Ante un dataset complicado
Supongamos que tenemos un modelo predictor sencillo, r apido de entrenar, pero no muy bueno en sus predicciones: arbol de decisi on muy peque nos, decision stumps, reglas de decisi on muy limitadas, alguna variante de Na ve Bayes. . . Servir a de algo combinar varios predictores?
Hip otesis para esta parte:

Predicciones binarias.
Uso de Varios Predictores

Es bueno recabar varias opiniones
Intentamos combinar varios predictores. C omo aprovecharlos conjuntamente?
Metapredictores:
entrenemos varias copias distintas entre s , y luego sigamos la opini on mayoritaria. (Puede ser conveniente ponderar los votos.)
Ventajas posibles:
Reducci on de la variancia introducida por el muestreo de los datos. Flexibilidad con poco riesgo de sobreajuste.
Bagging: bootstrapping aggregates

Breiman, 1996
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.)

Breiman, 1996
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo!

Breiman, 1996
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo! Entrenamos un predictor con esa muestra. Repetimos el proceso hasta tener k predictores.

Breiman, 1996
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo! Entrenamos un predictor con esa muestra. Repetimos el proceso hasta tener k predictores. Predicci on: por mayor a. Error OOB (Out-Of-Bag ): protocolo mediante el cual los datos que no entran en la muestra se emplean como test set.
Existen muchas otras variantes.
Random Forests
Breiman, 2001
Consisten en aplicar bagging , usando arboles de decisi on como predictores, pero construidos eligiendo en cada nodo, para bifurcar, el mejor de entre una muestra aleatoria de los atributos. Estos arboles no se podan.
Caracter sticas:
La construcci on de los arboles es r apida, al explorar s olo unos pocos atributos. Los nodos que tienen la suerte de cazar atributos muy discriminativos compensan a los otros. Cierto riesgo de sobreajuste. Tienen dicultades en casos en que haya muchos atributos irrelevantes.
Random Na ve Bayes
Tiene truco!
Bagging de predictores Na ve Bayes.
Recordemos:
cada predictor Na ve Bayes nos ofrece una predicci on probabilista; se obtiene multiplicando probabilidades; la traducimos a binaria j andonos en el valor de clase que alcanza probabilidad m axima. Truco: es posible usar los valores oat para cuanticar cu anto de able es la respuesta de cada predictor y ponderarlas al calcular el voto mayoritario.
Boosting
Schapire, 1989; Freund, 1990
Denici on:
En Teor a del Aprendizaje, boosting se dene en general como la transformaci on de predictores de error grande pero acotado en predictores muy ables. Los primeros boosters requer an conocer el error de los predictores sencillos. El enfoque se volvi o aplicable y u til a partir de AdaBoost. La mayor a de la gente confunde boosting en general con AdaBoost y sus variantes. Boosting en general es mucho m as amplio: por ejemplo, un arbol de decisi on es boosting sobre decision stumps. AdaBoost es similar a bagging pero m as sosticado: el muestreo no es uniforme en general. Slogan: Voluntad expresa de hacerlo mejor.
AdaBoost
Schapire y Freund, 1995, 1997
D : distribuci on de probabilidad entre los datos. Se inicializa a uniforme: 1/n a cada uno. Construimos un predictor que tenga en cuenta el peso D (x ) de cada x . La manera habitual de lograrlo es:
Elegimos una muestra mediante elecci on independiente de cada dato, seg un su probabilidad D (x ). Entrenamos un predictor con esa muestra.
Asignamos un peso a ese predictor, para calcular luego las predicciones por mayor a ponderada. Redenimos D , aumentando el peso de los datos mal clasicados y reduciendo el de los clasicados correctamente. Normalizamos D . Repetimos el proceso mientras el predictor obtenido pueda mejorar el error de la mayor a ponderada.
Ajuste de Par ametros en AdaBoost

C omo calculamos pesos y probabilidades?
Con cada nuevo predictor h:

calculamos su error ponderado :
la muestra con que se ha construido sirve a la vez de training set y de test set ; el error es la suma de D (x ) para los x de la muestra en que h(x ) se equivoca; descartamos h y nalizamos el proceso en caso de que 1 2.
ajuste de las probabilidades:

calculamos d = 1 ; D (x ) := D (x )/d si la predicci on h(x ) es correcta; D (x ) := D (x ) d si la predicci on h(x ) es incorrecta
(no olvidemos que luego se normaliza D ); peso que asignamos a h: log d .
Propiedades
Formalmente demostrables
Al cabo de T etapas, el error que comete sobre los datos el predictor dado por la mayor a ponderada est a acotado por: e 2 donde
t P 1 ( 2 t )2
es el error del predictor obtenido en la etapa t .
Por ejemplo: Si el error del predictor es siempre menor del 40%, el error al cabo de T etapas es menor de 0.775T : para T = 10, el error es menos del 7%, y con T = 20 es menor del 0.7%. Adem as, se puede acotar el error de generalizaci on y el margen de clasicaci on; AdaBoost logra evitar el sobreajuste en bastante grado gracias a estas propiedades. En la pr actica, los datos dif ciles adquieren mucha probabilidad, y cuesta mantener el error a una distancia ja por debajo de 1/2.
Conclusiones sobre Metapredictores

Clave: muestreo iterado
Metapredictores:
Hemos visto dos, ambos para clasicaci on binaria: Bagging y AdaBoost. En ambos, iteramos: Obtenemos una nueva muestra (posiblemente con una nueva distribuci on de probabilidad), entrenamos un predictor sencillo, y cuando tenemos los sucientes los combinamos linealmente. En general un metapredictor ser a m as lento de entrenar, pero existen casos en que ocurre al rev es.
Extensiones y Variantes
Existen much simas
Podemos encontrar muchas otras propuestas:

Cada predictor puede obtenerse con algoritmos diferentes, o incluso ser modelos completamente diferentes (stacking ); o se pueden combinar de otras maneras (interpretaci on de los arboles de decisi on como boosting decision stumps ). Busca AdaBoost en Wikipedia. Weka trae unos cuantos metapredictores.
Extensiones y Variantes
Existen much simas
Podemos encontrar muchas otras propuestas:

Cada predictor puede obtenerse con algoritmos diferentes, o incluso ser modelos completamente diferentes (stacking ); o se pueden combinar de otras maneras (interpretaci on de los arboles de decisi on como boosting decision stumps ). Busca AdaBoost en Wikipedia. Weka trae unos cuantos metapredictores. C4.5 se puede considerar un metapredictor.

JLB MineriaDatos PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

JLB MineriaDatos PDF

Uploaded by

Copyright:

Available Formats

Miner a de Datos

Jos e L. Balc azar

UNED Febrero de 2012

Los Top-Ten Algorithms en Miner a de Datos, I

Ver: http://www.cs.uvm.edu/icdm/algorithms/index.shtml (Y bajar a: Panel Slides with Voting Results.)

El Proceso KDD: Knowledge Discovery in Data, I

Los datos suelen ser poco sosticados.

El Proceso KDD: Knowledge Discovery in Data, II

El Proceso KDD: Knowledge Discovery in Data, III

El Proceso KDD: Knowledge Discovery in Data, III

El Proceso KDD: Knowledge Discovery in Data, IV

Los Top-Ten Algorithms en Miner a de Datos, II

Los resultados que se obtuvieron:

10. CART (34 votos)

El Proceso KDD: Knowledge Discovery in Data, V

El Proceso KDD: Knowledge Discovery in Data, V

El Proceso KDD: Knowledge Discovery in Data, VI

C omo son los datos?

Ingrediente imprescindible: la incertidumbre.

Tenemos pocos datos o muchos?

Tenemos pocos datos o muchos?

Tenemos pocos datos o muchos?

Tenemos pocos datos o muchos?

Repaso de la Distribuci on Normal

Probabilidad en los Reales

Todos nuestros valores ser an oats de precisi on nita.

Probabilidad en los Reales

Probabilidad en los Reales

Probabilidad en los Reales

Pr(la carta es una gura) =

Pr(la carta es una gura de bastos) = 3 3 Se cumple: 40 = 10 1 4.

Pr(la carta es una gura) =

Pr(la carta es una gura de bastos) = 3 3 Se cumple: 40 = 10 1 4.

Pr(la carta es 5) = 1 2, Pr(la carta es par (J = 8, K = 10)) = 1 2,

Pr(la carta es una gura) =

Pr(la carta es una gura de bastos) = 3 3 Se cumple: 40 = 10 1 4.

Pr(la carta es 5) = 1 2, Pr(la carta es par (J = 8, K = 10)) = 1 2,

1 Pr(la carta es un basto la carta es una gura) = 4 .

Pr(la carta es una gura la carta es un basto) =

Costumbres terminol ogicas

Costumbres terminol ogicas

Costumbres terminol ogicas

Es habitual denominar lift a la desviaci on (multiplicativa) respecto de la independencia:

Casos Contraintuitivos de la Probabilidad, I

Conanza y correlaci on negativa

Casos Contraintuitivos de la Probabilidad, I

Conanza y correlaci on negativa

Casos Contraintuitivos de la Probabilidad, I

Conanza y correlaci on negativa

Casos Contraintuitivos de la Probabilidad, I

Conanza y correlaci on negativa

Casos Contraintuitivos de la Probabilidad, II

Casos Contraintuitivos de la Probabilidad, II

Casos Contraintuitivos de la Probabilidad, II

Casos Contraintuitivos de la Probabilidad, II

Casos Contraintuitivos de la Probabilidad, III

La paradoja de Monty Hall

Casos Contraintuitivos de la Probabilidad, III

La paradoja de Monty Hall

Casos Contraintuitivos de la Probabilidad, IV

Casos Contraintuitivos de la Probabilidad, IV

Casos Contraintuitivos de la Probabilidad, IV

Casos Contraintuitivos de la Probabilidad, IV