Professional Documents
Culture Documents
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
El proceso KDD
pretende encontrar informaci on impl cita en los datos, dando lugar a descripciones m as sosticadas de los mismos: correctas, se corresponden con los mismos datos, novedosas, no triviales ni expl citas, accionables, sugieren c omo actuar. Es dif cil precisar con suciente exactitud estas condiciones.
1. Selecci on de los datos a tratar, 2. Preproceso, 3. Transformaci on, 4. Modelado, construcci on de modelos o patrones, 5. Evaluaci on, interpretaci on, despliegue de decisiones en base a los resultados.
1. Selecci on de los datos a tratar, 2. Preproceso, 3. Transformaci on, 4. Modelado, construcci on de modelos o patrones, 5. Evaluaci on, interpretaci on, despliegue de decisiones en base a los resultados. La expresi on miner a de datos a veces se reere al proceso KDD completo, y a veces se reere u nicamente a la fase de modelado. Es la fase en que se aplican algoritmos procedentes mayoritariamente del ambito Machine Learning.
La parte de Data Mining es central al proceso KDD, aunque el resto de fases a un son mayor a y requieren la mayor parte del trabajo.
La parte de Data Mining es central al proceso KDD, aunque el resto de fases a un son mayor a y requieren la mayor parte del trabajo. Sin embargo, es la que se trata en m as profundidad en todos los libros y cursos. La raz on es que es donde hay m as cantidad de algor tmica no trivial, pero bastante sistematizable. Para las otras fases de KDD hay poco que ense nar: hay estudios publicados pero queda todo muy ad-hoc. En la fase de Data Mining, es irrelevante si los datos vienen de una base de datos, de un Data Warehouse, de una hoja de Excel o de cheros planos (ASCII).
An alisis de Datos
Tendremos todos los datos?
Objetivo:
una ventaja econ omica o (menos frecuentemente) humana. La intenci on es lograrla mediante predicciones acertadas, al menos parcialmente. Dos posturas frecuentes:
La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos, que yo estudio hasta obtener una comprensi on m as profunda que me permite hacer yo las predicciones.
An alisis de Datos
Tendremos todos los datos?
Objetivo:
una ventaja econ omica o (menos frecuentemente) humana. La intenci on es lograrla mediante predicciones acertadas, al menos parcialmente. Dos posturas frecuentes:
La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos, que yo estudio hasta obtener una comprensi on m as profunda que me permite hacer yo las predicciones.
Predecir al azar dif cilmente proporciona ventajas: queremos hacerlo mejor que al azar.
Para ello, habremos de basarnos en algo. Por ejemplo, en datos disponibles. Pero, si tenemos todos los datos, no hay nada a predecir.
An alisis de Datos, II
Torturar los datos hasta que conesen todo lo que sepan no va a funcionar
An alisis de Datos, II
Torturar los datos hasta que conesen todo lo que sepan no va a funcionar
Si tenemos pocos datos, obtendremos poca informaci on; pero extraigamos toda la que se pueda.
An alisis de Datos, II
Torturar los datos hasta que conesen todo lo que sepan no va a funcionar
Si tenemos pocos datos, obtendremos poca informaci on; pero extraigamos toda la que se pueda.
Con menos datos, obtendremos m as informaci on.
An alisis de Datos, II
Torturar los datos hasta que conesen todo lo que sepan no va a funcionar
Si tenemos pocos datos, obtendremos poca informaci on; pero extraigamos toda la que se pueda.
Con menos datos, obtendremos m as informaci on. Pero ser a m as falsa!
La mente humana tiene serios problemas para enfrentarse a espacios de dimensionalidad elevada.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Probabilidad
Reencontramos algunos viejos conocidos
Espacios de probabilidad X . Distribuci on de probabilidad D : X [0, 1], reparte una masa unitaria de probabilidad entre todos los elementos de X . Diferencia formal entre distribuciones de probabilidad y sus correspondientes densidades. El motivo de las dicultades formales: el deseo de admitir espacios de probabilidad innitos (y mucho!), como los reales: obliga a asignar probabilidad cero a la inmensa mayor a de los puntos. En nuestro caso no habr a este tipo de problemas: trabajaremos directamente con distribuciones dando en realidad sus funciones de densidad.
Evaluaci on de la Probabilidad
Caso discreto
Probabilidad conceptual o probabilidad emp rica? Slogan: Casos favorables dividido por casos posibles. Ejemplos: tiradas de uno o varios dados (leg timos o cargados), extracci on de bolitas de una o varias urnas, extracci on de una carta de un mazo previamente barajado. . .
Evaluaci on de la Probabilidad
Caso discreto
Probabilidad conceptual o probabilidad emp rica? Slogan: Casos favorables dividido por casos posibles. Ejemplos: tiradas de uno o varios dados (leg timos o cargados), extracci on de bolitas de una o varias urnas, extracci on de una carta de un mazo previamente barajado. . . Con eventos concretos: Pr(resultado del dado es 4) =
1 6 (dado 1 Pr(resultado par del dado) = 2 (id.), 12 3 Pr(la carta es una gura) = 40 = 10 .
leg timo),
Fuente: Wikipedia.
Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales.
Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales. Ejemplo: Una longitud de p etalo de 1.234cm es indistinguible de una longitud de p etalo de 1.234000001.
Todos nuestros valores ser an oats de precisi on nita. Cada valor se interpretar a, en realidad, como un intervalo de reales. Ejemplo: Una longitud de p etalo de 1.234cm es indistinguible de una longitud de p etalo de 1.234000001.
En efecto: la diferencia corresponde aproximadamente a la cuarta parte del tama no medio de un atomo de hidr ogeno (Radio de Bohr).
Eventos
En un espacio de probabilidad X
Eventos son subconjuntos del espacio a los que podemos asociar un valor de probabilidad. En todos nuestros casos, todos los subconjuntos son v alidos como eventos. (No es as con los reales de verdad, donde es preciso restringirse a - algebras y seguir los axiomas de Kolmogorov.) Variable aleatoria: manera informal de referirnos a un proceso de evaluaci on de la probabilidad de un evento. Informalmente, imaginamos que la variable representa un elemento de X elegido seg un la probabilidad, del cual preguntamos si pertenece al evento. on.) (En los reales no es posible implementar esta interpretaci
Independencia, I
Noci on crucial
Cu ando podemos decir que dos eventos son independientes? Al lanzar dos dados, el resultado de cada uno no deber a inuir en el resultado del otro.
Independencia, I
Noci on crucial
Cu ando podemos decir que dos eventos son independientes? Al lanzar dos dados, el resultado de cada uno no deber a inuir en el resultado del otro. Extraemos una carta: el que sea o no una gura no deber a tener relaci on con el que sea o no un basto.
Independencia, II
Comparamos algunos casos
Ejemplos:
1 , Pr(la carta es un basto) = 4 12 40 3 10 ,
3 40 .
Independencia, II
Comparamos algunos casos
Ejemplos:
1 , Pr(la carta es un basto) = 4 12 40 3 10 ,
3 40 .
=1 5.
Independencia, II
Comparamos algunos casos
Ejemplos:
1 , Pr(la carta es un basto) = 4 12 40 3 10 ,
3 40 .
=1 5.
Intuici on: el conocer el resultado de un evento nos modica la probabilidad del otro? (Pero considerados a la vez!)
Probabilidad Condicional, I
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que se cumple el evento A. Podemos decir algo sobre el evento B ?
Probabilidad Condicional, I
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que se cumple el evento A. Podemos decir algo sobre el evento B ? Ejemplo: Sabemos que la carta es 5. Cu al es ahora la probabilidad de que sea par? De nuevo el slogan: Casos favorables dividido por casos posibles; el resultado es: Pr(la carta es par la carta es 5) = 2 5, (Ojo: De nuevo, la probabilidad condicional en los reales requiere m as cuidado en las deniciones.)
Probabilidad Condicional, II
En caso de independencia
Los eventos A y B son independientes cuando: Pr(A B ) = Pr(A)*Pr(B ) Pr(A B ) = Pr(A) Pr(B A) = Pr(B ) Ejemplos: Pr(la carta es una gura de bastos) =
3 40 3 10 1 4 . 3 10 .
Probabilidad e Independencia
Soporte, Conanza y Lift
(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.)
Probabilidad e Independencia
Soporte, Conanza y Lift
(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.) Probabilidad condicional (renombrada conanza); suele escribirse sugiriendo una implicaci on:
conf(A B ) =
supp(AB ) supp(A)
Probabilidad e Independencia
Soporte, Conanza y Lift
(La probabilidad emp rica propiamente dicha se obtiene dividiendo por el n umero total de observaciones.) Probabilidad condicional (renombrada conanza); suele escribirse sugiriendo una implicaci on:
conf(A B ) =
supp(AB ) supp(A)
En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una.
En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no?
En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no? Pues, de hecho. . . no! Son eventos independientes!
En la escena que abre la pel cula, Rosencrantz va lanzando monedas al aire. Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, se supone que recibe una moneda de Guildenstern. Lleva lanzadas noventa y una. Todas han salido cara (y, por tanto, se las ha llevado Guildenstern). A la pr oxima vez, la probabilidad de cruz es mayor, no? Pues, de hecho. . . no! Son eventos independientes! (Y, en efecto, Rosencrantz lanza la nonag esimo segunda moneda y. . . adivina lo que ocurre.) 2011: El regreso de la martingala!
La paradoja de Simpson
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos;
La paradoja de Simpson
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos.
La paradoja de Simpson
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos. Podemos deducir que esa correlaci on se da en toda Extremadura, no?
La paradoja de Simpson
Supongamos que las encuestas nos dicen: que en la provincia de C aceres, los vegetarianos son menos propensos a tener ojeras que los no vegetarianos; y que en la provincia de Badajoz, los vegetarianos tambi en son menos propensos a tener ojeras que los no vegetarianos. Podemos deducir que esa correlaci on se da en toda Extremadura, no? Error! Es posible que, en la poblaci on conjunta, la ratio vaya a la inversa.
Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales.
Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales. (M as en general, lo crucial es que sea un TAD que admita la operaci on de suma y la de multiplicar por un real.)
Casos en que el espacio de probabilidad es un conjunto (en nuestros casos, siempre nito) de vectores de reales. (M as en general, lo crucial es que sea un TAD que admita la operaci on de suma y la de multiplicar por un real.) Si podemos multiplicar probabilidades por eventos, podemos evaluar esperanzas, que son t erminos medios. Ejemplos: Dado leg timo: 1 1 6 +2 1 6 +3
1 6
+4
1 10
1 6
+5
1 10
1 6
+6
1 10
1 6
= 3.5;
1 2
Dado cargado: 1 1 1 10 + 2 10 +3
+4
+5
+6
= 4.5.
Esperanza, I
Esperanza como funci on lineal: Linearity of expectation
x (x
Pr[X = x ]).
Esperanza, I
Esperanza como funci on lineal: Linearity of expectation
x (x
Pr[X = x ]).
(Ojo: En espacios de probabilidad innitos la suma no vale y hay que recurrir a una integral.) Propiedades importantes: E [X + Y ] = E [X ] + E [Y ], E [ X ] = E [X ], y, m as en general, E [
i
i Xi ] =
i (i
E [Xi ]).
Esperanza, II
Esperanza como funci on lineal: ejemplos
Si en tu dado leg timo has multiplicado por dos el valor de cada cara, la nueva esperanza es 7. Si sumas la tirada de tres dados leg timos, la esperanza es 10.5. Pero si uno de esos tres dados es el que ha multiplicado por dos, la esperanza es 14.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
El ser humano aprovecha su capacidad de abstracci on (lenguaje) para intentar interactuar con la realidad de manera m as ecaz. Comunicaci on entre personas (o entre momentos distintos de la misma persona), Memorizaci on, Creaci on (sobre todo colectiva), Toma de decisiones hacia un objetivo. . . Actitud humana casi permanente de modelado.
Modelado
D onde hay modelos?
Ejemplos:
Realidades o potencialidades:
Este edicio, un circuito sumador, una sinfon a, un sistema software. . .
Modelado
D onde hay modelos?
Ejemplos:
Realidades o potencialidades:
Este edicio, un circuito sumador, una sinfon a, un sistema software. . .
Modelos:
Los planos del edicio, el diagrama del circuito, la partitura, las especicaciones UML. . .
Modelos
Ayudas a la comprensi on humana
Llamamos modelo a la expresi on de una descripci on simplicada pero que se espera u til de un conjunto de hechos actuales o potenciales. A partir de qu e se construye?
Conceptualizaci on de la realidad (permite la invenci on). Observaciones, m as o menos mediatizadas (muestra bien parametrizada, datos disponibles por otros motivos, interacciones. . . ).
Lenguajes de Modelado
Variopintos y de todos los sabores
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful.
Lenguajes de Modelado
Variopintos y de todos los sabores
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful. (Busca un poco en Internet y encontrar as deliciosas disputas sobre esa armaci on.)
Lenguajes de Modelado
Variopintos y de todos los sabores
El lenguaje y los modelos convenientes depender an de la tarea a realizar. El slogan de G E P Box (conocido por los m etodos Box-Jenkins de an alisis de series temporales): all models are wrong; some models are useful. (Busca un poco en Internet y encontrar as deliciosas disputas sobre esa armaci on.) El problema radica en que suele ser dif cil, cuando no imposible, demostrar que un modelo est a mal. Es f acil caer en la tentaci on de arse m as del modelo que de los datos.
Taxonom a de Modelos
No hay acuerdo general
Taxonom a de Modelos
No hay acuerdo general
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Predicci on
Contexto de clasicaci on, o discriminaci on
La matriz de contingencia (o matriz de confusi on): Positivos ciertos (aciertos, casos buenos aceptados), Falsos positivos (fallos, casos malos aceptados), Negativos ciertos (aciertos, casos malos rechazados), Falsos negativos (fallos, casos buenos rechazados). En funci on de la predicci on hecha (casos aceptados) y de lo que se espera de ella (casos buenos). (A qu e llamamos positivo sin m as adjetivos?) (Ejemplo sobre Titanic.)
Podemos calcular diversas probabilidades emp ricas a la vista de los datos: meras frecuencias normalizadas. Diferenciamos la predicci on a priori de la predicci on a posteriori
(antes o despu es de conocer los valores de los dem as atributos para la predicci on).
Probabilidad a priori: frecuencia de cada valor de la clase. M aximo a priori: Predecimos el valor m as frecuente.
Podemos calcular diversas probabilidades emp ricas a la vista de los datos: meras frecuencias normalizadas. Diferenciamos la predicci on a priori de la predicci on a posteriori
(antes o despu es de conocer los valores de los dem as atributos para la predicci on).
Probabilidad a priori: frecuencia de cada valor de la clase. M aximo a priori: Predecimos el valor m as frecuente. Probabilidad a posteriori: frecuencia de cada posible valor de la clase, condicionada a cada posible conguraci on de los dem as atributos. M aximo a posteriori (MAP): Predecimos el valor m as frecuente para esos valores de los dem as atributos: arg maxC {Pr (C |A1 . . . An )}
Inconveniente
Por qu e hemos de hacerlo de otro modo
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria.
Inconveniente
Por qu e hemos de hacerlo de otro modo
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados.
Inconveniente
Por qu e hemos de hacerlo de otro modo
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados. Necesitamos estimar 220 probabilidades (para uno de los dos valores de la clase en cada posible conguraci on de los dem as atributos) a partir de los datos. (Para el otro valor de la clase, aplicamos que han de sumar uno.)
Inconveniente
Por qu e hemos de hacerlo de otro modo
Un caso concreto, peque no: Diez atributos con una media de cuatro valores en cada uno; Clasicaci on binaria. Necesitamos conservar 220 resultados. Necesitamos estimar 220 probabilidades (para uno de los dos valores de la clase en cada posible conguraci on de los dem as atributos) a partir de los datos. (Para el otro valor de la clase, aplicamos que han de sumar uno.) Sabidur a popular: si tienes menos de diez observaciones por cada par ametro a estimar, ni lo intentes.
Para calcular arg maxC {Pr (C |A1 . . . An )}: repasamos la regla de Bayes y la aplicamos, Pr (C |A1 . . . An ) = Pr (A1 . . . An |C ) Pr (C )/Pr (A1 . . . An ) El divisor es el mismo para todos los valores de C , por lo cual para encontrar el valor de C que maximiza la probabilidad podemos prescindir de la divisi on. Y ahora suponemos independencia (condicionada a la clase). Pr (A1 . . . An |C ) Pr (C ) = Pr (A1 |C ) . . . Pr (An |C ) Pr (C )
El Predictor Na ve Bayes
Funciona mejor de lo que uno se espera
Precalculamos Pr (Ai |C ) para todos los valores individuales de los atributos condicionados a los valores de la clase. En vez de predecir arg maxC {Pr (C |A1 . . . An )}, predecimos arg maxC {Pr (A1 |C ) . . . Pr (An |C ) Pr (C )}
El Predictor Na ve Bayes
Funciona mejor de lo que uno se espera
Precalculamos Pr (Ai |C ) para todos los valores individuales de los atributos condicionados a los valores de la clase. En vez de predecir arg maxC {Pr (C |A1 . . . An )}, predecimos arg maxC {Pr (A1 |C ) . . . Pr (An |C ) Pr (C )} En el caso anterior (diez atributos con una media de cuatro valores en cada uno, clasicaci on binaria) son 41 valores a estimar y conservar. (Ejemplos y comparativa sobre Titanic, por separado y en KNIME.)
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Atributos: Binarios, o Booleanos (caso particular del siguiente), Nominales, tambi en llamados categ oricos, Num ericos, tambi en llamados continuos. Los predictores MAP y Na ve Bayes, tal como los hemos visto hasta ahora, suponen atributos nominales. Pero los datos son frecuentemente num ericos.
Modus operandi : Suponemos una familia concreta de distribuciones de probabilidad en (un intervalo de) los reales. En vez de usar los datos para aproximar las probabilidades calculando la frecuencia relativa, los usamos para aproximar par ametros de la distribuci on. Habitual: 1. Suponer que Pr (A|C ) ser a una distribuci on normal, 2. usar los datos para evaluar su media y su desviaci on est andar y 3. calcular la clase de probabilidad m axima a posteriori por Na ve Bayes a partir de las distribuciones obtenidas. Estudios recientes sugieren que puede ser preferible discretizar.
Intuici on de continuidad:
Datos que se parecen llevar an etiquetas similares.
Intuici on de continuidad:
Datos que se parecen llevar an etiquetas similares. Conservamos todos los datos (en una estructura de datos adecuada). Cuando hemos de clasicar un dato nuevo, calculamos la etiqueta m as frecuente entre los k datos m as similares (k NN, k nearest neighbors ).
Intuici on de continuidad:
Datos que se parecen llevar an etiquetas similares. Conservamos todos los datos (en una estructura de datos adecuada). Cuando hemos de clasicar un dato nuevo, calculamos la etiqueta m as frecuente entre los k datos m as similares (k NN, k nearest neighbors ). La intuici on de continuidad muchas veces es correcta, y muchas no lo es. En dimensiones elevadas, calcular los vecinos es computacionalmente costoso.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Medidas Alternativas
La accuracy no basta
Si la mayor a de los ejemplos est an etiquetados negativamente, un predictor que contesta siempre que no tiene una accuracy elevada. (Problema an alogo en information retrieval, IR.) Conanza de bueno aceptado Sensitivity (en IR recall ): positivos ciertos dividido por buenos. Conanza de aceptado bueno: En IR precision: positivos ciertos dividido por aceptados. Conanza de malo rechazado: Specicity : negativos ciertos dividido por malos. Relaci on con la accuracy : combinaci on lineal de Sensitivity (ponderada por la ratio de casos buenos) y Specicity (ponderada por el n umero de casos malos).
Curvas ROC
Cuando tenemos m as informaci on
Frecuentemente podemos ordenar los casos aceptados: En IR : concepto de top -k , los k objetos que parecen m as relevantes (lo sean o no); Si usamos un regresor como predictor: el valor oat de la regresi on permite ordenar los casos aceptados. Para cada k , de 0 a N : En abscisas, ratio de falsos positivos a casos malos: restar de 1 la Specicity.
O sea, la Specicity pero de derecha a izquierda.
En ordenadas, ratio de positivos ciertos a casos buenos: la Sensitivity. Curva ROC: Receiver/Relative Operating Characteristics.
Reduce a un u nico n umero el comportamiento de un clasicador que ordena, sin tener que jarnos en toda la curva. Corresponde a: Ponderar de manera distinta los errores por falso positivo que los errores por falso negativo,
Reduce a un u nico n umero el comportamiento de un clasicador que ordena, sin tener que jarnos en toda la curva. Corresponde a: Ponderar de manera distinta los errores por falso positivo que los errores por falso negativo, pero con una ponderaci on que depende del clasicador! (Hand, 2009, Machine Learning Journal.) Evitemos el uso de AUC para comparar clasicadores. Alternativas: AUC con una medida no uniforme.
Validaci on Cruzada
Tal como la hemos visto hasta ahora
Nos dar a una evaluaci on demasiado optimista, porque hemos entrenado justo con esos datos. Segunda opci on: Separamos en datos de entrenamiento y datos de prueba, para evitar evaluar el modelo con los mismos datos a los que se ha ajustado: pero existe arbitrariedad. Tercera opci on: N folds separando training set de test set de N maneras distintas, de forma que cada dato est e en exactamente un test set.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Predictores
Vistos como supercies que separan clases
Un predictor ya entrenado marca una supercie frontera entre las distintas clases. Cada modelo predictivo ofrece sus propias posibilidades para la forma de la frontera. Decision Stumps:
hiperplanos paralelos a los ejes;
Predictores Lineales
Vistos como supercies que separan clases
Caso particular: clasicaci on binaria, la clase puede tomar dos valores. En los predictores lineales, la frontera es un hiperplano: en el espacio de entrada al que pertenecen los datos, o bien en un espacio de caracter sticas al cual traduciremos los datos.
+1
Ejemplo: frontera z = 2x + y 1; formalmente la predicci on es p (x , y , z ) = sign(2 x + y z 1) = 1 En R 3 , el predictor viene dado por pesos y t ermino independiente: (wx , wy , wz , b ); la predicci on es sign(wx x + wy y + wz z + b ) o una aproximaci on a ese valor. Hard threshold, umbral duro o umbral de Heaviside. En general, en R n , el predictor es (w , b ) con w R n y la predicci on es sign(w T x + b ). Soft threshold, umbral blando. En general, en R n , el predictor es (w , b ) con w R n y la predicci on es (w T x + b ) para una funci on continua y diferenciable (sigmoide) que aproxima el umbral duro.
Sigmoides
Una posibilidad y una variante
2 1 1 + 2 x
Perceptr on
Nombres cl asicos y resultones para los predictores lineales
Datos de entrenamiento xi R n , cada uno con su clase yi = 1: Error de clasicaci on (0-1 loss ): n umero de errores, M = {i yi = sign(w T x + b )} Alternativas: cuanticar los m argenes que indican cu anto de mal est an los puntos que est an mal clasicados,
i M
yi (w T x + b )
(o bien
(w T x + b ) ||w ||
i M
yi (w T x + b ))
es la distancia de x al
Separabilidad Lineal
Un ejemplo
Entrenamiento de Perceptron
C alculo del hiperplano a partir de los datos, 1958
Confusi on entre especicaci on e implementaci on: el hiperplano se describe impl citamente mediante el algoritmo que lo construye.
yi (w T x + b )
M = {i yi = sign(w T x + b )}
modicando aditivamente los valores de w y b seg un las derivadas parciales sugieran que se reduce m as el error. Empezamos con un hiperplano al azar y lo vamos corrigiendo. La minimizaci on del error mediante los m etodos cl asicos de derivadas parciales no se puede aplicar con umbral duro.
Problem atica:
Si los datos son linealmente separables, est a garantizado que el algoritmo converge pero:
no sabemos a qu e soluci on, porque hay muchas; puede tardar mucho en converger; el hiperplano nal depende de la inicializaci on.
Si los datos no son linealmente separables, el algoritmo entra en un bucle que puede ser largo y dif cil de detectar. Se puede encontrar un hiperplano soluci on mucho m as r apidamente mediante Programaci on Lineal, usando las restricciones: yi (w T xi + b ) > 0
Tenemos un grado de libertad que no hemos usado: la longitud del vector director del hiperplano es irrelevante. Consideramos: yi (w T x + b ) m||w ||
1 Elegimos ||w || = m : escalamos de tal manera que nuestra unidad de medida coincida con el margen optimo. El nuevo problema es una optimizaci on cuadr atica convexa.
Software: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
Si los datos no son linealmente separables ni siquiera en el espacio asociado al n ucleo; o si lo son pero nos parece que corremos riesgo de sobreajustar: opci on margen blando. Margen duro en el entrenamiento (hard margin, no confundir con umbral duro en la predicci on): todos los datos han de olo es factible en datos linealmente obedecer el margen. S separables. Margen blando en el entrenamiento (soft margin): datos linealmente separables o no.
Permiten que algunos de los datos queden por debajo del margen, incluso mal clasicados. Estos errores se penalizan con un peso por error (que usualmente se denota C ).
Envolventes Convexas
Cu al es el hiperplano de margen m aximo?
N ucleos
Cambiamos de espacio de Hilbert con el truco del n ucleo
N ucleos
Cambiamos de espacio de Hilbert con el truco del n ucleo
Calcula ((x1 , x2 )(y1 , y2 ) + 1)2 . El producto escalar en R 6 f (x1 , x2 )f (y1 , y2 ) se puede calcular sin movernos de R 2 .
Son predictores lineales. Entrenamiento: consiste en calcular el hiperplano de margen m aximo. Se aplica para ello una variante dual de programaci on cuadr atica convexa que opera con los datos mediante productos escalares. En lugar del producto escalar, es posible emplear una funci on n ucleo (kernel ) que tenga determinadas propiedades; equivale a usar hiperplanos en un espacio de dimensi on mayor, con la consiguiente exibilidad adicional. La opci on de margen blando permite relajar la obligatoriedad de separabilidad lineal. La idea de n ucleos es aplicable en otros dominios: es posible replantear el algoritmo del perceptr on, por ejemplo, en t erminos de productos escalares, y entonces se puede aplicar la misma idea.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Implicaciones
Redescubriendo el Mediterr aneo
L ogica,
C alculo proposicional,
Cl ausulas de Horn;
Algebra de ordenes,
Semiret culos, operadores de clausura,
Diagramas de conceptos formales;
Inteligencia Articial,
Representaci on del conocimiento,
Knowledge compilation;
Bases de Datos,
Teor a de la normalizaci on,
Dependencias funcionales.
Motivaci on
Por qu e tantos caminos llevan a Roma?
Qu e podemos hacer?
Si nos limitamos un poco m as a un, encontramos una l ogica que es, poco m as o menos, lo m as expresiva posible bajo la condici on de tratabilidad de la noci on de consecuencia l ogica.
Motivaci on
Por qu e tantos caminos llevan a Roma?
Qu e podemos hacer?
Si nos limitamos un poco m as a un, encontramos una l ogica que es, poco m as o menos, lo m as expresiva posible bajo la condici on de tratabilidad de la noci on de consecuencia l ogica. Y el concepto es tan natural que la gente se lo ha ido encontrando: l ogica de Horn, conjunciones de cl ausulas de tipo (a b c ) o, lo que es lo mismo, (a b c )
Adult Dataset
Exec-managerial Husband Married-civ-spouse
Adult Dataset
Exec-managerial Husband Married-civ-spouse
ML Abstracts Dataset
support margin vector descent gradient hilbert space
Adult Dataset
Exec-managerial Husband Married-civ-spouse
ML Abstracts Dataset
support margin vector descent gradient hilbert space carlo monte monte carlo
La generalidad de los humanos nos encontramos casi permanentemente detectando relaciones de causalidad. Nos apoyamos en ellas para estructurar nuestras percepciones.
(Las tantas de la noche, sale de un bar, se tambalea, canturrea, seguramente est a borracho.)
Formalizaciones de la Inferencia
No todas son del todo correctas
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad.
Formalizaciones de la Inferencia
No todas son del todo correctas
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad. (Aunque la correspondencia es ilusoria!)
Formalizaciones de la Inferencia
No todas son del todo correctas
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad. (Aunque la correspondencia es ilusoria!)
Procesos deductivos:
Deducci on: dado p q , si observamos p , inferimos q .
(Lindas propiedades de soundness y completitud.)
Formalizaciones de la Inferencia
No todas son del todo correctas
Intuici on u til:
Para muchas personas, se encuentran muy pr oximos el concepto de implicaci on l ogica y el concepto de causalidad. (Aunque la correspondencia es ilusoria!)
Procesos deductivos:
Deducci on: dado p q , si observamos p , inferimos q .
(Lindas propiedades de soundness y completitud.)
Implicaciones y Asociaciones
Causalidad versus Simultaneidad
Las relaciones de causalidad son un motor para la Ciencia. Pero no basta con predecir, hay que construir teor as que expliquen relaciones de causa y efecto entre los hechos.
5.1361 Der Glaube an den Kausalnexus ist der Aberglaube
(LW, T L-Ph)
La noci on crucial es la de implicaci on. La piedra angular de la L ogica, y el gran avance de Arist oteles sobre Plat on. 2350 a nos de estudio.
Implicaciones y Asociaciones
Una sintaxis muy atractiva
Implicaciones y Asociaciones
Una sintaxis muy atractiva
Implicaciones y Asociaciones
Una sintaxis muy atractiva
Implicaciones y Asociaciones
Una sintaxis muy atractiva
Implicaciones y Asociaciones
Una sintaxis muy atractiva
Datos Transaccionales
Todos los atributos son booleanos
Implicaciones: cl ausulas de Horn con el mismo antecedente. (Rich Male) (Rich White) = Rich Male, White Propiedades: a, b, c, d; Observaciones: m1 , m2 , m3 , Id m1 m2 m3 a 1 0 0 b 1 1 1 c 0 1 0 d 1 1 1 transacci on {a , b , d } {b , c , d } {b , d } d b a, b d a b, d ...
Envolventes Horn
Caracterizaci on sem antica
Dataset, conjunto de transacciones: Cada transacci on es un conjunto de items; o, lo que es lo mismo, un modelo proposicional.
Propiedad crucial:
Es equivalente: armar que un dataset es cerrado por intersecci on o armar que un dataset admite una descripci on Horn. Teor a Horn: cl ausulas de Horn (implicaciones) que se cumplen en todos los datos. Envolvente Horn: cierre por intersecci on; da lugar a un ret culo.
Envolventes Horn
Caracterizaci on sem antica
Dataset, conjunto de transacciones: Cada transacci on es un conjunto de items; o, lo que es lo mismo, un modelo proposicional.
Propiedad crucial:
Es equivalente: armar que un dataset es cerrado por intersecci on o armar que un dataset admite una descripci on Horn. Teor a Horn: cl ausulas de Horn (implicaciones) que se cumplen en todos los datos. Envolvente Horn: cierre por intersecci on; da lugar a un ret culo. Cu anto de realista es requerir que la totalidad de los datos cumplan la implicaci on?
Reglas de Asociaci on
Cl ausulas de Horn que permiten excepciones
Por ejemplo:
En censos estadounidenses, en m as de 2/3 de los casos: United-States, White Husband Male, Married-civ-spouse Married-civ-spouse Husband, Male Not-in-family <= 50K Black <= 50K , United-States Adm-clerical, Private <= 50K Self-emp-not-inc Male <= 50K , Sales Private hours-per-week:50 Male Female, Some-college <= 50K Divorced <= 50K
Las implicaciones exigen absoluta ausencia de contraejemplos. Frecuentemente esta condici on es demasiado estricta.
Intensidad de Implicaci on
C omo medir cu anto de pocas son las excepciones
A favor:
Es muy natural. Es f acil de explicar a un usuario no experto.
Intensidad de Implicaci on
C omo medir cu anto de pocas son las excepciones
A favor:
Es muy natural. Es f acil de explicar a un usuario no experto.
No termina de convencer:
La cota sobre la conanza no previene contra las correlaciones negativas. Docenas de propuestas alternativas.
M etricas Alternativas
Para seleccionar reglas de asociaci on
Clausuras
Conjuntos cerrados
Opci on sencilla: En el momento de extender un conjunto con un item, comprobamos si el soporte decrece; si no lo hace, el conjunto no es cerrado. Los conjuntos cerrados act uan como resumen de todos los frecuentes. Inconvenientes: Si vamos a calcular todas las reglas dentro de cada clausura, sin comparar clausuras, no merece la pena. Si vamos a calcular reglas comparando clausuras, el proceso requiere calcular qu e clausuras son subconjuntos de otras.
Obtenemos mucha menos redundancia entre las reglas, pero es mucho mas laborioso computacionalmente.
A favor:
Algoritmos razonablemente ecaces (y open source ). El preproceso de los datos no es trivial pero es bastante sencillo. Relativamente poca formaci on basta para entender el resultado.
A favor:
Algoritmos razonablemente ecaces (y open source ). El preproceso de los datos no es trivial pero es bastante sencillo. Relativamente poca formaci on basta para entender el resultado.
En contra:
Ajustaremos las cotas de soporte y de intensidad de implicaci on por el famoso m etodo I.P.: ir probando. Qu e medida usaremos para la intensidad de implicaci on? C omo se la explicaremos al usuario? Pero esto no es lo peor. . .
Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes...
Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran.
Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran. United-States, White Husband United-States, White Married-civ-spouse United-States, White . . . (En general, todas las que los datos no desmienten.)
Preprocesas los datos, lanzas tu asociador, anas los par ametros... Y cuando, nalmente, aciertas con valores que te proporcionan reglas un poco interesantes... ...salen decenas de miles de reglas. Y muchas te sobran. United-States, White Husband United-States, White Married-civ-spouse United-States, White . . . (En general, todas las que los datos no desmienten.)
Necesitamos:
Nociones precisas de redundancia entre reglas de asociaci on, m etodos para encontrar bases m nimas, y maneras de descartar las reglas poco novedosas.
Esquemas de Armstrong
Reexividad: si Y X , X Y; XX YY ; X Z. Aumentaci on: X Y , X Y Transitividad: X Y , Y Z
Dado un conjunto de implicaciones: sobra alguna? Podemos prescindir de aquellas que se puedan recuperar aplicando los esquemas de Armstrong.
X : cierre de X por las implicaciones: a nadimos a X todos los items implicados por items ya en X (y X es una clausura si y s olo si X = X ).
alternativa para una variante de esta redundancia: las llamadas reglas representativas. La misma idea permite medir cu anto de novedosa es una regla, en relaci on a las dem as: Una regla es muy novedosa cuando todas las reglas que la hacen redundante tienen una conanza mucho menor. Variante m as estricta relajando la redundancia l ogica: condence boost.
Bases M nimas
Reglas no redundantes y novedad objetiva
Es una base m nima de las reglas parciales (a combinar con la base GD de las implicaciones). Las llamadas reglas representativas proporcionan una alternativa si no queremos tratar las implicaciones por separado. Condence width: cu anto m as alta es la conanza de la regla respecto a la de reglas que la hacen redundante. Condence boost: cu anto m as alta es la conanza de la regla respecto a la de reglas que la hacen redundante, o de reglas an alogas con la parte izquierda m as reducida.
Condence boost:
Medida objetiva de la novedad de una regla parcial. Idea: en lugar de una cota absoluta sobre la conanza, una on de reglas relacionadas. cota relativa en funci Intuici on (inexacta): en qu e ratio crece la conanza de una regla con respecto de las reglas que la hacen redundante? Las reglas redundantes dan valores inferiores a 1.
Condence boost:
Medida objetiva de la novedad de una regla parcial. Idea: en lugar de una cota absoluta sobre la conanza, una on de reglas relacionadas. cota relativa en funci Intuici on (inexacta): en qu e ratio crece la conanza de una regla con respecto de las reglas que la hacen redundante? Las reglas redundantes dan valores inferiores a 1. Los valores superiores a 1 indican mayor novedad cuanto m as altos son. Un valor s olo levemente superior a 1 indica que la regla no es redundante pero que hay otra muy parecida con casi la misma conanza. Implementaci on disponible: yacaree.sf.net
Conceptos clave:
Conjuntos frecuentes y conjuntos cerrados; Reglas, redundancia y c alculos deductivos; Bases m nimas, varias opciones; Intensidad de implicaci on: conanza, lift, . . . Medidas de novedad objetiva, conanza relativa respecto de otras reglas (condence boost ).
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Sistemas de B usqueda
De Information Retrieval a la Web
Contexto:
Una colecci on enorme de documentos procesables por computador:
Documentos en sentido literal (bibliotecas digitales), P aginas web, . . .
Usuarios que desear an que se les proporcionen algunos de esos documentos como respuesta a sus solicitudes (queries).
C omo elegir qu e documentos proporcionar como respuesta? C omo priorizarlos? Much simos avances importantes en el campo de Information Retrieval.
Con cada propuesta conceptual, aparecen muchas ideas adicionales, potencialmente muy ecientes pero que hay que valorar experimentalmente.
Indices Inversos
El ingrediente ineludible de Information Retrieval
Estructuras de datos que permiten encontrar: todos los documentos en los que aparece un t ermino, y todas las posiciones en que aparece dentro de cada uno de ellos.
Requieren:
Precisar a qu e llamamos t ermino, Dise nar una estructura adecuada con punteros al interior de los documentos, Dise nar algoritmos razonablemente ecientes que preprocesen los documentos y lo construyan, y Dise nar algoritmos ecientes para combinar posiciones en los documentos.
Medidas de Proximidad
Un leit-motiv
Un peque no rodeo:
Asociamos un peso a cada t ermino en cada documento. Comparamos documentos en base a los pesos que cada t ermino adquire en cada uno de ellos. Tratamos las queries como documentos.
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.)
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d .
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d . Quiz a hay t erminos muy frecuentes que no aportan relevancia (stop words ).
Ponderamos tf por la frecuencia global del t ermino?
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d . Quiz a hay t erminos muy frecuentes que no aportan relevancia (stop words ).
Ponderamos tf por la frecuencia global del t ermino? Mejor: ponderamos tf por el n umero de documentos en que aparece el t ermino, df (t ).
Cuanticaci on de Pesos
Cu anto pesa un t ermino en un documento?
Opciones:
Booleano: el peso es 0 o 1, en funci on de si el t ermino aparece o no en el documento. (En desuso.) tf (t , d ): term frequency, n umero de veces que el t ermino t aparece en el documento d . Quiz a hay t erminos muy frecuentes que no aportan relevancia (stop words ).
Ponderamos tf por la frecuencia global del t ermino? Mejor: ponderamos tf por el n umero de documentos en que aparece el t ermino, df (t ). A un mejor: ponderamos tf por el logaritmo de la frecuencia umero de documentos en que aparece el t ermino. (inversa) del n
La Ponderaci on tf-idf
El esquema de ponderaci on que todo el mundo usa
Ponderaci on:
Term frequency, inverse document frequency : tdf (t , d ) = tf (t , d ) log N df (t )
Da lugar a una matriz de t erminos por documentos. Cada documento es ahora un vector con una dimensi on por cada t ermino. El origen de coordenadas ser a el documento vac o, pero tambi en otros documentos caen en el mismo punto cero (cu ales?). Podemos considerar vectores parecidos, pero resulta m as ecaz comparar mejor u nicamente sus direcciones: similaridad a trav es del angulo que forman.
Presencia de Enlaces
La novedad de nales del Siglo XX
Presencia de Enlaces
La novedad de nales del Siglo XX
Presencia de Enlaces
La novedad de nales del Siglo XX
La intuici on de Pagerank
Pocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella,
La intuici on de Pagerank
Pocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola.
La intuici on de Pagerank
Pocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola. Pero a los inform aticos no nos asusta la recursividad.
La intuici on de Pagerank
Pocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuici on:
Para una query dada, una p agina es relevante en funci on de: si otras p aginas relevantes apuntan a ella, pero teniendo en cuenta cu anto de relevantes son esas p aginas. La pescadilla se muerde la cola. Pero a los inform aticos no nos asusta la recursividad. El u nico problema es que no parece que haya caso base. . .
La clave de Pagerank
Parece imposible, pero. . .
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R .
La clave de Pagerank
Parece imposible, pero. . .
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R . La condici on relevancia proporcional a la de las p aginas que le apuntan se convierte en: R = MR es decir, estamos hablando de vectores propios.
La clave de Pagerank
Parece imposible, pero. . .
Relevancia:
Para cada p agina i , relevancia ri : vector r . Buscamos: ri proporcional a las rj de las p aginas j que apuntan a i . Matriz de adyacencia M (normalizada): la relevancia que se transmite es M R . La condici on relevancia proporcional a la de las p aginas que le apuntan se convierte en: R = MR es decir, estamos hablando de vectores propios. Hay que tratar con cuidado las p aginas que no apuntan a nadie.
Pagerank
Versi on paseante sin rumbo
Pagerank
Versi on paseante sin rumbo
Combinaci on lineal con el salto al azar (teleport ): Ri +1 = /N + (1 )MRi No se emplea directamente as , sino que se incorpora el salto al azar a la matriz; se rumorea que = 0.15.
En la Pr actica
Nadie dijo que fuera f acil
B usquedas exitosas:
Filtrar lo irrelevante y luego priorizar lo m as relevante. El enfoque m as extendido est a basado en algebra lineal (con no pocas extensiones). Conviene considerar dos v as de an alisis:
Textual (por contenido, text-based ) y Relacional (por referencia mutua y enlaces, link-based ).
La similaridad por cosenos tiene buen rendimiento para el an alisis textual. El vector propio de una matriz estoc astica tiene buen rendimiento para el an alisis por enlaces. Para que todo funcione hacen falta muchas m as cosas, desde tecnolog as de implementaci on (MapReduce) a conceptos adicionales (relevance feedback).
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces?
Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces? Pues. . . obvio: mirar unas pocas; tomar una muestra. Muestreo en el sentido estad stico: elegir datos que resulten globalmente representativos del total de los datos.
Una dosis de intuici on humana es indispensable: suele convenir dar un vistazo a los datos. Pero, si estos contienen miles de tuplas, qu e haces? Pues. . . obvio: mirar unas pocas; tomar una muestra. Muestreo en el sentido estad stico: elegir datos que resulten globalmente representativos del total de los datos. Segmentaci on (clustering ): elegir datos que resulten individualmente representativos de grupos (los segmentos o clusters ) de datos.
Segmentaci on
Abstracci on por computador
Agrupar datos:
Discernir diferentes subconjuntos de los datos en base a caracter sticas similares; Tratar del mismo modo datos parecidos (p. ej. campa nas de marketing ); Describir los datos de manera m as sucinta; Identicar rasgos aproximadamente comunes a un segmento de una poblaci on (p. ej. representar mediante un u nico punto cada uno de los grupos). Simplicaci on de hoy: todos los atributos son oats.
Noci on de Supervisi on
Comparando con modelos predictivos
Dicultades
Crecen...
Dicultades
Crecen...
Consecuencias
Segmentaci on versus clasicaci on
Modelos descriptivos:
Describen los datos, no predicen valores. Cada persona tiene percepciones y prioridades distintas. Para otra persona, la mejor descripci on no es la misma. Una propuesta de modelo descriptivo nos requiere especicar el problema concreto que resolveremos, adem as de c omo lo haremos.
Los axiomas de Kleinberg: Invariancia de escala: Ha de importar d onde est a cada punto, no la unidad de medida. Ausencia de sesgos (riqueza de opciones): No hay segmentaciones prohibidas a priori. Coherencia: Si segmentas, y luego modicas los datos reduciendo distancias dentro de los segmentos y/o ampli andolas entre segmentos, la segmentaci on no cambia.
Los axiomas de Kleinberg: Invariancia de escala: Ha de importar d onde est a cada punto, no la unidad de medida. Ausencia de sesgos (riqueza de opciones): No hay segmentaciones prohibidas a priori. Coherencia: Si segmentas, y luego modicas los datos reduciendo distancias dentro de los segmentos y/o ampli andolas entre segmentos, la segmentaci on no cambia.
Los axiomas de Kleinberg: Invariancia de escala: Ha de importar d onde est a cada punto, no la unidad de medida. Ausencia de sesgos (riqueza de opciones): No hay segmentaciones prohibidas a priori. Coherencia: Si segmentas, y luego modicas los datos reduciendo distancias dentro de los segmentos y/o ampli andolas entre segmentos, la segmentaci on no cambia.
Medidas de Similaridad
C omo decidir si dos datos se parecen, y cu anto se parecen?
Clave: dos datos pueden parecerse mucho, poco o nada. Necesitamos medir la similaridad entre dos datos.
Distancias:
La m as frecuentemente usada es la eucl dea entre vectores reales (norma L2 ); alternativas m as comunes: Manhattan: camino m as corto que se mantenga paralelo a los ejes (norma L1 ); Minkowski: norma Lp ; Mahalanobis: similar, pero tiene en cuenta las correlaciones estad sticas entre los atributos. Existen medidas de similaridad que no son distancias en el sentido matem atico del t ermino.
Sesgos concretos:
Los datos son n vectores reales xi , y un entero positivo k ; elegiremos una partici on de los datos en k clusters Cj ; elegiremos un vector real cj (llamado centroide de Cj ) como representante de cada cluster Cj ; queremos elegir todo de tal manera que minimicemos el error cuadr atico medio: 1 d (xi , cj )2 n
j xi Cj
Observaci on:
no requerimos (por ahora) que los cj se encuentren entre los xi .
Sesgos concretos:
Los datos son n vectores reales xi , y un entero positivo k ; elegiremos una partici on de los datos en k clusters Cj ; elegiremos un vector real cj (llamado centroide de Cj ) como representante de cada cluster Cj ; queremos elegir todo de tal manera que minimicemos el error cuadr atico medio: 1 d (xi , cj )2 n
j xi Cj
Observaci on:
no requerimos (por ahora) que los cj se encuentren entre los xi .
El Algoritmo K-Means
Un intento de aproximaci on a la minimizaci on del error cuadr atico
Alternemos:
Recalculamos los centroides a partir de la partici on, recalculamos la partici on a partir de los centroides, y repetimos. Inicializaci on: varias opciones, Aleatoria, El primer centroide aleatorio, y los sucesivos lo m as alejados posible de los anteriores. . .
K-Means en Acci on
Observaciones, variantes y demos
Resultados:
Muy frecuentemente buenos o muy buenos; ocasionalmente mal simos; habitual: repetir varias veces con distintas inicializaciones y elegir la partici on mejor de entre las obtenidas. Variantes: k-medoids (varios algoritmos):
minimiza error absoluto en vez de cuadr atico; el centroide es un elemento del cluster ; muy lento; buenas variantes basadas en muestreo.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Propiedades:
Aparece con mucha frecuencia (aunque no siempre), es el caso l mite de otras distribuciones tambi en frecuentes, tiene una f ormula cerrada,
1 x 2 1 e 2 ( ) 2
podemos generar puntos sabiendo s olo la media y la desviaci on t pica, y podemos aproximar la media y la desviaci on t pica a partir de los puntos. M as del 99% de los datos est an a una distancia de la media inferior a 3 desviaciones t picas.
Comparaci on
Recordemos. . .
En K-Means,
teniendo los centroides era f acil asignar datos a los segmentos: el centroide m as pr oximo; teniendo asignados los datos a segmentos era f acil calcular el centroide: el punto medio (baricentro). Pero, al no tener ninguna de las dos cosas, empez abamos con centroides arbitrarios e bamos repitiendo los dos procesos. Haremos algo parecido.
Comparaci on
Recordemos. . .
En K-Means,
teniendo los centroides era f acil asignar datos a los segmentos: el centroide m as pr oximo; teniendo asignados los datos a segmentos era f acil calcular el centroide: el punto medio (baricentro). Pero, al no tener ninguna de las dos cosas, empez abamos con centroides arbitrarios e bamos repitiendo los dos procesos. Haremos algo parecido. Si supi eramos las medias y desviaciones t picas de cada gaussiana, podr amos asignarles f acilmente los puntos; si supi eramos a qu e gaussiana va cada punto, podr amos estimar f acilmente la media y la desviaci on t pica de cada una.
Un Ejemplo Concreto
Combinaci on de dos gaussianas
from random import gauss, random for i in range(20): if random() < 0.333:
print %2.4f % gauss(1,0.8)
else:
print %2.3f % gauss(-1,0.6)
Sabemos:
que es una elecci on con probabilidad p entre dos gaussianas.
Variable latente:
Variable que interviene pero no es directamente observable. Aqu : la elecci on de rama (aunque s que es observable en nuestro ejemplo, porque hemos hecho trampa en el formato de los oats ).
Sabemos:
que es una elecci on con probabilidad p entre dos gaussianas.
Variable latente:
Variable que interviene pero no es directamente observable. Aqu : la elecci on de rama (aunque s que es observable en nuestro ejemplo, porque hemos hecho trampa en el formato de los oats ).
Imaginemos que alguien nos revela el valor de la variable latente. Es decir, la rama del if elegida en cada punto: para cada yi , gi {0, 1}: yi viene de N (mgi , dgi ). En nuestro caso: p
5 20
m0 y d0 ser an la media y la desviaci on t pica de los datos que traen 4 cifras decimales (m0 0.9176); y m1 y d1 ser an la media y la desviaci on t pica de los datos que traen 3 cifras decimales (m1 1.1606).
(Para tan pocos datos, no est an tan mal esas aproximaciones.)
Imaginemos que alguien nos revela el valor de la variable latente. Es decir, la rama del if elegida en cada punto: para cada yi , gi {0, 1}: yi viene de N (mgi , dgi ). En nuestro caso: p
5 20
m0 y d0 ser an la media y la desviaci on t pica de los datos que traen 4 cifras decimales (m0 0.9176); y m1 y d1 ser an la media y la desviaci on t pica de los datos que traen 3 cifras decimales (m1 1.1606).
(Para tan pocos datos, no est an tan mal esas aproximaciones.)
Maximization:
Buscamos los par ametros de las distribuciones normales que mejor explican los datos que corresponden a cada una de ellas.
En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato.
En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato. La reemplazaremos por su valor esperado:
En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato. La reemplazaremos por su valor esperado:
Cada yi viene de la primera rama con la probabilidad que le asigne N (m0 , d0 ), multiplicada por p ; cada yi viene de la segunda rama con la probabilidad que le asigne N (m1 , d1 ), multiplicada por (1 p ); la probabilidad total de cada yi es la suma de ambas. Para cada yi , dividimos la probabilidad de venir de la segunda rama por la probabilidad total.
En general, no podremos observar la variable latente gi : no sabremos de qu e gaussiana viene cada dato. La reemplazaremos por su valor esperado:
Cada yi viene de la primera rama con la probabilidad que le asigne N (m0 , d0 ), multiplicada por p ; cada yi viene de la segunda rama con la probabilidad que le asigne N (m1 , d1 ), multiplicada por (1 p ); la probabilidad total de cada yi es la suma de ambas. Para cada yi , dividimos la probabilidad de venir de la segunda rama por la probabilidad total.
Expectation:
Hacemos corresponder cada dato a cada distribuci on en funci on de la probabilidad con la que lo puede generar.
Iniciamos con centroides (medias de las gaussianas) aleatorios, y con la desviaci on t pica dada por la totalidad de los datos.
Repetimos:
Recalculamos la probabilidad con que asignamos cada dato a cada gaussiana, en funci on de la distancia que los separa del centroide (la media) y de la desviaci on t pica correspondiente a esa gaussiana. Recalculamos las distribuciones (sus medias y sus desviaciones t picas), estimando cada gaussiana a partir de la probabilidad de cada dato para esa gaussiana. Al calcular una distribuci on normal a partir de los datos, podemos ponderar con el grado en que el dato corresponde a la distribuci on (esperanza de la variable latente).
Notaci on: Pr0 (y ) N (m0 , d0 ), Pr1 (y ) N (m1 , d1 ). Expectation: Valor esperado (en [0, 1]) de la variable latente gi {0, 1}; ser a m as pr oximo a 1 cuanto m as probable sea que yi venga de Pr1 (la segunda rama del if ) y no de Pr0 : gi = (1 p ) Pr1 (yi ) p Pr0 (yi ) + (1 p ) Pr1 (yi )
gi y i i gi
2 d1 =
gi (yi m1 )2 i gi gi )(yi m0 )2 i (1 gi )
m0 =
gi )yi i (1 gi )
2 d0 =
i (1
El algoritmo EM se aplica sin problema al caso multidimensional. Hay muchas versiones de EM m as generales; el caso que hemos descrito se llama a veces algoritmo de Baum-Welch. Demo: http://lcn.ep.ch/tutorial/english/gaussian/html/index.html
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Relaci on
Entre problemas predictivos
Reducir clasicaci on a regresi on: Numeriza las etiquetas (por ejemplo, 1) y aplica regresi on. Reducir regresi on a clasicaci on: Haz una copia de los datos sumando M al valor a predecir, haz otra copia de los datos restando M al valor a predecir, y aplica clasicaci on para separar ambas copias. (En ambos casos, existen otras opciones.)
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Ejemplo Sencillo
En el que apoyarnos para entender sesgo y varianza
Desarrollamos un caso muy simple: dada una treintena de oats que provienen de una distribuci on normal, cu al nos parece que ser a la media de la distribuci on? Por ejemplo, en un problema de regresi on, podr a tratarse de valores de la y para valores de la x muy pr oximos entre s .
Ejemplo Sencillo
En el que apoyarnos para entender sesgo y varianza
Desarrollamos un caso muy simple: dada una treintena de oats que provienen de una distribuci on normal, cu al nos parece que ser a la media de la distribuci on? Por ejemplo, en un problema de regresi on, podr a tratarse de valores de la y para valores de la x muy pr oximos entre s . Podemos aproximar la media de muchas maneras. Usaremos la media de la muestra pero con distinta precisi on (cantidad de decimales). Es mejor pocos decimales o muchos?
Sesgo y Varianza
Dos fuentes diferenciadas de error
Varianza:
Riesgo de error debido a la dependencia de la muestra; es la varianza en el sentido estad stico. Con m as decimales el riesgo puede crecer!
Sesgo y Varianza
Dos fuentes diferenciadas de error
Varianza:
Riesgo de error debido a la dependencia de la muestra; es la varianza en el sentido estad stico. Con m as decimales el riesgo puede crecer!
Sesgo:
Riesgo de error debido a que el estimador no tienda realmente al valor a estimar; por ejemplo, en casos en que no incluya el valor a estimar entre sus posibles resultados. Con menos decimales el riesgo puede crecer!
Contexto:
Valor a predecir y ; Muestra aleatoria s que revela informaci on sobre y ; Estimador e (s ) que intenta acertar con y a la vista de s . El valor e (s ) es una variable aleatoria: depende de la muestra s .
Contexto:
Valor a predecir y ; Muestra aleatoria s que revela informaci on sobre y ; Estimador e (s ) que intenta acertar con y a la vista de s . El valor e (s ) es una variable aleatoria: depende de la muestra s .
Varianza:
Diferencia cuadr atica media entre e (s ) y su propia media E [e (s )]: E [(e (s ) E [e (s )])2 ].
Contexto:
Valor a predecir y ; Muestra aleatoria s que revela informaci on sobre y ; Estimador e (s ) que intenta acertar con y a la vista de s . El valor e (s ) es una variable aleatoria: depende de la muestra s .
Varianza:
Diferencia cuadr atica media entre e (s ) y su propia media E [e (s )]: E [(e (s ) E [e (s )])2 ].
Sesgo:
Diferencia absoluta entre el valor esperado de e (s ) (su media, el valor que estimar a si viera todos los datos) y el valor y a predecir: |E [e (s )] y |.
Observaciones Sencillas
Que no lo ser an tanto al ponerlas juntas
Observemos que:
1. Sesgo y varianza se miden en distinta escala por culpa del cuadrado que aparece en la varianza; 2. El valor a predecir y y el valor esperado del estimador E [e (s )] son independientes de la muestra y act uan como constantes; 3. Sabemos que la esperanza es una funci on lineal: E [X + Y ] = E [X ] + E [Y ] y E [aX ] = aE [X ] si a es constante. 4. Por tanto,
E E [e (s )]2 = E [e (s )]2 , E [y ] = y , E [y 2 ] = y 2 , E e (s )E [e (s )] = E [e (s )]E [e (s )] = E [e (s )]2 .
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 =
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 =
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 =
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] =
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] = E [(e (s ) y )2 ]
Sumamos la varianza y el cuadrado del sesgo: E [(e (s ) E [e (s )])2 ] + (E [e (s )] y )2 = E e (s )2 2E [e (s )]e (s ) + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2E [e (s )]E [e (s )] + E [e (s )]2 + E [e (s )]2 2yE [e (s )] + y 2 = E [e (s )2 ] 2yE [e (s )] + y 2 = E [e (s )2 ] E [2y e (s )] + E [y 2 ] = E [e (s )2 2y e (s ) + y 2 ] = E [(e (s ) y )2 ]
El error cuadr atico medio se descompone como suma de la variancia m as el cuadrado del sesgo.
Consecuencias
D onde est an los riesgos?
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Ejemplos
Y un viejo chiste
Adivinando animales:
Puede caminar? No. Vive en el agua? S . Es un pez? . . .
Ejemplos
Y un viejo chiste
Adivinando animales:
Puede caminar? No. Vive en el agua? S . Es un pez? . . .
Un cl asico:
Hace esquinas? S . Es una lagarta? . . .
Ejemplo Financiero
Le damos la hipoteca a este cliente?
Misma mec anica arborescente para predecir: Llega a mileurista? No: Denegar. S :
Tiene n omina? S :
Est a domiciliada aqu ? ...
Ventajas
Comp aralo con las tablas de probabilidades de Na ve Bayes
Con un mecanismo predictor as , calcular la predicci on es f acil, incluso puede ser divertido, explicar la decisi on al jefe nanciero es f acil, incluso explicarle la decisi on al cliente puede ser f acil.
Ventajas
Comp aralo con las tablas de probabilidades de Na ve Bayes
Con un mecanismo predictor as , calcular la predicci on es f acil, incluso puede ser divertido, explicar la decisi on al jefe nanciero es f acil, incluso explicarle la decisi on al cliente puede ser f acil.
Condiciones legales:
En algunos estados est a prohibido usar condiciones como ser negro para este tipo de decisiones (consecuencia: red lining).
Predictores en Arbol
Todos los caminos relevantes en la misma estructura
Nodos del arbol: permiten bifurcar en funci on de los atributos y sus valores. Hojas del arbol: nos proporcionan una predicci on. Deseamos que la predicci on asociada a una hoja sea buena para los datos cuyos valores en los atributos lleven a esa hoja. Planteamiento muy estudiado, muchas propuestas y variantes, buenos resultados en muchas aplicaciones.
Riesgo de Sobreajuste
Una dicultad importante de los predictores
Reducir a cero el error de entrenamiento no es lo mismo que reducir a cero el error de generalizaci on sobre datos desconocidos.
Sobreajuste:
El predictor se ajusta tanto a predecir correctamente en los datos de entrenamiento disponibles que pierde de vista lo que se desea realmente predecir. Los datos de entrenamiento pueden incluir excepciones, casos raros o ruido. Tracking the noise : ajustamos el modelo para seguir la pista a valores irrelevantes. Cuanto m as exible es el modelo, mejor se puede ajustar a los datos. . .
Riesgo de Sobreajuste
Una dicultad importante de los predictores
Reducir a cero el error de entrenamiento no es lo mismo que reducir a cero el error de generalizaci on sobre datos desconocidos.
Sobreajuste:
El predictor se ajusta tanto a predecir correctamente en los datos de entrenamiento disponibles que pierde de vista lo que se desea realmente predecir. Los datos de entrenamiento pueden incluir excepciones, casos raros o ruido. Tracking the noise : ajustamos el modelo para seguir la pista a valores irrelevantes. Cuanto m as exible es el modelo, mejor se puede ajustar a los datos. . . . . . pero es posible que eso le haga predecir peor.
Control de la Flexibilidad
Evitar el riesgo de sobreajuste
Control de la Flexibilidad
Evitar el riesgo de sobreajuste
Mala noticia:
Construir el arbol de decisi on m as peque no posible que no supere un error de entrenamiento dado no es factible computacionalmente (NP-hard o similar).
Arboles de Decisi on
Taxonom a y construcci on
Construcci on pr actica:
Heur stica greedy sin retorno, de la ra z a las hojas (TDIDT, top-down induction of decision trees ). Bifurcaciones en los nodos: ID3, C4.5, j48, C5.0: Ramicaci on no acotada. CART: Restricci on binaria. Predictor en las hojas: ID3, C4.5, j48, C5.0: Clase. CART: Predictor lineal (regresi on).
Nodos
Bifurcando a partir de los datos
El nodo corresponde a las condiciones a lo largo del camino que lleva hasta el. Sobre los datos de entrenamiento, consideramos s olo los datos que llegan a ese nodo; si todos (o casi todos) son de la misma clase, no bifurcamos m as; si decidimos bifurcar, hemos de
elegir un atributo sobre el que bifurcar y, posiblemente, elegir c omo bifurcar sobre ese atributo.
Criterio de Bifurcaci on
Elecci on de atributo y valores
Posibilidades:
Un camino para cada valor de un atributo nominal; Dos caminos, en funci on de encontrarse o no el valor del atributo en un determinado conjunto:
edad > 18 color {rojo,amarillo,verde}
M as en general, dos o m as caminos, cada uno correspondiendo a un conjunto de valores: los conjuntos han de formar una partici on.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos. Precisamos una denici on precisa de heterogeneidad.
Objetivo de la Bifurcaci on
Qu e es lo que nos conviene?
Consideraciones:
El proceso culmina en nodos (casi) homog eneos. La bifurcaci on debe procurar reducir la heterogeneidad. La elecci on del atributo ha de depender de criterios objetivos. Precisamos una denici on precisa de heterogeneidad. (El problema no es que no las haya, el problema es que cada cual ha propuesto la suya.)
Intuici on de Heterogeneidad
El caso elemental: dos valores
Formalizaci on de la Heterogeneidad
Existen muchas propuestas diferentes
Consideramos atributos nominales con una bifurcaci on por valor. Para valores C1 , . . . , Ck de la clase, sean q1 , . . . , qk las frecuencias con que aparecen entre los datos de un conjunto S de tama no s : casos de clase Ci dividido por total de casos s . Las combinamos al estilo de la entrop a de Shannon (informaci on media en S ): I (S ) = qi log(qi ) Una alternativa es el ndice de Gini: para k = 2, q2 = 1 q1 , G (S ) = 2 q1 (1 q1 ) y, en el caso general, G (S ) = 1 qi2 .
Comparativa
Informaci on media con dos valores versus ndice de Gini
Al bifurcar por un atributo que genera la partici on S1 , . . . , Sr , de tama nos s1 , . . . , sr , podemos considerar la ganancia de informaci on (Information Gain): I (S ) I (Sj ) (sj /s )
ID3 elige el atributo que maximiza la ganancia de informaci on. La ganancia de informaci on favorece a los atributos sobrebifurcadores.
Ganancia Normalizada
Procura evitar la sobrebifurcaci on
Normalizamos la ganancia dividiendo por la cantidad de informaci on que se gana por el mero hecho de bifurcar, sin mirar las clases: J (S ) = (sj /s ) log((sj /s ))
C4.5 y j48 eligen el atributo que maximiza la ganancia normalizada. Favorece bifurcaciones desequilibradas.
Indice de Gini
Procura evitar la sobrebifurcaci on de otra manera
Opera del mismo modo que con la ganancia de informaci on, pero usando el ndice de Gini en vez de la informaci on media de Shannon. G (S ) G (Sj ) (sj /s ) CART elige el atributo que maximiza el incremento en el ndice de Gini. Esta alternativa favorece atributos con muchos valores; por ello, CART u nicamente usa bifurcaciones binarias. Puede funcionar mal cuando hay muchas clases.
Indice
Introducci on Repaso de Probabilidad Generalidades sobre Modelado Predictores B asicos y su Evaluaci on Sesgos de Continuidad M as Sobre Evaluaci on de Predictores Predictores Lineales y M etodos de N ucleo Modelos Descriptivos: Asociaci on Priorizaci on de Resultados y Pagerank Modelos Descriptivos: Segmentaci on por K-means Modelos Descriptivos: Segmentaci on por EM Regresi on versus Clasicaci on Error cuadr atico, sesgo y varianza Predictores Arborescentes Metapredictores (Ensemble Methods)
Predictores Limitados
Ante un dataset complicado
Supongamos que tenemos un modelo predictor sencillo, r apido de entrenar, pero no muy bueno en sus predicciones: arbol de decisi on muy peque nos, decision stumps, reglas de decisi on muy limitadas, alguna variante de Na ve Bayes. . . Servir a de algo combinar varios predictores?
Metapredictores:
entrenemos varias copias distintas entre s , y luego sigamos la opini on mayoritaria. (Puede ser conveniente ponderar los votos.)
Ventajas posibles:
Reducci on de la variancia introducida por el muestreo de los datos. Flexibilidad con poco riesgo de sobreajuste.
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.)
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo!
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo! Entrenamos un predictor con esa muestra. Repetimos el proceso hasta tener k predictores.
Fijamos un mecanismo predictor sencillo y computacionalmente eciente; tenemos n tuplas en el dataset. Elegimos una muestra de tama no m n (bootstrap ). (Muy habitual: m = n.) Con reemplazo! Entrenamos un predictor con esa muestra. Repetimos el proceso hasta tener k predictores. Predicci on: por mayor a. Error OOB (Out-Of-Bag ): protocolo mediante el cual los datos que no entran en la muestra se emplean como test set.
Random Forests
Breiman, 2001
Consisten en aplicar bagging , usando arboles de decisi on como predictores, pero construidos eligiendo en cada nodo, para bifurcar, el mejor de entre una muestra aleatoria de los atributos. Estos arboles no se podan.
Caracter sticas:
La construcci on de los arboles es r apida, al explorar s olo unos pocos atributos. Los nodos que tienen la suerte de cazar atributos muy discriminativos compensan a los otros. Cierto riesgo de sobreajuste. Tienen dicultades en casos en que haya muchos atributos irrelevantes.
Random Na ve Bayes
Tiene truco!
Recordemos:
cada predictor Na ve Bayes nos ofrece una predicci on probabilista; se obtiene multiplicando probabilidades; la traducimos a binaria j andonos en el valor de clase que alcanza probabilidad m axima. Truco: es posible usar los valores oat para cuanticar cu anto de able es la respuesta de cada predictor y ponderarlas al calcular el voto mayoritario.
Boosting
Schapire, 1989; Freund, 1990
Denici on:
En Teor a del Aprendizaje, boosting se dene en general como la transformaci on de predictores de error grande pero acotado en predictores muy ables. Los primeros boosters requer an conocer el error de los predictores sencillos. El enfoque se volvi o aplicable y u til a partir de AdaBoost. La mayor a de la gente confunde boosting en general con AdaBoost y sus variantes. Boosting en general es mucho m as amplio: por ejemplo, un arbol de decisi on es boosting sobre decision stumps. AdaBoost es similar a bagging pero m as sosticado: el muestreo no es uniforme en general. Slogan: Voluntad expresa de hacerlo mejor.
AdaBoost
Schapire y Freund, 1995, 1997
D : distribuci on de probabilidad entre los datos. Se inicializa a uniforme: 1/n a cada uno. Construimos un predictor que tenga en cuenta el peso D (x ) de cada x . La manera habitual de lograrlo es:
Elegimos una muestra mediante elecci on independiente de cada dato, seg un su probabilidad D (x ). Entrenamos un predictor con esa muestra.
Asignamos un peso a ese predictor, para calcular luego las predicciones por mayor a ponderada. Redenimos D , aumentando el peso de los datos mal clasicados y reduciendo el de los clasicados correctamente. Normalizamos D . Repetimos el proceso mientras el predictor obtenido pueda mejorar el error de la mayor a ponderada.
Propiedades
Formalmente demostrables
Al cabo de T etapas, el error que comete sobre los datos el predictor dado por la mayor a ponderada est a acotado por: e 2 donde
t P 1 ( 2 t )2
Por ejemplo: Si el error del predictor es siempre menor del 40%, el error al cabo de T etapas es menor de 0.775T : para T = 10, el error es menos del 7%, y con T = 20 es menor del 0.7%. Adem as, se puede acotar el error de generalizaci on y el margen de clasicaci on; AdaBoost logra evitar el sobreajuste en bastante grado gracias a estas propiedades. En la pr actica, los datos dif ciles adquieren mucha probabilidad, y cuesta mantener el error a una distancia ja por debajo de 1/2.
Metapredictores:
Hemos visto dos, ambos para clasicaci on binaria: Bagging y AdaBoost. En ambos, iteramos: Obtenemos una nueva muestra (posiblemente con una nueva distribuci on de probabilidad), entrenamos un predictor sencillo, y cuando tenemos los sucientes los combinamos linealmente. En general un metapredictor ser a m as lento de entrenar, pero existen casos en que ocurre al rev es.
Extensiones y Variantes
Existen much simas
Extensiones y Variantes
Existen much simas