Método con etapas infinitas

UNIVERSIDAD TECNOLOGICA DEL PER
AREQUIPA
FACULTAD DE
INGENIERIAS
CARRERA
PROFESIONAL DE
INGENIERIA INDUSTRIAL
2014 II
MODELO CON ETAPAS INFINITAS

CURSO:
Teora de Decisiones
ALUMNO:
CCAPA SULLA, Yuliana Sandra
ESPIRILLA TORRES, Washington
FLORES FLORES, Jessica Mabel
GONZALES AYNAYA, Ana Karen
PARILLO SAICO, Pedro pablo
Arequipa Per
2014
INDICE
MTODO CON ETAPAS INFINITAS......................................................................3

1.
MTODO DE ENUMERACIN EXHAUSTIVA...........................................6
2.
METODO DE ITERACIN DE POLITICA SIN DESCUENTO.....................10
3.
MTODO DE ITERACIN DE POLTICA CON DESCUENTO....................15
CONCLUSIONES..........................................Error! Marcador no definido.

BIBLIOGRAFIA............................................................................................ 19
MTODO CON ETAPAS INFINITAS
Hay dos mtodos para resolver el problema con etapas infinitas. En el primero se deben
evaluar todas las polticas estacionarias del problema de decisin. Esto equivale a un proceso
de enumeracin exhaustiva y slo se puede usar si la cantidad de polticas estacionarias es
razonablemente pequea. El segundo mtodo, llamado iteracin de poltica, en general es ms
eficiente, porque determina en forma iterativa la poltica ptima
Ejemplo
Cada ao, al comenzar la estacin para trabajar los jardines (de marzo a septiembre) un
jardinero usa una prueba qumica para determinar el estado del suelo. Dependiendo de los
resultados de las pruebas, la productividad para la nueva estacin cae en uno de tres estados:
1) bueno, 2) regular y 3) malo.
A travs de los aos el jardinero observ que las condiciones meteorolgicas prevalecientes
durante el invierno (de octubre a febrero) juegan un papel importante en la determinacin de
la condicin del suelo, dejndolo igual o empeorndolo, pero nunca mejorndolo. En este
respecto, el estado del suelo en el ao anterior es un factor importante para la productividad
del presente ao. Usando los datos de las pruebas hechas por el jardinero, las probabilidades
de transicin durante un periodo de un ao, de un estado de productividad a otro, se
representa con la siguiente cadena de Markov:
Las probabilidades de transicin en P1 indican que la productividad de determinado ao no

puede ser mejor que la del ao anterior. Por ejemplo, si las condiciones del suelo en el
presente ao son regulares (estado 2), la productividad en el prximo ao permanecer regular

con una probabilidad de 0.5, o se volvern malas (estado 3) con una probabilidad de 0.5.
El jardinero puede alterar las probabilidades de transicin P1 con otras acciones. En el caso
normal, se aplica fertilizante para mejorar las condiciones del suelo, y se produce la siguiente
matriz de transicin:
Para poner en perspectiva el problema de decisin, el jardinero asocia una funcin de ingreso
(o una estructura de recompensa) con la transicin de un estado a otro. La funcin de ingreso
expresa la ganancia o la prdida durante un periodo de 1 ao, dependiendo de los estados
entre los que se hace la transicin. Como el jardinero tiene la opcin de usar fertilizante o no,
la ganancia o la prdida varan dependiendo de la decisin tomada. Las matrices R1 y R2
resumen las funciones de ingreso, en cientos de $, correspondientes a las matrices P1 y P2,
respectivamente
Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las
condiciones del suelo fueron regulares el ao anterior (estado 2) y se vuelven malas (estado 3)
en este ao, su ganancia ser r 23
= 0 en comparacin con r 23 1= 1 cuando no se usa
fertilizante.
A este respecto, R expresa la recompensa neta despus de haber introducido el costo del
fertilizante.
Qu clase de problema de decisin tiene el jardinero? Primero, se debe conocer si la
actividad de jardinera continuar durante una cantidad limitada de aos, o en forma
indefinida. Aestos casos se les llama problemas de decisin con etapas finitas o con etapas
infinitas. En ambos casos, el jardinero usa el resultado de las pruebas qumicas (estado del
sistema) para determinar la mejor accin (fertilizar o no) que maximice el ingreso esperado.
Tambin, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las
acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se
puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice
que el proceso de toma de decisiones en este caso se representa por una poltica estacionaria.
Cada poltica estacionaria corresponder a matrices de transicin y de ingreso distintas, que se
obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la poltica estacionaria de
aplicar fertilizante slo cuando las condiciones del suelo sean malas (estado 3), las matrices
resultantes de transicin y de ingreso son:
Estas matrices son distintas de P1 y R1 slo en los terceros renglones, que se toman
directamente de P2 y R2, las matrices asociadas con la aplicacin del fertilizante
5
1. MTODO DE ENUMERACIN EXHAUSTIVA

Consiste en enumerar todas las soluciones posibles, a partir de los valores tomados
para las variables enteras y realizar todas las combinaciones posibles hasta encontrar
una combinacin que nos proporcione el valor ptimo de la funcin objetivo y que
cumpla con todas las restricciones del problema. Una de las objeciones principales que
presenta ste mtodo es el nmero de variables, ya que se presentan demasiadas
combinaciones antes de encontrar la solucin ptima.
Supongamos que el problema de decisin tiene S polticas estacionarias, y
P
supondremos que
son las matrices de transicin y de ingreso (de un
paso) correspondientes a la poltica, s = 1, 2, ..., S. Los pasos del mtodo de

enumeracin son los siguientes:
Paso 1. Calcule
V si , el ingreso esperado de un paso (un periodo) de la poltica s,
dado el estado i, i = 1, 2, ..., m.

Paso 2. Calcule
transicin
si , las probabilidades estacionarias a largo plazo de la matriz de
asociadas con la poltica s. Estas probabilidades, cuando existen, se
calculan con las ecuaciones
Paso 3. Determine
, el ingreso esperado de la poltica s por paso (periodo) de
transicin, con la frmula
Paso 4. Se determina la poltica ptima s* tal que:
Ilustraremos el mtodo resolviendo el problema del jardinero con un horizonte de

planeacin de periodos infinitos.
Ejemplo:
El problema del jardinero tiene un total de ocho polticas estacionarias, como se ve en
la siguiente tabla:
Las matrices
Ps
Rs
de las polticas 3 a 8 se deducen de las correspondientes
a las polticas 1 y 2, y son las siguientes:
s
As, se pueden calcular los valores de V i que aparecen en la tabla siguiente:
Los clculos de las
probabilidades
estacionarias se hacen con las ecuaciones
Por ejemplo, si s =2, las ecuaciones correspondientes son
(Observe que una de las tres primeras ecuaciones es redundante.) La solucin es:
En este caso, el ingreso anual esperado es:
En la tabla siguiente se resumen
para todas las polticas estacionarias.
(Aunque no afectar esto a los clculos en modo alguno, observe que cada una de las
polticas 1, 3, 4 y 6 tiene un estado absorbente: el estado 3. Es la razn por la que
1= 2=0
y 3
= 1 para todas esas polticas.)
La poltica 2 produce el mximo ingreso anual esperado. La poltica ptima a largo

plazo es aplicar fertilizante independientemente del estado del sistema.
2. METODO DE ITERACIN DE POLITICA SIN DESCUENTO

El mtodo de iteracin por poltica est basado principalmente en el desarrollo
siguiente. Para cualquier poltica especfica el rendimiento total esperado en la etapa n
se expresa a travs de la ecuacin recursiva (Thaja, 2004)
m
f n ( i )=v i+ P ij f n+1 ( j ) , i=1,2, .. ,m

j=1
Esta accin recursiva es la base del desarrollo del mtodo de iteracin de poltica. Sin
embargo, se debe modificar un poco la forma actual, para permitir el estudio del
9
comportamiento asinttico del proceso. Se definir como la cantidad de etapas

restantes por considerar. Es distinto de n en la ecuacin, que define a la etapa n. La
ecuacin recursiva se escribe entonces como sigue: (Thaja, 2004)
m
f ( i )=v i+ P ij f 1 ( j ) , i=1,2,3,. .. , m
j=1
Obsrvese que f es el ingreso esperado acumulado si
es la cantidad de etapas
que faltan por considerar. Con la nueva definicin, se puede estudiar el

comportamiento asinttico del proceso haciendo que
Ham04 \l 13322
CITATION
(Thaja, 2004)
Ya que
=( 1 , 2 , . , m)
Es el vector de probabilidades de estado estable de la matriz de transicin

P= pij y =( 1 v 1 , 2 v 2+ ., m v m ) es el ingreso esperado por etapa, como se
calcul en el problema anterior, se puede demostrar que cuando es muy grande,
f ( i )=E+ f (i)
Donde
f ( i ) es un trmino constante que representa la interseccin asinttica de
f dado el estado i
10
Ya que f ( i )
es el ingreso ptimo acumulado cuando hay
dado el estado i
y como E
forma intuitiva por qu f ( i )
etapas restantes,
es el ingreso esperado por etapa, se puede ver en

E
es igual a
para tener en cuenta el estado especfico i
ms un factor de correccin f (i)
. En este resultado se supone que
Ahora, con esta informacin, la ecuacin recursiva se escribe como sigue:

m
E+ f (i ) =v i + Pij {( 1 ) E+f ( j) } ,i=1,2, . , m

j=1
Luego se simplifica y se obtiene

m
E+ f ( i ) P ij f ( j ) =v i ,i =1,2, . , m
j=1
En este caso hay
ecuaciones con
+1 incgnitas, f(1), f(2), ..., f(m) y E.
como en el problema anterior , el objetivo es determinar la poltica ptima que

produce el valor mximo de E . Como hay
incgnitas, el valor ptimo de
ecuaciones con m+ 1
no se puede determinar en un paso. En lugar de
ello se usa un mtodo iterativo de dos pasos que, a partir de una poltica arbitraria,
determina una nueva poltica que produce un valor mejor de E .
El proceso iterativo termina cuando hay dos polticas sucesivas que son idnticas.
11
1 Paso de determinacin de valor: Se elige la poltica s en forma arbitraria. Con sus

matrices correspondientes
Ps
Rs y suponiendo, en forma arbitraria, que
f s ( m) =0 , se resuelven las ecuaciones

m
E + f ( i ) P Sij f s ( j )=v i , i=1,2, . ,m

S
j=1
Con las incgnitas
ES , f s
s
(1),..., y f
(m 1). Continuar en el paso de
mejoramiento de poltica
2 Paso de mejoramiento de poltica: Para cada estado i, determinar la poltica t que
corresponde a
Los valores de
f s ( j ) , j=1,2, ., m son los que se determinan en el paso de
determinacin de valor. Las decisiones ptimas resultantes para los estados 1, 2, ..., y
m son la nueva poltica t. Si s y t son idnticas, t es ptima. En caso contrario, hacer s
= t y regresar al paso de determinacin de valor.
Ejemplo
Se resolver el problema del jardinero con el mtodo de iteracin de poltica. Se
comienza con la poltica arbitraria que indica no aplicar fertilizante. Las matrices
correspondientes son
12
Las ecuaciones del paso de iteracin de valores son
Si
en
forma arbitraria f(3) = 0, la solucin de las ecuaciones es
Continuacin se aplica el paso de mejoramiento de poltica. Los clculos

correspondientes se ven en el cuadro siguiente.
cuadro n 01 mejoramiento de la calidad
La nueva poltica indica aplicar fertilizante independientemente del estado. Como es

distinta de la anterior, se hace de nuevo el paso de determinacin de valor. Las
matrices correspondientes a la nueva poltica son
13
Estas
matrices definen las siguientes ecuaciones:
De nuevo si f (3) =0, se llega a la solucin
Los clculos del paso de mejoramiento de poltica se ven en el siguiente cuadro
La nueva poltica, que establece aplicar fertilizante independientemente del estado, es

idntica a la anterior. Entonces esta ltima poltica es ptima, y termina el proceso
iterativo. Es la misma conclusin a la que se llega con el mtodo de enumeracin
14
exhaustiva. Sin embargo, obsrvese que el mtodo de iteracin de poltica converge

con rapidez hacia al poltica ptima; sta es una caracterstica normal del nuevo
mtodo.
3. MTODO DE ITERACIN DE POLTICA CON DESCUENTO
El algoritmo de iteracin de poltica se puede ampliar para abarcar descuentos. Dado
el factor de descuento (< 1), la ecuacin recursiva de etapas finitas se puede plantear
como sigue:
(Ntese que representa la cantidad de etapas que faltan.) Se puede demostrar que
cuando (modelo infinito), f(i) =f (i), siendo f (i) el ingreso a valor presente
(descontado), si el sistema est en el estado i y funciona durante un horizonte infinito.
As, el comportamiento de f(i) a largo plazo, cuando es independiente del valor
de . Esto contrasta con el caso donde no hay descuentos, en el que f(i)=E +f (i).
Cabra esperar este resultado, porque al descontar, el efecto de los ingresos futuros
disminuye a cero, en forma asinttica. En realidad, el valor presente f (i) debe tender a
un valor constante cuando .
Con base en esta informacin, se modifican como sigue los pasos de iteracin de
poltica.
1. Paso de determinacin de valor. Para una poltica arbitraria s con matrices Ps y

Rs, resolver las m ecuaciones
Con las m incgnitas f s(1), f s(2), ..., fs(m).

15
2. Paso de mejoramiento de poltica. Para cada estado i, determinar la poltica t

que corresponda
f s(j) se obtiene en el paso de determinacin de valor. Si la poltica resultante t

es la misma, detenerse; t es ptima. En caso contrario, poner s = t y regresar al
paso de determinacin de valor.
Ejemplo:
Se resolver el ejemplo con el factor de descuento =0.6.

Partiremos de la poltica arbitraria S={1,1,1}. Las matrices asociadas P y R (P1 y R1
en el ejemplo de enumeracin exhaustiva) dan las ecuaciones
La solucin de estas ecuaciones es

f1 = 6.61, f2 = 3.21, f3 = -2.5
En el siguiente cuadro se presenta un resumen de la iteracin de mejoramiento de

poltica:
16
El paso de determinacin de valor usando P2 y R2 (Ejemplo de enumeracin

exhaustiva) produce las siguientes ecuaciones:
La solucin de esas ecuaciones es

f (1) = 8.89, f (2) = 6.62, f (3) = 3.37
El paso de mejoramiento de poltica da como resultado el siguiente cuadro:
17
Como la nueva poltica (1, 2, 2) es distinta de la anterior, se repite el paso de

determinacin de valor con P3 y R3 (Ejemplo de enumeracin exhaustiva). Esto da
como resultado las siguientes ecuaciones:
La solucin de estas ecuaciones es

f (1) = 8.97, f (2) = 6.63, f(3) = 3.38
El paso de mejoramiento de poltica da como resultado el siguiente cuadro:
Como la nueva poltica (1, 2, 2) es idntica a la anterior, es ptima. Obsrvese que los
descuentos han producido una poltica ptima distinta que establece no aplicar
fertilizante si el estado del sistema es bueno (estado 3).
18
BIBLIOGRAFIA
Hamdy A. Taha., Investigacion de operaciones, ed. Pearson, 7 edicin, Mexico, 2004.
19

Método con etapas infinitas

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Método con etapas infinitas

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD TECNOLOGICA DEL PER

MODELO CON ETAPAS INFINITAS

MTODO CON ETAPAS INFINITAS......................................................................3

MTODO DE ENUMERACIN EXHAUSTIVA...........................................6

METODO DE ITERACIN DE POLITICA SIN DESCUENTO.....................10

MTODO DE ITERACIN DE POLTICA CON DESCUENTO....................15

CONCLUSIONES..........................................Error! Marcador no definido.

MTODO CON ETAPAS INFINITAS

Las probabilidades de transicin en P1 indican que la productividad de determinado ao no

presente ao son regulares (estado 2), la productividad en el prximo ao permanecer regular

= 0 en comparacin con r 23 1= 1 cuando no se usa

1. MTODO DE ENUMERACIN EXHAUSTIVA

son las matrices de transicin y de ingreso (de un

paso) correspondientes a la poltica, s = 1, 2, ..., S. Los pasos del mtodo de

V si , el ingreso esperado de un paso (un periodo) de la poltica s,

dado el estado i, i = 1, 2, ..., m.

si , las probabilidades estacionarias a largo plazo de la matriz de

asociadas con la poltica s. Estas probabilidades, cuando existen, se

calculan con las ecuaciones

, el ingreso esperado de la poltica s por paso (periodo) de

transicin, con la frmula

Paso 4. Se determina la poltica ptima s* tal que:

Ilustraremos el mtodo resolviendo el problema del jardinero con un horizonte de

de las polticas 3 a 8 se deducen de las correspondientes

a las polticas 1 y 2, y son las siguientes:

Los clculos de las

estacionarias se hacen con las ecuaciones

Por ejemplo, si s =2, las ecuaciones correspondientes son

En este caso, el ingreso anual esperado es:

En la tabla siguiente se resumen

para todas las polticas estacionarias.

= 1 para todas esas polticas.)

La poltica 2 produce el mximo ingreso anual esperado. La poltica ptima a largo

2. METODO DE ITERACIN DE POLITICA SIN DESCUENTO

f n ( i )=v i+ P ij f n+1 ( j ) , i=1,2, .. ,m

comportamiento asinttico del proceso. Se definir como la cantidad de etapas

Obsrvese que f es el ingreso esperado acumulado si

que faltan por considerar. Con la nueva definicin, se puede estudiar el

Es el vector de probabilidades de estado estable de la matriz de transicin

f ( i ) es un trmino constante que representa la interseccin asinttica de

es el ingreso ptimo acumulado cuando hay

forma intuitiva por qu f ( i )

es el ingreso esperado por etapa, se puede ver en

para tener en cuenta el estado especfico i

ms un factor de correccin f (i)

. En este resultado se supone que

Ahora, con esta informacin, la ecuacin recursiva se escribe como sigue:

E+ f (i ) =v i + Pij {( 1 ) E+f ( j) } ,i=1,2, . , m

Luego se simplifica y se obtiene

En este caso hay

+1 incgnitas, f(1), f(2), ..., f(m) y E.

como en el problema anterior , el objetivo es determinar la poltica ptima que

no se puede determinar en un paso. En lugar de

1 Paso de determinacin de valor: Se elige la poltica s en forma arbitraria. Con sus

Rs y suponiendo, en forma arbitraria, que

f s ( m) =0 , se resuelven las ecuaciones

E + f ( i ) P Sij f s ( j )=v i , i=1,2, . ,m

Con las incgnitas

(m 1). Continuar en el paso de

f s ( j ) , j=1,2, ., m son los que se determinan en el paso de

Las ecuaciones del paso de iteracin de valores son

forma arbitraria f(3) = 0, la solucin de las ecuaciones es