Professional Documents
Culture Documents
AREQUIPA
FACULTAD DE
INGENIERIAS
CARRERA
PROFESIONAL DE
INGENIERIA INDUSTRIAL
2014 II
Arequipa Per
2014
INDICE
2.
3.
Hay dos mtodos para resolver el problema con etapas infinitas. En el primero se deben
evaluar todas las polticas estacionarias del problema de decisin. Esto equivale a un proceso
de enumeracin exhaustiva y slo se puede usar si la cantidad de polticas estacionarias es
razonablemente pequea. El segundo mtodo, llamado iteracin de poltica, en general es ms
eficiente, porque determina en forma iterativa la poltica ptima
Ejemplo
Cada ao, al comenzar la estacin para trabajar los jardines (de marzo a septiembre) un
jardinero usa una prueba qumica para determinar el estado del suelo. Dependiendo de los
resultados de las pruebas, la productividad para la nueva estacin cae en uno de tres estados:
1) bueno, 2) regular y 3) malo.
A travs de los aos el jardinero observ que las condiciones meteorolgicas prevalecientes
durante el invierno (de octubre a febrero) juegan un papel importante en la determinacin de
la condicin del suelo, dejndolo igual o empeorndolo, pero nunca mejorndolo. En este
respecto, el estado del suelo en el ao anterior es un factor importante para la productividad
del presente ao. Usando los datos de las pruebas hechas por el jardinero, las probabilidades
de transicin durante un periodo de un ao, de un estado de productividad a otro, se
representa con la siguiente cadena de Markov:
Para poner en perspectiva el problema de decisin, el jardinero asocia una funcin de ingreso
(o una estructura de recompensa) con la transicin de un estado a otro. La funcin de ingreso
expresa la ganancia o la prdida durante un periodo de 1 ao, dependiendo de los estados
entre los que se hace la transicin. Como el jardinero tiene la opcin de usar fertilizante o no,
la ganancia o la prdida varan dependiendo de la decisin tomada. Las matrices R1 y R2
resumen las funciones de ingreso, en cientos de $, correspondientes a las matrices P1 y P2,
respectivamente
Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las
condiciones del suelo fueron regulares el ao anterior (estado 2) y se vuelven malas (estado 3)
en este ao, su ganancia ser r 23
fertilizante.
A este respecto, R expresa la recompensa neta despus de haber introducido el costo del
fertilizante.
Qu clase de problema de decisin tiene el jardinero? Primero, se debe conocer si la
actividad de jardinera continuar durante una cantidad limitada de aos, o en forma
indefinida. Aestos casos se les llama problemas de decisin con etapas finitas o con etapas
infinitas. En ambos casos, el jardinero usa el resultado de las pruebas qumicas (estado del
sistema) para determinar la mejor accin (fertilizar o no) que maximice el ingreso esperado.
Tambin, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las
acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se
puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice
que el proceso de toma de decisiones en este caso se representa por una poltica estacionaria.
Cada poltica estacionaria corresponder a matrices de transicin y de ingreso distintas, que se
obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la poltica estacionaria de
aplicar fertilizante slo cuando las condiciones del suelo sean malas (estado 3), las matrices
resultantes de transicin y de ingreso son:
Estas matrices son distintas de P1 y R1 slo en los terceros renglones, que se toman
directamente de P2 y R2, las matrices asociadas con la aplicacin del fertilizante
5
supondremos que
transicin
Paso 3. Determine
Las matrices
Ps
Rs
s
As, se pueden calcular los valores de V i que aparecen en la tabla siguiente:
probabilidades
(Observe que una de las tres primeras ecuaciones es redundante.) La solucin es:
(Aunque no afectar esto a los clculos en modo alguno, observe que cada una de las
polticas 1, 3, 4 y 6 tiene un estado absorbente: el estado 3. Es la razn por la que
1= 2=0
y 3
Esta accin recursiva es la base del desarrollo del mtodo de iteracin de poltica. Sin
embargo, se debe modificar un poco la forma actual, para permitir el estudio del
9
f ( i )=v i+ P ij f 1 ( j ) , i=1,2,3,. .. , m
j=1
es la cantidad de etapas
CITATION
(Thaja, 2004)
Ya que
=( 1 , 2 , . , m)
Donde
f dado el estado i
10
Ya que f ( i )
dado el estado i
y como E
etapas restantes,
es igual a
E+ f ( i ) P ij f ( j ) =v i ,i =1,2, . , m
j=1
ecuaciones con
ecuaciones con m+ 1
ello se usa un mtodo iterativo de dos pasos que, a partir de una poltica arbitraria,
determina una nueva poltica que produce un valor mejor de E .
El proceso iterativo termina cuando hay dos polticas sucesivas que son idnticas.
11
Ps
j=1
ES , f s
s
(1),..., y f
mejoramiento de poltica
2 Paso de mejoramiento de poltica: Para cada estado i, determinar la poltica t que
corresponde a
Los valores de
determinacin de valor. Las decisiones ptimas resultantes para los estados 1, 2, ..., y
m son la nueva poltica t. Si s y t son idnticas, t es ptima. En caso contrario, hacer s
= t y regresar al paso de determinacin de valor.
Ejemplo
Se resolver el problema del jardinero con el mtodo de iteracin de poltica. Se
comienza con la poltica arbitraria que indica no aplicar fertilizante. Las matrices
correspondientes son
12
Si
en
13
Estas
matrices definen las siguientes ecuaciones:
14
(Ntese que representa la cantidad de etapas que faltan.) Se puede demostrar que
cuando (modelo infinito), f(i) =f (i), siendo f (i) el ingreso a valor presente
(descontado), si el sistema est en el estado i y funciona durante un horizonte infinito.
As, el comportamiento de f(i) a largo plazo, cuando es independiente del valor
de . Esto contrasta con el caso donde no hay descuentos, en el que f(i)=E +f (i).
Cabra esperar este resultado, porque al descontar, el efecto de los ingresos futuros
disminuye a cero, en forma asinttica. En realidad, el valor presente f (i) debe tender a
un valor constante cuando .
Con base en esta informacin, se modifican como sigue los pasos de iteracin de
poltica.
Ejemplo:
16
17
Como la nueva poltica (1, 2, 2) es idntica a la anterior, es ptima. Obsrvese que los
descuentos han producido una poltica ptima distinta que establece no aplicar
fertilizante si el estado del sistema es bueno (estado 3).
18
BIBLIOGRAFIA
19