Analyse Des Durées de Vie Déc 2017

Pr.
CHAOUBI Abdelaziz Analyse des durées de vie
Royaume du Maroc ‫المملكة المغربية‬

------- --------
Institut National de statistique ‫المعهد الوطني‬
et d’Economie Appliquée INSEA ‫لإلحصاء و اإلقتصاد التطبيقي‬
ANALYSE STATISTIQUE DES DURÉES DE VIE
CHAOUBI ABDELAZIZ
NOTES DE COURS
(Version provisoire)
2017-2018
1
I.N.S.E.A.
3ème Année I.E.
Filières : Act-Finance, Stat-Démo, Stat-Eco
Professeur : Abdelaziz CHAOUBI
Analyse des durées de vie
Objectif
Le but de ce cours est d’asseoir sur des bases solides les techniques nécessaires à
l’analyse statistique des durées de vie.
Contenu
I. Introduction : définitions, quelques exemples
II. Concept de base et modèles de durées : Fonction de survie ; fonction de

risque ; fonction de risque cumulée ; lois classiques pour une durée de vie
(modèle exponentiel ; modèle de Weibull, …).
III. Censure et Vraisemblance : Quelques mécanismes de censure ; formes de

la fonction de vraisemblance en présence de données censurées.
IV. Estimation non-paramétrique : Estimation de la fonction de survie S(t)

(Estimateur Actuariel; Estimateur de Kaplan-Meier); intervalle de confiance
pour S(tp); estimation de la fonction de risque h(t); estimation de la fonction de
risque cumulée H(t); comparaison de deux courbes de survie.
V. Estimation paramétriques : Modèle exponentiel ; modèle de Weibull.
VI. Modèles de régression paramétriques : Modèles à risques proportionnels ;

modèle de Weibull ; modèle exponentiel.
VII. Modèles semi-paramétriques : Modèles à risques proportionnels ; modèle

de Cox ; fonction de vraisemblance partielle ; analyse sous le modèle de Cox.
Références
1) Lawless, J. (1982), Statistical Models and Methods for Lifetime Data, New York, Wiley.
2) Droesbeke, J.J., Bernard, F. et Tassi, P. (1989), Analyse Statistique des Durées de Vie
(modélisation des données censurées). Economica.
2
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
Introduction
L’analyse statistique des durées de vie est un ensemble de méthodes et techniques

statistiques qui permettent de modéliser et d’estimer les lois décrivant le temps qui s’écoule
jusqu'à la survenue d’un événement particulier (qui n’est pas forcément la mort) : il peut
s’agir par exemple de la durée écouler entre le déclenchement d’une maladie et la guérison,
de la durée de fonctionnement d’un appareil électrique avant qu’elle tombe en panne, de la
durée d’un épisode de chômage, de la durée écouler entre la demande d’un prêt et une
défaillance de remboursement, de la durée écouler entre deux événements dans le cas général.
À l’origine liés aux applications en biologie et en médecine (biostatistique,

épidémiologie, durée de la via humaine, durée entre le déclenchement d’une maladie et la
guérison), en démographie (espérance de vie aux divers âges, âge au mariage, durée séparant
deux naissances), les modèles de durée ce sont révélés d’usage courant aujourd’hui en
économie (analyse du marché du travail, durée de vie des entreprises, durée d’un épisode de
chômage), en finance (défaillances de crédit), en fiabilité (durée de vie de composants
industriels), en assurance (la durée séparant deux sinistres, instant d’un défaut de paiement).
Notons aussi que ce type d’analyse statistique a trouvé son extension dans l’analyse
des biographies ou de modélisation des événements du parcours ou de l’histoire de vie.
Les principaux intérêts de ce type d’analyse statistique sont la détermination de la loi

des durées de vie d’un groupe d’individus homogènes, mais plus souvent la comparaison des
durées de vie de plusieurs groupes.
Généralement, de l’information additionnelle pourra être obtenue (en plus des durées
de vie) pour chaque individu. Celle-ci peut être très variée : caractéristiques physiques, âge,
sexe, milieu de résidence, …etc. Ces variables explicatives pourront alors être mises en
relation avec des durées de vie en spécifiant un modèle et en estimant les paramètres de celui-
ci. En général les techniques de régression conventionnelles ne sont cependant pas utilisables
à cause de la censure.
Un problème fréquemment rencontré en analyse de durées de vie et qui constitue

probablement la raison principale pour laquelle ce domaine forme une branche assez nouvelle
de la statistique, est le problème de données censurées (ou données incomplètes ou
tronquées). Une durée de vie est dite censurée si la panne, la mortalité, le chômage, la rupture
(ou autres selon le contexte) de l’unité statistique n’a pu être observé.
Les données de durées de vie sont des données positives qu’on représentera par des
variables aléatoires T1 , T2 ,.....Tn . On notera par la suite T la durée de vie d’un individu (ou de
l’unité statistique en question). T est une variable aléatoire dont la fonction de répartition F a
pour support IR+. Cela limite à priori la classe des modèles paramétriques utilisables dans
3
l’analyse des durées de vie, mais on pourra toujours transporter une variable aléatoire sur IR+
à l’aide d’une transformation convenable. En pratique cette variable représente la durée passé
dans un état donné (chômage, célibataire) et/ou celle séparant deux événements (changement
de compagne d‘assurance, changement d’emploi, …).
La loi de la durée T est caractérisée entièrement par l’une de ces fonctions :

 Sa fonction de densité : f(t) ;
 Sa fonction de répartition : F(t) ;
 Sa fonction de survie : S(t) = 1-F(t).
En plus de ces fonctions, il existe d’autres pouvant caractérisées T et possédant des

interprétations intéressantes dans l’analyse des durées de vie. Ces fonctions sont :
 La fonction hasard (fonction de risque, taux de panne instantané ou taux de défaillance,

f (t )
taux de sortie d’un état donné) : h(t )  ;
S (t )
 La fonction de survie conditionnelle : S (t / t0 )  P(T  t  t0 / T  t0 ) ;
 La durée moyenne restante :  (t )  E (T  t / T  t ) .
Pour la modélisation des durées de vie, il y a trois approches possibles : paramétrique, non-
paramétrique ou semi-paramétrique.
II. Concept de base et modèles de durées
 Fonction de survie
La fonction de survie est définie, autant dans le cas discret que continu, comme étant la
probabilité qu’un individu survie au delà du temps t :
S (t )  P(T  t )
f (t )  S (t ) .
Dans quelques contextes, particulièrement celui impliquant la durée de vie de fabrication des
articles, S (t ) est référée comme fonction de sûreté.
S (t ) , S (0)  1 et t limS (t )  0 .
Cette fonction est généralement préférée à la fonction de répartition parce qu’elle permet plus
facilement l’incorporation de données censurées.
 Fonction hasard (ou de risque)
1. Modèle continu
f (t ) P(t  T  t  t T  t )
h(t )   lim .
S (t ) t
4
h(t ) spécifie le taux instantané de décès ou d’échec (ou de sortie de l’état) au temps t étant
donné que l’individu survie jusqu’au temps t. en particulier h(t )t est la probabilité
approximative de décès dans l’intervalle t , t  t .
Remarquons que h(t) spécifie entièrement la loi de la variable aléatoire T puisque,

f (t ) d
h(t )    log( S (t )) . (1)
S (t ) dt
L’exemple suivant montre l’intérêt d’analyser une distribution avec la fonction de risque
plutôt qu’avec la fonction de densité.
La fonction de risque cumulée est définie par

t
H (t )   h( x)dx . (2)
0
Les fonctions précédentes sont reliées les unes aux autres par certaines relations :
- Puisque S(0) = 1, en intégrant (1) on obtient

t
S (t )  exp(   h( x)dx)  exp(  H (t )) (3)
0
- La loi de T peut donc également s’écrire
t
f (t )  h(t ) exp(   h( x)dx) . (4)
0
- Pour tout t tel que P(T>t) >0 et tout t ≥ t0 , on a
t t S (t  t0 )
S (t / t0 )  exp(  0 h(u)du) 
t0 S (t )
1 
S (t ) t
- Et si lim uS (u )  0 , alors  (t )  S (u )du .
u  
2. Modèle discret
Considérons maintenant le cas où T est discrète pouvant prendre les valeurs , avec
probabilités
Pj  P(T  t j ) , j = 1,2,…
Alors S(t) s’écrit
S (t )  P(T  t )   Pj .
j:t j t
h(t ) est donnée dans ce cas par
5
h(t j )  P(T  t j T  t j )
P(T  t j ) S (t j 1 ) , (5)
  1
S (t j ) S (t j )
f (t1 ) P(T  t1 )
h(t1 )    f (t1 )
S (t1 ) P(T  t1 )
f (t 2 ) P(T  t 2) P(T  t 2 ) P(T  t 2 )
h(t 2 )    
S (t 2 ) P(T  t 2) 1  P(T  t1 ) 1  h(t1 )
f (t 3 ) P(T  t 3) P(T  t 3) P(T  t 3) (5)
h(t 3 )    
S (t 3 ) P(T  t 3) 1  P(T  t1 )  P(T  t 2 ) (1  h(t1 ))(1  h(t 2 ))
f (t j ) f (t j )
h(t j )   j 1
S (t j )
 (1  h(t ))
i 1
i
on déduit par itération, que S (t ) peut s’écrire en fonction de h(t ) sous la forme
suivante :
j
S (t )   1  h(ti ) ,  t j  t  t j 1 . (6)
i 1
De (3) et (6), on déduit que la fonction de risque cumulée est donnée dans le cas
discret par
j
H (t )    Log (1  h(ti ) ) ,  t j  t  t j 1
i 1
 L’utilisation de la fonction de risque h(t ) est très fréquent dans l’analyse des
durées de vie. L’étude de son évolution en fonction du temps est très important
au niveau de l’interprétation, puisque elle décrit les variations de la probabilité
de décès ou d’échec (ou de sortie de l’état) en fonction du temps.
 La fonction de risque h(t ) est très utile dans l’analyse des durées de vie. En
particulier dans certaines applications, une information a priori sur le taux de
sortie de l’état peut être disponible, ce qui facilitera le choix du modèle pour
les durées de vie. Par exemple il pourra exister des raisons de restreindre le
choix des modèles à ceux dont h(t )  ou ayant toute autre caractéristique.
Une telle restriction pourra alors suggérer parfois la loi des observations.
Exemples :
 T : durée de chômage
Les chômeurs de longue durée ont plus de difficultés à retrouver un emploi.
h(t )  quand t  .
6
h(t )
t
 T : durée de vie d’une machine
Plus la machine est vieille plus le taux de panne augmente. Donc la probabilité de
panne augmente avec l’âge. Ainsi le phénomène d’usure pourra être modélisé par
une fonction h(t ) croissante.
 En pratique, h(t ) est une fonction qui peut prendre des allures assez variées.
 Parmi toutes les formes possibles une est spécialement importante ; celle où
h(t )   est constante. Elle correspond au cas où la variable T est distribuée
suivant la loi exponentielle de paramètre  si T est continue ou bien la loi
géométrique si elle est discrète.
h(t )   ,  t  IR 
t
S (t )  exp(   h(u )du )
0
 t
e
h(t j )   , j
P(T  t j ) (7)

S (t j )
on sait que
j
S (t )   (1  h(t i )
i 1 (8)
 (1   ) j ,  t  t j 1
ceci implique
P(T  t j )  h(t j ) S (t j )
(9)
j 1
  (1   ) , j  1,2,3,....
7
On dit que la distribution exponentielle (géométrique) vérifie la propriété d’indépendance
temporelle.
Définition une variable aléatoire T possède la propriété d’indépendance temporelle ssi

sa fonction de risque h est constante.
Cela signifie qu’à n’importe quelle date, la probabilité de sortir de l’état en question est la
même, sachant qu’on a vécu sur cet état jusque là.
Proposition une distribution possède la propriété d’indépendance temporelle ssi elle est
exponentielle si T est continue (géométrique si T est discrète).
On dit que la distribution exponentielle est sans mémoire.
Lois classiques pour une durée de vie

1) Loi Exponentielle
T~exponentielle ( )  f (t )  e  t , t 0
S (t )  e  t , t  0


 h(t )   , t  0

où   0 . Dans l’analyse de fiabilité, h(t ) est constante en t, signifie que les items dont
la survie suit une loi exponentielle sont toujours « aussi bons que neufs » puisqu’un item
âgé de t a la même probabilité de tomber en panne dans l’instant qui suit q’un item neuf
(d’âge 0).
2) Loi de Weibull

T~Weibull ( ,  )  f (t )   (t ) 1 e  (t ) , t 0
 S (t )  e  (t ) , t  0


h(t )   (t ) 1, t  0

Weibull (1,  )  Exponentielle(  )
3) Loi des valeurs extrêmes

Y~V (  , )  S ( y)  exp  exp(( y   ) /  ),    y   ,
où   0 et       . On a que si T~Weibull(  ,  ), alors Y=Log(T) suit la loi des
valeurs extrêmes V (    Log ( ),   1/  )
4) Loi Log-normale
8
Posons Y  Log (T ) et Y ~ N (  , 2 ) , alors T ~ Log  normale(  , 2 ) .

1  1 y   2
f ( y)  exp  ( ) 
2   2  
1  1 log(t )   2 
f (t )  exp  ( ) 
2 t  2  
 log(t )   
S (t )  1   
  
f (t )
h(t )    0
S (t ) t  
5) loi Log-logistique
Posons Y  Log (T ) et Y ~ log istique( , ) , alors T ~ Log  log istique( , ) .
y
exp 
f ( y;  ,  )    
2
  y   
 1  exp  
    
t  1 

f (t;  , )  1
1  t  2 où   e  ,  
 
1
S (t ) 
1  t 
t  1
h(t )    0 .
1  t  t  
III. Censure et vraisemblance
3.1Quelques types de censure
 On rencontre habituellement ce type de données lorsque des unités statistiques

(des individus ou autres) n’ont pas subit l’événement à la fin de l’étude ou sont
pour une cause ou une autre, perdus de vue avant la fin prévue de l’expérience.
 Supposons qu’on s’intéresse à la durée de chômage. La durée de chômage est

connue seulement pour une portion des individus étudiés ; pour les autres une
borne inférieure (qu’on appelle temps de censure) pour la durée de chômage
est connue sans qu’il soit possible d’être plus précis. C’est le cas des individus
qui sont encore à la recherche d’un emploi à la fin de la période d’observation,
où manque d’informations sur certains individus, qui peut être dû à divers faits
tels que le refus de réponse, les décès et les émigrations. Il s’agira de censure
à droite.
9
 Supposons maintenant une situation où l’observation des durées ne se fait pas
immédiatement lors de l’entrée des individus dans l’expérience. Il peut arriver
que certains des individus trouvent un emploi entre leur entrée dans
l’expérience et le moment où on commence à prendre les observations. Le fait
que ces individus ont trouvé du travail dans cet intervalle de temps est alors
connu, mais les temps précis de chômage, eux, sont inconnus ; pour cette
raison, on ne possédera qu’une borne supérieure pour la durée de chômage de
ces individus. Il est aussi possible que certains individus soient au chômage au
début de la période d’observation, sans connaître leurs durées de chômage
avant le début de la période d’observation. Il est alors raisonnable de croire
que la durée de chômage déclarée sous estime la durée réelle de recherche
d’emploi. Il s’agira cette fois dans les deux cas de censure à gauche.
 Censure par intervalle : apparaît quand l’événement d’intérêt apparaît quelque

part entre deux temps t1 et t 2 .
Début chômeur emploi

t=0 t1 t t2
Les censures surgissent de plusieurs façons et en particulier à cause du mécanisme

déterminant la fin de l’étude. Deux de ces mécanismes sont fréquemment rencontrés
dans l’analyse des durées de vie :
 Censure de type I : l’expérience se termine en un temps prédéterminé ;

 Censure de type II : lorsqu’un nombre prédéterminé de durées de vie sont
survenues.
 Une différence majeure entre ces deux types de censures réside dans le fait que
pour le type I, le nombre de durée est une variable aléatoire alors que pour le
type II, le temps que dure l’expérience est une variable aléatoire. La censure à
droite est le type le plus courant dans l’analyse des urées de vie.
3.2 Formes de la fonction de vraisemblance en présence de données

censurées.
 Si l’échantillon est totalement observé, alors la vraisemblance au point

( x1, x2 ,..., xn ) de l’échantillon ( X1 , X 2 ,..., X n ) d’une population de
paramètre θ est donnée par
n
L ( x,  )   f ( x i ,  )
i 1
 Pour des durées censurées, on distingue trois types :
Supposons qu’on a un échantillon de taille 3 d’une population de fonction de
survie S (t , )  P(T  t; ) .
Les observations sont :
10
t1

, t 2*

, 
t 3l , t3r 
 
durée observée durée censurée à droite durée censurée par int ervalle
1. Durée observée
La vraisemblance d’une durée observée est tout simplement la
probabilité que l’événement apparaît au temps t1
P(T  t1 )  P(T  t1 )  S (t1, )  S (t1  0, )
 Si la variable T d’intérêt est discrète, alors la vraisemblance est égale à
P(T  t1 )  P(T  t1 )  P(T  t1, )  f (t1, )
 Si T est continue, alors la vraisemblance dans ce cas est égale à
S (t1, )  S (t1  0, )  f (t1, )t
Notons que la vraisemblance est affectée seulement par f (t1 ,  ) et

non pas par t , donc on omet t . Donc la vraisemblance est égale à
f (t1,  ) .
2. Durée censurée à droite

La seule information qu’on possède sur cette observation est que
l’événement est apparu après le temps t2 , alors la vraisemblance
pour cette observation est égale à P(T  t 2 , )  S (t 2 , ) .
3. Durée censurée par intervalle

La vraisemblance correspondante à cette observation est égale à
P(T  t3l , t3r ; )  S (t3l , )  S (t3r , ) .
La vraisemblance de l’échantillon est égale au produit des trois vraisemblances :
L( x, )  f (t1, )S (t 2 , )[ S (t3l , )  S (t3r , )]
 Dans le cas général, nous supposons que nous avons un échantillon de taille n
contenant les trois types de durées. Notons par
 D : l’ensemble des durées observées
 C : l’ensemble des durées censurées à droite
 IC : l’ensemble des durées censurées par intervalle
La vraisemblance basée sur cette échantillon est donnée par
L( x,  )   f (ti , )  S (ti , ) [S (til , )  S (tir , )] .

iD iC iIC
11
En particulier, si l’échantillon ne consiste que les durées de vie et les durées
censurées à droite, alors la vraisemblance se réduit à
L( x, )   f (ti , )  S (ti , ) .

iD iC
IV. Estimation non paramétrique
4.1 Estimation de la fonction de survie dans le cas où les données sont

censurées à droite : Estimateur de Kaplan-Mieir
Supposons que nous avons dans un échantillon de taille n0 d’une population homogène k
durées de vie et (n0 –k) durées censurées à droite. Supposons que les données sont structurées
de cette façon :
d1 morts d 2 morts d k morts

  
t 01  ...  t 0m0  t1  t11  t12  ...  t1m1  t2  ...  tk  ...  t kmk
n j : Nombre d’individus à risque juste avant t j

m j : Nombre de durées censurées à droite entre t j et t j 1
d j : Nombre d’individus qui ont subis l’événement au temps t j
k
nj   (mi  d i )
i j
La vraisemblance est donnée par,
m0 k mj
L   S (t 0i  0,  )  [ S (t j ,  )  S (t j  0,  )] S (t jl  0,  )
i 1 j 1 l 1
 Si S (t ) est continue au point t j , alors S (t j , )  S (t j  0, )  0 et
L0
 S (t ) est discontinue aux durées de vie observée.
j 1
S (t j )   (1  i )
i 1
 comme S (t ) est décroissante, alors t j  t jl implique S (t j  0)  S (t jl  0) ,
S (t jl ) est maximisée en prenant S (t j  0)  S (t jl  0)
 S (t 0l )  1 , pour l  1,..., m0
La vraisemblance devient
12
k  mj 
 dj 
L   [ S (t j )  S (t j  0)]  S (t jl  0)
j 1
 l 1 
k j 1
dj d m j m
   j  (1  l ) j (1   j ) j
j 1 l 1
k j 1
dj k d m j m
   j   (1  l ) j (1   j ) j
j 1 j 1l 1
k j 1
d j m j mj
considérons   (1  l ) (1   j )
j 1l 1
= (1  1 ) m1
= (1  1 ) m2  d 2 (1  2 ) m2
= (1  1 ) m3  d 3 (1  2 ) m3  d 3 (1  3 ) m3
= (1  1 ) m4  d 4 (1  2 ) m4  d 4 (1  3 ) m4  d 4 (1  4 ) m5
. . . .
. . . .
. . . .
k k
m1   m j d j m2   m j d j
= (1  1 ) j 2
(1  2 ) j 3
......( 1  k ) m
k
= (1  1 ) n1  d1 (1  2 ) n2  d 2 ......(1  k ) nk  d k
k
n j d j
=  (1   j )
j 1
Après cette simplification la vraisemblance devient
k dj n j d j
L  j (1   j )
j 1
Pour maximiser L nous avons besoin de l’estimation de S(t)
k
ln( L)   [d j  j  (n j  d j ) ln(1   j )]
j 1
 ln( L) d j n j  d j dj
   0  ˆ j 
 j j 1  j nj
13
dj
Sˆ (t )   (1  ˆ j )   (1 
nj
)
j t j t j t j t
Cherchons maintenant la variance asymptotique de l’estimateur de vraisemblance Sˆ (t ) . Pour
le calcul de la variance var(Sˆ (t )) nous avons besoins des variances suivantes :
1. var(d j )
2. var(ˆ j )
3. var(log(Sˆ (t ))
Rappelons la méthode delta, la plus utilisée dans le calcul de la variance :
2
 g ( x) 
var(g ( x))    var(x)
 x 
1. d j n j est une variable aléatoire Bin(n j ,  j ) , donc var(d j )  n j  j (1   j )
2.
d j 
var(ˆ j )  var 
nj 
 
1
 var(d j )
n 2j
 j (1   j )

nj
ceci implique
ˆ j (1  ˆ j )
var̂(ˆ j ) 
nj
d j (n j  d j )

n 3j
14
3.
var(log( Sˆ (t ))  var(log(  (1  ˆ j )))

j t j t
  var(log(1  ˆ j ))
j t j t
2
  log(1  ˆ j ) 
    var(1  ˆ j )
ˆ
  (1   j ) 
j t j t 
1
  ˆ 2
var(1  ˆ j )
j t j  t (1   j )
nous déduisons de ces calculs
1
vâr(log( Sˆ (t ))   ˆ 2
vâr(1  ˆ j )
j t j  t (1   j )
1
  dj 2
var(ˆ j )
j t j  t (1  )
nj
1 d j (n j  d j )
  d
j t j  t (1  j ) 2 n 3j
nj
dj
  n j (n j  d j )
j t j t
Calculons maintenant var(Sˆ (t ))
var(Sˆ (t ))  var(exp(lo g(Sˆ (t ))))
2
  exp(log( Sˆ (t ))) 

ˆ  var(log(Sˆ (t )))
  log(S (t )) 

 exp(log( Sˆ (t )))2 var(log(Sˆ (t )))
 Sˆ (t )  var(log(Sˆ (t )))
2
nous déduisons
 
vâr( Sˆ (t ))  Sˆ (t )
2

dj
n j (n j  d j )
j t j t
15
4.2 Estimation de la fonction de densité
Rappelons que
f (t )  h(t )S (t )
fˆ (t i )  hˆ(t i ) Sˆ (t i )
ainsi nous pouvons estimer f (t i ) par i 1
 ˆ i  (1  ˆ j )
j 1
4.3 Estimation de la fonction de risque cumulée H(t)
Nous avons deux définitions pour la fonction de risque cumulative
H (t )   log(S (t )) (1)
et
H (t )   h(t j ) (2)
j t j t
Si on utilise la première définition, alors l’estimateur de la fonction H(t)
Hˆ (t )   log(Sˆ (t ))
 dj 
  1  n
log 

j t j t  j 
Si on utilise la deuxième définition, alors H(t) pourra être estimer par
~ dj
H (t )   hˆ(t j )   nj
j t j t j t j t
~ ~
H (t ) est appelé estimateur « Nelson-Aalen ». H (t ) est une approximation de
premier ordre de l’estimateur Hˆ (t ) . On montre aisément que ces deux estimateurs sont
asymptotiquement équivalents.
4.4 Intervalle de confiance pour S(t)
 En utilisant l’approximation normale de l’estimateur de Kaplan-Mieir
Sˆ (t )  N (S (t ), vâr( Sˆ (t )) ,
l’intervalle de confiance linéaire de niveau 1   pour S (t 0 ) est donnée par
 
 Sˆ (t )  z vâr( Sˆ (t )), Sˆ (t ) z vâr( Sˆ (t )) 
 0  0 0  0 
 2 2 
16

où z  est le quantile d’ordre de la distribution normale N (0,1) . Notons que cette
2
2
approximation normale n’est pas bonne.
 Une autre estimation de l’intervalle de confiance de S (t 0 ) est possible, en

utilisant une transformation logarithmique de la fonction de risque
cumulative :

 2 (t 0 ) 
 ˆ 
log  log S (t 0 ))  N  log logS (t 0 ))  , 

 log(S 0 
ˆ (t )) 2 
 
ceci donne comme intervalle approximatif de niveau 1   pour S (t 0 ) :
 ˆ
 1
  
 S (t 0 )  , Sˆ (t 0 )  
 
z  (t 0 )  dj
où   exp   / 2  et  2 (t ) 
0  n (n  d )
 log(Sˆ (t 0 ))  j t j t0 j j j
4.5 Estimation de la moyenne µ

  E (T )   S (t )dt
0
pourra être estimer par
 k
̂   Sˆ (t )dt   (t j  t j 1 )Sˆ (t j ) .
0 j 1
La variance de cet estimateur est donnée
2 dj
 t max ˆ 
vˆ( ˆ )     S (t )dt 
t  n j (n j  d j )
j D  j
où t max est la plus grande durée de vie.
4.6 Estimation du pème quantile
Définition on appelle pème quantile de la distribution F, la valeur t p telle que

F (t p )  p
 t p est unique dans le cas où la distribution F est continue et strictement
monotone.
17
 Si non t p n’est pas unique
 Exemple
Soit T la variable aléatoire prenant les valeurs 1, 2 et 3 avec les probabilités

respectives ½ , ¼ et ¼
0 , t  1
1 / 2 , 1  t  2

F (t )  
3 / 4 , 2  t  3
1 , t  3
Cherchons le quantile d’ordre 0,7. La définition précédente n’est pas bonne pour
le cas discret. Redéfinissons le pème quantile comme étant la valeur telle que
F (t p )  p
Avec cette définition, toute valeur supérieure ou égale à 2 satisfait cette définition.
 Pour avoir l’unicité, nous définition le pème quantile, la valeur t p définie par
t p  inf t : F (t )  p
avec cette définition, le quantile d’ordre 0,7 est égale à 2.
 Le pème quantile en terme de la fonction de survie est donné par
 
tˆ p  inf t : Sˆ (t  0)  1  p
4.7 Estimation de l’intervalle de confiance du pème quantile
 Intervalle linéaire
 Intervalle basé sur la transformation logarithmique
4.8 Estimateur Actuariel de S(t)

Supposons que dans un échantillon de taille n de la durée d’intérêt T, nous avons
observées k durées de vie et (n-k) durées censurées. Subdivisons l’axe des temps 0, en
 
k+1 intervalles a j 1 , a j avec a1, a2 ,..., ak les k durées de vie observées, a0  0 et
ak 1   .
Notons par
 N j : nombre d’individus à risque au temps a j 1
 D j : nombre d’individus ayant expérimenté l’événement dans l’intervalle a j 1 , a j  
 W j : nombre d’individus n’ayant pas expérimenté l’événement (censurées à droite) dans
l’intervalle a j 1 , a j 
Nous avons
 n  N1 et N  N  D W
j 1 j j j
I1 I2 Ij Ik
a0 a1 a2 aj-1 aj ……………ak-1 ak
18
Pj
Notons par P j  S (a j ) la probabilité de survivre après a j et par p j   1 q j .
P j 1
j
Nous avons P0  1 , P j   pi , q j représente la probabilité conditionnelle qu’un
i 1
individu soit décédé dans I j sachant qu’il est survivant dans I j 1
Dj
qˆ j 
Wj
Nj 
2
j
Di
pˆ j   (1  )
W
i 1
Ni  i
2
4.9 Estimation de la fonction de densité
4.10 Estimation de la fonction de risque
4.11 Comparaison de deux courbes de survie
V. Modèles paramétriques
VI. Modèles de régression paramétriques
VII. Modèles semi-paramétriques
19

Analyse Des Durées de Vie Déc 2017

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analyse Des Durées de Vie Déc 2017

Uploaded by

Copyright:

Available Formats

Pr.

CHAOUBI Abdelaziz Analyse des durées de vie

Royaume du Maroc ‫المملكة المغربية‬

ANALYSE STATISTIQUE DES DURÉES DE VIE

Analyse des durées de vie

I. Introduction : définitions, quelques exemples

II. Concept de base et modèles de durées : Fonction de survie ; fonction de

III. Censure et Vraisemblance : Quelques mécanismes de censure ; formes de

IV. Estimation non-paramétrique : Estimation de la fonction de survie S(t)

V. Estimation paramétriques : Modèle exponentiel ; modèle de Weibull.

VI. Modèles de régression paramétriques : Modèles à risques proportionnels ;

VII. Modèles semi-paramétriques : Modèles à risques proportionnels ; modèle

L’analyse statistique des durées de vie est un ensemble de méthodes et techniques

À l’origine liés aux applications en biologie et en médecine (biostatistique,

Les principaux intérêts de ce type d’analyse statistique sont la détermination de la loi

Un problème fréquemment rencontré en analyse de durées de vie et qui constitue

La loi de la durée T est caractérisée entièrement par l’une de ces fonctions :

En plus de ces fonctions, il existe d’autres pouvant caractérisées T et possédant des

 La fonction hasard (fonction de risque, taux de panne instantané ou taux de défaillance,

II. Concept de base et modèles de durées

 Fonction hasard (ou de risque)

Remarquons que h(t) spécifie entièrement la loi de la variable aléatoire T puisque,

La fonction de risque cumulée est définie par

- Puisque S(0) = 1, en intégrant (1) on obtient

Alors S(t) s’écrit

Définition une variable aléatoire T possède la propriété d’indépendance temporelle ssi

On dit que la distribution exponentielle est sans mémoire.

Lois classiques pour une durée de vie

3) Loi des valeurs extrêmes

Posons Y  Log (T ) et Y ~ N (  , 2 ) , alors T ~ Log  normale(  , 2 ) .

III. Censure et vraisemblance

3.1Quelques types de censure

 On rencontre habituellement ce type de données lorsque des unités statistiques

 Supposons qu’on s’intéresse à la durée de chômage. La durée de chômage est

 Censure par intervalle : apparaît quand l’événement d’intérêt apparaît quelque

Début chômeur emploi

Les censures surgissent de plusieurs façons et en particulier à cause du mécanisme

 Censure de type I : l’expérience se termine en un temps prédéterminé ;

3.2 Formes de la fonction de vraisemblance en présence de données

 Si l’échantillon est totalement observé, alors la vraisemblance au point

P(T  t1 )  P(T  t1 )  S (t1, )  S (t1  0, )

 Si la variable T d’intérêt est discrète, alors la vraisemblance est égale à

P(T  t1 )  P(T  t1 )  P(T  t1, )  f (t1, )

 Si T est continue, alors la vraisemblance dans ce cas est égale à

S (t1, )  S (t1  0, )  f (t1, )t

Notons que la vraisemblance est affectée seulement par f (t1 ,  ) et

2. Durée censurée à droite

3. Durée censurée par intervalle

P(T  t3l , t3r ; )  S (t3l , )  S (t3r , ) .

La vraisemblance de l’échantillon est égale au produit des trois vraisemblances :

L( x, )  f (t1, )S (t 2 , )[ S (t3l , )  S (t3r , )]

L( x,  )   f (ti , )  S (ti , ) [S (til , )  S (tir , )] .

L( x, )   f (ti , )  S (ti , ) .

IV. Estimation non paramétrique

4.1 Estimation de la fonction de survie dans le cas où les données sont

d1 morts d 2 morts d k morts

n j : Nombre d’individus à risque juste avant t j

La vraisemblance est donnée par,

var(log( Sˆ (t ))  var(log(  (1  ˆ j )))

Nous avons deux définitions pour la fonction de risque cumulative

4.4 Intervalle de confiance pour S(t)

 En utilisant l’approximation normale de l’estimateur de Kaplan-Mieir

 Une autre estimation de l’intervalle de confiance de S (t 0 ) est possible, en

4.5 Estimation de la moyenne µ