You are on page 1of 242

FO: GCP/RAS/163/NET

FO : GCP/INT/679/EC

MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE

ORGANISATION DES NATIONS UNIES POUR L’ALIMENTATION ET L’AGRICULTURE


COOPERATION HOLLANDAISE
COMMISSION EUROPEENNE
FO: GCP/RAS/163/NET
FO : GCP/INT/679/EC

MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE

de

K. JAYARAMAN
Kerala Forest Research Institute
Peechi, Thrissur, Kerala (Inde)

ORGANISATION DES NATIONS UNIES POUR L’ALIMENTATION ET L’AGRICULTURE


COOPERATION HOLLANDAISE
COMMISSION EUROPEENNE
REMERCIEMENTS

L’auteur est profondément reconnaissant au FORSPA d’avoir soutenu la préparation de ce manuel.


Il remercie également le Kerala Forest Research Institute d’avoir donné l’autorisation d’entreprendre
cette étude et mis à disposition les infrastructures nécessaires. Bon nombre d’exemples illustrant les
différentes techniques statistiques décrites dans ce manuel se fondent sur des données publiées par
des chercheurs du Kerala Forest Research Institute. L’auteur exprime aussi sa gratitude à tous ses
collaborateurs de l’Institut qui ont coopéré à titre gracieux et tient à remercier en particulier Smt C.
Sunanda et M. A.G. Varghese, agrégés en recherche de la Division des statistiques du Kerala Forest
Research Institute, qui ont eu la patience de lire le manuscrit et ont offert de nombreuses suggestions
utiles pour en améliorer le contenu et la forme.

Le présent manuel est dédié à tous ceux qui sont fermement décidés à chercher la VERITE, en
tranchant le voile du hasard avec le sabre de la raison pure

Mars 1999 K. Jayaraman

i
NOTE INTRODUCTIVE

(à la version française)

Face aux différents défis que connaît l’Afrique dans son développement, la forêt et les ressources
ligneuses ont une place essentielle à jouer. Il est ainsi indispensable de promouvoir une gestion
durable des arbres et des forêts pour qu’un tel patrimoine puisse au mieux servir les besoins et les
espérances des hommes. Pour tendre vers cette politique où s’intègrent, d’une manière équilibrée,
les aspects économiques, sociaux et environnementaux, la Commission européenne et le
Département des forêts de la FAO ont décidé d’un programme de partenariat qui définit une
démarche commune en faveur de l’Afrique, celle de soutenir l’aménagement durable des forêts.

Un tel objectif appelle à un renforcement des capacités nationales dans la collecte et l’analyse d’une
information fiable et actualisée portant sur le secteur forestier. Toutefois, améliorer la qualité des
données, s’assurer de leur validité ou élaborer un cadre effectif pour leur collecte et diffusion sont
des difficultés quotidiennes et répétées pour de nombreux services forestiers africains. Cette réalité,
cette préoccupation, nos collègues forestiers africains nous l’ont expliquée et soulignée au cours des
activités menées dans le cadre du programme CE-FAO durant les ateliers techniques ou parmi les
recommandations de leurs rapports. Enfin le résultat des échanges et discussions nous a montré que
l’organisation des données et leur valeur passent aussi par une meilleure maîtrise des concepts et
principes statistiques.

A travers un constat similaire et afin de donner aux forestiers asiatiques les outils nécessaires dans
leurs travaux de planification, de collecte des données et d’interprétation des résultats, FORSPA
(acronyme de “Forestry Research Support Programme for Asia and the Pacific” ou “Programme de
soutien à la recherche forestière pour l’Asie et le Pacifique”) a facilité la rédaction d’un manuel de
statistiques.

De ce travail en anglais, il nous est paru important de pouvoir le traduire et d’en proposer une
version française pour une plus ample diffusion. Celle-ci a pu être produite grâce aux fonds mis à
disposition par la Commission européenne.

Avec le présent document, nous espérons que vous, experts, chercheurs ou spécialistes forestiers,
puissiez y trouver les exemples et les techniques utiles à votre activité professionnelle.

Michael Martin
Chef de la Sous-Division
de la planification et des statistiques forestières

1
INTRODUCTION

Le présent manuel a été rédigé pour le FORSPA (Bangkok) qui demandait que soit préparé un
manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du
Bhoutan. A cette fin, nous nous sommes rendus au Bhoutan pour examiner la nature des travaux de
recherche entrepris dans ce pays et nous avons dressé un plan du manuel en consultation étroite avec
les chercheurs. A l’origine, le manuel devait être structuré suivant un plan précis, en fonction de la
série de travaux de recherche envisagée dans le huitième plan quinquennal pour le Bhoutan, mais
nous avons choisi une présentation susceptible d’intéresser une plus vaste gamme de chercheurs qui
entreprennent des enquêtes similaires. Ce manuel s’adresse aux chercheurs spécialisés dans les
ressources naturelles renouvelables, en particulier les forêts, les terres agricoles et l’élevage, et
devrait leur servir de référence pour planifier leurs travaux, collecter et analyser les données
pertinentes et en interpréter les résultats. Les exemples utilisés pour illustrer les différentes techniques
proviennent principalement du secteur forestier.

Après quelques remarques d’introduction sur la nature de la méthode scientifique et le rôle des
statistiques dans la recherche scientifique, le manuel présente des techniques spécifiques. Il
commence par décrire les procédures élémentaires d’estimation et de vérification statistique, les
méthodes de planification et d’analyse des expériences, ainsi que quelques techniques
d’échantillonnage classiques, pour ensuite passer à des méthodes statistiques utilisées dans certaines
disciplines spécifiques comme l’amélioration génétique des arbres, la biologie de la faune, la
dendométrie et l’écologie – qui sont souvent l’apanage exclusif de la recherche forestière.

En décrivant ces méthodes, nous ne prétendons pas en avoir fait le tour, d’une part parce qu’il est
toujours possible d’utiliser les données de façon plus approfondie en fonction des besoins des
chercheurs, et de l’autre, parce que les méthodologies sont constamment perfectionnées. En écrivant
ce manuel, notre intention était surtout de présenter aux chercheurs quelques-uns des concepts et
des techniques fondamentaux des statistiques, qui trouvent de nombreuses applications dans la
recherche forestière et dans des domaines connexes.

Il nous a également été précisé que le manuel devait être rédigé dans un style aussi simple que
possible, et enrichi d’illustrations de manière à offrir aux chercheurs une source de référence facile à
consulter. C’est pourquoi nous nous sommes limités à décrire des plans et des analyses d’expérience
simples, accompagnés d’illustrations appropriées. Pour les techniques plus complexes, nous
renvoyons le lecteur aux ouvrages classiques sur ce sujet. Malgré cette réserve, nous nous sommes
efforcés d’insérer dans le manuel tous les éléments requis pour un cours élémentaire de statistiques
appliquées, en indiquant plusieurs domaines d’application et en conseillant d’autres ouvrages à lire.
En ajoutant d’autres thèmes, nous n’aurions fait qu’alourdir ce manuel et le rendre trop compliqué.

Toute personne ayant une connaissance élémentaire des mathématiques de base devrait être
capable de comprendre les descriptions fournies dans ce manuel. Dans la mesure du possible, on a
évité la théorie et le calcul matriciel. Dans le cas contraire, les explications nécessaires sont fournies.
Il est conseillé aux débutants de lire les chapitres les uns après les autres dans l’ordre où ils sont
présentés. Les chercheurs plus expérimentés peuvent sauter les premières sections et passer
directement aux applications décrites dans les suivantes.

2
NOTATION

Tout au long de cet ouvrage, les noms des variables sont indiqués en italiques. Le symbole
n

∑ signifie « somme de ». Par exemple, l’expression G = y1 + y2 +...+ yn peut s’écrire G = ∑ yi


i =1

ou simplement G = ∑ y si l’on comprend, d’après le contexte, quels sont les termes à additionner.
Dans le cas d’une sommation comprenant plusieurs indices, les sommes marginales sont notées par
un point (.) à la place de l’indice inférieur, comme indiqué ci-dessous :
∑ yij = yi. , ∑ yij = y.j , ∑ yij = y..
j i ij

La juxtaposition de deux lettres, comme par exemple ab dans les équations, signifie généralement
produit de a et b, sauf indication contraire expresse ou se comprenant d’après le contexte. Les
chiffres à multiplier sont indiqués par des parenthèses, par ex : (4)(5) signifie 4 multiplié par 5. La
division est indiquée par une barre transversale (/) ou par une ligne de séparation horizontale entre le
numérateur et le dénominateur.

La numérotation des équations, des tableaux et des figures est fonction des numéros des chapitres.
Par exemple, l’équation (3.1) est l’équation 1 du chapitre 3.

On trouvera à l’Annexe 7 certaines notations additionnelles, comme la notation factorielle,


combinatoire ou matricielle, avec les définitions correspondantes.

3
1. LA METHODE STATISTIQUE DANS LA RECHERCHE SCIENTIFIQUE

Comme dans toute autre branche de la science, la recherche forestière est basée sur une méthode
scientifique familièrement appelée approche induco-déductive. Toute méthode scientifique passe par
la formulation d’hypothèses à partir de faits observés, puis par des cycles successifs de déduction et
de vérification. Les faits sont des observations qui sont considérées comme vraies, alors qu’une
hypothèse est une conjecture provisoire concernant le phénomène à l’examen. Des déductions sont
faites à partir des hypothèses, au moyen d’arguments logiques qui sont eux-mêmes vérifiés par des
méthodes objectives. Le processus de vérification peut déboucher sur de nouvelles hypothèses,
déductions et vérifications s’enchaînant dans un long processus au cours duquel émergent des
théories, des principes et des lois scientifiques.

Ceci peut être illustré par l’exemple suivant : supposons que l’on observe que les arbres se trouvant
aux limites d’une plantation poussent mieux que ceux qui sont à l’intérieur. L’une des hypothèses
provisoires qui pourraient être formulées à partir de ce fait est « la croissance des arbres est plus
rapide à la périphérie de la plantation, parce qu’il rentre davantage de lumière par les côtés
ouverts ». On peut ensuite en déduire qu’en variant l’espacement entre les arbres, ce qui permet de
contrôler la quantité de lumière qui rentre, on peut modifier la croissance des arbres. Ceci conduira à
planifier une expérience d’espacement dans laquelle on plantera des arbres à des espacements
différents, pour observer leur croissance. Si, à l’issue de cette expérience, on observe que des
arbres plantés à la même distance n’ont pas la même croissance, on sera amené à formuler une
deuxième hypothèse « la variation de la fertilité du sol est la cause des différences de croissance ».
Ceci pourrait conduire à planifier un nouvel essai d’espacement avec engrais. Si le chercheur
observe à l’issue de celui-ci que des arbres soumis au même espacement et recevant la même dose
d’engrais n’ont pas la même croissance, il peut être incité à conduire un essai d’espacement, avec
engrais et variétés. A la fin d’une série d’expériences, on peut en arriver à la conclusion que la loi des
facteurs limitants s’applique, c’est-à-dire que la croissance des plantes cultivées est entravée par le
facteur environnemental le plus limitant.

Les deux principales caractéristiques d’une méthode scientifique sont sa répétabilité et son
objectivité. Alors que ces conditions sont rigoureusement vérifiées dans le cas de nombreux
processus physiques, les phénomènes biologiques sont caractérisés par la variation et l’incertitude.
Des expériences répétées dans des conditions similaires ne donnent pas nécessairement les mêmes
résultats, car elles sont soumises à des fluctuations dues au hasard. En outre, il est souvent impossible
d’observer l’ensemble complet des individus qui forment la population et, dans de telles situations,
les déductions doivent être faites sur la base d’un ensemble d’échantillons d’observations. La science
des statistiques est utile pour choisir objectivement un échantillon, faire des généralisations valables à
partir des observations faites sur l’ensemble d’échantillons, mais aussi pour mesurer le degré
d’incertitude, ou la fiabilité, des conclusions tirées.

La collecte des données et leur interprétation sont deux aspects pratiques majeurs des investigations
scientifiques. Les données peuvent être obtenues dans le cadre d’une enquête par sondage sur une
population existant dans la nature, ou dans le cadre d’un plan d’expérience portant sur une
population fictive. Les données collectées sont résumées et des informations utiles en sont extraites à
l’aide de techniques d’inférence statistique. En outre, la simulation est une autre méthode, d’une
importance capitale pour la recherche forestière, qui gagne du terrain depuis quelques années, avec

-4-
La méthode statistique dans la recherche scientifique

l’apparition de l’informatique. Cette méthode est particulièrement utile dans le secteur forestier car
les techniques de simulation peuvent remplacer des expériences en champ à grande échelle qui sont
extrêmement coûteuses et longues. La méthode consiste à élaborer des modèles mathématiques
captant la plupart des caractéristiques pertinentes du système examiné, puis à faire des essais sur
ordinateur plutôt qu’en conditions réelles. Nous allons commencer par examiner quelques traits
distinctifs supplémentaires de ces trois approches – à savoir enquête, expérience et simulation –
avant de passer à une description détaillée des techniques concernées, dans les chapitres suivants.

Au sens large, toutes les études in situ impliquant des observations indépendantes sur la nature
peuvent être classées dans la catégorie des enquêtes. Ces enquêtes peuvent être entreprises pour
diverses raisons, par exemple pour estimer les paramètres d’une population, pour comparer des
populations différentes, pour étudier le mode de distribution de certains organismes, ou pour
découvrir les interactions entre plusieurs variables. Les relations observées dans le cadre de ces
études sont rarement des relations de cause à effet, mais elles ont une valeur prévisionnelle. Les
études portant sur des sciences comme l’économie, l’écologie et la biologie de la faune rentrent
généralement dans cette catégorie. La théorie statistique des enquêtes repose sur l’échantillonnage
aléatoire, qui assigne une probabilité de sélection donnée à chaque unité d’échantillonnage de la
population.

Les expériences servent à vérifier des hypothèses dans des conditions que l’on maîtrise. Dans le
secteur forestier, les expériences sont réalisées en forêt, en pépinière ou en laboratoire, à l’aide de
traitements déterminés au préalable, sur des unités expérimentales bien définies. L’expérimentation
repose sur les trois principes de la randomisation, de la répétition et du contrôle local, qui sont
indispensables pour obtenir une estimation valable de l’erreur et réduire son ampleur. L’allocation
aléatoire des unités expérimentales aux différents traitements garantit l’objectivité, la répétition des
observations accroît la fiabilité des conclusions et le principe du contrôle local réduit l’incidence de
facteurs extérieurs sur la comparaison des traitements. Les essais sylvicoles en plantations et en
pépinières et les essais en laboratoire sont des exemples typiques d’expériences forestières.

Une expérimentation relative à l’état d’un système, faite à l’aide d’un modèle temporel, est appelée
simulation. Un système peut être défini comme un ensemble d’éléments, également appelés
composantes. Un ensemble d’arbres dans un peuplement forestier, ou des producteurs et des
consommateurs dans un système économique sont des exemples de composantes. Les éléments
(composantes) ont certaines caractéristiques, ou attributs, auxquels sont attachées des valeurs
numériques ou logiques. Il existe des relations entre les éléments, de sorte que ceux-ci interagissent.
L’état d’un système est déterminé par les valeurs numériques ou logiques des attributs des éléments
qui le composent. Les interactions entre les éléments d’un système peuvent être exprimées au moyen
d’équations mathématiques ; il est donc possible de prévoir l’état du système dans d’autres
conditions possibles, au moyen de modèles mathématiques. La simulation revient à tracer l’évolution
d’un système à travers le temps, dans le cadre de diverses hypothèses.

Les enquêtes, les expérimentations et les simulations sont des éléments essentiels de tout programme
de recherche scientifique, mais il importe de les incorporer dans un cadre plus large et plus
stratégique, pour garantir l’efficacité de l’ensemble du programme. Il est désormais reconnu qu’une
analyse de systèmes fournit un tel cadre, dont l’objet est d’aider les décideurs à choisir une ligne
d’action rationnelle ou de prévoir l’issue d’une ou plusieurs lignes d’action qui semblent souhaitables.

-5-
La méthode statistique dans la recherche scientifique

Selon une autre définition plus formelle, l’analyse de systèmes désigne l’organisation ordonnée et
logique des données et de l’information dans des modèles, suivie d’une vérification et d’une
exploration rigoureuses de ces modèles, en vue de les valider et les améliorer (Jeffers, 1978).

Dans le domaine forestier, les recherches vont du niveau moléculaire à l’ensemble de la biosphère.
La nature du matériel étudié détermine dans une large mesure les méthodes employées pour les
enquêtes. De nombreux niveaux d’organisation dans la hiérarchie naturelle, par exemple des micro-
organismes ou des arbres, peuvent faire l’objet d’expérimentations, alors que d’autres niveaux se
prêtent uniquement à des observations passives et à des exercices de modélisation. Quels que soient
les objets à l’étude, on constate que le cadre logique de l’approche scientifique et de l’inférence
statistique restent inchangés. Le présent manuel décrit essentiellement les différentes méthodes
statistiques qui permettent en toute objectivité de collecter des données et d’en tirer des déductions
valables.

-6-
2. NOTIONS DE STATISTIQUE

2.1. Le concept de probabilité

Le concept de probabilité est au centre des sciences statistiques. En tant que notion subjective, la
probabilité est en quelque sorte le degré de croyance en la survenue d’un événement, dans un
intervalle de variation continu entre l’impossibilité et la certitude. En termes généraux, la valeur p
attribuée par une personne à la probabilité P(E) d’un événement E représente le prix que cette
dernière est prête à payer pour gagner une somme d’argent déterminée, si ledit événement se
matérialise. Si le prix que la personne est prête à payer est de x unités pour gagner y unités de
monnaie, la probabilité assignée est P(E)= x / (x + y). Des mesures plus objectives de la probabilité
se fondent sur les issues également vraisemblables et la fréquence relative qui sont décrits plus loin.
En théorie statistique, il existe aussi une définition axiomatique rigoureuse de la probabilité, dont il ne
sera pas question ici.

Définition classique de la probabilité : Supposons qu’un événement E puisse se produire de x


façons différentes, sur un total de n façons également vraisemblables. Dans ces conditions, la
probabilité d’occurrence de l’événement E (ou de son succès) est donnée par
x
p = P(E) = (2.1)
n
La probabilité de non occurrence de l’événement (ou de son échec) est donnée par
n− x x
q = P(non E) = = 1− (2.2)
n n
= 1 − p = 1 − P(E) (2.3)
On a donc p + q = 1, ou encore P(E) + P(non E) = 1. L’événement “ non E ” est parfois noté
~
E, E or ~ E .

Par exemple, supposons que la couleur des fleurs d’une espèce végétale particulière soit gouvernée
par la présence d’un gène dominant A dans un seul locus du gène, les combinaisons gamétiques AA
et Aa donnant des fleurs rouges et la combinaison aa des fleurs blanches. E est l’événement “ obtenir
des fleurs rouges ” dans la descendance par autofécondation d’un hétérozygote, Aa. Supposons que
les quatre combinaisons gamétiques AA, Aa, aA et aa aient toutes les mêmes chances d’être
réalisées. Puisque l’événement E peut être réalisé par trois de ces combinaisons, on a :
3
p = P(E) =
4
La probabilité d’obtenir des fleurs blanches dans la descendance par autofécondation d’un
hétérozygote Aa est
3 1
q = P(E) = 1 − =
4 4
Notons que la probabilité d’un événement est un nombre compris entre 0 et 1. Si l’événement ne
peut pas se produire, sa probabilité est égale à 0. S’il doit se produire, c’est-à-dire si son
occurrence est certaine, sa probabilité est égale à 1. Si p est la probabilité qu’un événement se
produise, les chances de réussite sont p:q (lire ‘p contre q’) ; et les chances d’échec sont q:p. Ainsi,

-7-
Notions de statistique

dans l’exemple qui précède, les chances d’obtenir des fleurs rouges sont égales à
3 1
p : q = : = 31: , ou 3 contre 1.
4 4

Interprétation de la probabilité en termes de fréquence : L’inconvénient de la définition


précédente tient au manque de précision de l’expression ‘également vraisemblable’. Etant donné que
ces mots semblent être synonymes de ‘également probables’, la définition est circulaire, puisque la
probabilité est définie à partir d’elle-même. C’est la raison pour laquelle certains ont préconisé une
définition statistique de la probabilité. Selon cette définition, la probabilité estimée, ou probabilité
empirique, d’un événement est la fréquence relative de l’occurrence de l’événement, sur un grand
nombre d’observations. La probabilité proprement dite est la limite de cette fréquence relative
lorsque le nombre d’observations augmente indéfiniment. La probabilité de l’événement E est
exprimée par la formule :
P(E) = lim f n (E) (2.4)
n→ ∞
où f n (E) = (nombre de fois où E s’est produit)/(nombre total d’observations).

Par exemple, une enquête concernant une espèce particulière menacée d’extinction, a donné les
suites de nombres de plantes de cette espèce, indiquées ci-après.
x (nombres de plantes de l’espèce menacée) : 1, 6, 62, 610
n (nombres de plantes examinées) : 1000, 10000, 100000, 1000000
p (proportion de l’espèce menacée) : 0.001, 0.00060, 0.00062, 0.00061
Lorsque n tend vers l’infini, la fréquence relative semble tendre vers une certaine limite. Cette
propriété empirique est appelée stabilité de la fréquence relative.

Probabilité conditionnelle, événements indépendants et dépendants : Si E1 et E2 sont deux


événements, la probabilité que E2 survienne, sachant que E1 s’est produit, est notée P(E2/E1) ou P(E2
sachant E1) et est appelée probabilité conditionnelle de E2 sachant que E1 s’est produit. Si
l’occurrence ou la non occurrence de E1 est sans influence sur la probabilité d’occurrence de E2,
P(E2/E1) = P(E2) et les événements E1 et E2 sont dits indépendants. Dans le cas contraire, les
événements sont dits dépendants.

Si E1E2 est l’événement “ réalisation de E1 et de E2 ”, parfois appelé événement composé, on a


P(E1E2) = P(E1)P(E2/E1) (2.5)

En particulier , P(E1E2) = P(E1)P(E2) si les événements sont indépendants. (2.6)

Considérons par exemple la ségrégation conjointe de deux caractères, tels que la couleur des fleurs
et la forme des graines d’une espèce végétale, chacun de ces caractères étant respectivement
gouverné par la présence des gènes dominants A et B. Individuellement, les combinaisons AA et Aa
donnent des fleurs rouges et la combinaison aa des fleurs blanches, les combinaisons BB et Bb
donnent des graines arrondies alors que la combinaison bb produit des graines ridées.

Soient E1 et E2 les événements ‘obtenir des plantes à fleurs rouge’ et ‘obtenir des plantes à graines
arrondies’ dans la descendance respectivement obtenue par autofécondation d’un hétérozygote
AaBb. Si E1 et E2 sont des événements indépendants, c’est à dire s’il n’y a pas d’interaction entre les

-8-
Notions de statistique

deux locus de gène, la probabilité d’obtenir des plantes à fleurs rouges et à graines rondes dans la
descendance autofécondée est,
 3  3 9
P(E1E2)=P(E1)P(E2)=     =
 4  4 16

En général, si E1, E2, E3, …, En sont n événements indépendants ayant les probabilités respectives
p1, p2, p3, …, pn, la probabilité d’occurrence de E1 et E2 et E3 et … En est p1p2p3…pn.

2.2. Distribution de fréquence

Vu la grande utilité pratique de l’interprétation de la probabilité en termes de fréquence, on établit


souvent des distributions de fréquence pour réduire d’importantes masses de données brutes, car
cette technique donne des informations sur le mode de réalisation de classes d’événements
prédéfinies. Les données brutes sont des mesures d’un attribut quelconque concernant un groupe
d’individus. La mesure peut être faite à l’échelle nominale, ordinale, proportionnelle ou par intervalle.
L’échelle nominale se réfère à une mesure à son niveau le plus faible, lorsqu’un nombre ou d’autres
symboles sont utilisés uniquement pour classer un objet, une personne ou une caractéristique, comme
par exemple l’état de santé (sain, malade). L’échelle ordinale est celle dans laquelle, dans un groupe
de classes d’équivalence connu, la relation “ plus grande que ” convient pour toutes les paires de
classes, de sorte qu’un classement complet par ordre de grandeur est possible (ex : situation
économique et sociale). Si une échelle a toutes les caractéristiques d’une échelle ordinale et si l’on
connaît en outre l’amplitude des distances entre deux nombres quelconques sur l’échelle, on a une
échelle par intervalle, comme par exemple les échelles de température centigrade ou Fahrenheit. Une
échelle par intervalle ayant un zéro absolu à son origine forme une échelle proportionnelle. Dans une
échelle proportionnelle, le rapport de deux points quelconques de l’échelle est indépendant de l’unité
de mesure, ex : hauteur des arbres. On peut se référer à Siegel (1956) pour une analyse détaillée des
différentes échelles de mesures, de leurs propriétés et des opérations possibles dans chaque échelle.

Indépendamment de l’échelle de mesure, la réduction des données peut se faire par la méthode dite
des fréquences de classe, qui consiste à répartir les données en classes ou catégories et à
déterminer le nombre d’individus appartenant à chacune de ces classes. On appelle distribution de
fréquence, ou tableau de fréquences, la mise en tableaux de données ventilées par classes, avec
les fréquences de classes correspondantes. Le Tableau 2.1 présente une distribution de fréquence
des diamètres à hauteur d’homme (dbh) enregistrés au centimètre le plus proche, de 80 Tecks, sur
une parcelle-témoin. La fréquence relative d’une classe, généralement exprimée en pourcentage,
est égale à la fréquence de la classe considérée divisée par la fréquence totale de toutes les classes.
Ainsi, la fréquence relative de la classe 17-19, dans le Tableau 2.1 est (30/80)100 = 37,4%. La
somme de toutes les fréquences relatives de toutes les classes est bien entendu égale à 100%.

-9-
Notions de statistique

Tableau 2.1. Fréquence de distribution des diamètres à hauteur d’homme (dbh) des Tecks, sur une
parcelle.
Classe de dbh Fréquence Fréquence relative
(cm) (Nombre d’arbres) (%)
11-13 11 13.8
14-16 20 25.0
17-19 30 37.4
20-22 15 18.8
23-25 4 5.0
Total 80 100.0

Le symbole définissant l’amplitude d’une classe, tel que 11-13 dans le tableau ci-dessus, est appelé
intervalle de classe. Les chiffres extrêmes 11 et 13 forment les limites de classe ; le plus petit
nombre (11) constitue la limite inférieure de classe, et le plus grand la limite supérieure de classe.
Les termes de “classe ” et “ intervalle de classe ” sont souvent utilisés indifféremment l’un pour
l’autre, à tort, car l’intervalle de classe est en réalité un symbole de la classe. Un intervalle de classe
pour lequel l’une des deux limites (supérieure ou inférieure) n’est pas indiquée, au moins en théorie,
est dit intervalle de classe ouverte ; l’intervalle de classe “ 23 cm et plus ” est par exemple un
intervalle de classe ouverte.

Si les valeurs des dbh sont enregistrées au centimètre le plus proche, la classe d’intervalle 11-13
comprend théoriquement toutes les mesures allant de 10,5 à 13,5 cm. Ces nombres sont les
extrémités, ou limites réelles, des classes; le plus petit nombre (10,5) est l’extrémité inférieure de la
classe et le plus grand (13.5) l’extrémité supérieure de la classe. Dans la pratique, les limites
réelles des classes s’obtiennent en ajoutant la limite supérieure d’un intervalle de classe à la limite
inférieure de l’intervalle de classe suivant plus élevé, et en divisant par deux.

Il arrive que les classes soient symbolisées par les extrémités de classe. Par exemple, les symboles
des différentes classes de la première colonne du Tableau 2.1 pourraient être 10,5-13,5 ; 13,5-
16,5 ; etc. Pour éviter toute ambiguïté lorsque l’on utilise ces notations, on évitera que les extrémités
de classe coïncident avec des observations effectives. En effet, à supposer par exemple que l’une
des mesures observées soit 13,5, il serait impossible de savoir s’il faut la ranger dans classe
d’intervalle 10,5-13,5 ou 13,5-16,5. L’étendue d’une classe d’intervalle, ou amplitude de la
classe, est égale à la différence entre les extrémités inférieures et supérieures. La valeur centrale de la
classe est le point médian de l’intervalle de classe, qui se calcule en additionnant les limites inférieure
et supérieure de la classe et en divisant par deux.

Les distributions de fréquence sont souvent représentées graphiquement par un histogramme ou


polygone de fréquences. Un histogramme est formé d’une série de rectangles, dont les largeurs, ou
bases, sont situées sur un axe horizontal (axe x) les centres se trouvant au niveau des valeurs
centrales des classes, et les longueurs(ou hauteurs) étant égales aux amplitudes des classes
d’intervalle et les surfaces proportionnelles aux classes de fréquence. Si tous les intervalles de classes
ont la même amplitude, les hauteurs des rectangles sont proportionnelles aux classes de fréquences,
auquel cas on prend habituellement des hauteurs numériquement égales aux classes de fréquences. Si
les intervalles de classe n’ont pas la même amplitude, ces hauteurs doivent être ajustées. Un
polygone de fréquence est un graphique linéaire mettant en corrélation la fréquence de classe et la

- 10 -
Notions de statistique

valeur centrale d’une classe. Il s’obtient en reliant les points médians des sommets des rectangles
dans l’histogramme.

Figure 2.1. Histogramme illustrant la distribution de fréquence des dbh

Frequence

Figure 2.2. Polygone de fréquence illustrant la distribution de fréquence des dbh


Frequence

2.3. Propriétés de la distribution de fréquence

Une fois la distribution de fréquence établie, on peut en tirer un certain nombre de paramètres qui
conduisent à une réduction ultérieure des données. Ces paramètres sont les mesures de position, de
dispersion, d’asymétrie et d’aplatissement.

2.3.1. Mesures de position


Une distribution de fréquence peut être localisée par sa valeur moyenne qui est caractéristique ou
représentative de la série de données. Etant donné que ces valeurs caractéristiques tendent à se
grouper vers le centre, dans une série de données arrangée en fonction de la grandeur, ces moyennes
sont aussi appelées mesures de la tendance centrale. On peut définir plusieurs types de moyennes,

- 11 -
Notions de statistique

les plus communes étant la moyenne arithmétique (ou en abrégé la moyenne), la médiane et le
mode. Chacune a des avantages et des inconvénients, qui dépendent du type de données et du but
poursuivi.

Moyenne arithmétique : La moyenne arithmétique, ou moyenne, d’une série de N nombres x 1, x2,


x 3, …, x N est notée x (lire ‘x barre’) et définie par
x + x2 + x 3 + ... + x N
Moyenne = 1 (2.7)
N
N

∑x
j =1
j
∑x
= =
N N
N
Le symbole ∑x j caractérise la somme de tous les xj de j = 1 à j = N.
j =1

Par exemple, la moyenne arithmétique des nombres 8, 3, 5, 12, 10 est


8 + 3 + 5 + 12 + 10 38
= = 7.6
5 5

Si les nombres x 1, x 2, …, x K apparaissent respectivement f 1, f 2, …, f K fois (c’est à dire s’ils


apparaissent avec les fréquences respectives f 1, f 2, …, f K) la moyenne arithmétique est
f x + f 2 x 2 + ... + f K x K
Moyenne = 1 1
f 1 + f 2 + ... + f K (2.8)

∑ f jx j
∑ fx
j=1
= =
K

∑f j
∑f
j=1

où N = ∑ f est la fréquence totale, c’est à dire le nombre total de cas.

La moyenne des données groupées du Tableau 2.1 se calcule comme suit.

*Etape 1. Trouver les centres , ou points médians, des classes. A cette fin, additionner les limites
inférieure et supérieure de la première classe et diviser par 2. Procéder de la même manière
en additionnant l’intervalle de classe, pour chacune des classes suivantes.

*Etape 2. Multiplier les points médians des classes par les fréquences correspondantes, et faire la
somme des résultats pour obtenir ∑ fx .

Les résultats de ces étapes peuvent être résumés comme indiqué dans le Tableau 2.2.

- 12 -
Notions de statistique

Tableau 2.2. Calcul de la moyenne à partir des données groupées


Classe de Point médian
diamètre x f fx
(cm)
11-13 12 11 132
14-16 15 20 300
17-19 18 30 540
20-22 21 15 315
23-25 24 4 96
Total ∑ f = 80 ∑ fx =1383
*Etape 3. Remplacer les valeurs dans la formule
Moyenne =
∑ fx
∑f
1383
= = 17.29 cm
80

Médiane : La médiane d’une série de nombres rangés par ordre de grandeur (c.à.d., dans un
ensemble) est la valeur centrale ou la moyenne arithmétique des deux valeurs centrales.

Par exemple, la médiane de la série de nombres 3, 4, 4, 5, 6, 8, 8, 8, 10 est 6. Celle de la série de


1
nombres 5, 5, 7, 9, 11, 12, 15, 18 est ( 9 + 11) = 10.
2

Dans le cas des données groupées, la médiane, obtenue par interpolation, est donnée par la formule
 N 
( )
  − ∑ f 1 
2 
Médiane = L1 +  c (2.9)
 fm 
 
 
où L1 = extrémité inférieure de la classe médiane (c’est-à-dire de la classe contenant la médiane)
N = nombre d’éléments des données (ou fréquence totale)
( )1
∑ f = somme des fréquences de toutes les classes inférieures à la classe médiane
f m = fréquence de la classe médiane
c = amplitude de l’intervalle de la classe médiane.

Géométriquement, la médiane représente la valeur de x (abscisse) correspondant à la ligne verticale


qui divise un histogramme en deux parties d’aires égales.

Le calcul de la médiane des données groupées du Tableau 2.1. se fait de la façon suivante:

*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et
supérieure de la première classe et diviser par 2. Procéder de la même manière en
additionnant l’intervalle de classe, pour chacune des classes suivantes.

- 13 -
Notions de statistique

*Etape 2. Ecrire les fréquences cumulées et présenter les résultats comme indiqué dans le Tableau
2.3.

Tableau 2.3. Calcul de la médiane des données groupées


Classe de Point Fréquence Fréquence
dbh(cm) médian f cumulée
x
11-13 12 11 11
14-16 15 20 31
17-19 18 30 61
20-22 21 15 76
23-25 24 4 80
Total ∑f = 80

*Etape 3. Trouver la classe médiane en localisant le (N / 2)-ème terme dans la colonne des
fréquences cumulées. Dans cet exemple, N / 2=40. Ce terme rentre dans la classe 17-19,
qui est donc la classe médiane.

*Etape 4. Utiliser la formule (2.9) pour calculer la médiane.


  80 
  − 31 
 2 
Médiane = 16.5 +  3
 30 
 
 
= 17.4

Mode : Le mode d’une série de nombres est la valeur qui apparaît avec la plus grande fréquence,
c’est à dire la valeur la plus commune. Le mode peut ne pas exister, et, même s’il existe, il peut ne
pas être unique.

La série de nombres 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 a pour mode 9. La série 3, 5, 8, 10, 12,
15, 16 n’a pas de mode. La série 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 a deux modes 4 et 7 , on dit qu’elle
est bimodale. Une distribution ayant un mode unique est appelée unimodale.

Dans le cas de données groupées représentées par une courbe des fréquences, le mode sera la
valeur (ou les valeurs) de x correspondant au(x) point(s) maximum(s) de la courbe.

A partir d’une distribution de fréquence ou d’un histogramme, le mode peut être obtenu en utilisant la
formule suivante :
 f2 
Mode = L1 +  c (2.10)
 f1 + f 2 
où L1 = Extrémité inférieure de la classe modale (c.à.d. de la classe contenant le mode).
f 1 = Fréquence de la classe précédant la classe modale.
f 2 = Fréquence de la classe suivant la classe modale.
c = Amplitude de l’intervalle de la classe modale.

- 14 -
Notions de statistique

Pour calculer le mode à partir des données groupées du Tableau 2.1., on procède comme suit:

*Etape 1. Trouver la classe modale. La classe modale est la classe pour laquelle la fréquence est
maximale. Dans notre exemple, la fréquence maximale est 30, par conséquent la classe
modale est 17-19.

*Etape 2. Calculer le mode à l’aide de la formule (2.10.)


 15 
Mode = 16.5 +  3
 15 + 20 
= 17.79

D’après les directives générales concernant l’utilisation des mesures de position, la moyenne s’utilise
essentiellement dans le cas de distributions symétriques (voir Section 2.3.3) puisqu’elle est fortement
influencée par la présence de valeurs extrêmes dans les données. La médiane possède l’avantage
d’être calculable même dans le cas de classes ouvertes, et le mode est utile dans le cas de
distributions multimodales puisqu’il apparaît comme l’observation la plus fréquente dans une série de
données.

2.3.2. Mesures de dispersion


Le degré auquel des données numériques tendent à s’écarter d’une valeur moyenne est appelé
variation ou dispersion des données. Il existe plusieurs mesures de la variation ou de la dispersion
des données, comme l’étendue, l’écart moyen ou l’écart semi-interquartile, mais la plus commune est
l’écart-type.

Ecart-type: L’écart-type d’une série de N nombres x 1, x 2, …, x N est défini par la formule suivante

∑ (x − x)
N
2
j
j =1
Ecart - type = (2.11)
N
où x désigne la moyenne arithmétique.

L’écart-type est donc la racine carrée de la moyenne des carrés des écarts des valeurs individuelles
par rapport à leur moyenne, ou, comme on l’appelle parfois, l’écart quadratique moyen. L’écart-
type se calcule souvent à l’aide de la formule suivante qui est plus simple :

∑x  ∑x
2
2

Ecart - type = −  (2.12)


N  N 
 

Par exemple, la série de données ci-après représente les diamètres à hauteur d’homme (dbh) de 10
Teck prélevés au hasard dans une parcelle : 23.5 ; 11.3, ; 17.5 ; 16.7 ; 9.6 ; 10.6 ; 24.5 ; 21.0 ;
18.1 ; 20.7.
Ici N = 10, ∑ x 2 = 3266.5 et ∑ x = 173.5. Par conséquent
2
3266.5  173.5 
Ecart - type = −  = 5.062
10  10 

- 15 -
Notions de statistique

Si x 1, x 2, …, x K ont pour fréquences respectives f 1, f 2, …, f K , l’écart-type peut-être calculé avec la


formule

∑ f (x − x)
K
2
j j
j =1
Ecart - type = (2.13)
N
K
où N = ∑ fj = ∑ f
j =1

Une forme équivalente, souvent utile dans les calculs, de l’équation (2.13) est la suivante :

∑ fx  ∑ fx 
2
2

Ecart - type = −  (2.14)


N  N 
 

La variance d’une série de données est le carré de l’écart-type. Le rapport de l’écart-type à la


moyenne, exprimé en pourcentage, est appelé coefficient de variation.

Pour illustrer ces notions, reprenons les données du Tableau 2.1.

*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et
supérieure de la première classe et diviser par 2. Procéder de la même manière pour
chacune des classes suivantes, en additionnant l’intervalle de classe.

*Etape 2. Multiplier les centres des classes par les fréquences correspondantes, et sommer tous ces
produits pour obtenir ∑ fx .

*Etape 3. Multiplier les carrés des points médians des classes par les fréquences correspondantes,
et faire la somme de tous les produits pour obtenir ∑ fx 2 .

Les résultats de ces calculs peuvent être résumés comme indiqué dans le Tableau 2.4.

Table 2.4. Calcul de l’écart-type à partir des données groupées


Classe de Point Fréquence
diamètre médian f fx fx 2
(cm) x
11-13 12 11 132 1584
14-16 15 20 300 4500
17-19 18 30 540 9720
20-22 21 15 315 6615
23-25 24 4 96 2304
Total 80 1383 24723

- 16 -
Notions de statistique

*Etape 4. A l’aide de la formule (2.14), calculer l’écart-type et en déduire la variance et le


coefficient de variation
2
24723  1383 
Ecart - type = −  = 3.19
80  80 
Variance = (Ecart-type )2 = (3.19)2
= 10.18
Ecart - type
Coefficient de variation = (100)
Moyenne
319
.
= (100) = 18.45
17.29

L’écart-type et la moyenne ont tous deux des unités de mesure, alors que le coefficient de variation
n’en a pas. Le coefficient de variation est donc utile pour comparer l’ampleur de la variation de
caractères qui ne s’expriment pas dans les mêmes unités de mesures. Cette propriété est utile pour
comparer les variations de deux séries de nombres dont les moyennes diffèrent. Supposons, par
exemple, que l’on veuille comparer les variations de la hauteur des plantules et de celle d’arbres plus
âgés appartenant à une même espèce. Supposons que les moyennes et les écarts-types respectifs
soient les suivants :
Hauteur moyenne des arbres = 50 cm, Ecart-type de la hauteur des arbres= 10 cm.
Hauteur moyenne des arbres = 500 cm, Ecart-type de la hauteur des arbres= 100 cm.

La valeur absolue de l’écart-type donne à penser que la variation est plus grande dans le cas des
arbres, mais la variation relative, indiquée par le coefficient de variation (20%) est la même dans les
deux cas.

2.3.3. Mesures d’asymétrie


Ce paramètre mesure le degré d’asymétrie, ou l’écart par rapport à la symétrie, d’une distribution. Si
la courbe des fréquences (polygone lisse des fréquences) d’une distribution est plus ‘allongée’ vers la
droite du maximum central que vers sa gauche, on dit que la distribution est désaxée vers la droite
ou encore qu’elle a une asymétrie positive. Dans le cas contraire, on dit qu’elle est désaxée vers la
gauche ou qu’elle a une asymétrie négative. Un mesure d’asymétrie importante, exprimé sous une
forme adimensionnelle, est donnée par la formule
µ2
Coefficient de moment d’asymétrie = β1 = 33 (2.15)
µ2
où µ 2 et µ 3 sont les deuxième et troisième moments centrés définis par la formule,

∑(x ) ∑ ( x − x)
N
r
j −x r
j =1
µr = = (2.16)
N N

Dans le cas de données groupées, ces moments sont donnés par

(x ) ∑ f (x − x)
K

∑f
r
j j −x r
j =1
µr = = (2.17)
N N

- 17 -
Notions de statistique

Dans le cas d’une distribution symétrique, β1 = 0. L’asymétrie est positive ou négative selon que µ 3
est positif ou négatif.

Les données du Tableau 2.1 sont utilisées comme exemple pour illustrer les étapes du calcul de la
mesure d’asymétrie.

*Etape 1. Calculer la moyenne.

Moyenne =
∑ fx = 17.29
∑f
*Etape 2. Calculer f j (x j - x )2, f j (x j - x )3 et leurs sommes récapitulées dans le Tableau 2.5.

Tableau 2.5. Les étapes du calcul du coefficient d’asymétrie à partir de données groupées
Classe de Point
diamètre médian f xj - x f j(xj - x )2 f j(x j - x )3 f j(x j - x )4
(cm) x
11-13 12 11 -5.29 307.83 -1628.39 8614.21
14-16 15 20 -2.29 104.88 -240.18 550.01
17-19 18 30 0.71 15.12 10.74 7.62
20-22 21 15 3.71 206.46 765.97 2841.76
23-25 24 4 6.71 180.10 1208.45 8108.68
Total 80 3.55 814.39 116.58 20122.28

*Etape 3. Calculer µ 2 et µ 3 à l’aide de la formule (2.17).

µ2 =
∑ f (x − x) 2

N
814.39
=
80
= 10.18

µ3 =
∑ f ( x − x) 3

N
116.58
=
80
= 1.46

*Etape 4. Calculer la mesure d’asymétrie à l’aide de la formule (2.15).


(1.46) 2
Coefficient de moment d’asymétrie = β1 =
( 1018
. )
3

= 0.002.

- 18 -
Notions de statistique

Comme β1 = 0.002, la distribution est très légèrement désaxée, ou encore l’asymétrie est
négligeable. L’asymétrie est positive puisque µ 3 est positif.

2.3.4. Kurtose
La kurtose est le degré d’aplatissement d’une distribution, généralement considéré par comparaison
avec une courbe de distribution normale. Si une courbe est plus pointue que la normale, elle est
“ leptocurtique ”, si elle a un sommet aplati, on parle de courbe “platicurtique ”. Une courbe en
forme de cloche, ni trop pointue ni trop aplatie est dite “ mésocurtique ”.

Une mesure de l’aplatissement, exprimée sous forme adimensionnelle, est donnée par
µ
Coefficient de moment d’aplatissement = β2 = 42 (2.18)
µ2
où µ 4 et µ 2 peuvent être calculés avec la formule (2.16) dans le cas de données non groupées et
avec la formule (2.17) dans le cas de données groupées. On dit que la distribution est normale si
β 2 = 3. Lorsque β2 est supérieur à 3, la distribution est leptocurtique. Siβ2 est inférieur à 3, elle est
platicurtique.

Reprenons, par exemple, les données du Tableau 2.1. pour calculer le coefficient de moment de
l’aplatissement.

*Etape 1. Calculer la moyenne

Moyenne =
∑ fx = 17.29
∑f
*Etape 2. Calculer f j (x j - x )2, f j (x j - x )4 et leur somme, d’après les données résumées du
Tableau 2.5.

*Etape 3. Calculer µ 2 et µ 4 à l’aide de la formule (2.17).

µ2 =
∑ f (x − x) 2

N
814.39
=
80
= 10.18

µ4 =
∑ f (x − x) 4

N
20122.28
=
80
= 251.53

*Etape 4. Calculer la mesure d’aplatissement à l’aide de la formule (2.18)

- 19 -
Notions de statistique

25153
.
Coefficient de moment d’aplatissement = β2 =
( 1018
. )
2

= 2.43.
La valeur de β2 est 2,38, chiffre inférieur à 3. La distribution est donc platicurtique.
2.4. Distributions théoriques discrètes

Lorsqu’une variable X peut prendre un ensemble discret de valeurs x 1, x 2,…, x K avec les
probabilités respectives p1, p2, …, pK où p1 + p 2 +...+ p K = 1 , on dit qu’une distribution discrète
de probabilités a été définie pour la variable X. La fonction p(x) qui prend les valeurs p1, p2, …, pK
pour x = x1, x2, …, xK respectivement, est appelée fonction de probabilité ou fonction de
fréquence de X. Comme X peut prendre certaines valeurs avec des probabilités données, on dit
souvent que c’est une variable aléatoire discrète.
Par exemple, supposons que l’on jette deux dés non pipés et que X désigne la somme des points
obtenus. La distribution de probabilités sera donnée par le tableau suivant :

X 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

La probabilité d’obtenir la somme 5 est 4/36 = 1/9 . Cela signifie que si les dés sont jetés 900 fois,
on peut s’attendre à ce qu’ils marquent 100 fois la somme 5.

Remarquons l’analogie avec la distribution de fréquence relative, les probabilités jouant ici le rôle des
fréquences relatives. On peut donc voir les distributions de probabilités comme des formes limites
théoriques, ou idéales, des distributions de fréquence, lorsque le nombre d’observations est très
élevé. C’est la raison pour laquelle les distributions de probabilités s’appliquent très bien aux
populations, alors que les distributions de fréquence relative concernent des échantillons prélevés
dans cette population.

Si les valeurs de x peuvent être rangées dans un ordre, comme dans le cas de nombres réels, on
peut définir une fonction de distribution cumulative,
F ( x ) = ∑ p( z ) pour tout x (2.19)
z< x

F(x) est la probabilité que X prenne une valeur inférieure ou égale à x.

Nous allons maintenant nous arrêter brièvement sur deux importantes distributions discrètes, qui
reviennent souvent dans les travaux de recherche forestière, et qui pourront nous être utiles par la
suite.

2.4.1. Distribution binomiale


Les distributions binomiales apparaissent dans le cas d’une succession de n expériences, identiques
et indépendantes, dont chacune aboutit à un résultat dichotomique, tel que ‘succès’ ou ‘échec’. La
loi binomiale s’applique si la probabilité d’obtenir x succès à partir de n expériences répétées est
donnée par la fonction suivante :

- 20 -
Notions de statistique

 n
p( x ) =   p x (1 − p)
n −x
x = 0, 1, 2, ..., n (2.20)
 
 x
où n est un entier positif et 0<p<1. Les constantes n et p sont les paramètres de la distribution
binomiale. Comme l’indique la formule, la valeur de x est comprise entre 0 et n.

Par exemple, si un sylviculteur observe le taux de mortalité des jeunes plants dans des parcelles
d’une forêt contenant chacune 100 unités, et enregistre les plants vivants comme des ‘succès’ et les
plants morts comme des ‘échecs’, la variable ‘nombre de plants vivants dans une parcelle ” peut
suivre une loi binomiale.

La moyenne d’une distribution binomiale est np et son écart-type np (1 − p ) . La valeur de p est


estimée à partir d’un échantillon par la formule :
x
p$ = (2.21)
n
où x est le nombre de succès dans l’échantillon et n le nombre total de cas examinés.
Supposons par exemple qu’un entomologiste choisisse au hasard cinq parcelles de 10 m x 10 m
dans une plantation où les jeunes plants sont espacés de 2 m x 2 m. Le nombre de plants attaqués
par les termites dans les cinq parcelles contenant chacune 25 jeunes plants est (4, 7, 7, 4, 3). La
valeur globale de p estimée à partir des cinq parcelles sera :

p$ =
∑ x = 25 = 0.2
∑ n 125
De plus, s’il choisit au hasard dans la plantation une parcelle de la même taille, la probabilité que
celle-ci contienne un nombre donné de plants infestés par les termites peut être obtenue grâce à
l’équation (2.20), à condition que l’infestation par les termites suive une loi binomiale. Ainsi, la
probabilité de choisir une parcelle non infectée par les termites est :
 25
p(0) =   0.2 0 (1 − 0.2 )
25

0 
= 0.0038

2.4.2. Distribution de Poisson


On dit qu’une variable aléatoire discrète suit une loi de Poisson si la probabilité d’obtenir une valeur
spécifique de x est donnée par la relation :
λx e − λ
p( x ) = , x = 0, 1, 2, ... ∞ (2.22)
x!
où λ>0. La variable X prend les valeurs de 0 à ∞.

Dans les études écologiques, on constate que certains organismes rares sont répartis au hasard dans
l’espace. Lorsque c’est le cas, on remarque que les observations sur le nombre d’organismes
trouvés dans de petites unités d’échantillonnage suivent une loi de Poisson. Une distribution de
Poisson est déterminée par l’unique paramètre λ qui est à la fois la moyenne et la variance de la
distribution. L’écart-type est par conséquent λ . A partir d’échantillons, on peut estimer les valeurs
de λ par

- 21 -
Notions de statistique

∑x i
λ$ = i =1
(2.23)
n
où les x i sont les nombres de cas détectés dans unité d’échantillonnage et n est le nombre d’unités
d’échantillonnage observées.

Prenons l’exemple d’un biologiste qui observe le nombre de sangsues présentes dans 100
échantillons prélevés dans un lac d’eau douce. Si le nombre total de sangsues capturées est de 80, le
nombre moyen par échantillon se calcule comme suit,
n

∑x i
80
λ$ = i =1
= = 0.8
n 100

Si la variable suit une loi de Poisson, la probabilité de prélever au moins une sangsue dans un nouvel
échantillon peut être calculée par 1 - p(0), ce qui donne :
( 0.8) 0 e −0. 8
1 − p(0) = 1 −
0!
= 0.5507

2.5. Distributions théoriques continues

L’idée de distribution discrète peut s’étendre au cas d’une variable X pouvant prendre un ensemble
continu de valeurs. Dans le cas théorique, ou limite, d’une population, le polygone des fréquences
relatives d’un échantillon devient une courbe continue d’équation y = p(x), comme celle de la Figure
2.3.

Figure 2.3. Graphique d’une distribution continue


p(x)

a b x

L’aire totale comprise entre la courbe et l’axe X est égale à un, et l’aire contenue sous la courbe
délimitée par les droites X = a et X = b (zone ombrée sur la figure) représente la probabilité que X
soit comprise entre a et b, ce que l’on note par P(a<X<b). On dit que p(x) est une fonction de
densité de probabilité, ou en abrégé une fonction de densité, et lorsqu’une telle fonction est donnée,
on dit qu’on a défini pour X une distribution continue de probabilité. La variable X prend alors le
nom de variable aléatoire continue.

Dans le cas d’une variable aléatoire continue, la fonction de distribution cumulative est donnée par la
relation

- 22 -
Notions de statistique

F( x ) = ∫ f ( t )dt
−∞
(2.24)

Le symbole ∫ indique l’intégration, analogue de la sommation dans le cas discret. Comme dans le cas
discret, F(X) représente la probabilité que la variable prenne une valeur inférieure ou égale à x. Une
propriété utile de la fonction de distribution cumulative est la suivante,
P( a ≤ X ≤ b ) = F ( b ) − F( a ) (2.25)

Nous allons maintenant examiner deux cas de distributions théoriques continues qui apparaissent
souvent dans les travaux de recherche forestière, et qui nous seront utiles par la suite.

- 23 -
Notions de statistique

2.5.1. Distribution normale


Une distribution normale est définie par la fonction de densité de probabilité,
2
1 x−µ
 
1 −  
2 σ 
f ( x) = e − ∞ < x,µ < ∞ 0<σ (2.26)
σ 2π
où µ est un paramètre de position et σ un paramètre d’échelle. La variable X peut varier de -∞ à +
∞. Le paramètre µ varie aussi de -∞ à +∞ mais σ est toujours positif. Il n’existe pas de lien entre les
paramètres µ et σ. L’équation (2.26) est une fonction symétrique de la variable µ, comme le montre
la Figure 2.4 où est représentée une courbe normale pour µ = 0 et σ = 1. Dans le cas µ = 0 et σ =
1, la distribution est appelée courbe standard normale.

Figure 2.4. Graphique d’une distribution normale pour µ = 0 et σ = 1


f(x)

68.27%
95.45%
99.73%

Si l’aire totale comprise entre la courbe et l’axe de la Figure 2.4 est prise comme unité de surface,
l’aire sous la courbe délimitée par les droites X = a et X = b, où a<b, représente la probabilité,
notée P(a<X<b), que X soit comprise entre a et b. L’appendice 1 donne l’expression de l’aire sous
la courbe à l’extérieur de la bande +z et –z.

Dans une distribution normale, la moyenne et l’écart-type sont respectivement µ et σ. La distribution


possède les propriétés d’aire suivantes. Si l’aire totale sous la courbe est prise comme unité d’aire, µ
± σ couvre 68.27% de la surface totale, µ ± 2σ 95.45% et µ ± 3σ 99.73 %. Supposons par
exemple que dans une grande plantation d’arbres d’un âge donné, la hauteur moyenne des arbres
soit de 10 m et l’écart-type de 1 m. Trouver l’écart de la hauteur de chaque arbre par rapport à la
moyenne de la population. Si ces écarts sont distribués normalement, la hauteur d’environ 68% des
arbres devrait s’écarter de moins d’un mètre par rapport à la moyenne; pour 95% des arbres l’écart
devrait être inférieur à 2 m, et pour 99% des arbres il devrait être inférieur à 3 m.

A l’origine, la loi normale de distribution devait servir de modèle pour le calcul des erreurs de
mesure, mais on a constaté qu’elle était la base de la variation dans un grand nombre de caractères
biométriques. La distribution normale est censée être la résultante des effets additifs d’un grand
nombre de variables aléatoires ayant des causes indépendantes.

- 24 -
Notions de statistique

Les estimations de µ et σ à partir d’échantillons d’observations sont données par les formules
n

∑x i
i =1
µ$ = x = (2.27)
n

σ=
∑(x − x) 2

(2.28)
n −1
où x i, i = 1, …, n sont n observations indépendantes faites dans la population.

2.5.2. Distribution Log-normale


Soit X une variable aléatoire. Considérons la transformation de X en Y , définie par Y = ln X. Si la
variable transformée Y suit une loi normale, on dit que la variable X est une variable aléatoire ‘log-
normale’. La fonction de densité de probabilité d’une distribution log-normale est donnée par la
formule suivante :
1  ln x − µ 
2

1 −  
2 σ 
f ( x) = e , 0 < x ,σ; − ∞ < µ < ∞ (2.29)
xσ 2 π

Dans ce cas, eµ est un paramètre d’échelle et σ un paramètre de forme. La forme d’une distribution
log-normale est hautement flexible, comme le montre la Figure 2.5 où sont tracées les courbes
d’équations (2.29) pour différentes valeurs de σ et pour µ = 0.

Figure 2.5. Graphique d’une distribution log-normale pour µ = 0 et différentes valeurs de σ.

La moyenne et l’écart-type d’une distribution log-normale sont des fonctions complexes des
paramètres µ et σ. La moyenne et l’écart-type sont donnés respectivement par :
σ2
µ+
Moyenne = e 2
(2.30)

Ecart - type = (e 2 µ +σ
2
)(e σ
2
)
−1 (2.31)

A la différence de la loi normale, la moyenne et l’écart-type de cette distribution ne sont pas


indépendants. Cette distribution est aussi la résultante des effets cumulés d’un grand nombre d’effets
indépendants ayant pour propriété de se multiplier plutôt que de s’ajouter..Par exemple, si les
données sont obtenues en regroupant les hauteurs d’arbres plantés appartenant à différents groupes
d’âge, la distribution peut suivre une loi log-normale, car l’âge a un effet multiplicateur sur la
variabilité des arbres. Il s’ensuit que les arbres les plus jeunes afficheront probablement une faible

- 25 -
Notions de statistique

variation, alors que les plus vieux auront une variation importante, car leur interaction avec
l’environnement s’est prolongée pendant plus longtemps.
Dans une distribution log-normale, les estimations des paramètres µ et σ sont données par les
relations
1 n
µ$ = ∑ ln xi (2.32)
n i =1

( ln xi − µ$ )
1 n

2
σ$ = (2.33)
n − 1 i =1
où x i, i = 1, …, n sont n observations indépendantes prélevées sur la population.

Pour une analyse plus approfondie, contenant plusieurs exercices et problèmes, avec leurs solutions,
sur des thèmes abordés dans ce chapitre, le lecteur pourra se référer à Spiegel et Boxer (1972).

- 26 -
3. INFERENCE STATISTIQUE

3.1. Tests d’hypothèses

Toute investigation de recherche avance à travers des cycles répétés de formulation et de vérification
d’hypothèses concernant le phénomène étudié. Afin de décider objectivement si une hypothèse est
confirmée par un ensemble de données, il faut adopter une procédure rationnelle pour l’acceptation
ou le rejet de ladite hypothèse. L’objectivité est fondamentale, car l’une des règles de la méthode
scientifique est d’arriver à des conclusions scientifiques par des méthodes publiques pouvant être
répétées par d’autres chercheurs compétents. Cette procédure objective sera fondée sur les
informations obtenues lors du travail de recherche et sur le risque d’erreur que nous acceptons de
prendre, à propos de la justesse de l’hypothèse.

Les tests d’hypothèses se déroulent généralement en plusieurs étapes, à savoir : i) établissement de


l’hypothèse nulle ; ii) choix d’un test statistique (avec le modèle statistique qui lui est associé) pour la
vérification de l’hypothèse nulle ; iii) spécification du seuil de signification et de la taille de
l’échantillon ; iv) détermination de la distribution d’échantillonnage du critère de test dans l’hypothèse
nulle ; v) définition de la zone de rejet ; vi) calcul de la valeur du critère de test, à l’aide des données
obtenues à partir du ou des échantillons et prise de la décision basée sur la valeur du critère de test
et de la zone de rejet déterminée au préalable. Il est indispensable de bien assimiler la raison d’être
de chacune de ces étapes pour comprendre le rôle des statistiques dans la vérification d’une
hypothèse de recherche, comme celle que nous allons illustrer par un exemple concret.

i) Hypothèse nulle : La première étape de la procédure de prise de décision est l’établissement de


l’hypothèse nulle, ordinairement dénotée par H0. L’hypothèse nulle est une hypothèse de différence
nulle. Elle est généralement formulée dans le but d’être rejetée. Si elle l’est, l’hypothèse alternative
H1 peut être acceptée. L’hypothèse alternative est la formulation opérationnelle de l’hypothèse de
recherche de l’expérimentateur. L’hypothèse de recherche est la prévision dérivée de la théorie en
cours de vérification. Lorsque nous voulons prendre une décision relative à des différences, nous
vérifions H0 par rapport à H1. H1 est l’assertion qui est acceptée si H0 est rejetée.

A titre d’exemple, supposons qu’un aménagiste soupçonne une baisse de la productivité de


plantations forestières d’une espèce particulière, dans une unité d’aménagement, du fait que cette
espèce est continuellement cultivée. Ce soupçon constituera l’hypothèse de recherche. Sa
confirmation renforcera la théorie selon laquelle le fait de cultiver sans interruption une espèce sur une
surface aboutit à sa détérioration. Pour tester cette hypothèse de recherche, nous la prenons
symboliquement comme hypothèse alternative, H1. H1 étant que le niveau de productivité actuel de
l’espèce dans l’unité d’aménagement (µ1) est inférieur au niveau de productivité passé (µ0).
Symboliquement, µ1 < µ0. L’hypothèse H0 serait µ1 = µ0. Si les données permettent de rejeter H0,
H1 peut être acceptée, et l’hypothèse de recherche et la théorie qui la sous-tend sont confirmées. La
nature de l’hypothèse de recherche détermine la formulation de H1. Si l’aménagiste n’est pas sûr du
sens de la variation du niveau de productivité due à la culture continue, l’hypothèse H1 devient : µ1 ≠
µ0.

- 27 -
Inférence statistique

ii) Choix du test statistique : La discipline des statistiques s’est tellement développée que l’on a
aujourd’hui le choix, pour presque tous les plans de recherche, entre plusieurs tests statistiques
pouvant servir à éclairer la décision au sujet d’une hypothèse. La nature des données rassemblées
détermine dans une large mesure le critère qui sera utilisé dans le test. Dans l’exemple qui nous
occupe, supposons que les données sur le rendement en bois par unité de superficie, à un âge donné,
puissent être dérivées d’un petit nombre de plantations ou parties de plantations récemment
exploitées de taille à peu près similaire, situées dans l’unité d’aménagement. Sur la base de la théorie
statistique pertinente, on pourrait choisir le critère de test suivant :
x − µ0
z= (3.1)
σ/ n
où x = rendement moyen, à un âge donné, des plantations récemment exploitées dans l’unité
d’aménagement.
σ = écart-type du rendement des plantations récemment exploitées dans l’unité d’aménagement.
n = nombre de plantations récemment exploitées, à partir desquelles les données peuvent être
collectées.
µ0 = rendement moyen des plantations, à l’âge donné, dans l’unité d’aménagement, quelques
décennies plus tôt, sur la base d’un grand nombre d’observations antérieures.

Le terme “ statistique “ désigne une valeur calculée à partir des observations d’un échantillon. Le
critère de test spécifié dans l’Equation (3.1) est le rapport de l’écart entre la moyenne de
l’échantillon et la valeur prédéterminée µ0, à la variance de ces écarts, et la question qui se pose est
de déterminer quelle est l’amplitude admissible de ces écarts, pour que l’hypothèse nulle soit vraie.

iii) Seuil de signification et taille de l’échantillon : Une fois que l’on a défini l’hypothèse nulle
et l’hypothèse alternative, et sélectionné le test statistique approprié, l’étape suivante consiste à
spécifier le seuil de signification (α) et à choisir la taille de l’échantillon (n). La procédure de prise de
décision se résume à rejeter H0 au profit de H1, si le résultat du test statistique est une valeur
correspondant à une probabilité de réalisation, dans l’hypothèse H0, égale ou inférieure à une faible
probabilité symbolisée par le signe α. Cette faible probabilité est appelée seuil de signification. Les
valeurs les plus courantes de α sont 0.05 et 0.01. En d’autres termes, si la probabilité associée à
l’obtention, dans H0 (c’est-à-dire quand l’hypothèse nulle est vraie) de la valeur spécifique résultant
d’un test statistique, est égale ou inférieure à α, nous rejetons H0 et nous acceptons H1, qui est la
formulation opérationnelle de l’hypothèse de recherche. Il s’ensuit que α indique la probabilité de
rejeter par erreur H0.

Etant donné que la décision de rejeter ou d’accepter l’hypothèse H0 est en partie déterminée par la
valeur de α, il est indispensable, pour des raisons d’objectivité, que α soit fixé avant la collecte des
données. Le niveau auquel le chercheur choisit de fixer α devrait être fonction de l’importance ou de
la signification pratique possible de ses constatations. Dans notre exemple, l’aménagiste peut fort
bien choisir un seuil de signification plutôt bas, s’il y a un risque élevé de rejeter à tort l’hypothèse
nulle (et, par conséquent, de préconiser ou de recommander sans que cela soit justifié un
changement radical des pratiques de gestion, sur la surface considérée). Dans son rapport,
l’aménagiste devrait indiquer le niveau de probabilité effectif associé à ses constatations, afin que le
lecteur puisse décider lui-même s’il convient de rejeter ou d’accepter l’hypothèse nulle.

- 28 -
Inférence statistique

On peut commettre deux types d’erreurs lorsque l’on prend une décision à propos de H0. La
première, dite Erreur de type I, est de rejeter H0 alors qu’elle est vraie. La seconde, que nous
appellerons Erreur de type II, est d’accepter H0 alors qu’elle est fausse. La probabilité de
commettre une erreur de type I est donnée par α. Plus α est grand, plus l’on a de chances de rejeter
H0 à tort, c’est-à-dire de commettre une erreur de type I. L’erreur de type II est ordinairement
représentée par le signe β; on a donc P(erreur de type I) = α, P(erreur de type II) = β. Les valeurs
de α et β sont de préférence spécifiées par le chercheur avant de commencer ses investigations. Ces
valeurs détermineront la taille de l’échantillon (n) qu’il devra prélever pour calculer le critère du test
statistique qu’il a choisi. Une fois que α et n ont été spécifiés, il faut calculer β. Dans la mesure où
les probabilités de commettre les deux types d’erreurs sont inversement proportionnelles, une
diminution de α entraînera une augmentation de β pour toute valeur de n. Pour minimiser le risque
de commettre les deux types d’erreurs, il faut augmenter n. L’expression 1 - β désigne la puissance
d’un test, c’est-à-dire la probabilité de rejeter l’hypothèse H0 alors qu’elle est fausse. Pour revenir à
notre exemple, pour certaines raisons d’ordre théorique, nous dirons que la taille de l’échantillon est
de 30 plantations ou parties de plantations de taille similaire choisies au hasard dans la série dans
laquelle peuvent être rassemblées des données sur les niveaux de rendement récents de l’unité
d’aménagement.

iv) La distribution d’échantillonnage : Une fois qu’un chercheur a choisi le test statistique qui
sera utilisé avec ses données, il doit déterminer la distribution d’échantillonnage du critère de test,
c’est-à-dire la distribution que l’on obtiendrait si l’on prenait tous les échantillons de même taille
pouvant être prélevés dans une même population, chacun d’eux étant tiré au hasard, et si l’on
établissait la distribution de fréquence de la statistique calculée à partir de chaque échantillon. On
peut aussi dire que la distribution d’échantillonnage est la distribution, dans l’hypothèse H0, de toutes
les valeurs possibles que peut prendre une mesure statistique quelconque (par exemple la moyenne
de l’échantillon), lorsqu’elle est calculée à partir d’échantillons de même taille tirés au hasard. Pour
revenir à notre exemple, s’il y avait 100 plantations d’un âge déterminé, disponibles pour la coupe,
 100
30 plantations pourraient être tirées au hasard, de   = 2.937 x 1025 manières. A partir de
 30 
chaque échantillon de 30 unités de plantation, il est possible de calculer une mesure statistique z, à
l’aide de l’équation (3.1) . Dans ce cas, une distribution de fréquences relatives établie à l’aide
d’intervalles de classes donnés pour les valeurs de z constituerait la distribution d’échantillonnage de
notre critère de test statistique. Ainsi, la distribution d’échantillonnage d’un paramètre statistique
montre la probabilité dans l’hypothèse H0 associée aux différentes valeurs numériques possibles
dudit paramètre. La probabilité d’obtenir une valeur particulière du paramètre statistique dans
l’hypothèse H0, englobe non seulement la probabilité de cette valeur, mais aussi les probabilités de
toutes les valeurs possibles plus extrêmes. Il s’agit donc de la probabilité d’obtenir, dans l’hypothèse
H0, une valeur aussi extrême ou plus extrême que la valeur particulière du critère de test.

Il est évident que dans notre exemple, il nous serait impossible de trouver la distribution
d’échantillonnage réelle et de vérifier la probabilité d’obtenir des valeurs données, à partir d’une telle
distribution. Nous nous reposerons donc sur des théorèmes mathématiques démontrés, qui font
autorité. Ces théorèmes impliquent invariablement des postulats que l’on doit avoir présents à
l’esprit, lorsqu’on les applique. Dans le cas présent, il peut être démontré que la distribution
d’échantillonnage de z suit une loi normale de moyenne zéro et d’écart type 1 si la taille de

- 29 -
Inférence statistique

l’échantillon (n) est grande. Lorsqu’une variable suit une loi normale, sa distribution est entièrement
caractérisée par la moyenne et l’écart-type. Il est donc possible de déterminer la probabilité qu’une
valeur observée de cette variable soit supérieure à une valeur donnée quelconque. Cette analyse et
cet exemple montrent clairement que si l’on connaît la distribution d’échantillonnage d’une certaine
mesure statistique, il est possible d’établir quelles sont les probabilités d’obtenir certaines valeurs
numériques de cette mesure. Nous allons voir dans les sections qui suivent comment on utilise les
probabilités ainsi formulées pour prendre une décision à propos de l’hypothèse H0.

v) La région de rejet : La distribution d’échantillonnage comprend toutes les valeurs que peut
prendre le critère de test dans l’hypothèse H0. La région de rejet est formée d’un sous-ensemble de
ces valeurs possibles, et est définie de telle manière que la probabilité associée à l’obtention, dans
l’hypothèse H0 , d’une valeur du critère de test située dans ce sous-ensemble, soit une probabilité α.
En d’autres termes, la région de rejet est constituée d’un ensemble de valeurs possibles qui sont si
extrêmes que, si H0 est vraie, la probabilité est très faible (probabilité α) que l’échantillon observé
donne une valeur située dans ce sous-ensemble. La probabilité associée à une valeur quelconque se
trouvant dans la région de rejet est égale ou inférieure à α.

L’emplacement de la région de rejet dépend de la nature de l’hypothèse H1. Si H1 indique le sens


projeté de la variation, un test unilatéral s’impose, alors que dans le cas contraire, il faudra effectuer
un test bilatéral (ou test à deux issues). Les tests à une ou deux issues diffèrent par l’emplacement de
la région de rejet, (mais pas par la taille). Dans un test unilatéral (à une issue), toute la région de rejet
est située à une extrémité de la distribution d’échantillonnage, alors que dans un test bilatéral (à deux
issues), elle se situe aux deux extrêmes de la distribution d’échantillonnage. Dans notre exemple, si
l’aménagiste estime que la productivité des plantations ne peut qu’être stable ou décliner au fil des
années, il fera un test unilatéral. En revanche, s’il n’est pas certain du sens du changement, il aura
intérêt à effectuer un test bilatéral (à deux issues).

La taille de la région est exprimée par le seuil de signification α. Si α = 0.05, cela signifie que la
région de rejet représente 5 pour cent de la totalité de l’espace compris sous la courbe dans la
distribution d’échantillonnage. Les régions de rejet unilatérales et bilatérales pour α = 0.05 sont
illustrées à la Figure 3.1. Les régions diffèrent par leur emplacement, mais leur taille totale est la
même.

vi) La décision : Si le test statistique donne une valeur qui se trouve dans la région de rejet, il faut
rejeter H0. Ce processus décisionnel repose sur un raisonnement très simple. Si, dans l’hypothèse
nulle, la probabilité d’obtenir une valeur particulière dans la distribution d’échantillonnage est très
faible, l’apparition effective de cette valeur peut s’expliquer de deux manières : premièrement en
décidant que l’hypothèse nulle est fausse, et deuxièmement, en décidant qu’un événement rare et
improbable s’est produit. Dans le processus de décision, nous choisissons la première de ces
explications. De temps en temps, c’est bien entendu la seconde qui est la bonne. De fait, la
probabilité que la deuxième explication soit la bonne est donnée par α, car le fait de rejeter
l’hypothèse H0 alors qu’elle est vraie est une erreur de type I.

Figure 3.1. Distribution d’échantillonnage de z dans H0 et régions de rejets d’un test unilatéral et d’un
test bilatéral

- 30 -
Inférence statistique

test unilatéral test bilatéral

Lorsque la probabilité associée à une valeur observée d’un test statistique est égale ou inférieure à la
valeur déterminée au préalable de α, nous concluons que l’hypothèse H0 est fausse. Une telle valeur
observée est qualifiée de significative. L’hypothèse H0, qui fait l’objet du test, est rejetée dans tous
les cas où apparaît un résultat significatif. Une valeur significative est une valeur dont la probabilité
d’apparition dans H0 est égale ou inférieure à α.

Pour revenir à notre exemple, supposons que, dans une unité d’aménagement particulière, 30
plantations récemment exploitées, à l’âge de 50 ans aient un rendement moyen de 93 m3/ha, avec un
écart-type de 10 m3/ha. Si les statistiques antérieures avaient révélé que, quelques décennies plus
tôt, on obtenait dans cette même unité d’aménagement un rendement moyen de 100m3/ha au
même âge, la valeur du critère de test serait la suivante:
x − µ0 93 − 100
z= = = −3834
.
σ / n 10 / 30

On verra dans l’Annexe I que la probabilité d’obtenir une telle valeur, si l’hypothèse H0 est vraie, est
très inférieure à 0.05 qui est le seuil de signification fixé au préalable. On prendra donc la décision
d’accepter l’hypothèse alternative selon laquelle “ la productivité des plantations de l’espèce
considérée, dans l’unité d’aménagement, a considérablement diminué ”.

Les lecteurs qui souhaitent acquérir une compréhension plus complète des thèmes abordés dans
cette section peuvent se référer à Dixon et Massey (1951) pour une initiation particulièrement claire,
aux deux types d’erreurs, et à Anderson et Bancroft (1952) ou Mood (1950) pour des examens
approfondis de la théorie relative aux tests d’hypothèses. Les sections qui suivent décrivent des
procédures utilisées pour tester certains types d’hypothèses particuliers.

- 31 -
Inférence statistique

3.2. Test de comparaisons de moyennes

On a souvent besoin de comparer les moyennes de deux groupes d’observations représentant des
populations différentes pour savoir si les populations diffèrent par leurs positions. Dans ces situations,
l’hypothèse nulle sera ‘il n’y a pas de différence entre les moyennes des deux populations ”, soit en
symboles, H 0 :µ1 = µ 2 . L’hypothèse alternative est H 1:µ 1 ≠ µ 2 c.à.d., µ 1 < µ 2 ou µ 1 > µ 2 .

3.2.1. Echantillons indépendants


Pour vérifier l’hypothèse qui précède, on prélève au hasard des échantillons de chaque population,
puis on calcule la moyenne et l’écart-type de chaque échantillon. Notons x1 la moyenne et s1
l’écart-type d’un échantillon de taille n1 de la première population, x 2 et s2 la moyenne et l’écart-
type d’un échantillon de taille n2 de la seconde population. Dans ce contexte, on peut utiliser le
critère de test suivant,
x1 − x 2
t= (3.2)
 1 1 
s2  + 
 n1 n2 

où x1 =
∑x 1i
, x2 =
∑x 2i

n1 n2

s 2 est la variance groupée donnée par

s =
2
( n1 − 1)s12 + ( n2 − 1) s22
n1 + n2 − 2

( ∑ x ) 2
( ∑ x ) 2

∑ x2 −
1i
1i
n1
∑ x2 −
2i
2i
n2
s12 = et s22 =
n1 − 1 n2 − 1

Le critère de test t suit une loi de Student avec n1 + n2 − 2 degrés de liberté. Dans ce cas
particulier, le degré de liberté est un paramètre associé à la distribution de t qui gouverne la forme de
la distribution. Le concept de degré de liberté est mathématiquement assez obscur, mais d’une
manière générale, il peut être considéré comme le nombre d’observations indépendantes dans un
ensemble de données, ou comme le nombre de comparaisons indépendantes pouvant être faites à
propos d’un ensemble de paramètres.

Ce test repose sur des hypothèses précises, à savoir: i) Les variables entrant en jeu sont continues
(ii) La population-mère des échantillons prélevés suit une loi de distribution normale (iii) Les
échantillons sont prélevés de manière indépendante (iv) Les variances des deux populations dans
lesquelles on prélève les échantillons sont homogènes (égales). L’homogénéité de deux variances
peut être testée à l’aide du test F décrit dans la Section 3.3.

- 32 -
Inférence statistique

Pour illustrer ce cas, nous allons étudier une expérience dont le but est d’évaluer l’effet de
l’inoculation d’un mycorrhize sur la croissance en hauteur de plantules de Pinus kesiya. Dans
l’expérience, 10 plantules, formant le Groupe I, ont été inoculées, et 10 autres (Groupe II) ont été
laissées telles quelles. Le Tableau 3.1 donne les hauteurs obtenues dans les deux groupes de
plantules.

Tableau 3.1. Hauteur des plantules de Pinus kesiya des deux groupes.
Parcelles Groupe I Groupe II
1 23.0 8.5
2 17.4 9.6
3 17.0 7.7
4 20.5 10.1
5 22.7 9.7
6 24.0 13.2
7 22.5 10.3
8 22.7 9.1
9 19.4 10.5
10 18.8 7.4

Les variances de la hauteur des plantules des deux groupes étant égales, l’analyse peut être
poursuivie comme suit :

*Etape 1. Calculer les moyennes et la variance groupée des deux groupes de mesures des hauteurs,
à l’aide des formules correspondantes indiquées dans l’équation (3.2),
x1 = 20.8 , x2 = 9.61

( 208) 2
( 23.0) + (17.4) + . . . + ( 18.8) −
2 2 2

s =
2 10
10 − 1
1

57 .24
= = 6.36
9

( 96.1) 2
( 8.5) + ( 9.6) + . . . + ( 7.4) −
2 2 2

s22 = 10
10 − 1
24 .3
= = 2.7
9

(10 − 1)( 6.36) + ( 10 − 1)( 2.7)


s2 =
10 + 10 − 2
57 .24 + 24.43
=
18
= 4.5372

- 33 -
Inférence statistique

*Etape 2. Calculer la valeur de t à l’aide de l’équation (3.2)


20.8 − 9.61
t=
 1 1
4 .5372 + 
 10 10
= 11.75

*Etape 3. Comparer la valeur calculée de t avec la valeur de t donnée par la table au niveau de
probabilité souhaité pour n1 + n2 − 2 = 18 degrés de liberté.

Etant donné que nous ne sommes pas sûrs du sens de la variation de la croissance des plantules due
au mycorrhize, nous utiliserons un test bilatéral. D’après la table de l’Annexe 2, les valeurs critiques
sont –2.10 et +2.10 de chaque côté de la distribution. Comme dans notre exemple, la valeur
calculée de t (11.75) est supérieure à 2.10, on en déduit qu’il existe des différences significatives
entre les hauteurs moyennes des populations de plantules inoculées et non-inoculées représentées
par nos échantillons.

La procédure ci-dessus n’est pas applicable si les variances des deux populations ne sont pas
égales. Dans ce cas, on adoptera une méthode légèrement différente :

*Etape 1. Calculer la valeur du critère de test t à l’aide de la formule suivante

t=
( x1 − x2 ) (3.3)
 s12 s22 
 + 
 n1 n2 

*Etape 2. Comparer la valeur de t ainsi obtenue avec la valeur pondérée (t’) donnée par la table, au
niveau de probabilité voulu. La valeur tabulaire pondérée de t se calcule comme suit.
w1t1 + w2t 2
t' = (3.4)
w1 + w2
s12 s22
où w1 = , w2 = ,
n1 n2
t1 et t 2 sont les valeurs tabulaires de t données par la loi de Student avec ( n1 − 1) et (n2 − 1)
degrés de liberté respectivement, au niveau de probabilité voulu.

Prenons par exemple les données figurant dans le Tableau 3.1. L’homogénéité des variances des
deux groupes peut être vérifiée à l’aide du Test F décrit dans la Section 3.3. Si les deux variances ne
sont pas égales, le critère de test t peut être calculé comme suit,
( 20.8 − 9.61)
t= = 11.76
 6.36 2.7 
 10 + 10 

(0.636) ( 2.26) + (0.270)( 2.26)


t'= = 2.26
0.636 + 0.270

- 34 -
Inférence statistique

Comme la valeur calculée de t (11.76) est supérieure à la valeur tabulaire (2.26), on peut conclure
que la différence des moyennes est significative. Ici, la valeur de t’ est égale à celles de t 1 et t 2
puisque n1 et n2 sont égaux. Il n’en est pas toujours ainsi.

3.2.2. Echantillons appariés


Lorsqu’on compare les moyennes de deux groupes d’observations, il arrive que les groupes soient
appariés, au lieu d’être indépendants. C’est par exemple le cas, lorsque l’on compare l’état d’un
ensemble d’individus avant et après un traitement, ou les propriétés de la partie basse et de la partie
haute des tiges de bambous etc... Dans de telles situations, deux ensembles d’observations sont
extraits d’un seul ensemble d’unités expérimentales. Les observations peuvent aussi être appariées
pour d’autres raisons, notamment lorsqu’elles portent sur des paires de boutures de tiges issues de
plantes-mères différentes et sur les membres d’une paire soumise à deux traitements différents, dans
le but de comparer l’effet des deux traitements sur les boutures. On notera que les observations
obtenues à partir de ces paires peuvent être corrélées. Le test statistique utilisé pour comparer des
moyennes d’échantillons appariés est généralement appelé test jumelé t.

Soient (x 1, y1), (x 2, y2), . . ., (x n, yn), les n observations appariées. Supposons que les observations
concernant la variable x proviennent d’une population de moyenne µ 1 et celles qui concernent la
variable y d’une population de moyenne µ 2 . L’hypothèse à vérifier est H 0:µ 1 = µ 2 . Si on forme
les différences di = xi - yi pour i = 1, 2, …, n (on peut considérer qu’elles appartiennent à une
population normale de moyenne zéro et de variance connue), on pourra utiliser le critère de test
suivant :
d
t= (3.5)
sd2
n

1

 ( ∑ ) d
2


∑ i
i
où sd2 = d
2

n −1 n 
 

Le critère de test t donné par l’Equation (3.5) suit une loi de Student t avec n − 1degrés de liberté.
La valeur de t ainsi obtenue est donc comparable à la valeur tabulaire de t correspondant à n − 1
degrés de liberté, au niveau de probabilité souhaité.

Prenons par exemple les données du Tableau 3.2, qui ont été obtenues à partir de carottes de
sondage (échantillons cylindriques de terrain) prélevées à des niveaux de profondeur différents dans
une forêt naturelle. Les données sont des mesures de la teneur en carbone organique, prises à deux
niveaux différents de plusieurs fosses d’observation; il s’agit donc d’observations appariées pour
chaque fosse. Le test jumelé t peut être utilisé dans ce cas pour comparer la teneur en carbone
organique du sol à deux profondeurs différentes. La comparaison statistique se déroule comme
indiqué ci-après.

*Etape 1. Calculer la différence entre chaque paire d’observations d’après les données du Tableau
3.2

- 35 -
Inférence statistique

Tableau 3.2. Teneur en carbone organique mesurée à deux niveaux d’une série de fosses
d’observation situées dans une forêt naturelle.

Carbone organique (%)


Fosse Niveau 1 Niveau 2 Différence
d’observation (x) (y) (d)
1 1.59 1.21 0.38
2 1.39 0.92 0.47
3 1.64 1.31 0.33
4 1.17 1.52 -0.35
5 1.27 1.62 -0.35
6 1.58 0.91 0.67
7 1.64 1.23 0.41
8 1.53 1.21 0.32
9 1.21 1.58 -0.37
10 1.48 1.18 0.30

*Etape 2. Calculer la différence moyenne et la variance des différences, à l’aide de l’Equation (3.5)
n
∑ di 1.81
i =1
d= = = 0.181
n 10

1  (181
. ) 
2

s =
2
d
10 − 1 
(
 ( 0.38) + ( 0.47) + . . .+( 0.30) −
2 2 2
)
10 

1.33789
= = 0.1486
9

*Etape 3. Calculer la valeur de t en remplaçant les valeurs de d et sd2 dans l’Equation (3.5).
0.181
t= = 1.485
0.1486
10

La valeur calculée de t (1.485) est inférieure à la valeur tabulaire (2.262), pour 9 degrés de liberté,
au seuil de signification de 5%. Il n’y a donc pas de différence significative entre la teneur en carbone
organique moyenne des deux couches de terrain.

3.3. Test de comparaison de variances

On a souvent besoin de vérifier si deux échantillons aléatoires indépendants proviennent de


populations de même variance. Supposons que le premier échantillon de n1 observations ait pour
variance s12 et que le second échantillon de n2 observations ait pour variance s22 , et que les deux
échantillons proviennent de populations distribuées normalement. L’hypothèse nulle à tester est: “ les

- 36 -
Inférence statistique

deux échantillons sont indépendants et prélevés au hasard dans des populations normalement
distribuées de même variance ”, soit en symboles :
H0:σ21 = σ22
où σ21 , σ 22 sont les variances de deux populations dans lesquelles sont prélevés les deux échantillons.
L’hypothèse alternative est la suivante :
H1:σ12 ≠ σ22

Le critère statistique utilisé pour tester l’hypothèse nulle est


s12
F= 2 (3.6)
s2
2
où s1 est le plus grand carré moyen

Dans l’hypothèse nulle, on peut montrer que le critère statistique suit une distribution de F avec
(n1 − 1, n2 − 1) degrés de liberté. La règle de décision est la suivante: si la valeur calculée du critère
statistique est inférieure à la valeur critique de la distribution de F, au seuil de signification voulu, on
accepte l’hypothèse nulle, à savoir que les deux échantillons sont prélevés dans des populations de
même variance. Dans le cas contraire, l’hypothèse nulle est rejetée.

Supposons par exemple que les estimations des variances de deux populations soient s12 = 2187. et
s2 = 15.36 , et soient respectivement basées sur n1 =11 et n2 = 8 observations des deux populations.
2

Pour vérifier si les variances sont égales, on calcule le rapport


s2 2187 .
F = 12 = = 1.424
s2 15.36

et on compare le résultat à la valeur critique de la distribution de F pour 10 et 7 degrés de liberté.


On lit dans l’Annexe 3 que cette valeur critique du critère F est 3.14, au seuil de signification de
0,05. La valeur calculée étant inférieure à la valeur critique, les variances sont égales.

3.4. Test de proportions

Lorsque les observations consistent à classer les individus dans des catégories particulières, comme
‘malade’ ou ‘en bonne santé’, ‘mort’ ou ‘vivant’ etc…, les données sont généralement résumées en
termes de proportions. Il peut alors être intéressant de comparer les proportions de l’incidence d’un
caractère dans deux populations. L’hypothèse nulle à formuler dans de telles situations est
H 0: P1 = P2 , alors que l’hypothèse alternative est H 1: P1 ≠ P2 (ou P1 > P2 ou P1 < P2 ), où P1 et P2
sont des proportions représentant les deux populations. Pour tester cette hypothèse, on prélève deux
échantillons indépendants de grande taille, par exemple n1 et n2, dans les deux populations. On
obtient ainsi deux échantillons de proportions respectives p1 et p2 . Le critère statistique utilisé est le
suivant :

- 37 -
Inférence statistique

p1 − p2
z= (3.7)
p1q1 p2q2
+
n1 n2
où q1 = 1 - p1, q2 = 1 - p2. Cette statistique suit une loi de distribution normale standard.

Prenons pour exemple une expérience sur la formation des racines de boutures de tiges de
Casuarina equisetifolia, consistant à observer l’effet de l’immersion des boutures dans des
solutions d’AIB (acide indolylbutyrique), à deux concentrations différentes. Deux lots comprenant
chacun trente boutures ont été plongés dans des bains d’AIB, à des concentrations respectives de
50 et 100 ppm. Les observations ont permis de déterminer la proportion de boutures pourvues de
racines dans chaque lot de 30, à chaque concentration. A la concentration de 50 ppm, la proportion
de boutures à racines était de 0.5, contre 0.37, à la concentration de 100 ppm. La question qui nous
intéresse ici est de déterminer si les proportions observées reflètent des différences significatives de
l’effet de l’acide, aux deux concentrations.

Conformément à notre notation, p1 = 0.5 et p2 = 0.37. Par suite q1 = 0.5, q2 = 0.63. De plus n1 = n2
= 30. Le critère statistique vaut donc,
0.5 − 0.37
z= = 1.024
( 0.5)( 0.5) ( 0.37)( 0.63)
+
30 30

La valeur de z obtenue (1.024) est inférieure à la valeur donnée par la table (1.96) au seuil de
signification de 5%. Il n’y a donc pas de différence significative entre les proportions de boutures à
racines, aux deux concentrations.

3.5. Test de la validité de l’ajustement

Les tests d’hypothèses ont parfois pour but de vérifier si la population dont provient un échantillon
suit une loi de distribution de probabilité déterminée. La distribution escomptée peut être basée sur
un modèle théorique (loi normale, binomiale ou de Poisson) ou sur un schéma particulier, en raison
de facteurs techniques. Il peut par exemple être intéressant de vérifier si une variable comme la
hauteur des arbres suit une loi normale de distribution. Un spécialiste de l’amélioration génétique des
arbres peut avoir besoin de savoir s’il existe une déviation significative entre les rapports de
ségrégation relatifs à un caractère, tels qu’ils sont observés, et ceux de Mendel..Dans de telles
situations, on est amené à vérifier la correspondance entre les fréquences observées et théoriques.
Ce type de test a reçu le nom de test de la validité de l'ajustement.

Pour appliquer le test de la validité de l’ajustement, on utilise uniquement les fréquences réelles
observées, à l’exclusion des pourcentages ou proportions. De plus, il est indispensable que les
observations faites sur un même échantillon ne se chevauchent pas et soient indépendantes. Les
fréquences attendues dans chaque catégorie doivent de préférence être supérieures à 5. Le nombre
total d’observations doit être élevé, en général supérieur à 50.

- 38 -
Inférence statistique

Dans les tests de la validité de l’ajustement, l’hypothèse nulle est “ il n’y a pas de discordance entre
la distribution observée et la distribution théorique ”, ou “ la distribution observée est ajustée à la
distribution théorique ”. Le critère de test utilisé est le suivant
k
(Oi − Ei )2
χ =
2
∑ Ei
(3.8)
i =1
où Oi = fréquence observée dans la ième classe,
Ei = fréquence attendue dans la ième classe.
k = nombre de catégories ou classes.

La statistique χ2 de l’équation (3.8) suit une distribution de χ2 avec k-1 degrés de liberté. Si les
fréquences attendues sont dérivées de paramètres estimés dans l’échantillon, les degrés de libertés
sont au nombre de (k-p-1) (où p est le nombre de paramètres estimés). Si, par exemple, on veut
tester la normalité d’une distribution, une estimation de µ et σ2 à partir de l’échantillon sera donnée
par x et s2. Les degrés de liberté se réduisent donc à (k-2-1).

Les fréquences escomptées peuvent être calculées d’après la fonction de probabilité de la


distribution théorique appropriée à la situation, ou obtenues par dérivation, en prenant pour base la
théorie scientifique que l’on compte tester, par exemple la loi de Mendel sur l’hérédité. Dans le cas
où il n’existe pas de théorie bien définie, on supposera que toutes les classes se retrouvent avec la
même fréquence dans la population. Par exemple, l’hypothèse de départ peut être que le nombre
d’insectes pris au piège à différents moments d’une journée, ou le nombre de fois où l’on voit un
animal dans différents habitats etc… sont égaux et soumettre ces fréquences au test statistique. Dans
ces situations, la fréquence attendue est donnée par la formule
Total des fréquences observées n
E= = (3.9)
Nombre des groupes k

Examinons par exemple les données du Tableau 3.3 qui représentent le nombre d’espèces d’insectes
capturés, durant des mois différents, dans une zone non perturbée du Sanctuaire naturel de
Parambikkulam. Pour vérifier s’il y a des différences significatives entre le nombre d’espèces
d’insectes trouvés durant des mois différents, on formulera l’hypothèse nulle comme suit : la diversité,
exprimée par le nombre d’espèces d’insectes, est la même tous les mois, dans le sanctuaire, et l’on
en dérivera les fréquences attendues pendant les différents mois.

- 39 -
Inférence statistique

Tableau 3.3. Calcul de χ2 à partir des données sur le nombre d’espèces d’insectes
capturées à Parambikkulam pendant les différents mois.

Mois O E (O − E ) 2 E
Janvier 67 67 0.00
Février 115 67 34.39
Mars 118 67 38.82
Avril 72 67 0.37
Mai 67 67 0.00
Juin 77 67 1.49
Juillet 75 67 0.96
Août 63 67 0.24
Septembre 42 67 9.33
Octobre 24 67 27.60
Novembre 32 67 18.28
Décembre 52 67 3.36
Total 804 804 134.84

La valeur obtenue pour χ2 est 134.84. Si l’on se reporte à la table de distribution de χ2 (Annexe 4)
pour (12-1) = 11 degrés de liberté et α = 0.05, on trouve pour χ2 la valeur critique de 19.7. On
accepte donc l’hypothèse nulle et on conclut que le nombre d’espèces d’insectes trouvés est le
même tous les mois.

3.6. Analyse de variance

L’analyse de variance est essentiellement une technique de répartition de la variation totale des
réponses observées lors d’une expérience, entre les différentes sources de variation à laquelle elle
peut être attribuée, certaines de ces sources pouvant être déterminées alors que d’autres sont
inconnues. Cette technique permet aussi de vérifier si la variation due à une composante particulière
quelconque est significative, par rapport à la variation résiduelle qui peut apparaître entre les unités
d’observations.

L’analyse de variance se fait selon un modèle sous-jacent qui exprime la réponse comme somme de
différents effets. Etudions par exemple l’Equation (3.10).
yij = µ + α i + eij , i =1, 2, …, t; j = 1, 2, …, ni (3.10)
où yij est la réponse de la j-ème unité individuelle appartenant à la i-ème catégorie ou groupe, µ
est la moyenne de l’ensemble de la population, α i est l’effet associé à l’appartenance au i-ème
groupe et eij une erreur aléatoire associée à la (ij)-ème observation. Il s’agit d’un modèle d’analyse
de la variance à un critère de classification, qui peut être étendu en ajoutant de plus en plus d’effets
applicables à une situation particulière. Lorsque plusieurs sources de variations connues
interviennent, on a un modèle d’analyse de variance à plusieurs facteurs.

- 40 -
Inférence statistique

L’analyse repose sur quelques hypothèses de base à propos des observations et des effets, à savoir:
i) Les différents effets des composantes sont additifs ii) Les erreurs eij sont distribuées de manière
indépendante et égale, avec une moyenne nulle et une variance constante.
Le modèle (3.10) peut aussi s’écrire :
yij = µ i + eij (3.11)
où µ i = µ + α i

Si l’on ajoute quelques hypothèses, l’analyse de la variance permet aussi de vérifier les hypothèses
suivantes :
H 0: µ1 = µ 2 = . . . = µ t
H1: µ i ≠ µ j pour au moins un i et j (3.12)

L’hypothèse supplémentaire requise est “ les erreurs sont distribuées normalement ”. Même si de
légers écarts sont tolérables, l’interprétation de l’analyse de la variance n’aura de valeur que si ces
hypothèses sont réunies.

On notera en outre que les effets pris en compte dans le modèle peuvent être des effets fixes ou des
effets aléatoires. Par exemple, les effets de deux niveaux d’irrigation bien définis sont fixes, puisque
l’on peut raisonnablement supposer que chaque niveau a un effet déterminé. En revanche, si l’on
choisit au hasard un ensemble de provenances dans un plus grand ensemble, les effets imputables
aux provenances sont considérés comme aléatoires. Les effets aléatoires peuvent appartenir à une
population finie ou infinie. Les effets d’erreurs sont toujours aléatoires et peuvent appartenir à une
population finie ou infinie. Un modèle dans lequel tous les effets (autres que l’effet d’erreur qui est
toujours considéré comme aléatoire) sont fixes, est un modèle à effets fixes. Un modèle dans lequel
apparaissent les deux types d’effets est un modèle mixte et un modèle dans lequel tous les effets sont
aléatoires est un modèle à effets aléatoires. Les modèles à effets fixes ont pour principaux objectifs
d’estimer les effets fixes, de quantifier la variation due à ces effets dans la réponse, et enfin de
trouver la variation entre les effets d’erreur, alors que les modèles à effets aléatoires visent surtout à
estimer la variation de chaque catégorie d’effets aléatoires. La méthode à suivre pour obtenir des
expressions de la variabilité est en général la même pour tous les modèles, même si les méthodes de
test sont différentes.

La technique d’analyse de variance est illustrée ci-après, avec un modèle à un critère de classification
ne comprenant que des effets fixes. Des cas plus complexes sont abordés aux chapitre 4 et 6, lors
de l’illustration des analyses relatives aux différents plans d’expérience.

3.6.1. Analyses de données classifiées selon un critère


Considérons un ensemble de données concernant la densité du bois obtenues à partir d’observations
d’un ensemble, choisi au hasard, de tiges appartenant à un ensemble d’espèces de bambous.
Supposons que l’on ait t espèces et r observations pour chaque espèce. Les résultats peuvent être
rassemblés en tableau, selon le modèle ci-après :

- 41 -
Inférence statistique

Espèces
1 2 .. i .. t
y11 y21 yi1 yt1
y12 y22 yi2 yt2
..
y1j y2j yij ytj
..
y1r y2r yir ytr
Total y1. y2. yi.
y..= Total général yt.
Moyenne y1 y2 yi
y = Moyenne générale yt
Note: Dans ce tableau, une période (.) en indice dénote la somme sur cet indice.

La théorie qui sous-tend l’analyse de variance est complexe et risquerait de rebuter le lecteur
profane. C’est pourquoi nous avons choisi de présenter une dérivation heuristique des formules.
Considérons les r observations concernant une espèce particulière quelconque, par exemple la i-
ème. Leurs valeurs peuvent être différentes, ce qui démontre l’influence de nombreux facteurs
externes sur les observations de tiges de cette espèce. Cette influence peut-être mesurée par les
écarts des observations individuelles à la moyenne. Il est préférable d’élever les écarts au carré car
les écarts simples pourraient s’éliminer lors de la sommation. L’amplitude d’une variation aléatoire
affectant les observations concernant la i-ème espèce est donnée par l’expression

( yi1 − yi . )2 + ( yi 2 − yi . )2 + . . . + ( yir − yi . ) ∑ (y )
r 2
2
= ij − yi . (3.13)
j =1

Pour chaque espèce, la variation produite par les sources externes reflète l’influence des facteurs
incontrôlés, qui peut être globalement estimée par sommation. La variation totale observée,
imputable à des facteurs externes, également connue sous le nom de somme des carrés due aux
erreurs (SSE) est donnée par

∑ ∑(y )
t r 2
SSE = ij − y i. (3.14)
i =1 j =1

Outre les fluctuations aléatoires, différentes espèces peuvent avoir différents effets sur la réponse
moyenne. La variation due à la i-ème espèce dans les r observations est donc
r ( yi . − y )
2
(3.15)
La variation due aux différences entre les espèces est donc donnée par la relation

SS due aux espèces = SSS = r ∑ ( yi . − y )


t
2
(3.16)
i =1

algébriquement équivalente à
2
t  t r 
∑ y 2  ∑ ∑ yij 
i.
 i =1 j =1 
SSS = i =1
− (3.17)
r tr

- 42 -
Inférence statistique

Le second terme de l’équation (3.17) est appelé facteur de correction (C.F.).


2
 t r 
 
 ∑ ∑ ij 
y
 i=1 j =1 
C. F . = (3.18)
tr
Pour finir, nous devons trouver la variation totale présente dans toutes les observations. Cette
dernière est donnée par la somme des carrés des écarts de toutes les réponses à leur moyenne
générale. En symboles,

∑ ∑ ( yij − y )
t r 2
SSTO = (3.19)
i =1 j = 1

∑ ∑ ( y ij )2
t r
= − y i. + y i. − y
i =1 j =1

∑ ∑  ( yij − yi. ) ( )
t r
 
+ ( y i. − y ) + 2 yij − yi. ( yi . − y )
2 2
=

i =1 j =1

∑ ∑ ( y ij − yi. )
t r t
+ r ∑ ( yi. − y )
2 2
= (3.20)
i =1 j= 1 i =1

( ) ( )
t r t r
où ∑ ∑ 2 yij − yi. ( yi. − y ) = 2∑ ( yi. − y )∑ y ij − y i. = 0
i =1 j =1 i =1 j =1

La variation totale des réponses peut donc s’exprimer comme la somme des variations entre les
espèces et des variations au sein d’une espèce. C’est là l’essence même de l’analyse de la variance.

Aux fins des calculs, SSTO s’obtient aussi comme


2
 t r 
∑ ∑ y 
 ij 

( )  
t r t t r = =
SSTO = ∑ ∑ y ij − yi. + r ∑ ( yi. − y ) = ∑ ∑ yij2 −
2 2 i 1 j 1
(3.21)
i =1 j= 1 i =1 i =1 j=1
tr

Si la répartition de la variabilité totale entre ce qui est dû aux différences entre espèces et ce qui est
dû aux facteurs externes a une valeur informative, elle n’est guère utile en elle même pour pousser
plus avant l’interprétation. En effet, ces valeurs dépendent du nombre d’espèces et du nombre
d’observations effectuées sur chaque espèce. Pour éliminer l’effet dû au nombre d’observations, on
réduit les mesures de la variabilité observée à une variabilité par observation, c’est à dire à la
moyenne de la somme des carrés. Etant donné qu’il y a au total rt observations, dont on tire la
somme totale des carrés, il est évident que l’on peut calculer la moyenne de la somme des carrés en
divisant la somme totale des carrés par rt. Au lieu de cela, on la divise par (rt-1), qui est le nombre
total d’observations moins une. Ce diviseur est appelé degré de liberté et indique le nombre
d’écarts à la moyenne indépendants qui contribuent au calcul de la variation totale. Par conséquent,

SSS
Moyenne de la somme des carrés due aux espèces = MSS = (3.22)
t−1

- 43 -
Inférence statistique

SSTO - SSS
Moyenne de la somme des carrés due aux erreurs = MSE = (3.23)
t ( r − 1)

Le calcul de la moyenne des carrés des espèces et de la moyenne des carrés des erreurs est crucial
pour vérifier la signification des différences entre les moyennes des espèces. Ici, l’hypothèse nulle qui
est testée est que toutes les moyennes de population des espèces sont égales, c’est à dire :
H 0:µ 1 = µ 2 = . . . = µ t

Dans cette hypothèse, les deux moyennes des carrés ci-dessus représenteront deux estimations
indépendantes du même effet aléatoire, autrement dit MSS et MSE fournissent une estimation de la
même variance. On peut maintenant tester l’hypothèse “ les effets des espèces sont égaux ” à l’aide
du critère F, où F est le rapport de MSS à MSE. Le critère F suit une distribution F avec (t-1) et
t(r-1) degrés de liberté. La signification de F peut être déterminée de la manière habituelle en se
reportant à la table de F (Annexe 3). Si la valeur calculée de F est supérieure à la valeur indiquée
par la table, l’hypothèse est rejetée. Cela signifie que les observations concernant au moins une paire
d’espèces ont mis en évidence des différences significatives.

Les résultats qui précèdent peuvent être récapitulés dans un tableau d’analyse de variance, présenté
comme suit

Table 3.4. Tableau d’analyse de variance


Sources de variation Degrés de Somme des Moyenne des Rapport F
liberté carrés carrés calculé
(df) (SS)  SS 
 MS = 
 df 
Entre espèces t-1 SSS MSS MSS
MSE
Au sein d’une espèce t(r-1) SSE MSE
(erreur)
Total tr-1 SSTO

Nous illustrerons ce qui précède à l’aide des données du Tableau 3.5. Celles-ci représentent un
ensemble d’observations sur la densité du bois, dérivées d’un ensemble, prélevé au hasard, de tiges
de cinq espèces de bambous.

- 44 -
Inférence statistique

L’analyse de la variance des données de l’échantillon se fait en plusieurs étapes.

*Etape 1. Calculer les totaux des espèces, la moyenne des espèces, le total général et la moyenne
générale (comme dans le Tableau 3.5) . Ici le nombre d’espèces = t = 5 et le nombre
d’observations = r = 3.

Tableau 3.5. Densité du bois (g/cc) observée sur un ensemble, prélevé au hasard, de tiges
appartenant à différentes espèces de bambous.
Espèces
1 2 3 4 5 Général
1 0.58 0.53 0.49 0.53 0.57
2 0.54 0.63 0.55 0.61 0.64
3 0.38 0.68 0.58 0.53 0.63
Total 1.50 1.85 1.62 1.67 1.85 8.49
Moyenne 0.50 0.62 0.54 0.56 0.62 0.57

*Etape 2. Calculer le facteur de correction C.F à l’aide de l’équation (3.18).


(8.49) 2
C.F. = = 4.81
( 5)( 3)

*Etape 3. Calculer la somme totale des carrés à l’aide de l’équation (3.21).


2 2 2 (8.49 )2
SSTO = (0.58) + (0.53) + . . .+ (0.63) -
( 5)( 3)
= 0.0765

*Etape 4. Calculer la somme des carrés relative aux espèces à l’aide de l’équation (3.17).
( 150
. ) + ( 184
2
. ) + . . . + ( 184
2
. )
2
(8.49) 2
SSS = −
5 (5)(3)
= 0.0307

*Etape 5. Calculer la somme des carrés des erreurs grâce à la relation SSE = SSTO - SSS
SSE = 0.0765 - 0.0307
= 0.0458

*Etape 6. Calculer la moyenne de la somme des carrés pour les espèces et les erreurs. Celles-ci
sont données par les équations (3.22) et (3.23).
0.0307
MSS =
5 −1
= 0.0153

0.0458
MSE =
5( 3 − 1)
= 0.0038

- 45 -
Inférence statistique

*Etape 7. Calculer le rapport F


Traitement MS
F=
Erreur MS
0.0153
=
0.0038
= 4.0108

*Etape 8. Résumer les résultats comme dans le Tableau 3.6.

Tableau 3.6. Tableau de l’analyse de la variance des données du Tableau 3.5.


Sources de Degrés de Sommes Carrés moyens Rapport F Valeur
variation liberté des carrés  SS  calculé tabulaire de
(df) (SS)  MS =  F
 df 

Entre 4 0.0307 0.0153 4.01 3.48


espèces
Au sein 10 0.0458 0.0038
d’une
espèce
Total 14 0.0765

Comparer la valeur calculée et la valeur tabulaire de F, pour 4 et 10 degrés de liberté. Dans notre
exemple, la valeur calculée du rapport F (1.73) est inférieure à la valeur tabulaire (3.48), au seuil de
signification de 5%. On en conclut qu’il n’y a pas de différences significatives entre les moyennes des
différentes espèces.

3.7. Transformation de données

On a déjà dit dans la section précédente que la validité de l’analyse de variance dépend de certains
hypothèses importantes. L’analyse peut aboutir à des conclusions fausses si toutes ces hypothèses ne
sont pas respectées, ce qui est par exemple relativement courant pour l’hypothèse de la variance
constante des erreurs. Dans ce cas, l’une des possibilités est d’effectuer une analyse de variance
pondérée, en vertu de laquelle chaque observation est pondérée par l’inverse de sa variance. Ceci
suppose d’estimer la variance de chaque observation, ce qui n’est pas toujours possible. Souvent,
les données subissent certaines transformations d’échelle, de sorte qu’à l’échelle transformée,
l’hypothèse de la variance constante est réalisée. Certaines de ces transformations peuvent aussi
corriger des écarts des observations par rapport à la normale, du fait qu’une différence de variance
est souvent aussi liée à la distribution de la variable. On dispose de méthodes spécifiques pour
identifier la transformation requise pour tout ensemble de donnée particulier (Montgomery et Peck,
1982), mais on peut aussi avoir recours à certaines formes de transformation normalisées suivant la

- 46 -
Inférence statistique

nature des données. Les plus courantes sont la transformation logarithmique, la transformation
racine carrée et la transformation angulaire.

3.7.1. Transformation logarithmique


Lorsque les données se présentent sous forme de nombres entiers représentant des catégories de
grande étendue, les variances des observations à l’intérieur de chaque groupe sont généralement
proportionnelles aux carrés des moyennes du groupe. Pour ce type de données, la transformation
logarithmique est conseillée. La comparaison d’une parcelle témoin de moyennes de groupe avec
l’écart-type du groupe mettra en évidence une relation linéaire. Les données issues d’une expérience
réalisée avec différents types d’insecticides fournissent un bon exemple. Pour l’insecticide efficace,
les catégories d’insectes dans l’unité expérimentale traitée peuvent être peu étendues, alors que pour
les insecticides inefficaces, les catégories peuvent comprendre de 100 à plusieurs milliers d’insectes.
Dans le cas de données avec des zéros, il est conseillé d’ajouter 1 à chaque observation avant de
procéder à la transformation. La transformation logarithmique est particulièrement efficace pour
normaliser les distributions désaxées vers la droite. Elle est parfois aussi employée pour calculer
l’additivité des effets.

3.7.2. Transformation racine carrée


La méthode consistant à convertir les observations originelles à l’ordre de grandeur de la racine
carrée, en prenant la racine carrée de chaque observation, est connue sous le nom de transformation
racine carrée. Elle est appropriée lorsque la variance est proportionnelle à la moyenne, ce que l’on
peut voir sur un graphique de variances de groupe et de moyennes de groupes. Une relation linéaire
entre la moyenne et la variance est couramment observée lorsque les données sont de petits nombres
entiers (ex : catégories de sauvageons par quadrat, adventices par parcelle, vers de terre par mètre
carré de sol, insectes pris au piège etc…) Lorsque les valeurs observées sont comprises dans une
fourchette allant de 1 à 10, et surtout lorsqu’elles ont des zéros, la transformation devrait être ,
y + 0.5 . La transformation du type y + (3 /8) est également employée pour certaines raisons
théoriques.

3.7.3. Transformation Angulaire


Dans le cas de proportions dérivées de données de fréquence, la proportion observée p peut être
mise sous une nouvelle forme θ = sin−1 p . Cette méthode est connue sous le nom de
transformation angulaire ou de transformation arc-sinus. Toutefois, lorsque presque toutes les valeurs
des données sont comprises entre 0,3 et 0,7, cette transformation n’est pas nécessaire. En outre, elle
n’est pas applicable aux proportions ou aux pourcentages qui n’ont pas été obtenus
expérimentalement. Ainsi, les pourcentages de marques, de profit, de protéines dans les graines, la
teneur en huile des semences etc…ne peuvent pas être soumis à une transformation angulaire. La
transformation angulaire n’est pas valable lorsque dans les données p prend les valeurs 0 ou 1. On
l’améliorera en remplaçant, avant de prendre des valeurs angulaires, 0 par (1/4n) et 1 par [1-
(1/4n)], où n est le nombre d’observations sur la base desquelles est estimé p pour chaque groupe.

Pour illustrer la transformation angulaire par un exemple, prenons les données du Tableau 3.7 qui
représentent le pourcentage de racines obtenu après avoir appliqué pendant six mois un traitement
hormonal, à des doses différentes, à des boutures de tiges d’une espèce d’arbre. Trois lots,
contenant chacun dix boutures, ont été trempés dans une solution hormonale, à des dosages

- 47 -
Inférence statistique

différents. L’hormone a été essayée à trois concentrations et l’expérience comprenait un lot témoin
non traité. Le pourcentage de racines de chaque lot de boutures a été obtenu en divisant le nombre
de boutures à racines par le nombre de boutures compris dans un lot.
Tableau 3.7. Pourcentage de boutures obtenu au bout de six mois de traitement
Traitements
Lot de Lot témoin AIB, à 10 AIB, à AIB, à
boutures ppm 50 ppm 100 ppm
1 0 70 60 30
2 0 80 70 20
3 0 60 70 10

Les données du Tableau 3.7 ont été transformées à l’échelle angulaire, à l’aide de la fonction,
sin −1 p après avoir remplacé les valeurs de “ 0 ” par (1/4n) où n =10. Les valeurs de la fonction
sin −1 p pour différentes valeurs de p peuvent aussi être extraites du Tableau (X) of Fisher et Yates
(1963). Les données transformées du Tableau 3.7 sont rassemblées dans le Tableau 3.8.

Table 3.8. Données du Tableau 3.7 transformées à l’échelle angulaire.


Traitements
Lots de Témoin AIB à 10 AIB à AIB à Total
boutures ppm 50 ppm 100 ppm général
1 0.99 56.79 50.77 33.21
2 0.99 63.44 56.79 26.56
3 0.99 50.77 56.79 18.44
Total 2.97 171 164.35 78.21 416.53

Afin de voir si les effets des traitements présentent des différences significatives, une analyse de
variance à un facteur peut être effectuée selon la méthode indiquée dans la section 3.6 sur les
données transformées. Les résultats de l’analyse de variance sont présentés au Tableau 3.9.

Tableau 3.9. Analyse de la variance des données transformées du Tableau 3.8.


Sources de variation Degrés de Sommes Carrés Rapport de Valeur
liberté des carrés moyens F calculé tabulaire
(df) (SS)  SS  de F
 MS =  Au seuil
 df 
de 5%
Entre les traitements 3 6334.41 2111.47 78.96* 4.07
Dans un même 8 213.93 26.74
traitement
Total 11 6548.34
* significatif au seuil de 5%.

- 48 -
Inférence statistique

Avant de conclure cette section, il convient d’ajouter une note de caractère général. Une fois que la
transformation a été faite, l’analyse est effectuée avec les données transformées et toutes les
conclusions sont tirées à l’échelle transformée. Toutefois, lors de la présentation des résultats, les
moyennes et leurs écarts types sont reconverties aux unités originelles. Lors de cette reconversion,
certaines corrections doivent être apportées aux moyennes. Dans le cas de données soumises à une
transformation logarithmique, si la valeur moyenne est y, la valeur moyenne des unités originelles sera
antilog( y + 115
. y ) au lieu de antilog( y ) . Avec la transformation racine carrée, la moyenne à
( )
l’échelle initiale serait y + V ( y ) au lieu de ( y ) où V ( y ) représente la variance de y . On ne fait
2 2

généralement pas ces corrections dans le cas d’une transformation angulaire. Pour la transformation
angulaire, la transformation inverse serait p = (sin θ)2.

3.8. Corrélation

Dans beaucoup de systèmes naturels, les changements d’un attribut s’accompagnent de variations
d’un autre attribut, et il existe une relation définie entre les deux. En d’autres termes, il existe une
corrélation entre les deux variables. Par exemple, plusieurs propriétés des sols, comme la teneur en
azote, la teneur en carbone organique ou le pH, sont corrélées et varient de façon concomitante. On
a observé une forte corrélation entre plusieurs caractéristiques morphométriques d’un arbre. Dans de
telles situations, il peut être intéressant pour un chercheur de mesurer l’importance de cette relation.
Si (x i,yi); i = 1, ..., n, est un ensemble d’observations appariées effectuées sur n unités
d’échantillonnage indépendantes, une mesure de la relation linéaire entre deux variables est donnée
par la quantité suivante, appelée coefficient de corrélation linéaire de Pearson, ou simplement
coefficient de corrélation.
Covariance de x et y Cov(x, y)
r= = (3.24)
(Variance de x )(Variance de y ) (V(x ))(V( y))
 n n 
1 n 

1 n
∑ xi ∑ yi 
où Cov (x,y) =  ∑ ( xi − x )( yi − y ) =  ∑ xi yi − i =1 i =1
n  i =1  n i =1 n 
 
 
  n  
2
  ∑ xi 
1 n 2 1  n 2  i =1  
V(x) =  ∑ ( xi − x )  =  ∑ xi − 
n  i =1  n  i =1 n 
 
 
  n  
2
  ∑ yi 
1 n 2 1  n 2  i =1  
V(y) =  ∑ ( yi − y )  =  ∑ yi − 
n  i =1  n  i =1 n 
 
 

- 49 -
Inférence statistique

Ce paramètre statistique indique à la fois la direction et le degré de la relation existant entre deux
caractères quantitatifs x et y. La valeur de r peut varier de –1 à +1, sans atteindre ces valeurs. Si la
valeur de r est nulle, cela signifie qu’il n’y a pas de relation linéaire entre les deux variables
concernées (il peut toutefois y avoir une relation non-linéaire). La relation linéaire est forte lorsque la
valeur de r approche –1 ou +1. Une valeur négative de r indique que si la valeur d’une variable
augmente, celle de l’autre diminue. Au contraire, une valeur positive indique une relation directe,
c’est à dire que l’augmentation de la valeur d’une variable est associée à une augmentation de la
valeur de l’autre. Un changement d’origine, d’échelle, ou d’origine et d’échelle est sans incidence sur
le coefficient de corrélation. Lorsque l’on ajoute ou soustrait un terme constant aux valeurs d’une
variable, on dit que l’on a changé d’origine, alors que lorsque l’on multiplie ou divise par un terme
constant les valeurs d’une variable, on parle de changement d’échelle.

A titre d’exemple, considérons les données du Tableau 3.10 concernant le pH et la teneur en


carbone organique mesurés dans des échantillons de terrain provenant de 15 fosses d’observation
creusées dans des forêts naturelles.

Tableau 3.10. Valeurs du pH et de la teneur en carbone organique observées dans des échantillons
de terrain prélevés dans des forêts naturelles.
Fosse pH Carbone organique
d’observation (x) (%) (x 2) (y2) (xy)
(y)
1 5.7 2.10 32.49 4.4100 11.97
2 6.1 2.17 37.21 4.7089 13.24
3 5.2 1.97 27.04 3.8809 10.24
4 5.7 1.39 32.49 1.9321 7.92
5 5.6 2.26 31.36 5.1076 12.66
6 5.1 1.29 26.01 1.6641 6.58
7 5.8 1.17 33.64 1.3689 6.79
8 5.5 1.14 30.25 1.2996 6.27
9 5.4 2.09 29.16 4.3681 11.29
10 5.9 1.01 34.81 1.0201 5.96
11 5.3 0.89 28.09 0.7921 4.72
12 5.4 1.60 29.16 2.5600 8.64
13 5.1 0.90 26.01 0.8100 4.59
14 5.1 1.01 26.01 1.0201 5.15
15 5.2 1.21 27.04 1.4641 6.29
Total 82.1 22.2 450.77 36.4100 122.30

Le coefficient de corrélation se calcule en plusieurs étapes.

*Etape 1. Calcul de la covariance de x et y et des variances de x et de y à l’aide de l’équation


(3.24).
1 ( 82.1) (22.2) 
Cov (x,y) =  122.30 − 
15  15 

- 50 -
Inférence statistique

= 0.05
1 (82.1) 2 
V(x) =  450.77 − 
15  15 
= 0.0940

1 (22.2) 2 
V(y) =  36.41 − 
15  15 
= 0.2367

*Etape 2. Calcul du coefficient de corrélation avec l’équation (3.24).


0.05
r=
( 0.0940)( 0.2367 )
= 0.3541

3.8.1. Test de signification du coefficient de corrélation.


La signification d’une valeur du coefficient de corrélation calculée à partir d’un échantillon doit être
testée pour confirmer l’existence d’une relation entre les deux variables, dans la population
considérée. En général, on définit l’hypothèse nulle comme H 0 : ρ = 0 alors que l’hypothèse
alternative est H1:ρ ≠ 0 .

Pour n relativement petit, l’hypothèse nulle (ρ = 0 ) peut être testée à l’aide du critère statistique
r n−2
t= (3.25)
1− r2

Ce critère statistique suit une distribution de Student t avec n-2 degrés de liberté.

Examinons les données du Tableau 3.10, où n = 15 et r = 0.3541. Pour tester si H 0:ρ = 0 ou si, au
contraire, H 1:ρ ≠ 0 , on calcule le critère statistique à l’aide de l’Equation (3.25).
0.3541 15 − 2
t= = 1.3652
1 − (0.3541) 2

Dans la table de l’Annexe 2, la valeur critique de t est 2,160, pour 13 degrés de liberté, au seuil de
signification α = 0,05. Comme la valeur calculée de t est inférieure à la valeur critique, on conclut
que le pH et la teneur en carbone organique mesurés à partir d’échantillons de terrain ne sont pas
corrélés de manière significative. Pour simplifier, on pourrait aussi se reporter à l’Annexe 5 qui donne
les valeurs au-delà desquelles un coefficient de corrélation observé peut être déclaré significatif, pour
un nombre donné d’observations au seuil de signification voulu.

Pour tester l’hypothèse H 0:ρ = ρ0 , où ρ0 est une valeur donnée quelconque de ρ, on utilise la
transformation Z de Fisher donnée par
1 1+ r
z = ln   (3.26)
2 1− r

- 51 -
Inférence statistique

où ln indique le logarithme naturel.

Pour tester l’hypothèse nulle, on choisit le critère statistique


z − z0
w= (3.27)
1
n−3
1  1 + ρo 
où z0 = ln  
2  1 − ρ0 

Le critère statistique w suit une loi de distribution normale standard.

Pour illustrer ceci par un exemple, prenons les données du Tableau 3.10, pour n = 15 et r =
0.3541. Supposons que l’on veuille tester l’hypothèse nulle H 0 :ρ = ρ0 = 0.6 ; on commencera par
soumettre les valeurs de r et ρ à la transformation z.
1  1 + 0.3541
z = ln   = 0.3701
2  1 − 0.3541

1  1 + 0.6 
z0 = ln   = 0.6932
2  1 − 0.6 

La valeur du critère statistique sera donc


0.3701 − 0.6932
w= = 1.16495
1
15 − 3

Etant donné que la valeur de w est inférieure à la valeur critique 1.96, le critère n’est pas significatif
au seuil de signification de 5%. On en conclut que le coefficient de corrélation entre le pH et la teneur
en carbone organique ne diffère pas de manière significative de 0.6.

3.9. Régression

Le coefficient de corrélation mesure le degré de la relation entre deux variables qui varient de façon
concomitante, avec des effets qui se renforcent mutuellement. Dans certains cas, les changements
relatifs à une variable sont provoqués par les variations d’une variable connexe, sans qu’il y ait de
dépendance mutuelle. En d’autres termes, une variable est considérée comme dépendante des
variations de l’autre variable, dans la mesure où elles dépendent de facteurs externes. Une telle
relation entre deux variables est appelée régression. Lorsque ces relations sont exprimées sous forme
mathématique, il est possible d’estimer la valeur d’une variable d’après la valeur de l’autre. Par
exemple, le rendement de conversion photosynthétique et le coefficient de transpiration des arbres
dépendent de conditions atmosphériques comme la température ou l’humidité, sans pour autant que
l’on s’attende généralement à une relation inverse. Toutefois certaines variables sont souvent
déclarées indépendantes uniquement au sens statistique, même dans des situations où des effets
inverses sont concevables. Par exemple, dans une équation servant à estimer le volume, le volume

- 52 -
Inférence statistique

des arbres est souvent considéré comme dépendant du diamètre à hauteur d’homme, même si le
diamètre ne saurait être considéré comme indépendant des effets du volume des arbres au sens
physique. C’est pourquoi, dans le contexte de la régression, les variables indépendantes sont souvent
appelées variables exogènes (explicative), et la variable dépendante variable endogène (expliquée).

La variable dépendante est habituellement notée y et la variable indépendante x. Dans le cas où il n’y
a que deux variables en jeu, la relation fonctionnelle est appelée régression simple. Si la relation
entre les deux variables est linéaire, on parle de régression linéaire simple ; dans le cas contraire,
la régression est dite non-linéaire. Lorsqu’une variable dépend d’au moins 2 variables
indépendantes, la relation fonctionnelle entre la variable dépendante et l’ensemble des variables
indépendantes est une régression multiple. Dans un souci de simplification, on se limitera ici à
examiner le cas d’une régression linéaire simple. Pour des cas plus complexes, on se référera à
Montgomery et Peck (1982).

3.9.1. Régression linéaire simple


La régression linéaire simple de y en x dans la population peut s’exprimer comme
y = α + βx + ε (3.28)
où α et β sont des paramètres, appelés aussi coefficients de régression, et ε est une déviation
aléatoire pouvant dériver de la relation attendue. Si la valeur moyenne de ε est zéro, l’équation
(3.28) représente une droite de pente β et d’ordonnée à l’origine α. Autrement dit, α est la valeur
présumée de y lorsque x prend la valeur zéro et β représente la variation attendue de y
correspondant à une variation unitaire de la variable x. La pente d’une droite de régression linéaire
peut être positive, négative ou nulle, selon la relation entre y et x.

En pratique, les valeurs de α et β doivent être estimées à partir d’observations des variables y et x
effectuées sur un échantillon. Par exemple, pour estimer les paramètres d’une équation de régression
proposée liant la température atmosphérique et le taux de transpiration des arbres, un certain nombre
d’observations appariées sur la température et le taux de transpiration sont effectuées sur plusieurs
arbres, à différents moments de la journée. Notons (x i, yi); i = 1, 2, . . ., n ces couples de valeurs, n
étant le nombre de d’observations appariées indépendantes. Les valeurs de α et β sont estimées par
la méthode des moindres carrés (Montgomery et Peck, 1982) de sorte que la somme des carrés des
différences entre les valeurs observées et prévues soit minimale. Le processus d’estimation repose
sur les hypothèses suivantes: i) Les valeurs de x sont non aléatoires ou fixes ; ii) Pour tout x, la
variance de y est la même ; iii) Les valeurs de y observées pour différentes valeurs de x sont
complètement indépendantes. Si l’une de ces hypothèses n’est pas vérifiée, il faut apporter les
changements voulus. Pour les tests d’hypothèses se référant à des paramètres, une hypothèse
additionnelle de normalité des erreurs est nécessaire.

En effet, les valeurs de α et β s’obtiennent grâce à la formule,


n n

n ∑x ∑ y i i

∑x y − i i
i =1
n
i =1

β$ =
i =1
2 (3.29)
  n

 ∑ xi 
n
 
∑ xi2 − i −1n
i =1

- 53 -
Inférence statistique

α$ = y − β$ x (3.30)
L’équation y$ = α$ + β$ x représente la droite de régression ajustée, qui peut être utilisée pour estimer
la valeur moyenne de la variable dépendante, y, associée à une valeur particulière de la variable
indépendante, x. En général, il est plus sûr de limiter ces estimations à la fourchette des valeurs de x
dans les données.

On peut obtenir une estimation des erreurs-type de β$ and α$ avec la formule suivante :
σ$ 2
SE β$ = ()  n 
2 (3.31)
 ∑ xi 
n
 i −1 

i =1
xi −
2

n
n

∑x
i= 1
i
2

σ$ 2
SE (α$ ) = n
2 (3.32)
 n 
 ∑ xi 
n
 i −1 

i =1
xi −
2

∑ ( y − y$ )
n
2
i
i =1
où σ$ 2 =
n
L’erreur-type d’une estimation, qui est l’écart-type de sa distribution d’échantillonnage, donne une
indication du degré de fiabilité de cette estimation.

Nous illustrerons ce qui précède à l’aide des données du Tableau 3.11 qui présente les valeurs
appariées du rendement photosynthétique et des radiations, obtenues à partir d’observations des
feuilles d’une essence forestière spécifique. Dans cet exemple, la variable dépendante est le
rendement photosynthétique et la variable indépendante est la quantité de lumière. La méthode de
calcul de l’ajustement d’une régression linéaire est indiquée ci-dessous.

*Etape 1. Calculer les valeurs du numérateur et du dénominateur de l’équation (3.29) en utilisant les
sommes, sommes des carrés et sommes des produits de x et y, dérivées du Tableau 3.11

∑ x∑ y (13.72)( 189.03)
∑ xy − n
= 175.59 −
15
= 2.6906

( ∑ x)
2
(13.72) 2
∑x 2

n
= 12.70 -
15
= 0.1508

- 54 -
Inférence statistique

Tableau 3.11. Données sur le rendement photosynthétique en µ mol m-2s-1 (y) et mesure de la
radiation en mol m-2s-1 (x), observées sur une essence forestière
X y x2 xy
0.7619 7.58 0.58 5.78
0.7684 9.46 0.59 7.27
0.7961 10.76 0.63 8.57
0.8380 11.51 0.70 9.65
0.8381 11.68 0.70 9.79
0.8435 12.68 0.71 10.70
0.8599 12.76 0.74 10.97
0.9209 13.73 0.85 12.64
0.9993 13.89 1.00 13.88
1.0041 13.97 1.01 14.02
1.0089 14.05 1.02 14.17
1.0137 14.13 1.03 14.32
1.0184 14.20 1.04 14.47
1.0232 14.28 1.05 14.62
1.0280 14.36 1.06 14.77
∑ x = 13.72 ∑ y = 189.03 ∑ x = 12.702
∑ xy = 175.59
*Etape 2. Calculer les estimations de α et β avec les équations (3.29) et (3.30).
2.6906
β$ = = 17.8422
01508
.

α$ = 12.60 - (17.8421)(0.9148)
= -3.7202
La droite de régression ajustée y$ = −3.7202 + 17.8422 x peut être utilisée pour estimer la valeur du
rendement photosynthétique à un niveau de radiation quelconque donné, dans la limite des données.
Ainsi, le rendement photosynthétique prévu, pour 1 mol m-2s-1 de lumière sera,
y$ = −3.7202 + 17.8422( 1) = 14.122

*Etape 3. Estimer σ2 selon la formule définie dans l’Equation (3.32).

∑ ( y − y$ )
n
2
i
i =1
σ$ 2 = = 0.6966
n

*Etape 4. Estimer les erreurs-type de β$ and α$ à l’aide des Equations (3.31) et (3.32).
σ$ 2
()
SE β$ = =
0.6966
= 2.1495
(∑ x)
2
(13.72) 2
∑x 2
− 12.70 −
n 15

- 55 -
Inférence statistique

σ$ 2
∑x 2

0.6966
12.70
SE (α$ ) = n 15
(∑ x ) 2 = = 1.9778
(13.72) 2
∑x 2

n
12.70 −
15

3.9.2. Test de signification du coefficient de régression


Une fois que les paramètres de la fonction de régression ont été estimés, l’étape suivante est le test
de signification statistique de la fonction de régression. Selon l’usage, on définit l’hypothèse nulle
comme H0: β = 0 en opposition à l’hypothèse alternative, H1: β ≠ 0 ou (H1: β < 0 ou H1: β > 0,
selon la nature présumée de la relation). Pour effectuer le test, on peut suivre la procédure de
l’analyse de variance. Le concept de l’analyse de la variance a déjà été expliqué dans la Section 3.6,
mais ses applications dans le cadre de la régression sont indiquées ci dessous, à l’aide des données
du Tableau 3.11.

*Etape 1. Dresser un schéma de la table d’analyse de la variance.

Tableau 3.12. Représentation schématique d’une analyse de variance pour une analyse de
régression.
Source de Degré de Sommes des Carré moyen
variation liberté carrés  SS  F calculé
(df) (SS)  MS = 
 df 
Dû à la MSR
régression 1 SSR MSR MSE
Ecart par n-2 SSE MSE
rapport à la
régression
Total n-1 SSTO

*Etape 2. Calculer les différentes sommes des carrés, selon la méthode suivante :
( ∑ y)
2
Somme totale des carrés = SSTO = ∑y 2

n
(3.33)

(189.03)2
= (7.58)2 + (9.46)2 + . . . + (14.36)2 -
15
= 58.3514

- 56 -
Inférence statistique

∑ x ∑ y 
2

∑ xy −
 n 
Somme des carrés dus à la régression = SSR = (3.34)
( ∑x ) 2

∑x 2

n
( 2.6906 )2
=
0.1508
= 48.0062

Somme des carrés dus à l’écart par rapport à la régression = SSE = SSTO - SSR(3.35)
=58.3514 - 48.0062 = 10.3452

*Etape 3. Entrer, comme indiqué dans le Tableau 3.13, les valeurs des sommes des carrés dans la
table d’analyse de variance et effectuer les calculs restants.

Tableau 3.13. Analyse de variance pour l’équation de régression relative aux données du Tableau
3.11.
Source de Degrés de Sommes des Carré moyen
variation liberté carrés  SS  F calculé à
(df) (SS)  MS =  5%
 df 
Dû à la régression 1 48.0062 48.0062 60.3244
Ecart à la 13 10.3452 0.7958
régression
Total 14 58.3514

*Etape 4. Comparer la valeur calculée de F avec la valeur tabulaire correspondant à (1,n-2) degrés
de liberté. Dans notre exemple, la valeur calculée (60.3244) est supérieure à la valeur
tabulaire de F (4.67) correspondant à (1,13) degrés de liberté, au seuil de signification de
5%. La valeur de F est donc significative. Si la valeur calculée de F est significative, le
coefficient de régression β diffère de 0 de manière significative. Exprimée en proportion de
la somme totale des carrés, la somme des carrés due à la régression est appelée coefficient
de détermination et mesure la quantité de variation de y imputable à la variation de x. En
d’autres termes, le coefficient de détermination mesure la fraction de la variation de la
variable dépendante expliquée par le modèle. Dans notre exemple, le coefficient de
détermination (R2) est
SSR
R2 = (3.36)
SSTO
48.0062
=
58.3514
= 0.8255

- 57 -
Inférence statistique

3.10. Analyse de covariance

Dans l’analyse de la variance, on évalue, en général, la signification d’un élément de variation connu,
par rapport à la variation résiduelle inexpliquée. Un contrôle approprié est donc nécessaire pour
réduire l’amplitude de la variation non contrôlée. A cette fin, on peut soit élargir le modèle à d’autres
sources de variations mieux connues, soit exercer un contrôle délibéré sur de nombreuses variables
ayant une incidence sur la réponse. A défaut d’un tel contrôle, des différences de groupe réelles ne
seraient pas détectées en présence d’une variation résiduelle importante. Dans de nombreux cas, la
variation existant au départ entre les unités d’observation est en grande partie responsable des
variations de leurs réponses futures, et il devient nécessaire d’éliminer l’influence des variations
endogènes entre les sujets de la comparaison des groupes étudiés. L’analyse de la covariance est
l’une des méthodes employées pour réduire l’amplitude des erreurs inexpliquées. Dans un contexte
expérimental, par exemple, on peut effectuer une analyse de la covariance lorsque l’on dispose
d’observations sur une ou plusieurs variables corrélées provenant de chaque unité expérimentale,
ainsi que d’ observations sur la variable de réponse considérée. Ces variables additionnelles reliées
sont appelées covariables ou variables accessoires ou concomitantes. Il est indispensable qu’elles
soient associées à la variable à l’étude. Par exemple, dans les essais de rendement, la variation du
volume sur pied initial due à des facteurs externes, les effets résiduels des plantes antérieurement
cultivées sur le site etc…, peuvent faire office de covariables.

L’analyse de covariance est une synthèse des méthodes de l’analyse de la variance et de la


régression. Ce concept est étudié plus en détail ici dans le contexte d’une expérience portant sur
l’étude d’une variable unique notée y et d’une covariable unique notée x. Notons t le nombre de
groupes expérimentaux à comparer, chaque groupe étant constitué de r unités expérimentales. Dans
cette situation, un modèle sous-jacent possible est
yij = µ y + α i + β( xij − µ x ) + eij (3.37)
où yij est la réponse observée sur la j-ème unité expérimentale appartenant au i-ème groupe,
(i = 1, 2, …, t; j = 1, 2, …, r)
µy est la moyenne globale de la population de y,
α i est l’effet de l’appartenance au i-ème groupe,
β est le coefficient de régression de y en x à l’intérieur du groupe
x ij est l’observation d’une variable accessoire sur la j-ième unité du ième groupe.
µx est la moyenne globale de la covariable
eij sont les composantes des erreurs qui sont supposées être distribuées normalement et de
manière indépendante avec une moyenne nulle et une variance constante de valeur σ 2 .

L’analyse de la covariance étant essentiellement une extension de l’analyse de la variance, toutes les
hypothèses sur lesquelles se fonde cette dernière s’appliquent aussi. Dans une analyse de la
covariance, d’autres hypothèses sont également nécessaires, notamment i) la relation liant le
caractère principal considéré y et la covariable x est linéaire ii) l’importance de la relation entre x et y
est la même dans chaque groupe expérimental iii) la variation de la covariable n’est pas la résultante
de différences internes au groupe.

- 58 -
Inférence statistique

Les différentes étapes de l’analyse de la covariance sont décrites ci-après.

*Etape 1. Dans l’analyse de la covariance, la première étape consiste à calculer la somme des carrés
due aux différentes composantes, pour la variable y et la covariable x, comme pour une
analyse de la variance, à l’aide des formules indiquées ci-après :
t r
SS totale de y = SSTO(y) = ∑ ∑ yij2 − C. F. ( y ) (3.38)
i =1 j =1
2
 t r 
 ∑ ∑ yij 
 i=1 j =1 
où C. F .( y ) = (3.39)
tr
t
∑ yi2.
SS de y dans le Groupe= SSG(y) = i =1 − C . F. ( y ) (3.40)
r

SS de y dus aux Erreurs = SSE(y) = SSTO(y) -SSG(y) (3.41)

t r
SS Totale de x = SSTO(x) = ∑ ∑ xij2 − C. F .( x) (3.42)
i =1 j =1
2
 t r 
 ∑ ∑ xij 
 i =1 j= 1 
où C. F .( x ) = (3.43)
tr

t
∑ x i2.
SS de x dans le Groupe = SSG(x) = i = 1 − C . F .( x ) (3.44)
r

SS de x dus aux Erreurs = SSE(x) = SSTO(x) - SSG(x) (3.45)

*Etape 2. Calculer comme suit la somme des produits de x et y.


t r
SP Totale= SPTO(xy) = ∑ ∑ yij xij − C. F. ( xy) (3.46)
i =1 j =1
 t r  t r 
 ∑ ∑ y ij   ∑ ∑ x ij 
 i =1 j=1   i= 1 j =1 
où C. F .( xy ) = (3.47)
tr

t
∑ yi.xi.
SP dans le Groupe = SPG(xy) = i =1 − C. F. ( xy ) (3.48)
r

- 59 -
Inférence statistique

SP dus aux erreurs = SPE(xy) = SSTO(xy) - SSG(xy) (3.49)


*Etape 3. L’étape suivante consiste à vérifier si la covariable est affectée par les groupes
expérimentaux. Si les groupes n’ont aucune influence sur x, il ne doit pas y avoir de
différences significatives entre les groupes par rapport à x. Le coefficient de régression à
l’intérieur des groupes est donné par la relation
SPE ( xy )
β$ = (3.50)
SSE ( x )
On peut tester la signification de β$ à l’aide du test F. Le critère de test statistique F est donné par
( SPE ( xy )) 2

SSE ( x)
F= (3.51)
 ( SPE ( xy ) ) 
2

(t (r − 1) − 1)
SSE ( y ) − 
 SSE ( x ) 

Le critère statistique F suit une loi de F avec 1 et t(r-1)-1 degrés de liberté. Si le coefficient de
régression est significatif, on procède à des ajustements de la somme des carrés de y pour des
variations de x. Dans le cas contraire, les ajustements sont inutiles.

*Etape 4. Des valeurs ajustées de y sont calculées comme suit:


( SPTO( xy )) 2

SS totale Ajustée de y = Adj. SSTO(y) = SSTO(y) - (3.52)


SSTO ( y )

( SPE ( xy )) 2

SS Ajustée des erreurs de y = Adj. SSE(y) = SSE(y) - (3.53)


SSE ( x )

SS Ajustée de y dans le groupe = Adj. SSG(y)= Adj. SSTO(y) - Adj. SSE(y)(3.54)

Par convention, on regroupe tous ces résultats dans un seul tableau (voir Tableau 3.14).

*Etape 5. Les valeurs ajustées des moyennes de chaque groupe s’obtiennent avec la formule
yi ' = yi − β$ ( xi − x ) (3.55)

L’erreur-type dans l’appréciation de la différence entre deux moyennes ajustées est donnée par:

(
xi − x j  )
2
1 1
SE(d) = MSE  + +  (3.56)
 ri rj SSE ( x ) 
 
où les symboles ont les significations habituelles.

- 60 -
Inférence statistique

Si le nombre de répétitions est le même pour tous les groupes et si les moyennes des valeurs
(
globales de xi − x j ) on a,
2

2 MSE  SSG( x ) 
1+
r  ( t − 1) SSE ( x ) 

SE(d) = (3.57)

Tableau 3.14. Table d’analyse de la covariance


Source de variation df Somme des carrés et des produits
y x xy
Total tr-1 SSTO(y) SSTO(x) SPTO(xy)
Groupe t-1 SSG(y) SSG(x) SPG(xy)
Erreur t(r-1) SSE(y) SSE(x) SPE(xy)
Valeurs ajustées de y
Source de variation df SS MS F
Total tr-2 SSTO(y) Aj. - -
Groupe - - - -
Erreur t(r-1)-1 SSE(y) Aj. MSE -
Groupe ajusté t-1 SSG(y) Aj. MSG MSG
MSE

Utilisons les données du Tableau 3.15 pour montrer comment s’effectue l’analyse de la covariance.
Les données représentent les moyennes de parcelles, basées sur quarante observations de la hauteur
initiale (x) et de la hauteur atteinte après quatre mois (y) de trois variétés de Leucaena
leucocephala, chacune étant cultivée dans 10 parcelles d’une station expérimentale.

Tableau 3.15. Hauteur initiale (x) et hauteur quatre mois plus tard (y), en cm, de trois variétés de
Leucaena leucocephala), sur une station expérimentale.
Parcelle Variété 1 Variété 2 Variété 3
x y x y x y
1 18 145 27 161 31 180
2 22 149 28 164 27 158
3 26 156 27 172 34 183
4 19 151 25 160 32 175
5 15 143 21 166 35 195
6 25 152 30 175 36 196
7 16 144 21 156 35 187
8 28 154 30 175 23 137
9 23 150 22 158 34 184
10 24 151 25 165 32 184
Total 216 1495 256 1652 319 1789
Moyenne 21.6 149.5 25.6 165.2 31.2 178.9

- 61 -
Inférence statistique

L’analyse se fait suivant le modèle du Tableau 3.14. Les calculs sont expliqués ci-dessous:

*Etape 1. Calculer, à l’aide des équations (3.38) à (3.45), la somme des carrés des variables x et y.
(4936) 2
C.F.(y) = = 812136.5333
( 3)( 10)

SSTO(y) = (145)2 + (149)2 + . . . + (184)2 - 812136.5333


= 7493.4667

(1495) 2 + (1652 )2 + (1789) 2


SSG(y) = − 812136.5333
10
= 4328.4667

SSE(y) = 7493.4667 - 4328.4667


= 3615.0

(791)2
C.F.(x) =
( 3)(10)
= 20856.0333

SSTO(x) = (18)2 + (22)2 + . . . + (32)2 -20.856.0333


= 966.9697

(216 )2 + ( 256)2 + ( 319) 2


SSG(x) = − 20856.0333
10
= 539.267

SSE(x) = 966.9697-539.267
= 427.7027

*Etape 2. Calculer la somme des produits des variables x et y à l’aide des équations (3.46) à (3.49).
( 791)(4936)
C. F. ( xy ) =
(3)(10)
= 130145.8667

SPTO(xy) = 18(145) + 22(149) + . . . +32(184) -130145.8667


= 2407.1333

216(1495) + 256( 1652) + 319(1789)


SPG(xy) = − 1301458667
.
10
= 1506.44

SPE(xy) = 2407.1333 - 1506.44 = 900.6933

- 62 -
Inférence statistique

*Etape 3. Calculer le coefficient de régression et tester sa signification avec les équations (3.50) et
(3.51).
900.6933
β$ =
427.7027
= 2.1059
La signification de β$ peut être testée à l’aide du test F. Le critère statistique F est donné par
l’équation (3.51).
( 900.6933) 2
F= 427.7027
 ( 900.6933) 2 
3615 −  (3( 10 − 1) − 1)
 427.7027 
1896.7578
=
66.0862
= 28.7012

La valeur tabulaire de F correspondant à (1,26) degrés de liberté est égale à 9.41 au seuil de
signification de 5%. Ici, la valeur calculée de F est supérieure à la valeur tabulaire, par conséquent β
diffère de zéro de manière significative.

*Etape 4. Calculer les sommes ajustées des carrés relatives aux différentes sources dans l’analyse de
covariance à l’aide des équations (3.52) à (3.54). Synthétiser les résultats comme dans le
Tableau 3.14 et calculer les valeurs des carrés moyens des groupes (MSG) et des erreurs
(MSE), ainsi que la valeur de F basée sur ces carrés moyens.

2407.13332
SSTO Aj. (y) = 7493.4667 −
966.9697
= 1501.2513

900.6933
SSE Aj. (y) = 3165 −
427.7027
= 1268.2422

SSG Aj. (y) = 1501.2513 - 1268.2422


= 233.0091

233.0091
MSG = = 116.5046
2

1268.2422
MSE =
3(10 - 1) − 1
= 48.7785

- 63 -
Inférence statistique

MSG
F=
MSE
116.5046
=
48.7785
= 2.39

Tableau 3.16. Table d’analyse de la covariance des données du Tableau 3.15.


Sources df Somme des carrés et des produits Valeurs ajustées de y
de
variation
y x xy df SS MS F
Total 29 7493.467 966.970 2407.133 28 1501.25 - -
Groupe 2 4328.467 539.267 1506.440 - - - -
Erreur 27 3615.000 427.703 900.693 26 1268.24 48.8 -
Groupe ajusté pour la covariable 2 233.009 116.5 2.4

La valeur de F correspondant à (2,26) degrés de liberté au seuil de signification de 5% est 3.37.


Puisque la valeur observée de F ( 2.4) est inférieure à la valeur critique, on conclut qu’il n’y a pas de
différence significative entre les variétés.

*Etape 5. Trouver les moyennes ajustées de chaque groupe et l’erreur–type de la différence entre
les moyennes ajustées de deux groupes quelconques avec les équations (3.55) and (3.57).

y1' = y1 − β$ ( x1 − x ) = 149.5 - 2.1059(21.6 - 26.37) = 159.54


y2 ' = y 2 − β$ ( x2 − x ) = 165.2 - 2.1059(25.6 - 26.37) = 166.82
y ' = y − β$ ( x − x ) = 178.9 - 2.1059(31.2 - 26.37) = 168.73
3 3 3

2 MSE  SSG( x ) 
1+
r  ( t − 1) SSE ( x ) 

SE(d) =

( 2) ( 48.8)  539.267 
= 1 + ( 3 − 1)( 427.703)  = 3.9891
10  

L’erreur-type de la différence entre les moyennes des groupes peut être utile dans la
comparaison par paire des moyennes des groupes, comme on le verra dans le Chapitre 4.

3.11. Analyse de mesures répétées

Les mesures répétées d’unités d’observations sont très fréquentes en recherche forestière. Le terme
« répétées » signifie que les mesures sont effectuées sur le même caractère et sur un même
échantillon d’observation, mais sont relevées à plusieurs reprises. Dans les études longitudinales, les
individus peuvent être suivis sur une période de temps pour enregistrer les changements qui
surviennent dans leur état. Parmi les exemples classiques, on peut citer les mesures périodiques du

- 64 -
Inférence statistique

diamètre ou de la hauteur des arbres dans une expérience sylvicole, ou les observations de
l’évolution des maladies sur un ensemble de plantules, dans un essai en pépinière. Les mesures
répétées peuvent être spatiales plutôt que temporelles. Prenons pour exemple les mesures des
caractéristiques du bois de plusieurs troncs dans leur partie basse, centrale et haute, chaque
ensemble de troncs appartenant à une espèce différente. Les propriétés du sol observées à partir de
multiples carottes de sondage, à des profondeurs de 0-15, 15-50 et de 50-100 cm, dans différents
types de végétation sont un autre exemple.

Les mesures répétées se caractérisent principalement par le fait qu’il peut exister une corrélation
entre les mesures successives dans l’espace ou dans le temps. L’autocorrélation entre les résidus
découlant de mesures répétées sur les mêmes unités expérimentales contredit l’hypothèse
fondamentale de l’indépendance des erreurs, sur laquelle se fonde une analyse de variance ordinaire.
Toutefois on dispose de plusieurs méthodes pour analyser des mesures répétées. Ces méthodes sont
plus ou moins efficaces ou appropriées suivant la nature des données. Si la variance des erreurs reste
la même à chacune des mesures successives, et si en outre les covariances entre les erreurs des
différentes mesures sont les mêmes, on peut choisir de soumettre les données à une “analyse de
modèle mixte à une variable”. Si les erreurs ne sont pas structurées, il est préférable d’effectuer une
analyse multivariable en prenant des mesures répétées des différents caractères observés sur les
mêmes entités (Crowder et Hand, 1990). Nous allons illustrer ci-après les détails d’une analyse à
une variable dans un contexte d’observation simplifié et conseillons à nos lecteurs de se référer à
(Crowder and Hand, 1990) pour une analyse multivariable dans ce contexte.

Ici, la situation se présente comme suit: on a n individus x p occasions, les individus étant répartis en
t groupes de tailles ni (i = 1, 2, …, t). L’hypothèse à tester implique une comparaison entre les
groupes. Le modèle utilisé est le suivant
yijk = µ + α i+ eij + β j + γij + eijk (3.58)
où yijk est l’observation sur le k-ème individu dans le i-ème groupe à la j-ème occasion;
( i =1, …, t, j =1, …, p, k =1, …, ni.)
µ est la moyenne générale,
α i est l’effet du i-ème niveau du facteur ‘groupe’,
β j est l’effet du j-ìème niveau du facteur ‘occasion’,
γij est l’effet d’interaction pour le i-ème niveau du facteur ‘groupe’ et le j-ème niveau du facteur
‘occasion’. Ce terme mesure les différences entre les types de réponses des groupes, au fil des
occasions. Cette interaction sera examinée plus en détail au Chapitre 4.

Dans le modèle (3.58), les composantes aléatoires eij et les composantes d’erreurs aléatoires eijk
sont supposées suivre des lois de distribution indépendantes et normales avec une moyenne nulle et
une variance σ e2 et σ w2 respectivement. En outre, les α i et les β j sont supposés fixes.
Notons yi.. le total de toutes les observations au niveau i du facteur groupe; y.j. le total de toutes les
observations au niveau j du facteur occasion; yij. le total de toutes les observations appartenant à
la (ij)-ème cellule; y… le total général de toutes les observations. Mathématiquement, ces notations
s’expriment comme suit
p ni t ni ni t p ni

yi.. = ∑∑ y
j k
ijk , y.j. = ∑∑y
i k
ijk , yij. = ∑y
k
ijk , y… = ∑ ∑∑ y
i j k
ijk

Le modèle mixte à une variable d’analyse de variance est illustré ci-dessous.

- 65 -
Inférence statistique

Tableau 3.17. Représentation schématique du modèle mixte à une variable d’analyse de variance.

Sources de variation Degrés de liberté Somme Somme moyenne des Rapport


s des carrés F
carrés

Groupe t-1 SSG SSG MSG


MSG =
t −1 MSEa

Individus dans les SSEa SSE a


groupes ∑ (ni − 1) MSEa =
∑ (n − 1)
i
i i

Occasion p-1 SSO SSO MSO


MSO =
p −1 MSEb

Occasion x Groupe SSOG MSOG


(t-1)(p-1) SSOG MSOG =
( t − 1)( p − 1) MSEb

Occasion x Individus ( p − 1) ∑ ( ni − 1) SSEb MSEb =


SSEb
dans les groupes i ( p − 1) ∑ ( ni − 1)
i

Total p ∑ ni − 1 SSTO
i

Les sommes des carrés du tableau ci-dessus se calculent avec les formules suivantes,
y...2
SSTO = ∑ ∑ ∑ yijk 2
− (3.59)
i j k p ∑ ni
i

yi2.. y...2
SSG = ∑ − (3.60)
i pni p ∑ ni
i

yi2. k yi2..
SSEa = ∑ ∑ p ∑ pn − (3.61)
i k i i

y.2j . y...2
SSO = ∑ − (3.62)
j ∑ ni p∑ ni
i i

- 66 -
Inférence statistique

yij2 yi2... y.2j , y...2


SSOG = ∑∑ − ∑ −∑ + (3.63)
j ∑ ni p∑ ni
i j ni i pni
i i

SSEb = SST - SSG - SSEa - SSO - SSOG (3.64)

Nous illustrerons cette analyse à l’aide des données du Tableau 3.18, sur la croissance mycélienne
(en mm) de cinq isolats de Rizoctonia solani sur milieu de gélose dextrosée à base de fécule de
pomme de terre au bout de 14, 22, 30 et 38 heures d’incubation, chaque isolat étant cultivé dans
trois unités du milieu de culture. Ici, les isolats sont les « groupes » et les différents moments sont les
« occasions » dont il est question dans le Tableau 3.17.

Tableau 3.18. Données sur la croissance mycélienne (en mm) de cinq groupes d’isolats de
R. solani , sur milieu de culture de gélose dextrosée à base de fécule de pomme de terre
(PDA).
Croissance mycélienne (en mm) observée en
différentes occasions
Isolat de Unité de 14 h. 22 h. 30 h. 38 h.
R. Solani PDA
isolate
1 1 29.00 41.00 55.00 68.50
2 28.00 40.00 54.00 68.50
3 29.00 42.00 55.00 69.00
2 1 33.50 46.50 59.00 74.00
2 31.50 44.50 58.00 71.50
3 29.00 42.50 56.50 69.00
3 1 26.50 38.00 48.50 59.50
2 30.00 40.00 50.00 61.00
3 26.50 38.00 49.50 61.00
4 1 48.50 67.50 75.50 83.50
2 46.50 62.50 73.50 83.50
3 49.00 65.00 73.50 83.50
5 1 34.00 41.00 51.00 61.00
2 34.50 44.50 55.50 67.00
3 31.00 43.00 53.50 64.00
Total 506.50 696.00 868.00 1044.50

L’analyse de ces données peut être conduite comme suit:

*Etape 1. Calculer, à l’aide de l’équation (3.59), la somme totale des carrés des valeurs du
Tableau 3.18.
( 3115.00) 2
SSTO = ( 29) + ( 28) + . . . + ( 64) −
2 2 2

( 4)(15)
= 14961.58

- 67 -
Inférence statistique

*Etape 2. Dresser un tableau à double entrée des totaux Isolat x unité de PDA, en additionnant les
observations correspondant aux différentes occasions et calculer les totaux marginaux,
comme indiqué dans le Tableau 3.19. Calculer SSG et SSEa en utilisant les valeurs indiquées
dans le Tableau et les équations (3.60) et (3.61).

Tableau 3.19. Totaux Isolat x unité de PDA calculés à partir des données du Tableau 3.18.
Isolats
Unité de 1 2 3 4 5 Total
PDA
1 193.50 213.00 172.50 275.00 187.00 1041.00
2 190.50 205.50 181.00 266.00 201.50 1044.50
3 195.00 197.00 175.00 271.00 191.50 1029.50
Total 579.00 615.50 528.50 812.00 580.00 3115.00

(579.00) 2 + (615.50) 2 + . . . + (580.00) (3115.00) 2


SSG = −
(4)(3) (4)(15)
= 4041.04

(193.50) 2 + (190.50) 2 +...+ (19150


. )2
SSEa = −
4

(579.00) 2 + ( 615.00) 2 +...+( 580.00) 2


( 4)(3)
= 81.92

*Etape 3. Dresser le tableau à double entrée des totaux Isolat x Occasion et calculer les totaux
marginaux comme indiqué dans le Tableau 3.20. Calculer SSO, SSOG et SSEb à l’aide des
équations (3.62) à (3.64).

Tableau 3.20. Tableau des to totaux Isolat x Occasion calculés à partir des données du
Tableau 3.18
Occasion
Isolat 14 h 22 h 30 h 38 h Total
1 86.00 123.00 164.00 206.00 579.00
2 94.00 133.50 173.50 214.50 615.50
3 83.00 116.00 148.00 181.50 528.50
4 144.00 195.00 222.50 250.50 812.00
5 99.50 128.50 160.00 192.00 580.00
Total 506.50 696.00 868.00 1044.50 3115.00

(506.50) 2 + (696.00) 2 + (868.00) 2 + (1044.50) 2 (3115.00) 2


SSO = −
15 (4)(15)
= 10637.08

- 68 -
Inférence statistique

(86.00) 2 + ( 94.00) 2 + . . . + (192.00) 2


SSOG =
3
(579.00) + (615.50) 2 +...+(580.00) 2
2
− − 10637.08
( 4)(3)
= 172.46

SSEb = 14961.58 - 4041.04 - 81.92 - 10637.08 - 172.46


= 29.08

*Etape 4. Faire la synthèse des résultats comme dans le Tableau 3.21 et effectuer les calculs restants
pour obtenir les carrés moyens et les rapports F, en utilisant les équations reportées dans le
Tableau 3.17.

Tableau 3.21. Tableau de l’analyse de variance des données du Tableau 3.18.

Sources de variation Degrés de Somme des Moyenne Rapport F-


liberté carrés des
sommes des
carrés
4 4041.04 1010.26 123.33*
Groupe
10 81.92 8.19
Individus dans les groupes
3 10637.08 3545.69 3657.45*
Occasion
12 172.46 14.37 14.82*
Occasion x Groupe
30 29.08 0.97
Occasion x individus dans les
groupes
59 14961.58
Total

Comparer les valeurs calculées de F avec les valeurs tabulaires de F aux degrés de liberté
correspondants, au seuil de probabilité souhaité. Toutes les valeurs calculées de F données dans le
tableau ci-dessus sont supérieures aux valeurs tabulaires correspondantes de F. On en déduit que la
variation due aux groupes, à l’occasion et leur interaction sont significatives, ce qui signifie que le
mode de croissance des isolats diffère au fil du temps.

- 69 -
4. PLAN ET ANALYSE D’EXPERIENCES

On appelle plan et analyse d’expérience l’opération consistant à planifier une expérience pour
obtenir des données appropriées et en tirer des conclusions sur tout problème soumis à l’examen.
Cette opération peut partir de la formulation, en termes clairs, des objectifs de l’expérience et
s’achever par la rédaction des rapports contenant les conclusions importantes de l’enquête. Elle
comprend aussi une phase intermédiaire durant laquelle sont définis les détails de l’expérience,
notamment la structuration des variables dépendantes et indépendantes, leurs niveaux dans
l’expérience, le type de matériel expérimental qui sera utilisé, la méthode de manipulation des
variables du matériel expérimental, des techniques d’inférence statistique efficaces et rationnelles
etc…

4.1. Les principes de l’expérimentation

La majorité des expériences reposent sur trois principes fondamentaux, à savoir randomisation,
répétition et contrôle local. D’une certaine façon, ces trois principes se complètent mutuellement,
puisqu’ils tentent d’augmenter la précision de l’expérience et de garantir la validité du test de
signification, tout en conservant, dans toute l’expérience les caractéristiques propres à leurs rôles.
Avant de passer à un examen plus approfondi de ces trois principes, nous allons tenter d’expliquer
certains termes génériques de la théorie des plans d’expérience, ainsi que la nature de la variation
entre les observations faites dans une expérience.

Avant de réaliser une expérience, il convient de définir une unité expérimentale. Celle-ci peut par
exemple être constituée d’une feuille, d’un arbre ou d’un groupe d’arbres adjacents. Une unité
expérimentale est aussi parfois appelée parcelle. Un groupe de parcelles est appelé bloc. Les
observations faites sur les unités expérimentales se caractérisent par de grandes variations, en partie
produites par la manipulation de certaines variables, généralement appelées traitements, qui sont
inhérentes à l’expérience et manipulées à dessein pour étudier leurs influences. Par exemple, les
clones dans les tests clonaux, les doses et les types d’engrais dans les essais sur les engrais etc…
peuvent être appelés traitements. En plus de ces variations de source connue, il en existe d’autres
dont on ignore l’origine, ou la cause, comme par exemple la variation non contrôlée de facteurs
externes liés à l’environnement, les variations génétiques du matériel expérimental, autres que celles
dues aux traitements, etc… Ces variations sont inévitables et inhérentes au processus même de
l’expérimentation. En raison de leurs influences indésirables, elles ont reçu le nom d’erreurs
expérimentales, ce qui signifie qu’il ne s’agit pas d’erreurs arithmétiques, mais de variations dues à
une combinaison de facteurs sur lesquels l’expérimentateur ne peut pas agir.

De plus, il est intéressant de noter que ces erreurs introduites par des facteurs externes dans les
observations expérimentales peuvent avoir une incidence systématique ou aléatoire. Les erreurs
imputables à un équipement défectueux, comme un tendeur de chaîne qui aurait perdu son
étalonnage à force d’être utilisé, ou l’erreur due à la fatigue de l’observateur sont des exemples
d’erreur systématique. En revanche, la variation imprévisible de la quantité de feuilles ramassées dans
un collecteur de litière, dans le cadre d’un traitement particulier d’une expérience liée, est de
caractère aléatoire, ou fortuit. Il est clair que quel que soit le nombre de fois où l’on répètera les

- 70 -
Plan et analyse d’expériences

mesures, l’erreur systématique subsistera, alors que les erreurs aléatoires finissent le plus souvent par
disparaître à l’issue de mesures répétées. Les trois principes de base, à savoir randomisation,
répétition et contrôle local, permettent d’ éviter l’erreur systématique et de limiter l’erreur aléatoire.

4.1.1. Randomisation
On appelle randomisation la technique d’attribution des traitements, ou des facteurs à tester, aux
unités expérimentales conformément à des lois ou probabilités définies. C’est la randomisation dans
son sens technique strict, qui garantit l’élimination des erreurs systématiques et le caractère purement
aléatoire de tout élément d’erreur persistant dans les observations. A partir de là, on peut faire une
estimation valable des fluctuations aléatoires, indispensable pour tester la signification de différences
réelles.

Grâce à la randomisation, chaque unité expérimentale aura une chance égale de recevoir un
traitement quelconque. Si, par exemple, cinq clones d’eucalyptus doivent être testés dans 25
parcelles, la randomisation garantit que certains clones ne seront pas favorisés ou pénalisés par des
sources de variation externes qui ne dépendent pas de l’action, délibérée ou non, de
l’expérimentateur. Le processus d’allocation aléatoire peut se faire de plusieurs façons, par tirage au
sort ou en tirant des nombres d’une page, choisie au hasard, de nombres aléatoires. La méthode est
illustrée dans les sections qui suivent sur les différents types de plans expérimentaux.

4.1.2. Répétition
Par répétition, on entend la répétition d’une expérience dans des conditions identiques. Dans le
contexte des plans d’expérience, en revanche, le terme se réfère au nombre d’unités expérimentales
distinctes faisant l’objet du même traitement. La répétition, conjuguée à la randomisation, fournira
une base pour estimer la variance des écarts. Sans la randomisation, un nombre quelconque de
répétitions pourrait ne pas déboucher sur une estimation réelle de l’erreur. Plus le nombre de
répétitions est grand, plus la précision de l’expérience est grande.

Le nombre de répétitions que doit comporter une expérience quelconque dépend de nombreux
facteurs, notamment de l’homogénéité du matériel expérimental, du nombre de traitements, du degré
de précision requis etc… En règle général, on pourrait postuler que le nombre de répétitions dans un
plan doit fournir au moins dix à quinze degrés de liberté, pour calculer la variance de l’erreur
expérimentale.

4.1.3. Contrôle local


On entend par contrôle local le contrôle de tous les facteurs autres que ceux sur lesquels portent les
recherches. Comme la répétition, le contrôle local est un dispositif visant à réduire ou à maîtriser la
variation due à des facteurs externes et à accroître la précision de l’expérience. Si, par exemple, un
champ d’essais est hétérogène, du point de vue de la fertilité du sol, il peut être divisé en blocs plus
petits de façon à ce que les parcelles se trouvant à l’intérieur de chaque bloc tendent à être plus
homogènes. Ce type d’homogénéité des parcelles (unités expérimentales) garantit une comparaison
non biaisée des moyennes des traitements. En effet, il serait difficile de dire que la différence
moyenne entre deux traitements provient uniquement de différences entre eux, s’il restait aussi des
différences entre les parcelles. Ce type de contrôle local visant à rendre homogènes des unités
expérimentales, augmentera la précision de l’expérience et aidera à tirer des conclusions valides.

- 71 -
Plan et analyse d’expériences

Pour résumer, on peut dire qu’alors que la randomisation vise à éliminer une erreur systématique (ou
biais) dans l’allocation et, partant, à ne laisser qu’un élément de variation d’erreur aléatoire, les deux
autres méthodes, à savoir la répétition et le contrôle local, tentent de maintenir cette erreur aléatoire à
un niveau aussi faible que possible. Les trois principes sont cependant essentiels pour faire une
estimation valable de la variance de l’erreur et garantir la validité du test de signification.

4.2. Plan d’expérience entièrement randomisé

Dans un plan expérimental entièrement randomisé (PER), les traitements sont attribués complètement
au hasard de sorte que chaque unité expérimentale a la même chance de recevoir un traitement
donné quel qu’il soit. Dans un PER, toute différence entre les unités expérimentales soumises au
même traitement est considérée comme une erreur expérimentale. En conséquence, le PER n’est
approprié que pour les expériences ayant des unités expérimentales homogènes, telles que les essais
en laboratoire, dans lesquelles il est relativement facile de maîtriser les effets dus à l’environnement.
Le PER est rarement utilisé pour les essais en champs, où il existe une grande variation entre les
parcelles expérimentales, par exemple au niveau de facteurs comme les sols. .

4.2.1. Déroulement et représentation schématique


Nous allons maintenant présenter la procédure par étapes de la randomisation ainsi que le schéma
d’un PER, pour un essai de culture en pots comportant quatre traitements A, B, C et D, répétés cinq
fois .

*Etape 1. Déterminer le nombre total de parcelles expérimentales (n), comme produit du nombre de
traitements (t) et du nombre de répétitions (r); c’est-à-dire, n = rt. Dans notre exemple, n =
5 x 4 = 20. Dans ce cas, un pot contenant une seule plante sera considéré comme une
parcelle. Si le nombre de répétitions n’est pas le même pour tous les traitements, on
obtiendra le nombre total de pots expérimentaux en faisant la somme des répétitions de
chaque traitement :
t
n= ∑ ri où ri est le nombre de répétitions du ième traitement
i =1

*Etape 2. Attribuer un numéro à chaque parcelle expérimentale, selon une quelconque méthode
appropriée, par exemple, en utilisant des suites de chiffres de 1 à n.

*Etape 3. Allouer au hasard les traitements aux parcelles expérimentales, en utilisant une table de
nombres aléatoires de la manière suivante. Tirer un point de départ dans une table de
nombres aléatoires (voir Annexe 6), en pointant le doigt sur un endroit quelconque de la
page, les yeux fermés. En l’espèce, nous supposerons que le point de départ est tombé à
l’intersection du sixième rang et de la douzième colonne de nombres à deux chiffres. A partir
de ce point de départ, lire la colonne en descendant pour obtenir n = 20 nombres aléatoires
différents à deux chiffres. Dans notre exemple, en partant de l’intersection du sixième rang et
de la douzième colonne, ces 20 nombres sont indiqués ci-dessous, avec leur ordre
d’apparition.

- 72 -
Plan et analyse d’expériences

Nombre aléatoire : 37, 80, 76, 02, 65, 27, 54, 77, 48, 73,
Ordre d’apparition : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

Nombre aléatoire : 86, 30, 67, 05, 50, 31, 04, 18, 41, 89
Ordre d’apparition : 11, 12, 13, 14, 15, 16, 17, 18, 19, 20

Rangez les n nombre aléatoires obtenus par ordre croissant ou décroissant. Dans notre
exemple, les 20 nombres aléatoires sont rangés du plus petit au plus grand, comme indiqué
dans le tableau suivant :

Nombre Ordre Rang Nombre Ordre Rang


aléatoire aléatoire
37 1 8 86 11 19
80 2 18 30 12 6
76 3 16 67 13 14
02 4 1 05 14 3
65 5 13 50 15 11
27 6 5 31 16 7
54 7 12 04 17 2
77 8 17 18 18 4
48 9 10 41 19 9
73 10 15 89 20 20

Diviser les n rangs obtenus en t groupes, contenant chacun r nombres, suivant l’ordre dans
lequel sont apparus les nombres aléatoires. Dans notre exemple, les 20 rangs sont divisés en
quatre groupes, dont chacun est constitué de cinq nombres :

Numéro du Rang dans le groupe


groupe
1 8 13 10 14 2
2 18 5 15 3 4
3 16 12 19 11 9
4 1 17 6 7 20

Allouez les t traitements aux n parcelles expérimentales, en prenant le numéro du groupe


comme numéro de traitement et les rangs correspondants dans chaque groupe comme le
nombre de parcelles auxquelles le traitement correspondant sera alloué. Dans notre exemple,
le premier groupe est assigné au traitement A et les parcelles numéro 8, 13, 10, 14 et 2 sont
désignées pour recevoir ce traitement ; le deuxième groupe est assigné au traitement B, avec
les parcelles numéro 18, 5, 15, 3 et 4 ; le troisième groupe est assigné au traitement C, avec
les parcelles numéro 16, 12, 19, 11 et 9 ; et le quatrième groupe est assigné au traitement D
avec les parcelles numéro 1, 17, 6, 7 et 20. Le schéma définitif de l’expérience est illustré à
la Figure 4.1.

- 73 -
Plan et analyse d’expériences

Figure 4.1. Schéma-type d’un plan d’expérience entièrement randomisé, comportant quatre
traitements (A, B, C et D), répétés cinq fois.
Parcelle N° 1 2 3 4
Traitement D A B B
5 6 7 8
B D D A
9 10 11 12
C A C C
13 14 15 16
A A B C
17 18 19 20
D B C D

4.2.2. Analyse de la variance


Il existe deux sources de variation entre les n observations tirées d’un essai de PER. L’une est la
variation due aux traitements et l’autre est l’erreur expérimentale. Leur taille relative indique si la
différence observée entre les traitements est réelle ou si elle est due au hasard. La différence due au
traitement est “ réelle ” si elle dépasse dans une mesure significative l’erreur expérimentale.

L’un des avantages majeurs d’un PER est que son analyse de variance se calcule facilement, surtout
si le nombre de répétitions n’est pas uniforme pour tous les traitements. Pour la plupart des autres
plans, l’analyse de variance se complique lorsque la perte de données dans certaines parcelles
entraîne des disparités dans les répétitions des traitements testés.

Nous allons voir ci-dessous les étapes de l’analyse de variance des données provenant d’une
expérimentation relative à un PER comportant un nombre de répétitions non uniforme. Les formules
peuvent être adaptées facilement en cas de répétitions égales, de sorte qu’elles ne sont pas décrites à
part. Pour illustrer cette démonstration, on a utilisé des données provenant d’un essai en laboratoire,
dans lequel les observations portaient sur la croissance du mycelium de différents isolats de
Rizoctonia solani, sur milieu de culture PDA (Tableau 4.1).

*Etape 1. Regrouper les données par traitements et calculer les totaux des traitements (Ti) et le total
général (G). Les résultats de notre exemple sont indiqués dans le Tableau 4.1.

*Etape 2. Dresser un Tableau d’analyse de variance, suivant le modèle du Tableau 4.2

- 74 -
Plan et analyse d’expériences

Tableau 4.1. Croissance du mycélium, en diamètre (mm), de la colonie d’isolats de R. solani, sur
milieu de culture PDA, après 14 heures d’incubation

Isolats de Croissance du mycélium Total des Moyenne


R. solani traitements des
traitements
Rép. 1 Rép. 2 Rép. 3 (Ti)
RS 1 29.0 28.0 29.0 86.0 28.67
RS 2 33.5 31.5 29.0 94.0 31.33
RS 3 26.5 30.0 56.5 28.25
RS 4 48.5 46.5 49.0 144.0 48.00
RS 5 34.5 31.0 65.5 32.72
Total général 446.0
Moyenne 34.31
générale

Tableau 4.2. Schéma de l’analyse de variance d’un PER, avec répétitions inégales
Source de Degrés de Somme des Carré moyen Valeur
variation liberté carrés  SS  calculée de
(df) (SS)  MS =  F
 df 

Traitement t-1 SST MST MST


MSE
Erreur n-t SSE MSE
Total n-1 SSTO

*Etape 3. Avec les totaux des traitements (Ti) et le total général (G) du Tableau 4.1, calculer comme
suit le facteur de correction et les différentes sommes des carrés. Supposons que yij
représente l’observation du jème milieu PDA appartenant au ième isolat; i = 1, 2, …, t ; j =
1, 2, …, ri..
G2
C. F. = (4.1)
n
(446) 2
=
13
= 15301.23

t ri

SSTO = ∑ ∑ yij2 − C. F. (4.2)


i =1 j =1

[ ]
= ( 29.0) 2 + ( 28.0) 2 +...+( 31.0) 2 − 15301.23
= 789.27

- 75 -
Plan et analyse d’expériences

t
Ti 2
SST = ∑ − C. F. (4.3)
i = 1 ri
 ( 86) 2 ( 94) 2 ( 65.5) 2 
=  + +...+  − 15301.23
 3 3 2 
= 762.69

SSE = SSTO - SST (4.4)


= 789.27 - 762.69 = 26.58

*Etape 4. Entrer toutes les valeurs des sommes des carrés dans le tableau d’analyse de la variance
et calculer les carrés moyens et la valeur de F comme indiqué dans le Tableau 4.2

*Etape 5. Prendre dans l’Annexe 3 les valeurs tabulaires de F, avec f 1 et f 2 degrés de liberté, où f 1
= df du traitement = (t - 1) et f 2 = df de l’erreur = (n – t), respectivement. Dans notre
exemple, la valeur tabulaire de F, avec f 1 = 4 et f 2 = 8 degrés de liberté est de 3.84, au seuil
de signification de 5%. Ces résultats sont consignés dans le Tableau 4.3.

Tableau 4.3. Analyse de la variance des données du Tableau 4.1 sur la croissance du mycélium.
Source de Degré de Somme des Carré Valeur de F Valeur
variation liberté carrés moyen calculée tabulaire
de F
5%
Traitement 4 762.69 190.67 57.38* 3.84
Erreur 8 26.58 3.32
Total 12 789.27
* Significatif au seuil de 5%

*Etape 6. Comparer la valeur calculée de F de l’Etape 4 avec la valeur tabulée de F de l’Etape 5, et


déterminez si la différence entre les traitements est significative, d’après les règles ci-après :
i) Si la valeur calculée de F est supérieure à sa valeur tabulaire au seuil de signification de
5%, la variation due aux traitements est dite significative, ce qui est généralement indiqué
par un astérisque au-dessus de la valeur calculée de F, dans l’analyse de variance.
ii) Si la valeur calculée de F est inférieure ou égale à la valeur tabulaire de F au seuil de
signification de 5%, la variation due aux traitements est dite non significative, ce qui est
indiqué par la mention ns au-dessus de la valeur calculée de F (ou par l’absence d’indication
au-dessus de cette valeur).

Une valeur non significative de F dans l’analyse de variance indique que l’expérience n’a pas réussi à
détecter de différence entre les traitements. Elle ne prouve en aucun cas que tous les traitements sont
les mêmes car la non détection d’une différence entre les traitements, attestée par une valeur non
significative du critère F, pourrait s’expliquer par une différence nulle ou minime, ou par une erreur
expérimentale importante, ou encore par ces deux facteurs. Ainsi, dans tous les cas où la valeur de F
n’est pas significative, le chercheur devrait examiner l’ampleur de l’erreur expérimentale et les

- 76 -
Plan et analyse d’expériences

différences numériques entre les moyennes des traitements. Si ces deux valeurs sont grandes, il est
conseillé de refaire l’essai et de tenter de réduire l’erreur expérimentale pour que les éventuelles
différences entre les traitements puissent être détectées. En revanche, si les deux valeurs sont petites,
les différences entre les traitements sont probablement trop faibles pour avoir une signification
économique, si bien qu’il n’est pas nécessaire de faire de nouveaux essais.

Dans notre exemple, la valeur calculée de F (57.38) est supérieure à sa valeur tabulaire (3.84) au
seuil de signification de 5%. Les différences entre les traitements sont donc significatives. En d’autres
termes, les probabilités que toutes les différences observées entre les cinq moyennes des traitements
soient dues au hasard sont inférieures à 5 pour cent. On notera qu’une valeur significative de F
confirme l’existence de quelques différences entre les traitements testés, mais ne précise pas pour
quelle(s) paire(s) de traitements spécifiques la différence est significative. Ces informations
s’obtiennent grâce aux procédures de comparaison des moyennes examinées dans la Section 4.2.3.

*Etape 7. Calculer comme suit la moyenne générale et le coefficient de variation (cv):


G
Moyenne générale = (4.5)
n

MSE
cv = (100) (4.6)
Moyenne générale

Dans notre exemple,


446
Moyenne générale = = 34.31
13

3.32
cv = (100) = 5.31%
34.31

Le cv affecte le degré de précision des comparaisons entre les traitements et donne une bonne
indication de la fiabilité de l’expérience. C’est une expression de l’erreur expérimentale totale, en
pourcentage de la moyenne totale ; Ainsi, plus la valeur de cv est grande, moins l’expérience est
fiable. Le cv varie considérablement suivant le type d’expérience, la plante cultivée, et les caractères
mesurés. Toutefois, un chercheur expérimenté peut relativement bien juger de l’acceptabilité d’une
valeur spécifique du cv pour un type d’expérience donné. Les résultats d’expériences donnant un cv
supérieur à 30% sont sujets à caution.

4.2.3. Comparaison des traitements


Dans le domaine de la recherche forestière, l’une des procédures les plus couramment employées,
pour les comparaisons appariées est le test de la plus petite différence significative (PPDS). D’autres
méthodes, comme le test de Duncan, le test de la différence raisonnablement significative et le test de
Student-Newman-Keuls sont décrites dans Gomez et Gomez (1980), Steel et Torrie (1980) et
Snedecor et Cochran (1980). Le test PPDS est décrit dans la présente section.
Le test PPDS est la procédure la plus simple pour comparer des paires. Cette procédure fournit une
valeur unique de la PPDS qui, à un niveau de signification déterminé, marque la limite entre la
différence significative et non significative entre une paire de moyennes de traitements quelconque.

- 77 -
Plan et analyse d’expériences

Deux traitements présentent donc des différences significatives à un seuil de signification prescrit si
leur différence est supérieure à la valeur calculée de la PPDS. Dans le cas contraire, leurs différences
sont considérées comme non significatives.

Si le test PPDS est tout à fait approprié pour les plans de comparaisons appariées, il ne permet pas
de comparer toutes les paires de moyennes possibles, surtout si le nombre de traitements est grand.
En effet, le nombre de paires de moyennes de traitements possibles augmente rapidement avec le
nombre de traitements. La probabilité qu’au moins une paire ait une différence supérieure à la valeur
de la PPDS, et uniquement due au hasard, augmente avec le nombre de traitements testés. Par
exemple, dans les expériences où il n’existe pas de différence réelle entre toutes les traitements, il est
possible de démontrer que la différence numérique entre la plus grande et la plus petite moyenne des
traitements devrait être supérieure à la valeur de la PPDS, au seuil de signification de 5%, 29 fois sur
cent dans le cas de 5 traitements, 63 fois sur cent dans le cas de 10 traitements, et 83 fois sur cent
dans le cas de 15 traitements. On évitera donc de recourir au test PPDS pour comparer toutes les
paires de moyennes possibles. Dans les cas où ce test s’applique, on ne l’utilisera que si le critère F
relatif à l’effet des traitements est significatif et si le nombre de traitements n’est pas trop élevé
(inférieur à six).

La procédure d’application du test PPDS pour comparer deux traitements quelconques – par
exemple le traitement i et le traitement j, se déroule en plusieurs étapes :

*Etape 1. Calculer la différence moyenne entre le traitement i et le traitement j :


dij = yi − y j (4.7)
où yi and y j sont les moyennes des traitements i et j.

*Etape 2. Calculer la valeur de la PPDS, au seuil de signification α :


( )
LSDα = ( tv; α ) sd (4.8)
où sd est l’erreur-type de la différence moyenne et t v; α est la valeur t de la distribution de Student,
extraite de l’Annexe 2, au seuil de signification α et pour v = degrés de liberté de l’erreur.

*Etape 3. Comparer la différence moyenne calculée au cours de l’étape 1 avec la valeur de la PPDS
calculée au cours de l’étape 2. Si la valeur absolue de dij est supérieure à la valeur de la
PPDS, conclure que les différences entre les traitements i et j sont significatives au seuil de
signification α ,.

Lorsque l’on applique cette procédure, il est important d’identifier l’erreur-type appropriée de la
différence moyenne (sd ), applicable à la paire de traitements que l’on veut comparer. La méthode
varie en fonction du plan d’expérience utilisé, du nombre de répétitions des deux traitements soumis
à la comparaison et du type spécifique de moyennes que l’on comparera. Dans le cas d’un PER,
lorsque les deux traitements n’ont pas le même nombre de répétitions, sd se calcule comme suit:
1 1
sd = s2 ( + ) (4.9)
ri rj

- 78 -
Plan et analyse d’expériences

où ri et rj représentent le nombre de répétitions des traitements i et j , et s2 la moyenne des carrés


des erreurs dans l’analyse de variance.

Nous illustrerons ceci par un exemple, à l’aide des données du Tableau 4.1. Le chercheur veut
comparer les cinq isolats de R. solani, en particulier la croissance de leur mycélium sur milieu PDA.
Pour appliquer le test PPDS, on procèdera par étapes, de la manière suivante :

*Etape 1. Calculer la différence moyenne entre chaque paire de traitements (isolats) comme indiqué
dans le Tableau 4.4.

*Etape 2. Calculer la valeur de la PPDS, au seuil de signification α. Etant donné que certains
traitements sont répétés trois fois et d’autres deux fois, il faut calculer trois ensembles de
valeurs de la PPDS.

Pour comparer deux traitements comportant chacun trois répétitions, la valeur de la PPDS
se calcule comme suit.
2( 3.32)
LSD.05 = 2.31 = 3.44 mm
3
où la valeur de s2 = 3.32 est dérivée du Tableau 4.3 et la valeur de la distribution de Student t
(2.31), pour 8 degrés de liberté, au seuil de signification de 5% est extraite de l’Annexe 2.

Pour comparer deux traitements répétés trois fois chacun, calculer la valeur de la PPDS,
comme suit :
2( 3.32 )
LSD.05 = 2.31 = 4.21 mm
2

Pour comparer deux traitements dont un est répété deux fois et l’autre trois fois, la valeur de
la PPDS est
LSD.05 = 2.31 3.32( 1 / 3 + 1 / 2)
= 3.84 mm

*Etape 3. Comparer la différence entre chaque paire de traitements calculée à l’Etape 1 aux valeurs
correspondantes de la PPDS calculées à l’étape 2, et placer la notation appropriée
(astérisque, ns ou absence d’indication). Par exemple, la différence moyenne entre le
premier traitement (comportant trois répétitions) et le deuxième traitement (trois répétitions)
est de 2.66 mm. Etant donné que la différence moyenne est inférieure à la valeur de la PPDS
correspondante (3.44 mm), elle est non significative au seuil de signification de 5%. Par
ailleurs, la différence moyenne entre le premier traitement (trois répétitions) et le deuxième
(deux répétitions) est de 4.05 mm. Etant donné que la différence moyenne est supérieure à la
valeur de la PPDS correspondante (3.84), elle est significative au seuil de 5%, ce que l’on
indiquera par un astérisque. Les résultats du test, pour toutes les paires de traitements, sont
indiqués dans le Tableau 4.4.

- 79 -
Plan et analyse d’expériences

Tableau 4.4. Comparaison entre le diamètre moyen (en mm) de chaque paire de traitements, à l’aide
du test PPDS, avec des répétitions non uniformes, pour les données du Tableau 4.1.

Traitement RS 1 RS 2 RS 3 RS 4 RS 5
RS 1 0.00 2.66 0.42 19.33* 4.05*
(3.44) (3.84) (3.44) (3.84)
RS 2 0.00 3.08 16.67* 1.39
(3.84) (3.44) (3.84)
RS 3 0.00 19.75* 4.47*
(3.84) (4.21)
RS 4 0.00 15.28*
(3.84)
RS 5 0.00

* Significative au seuil de 5%
Note: Les valeurs indiquées entre parenthèses sont les valeurs de la PPDS

Avant de passer à la section suivante, nous mentionnerons un point qui peut être utile pour
déterminer le nombre de répétitions à pratiquer pour qu’une expérience soit “raisonnablement ”
fiable. Le principe est que le nombre de répétitions doit être tel que les degrés de liberté de l’erreur
soient de l’ordre de 12. En effet, les valeurs critiques dérivées de certaines distributions, notamment
des lois de Student ou des distributions de F, se stabilisent pratiquement après 12 degrés de liberté,
ce qui confère une certaine stabilité aux conclusions tirées de ces expériences. Par exemple, si l’on
planifie un PER dans lequel les traitements t sont répétés un nombre de fois égal, on identifiera le df
de l’erreur de t(r-1) à 12 et on calculera r pour des valeurs connues de t. Des stratégies similaires
peuvent être suivies pour de nombreux autres plans qui sont expliqués dans les sections suivantes.

4.3. Plan expérimental en blocs aléatoires complets

Le plan expérimental en blocs aléatoires complets (PEBAC) est l’un des dispositifs les plus
largement utilisés en recherche forestière. Il se prête généralement à des expériences en champs dans
lesquels le nombre de traitements est peu important et où il existe un facteur évident pouvant servir
de base pour identifier des ensembles homogènes d’unités expérimentales. Le PEBAC se caractérise
principalement par la présence de blocs de taille égale, dont chacun contient tous les traitements.

4.3.1. Technique des blocs


Cette technique a pour but de réduire l’erreur expérimentale en éliminant la contribution de sources
connues de variation entre les unités expérimentales. Pour ce faire, on regroupe les unités
expérimentales en blocs de manière à minimiser la variabilité à l’intérieur de chaque bloc et à
maximiser la variabilité entre les blocs. Etant donné que seule la variation à l’intérieur d’un bloc
devient un élément de l’erreur expérimentale, le dispositif par blocs est particulièrement efficace
lorsque le type de variabilité du secteur d’expérimentation est prévisible.

Dans un dispositif par blocs, l’idéal est d’utiliser une source de variation grande et hautement
prévisible, telle que l’hétérogénéité du sol, dans un essai d’engrais ou de provenance dans lequel le
rendement est le principal caractère sur lequel on cherche à obtenir des informations. Dans le cas

- 80 -
Plan et analyse d’expériences

d’expériences de ce genre, après avoir identifié la source spécifique de variabilité qui servira de
critère pour les blocs, il faut choisir la taille et la forme des blocs pour maximiser la variabilité entre
ceux-ci. Les principes directeurs de cette décision sont les suivants : i) si le gradient est
unidirectionnel (c’est-à-dire s’il y a un seul gradient), les blocs seront longs et étroits, et orientés de
façon à ce que leur longueur soit perpendiculaire à la direction du gradient ; ii) si le gradient de
fertilité va dans deux directions, avec un gradient beaucoup plus fort que l’autre, on ignorera le plus
faible et l’on suivra les directives qui viennent d’être données pour le gradient unidirectionnel ; iii) si le
gradient de fertilité va dans deux directions, et si les deux gradients ont la même force et sont
perpendiculaires l’un par rapport à l’autre, on choisira des blocs aussi carrés que possible ou
d’autres types de plans comme le carré latin (Gomez et Gomez, 1980).

Si l’on utilise cette technique, la définition des blocs et l’objet de leur utilisation doivent être
compatibles tout au long de l’expérience. Cela signifie que dans tous les cas où il existe une source
de variation sur laquelle le chercheur ne peut pas agir, on veillera à ce que cette variation se produise
entre des blocs plutôt qu’à l’intérieur d’un même bloc. Par exemple, s’il est impossible de mener à
leur terme en un seul jour certaines opérations comme l’application d’insecticides ou la collecte de
données, pour toute l’expérience, celles-ci devront être achevées en une journée sur toutes les
parcelles d’un même bloc. De cette manière, la variation entre les jours (qui peut être renforcée par
des facteurs météorologiques) devient un élément de la variation du bloc et se trouve par conséquent
exclue de l’erreur expérimentale. Si, dans le cadre de l’essai, plusieurs chercheurs doivent prendre
des mesures, le même observateur sera chargé de prendre des mesures sur toutes les parcelles d’un
même bloc. Ainsi, l’éventuelle variation entre les observateurs constituera un élément de la variation
du bloc et non de l’erreur expérimentale.

4.3.2. Déroulement et représentation schématique


Le processus de randomisation d’un PEBAC est appliqué à chaque bloc de manière séparée et
indépendante. Nous allons illustrer la marche à suivre pour une expérience en champ comportant six
traitements A, B, C, D, E, F et trois répétitions.

*Etape 1. Diviser la surface expérimentale en r blocs égaux, r étant le nombre de répétitions, suivant
la technique des blocs décrite dans la Section 4.3.1. Dans notre exemple, la surface
expérimentale est divisée en trois blocs, comme dans la Figure 4.2. Nous supposerons qu’il
y a un gradient de fertilité unidirectionnel sur le côté long du champ d’expérimentation, de
sorte que le bloc est rectangulaire et perpendiculaire à la direction du gradient.

- 81 -
Plan et analyse d’expériences

Figure 4.2. Division d’une surface expérimentale en trois blocs constitués de six parcelles chacun,
pour un Plan expérimental en blocs aléatoires complets, comportant six traitements et trois
répétitions. Les blocs sont rectangulaires et disposés perpendiculairement à la direction du gradient
unidirectionnel (indiqué par une flèche).
Gradient

Bloc I Bloc II Bloc III

*Etape 2. Subdiviser le premier bloc en t parcelles expérimentales, t étant le nombre de traitements.


Attribuer aux t parcelles des numéros qui se suivent, allant de 1 à t, et attribuez t traitements
au hasard aux t parcelles, suivant l’une des procédures de randomisation applicable au PER
décrit dans la Section 4.2.1. Dans notre exemple, le bloc I est subdivisé en six blocs de
même taille, dont les numéros se suivent, de haut en bas (Figure 4.3) et les six traitements
sont alloués au hasard aux six parcelles, à l’aide de la table des nombres aléatoires.

Figure 4.3. Numérotage des parcelles et allocation aléatoire des six traitements (A,
B, C, D, E, et F) aux six parcelles du Bloc I.

1
C
2
D
3
F
4
E
5
B
6
A
Bloc I

*Etape 3. Répéter toute la phase 2 pour chacun des blocs restants. En ce qui concerne notre
exemple, la disposition finale est illustrée à la Figure 4.4.

- 82 -
Plan et analyse d’expériences

Figure 4.4. Schéma-type d’un plan expérimental en blocs aléatoires complets, avec six traitements
(A, B, C, D, E et F) et trois répétitions.
1 7 13
C A F
2 8 14
D E D
3 9 15
F F C
4 10 16
E C A
5 11 17
B D B
6 12 18
A B E
Bloc I Bloc II Bloc III

4.3.3. Analyse de la variance


Tout PEBAC a trois sources de variabilité - le traitement, la répétition (ou bloc) et l’erreur
expérimentale - soit une de plus qu’un PER, en raison de l’adjonction de la répétition qui correspond
à la variabilité entre les blocs.

Nous illustrerons les étapes de l’analyse de la variance applicable à un PEBAC, à l’aide des données
d’une expérience consistant à comparer la circonférence à hauteur de poitrine (gbh) d’arbres de huit
provenances de Gmelina arborea, six ans après leur plantation (Tableau 4.5).
Tableau 4.5. Gbh moyenne (en cm) des arbres dans des parcelles de différentes provenances de
Gmelina arborea, 6 ans après la plantation, dans une expérience en champ relevant d’un PEBAC.
Traitement Total des Moyenne
(Provenance) Répétition traitements des
traitements
I II III (Ti)
1 30.85 38.01 35.10 103.96 34.65
2 30.24 28.43 35.93 94.60 31.53
3 30.94 31.64 34.95 97.53 32.51
4 29.89 29.12 36.75 95.76 31.92
5 21.52 24.07 20.76 66.35 22.12
6 25.38 32.14 32.19 89.71 29.90
7 22.89 19.66 26.92 69.47 23.16
8 29.44 24.95 37.99 92.38 30.79
Total répét. (Rj) 221.15 228.02 260.59
Total général 709.76
(G) Moyenne 29.57
générale

- 83 -
Plan et analyse d’expériences

*Etape 1. Regrouper les données par traitement et par répétition et calculer les totaux des
traitements, (Ti), des répétitions (Rj) et le total général (G), comme indiqué dans le Tableau
4.5.

*Etape 2. Dresser le tableau préliminaire de l’analyse de la variance:

Tableau 4.6. Représentation schématique de l’analyse de la variance d’un PEBAC

Source de Degré de Somme des Carré moyen F calculé


variation liberté carrés  SS 
(df) (SS)  MS = 
 df 
Répétition r-1 SSR MSR
MST
Traitement t-1 SST MST
MSE
Erreur (r - 1)(t - 1) SSE MSE
Total rt - 1 SSTO

*Etape 3. Calculer le facteur de correction et les différentes sommes des carrés (SS) mentionnées
dans le tableau ci-dessus. Notons yij l’observation du i-ème traitement faite dans le jème
bloc; i = 1,…,t ; j = 1,…,r.
G2
CF = (4.10)
rt
( 709.76) 2
= = 20989.97
( 3)( 8)
t r
SSTO = ∑∑ y 2
ij − C. F. (4.11)
i =1 j =1

[
= ( 30.85) 2 + ( 38.01) 2 + ... + ( 37.99) 2 − 20989.97 ]
= 678.42

r
∑ R2j
j =1
SSR = − C.F. (4.12)
t
( 221.15) 2 + ( 228.02 ) 2 + ( 260.59) 2
= − 20989.97
8
= 110.98

t
∑ Ti 2
i =1
SST = − C. F. (4.13)
r
( 103.96) 2 + ( 94.60) 2 + ... + ( 92.38) 2
= − 20989.97
3

- 84 -
Plan et analyse d’expériences

= 426.45

- 85 -
Plan et analyse d’expériences

SSE = SSTO - SSR - SST (4.14)


= 678.42 - 110.98 - 426.45 = 140.98

*Etape 4. A partir des sommes des carrés obtenues, calculer le carré moyen et la valeur de F pour
tester les différences des traitements, comme indiqué dans le Tableau 4.6. Les résultats sont
reportés dans le Tableau 4.7.

Tableau 4.7 Analyse de la variance des données sur la gbh figurant dans le Tableau 4.5.
Source de Degré de Somme des Carré F calculé F
variation liberté carrés moyen tabulaire
5%
Répétition 2 110.98 55.49
Traitement 7 426.45 60.92 6.05* 2.76
Erreur 14 140.98 10.07
Total 23 678.42
*Significative au seuil de 5%

*Etape 5. Extraire les valeurs de F de l’Annexe 3, pour f 1 = df des traitements et f 2 = df de l’erreur.


Pour notre exemple, la valeur tabulaire de F pour f 1 = 7 et f 2 = 14 degrés de liberté est de
2.76 au seuil de signification de 5%.

*Etape 6. Comparer la valeur calculée de F de l’étape 4 aux valeurs tabulaires de F de l’étape 5, et


déterminer si les différences entre les traitements sont significatives ou non. La valeur
calculée de F (6.05) étant supérieure à la valeur tabulaire de F au seuil de signification de
5%, on peut conclure que l’expérience met en évidence l’existence de différences
significatives entre les provenances, mesurées par la croissance de leur gbh.

*Etape 7. Calculer le coefficient de variation:


Erreur MS
cv = (100) (4.15)
Moyenne générale
10.37
= (100) = 10.89%
29.57
La valeur du cv est relativement faible, donc le degré de précision des résultats de l’expérience en
champ est acceptable.

4.3.4. Comparaison des traitements


Les moyennes des traitements sont comparées selon la méthode décrite pour le PER dans la Section
4.2.3 à l’aide de la formule
( )( )
LSDα = t v; α sd (4.16)
où sd est l’erreur type de la différence entre les moyennes des traitements et où t v; a est la valeur
tabulaire de t , tirée de l’Annexe 2, au seuil de signification α et avec v = degrés de liberté de
l’erreur. La quantité sd se calcule comme suit:

- 86 -
Plan et analyse d’expériences

2s 2
sd = (4.17)
r
2
où s est le carré moyen dû à l’erreur et r le nombre de répétitions.

Pour illustrer ceci par un exemple, nous allons poursuivre l’analyse conduite pour les données du
Tableau 4.5 et comparer ainsi toutes les paires de traitements possibles à l’aide du test de la PPDS.

*Etape 1. Calculer la différence entre les moyennes des traitements comme indiqué dans le Tableau
4.8.

Tableau 4.8. Différence entre la gbh moyenne (en cm) pour chaque paire de traitements d’après les
données du Tableau 4.4.

Traitement 1 2 3 4 5 6 7 8
1 0.00 3.12 2.14 2.73 12.53* 4.75 11.49* 3.86
2 0.00 0.98 0.39 9.41* 1.63 8.37* 0.74
3 0.00 0.59 10.39* 2.61 9.35* 1.72
4 0.00 9.8* 2.02 8.76* 1.13
5 0.00 7.78* 1.04 8.67*
6 0.00 6.74* 0.89
7 0.00 7.63*
8 0.00
* Significative au seuil de 5%

*Etape 2. Calculer la valeur de la PPDS au seuil de signification α. Etant donné que tous les
traitements sont répétés le même nombre de fois, il suffit de calculer une seule valeur de la
PPPDS. Celle-ci s’obtient à l’aide des équations (4.16) et (4.17).
2( 10.07)
LSD.05 = 2.14 = 5.54 cm
3

*Etape 3. Comparer la différence entre les moyennes des traitements avec la valeur calculée de la
PPDS et marquer d’un astérisque les différences significatives. Les résultats sont reportés
dans le Tableau 4.8.

4.3.5. Estimation des valeurs manquantes


On parle de “ données manquantes ” dans tous les cas où l’on ne dispose d’observation valide pour
aucune des unités expérimentales. Les données manquantes peuvent avoir plusieurs causes :
mauvaise application accidentelle des traitements, observations erronées, destruction d’unités
expérimentales due à des calamités naturelles comme le feu, les dégâts dus à la faune etc... Il est
toutefois primordial d’examiner attentivement ces raisons. La destruction du matériel expérimental ne
doit pas être due à l’effet du traitement. Si dans une parcelle aucun arbre n’a survécu, pour des
raisons manifestement sans rapport avec les traitements, par exemple parce que la parcelle a été

- 87 -
Plan et analyse d’expériences

broutée par des animaux errants ou vandalisée par des voleurs, les données manquantes doivent être
déclarées comme il convient. En revanche, si dans un essai d’insecticides, par exemple, une parcelle
témoin (non traitée) est totalement détruite par des insectes, ce dommage est la conséquence logique
de l’absence de traitement. Ainsi, les données correspondantes sur cette parcelle devraient être
reconnues comme valides (rendement nul si tous les arbres de la parcelle sont détruits, ou faible si
quelques plants ont survécu), et non pas considérées comme manquantes.

L’apparition de données manquantes a deux conséquences majeures : des informations sont perdues
et l’analyse de variance standard n’est pas applicable. Lorsqu’une expérience comporte une ou
plusieurs observations manquantes, les procédures de calcul standard de l’analyse de variance ne
s’appliquent plus, sauf pour le PER. Dans ces situations, il est possible d’utiliser la technique de
formulation d’une donnée manquante qui permet d’estimer une observation manquante unique à
l’aide d’une formule adaptée au plan d’expérience concerné. Cette estimation est insérée à la place
de la donnée manquante et l’ensemble de données ainsi complété est ensuite soumis à l’analyse de
variance standard, légèrement modifiée.

On notera que l’estimation d’une donnée manquantes obtenue grâce à cette technique ne donne pas
d’information supplémentaire ; aucune manipulation statistique ne permet de récupérer une donnée
une fois qu’elle est perdue. L’objet de cette procédure est simplement de permettre au chercheur de
faire les calculs habituels de l’analyse de la variance (comme si les données étaient complètes), sans
recourir aux procédures plus complexes nécessaires pour des ensembles de données incomplets.

Dans un plan expérimental en blocs aléatoires complets comprenant une seule valeur manquante,
celle-ci est estimée par la relation:
rB + tT0 − G0
y= 0 (4.18)
( r − 1)( t − 1 )
où y = estimation de la donnée manquante
t = Nombre de traitements
r = Nombre de répétitions
B0 = Total des valeurs observées de la répétition dans laquelle se trouve la donnée manquante
T0 = Total des valeurs observées du traitement dans lequel se trouve la donnée manquante
G0 = Total général de toutes les valeurs observées

La donnée manquante est remplacée par la valeur calculée de y et la procédure de calcul habituelle,
légèrement modifiée, de l’analyse de variance est appliquée à l’ensemble de données complété.

La procédure est illustrée à l’aide des données du Tableau 4.5. La donnée manquante est supposée
être la valeur du sixième traitement (sixième provenance) dans la répétition II (voir Tableau 4.9). Les
étapes du calcul de l’analyse de variance et des comparaisons appariées des moyennes de
traitements sont les suivantes :

*Etape 1. Estimer la valeur manquante à l’aide de l’équation (4.18) et les valeurs des totaux du
Tableau 4.9.
3(195.88) + 8(57.57) − 677.62
y= = 26.47
(3 − 1)(8 − 1)

- 88 -
Plan et analyse d’expériences

Tableau 4.9. Données du Tableau 4.5, avec une observation manquante


Traitement Total des
(Provenance) Répétition traitements
Rép. I Rép II Rép. III (T)
1 30.85 38.01 35.1 103.96
2 30.24 28.43 35.93 94.6
3 30.94 31.64 34.95 97.53
4 29.89 29.12 36.75 95.76
5 21.52 24.07 20.76 66.35
6 25.38 M 32.19 (57.57=T0)
7 22.89 19.66 26.92 69.47
8 29.44 24.95 37.99 92.38
Total Rép. (R) 221.15 (195.88=B0) 260.59
Total général (677.62=G0)
(G)
M = donnée manquante

*Etape 2. Remplacer la donnée manquante du Tableau 4.9 par sa valeur estimée, calculée dans
l’étape 1, comme indiqué dans le Tableau 4.10 et effectuer l’analyse de variance de
l’ensemble de données augmenté, sur la base de la procédure standard de la Section 4.3.3.

Tableau 4.10. Données du Tableau 4.7 - la donnée manquante est remplacée par la valeur estimée
par la technique de formulation de la donnée manquante.
Traitement Total des
(Provenance) Répétition traitements
Rep. I Rep II Rep. III (T)
1 30.85 38.01 35.1 103.96
2 30.24 28.43 35.93 94.6
3 30.94 31.64 34.95 97.53
4 29.89 29.12 36.75 95.76
5 21.52 24.07 20.76 66.35
6 25.38 26.47a 32.19 84.04
7 22.89 19.66 26.92 69.47
8 29.44 24.95 37.99 92.38
Total rép. (R) 221.15 222.35 260.59
Total général 704.09
(G)
a
Donnée manquante estimée par la technique de formulation de la donnée manquante

- 89 -
Plan et analyse d’expériences

*Etape 3. Apporter les modifications suivantes à l’analyse de variance de l’étape 2; Soustraire 1 du


df total et du df de l’erreur. Dans notre exemple, le df total tombe de 23 à 22 et df de
l’erreur de 14 à 13. Calculer le facteur de correction du biais (B)

B=
[B 0 ]
− ( t − 1 )y
2

(4.19)
t( t − 1 )

=
[195.88 − (8 − 1)(26.47)] 2

8(8 − 1)
= 2.00

et soustraire la valeur calculée de B ( 2.00) de la somme des carrés des traitements et de la somme
totale des carrés. Dans notre exemple, la SSTO et la SST calculées dans l’étape 2 à partir des
données augmentées du Tableau 4.10, sont respectivement de 680.12 et de 432.09. En soustrayant
la valeur de B ( 2.00) de ces valeurs de SS, on obtient la SST et la SSTO ajustées:
SST ajustée = 432.09 - 2.00
= 430.09

SSTO ajustée = 680.12 - 2.00


= 678.12

L’analyse de la variance ainsi modifiée est reportée dans le Tableau 4.11.

Tableau 4.11. Analyse de la variance des données du Tableau 4.7, avec une valeur manquante
estimée par la technique de formulation d’une donnée manquante.
Source de Degré de Somme des Carré F F
liberté carrés tabulaire
variation moyen calculé 5%
Répétition 2 125.80 62.90 6.69
Traitement 7 430.09 61.44 6.53* 2.83
Erreur 13 122.23 9.40
Total 22 678.12
* Significative au seuil de 5%

*Etape 4. Pour les comparaisons par paire de moyennes de traitements, dont l’un contient une
donnée manquante, calculer l’erreur-type de la différence moyenne sd :
2 t 
sd = s2  +
r(r - 1)(t - 1) 
(4.20)
r
où s2 est le carré moyen de l’erreur fournit par l’analyse de variance de l’étape 3, r le nombre de
répétitions et t le nombre de traitements.

Par exemple, pour comparer la moyenne du sixième traitement (auquel manque une donnée) avec
celle d’un quelconque autre traitement, sd se calcule comme suit :

- 90 -
Plan et analyse d’expériences

2 8 
sd = 9.40 +  = 2.84
 3 (3)(2)(7) 

Cette valeur de sd peut être utilisée pour calculer les valeurs de la PPDS. La méthode de calcul des
valeurs de la PPDS est indiquée ci-dessous. Si l’on prend t v comme valeur tabulaire de t pour 13 df
au seuil de signification de 5% (voir Annexe 3), les valeurs de la PPDS servant pour comparer la
moyenne du sixième traitement avec toute autre moyenne de traitement se calculent de la manière
suivante:
LSDα = t v; a sd (4.21)
LSD.05 = (2.16)(2.84) = 6.13

4.4. Plans d’expérience factoriels

Dans toute expérience, une ou plusieurs variables de réponse peuvent être affectées par un certain
nombre de facteurs dans le système global, dont certains sont maîtrisés ou maintenus aux niveaux
voulus dans l’expérience. Une expérience dans laquelle les traitements sont constitués de toutes les
combinaisons possibles de deux ou plusieurs facteurs, aux niveaux sélectionnés, est appelé plan
d’expérience factoriel. Par exemple, une expérience sur l’enracinement des boutures englobant deux
facteurs, mesurés à deux niveaux – par exemple deux hormones à deux dosages différents – est une
expérience factorielle 2 x 2 ou 22. Les traitements sont constitués des quatre combinaisons possibles
de chacun des deux facteurs, aux deux niveaux considérés.

Combinaison des traitements


Numéro du traitement Hormone Dose (ppm)
1 NAA 10
2 NAA 20
3 IBA 10
4 IBA 20

On utilise parfois l’expression expérience factorielle complète lorsque les traitements comprennent
toutes les combinaisons des niveaux sélectionnés des facteurs, mais l’expression expérience
factorielle fractionnée ne s’applique que le test ne porte que sur une fraction de toutes les
combinaisons. Toutefois, pour simplifier, les expériences factorielles complètes seront, tout au long
de ce manuel, appelées simplement expériences factorielles. On notera que le terme factoriel se
réfère au mode de constitution spécifique des traitements et n’a rien à voir avec le plan décrivant le
dispositif expérimental. Par exemple, si l’expérience factorielle 22 dont nous avons parlé plus haut fait
partie d’un plan d’expérience en blocs aléatoires complets, l’expérience devrait être définie par
l’expression expérience factorielle 22 dans un plan en blocs aléatoires complets.

Dans un plan d’expérience factoriel, le nombre total de traitements est égal au produit du nombre de
niveaux de chaque facteur; dans l’exemple factoriel 22 , le nombre de traitements est égal à 2 x 2 =
4, dans une expérience factorielle 23, le nombre de traitements est 2 x 2 x 2 = 8.
Le nombre de traitements augmente rapidement avec le nombre de facteurs ou avec les niveaux de
chaque facteur. Pour une expérience factorielle comprenant 5 clones, 4 espacements et 3 méthodes

- 91 -
Plan et analyse d’expériences

de désherbage, le nombre total de traitements sera 5 x 4 x 3 = 60. On évitera donc le recours


inconsidéré aux expériences factorielles en raison de leur ampleur, de leur complexité et de leur coût.
De plus, il est peu raisonnable de se lancer dans une expérience de grande ampleur au début d’un
travail de recherche, alors qu’il est possible, avec plusieurs petits essais préliminaires, d’obtenir des
résultats prometteurs. Imaginons par exemple qu’un généticien forestier ait fait venir 30 nouveaux
clones d’un pays voisin et veuille voir comment ils réagissent à l’environnement local. Etant donné
que normalement les conditions de l’environnement varient en fonction de plusieurs facteurs, tels que
la fertilité du sol, le degré d’humidité, etc. l’idéal serait de tester les 30 clones dans le cadre d’une
expérience factorielle englobant d’autres variables, telles que engrais, niveau d’humidité et densité de
population. Le problème est que l’expérience devient alors extrêmement vaste du fait de l’adjonction
d’autres facteurs que les clones. Même si l’on incluait qu’un seul facteur, comme l’azote ou l’engrais,
à trois dosages différents, le nombre de traitements passerait de 30 à 90. Une expérience de cette
ampleur pose divers types de problèmes, notamment pour obtenir des financements ou une surface
expérimentale adéquate, ou pour contrôler l’hétérogénéité du sol etc. Pour faciliter les choses, il est
donc préférable de commencer par tester les 30 clones dans une expérience à un facteur, puis de
sélectionner sur la base des résultats obtenus un petit nombre de clones à soumettre à un examen
plus détaillé. Par exemple la première expérience à un facteur peut montrer que seuls cinq clones ont
des performances suffisamment remarquables pour justifier des tests plus approfondis. Ces cinq
clones pourraient ensuite être insérés dans une expérience factorielle avec trois dosages d’azote, ce
qui donnerait un expérience à quinze traitements , alors qu’il en faudrait 90 dans une expérience
factorielle avec 30 clones.

L’effet d’un facteur est la variation moyenne d’une réponse dérivant d’un changement du niveau du
facteur considéré. Cet effet est souvent appelé effet principal. Prenons pour exemple les données du
Tableau 4.12.

Tableau 4.12. Données issues d’un plan d’expérience factorielle 2x2


Facteur B
Niveau b1 b2

a1 20 30
Facteur A
a2 40 52

L’effet principal du facteur A peut être considéré comme la différence entre la réponse moyenne au
premier niveau de A et la réponse moyenne au deuxième niveau de A. Numériquement :
40 + 52 20 + 30
A= − = 21
2 2

Ce résultat signifie que si le facteur A augmente du niveau 1 au niveau 2, la réponse augmente en


moyenne de 21 unités. De même, l’effet principal du facteur B est
30 + 52 20 + 40
B= − = 11
2 2
Si les facteurs apparaissent à plus de deux niveaux, la procédure ci-dessus doit être modifiée car les
différences entre les réponses moyennes peuvent être exprimées de différentes manières.

- 92 -
Plan et analyse d’expériences

Le principal avantage d’une expérience factorielle est qu’elle permet d’obtenir plus d’informations
sur l’interaction entre les facteurs. Dans certaines expériences, on constate que la différence de
réponse entre les niveaux d’un facteur n’est pas la même à tous les niveaux des autres facteurs, ce
qui signifie qu’il existe une interaction entre les facteurs. Prenons pour exemple les données du
Tableau 4.13.

Tableau 4.13. Données issues d’une expérience factorielle 2x2


Facteur B
Niveaux b1 b2

a1 20 40
Facteur A
a2 50 12

Au premier niveau du facteur B, l’effet du facteur A est


A = 50-20 = 30

Et au second niveau du facteur B, l’effet du facteur A est


A = 12-40 = -28

Etant donné que l’effet de A est fonction du niveau choisi pour le facteur B, il est évident qu’il existe
une interaction entre A et B.

Ces concepts peuvent être illustrés par des graphiques. La figure 4.5 montre les données de réponse
du Tableau 4.2, par rapport au facteur A pour les deux niveaux du facteur B.

Figure 4.5. Représentation graphique de l’absence d’interaction entre les facteurs.


Réponse
60 b2
40 b1
b2
20
b1
0
a1 a2
Facteur

Les droites b1 et b2 sont presque parallèles, ce qui indique qu’il n’y a pas d’interaction entre les
facteurs A et B.

De même, la Figure 4.6 représente les données de réponse du Tableau 4.13. Dans ce cas, on
constate que les droites b1 et b2 ne sont pas parallèles, ce qui indique une interaction entre les
facteurs A et B. Si les graphiques de ce genre sont souvent très utiles pour interpréter des
interactions significatives et signaler les résultats à des gestionnaires non qualifiés en statistique, ils ne
doivent pas constituer la seule technique d’analyse des données, car leur interprétation est subjective
et leur apparence souvent trompeuse.

- 93 -
Plan et analyse d’expériences

Figure 4.6. Représentation graphique de l’interaction entre des facteurs.


Réponse
60
50 b1
40 b2
30
20
b1 b2
10
0
a1 a2
Facteur

On notera que lorsqu’une interaction est importante, les effets principaux correspondants ont peu de
signification pratique. Pour les données du Tableau 4.13, l’effet principal estimé de A serait
50 + 12 20 + 40
A= − =1
2 2

cette valeur étant très petite, nous sommes tentés de conclure à l’absence d’effets dus à A.
Toutefois, si l’on examine les effets de A à différents niveaux du facteur B, on constate qu’il n’en est
pas ainsi. Le facteur A a un effet, mais il dépend du niveau du facteur B, ce qui veut dire qu’une
interaction significative masque souvent la signification des effets principaux. En présence d'une
interaction significative, l'expérimentateur doit ordinairement examiner les niveaux d'un facteur, par
exemple A, alors que le niveau des autres facteurs reste fixe, pour tirer des conclusions sur l’effet
principal de A.

Dans la majorité des plans d’expérience factoriels, les traitements sont trop nombreux pour qu’un
plan en blocs aléatoires puisse être efficace. Certains types de plans ont cependant été
spécifiquement mis au point pour des expériences factorielles de grande envergure, (ex : plans
factoriels avec confusion). L’utilisation de ces plans est décrite dans Das et Giri (1980).

4.4.1. Analyse de variance


Tout plan en blocs complets examiné dans les sections 4.2 et 4.3 pour des expériences à un facteur
est applicable à un plan d’expérience factoriel. Les procédures de randomisation et de
représentation schématique de chaque plan peuvent être appliquées directement, en ignorant
simplement la composition factorielle des traitements et en faisant comme s’il n’existait pas de
relation entre les traitements. Pour l’analyse de variance, les calculs examinés pour chaque plan sont
aussi directement applicables. Toutefois, des étapes de calcul doivent être ajoutées pour répartir les
sommes des carrés des traitements entre les composantes factorielles correspondant aux effets
principaux des facteurs individuels et à leurs interactions. Cette procédure de fractionnement étant la
même pour tous les plans en blocs complets, elle ne sera illustrée ici que pour le cas du PEBAC.

Nous allons décrire les différentes étapes de la procédure d’analyse de la variance d’une expérience
à deux facteurs sur les bambous, avec deux niveaux d’espacements (Facteur A) et trois niveaux
d’âge à la plantation (facteur B), définis dans un PEBAC, à trois répétitions. La liste des six
combinaisons factorielles des traitements figure dans le Tableau 4.14, le dispositif expérimental est
illustré à la Figure 4.7. et les données sont rassemblées dans le Tableau 4.15.

- 94 -
Plan et analyse d’expériences

Tableau 4.14. Les combinaisons factorielles (2 x3) des traitements, avec deux niveaux
d’espacement et trois niveaux d’âge.
Age à la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
(a1) (a2)
6 (b1) a1b1 a2b1
12 (b2) a1b2 a2b2
24 (b3) a1b3 a2b3

Figure 4.7. Schéma-type d’un plan d’expérience factoriel 2 × 3 avec deux niveaux
d’espacement et trois niveaux d’âge, dans un PEBAC, avec 3 répétitions.
Répétition I Répétition II Répétition III
a2b3 a2b3 a1b2
a1b3 a1b2 a1b1
a1b2 a1b3 a2b2
a2b1 a2b1 a1b3
a1b1 a2b2 a2b1
a2b2 a1b1 a2b3

Tableau 4.15. Hauteur maximale moyenne de la tige de Bambusa arundinacea testée avec trois
variantes d’âge et deux variantes d’espacement dans un PEBAC.
Combinaison des Hauteur maximale de la tige d’une cépée (en Total
traitements cm) traitements
Rép. I Rép. II Rép. III (Tij)
a1b1 46.50 55.90 78.70 181.10
a1b2 49.50 59.50 78.70 187.70
a1b3 127.70 134.10 137.10 398.90
a2b1 49.30 53.20 65.30 167.80
a2b2 65.50 65.00 74.00 204.50
a2b3 67.90 112.70 129.00 309.60
Total répétitions (Rk) 406.40 480.40 562.80 G=1449.60

*Etape 1. Soit r le nombre de répétitions, a le nombre de niveaux du facteur A (espacement), et


b le nombre de niveaux du facteur B (âge). Dresser le tableau préliminaire de l’analyse de
variance:

- 95 -
Plan et analyse d’expériences

Tableau 4.16. Représentation schématique de l’analyse de variance d’une expérience factorielle


avec deux niveaux du facteur A, trois niveauxs du facteur B et trois répétitions, dans un PEBAC
Source de Degrés de Somme des Carré moyen F calculé
variation liberté carrés  SS 
(df) (SS)  MS = 
 df 
Répétition r-1 SSR MSR
Traitement ab- 1 SST MST MST
MSE
A a- 1 SSA MSA MSA
MSE
B b- 1 SSB MSB MSB
MSE
AB (a-1)(b-1) SSAB MSAB MSAB
MSE
Erreur (r-1)(ab-1) SSE MSE
Total rab -1 SSTO

*Etape 2. Calculer les totaux des traitements (Tij), les totaux des répétitions (Rk), et le total général
(G), comme indiqué dans le Tableau 4.15 et calculer SSTO, SSR, SST et SSE en suivant la
procédure décrite dans la Section 4.3.3. Notons yijk l’observation correspondant au i-ème
niveau du facteur A et au j-ème niveau du facteur B dans la k-ième répétition.
G2
C . F. = (4.22)
rab
( 1449.60) 2
= = 11674112
.
( 3)( 2)(3)

a b r
SSTO = ∑ ∑ ∑ yijk
2
− C. F . (4.23)
i = 1 j = 1 k =1

[ ]
= ( 46.50) + ( 55.90) + . . . + (129.00) 2 − 116741.12
2 2

= 17479.10

r
∑ Rk2
k =1
SSR = − C. F . (4.24)
ab
( 406.40) 2 + . . . + (562.80) 2
= − 116741.12
(2 )( 3)
= 2040.37
a b
∑ ∑ Tij2
i = 1 j =1
SST = − C .F. (4.25)
r

- 96 -
Plan et analyse d’expériences

(181.10) 2 + . . . + ( 309.60) 2
= − 116741.12
3
= 14251.87

SSE = SSTO - SSR - SST (4.26)


= 17479.10 - 2040.37 - 14251.87
= 1186.86

L’analyse de variance préliminaire figure dans le Tableau 4.17.

Tableau 4.17. Analyse de variance préliminaire des données du Tableau 4.15.


Source de Degré de Somme Carré F calculé F
variation liberté des carrés moyen tabulaire
5%
Répétition 2 2040.37 1020.187 8.59567* 4.10
Traitement 5 14251.87 2850.373 24.01609* 3.33
Erreur 10 1186.86 118.686
Total 17 17479.10
*Significatif au seuil de 5% .

*Etape 3. Construire le tableau à double entrée des totaux facteur A x facteur B, avec le calcul des
totaux du facteur A et les totaux du facteur B. Dans notre exemple, le tableau des totaux
Espacement x Age (AB), avec les totaux de l’espacement (A) et les totaux de l’âge (B)
calculés, est illustré au Tableau 4.18

Tableau 4.18. Tableau des totaux Espacement x Age , pour les données du Tableau 4.15.
Age Espacement Total
a1 a2 (Bj)
b1 181.10 167.80 348.90
b2 187.70 204.50 392.20
b3 398.90 309.60 708.50
Total (Ai) 767.70 681.90 G = 1449.60

*Etape 4. Calculer les trois composantes factorielles de la somme des carrés des traitements:
b
∑ Ai2
SSA = i =1 − C. F . (4.27)
rb
( 767.70) 2 + ( 681.90) 2
= − 116741.12
( 3)( 3)
= 408.98

- 97 -
Plan et analyse d’expériences

b
∑ B2j
j =1
SSB = − C. F . (4.28)
ra
( 348.90) 2 + ( 392.20) + ( 708.50) 2
= − 116741.12
( 3)( 2 )
= 12846.26

SSAB = SST - SSA - SSB (4.29)


= 14251.87 - 408.98 - 12846.26
= 996.62

*Etape 5. Calculer le carré moyen de chaque source de variation en divisant chaque somme des
carrés par les degrés de liberté qui lui sont associés et obtenir les valeur du rapport F pour
les trois composantes factorielles, selon le schéma du Tableau 4.16.

*Etape 6. Entrer toutes les valeurs obtenues durant les Etapes 3 à 5, dans l’analyse de variance
préliminaire de l’Etape 2 en suivant les indications du Tableau 4.19.

Tableau 4.19. Analyse de variance des données du Tableau 4.15 issues d’une expérience factorielle
2 x 3 dans un PEBAC.
Source de Degré de Somme des Carré F calculé F tabulaire
variation liberté carrés moyen 5%
Répétition 2 2040.37 1020.187 8.60* 4.10
Traitement 5 14251.87 2850.373 24.07* 3.33
A 1 12846.26 6423.132 3.45 4.96
B 2 408.98 408.980 54.12* 4.10
AB 2 996.62 498.312 4.20* 4.10
Erreur 10 1186.86 118.686
Total 17 17479.10
*Significatif au seuil de 5%

*Etape 7. Comparer chaque valeur calculée de F avec la valeur tabulaire de F figurant l’Annexe 3,
avec f 1 = df du MS du numérateur et f 2 = df du MS du dénominateur, au seuil de
signification voulu. Par exemple, la valeur calculée de F relative à l’effet principal du facteur
A est comparée avec les valeurs tabulaires de F (avec f 1=1 et f 2=10 degrés de liberté) de
4.96, au seuil de signification de 5%. Le résultat indique que l’effet principal du facteur A
(espacement) n’est pas significatif au seuil de 5%.

*Etape 8. Calculer le coefficient de variation:


Erreur MS
cv = × 100 (4.30)
Moyenne générale
118.686
= × 100 = 1353%
.
80.53

- 98 -
Plan et analyse d’expériences

4.4.2. Comparaison de moyennes


Dans une expérience factorielle, on effectue différents types de comparaisons d’effets. Par exemple,
dans une expérience factorielle 2 x 3, quatre types de moyennes peuvent être comparées :
Type-(1) Les deux moyennes de A, calculées sur la base des trois niveaux du facteur B
Type-(2) Les trois moyennes de B calculées sur la base des deux niveaux du facteur A
Type (3) Les six moyennes de A, deux moyennes à chacun des trois niveaux du facteur B
Type (4) Les six moyennes de B, trois moyennes à chacun des deux niveaux du facteur A

La moyenne de Type-(1) est une moyenne de 3r observations, celle de Type-(2) est une moyenne
de 2r observations et celles de Type-(3) ou de Type-(4) sont des moyennes de r observations.
(
Ainsi, la formule sd = 2s2 / r )1/2 n’est appropriée que pour la différence moyenne mettant en jeu
des moyennes de Type-(3) ou de Type-(4). Dans les moyennes de Type-(1) et de Type-(2), le
diviseur r de la formule doit être remplacé respectivement par 3r et 2r. Autrement dit, pour
comparer deux moyennes de A, calculées sur la base de tous les niveaux du facteur B, la valeur sd

(
se calcule selon la relation sd = 2 s2 / 3r )1/2 et pour comparer toute paire de moyennes de B,
calculée sur la base de tous les niveaux du facteur A, la formule de calcul de la valeur sd est

(2 s 2 / 2r )1/2 ou plus simplement (s2 / r )1/ 2 .


A titre d’exemple, prenons l’expérience factorielle 2 x 3 dont les données sont reportées dans le
Tableau 4.15. L’analyse de variance met en lumière une interaction significative entre l’espacement et
l’âge, l’effet de l’âge variant si l’espacement change. Il est donc inutile de comparer les moyennes
d’âge, par rapport à tous les niveaux d’espacement ou les moyennes des espacements par rapport à
tous les niveaux d’âge. Il est plus approprié d’effectuer des comparaisons entre les moyennes d’âge,
pour un même niveau d’espacement, ou entre les moyennes d’espacement, pour un même niveau
d’âge. La comparaison entre les moyennes d’espacement, au même âge, est illustrée dans le passage
qui suit. Les étapes du calcul de la PPDS pour la comparaison de deux moyennes d’espacement au
même âge sont les suivantes :

*Etape 1.Calculer l’erreur-type de la différence moyenne d’après la formule applicable pour une
comparaison de Type-(3)
2 Erreur MS
sd = (4.31)
r
2( 118.686)
= = 8.89 cm
3
où la valeur du MS de l’erreur ( 118.686) est extraite de l’analyse de variance du Tableau 4.19.

*Etape 2. Tirer de l’Annexe 2 la valeur tabulaire de t value pour df de l’erreur (10 df), soit 2.23 au
seuil de signification de 5% et calculer la PPDS, à l’aide de l’expression,

( )( )
LSDα = t v ; α sd = ( 2 .23)( 8.89) = 19.82 cm

- 99 -
Plan et analyse d’expériences

*Etape 3. Dresser le tableau à deux entrées des moyennes du produit de l’espacement x Age,
comme indiqué dans le Tableau 4.20. Pour chaque paire de niveaux d’espacement à
comparer au même niveau d’âge, calculer la différence moyenne et la comparer avec la
valeur de la PPDS obtenue durant l’Etape 2. Par exemple, la différence moyenne de hauteur
de la tige entre deux niveaux d’espacement, à l’âge de 12 mois à la plantation, est égale à
5,6 cm. Etant donné que cette valeur est inférieure à la valeur de la PPDS au seuil de
signification de 5%, la différence n’est pas significative.

Tableau 4.20. Tableau des moyennes Espacement x Age de la hauteur des tiges,
sur la base des données du Tableau 4.15
Age à la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
Hauteur moyenne de la tige (en cm)
6 60.37 55.93
12 62.57 68.17
24 132.97 103.20

4.5. Plan factoriel fractionné

Dans un plan d’expérience factoriel, si le nombre de facteurs à tester est trop grand, il devient
impossible de tester tous les traitements factoriels à la fois dans le cadre d’une seule expérience. Il
est alors plus logique de mettre au point un plan expérimental pour tester une fraction seulement du
nombre total de traitements. Le plan factoriel fractionné (PFF) est applicable, uniquement dans le cas
d’expériences englobant un grand nombre de facteurs. Il permet de sélectionner et de tester
systématiquement une fraction seulement de l’ensemble complet de combinaisons de traitements
factoriels. Ceci entraîne malheureusement une perte d’informations sur certains effets sélectionnés au
préalable. Alors que ces pertes peuvent être importantes dans des expériences à un ou deux
facteurs, elles sont plus tolérables si les facteurs sont nombreux. Le nombre d’effets d’interaction
augmente rapidement avec le nombre de facteurs, ce qui permet une certaine flexibilité dans le choix
des effets qui devront être sacrifiés. De fait, lorsque l’on sait avant de commencer que certains effets
spécifiques sont faibles ou sans importance, la perte d’information dérivant de l’adoption d’un Plan
d’expérience factoriel fractionné est négligeable.

Dans la pratique, les effets qui sont le plus couramment sacrifiés du fait du recours au PFF sont des
interactions d’ordre élevé – de quatre facteurs ou de cinq facteurs, voire interaction de trois facteurs.
Dans la majorité des cas, à moins de disposer d’informations préalables en sens contraire, le
chercheur a intérêt à sélectionner un ensemble de traitements qui permet de tester tous les effets
principaux et les interactions de deux facteurs. En recherche forestière, le PFF sera utilisé dans des
essais exploratoires ayant pour principal objectif d’examiner les interactions entre des facteurs. Pour
ces essais, les PFF les plus appropriés sont ceux qui ne sacrifient que les interactions concernant plus
de deux facteurs.

Avec le PFF, le nombre d’effets mesurables décroît rapidement avec la diminution du nombre de
traitements à tester. Ainsi, lorsque les effets à mesurer sont nombreux, le nombre de traitements à

- 100 -
Plan et analyse d’expériences

tester, même dans le cadre d’un PFF, peut être encore trop important. Il est alors possible de
diminuer encore la taille de l’expérience en réduisant le nombre de répétitions. Bien que les PFF
sans répétition soient rarement employés dans les expériences forestières, lorsqu’on les applique à
des essais exploratoires, le nombre de répétitions requis peut être réduit au minimum.

L’autre avantage du PFF est qu’il permet de réduire la taille des blocs puisque ceux-ci ne doivent
plus nécessairement contenir tous les traitements à soumettre au test. L’homogénéité des unités
expérimentales appartenant à un même bloc peut ainsi être améliorée. La réduction de la taille des
blocs s’accompagne toutefois d’une perte d’information qui s’ajoute à celle dérivant de la diminution
du nombre de traitements. Ainsi, le PFF peut être conçu sur mesure et adapté à la majorité des plans
d’expérience factoriels. Cependant, la procédure à employer à cette fin est complexe, c’est pourquoi
nous nous limiterons ici à décrire une catégorie particulière de PFF, adaptée au cas d’essais
exploratoires dans le domaine de la recherche forestière. Les principales caractéristiques de ces
plans d’expérience spécifiques sont les suivantes : i) ils s’appliquent uniquement aux expériences
factorielles 2’’ où n, le nombre de facteurs est de 5 au minimum, ii) ils comprennent seulement la
moitié de l’ensemble complet de combinaisons de traitements factoriels, dénoté par 2n-1 ; iii) ils
permettent d’estimer la totalité des effets principaux et des interactions à deux facteurs. Pour des
plans plus complexes, le lecteur peut se référer à Das et Giri (1980).

La procédure de définition du schéma et d’analyse de variance d’un PFF 25-1 , avec un essai en
champ comportant cinq facteurs A, B, C, D et E est illustrée dans la section suivante. Les différentes
combinaisons des traitements sont désignés par les lettres a, b, c,…, pour noter la présence (ou le
niveau élevé) des facteurs A, B, C,… Ainsi, la combinaison du traitement ab, dans une expérience
factorielle 25 indique une combinaison de traitement caractérisée par un niveau élevé (ou par la
présence) des facteurs A et B et par un bas niveau (ou par l’absence) des facteurs C, D et E. En
revanche, dans une expérience factorielle 26, cette même notation (ab) se référerait à une
combinaison de traitement contenant un niveau élevé des facteurs A et B et un bas niveau des
facteurs C, D, E, et F. Dans tous les cas, le symbole (1) indiquera la combinaison de traitement
caractérisée par un bas niveau de tous les facteurs.

4.5.1. Elaboration du plan et présentation


Il existe une méthode simple pour trouver la fraction voulue des combinaisons factorielles dans un
PFF 25-1 , sachant que, dans un essai factoriel 25, l’effet des facteurs ABCDE peut être estimé à
partir du développement du terme (a-1)(b-1)(c-1)(d-1)(e-1):
(a-1)(b-1)(c-1)(d-1)(e-1) = abcde - acde - bcde + cde - abde + ade + bde - de
- abce + ace + bce - ce + abe - ae - be + e
- abcd + acd + bcd - cd + abd - ad - bd + d
+ abc - ac - bc + c - ab + a + b - 1
Dans cette expression, les signes (positif ou négatif) associés aux traitements permettent de diviser
l’ensemble factoriel complet en deux groupes de traitements. Si l’on conserve uniquement un l’un des
deux ensembles, positif ou négatif, on obtient une demie fraction de l’expérience factorielle 25. Les
deux séries de traitements se présentent comme suit.

- 101 -
Plan et analyse d’expériences

Traitements accompagnés de signes négatifs Traitements accompagnés de signes


positifs

acde, bcde, abde, de, abce, ce, ae, be, abcde, bcde, abde, de, abce, ce, ae, be,

abcd, cd, ad, bd, ac, bc, ab, 1 abcd, cd, ad, bd, ac, bc, ab, 1

Par suite de la réduction du nombre de traitements inclus dans l’expérience, il va être impossible d’
estimer l’effet ABCDE à partir de l’ensemble fractionné. Tous les effets principaux et toutes les
interactions de deux facteurs peuvent être estimés dans l’hypothèse où toutes les interactions de trois
facteurs et d’ordre plus élevé sont négligeables. La procédure peut être généralisée puisque dans une
expérience 26, , il est possible d’isoler une demie fraction en retenant les traitements accompagnés
d’un signe positif ou négatif dans le développement de (a-1)(b-1)(c-1)(d-1)(e-1)(f-1).

Le PFF est simplement un dispositif qui permet de sélectionner des traitements ayant une structure
factorielle, et les combinaisons des facteurs qui en découlent peuvent être considérées comme un
ensemble de traitements applicables à l’expérience physique qui sera définie dans un plan standard
quelconque tel que PER ou PEBAC. On trouvera à la Figure 4.8. un schéma randomisé type, pour
un PFF 25-1 avec deux répétitions faisant partie d’un PEBAC.

Figure 4.8. Schéma-type d’un PFF 25-1 avec deux répétitions faisant partie d’un PEBAC.
1 9 1 9
de ab abce acde
2 10 2 10
1 adde cd bd
3 11 3 11
acde ad be de
4 12 4 12
ae abce ad bcde
5 13 5 13
ce be ae ce
6 14 6 14
ac bc abcd 1
7 15 7 15
bcde bcd abce ac
8 16 8 16
bd cd bc be
Répétition I Répétition II

4.5.2. Analyse de variance


La procédure d’analyse de variance applicable à un PFF 25-1 à deux répétitions, est illustrée à l’aide
de la méthode de Yates pour le calcul de la somme des carrés, qui facilite le calcul manuel
d’expériences factorielles de grande ampleur. On peut aussi appliquer les règles standards de calcul
des sommes des carrés dans l’analyse de variance, en élaborant des tableaux à une entrée des

- 102 -
Plan et analyse d’expériences

totaux, pour calculer les effets principaux, des tableaux à double entrée des totaux pour les
interactions de deux facteurs, etc, en suivant la méthode illustrée dans la Section 4.4.1.

L’analyse d’un PFF 25-1 est illustrée avec des données hypothétiques issue d’un essai dont le
schéma, décrit à la Figure 4.8, est conforme à celui d’un PEBAC. La réponse aux différentes
combinaisons de traitement, mesurée par le rendement en fourrage (tonnes/ha), est reportée dans le
Tableau 4.21. Les cinq facteurs étaient liés aux différentes composantes d’un programme
d’aménagement du sol (application de matière organique, fertilisation, désherbage, irrigation et
chaulage).

Tableau 4.21. Données sur le rendement en fourrage dérivées d’une expérience


factorielle 25-1
Combinaison Rendement en fourrage (t/ha) Total du
de traitement traitement
(Ti)
Replication I Replication II
acde 1.01 1.04 2.06
bcde 1.01 0.96 1.98
abde 0.97 0.94 1.92
de 0.82 0.75 1.58
abce 0.92 0.95 1.88
ce 0.77 0.75 1.53
ae 0.77 0.77 1.55
be 0.76 0.80 1.57
abcd 0.97 0.99 1.97
cd 0.92 0.88 1.80
ad 0.80 0.87 1.68
bd 0.82 0.80 1.63
ac 0.91 0.87 1.79
bc 0.79 0.76 1.55
ab 0.86 0.87 1.74
1 0.73 0.69 1.42
Total
répétition (Rj) 13.83 13.69
Total général (G) 27.52

L’analyse de variance se calcule en plusieurs étapes :

*Etape 1. Dresser le tableau préliminaire de l’analyse de variance présentée dans le Tableau 4.22.

- 103 -
Plan et analyse d’expériences

*Etape 2. Déterminer le nombre de facteurs réels (k) avec deux niveaux chacun, donnant lieu à un
nombre total de traitements factoriels égal au nombre de traitements (t) inclus dans
l’expérience (2k = t). Sélectionner ensuite l’ensemble des k facteurs réels particuliers dans
l’ensemble initial de n facteurs. Les (n - k) facteurs restants sont appelés facteurs factices.
Dans notre exemple, les t = 16 combinaisons de traitements correspondent à un ensemble
complet de 2k combinaisons factorielles avec k = 4. Dans un souci de simplification, nous
dirons que les quatre premiers facteurs A, B, C et D sont les facteurs réels, E étant le facteur
factice.

Tableau 4.22. Représentation schématique de l’analyse de variance d’un PFF 25-1 à deux
répétitions, s’inscrivant dans un PEBAC.

Source de Degré de Somme des Carré moyen


variation liberté carrés
 SS  F calculé
(df) (SS)  MS = 
 df 
Bloc r-1=1 SSR MSR MSR MSE

A 1 SSA MSA MSA MSE

B 1 SSB MSB MSB MSE

C 1 SSC MSC MSC MSE

D 1 SSD MSD MSD MSE

E 1 SSE@ MSE@ MSE @ MSE

AB 1 SSAB MSAB MSAB MSE

AC 1 SSAC MSAC MSAC MSE

AD 1 SSAD MSAD MSAD MSE

AE 1 SSAE MSAE MSAE MSE

BC 1 SSBC MSBC MSBC MSE

BD 1 SSBD MSBD MSBD MSE

BE 1 SSBE MSBE MSBE MSE

CD 1 SSCD MSCD MSCD MSE

CE 1 SSCE MSCE MSCE MSE

DE 1 SSDE MSDE MSDE MSE

Erreur 15 SSE MSE


Total (r 25-1)-1 SSTO
@
Cette SS est la somme des carrés dus au facteur E, à ne pas confondre avec la
somme des carrés dus à l’erreur (SSE) figurant plus bas dans le tableau. Le degré de

- 104 -
Plan et analyse d’expériences

liberté de l’erreur peut être obtenu en soustrayant du degré de liberté total le degré
de liberté relatif au bloc et les effets factoriels.

*Etape 3. Ranger les t traitements dans un ordre logique, d’après les k facteurs réels, en
commençant par les traitements ayant le plus petit nombre de lettres (ab avant abc, abc
avant abcd, et ainsi de suite). Si le traitement (1) est présent dans l’ensemble de t
traitements, il est toujours le premier de la liste. Les traitements ayant le même nombre de
lettres son rangés suivant l’ordre lexicographique. Par exemple, ab est devant ac, ad devant
bc, et ainsi de suite. Toutes les lettres d’identification des traitements correspondant à des
facteurs factices sont ignorées dans le processus de classement. Dans notre exemple, le
facteur E est le facteur factice ; la combinaison ae est donc simplement notée a, de sorte
qu’elle vient avant ab. Les 16 traitements de notre exemple, classés dans cet ordre logique,
figurent dans la première colonne du Tableau 4.23. On notera que les traitements sont
énumérés systématiquement, sans tenir compte de leur allocation dans les blocs, et que le
facteur factice E est indiqué entre parenthèses.

*Etape 4. Calculer les t totaux des effets factoriels: Prendre les totaux des traitements t comme
ensemble initial ou valeurs de T0. Dans notre exemple, l’ensemble des 16 valeurs de T0,
rangées dans l’ordre logique, est reporté dans la deuxième colonne du Tableau 4.23.
Ensuite, regrouper les valeurs de T0 en deux paires successives t/2. Dans notre exemple, les
paires successives sont au nombre de 8 : la première paire est 1.42 et 1.54, la seconde est
1.56 et 1.73, et la dernière est 1.97 et 1.96. Ajouter les valeurs des deux traitements dans
chacune des paires t/2 formées. Les résultats constituent la première moitié du deuxième
ensemble, ou valeurs de T1. Dans notre exemple, la première moitié des valeurs de T1 se
calcule comme suit :
2.96 = 1.42 + 1.54
3.29 = 1.56 + 1.73
….
….
3.93 = 1.97 + 1.96

Dans chacune des t/2 paires de T0, soustraire la première valeur de la seconde pour former la moitié
basse des valeurs de T1 . Dans notre exemple, la deuxième moitié des valeurs de T1 se calcule
comme suit :
-0.12 = 1.42 - 1.54
-0.17 = 1.56 - 1.73
….
….
0.01 = 1.97 - 1.96

Les résultats de ces opérations sont reportés dans la troisième colonne du Tableau 4.23.

Refaire les opérations précédentes, en utilisant à présent les valeurs de T1 à la place des valeurs de
T0 pour dériver le troisième ensemble, ou valeurs de T2. Dans notre exemple, les résultats des
opérations appliquées aux valeurs de T1 pour obtenir les valeurs de T2 figurent dans la quatrième
colonne du Tableau 4.23. Répétez l’opération (n - 1) fois, où n est le nombre total de facteurs

- 105 -
Plan et analyse d’expériences

compris dans l’expérience. A chaque fois, utilisez les nouvelles valeurs dérivées de T. Dans notre
exemple, l’opération est répétée encore deux fois pour dériver les valeurs de T3 et de T4, reportées
dans la cinquième et la sixième colonnes du Tableau 4.23.
Tableau 4.23. Application de la méthode de Yates, pour le calcul des sommes des carrés d’un PFF
25-1 avec les données du Tableau 4.21
Traitem Identification de ( T4 ) 2
ent T0 T1 T2 T3 T4 l’effet factoriel r 2n −1
Initial Final
(1) 1.42 2.96 6.25 12.97 27.52 (G) (G) 23.667
a(e) 1.54 3.29 6.72 14.55 -1.50 A AE 0.070
b(e) 1.56 3.30 6.77 -0.87 -0.82 B BE 0.021
ab 1.73 3.42 7.78 -0.63 0.04 AB AB 0.000
c(e) 1.52 3.24 -0.29 -0.45 -1.48 C CE 0.068
ac 1.78 3.53 -0.58 -0.37 0.14 AC AC 0.001
bc 1.55 3.85 -0.39 0.11 -0.42 BC BC 0.006
abc(e) 1.87 3.93 -0.24 -0.07 0.44 ABC D 0.006
d(e) 1.57 -0.12 -0.33 -0.47 -1.58 D DE 0.078
ad 1.67 -0.17 -0.12 -1.01 -0.24 AD AD 0.002
bd 1.62 -0.26 -0.29 0.29 -0.08 BD BD 0.000
abd(e) 1.91 -0.32 -0.08 -0.15 0.18 ABD C 0.001
cd 1.80 -0.10 0.05 -0.21 0.54 CD CD 0.009
acd(e) 2.05 -0.29 0.06 -0.21 0.44 ACD B 0.006
bcd(e) 1.97 -0.25 0.19 -0.01 0.00 BCD A 0.000
abcd 1.96 0.01 -0.26 0.45 -0.46 ABCD E 0.007

*Etape 5. Identifier l’effet factoriel spécifique représenté par chacune des valeurs du dernier
ensemble (communément appelé totaux des effets factoriels) dérivées lors de l’Etape 4.
Procéder somme suit : la première valeur représente le total général (G). En ce qui concerne
les (t – 1)valeurs restantes, assignez les effets factoriels préliminaires conformément aux
lettres des traitements correspondants, en ignorant les facteurs factices.

Par exemple, la seconde valeur de T4 correspond aux combinaisons de traitement a (e), de sorte
qu’elle est assignée à l’effet principal A. La quatrième valeur de T4 correspond au traitement ab et
est assignée à l’effet de l’interaction AB, et ainsi de suite. Les résultats relatifs aux 16 traitements
sont reportés dans la septième colonne du Tableau 4.23. Pour les traitements dans lesquels intervient
le facteur factice, ajuster les effets factoriels préliminaires comme suit. Identifier tous les effets
associés au facteur factice E pouvant être estimés dans le cadre du plan. Dans notre exemple, ceux-
ci sont l’effet principal de E et la totalité de ses interactions à deux facteurs AE, BE, CE et DE.
Identifier les alias de tous les effets énumérés comme “préliminaires ”. L’alias de tout effet est défini
comme étant l’interaction généralisée de cet effet avec le contraste déterminant. L’interaction
généralisée entre deux effets factoriels quelconques s’obtient en combinant toutes les lettres qui
apparaissent dans les deux effets puis en supprimant toutes celles que l’on retrouve deux fois. Par
exemple, l’interaction généralisée entre ABC et AB est AABBC ou C. Dans notre exemple, le
contraste déterminant est ABCDE, les alias des cinq effets associés au facteurs factice E sont :
E=ABCD, AE=BCD, BE=ACD, CE=ABD et DE=ABC.

- 106 -
Plan et analyse d’expériences

Les deux effets factoriels intervenant dans chaque paire d’alias (l’un à gauche, et l’autre à droite du
signe égal) sont indissociables (ils ne peuvent pas être estimés séparément). Par exemple, pour la
première paire (E et ABCD), l’effet principal du facteur E, ne peut pas être séparé de l’effet
d’interaction ABCD. A moins que l’on sache qu’une des paires est absente, il n’y a donc aucun
moyen de savoir quelle est celle qui contribue à l’estimation obtenue.

Remplacer tous les effets factoriels préliminaires qui sont des alias des effets estimables associés au
facteur factice, par ce dernier facteur. Par exemple, étant donné que ABCD (dernier traitement du
Tableau 4.23) est l’alias de E, il est remplacé par E. De la même manière, BCDE est remplacé par
A, ACDE par B et ainsi de suite… Les résultats finaux de l’identification des effets factoriels figurent
dans la huitième colonne du Tableau 4.23.
(T )2
*Etape 6. Ajouter au Tableau 4.23 une colonne supplémentaire 4n −1 , où r est le nombre de
r2
répétitions et n le nombre de facteurs inclus dans l’expérience. La valeur de cette colonne
correspondant à G dans la colonne précédente sera le facteur de correction. Les autres valeurs de
cette colonne seront la somme des carrés correspondant aux effets identifiés dans la colonne
précédente.

*Etape 7. Calculer les SS dûs aux autres effets pour compléter l’analyse de la variance. Supposons
que yij représente la valeur obtenue avec le i- ème traitement de la j-ème répétition.
G2
C. F .= (4.32)
rt
12 .37 2
= = 23.6672
( 2)( 16)

t r
SSTO = ∑ ∑ yij2 − C. F . (4.33)
i =1 j =1

[
= ( 101 ]
. ) 2 + (1.04) 2 + . . . + ( 0.69 )2 − 23.6672
= 0.2866

r
∑ R 2j
j =1
SSR = n− 1
− C. F . (4.34)
2
( 1383
. ) + (13.69) 2
2
= − 23.6672
24
= 0.0006
t
∑ Ti2
i =1
SST = − C. F . (4.35)
r
(1.42) 2 + (1.54) 2 +.........+(1.96)
2
= − 23.6672
4

- 107 -
Plan et analyse d’expériences

= 0.2748

- 108 -
Plan et analyse d’expériences

SSE = SSTO - SSR - SST (4.36)


= 0.2866 - 0.2748 - 0.0006
= 0.01

*Etape 8. Calculer le carré moyen (MS) de chaque source de variation en divisant chaque SS par
son degré de liberté df. Ici, le MS correspondant à chaque effet factoriel sera égal à sa SS
puisque, dans chaque cas, le df de ces effets est égal à 1.

*Etape 9. Calculer la valeur de F correspondant à chaque terme du tableau d’analyse de variance en


divisant les valeurs de MS par les valeurs des MS de l’erreur. L’analyse de variance finale est
illustrée au Tableau 4.24.

Tableau 4.24. Analyse de variance des données du Tableau 4.21 correspondant à un plan
d’expérience factoriel 25-1.
Source de Degrés de Sommes des Carrés F calculé F
variation liberté carrés moyens Tabulaire
5%
Répétition 1 0.0006 0.0006 0.86ns 4.54
A 1 0.000 0.000 0.00 ns 4.54
B 1 0.006 0.006 8.57* 4.54
C 1 0.001 0.001 1.43 ns 4.54
D 1 0.006 0.006 8.57* 4.54
E 1 0.007 0.007 10.00* 4.54
AB 1 0.000 0.000 0.00 ns 4.54
AC 1 0.001 0.001 1.43 ns 4.54
AD 1 0.002 0.002 2.86 ns 4.54
AE 1 0.070 0.070 100.00* 4.54
BC 1 0.006 0.006 8.57* 4.54
BD 1 0.000 0.000 0.00 ns 4.54
BE 1 0.021 0.021 30.00* 4.54
CD 1 0.009 0.009 12.86* 4.54
CE 1 0.068 0.068 97.14* 4.54
DE 1 0.078 0.078 111.43* 4.54
Erreur 15 0.010 0.0007
Total 31 0.2866
ns
* Significatif au seuil de 5% l, = non significatif au seuil de 5%

*Etape 11.Comparer chaque valeur calculée de F avec les valeurs tabulaires de F correspondantes,
tirées de l’Annexe 3, avec f 1 = df du MS du numérateur et f 2 = df de l’erreur. Les résultats
montrent que les effets principaux B, D et E et les interactions de deux facteurs AE, BC, BE,
CD, CE et AE sont hautement significatifs et que les effets principaux A et C et les
interactions de deux facteurs AB, AC, AD et BD ne sont pas significatives.

- 109 -
Plan et analyse d’expériences

4.5.3. Comparaison de moyennes


La procédure décrite dans la section 4.4.2. pour comparer des moyennes dans des plans
d’expérience factoriels complets s’applique également dans le cas d’un PFF. Il ne faut pas oublier
toutefois que, dans un plan d’expérience factoriel 25-1, seules les moyennes de tableaux à une ou
deux entrées peuvent être comparées à l’aide de la procédure des comparaisons multiples.

4.6. Dispositif en parcelles divisées

L’expérience avec parcelles divisées (ou dispositif en tiroir) convient très bien dans le cas d’une
expérience à deux facteurs dans laquelle les niveaux d’un des deux facteurs ne peuvent être testés
que dans des parcelles de grande taille et se caractérisent par des effets très différents. Dans une telle
situation, l’expérience sera formée d’un ensemble de “ grandes parcelles ” dans lesquelles des
niveaux sont assignés au facteur de grande parcelle. Chaque grande parcelle est divisée en petites
parcelles auxquelles est assigné le second facteur. Chaque grande parcelle devient ainsi un bloc pour
les traitements des petites parcelles (c’est-à-dire les niveaux du facteur de petite parcelle). Le facteur
de grande parcelle peut en réalité être alloué suivant l’un des systèmes existant ( plan entièrement
randomisé, plan en blocs aléatoires complets, ou carré latin) mais ici seul le plan entièrement
randomisé est envisagé pour le facteur de grande parcelle, car c’est probablement le plan le plus
approprié et le plus couramment employé pour les expériences forestières.

Avec un dispositif en parcelles divisées, la précision de la mesure des effets du facteur de grande
parcelle est sacrifiée au profit de celle du facteur de la petite parcelle. La mesure de l’effet principal
du facteur de petite parcelle et son interaction avec le facteur de grande parcelle sont plus précises
que celles qui peuvent être obtenues avec un plan en blocs aléatoires complets. En revanche, la
mesure des effets des traitements des grandes parcelles (les niveaux du facteur des grandes
parcelles) est moins précise que celle que l’on obtiendrait avec un plan en blocs aléatoires complets.

4.6.1. Dispositif
Un dispositif en parcelles divisées comprend deux processus de randomisation distincts – un pour les
grandes parcelles et l’autre pour les petites parcelles. Dans chaque répétition, on commence par
allouer au hasard les traitements des grandes parcelles, puis ceux des petites parcelles formées à
l’intérieur de chaque grande parcelle.

Ceci sera illustré par une expérience à deux facteurs comprenant quatre niveaux d’azote (traitements
des grandes parcelles) et trois clones d’eucalyptus (traitement des petites parcelles), avec trois
répétitions. Ici, les doses d’engrais ont été choisies pour les grandes parcelles, principalement en
fonction de leur facilité d’application et de contrôle de l’effet de lessivage et pour détecter la
présence d’une interaction entre les engrais et les clones. Dans notre description des étapes de la
randomisation et de la définition d’un dispositif en parcelles divisées, a est le nombre de traitements
des grandes parcelles, b est le nombre de traitements des petites parcelles et r est le nombre de
répétitions.

*Etape 1. Diviser la surface expérimentale en r = 3 blocs, dont chacun sera divisé en a = 4 grandes
parcelles, comme dans la Figure 4.9.

- 110 -
Plan et analyse d’expériences

*Etape 2. Suivant la procédure de randomisation d’un PEBAC avec a = 4 traitements et r = 3


répétitions allouer au hasard les 4 traitements à l’azote aux 4 grandes parcelles se trouvant à
l’intérieur des 3 blocs. Le résultat se présentera comme dans la Figure 4.10.

*Etape 3. Diviser chacune des ra = 12 grandes parcelles en b = 3 petites parcelles et en suivant la


procédure de randomisation d’un PEBAC pour b = 3 traitements et ra = 12 répétitions,
allouer au hasard les 3 clones aux 3 petites parcelles se trouvant dans chacune des 12
grandes parcelles. Le résultat se présentera comme dans la Figure 4.11.

Figure 4.9. Division de la surface expérimentale en trois blocs (répétitions) composés de


quatre grandes parcelles, comme première étape de la définition d’une expérience en
parcelles divisées comportant trois répétitions et quatre traitements par grande parcelle.
Grandes parcelles Grandes parcelles Grandes parcelles
1 2 3 4 1 2 3 4 1 2 3 4

Répétition I Répétition II Répétition III

Figure 4.10. Allocation aléatoire de quatre niveaux d’azote (n0, n1, n2 et n3) aux quatre
grandes parcelles, dans chacune des trois répétitions de la Figure 4.9.

n3 n1 n0 n2 n1 n0 n3 n2 n0 n1 n2 n3

Répétition I Répétition II Répétition III

Figure 4.11. Représentation type d’une expérience en parcelles divisées avec trois clones
d’eucalyptus (v1, v2 et v3) (traitements des petites parcelles) et quatre niveaux d’azote (n0, n1, n2
et n3) (traitements des grandes parcelles, dans trois répétitions).
n3 n1 n0 n2 n1 n0 n5 n2 n0 n1 n2 n3
v2 v1 v1 v2 v1 v3 v3 v1 v4 v3 v3 v1
v1 v3 v2 v3 v3 v1 v2 v2 v2 v4 v2 v3
v3 v2 v3 v1 v2 v2 v1 v3 v1 v1 v4 v2
Répétition I Répétition II Répétition III

Le schéma d’un champ, dans une expérience en parcelles divisées (comme celle de la Figure 4.11) a
quelques caractéristiques importantes: i) La taille de la grande parcelle est b fois plus grande que
celle de la petite parcelle. Dans notre exemple, avec 3 variétés (b = 3) la grande parcelle est 3 fois
plus grande que la petite ; ii) Chaque traitement de grande parcelle est testé r fois, alors que chaque
traitement de petite parcelle est testé ar fois. Ainsi, les traitements des petites parcelles sont toujours
testés un plus grand nombre de fois que ceux des grandes parcelles, ce qui explique leur plus grande
précision. Dans notre exemple, chacun des 4 niveaux d’azote est testé trois fois, mais chacun des 3
clones est testé douze fois.

- 111 -
Plan et analyse d’expériences

4.6.2. Analyse de variance

L’analyse de variance d’une expérience en parcelles divisées se fait en deux temps: l’analyse des
grandes parcelles, et l’analyse des petites parcelles. Les calculs sont présentés à l’aide des
données issues d’une expérience à deux facteurs sur les eucalyptus, comportant deux traitements
sylvicoles (taille de la fosse) et 4 traitements d’engrais. Les données sur la hauteur des plants un an
après la plantation sont reportées dans le Tableau 4.25.

Tableau 4.25. Données sur la hauteur (en cm) de plants d’ Eucalyptus tereticornis
dérivées d’une expérience en parcelles divisées, menée en champ.
Hauteur (en cm)
Engrais Répétition I Répétition II Répétition III

Taille de la fosse (30 cm x 30 cm x 30 cm) - p0

f0 25.38 61.35 37.00


f1 46.56 66.73 28.00
f2 66.22 35.70 35.70
f3 30.68 58.96 21.58

Taille de la fosse (40 cm x 40 cm x 40 cm) - p1

f0 19.26 55.80 57.60


f1 19.96 33.96 31.70
f2 22.22 58.40 51.98
f3 16.82 45.60 26.55

Notons A le facteur des grandes parcelles (taille de la fosse) et B, le facteur des petites parcelles
(traitements d’engrais). Effectuer comme suit l’analyse de variance:

*Etape 1. Dresser une table préliminaire de l’analyse de variance d’un plan en parcelles divisées.

- 112 -
Plan et analyse d’expériences

Tableau 4.26. Représentation schématique de l’analyse de variance d’un plan en parcelles divisées.

Source de Degré de Somme des Carré moyen


liberté
variation (df) carrés  SS  F calculé
 MS = 
(SS)  df 
Répétition r-1 SSR MSR MSR MSEa
A a-1 SSA MSA MSR MSEa
Erreur (a) (r - 1)(a - 1) SSEa MSEa
B b-1 SSB MSB MSR MSEb
AB (a - 1)(b - 1) SSAB MSAB MSR MSEb
Erreur (b) a(r - 1)(b - 1) SSEb MSEb
Total rab - 1 SSTO

*Etape 2. Faire les deux tableaux des totaux suivants:

i) Tableau des totaux à deux entrées : répétition x facteur A, avec les totaux des répétitions,
les totaux du facteur A et le total général: Dans notre exemple, le tableau des totaux
((RA)ki) répétitions x taille de la fosse, avec les totaux de la répétition (Rk), les totaux de la
taille de la fosse (Ai) et le total général (G) calculés est présenté au Tableau 4.27.

Tableau 4.27. Tableau des totaux des hauteurs répétition x taille de la fosse, calculés à partir des
données du Tableau 4.25

Taille de la fosse Rép. I Rép. II Rép. III (Ai)


p0 168.84 222.74 122.28 513.86
p1 78.26 193.76 167.83 439.85
Total rép. (Rk) 247.10 416.50 290.10
Total général 953.70
(G)

ii) Le tableau des totaux à double entrée facteur A x facteur B : Dans notre exemple, le
tableau des totaux (AB) taille de la fosse x traitement d’engrais, avec le calcul des totaux
des traitements d’engrais (Bj) est présenté au Tableau 4.28.

- 113 -
Plan et analyse d’expériences

Tableau 4.28. Tableau des totaux des hauteurs taille de la fosse x traitement d’engrais, calculés à
partir des données du Tableau 4.25

Traitement d’engrais
Taille de la fosse f0 f1 f2 f3
p0 123.73 141.29 137.62 111.22
p1 132.66 85.62 132.60 88.97
Total (Bj) 256.39 226.91 270.22 200.19

*Etape 3. Calculer comme suit le facteur de correction et les sommes des carrés, pour l’analyse des
grandes parcelles. Notons yijk la réponse observée sur la i-ème grande parcelle, la j-ème
petite parcelle, dans la k-ème répétition.
G2
C.F.= (4.37)
rab
( 953.70) 2
= = 37897.92
( 3) ( 2)( 4)

a b r
SSTO = ∑ ∑ ∑ yijk2 − C.F.
i =1 j =1 k =1
(4.38)
= [(25.38)2 + (46.56)2 + … + (26.55)2] - 37897.92
= 6133.10

r
∑ Rk2
k =1
SSR = − C. F. (4.39)
ab
(247.10) 2 + (416.50) 2 + (290.10) 2
= − 37897.92
( 2)( 4 )
= 1938.51

a
∑ Ai2
i =1
SSA = − C.F. (4.40)
rb
( 513.86) 2 + ( 439.85) 2
= − 37897.92
( 3)( 4)
= 228.25

- 114 -
Plan et analyse d’expériences

∑ ∑ (( RA) )
r a
2
ki
k = i =1
SSEa = − C. F − SSR − SSA (4.41)
b
( 168.84) 2 + . . . + ( 167.83) 2
= − 40064.68
( 4)
= 1161.70

*Etape 4. Calculer comme suit les sommes des carrés pour l’analyse des petites parcelles:
b
∑ B 2j
j =1
SSB = − C.F. (4.42)
ra
( 256.39) 2 + . . . + ( 200.19) 2
= − 37897.92
( 3)( 2)
= 488.03

∑ ∑ ( ( AB) )
a b
2
ij
i =1 j =1
SSAB = − C.F.− SSB − SSA (4.43)
r
( 123.73) 2 +...+( 88.97) 2
= - 37897.92 - 488.03 - 1161.70
3
= 388.31

SSEb = SSTO - SSR - SSA - SSB - SSAB-SSEa (4.44)


= 6133.10 - 1938.51 - 228.25 - 488.03 - 388.31
= 3090.00

*Etape 5. Pour chaque source de variation, calculer le carré moyen en divisant SS par le degré de
liberté df qui lui est associé. La valeur de F de chaque effet à tester se calcule en divisant
chaque carré moyen par le terme d’erreur correspondant (voir Tableau 4.26).

*Etape 6. Entrer dans le tableau d’analyse de variance toutes les valeurs obtenues de l’étape 3 à
l’étape 5, comme indiqué dans le tableau 4.29; puis comparer chacune des valeurs calculées
de F avec les valeurs tabulaires de F correspondantes, et indiquer si la différence est
significative ou non, à l’aide de l’astérisque ou du signe approprié. Pour chaque effet dont la
valeur calculée de F n’est pas inférieure à 1, chercher dans l’Annexe 3 la valeur tabulaire de
F, avec f 1 = df du MS du numérateur et f 2 = df du MS du dénominateur, au seuil de
signification déterminé au préalable. Par exemple, la valeur tabulaire de F pour tester l’effet
AB est de 3.49 au seuil de signification de 5%, pour 3 et 12 degrés de liberté.

- 115 -
Plan et analyse d’expériences

Tableau 4.29. Analyse de variance des données du Tableau 4.20 issues d’une expérience en
parcelles divisées

Source de Degré de Somme Carré F F tabulaire


liberté des
variation carrés moyen calculé 5%
Répétition 2 1938.51 969.26
A 1 228.25 228.25 0.3930ns 4.75
Erreur (a) 2 1161.70 580.85
B 3 488.03 162.68 0.6318ns 3.49
AB 3 388.31 129.44 0.5027ns 3.49
Erreur (b) 12 3090.00 257.50
Total 23 37897.92
ns
Non significatif au seuil de 5%

*Etape 7. Calculer les deux coefficients de variation relatifs à l’analyse des grandes parcelles et à
l’analyse des petites parcelles.

Cov(β ii , β jj ) =
ˆ ˆ [
λ22 − λ 4 ]
[
2nλ 4 λ 4 ( k + 2) − kλ22 ] (4.45)

228.25
= x 100 = 60.95%
39.54

ŷ = βˆ 0 + ∑ βˆ ix i +∑ βˆ iix i +∑ βˆ ijx ix j
2
(4.46)
i i i <j

257.50
= x 100 = 40.58%
39.54

La valeur de cv (a) indique le degré de précision associé au facteur des grandes parcelles. La valeur
de cv(b) indique le degré de précision du facteur des petites parcelles et de son interaction avec le
facteur des grandes parcelles. En principe, la valeur de cv(b) est inférieure à celle de cv(a) car,
comme on l’a déjà indiqué, le facteur assigné aux grandes parcelles est généralement mesuré avec
moins de précision que celui assigné aux petites parcelles. Dans notre exemple, cv(b) est inférieur à
cv(a), mais les deux valeurs étaient suffisamment élevées pour masquer toute éventuelle différence
des traitements, ce qui rend non significatifs tous les effets des facteurs dans l’analyse de la variance.

4.6.3. Comparaison de traitements


Dans une expérience en parcelles divisées, quatre types de comparaisons appariées sont possibles.
Chacune doit avoir un ensemble de valeurs de la PPDS qui lui est propre. Ces comparaisons sont les
suivantes :
Type-(1). Comparaisons entre deux moyennes de traitement des grandes parcelles, calculées sur
tous les traitements des petites parcelles.

- 116 -
Plan et analyse d’expériences

Type-(2). Comparaison entre deux moyennes de traitement des petites parcelles, calculées sur tous
les traitements des grandes parcelles.
Type-(3). Comparaison entre deux moyennes de traitement de petites parcelles, par rapport au
même traitement des grandes parcelles.
Type-(4). Comparaison entre deux moyennes des traitements des grandes parcelles, au niveau de
traitements de petites parcelles similaires ou différents (ou moyennes de deux combinaisons de
traitements quelconques)

Tableau 4.30 Erreur type de la différence moyenne pour chacun des 4 types de comparaisons de
paires

Type de comparaison de paire sd

Type-(1) : Entre deux moyennes de grandes parcelles (moyennes 2Ea


calculées sur tous les traitements des petites parcelles) rb
Type-(2) : Entre deux moyennes de petites parcelles (moyennes 2Eb
calculées sur tous les traitements des grandes ra
parcelles)
Type-(3) : Entre deux moyennes de petites parcelles, au niveau 2 Eb
du même traitement de grande parcelle r
Type-(4) : Entre deux moyennes de grande parcelle à des niveaux
de traitements de petites parcelles égaux ou différents
[
2 ( b − 1) Eb + Ea ]
rb

Note : Ea = MSEa, Eb = MSEb, r = nombre de répétitions, a = nombre de traitements de grande


parcelle, et b = nombre de traitements de petites parcelles.

Lorsque le calcul de sd fait intervenir plus d’un terme d’erreur, comme c’est le cas dans les
comparaisons de Type-(4), les valeurs tabulaires de t, tirées de l’Annexe 2 ne peuvent pas être
utilisées telles quelles et il faut calculer des valeurs tabulaires pondérées de t. Dans ce cas ces valeurs
sont données par la formule:
(b - 1) Eb tb + E a ta
Valeur tabulaire pondérée de t = (4.47)
(b - 1) Eb + E a
où t a est la valeur de t pour le df de l’erreur (a) et t b est la valeur de t pour le df de l’erreur (b).
A titre d’exemple, prenons l’expérience factorielle 2 x 4 dont les données sont reportées dans le
Tableau 4.25. Bien que l’analyse de variance (Tableau 4.29) montre que les trois effets (c’est-à-dire
les deux effets principaux et l’effet d’interaction) ne sont pas significatifs, imaginons pour illustrer
notre exemple, qu’il existe une interaction significative entre la taille de la fosse et l’engrais. En
d’autres termes, on suppose que l’effet de l’engrais varie avec la taille de la fosse. En pareil cas, la
comparaison entre les moyennes des niveaux “ taille de la fosse ”, calculées par rapport à tous les
niveaux d’engrais, ou entre les moyennes des niveaux d’engrais, calculées par rapport à tous les
niveaux “ taille de la fosse ”, ne serait pas valide. Les comparaisons les plus appropriées seront celles
entre les moyennes des engrais, pour des fosses de même taille, ou entre les moyennes des tailles des
fosses, pour un même dosage d’engrais. Ainsi, les étapes de calcul de la PPDS, permettant la

- 117 -
Plan et analyse d’expériences

comparaison de deux moyennes afférentes aux petites parcelles, pour un même traitement de grande
parcelle, sont les suivantes :

*Etape 1. Calculer l’erreur type de la différence entre moyennes, à l’aide de la formule applicable à
la comparaison de Type-(3) du Tableau 4.30.
2 Eb
sd =
r
2( 257.5)
= = 3.27
3
( )( )
*Etape 2. Grâce à la formule LSDα = t v ; α sd , calculer la valeur de la PPDS (ou LSD) au seuil
de signification de 5%, avec la valeur tabulaire de t correspondant à 12 degrés de liberté de
l’erreur (b)
LSD. 05 = ( 2.18)( 3.27) = 7.129

*Etape 3. Dresser le tableau à double entrée (taille de la fosse x engrais) des moyennes des
différences de hauteur, comme indiqué dans le Tableau 4.31. Comparer les différences de
hauteur moyenne entre les niveaux d’engrais observées pour chaque taille de la fosse, avec la
valeur de la PPDS (ou LSD) calculée à l’Etape 2, et identifiez le cas échéant les différences
significatives.

Tableau 4.31. Différence entre la hauteur moyenne des plants d’eucalyptus, à quatre niveaux
d’engrais pour une fosse ayant une taille de 30 cm x 30cm x 30 cm, sur la base des données du
Tableau 4.25.

Différence de hauteur moyenne (en cm), à p0


f0 f1 f2 f3
f0 0.00 -5.86 -4.63 4.17
f1 0.00 1.23 10.03
f2 0.00 8.80
f3 0.00
Différence de hauteur moyenne (en cm), à p1
f0 f1 f2 f3
f0 0.00 15.68 0.02 14.56
f1 0.00 -15.66 -1.12
f2 0.00 14.54
f3 0.00

- 118 -
Plan et analyse d’expériences

4.7. Plan en treillis

En théorie, les plans en blocs complets, comme les PEBAC, sont applicables à toutes les
expériences quel que soit le nombre de traitements, toutefois, plus ils sont nombreux, moins ils sont
efficaces car les blocs perdent leur homogénéité en raison de leur grande taille. Il existe un autre type
de plans pour les expériences à un seul facteur comprenant un grand nombre de traitements. Ce sont
les plans en blocs incomplets, dans lesquels, comme leur nom l’indique, chaque bloc ne contient pas
tous les traitements, de sorte que les blocs peuvent être maintenus à une taille raisonnable, même si le
nombre de traitements est élevé. Comme les blocs sont incomplets, la comparaison des traitements
apparaissant ensemble dans un bloc est plus précise que celle des autres traitements. Cet
inconvénient peut être contourné, sachant que dans le plan d’ensemble, chaque paire de traitement
apparaît un nombre égal de fois dans un même bloc. On dit de ces plans qu’ils sont “ équilibrés ”, ou
“ compensés ”. Etant donné qu’il faut un grand nombre de répétitions pour arriver à un équilibre
complet, on peut opter pour un plan partiellement équilibré (ou partiellement compensé), dans lequel
sont admis des degrés de précision variables selon les groupes de traitements qui sont comparés.
Dans la catégorie des plans en blocs incomplets, on utilise souvent pour les expériences forestières
des plans en treillis, dans lesquels le nombre de traitements est un carré parfait et les blocs peuvent
être groupés en ensembles complets de répétitions. Les paragraphes qui suivent seront spécialement
consacrés à l’étude spécifique des plans en treillis simple.

4.7.1. Plan en treillis simple


Les plans en treillis simple sont aussi appelés treillis doubles ou treillis carrés. Comme le nombre des
traitements doit être un carré parfait, ces plans peuvent être construits pour 9, 16, 25, 36, 49, 64,
81, 121,…. traitements. Ils nécessitent deux répétitions et ne sont que partiellement équilibrés étant
donné que les traitements sont répartis en deux groupes, et que la comparaison des traitements est
plus ou moins précise suivant le groupe. Nous allons illustrer par un exemple la construction et la
représentation schématique du plan, pour 25 traitements.

*Etape 1. Assigner au hasard un nombre de 1 à 25 à chaque traitement. Cette opération est


nécessaire pour éviter tout type de variation d’origine inconnue affectant les effets des
traitements.

*Etape 2. Disposer les nombres attribués aux traitements, de 1 à 25, de façon à former un carré,
comme dans la Figure 4.12.

Figure 4.12. Disposition initiale des traitements dans un plan en treillis simple
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25

- 119 -
Plan et analyse d’expériences

*Etape 3. Regrouper les traitements par ligne. On obtient les groupes (1, 2, 3, 4, 5), (6, 7, 8, 9,
10), (11, 12, 13, 14, 15), (16, 17, 18, 19, 20) et (21, 22, 23, 24, 25). A présent, chaque
bloc constitue un groupe de traitements assigné à un bloc et les cinq blocs ainsi formés
constituent une répétition complète. Cette méthode de groupement par lignes est
généralement connue sous le nom de groupement-X ou groupement -A.

*Etape 4. Grouper les traitements par colonne. Les groupes ainsi formés sont (1, 6, 11, 16, 21),
(2, 7, 12, 17, 22), (3, 8, 13, 18, 23), (4, 9, 14, 19, 24) et (5, 10, 15, 20, 25). A présent
chaque bloc constituera un groupe de traitements assigné à un bloc et les cinq blocs forment
une répétition complète. Cette méthode de groupement par colonnes est généralement
connue sous le nom de groupement-Y ou groupement-B.

Les deux groupements-X et Y garantissent que deux traitements qui sont apparus ensemble une fois
dans un même bloc ne s’y retrouveront plus simultanément. Avant la procédure de randomisation, les
deux ensembles de groupements qui viennent d’être décrits se présentent, comme dans Figure 4.13.

Figure 4.13. Deux répétitions d’un plan en treillis simple, avant la


randomisation
Répétition I (groupement-X)
Bloc No. 1 1 2 3 4 5

Bloc No. 2 6 7 8 9 10

Bloc No. 3 11 12 13 14 15

Bloc No. 4 16 17 18 19 20

Bloc No. 5 21 22 23 24 25

Répétition II (groupement-Y)
Bloc No.6 1 6 11 16 21

Bloc No.7 2 7 12 17 22

Bloc No.8 3 8 13 18 23

Bloc No.9 4 9 14 19 24

Bloc No.10 5 10 15 20 25

- 120 -
Plan et analyse d’expériences

*Etape 5. Dans chaque répétition, les groupes de traitements sont répartis au hasard à l’intérieur des
différents blocs. On pratique une randomisation distincte pour chaque répétition. L’allocation
des traitements aux parcelles, à l’intérieur de chaque bloc, se fait aussi de manière aléatoire.
La randomisation est pratiquée séparément pour chaque groupe, de manière indépendante
pour chaque répétition. Enfin, lorsque l’on conçoit le dispositif des répétitions sur le terrain, il
faut aussi allouer au hasard dans le champ les positions des répétitions X et Y. Cette
procédure d’allocation des traitements et des répétitions garantit l’élimination de tous types
de variations systématiques inconnues affectant les effets des traitements. A l’issue de la
randomisation complète, le plan effectif pourrait se présenter comme indiqué dans la Figure
4.14.

Figure 4.14. Représentation d’un plan en treillis simple randomisé


Bloc No. 5 25 24 21 23 22

Bloc No. 4 20 19 18 17 16

Bloc No. 1 5 4 1 3 2

Bloc No. 3 13 14 15 12 11

Bloc No. 2 6 9 7 10 8

Bloc No. 6 16 6 1 21 11

Bloc No. 9 19 4 9 14 24

Bloc No. 7 7 2 17 22 12

Bloc No. 10 5 20 25 10 15

Bloc No. 8 23 3 8 18 13

Si, dans chaque répétition, les blocs sont contigus, on pourra, dans certaines conditions, analyser
toute l’expérience comme s’il s’agissait d’un PEBAC. On a déjà précisé qu’un plan en treillis simple
nécessitait au moins deux répétitions, l’une avec le groupement X, l’autre avec le groupement Y des
traitements. Si l’on juge préférable de faire plus de deux répétitions, on choisira un nombre pair, car
les deux groupes (X et Y) devront être répétés le même nombre de fois. L’allocation des traitements
se fait selon la procédure précédente.

- 121 -
Plan et analyse d’expériences

4.7.2. Analyse de variance pour un plan en treillis simple


Dans le cas d’un plan de base en treillis simple répété une seule fois, les étapes de l’analyse de la
variance sont décrites dans les passages qui suivent, avec les vérifications par le calcul, le cas
échéant. Le matériel utilisé pour notre démonstration est extrait d’une expérience réalisée à
Vallakkadavu, dans le Kerala (Inde), et portait sur 25 clones d’Eucalyptus grandis.

Le Tableau 4.32 montre la disposition effective du champ, avec les positions des blocs et l’allocation
des traitements à l’intérieur de chaque bloc, à l’issue de la procédure de randomisation. Le chiffre
inscrit dans le coin supérieur gauche de chaque case est le numéro d’identification du clone, alors
que le chiffre figurant dans le coin inférieur droit se réfère à la hauteur moyenne des arbres de la
parcelle, un an après la plantation. L’analyse de variance implique un ajustement des sommes des
carrés des traitements et des blocs, étant donné que les blocs sont incomplets. Cet ajustement ne
serait pas nécessaire pour des plans en blocs complets.

Tableau 4.32. Schéma d’un plan en treillis double 5 x 5 montrant la croissance en hauteur
(en cm) de clones d’Eucalyptus grandis.
Répétition - I
Bloc No. 5 25 24 21 23 22
96.40 107.90 119.30 134.30 129.20
Bloc No. 4 20 19 18 17 16
148.00 99.20 101.40 98.00 106.70
Bloc No. 1 5 4 1 3 2
158.00 122.50 136.70 123.60 113.50
Bloc No. 3 13 14 15 12 11
126.80 101.60 111.70 117.30 108.20
Bloc No. 2 6 9 7 10 8
126.80 127.00 119.10 90.90 130.40

Répétition - II
Bloc No. 6 16 6 1 21 11
169.60 157.90 124.10 134.50 112.10
Bloc No. 9 19 4 9 14 24
110.30 153.40 87.10 95.30 120.50
Bloc No. 7 7 2 17 22 12
125.60 151.10 115.90 168.40 93.30
Bloc No. 10 5 20 25 10 15

- 122 -
Plan et analyse d’expériences

126.00 106.80 137.60 132.90 117.30


Bloc No. 8 23 3 8 18 13
133.10 142.70 115.80 128.90 115.80
*Etape 1. Disposer de façon systématique les blocs dans chaque groupe (groupes X et Y) et les
traitements dans chaque bloc, conformément aux observations, comme dans le Tableau
4.33.

Tableau 4.33. Arrangement systématique des blocs et des traitements à l’intérieur des blocs
du Tableau 4.32.

Répétition - I (groupe X)
Bloc No. 1 1 2 3 4 5
136.70 113.50 123.60 122.50 158.00
Bloc No. 2 6 7 8 9 10
126.80 119.10 130.40 127.00 90.90
Bloc No. 3 11 12 13 14 15
108.20 117.30 126.80 101.60 111.70
Bloc No. 4 16 17 18 19 20
106.70 98.00 101.40 99.20 148.00
Bloc No. 5 21 22 23 24 25
119.30 129.20 134.30 107.90 96.40

Répétition - II (groupe Y)
Bloc No. 6 1 6 11 16 21
124.10 157.90 112.10 169.60 134.50
Bloc No. 7 2 7 12 17 22
151.10 125.60 93.30 115.90 168.40
Bloc No. 8 3 8 13 18 23
142.70 115.80 115.80 128.90 133.10
Bloc No. 9 4 9 14 19 24
153.40 87.10 95.30 110.30 120.50
Bloc No. 10 5 10 15 20 25
126.00 132.90 117.30 106.80 137.60

*Etape 2. Dresser le tableau des totaux des traitements en additionnant les rendements de chaque
clone, obtenus dans les deux répétitions (voir Tableau 4.34). Ces totaux ne sont ajustés à
aucun effet de bloc.

- 123 -
Plan et analyse d’expériences

Tableau 4.34. Totaux des traitements (clone)


1 2 3 4 5
260.80 264.60 266.30 275.90 284.00
6 7 8 9 10
284.70 244.70 246.20 214.10 223.80
11 12 13 14 15
220.30 210.60 242.60 196.90 229.00
16 17 18 19 20
276.30 213.90 230.30 209.50 254.80
21 22 23 24 25
253.80 297.60 267.40 228.40 234.00

*Etape 3. Calculer les totaux de tous les blocs B1, B2, …, B10 en sommant les observations
apparaissant dans chaque bloc. Par exemple, le total B1 du premier bloc est donné par
B1 = 136.70+113.50+123.60+122.50+158.00 = 654.30

Calculer le total de chaque répétition en sommant les totaux des blocs dans chaque répétition. Pour
la répétition I,
R1 = B1 + B2 + B3+ B4+ B5 (4.48)
= 654.30 + 594.20 + 565.60 + 553.30 + 587.10
= 2954.50

Calculer le total général G = R1 + R2 (4.49)


= 2954.50 + 3176.00
= 6130.50

*Etape 4. Dresser un schéma préliminaire de la table d’analyse de la variance du treillis simple.

- 124 -
Plan et analyse d’expériences

Tableau 4.35. Représentation schématique de la table d’analyse de la variance d’un treillis simple
Source de Degrés de Somme Carré moyen Rapport F
variation liberté des carrés  SS  calculé
 MS = 
(df) (SS)  df 
Répétition r-1 SSR MSR MSR
MSE
Traitement k2 - 1 SST MST MST (unadj.)
(non aj.) (non aj.) (non aj.) MSE

Blocs au sein r(k-1) SSB MSB MSB (adj.)


d’une répétition (adj.) (adj.) MSE
(aj.)
Erreur intra-bloc (k-1)(rk-k- SSE MSE
1)
Total rk 2 - 1 SSTO

*Etape 5. Trouver la somme totale des carrés, la somme des carrés des répétitions et celles des
traitements non ajustés. A cette fin, calculer d’abord le facteur de correction (C.F.).
G2
C. F. = (4.50)
n
où n = rk 2
r = Nombre de répétitions
k 2 = Nombre de traitements
k = Nombre de parcelles dans un bloc

( 6130.50) 2
C. F. = = 751660.61
2 × 25

Pour la somme totale des carrés, trouver la somme des carrés de toutes les observations de
l’expérience et soustraire le facteur de correction.
SSTO = ∑ y 2 − C. F. (4.51)
2 2 2
= { (136.70) + (113.50) +……..+ (137.60) } - C. F.
= 770626.43 - 751660.61 = 18965.83

Calculer la somme des carrés des répétitions


R2 + R2
SSR = 1 2 2 - C. F . (4.52)
k
( 2 954.50 ) 2 + ( 3176.00) 2
= − 751660.61
25
= 752641.85 - 751660.61 = 981.245

- 125 -
Plan et analyse d’expériences

Calculer la somme des carrés des traitements non ajustés


t
Ti 2
SST (non aj.) = ∑ − C. F. (4.53)
i =1 r
( 260.80) 2 + (264.60) 2 +....+ (234.00) 2
= - 751660.61
2
= 760747.90 - 751660.61 = 9087.29

*Etape 6. Calculer pour chaque bloc, dans la répétition 1 (groupe X), un total ajusté Cb en
soustrayant chaque total de bloc de la répétition 1 du total de la colonne correspondante de
la répétition II (groupe Y), qui contient le même ensemble de variétés (voir Tableau 4.36).
De la même manière, calculer pour chaque bloc de la répétition II, un total ajusté en
soustrayant chaque total de bloc de la répétition II du total de la colonne correspondante de
la répétition I (groupe X), contenant le même ensemble de variétés (voir Tableau 4.37).
Faire le total des valeurs Cb pour chaque répétition et vérifier si leur somme est nulle.

Total des valeurs Cb pour la Répétition I = U1 = 221.50


Total des valeurs Cb pour la Répétition II = U2 = -221.50

Cette vérification garantit l’exactitude arithmétique des calculs des étapes précédentes.

Tableau 4.36. Calcul des valeurs de Cb pour les blocs de la Répétition I


Bloc Total de la Total du bloc de Valeur de Cb
colonne de la la Répétition I
Répétition II
1 697.30 654.30 43.00 (C 1)
2 619.30 594.20 25.10 (C 2)
3 533.80 565.60 -31.80 (C 3)
4 631.50 553.30 78.20 (C 4)
5 694.10 587.10 107.00 (C 5)
Total 3176.00 2954.50 221.50 ( RC1 )

Tableau 4.37. Calcul des valeurs de Cb pour les blocs de la Répétition II


Bloc Total de la Total du bloc de Valeur de Cb
colonne de la la Répétition II
Répétition I
6 597.70 698.20 -100.50 (C6)
7 577.10 654.30 -77.20 (C7)
8 616.50 636.30 -19.80 (C8)
9 558.20 566.60 -8.40 (C9)
10 605.00 620.60 -15.60 (C10)
Total 2954.50 3176.00 -221.50 ( RC2 )

- 126 -
Plan et analyse d’expériences

La somme des carrés des blocs ajustés est donnée par la relation:
10 2
∑ Cb2 ∑ RCj2
b= 1 j =1
SSB (aj.) = − (4.54)
kr ( r − 1) k r ( r − 1)
2

où r = Nombre de répétitions,
k = Nombre de traitements par bloc.

. )2 +.......+( − 15.60) 2
( −4300 . ) 2 + (−22150
2
( 22150 . )

(52 )( 2)(1)
SSB (aj.) =
( 2 )( 5)(1)
= 3782.05 - 1962.49 = 1819.56

Pour finir, la somme des carrés des erreurs s’obtient par soustraction
SSE = SSTO - SSR - SST (non-aj.) - SSB (aj.) (4.55)
= 18965.83 - 981.24 - 9087.29 - 1819.56
= 7077.73
Remarquons que la somme des carrés due à l’erreur (SSE) calculée ici représente la part de la
variation (de la variable de réponse) entre les parcelles à l’intérieur de chaque bloc qui est causée
par des facteurs externes non contrôlés. Elle est donc généralement appelée variance (ou erreur)
intrabloc, alors que la somme des carrés des blocs ajustés est la variance interbloc (ou entre blocs).

*Etape 7. Après avoir obtenu les différentes sommes des carrés, insérer tous les résultats dans la
table d’analyse de la variance (Tableau 4.38). Les carrés moyens s’obtiennent, comme
d’habitude, en divisant les sommes des carrés par les degrés de liberté.

Tableau 4.38. Table d’analyse de variance d’un treillis simple, à l’aide des données du Tableau 4.32.
Source de variation Degrés de Somme des Carré moyen Rapport F
liberté carrés  SS  calculé
 MS = 
(df) (SS)  df 
Répétition 1 981.24 981.24 2.218
Traitement (non aj.) 24 9087.29 378.64 0.856
Blocs à l’intérieur 8 1819.56 227.44 0.514
d’une répétition (aj.)
Erreur intrabloc 16 7077.73 442.36
Total 49 18965.83

Le carré moyen des traitements figurant dans la table d’analyse de variance (Tableau 4.38) n’est pas
ajusté aux effets de bloc. Or, on a déjà signalé que les moyennes des traitements ne sont pas
exemptes de ces effets. Il s’ensuit que le test F fourni par l’analyse de la variance n’est pas valide
pour détecter les différences de traitements. Avant d’appliquer le test F, il faut donc ajuster les
moyennes des traitements compte tenu des effets de bloc et calculer la somme ajustée des carrés des
traitements. Pour ce faire, on suit la procédure décrite dans l’étape 9. Cette procédure peut être

- 127 -
Plan et analyse d’expériences

adoptée si les circonstances l’exigent, mais elle impose des calculs supplémentaires qui, sauf
indication contraire, peuvent être évités. Par exemple, dans un essai en champ comprenant un grand
nombre de traitements, on peut en général s’attendre à trouver une différence significative entre les
moyennes des traitements. A partir des résultats du Tableau 4.38, on peut effectuer l’analyse
préliminaire applicable à un PEBAC, test moins sensible aux différences des traitements.

*Etape 8. Analyse préliminaire d’un PEBAC: Pour obtenir la somme des carrés des erreurs, on
commence par additionner l’erreur interbloc et l’erreur intrabloc, puis on complète comme
suit la table de l’analyse de variance :
Erreur totale= Erreur Interbloc + Erreur Intrabloc (4.56)
= 1819.56 + 7077.73
= 8897.29

Tableau 4.39. Table d’analyse de variance pour une analyse préliminaire d’un PEBAC.
Source de Degrés de Somme des Carré moyen F
variation liberté carrés  SS  calculé
 MS = 
(df) (SS)  df 
Répétition 1 981.24 981.24
Traitement 24 9087.29 378.64 1.02
Erreur totale 24 8897.29 370.72
Total 49 18965.83

La valeur observée de F (1.02) obtenue en divisant le carré moyen des traitements par le carré
moyen de l’erreur totale, est inférieure à la valeur tabulaire de F (1,98) au seuil de signification de
5% pour (24, 24) degrés de liberté. On en déduit qu’il n’y a pas de différence significative entre les
traitements, au seuil de 5%. L’analyse PEBAC préliminaire ayant donnè une valeur non-significative
de F, on doit effectuer un test F plus approprié, en ajustant les sommes des carrés des traitements
aux effets de bloc, car cette procédure ne peut qu’augmenter la sensibilité du test. Pour effectuer cet
ajustement de la somme des carrés des traitements en vue d’obtenir un test F plus approprié pour
détecter les différences de traitements, on suivra la procédure de l’étape 9.

*Etape 9. Calculer les sommes des carrés des traitements ajustées aux effets de bloc: obtenir
d’abord la somme des carrés des blocs non ajustés à l’intérieur des répétitions. Les sommes
B1, B2, …, B10 des blocs ayant déjà été calculées à l’étape 3, les calculs restants sont
facilités:
SS de bloc non ajusté pour la répétition I = SSB1(non aj.)
B 2 + B22 + . . .+ B52 R12
= 1 − 2 (4.57)
k k
(654.30) 2 + . . .+( 587.10) 2 ( 2954.50) 2
= −
5 25
= 1219.75

- 128 -
Plan et analyse d’expériences

SS de bloc non ajusté pour la répétition II = SSB2 (non aj.)


B62 + B72 + . . .+ B10
2
R22
= − 2 (4.58)
k k
(698.20) + . . .+( 620.60) 2 ( 3176.00) 2
2
= −
5 25
= 1850.83

Pour finir, calculer la somme totale des carrés des blocs non ajustés SSB (non aj.)
SSB (non aj.) = SSB1(non aj.) + SSB2 (non aj.) (4.59)
= 1219.75 + 1850.83 = 3070.58

Calculer la quantité de correction Q suivante, à retrancher de la somme des carrés des traitements
non ajustés:
 r  
Q = k ( r − 1) µ   ( SSB (unadj.) − SSB (adj.))  (4.60)
  ( r − 1)(1 + kµ )  
Eb − E e
où µ = (4.61)
k ( r − 1 ) Eb
où Eb = Carré moyen interbloc ajusté
Ee = Carré moyen intrabloc

227.44 − 442.36
Dans notre exemple, µ =
5( 2 − 1) 227.44
= - 0.189

 2  
Q = (5)( 2 − 1)( −0.189)   {( 3070.58) − (1819.56)} 
  ( 2 − 1)(1 + {5}{−0.189})  
= -42989.60

Pour finir, soustraire cette quantité Q de la somme des carrés des traitements non ajustée pour
obtenir leur somme des carrés ajustée.
SST (aj) = SST (non aj.) - Q (4.62)
= 9087.29 - (-42989.60) = 52076.89

Dresser la table d’analyse de variance suivante pour tester la signification des effets des traitements.

- 129 -
Plan et analyse d’expériences

Tableau 4.40. Table d’analyse de variance pour tester la signification des moyennes ajustées des
traitements.
Source de Degrés de Somme Carré moyen F F
variation liberté des  SS  calculé Tabulaire
 MS = 
(df) carrés  df 
(SS)
Traitement (aj.) 25 52076.89 2083.08 4.709 2.24
Erreur intrabloc 16 7077.73 442.358

Dans cet exemple, la valeur calculée de F s’avère significative au seuil de signification de 5%, ce qui
indique des différences significatives entre les traitements. La sensibilité du test F est plus grande
après l’élimination des effets de bloc. Bien qu’il n’en soit pas ainsi dans notre exemple, on part
généralement du principe que l’effet de bloc, estimé par la valeur Eb, est supérieur à l’erreur intrabloc
Ee.

Les moyennes des traitements doivent également être ajustées, car les moyennes des traitements
ordinaires ne sont pas des estimations sans biais de leurs valeurs réelles. Pour effectuer ces
ajustements en vue d’éliminer les effets de bloc, on procède comme suit:

*Etape 10. Calculer un terme de correction pour chaque bloc, en multipliant chaque valeur Cb par la
quantité µ ( -0.189), donnée par (4.61).

Pour la répétition I, ces valeurs sont:


µC1 = -8.13, µC2= -4.74, µC3 = 6.01, µC4 = -14.78, µC5 = -20.22

et pour la répétition II:


µC6 =18.99, µC7 = 14.59, µC8 = 3.74, µC9 =1.59, µC10 = 2.95

Insérer ces valeurs dans la dernière ligne et la dernière colonne du Tableau 4.34, d’après le modèle
du Tableau 4.41. Vérifier que la somme de toutes les valeurs µCb est nulle, si l’on excepte
l’arrondissement de l’erreur:
µC1 + µC2 + …+ µC10= -8.13+-4.74 +…+ 2.95= 0.00

Entrer les valeurs µCb de la répétition I dans l’avant- dernière colonne du Tableau 4.41 et les
valeurs de µCb de la répétition II, dans l’avant-dernière ligne de ce même tableau. En écrivant ainsi
les valeurs des corrections à apporter aux totaux non ajustés des traitements, on évitera de
nombreuses erreurs de calculs. Chaque total de traitement inscrit dans le Tableau 4.41 doit à présent
être ajusté pour tenir compte des effets des blocs, en apportant les corrections voulues aux blocs
dans lesquels apparaît le traitement considéré..

- 130 -
Plan et analyse d’expériences

Tableau 4. 41. Totaux des traitements et facteurs de correction.


1 2 3 4 5 µC1 =
260.80 264.60 266.30 275.90 284.00 -8.13
6 7 8 9 10 µC2=
284.70 244.70 246.20 214.10 223.80 -4.74
11 12 13 14 15 µC3 =
220.30 210.60 242.60 196.90 229.00 6.01
16 17 18 19 20 µC4=
276.30 213.90 230.30 209.50 254.80 -14.78
21 22 23 24 25 µC5 =
253.80 297.60 267.40 228.40 234.00 -20.22
µC6 =18.99 µC7 = 14.59 µC8 = 3.74 µC9 =1.59 µC10 = 2.95

Par exemple, le clone 1 apparaît dans le Bloc 1 de la Répétition 1 et dans le bloc 6 de la Répétition
2. Ajouter les valeurs de µC1 et µC6 au total du clone 1:

Total des traitements ajusté, pour le clone 1 = 260.80 -(-8.13) - 18.99 = 2.55

Etant donné que les corrections des blocs ont déjà été insérées dans le Tableau 4.41, les totaux
ajustés des traitements correspondent simplement aux valeurs respectives de µCb, dans la colonne et
la ligne où apparaît ce traitement. Pour finir, dresser un tableau faisant apparaître le total des
traitements ajusté aux effets de bloc. Les valeurs ajustées sont reportées dans le Tableau 4.42 ci-
dessous.

Tableau 4.42. Totaux ajustés des traitements


1 2 3 4 5
249.94 258.14 270.69 282.44 289.18
6 7 8 9 10
270.45 234.85 247.2 217.25 225.59
11 12 13 14 15
195.30 190.00 232.85 189.30 220.04
16 17 18 19 20
272.09 214.09 241.34 222.69 266.63
21 22 23 24 25
255.03 303.23 283.88 247.03 251.27

Déterminer les moyennes des traitements ajustées en divisant chaque valeur par 2 puisque chaque
total contient deux observations tirées de 2 répétitions (Tableau 4.43)

- 131 -
Plan et analyse d’expériences

Tableau 4.43. Moyennes ajustées des traitements


1 2 3 4 5
124.97 129.07 135.35 141.22 144.59
6 7 8 9 10
135.23 117.43 123.60 108.63 112.80
11 12 13 14 15
97.65 95.00 116.43 94.65 110.02
16 17 18 19 20
136.05 107.05 120.67 111.35 133.32
21 22 23 24 25
127.52 151.62 141.94 123.52 125.64

4.7.3. Comparaison de moyennes


On a déjà vu que, dans un treillis partiellement équilibré, les traitements qui apparaissent dans le
même bloc sont comparés avec plus de précision (c’est à dire avec une erreur-type moindre) que
ceux qui se trouvent dans des blocs différents.

L’erreur-type accompagnant la comparaison des moyennes de deux traitements quelconques


apparaissant ensemble dans le même bloc est donnée par la formule:

[1 + ( r − 1)µ]
2 Ee
SE( d )1 = (4.63)
r
Eb − E e
où µ =
k ( r − 1 ) Eb
Eb = Carré moyen interbloc
Ee = Carré moyen intrabloc
r = Nombre de répétitions

Dans notre exemple,


2 × 442.3579
SE ( d ) 1 =
2
[1 + (2 − 1)(-0.189)] = 18.9408

L’erreur type de la comparaison des moyennes des traitements apparaissant dans des blocs
différents est,

SE ( d )2 =
2 Ee
r
(1 + rµ) (4.64)

Dans notre exemple,


2 × 442.3579
SE ( d ) 2 =
2
[1 + 2 × (−0189
. ] = 16.5875

Ici, SE ( d ) 2 < SE ( d )1 . Ceci est uniquement lié aux données spécifiques de notre exemple, et ne
saurait être considéré comme le cas courant.

- 132 -
Plan et analyse d’expériences

En multipliant ces erreurs-type par la valeur tabulaire du test t, pour les degrés de liberté des erreurs
intrabloc au seuil de signification spécifié, on obtiendra la valeur de la PPDS à l’aide de laquelle on
pourra comparer les moyennes ajustées des traitements pour détecter des différences significatives.

4.8. Plans de surface de réponse

Dans les expériences dans lesquelles un ou plusieurs facteurs quantitatifs sont testés à plusieurs
niveaux, on a souvent intérêt à résumer les données en ajustant un modèle adéquat décrivant la
relation facteur-réponse. Ces facteurs quantitatifs peuvent être de divers ordres: engrais, irrigation,
densité de peuplement etc..., et la finalité de l’expérience peut être de déterminer l’influence des
niveaux de ces facteurs sur la réponse, γ. On peut représenter la réponse γ comme une fonction
appropriée des niveaux x 1u, x 2u,.. ., x ku des k facteurs et de β , l’ensemble des paramètres. Prenons
l’exemple d’un modèle classique:
γu = f (x 1u, x 2u, …, x ku ; β) + eu (4.65)
où u = 1, …, t représente les N observations et x iu le niveau du i-ème facteur (i = 1, 2, …, k)
dans la u-ème observation. Le résidu eu mesure l’erreur expérimentale dans la u-ème observation.
La fonction f est appelée surface de réponse. Lorsque l’on connaît f , on dispose d’une synthèse
complète des résultats de l’expérience, et il est plus facile de trouver la combinaison optimale des
dosages. On peut en outre estimer la réponse pour des valeurs de x iu qui ne sont pas testées dans le
cadre de l’expérience. Les dispositifs spécifiquement conçus pour ajuster la surface des réponses
sont appelés plans de surface de réponse. Les surfaces de réponse sont habituellement estimées par
des polynômes de degré approprié, le plus courant étant le polynôme de second degré. Nous
concentrerons donc notre attention sur les plans se prêtant à l’ajustement de ce type de polynôme.

4.8.1. Plan rotatif du second ordre


Soient k facteurs tels que le i-ème ait si niveaux. En tout, on aura six s2x…….x sk combinaisons de
traitements dont on tirera t combinaisons pour ajuster une fonction du second degré de la forme
k k k
yu = β0 + ∑ βi xiu + ∑ βii xiu 2 + ∑ βi j xiu x ju + eu (4.66)
i i i< j

où yu est la réponse obtenue à partir de la u-ème combinaisons de facteurs (u = 1, 2, …, t)


x iu est le niveau du i-ème facteur dans la u-ème observation
β 0 est une constante
β i est le i-ème coefficient de régression linéaire
β ii est le i-ème coefficient de régression quadratique
β ij est le (i,j)-ème coefficient d’interaction
eu est la composante de l’erreur aléatoire, de moyenne nulle et de variance constante, associée à
la u-ème observation.

Prenons par exemple le cas particulier d’un modèle (4.66) englobant seulement deux facteurs,
yu = β 0 + β1 x1u + β 2 x 2u + β 11 x 12u + β 22 x 22u + β 12 x1u x2 u + eu

Un plan de surface de réponse du second ordre permet un ajustement efficace de la relation facteur-
réponse, par un polynôme de second degré. Lorsque l’on choisit les points du plan, on impose
certaines contraintes aux niveaux des facteurs, de manière à simplifier l’estimation des paramètres et

- 133 -
Plan et analyse d’expériences

à conférer au plan obtenu et au modèle qui en découle les propriétés voulues, notamment le
caractère rotatif ou tournant. Dans les plans rotatifs, la variance de la réponse estimée à partir d’une
quelconque combinaison de traitements est une fonction de la somme des carrés des niveaux des
facteurs dans la combinaison de traitements considérée. En d’autres termes, un plan d’expérience est
dit rotatif (ou tournant) si la variance de la réponse estimée pour un ensemble donné de x valeurs
dépend uniquement de la distance du point défini par les x valeurs au centre du plan, et pas de la
direction. Les conditions suivantes doivent être vérifiées pour que les n points du plan constituent un
plan rotatif de second ordre (PRSO).
(i) ∑ xiu = ∑ xiu x ju = ∑ xiu x 2ju = ∑ xiu3 = 0 ,
u u u u

∑x iu x = ∑ xiu x x = ∑ xiu x ju xku =


3
ju
2
ju ku ∑x iu x ju xku xlu = 0 . (4.67)
u u u u

(ii) ∑ xiu2 = tλ2 (4.68)


u

(iii) ∑ xiu4 = 3tλ4 (4.69)


u

(iv) ∑ xiu2 x 2ju = tλ4 for i ≠ j or ∑ xiu4 = 3∑ xiu2 x 2ju for i ≠ j (4.70)
u u u

λ4 k
(v) 2 > (4.71)
λ2 ( k + 2 )

4.8.2. Construction d’un PRSO


Nous allons décrire dans cette section l’une des méthodes les plus couramment employées pour
construire un PRSO, qui débouche sur une classe de plans appelés plans composites centraux.
Supposons que l’on ait k facteurs. Un plan composite central est un plan factoriel 2k , ou un plan
factoriel fractionné, (accompagné de la notation usuelle ± 1) augmenté des 2k points axiaux, (± α, 0,
0,…, 0), (0, ± α, 0,…, 0), (0,0,± α, 0,…,0), …, (0,0,0,…,± α) et des nc points centraux
(0,0,…, 0). Dans le cas où l’on choisit un plan factoriel fractionné pour le premier ensemble de 2k
points, avec k > 4, il faut s’assurer que les contrastes déterminants n’impliquent pas d’interaction
avec moins de cinq facteurs. Un plan composite central pour k = 3 est représenté ci-après. Ce plan
est fait de 23 = 8 points factoriels, (2)(3) = 6 points axiaux et 1 point central, soit quinze points au
total.

- 134 -
Plan et analyse d’expériences

x1 x2 x3
-1 -1 -1
-1 -1 +1
-1 +1 -1
-1 +1 +1
+1 -1 -1
+1 -1 +1
+1 +1 -1
+1 +1 +1
+α 0 0
-α 0 0
0 +α 0
0 -α 0
0 0 +α
0 0 -α
0 0 0

Le caractère rotatif d’un plan composite central est déterminé par le choix de α. La valeur de α
dépend du nombre de points dans la portion factorielle du plan. En effet, α = (nf)1/4 donne un plan
composite central rotatif, où nf est le nombre de points utilisés dans la portion factorielle du plan.
Dans notre exemple, la portion factorielle contient nf = 23 = 8 points. Ainsi, on obtient un plan rotatif
si la valeur de α = (8)1/4 = 1.682. On trouvera des détails supplémentaires et des exemples de
PRSO dans Das et Giri (1979) et Montgomery (1991).

Les combinaisons de traitements établies par un PRSO peuvent être essayées avec un nombre
suffisant de répétitions, dans le cadre d’un plan d’expérience standard quelconque suivant la
procédure de randomisation normale. Un plan de surface de réponse est donc uniquement un moyen
particulier de sélectionner la combinaison de traitements dans une expérience factorielle, et non un
plan, servant à représenter schématiquement une expérience.

4.8.3. Ajustement d’une surface de réponse de second degré, à partir d’un PRSO
Nous allons maintenant décrire l’analyse des données provenant d’un PRSO établi dans le cadre
d’un plan entièrement randomisé. Supposons que, dans une expérience, le plan soit constitué de t
points distincts, le g-ème point étant répété ng fois. On note ygu la réponse obtenue dans la u-ème
répétition du g-ème point du plan et x igu le niveau du i-ème facteur dans la u-ème répétition du g-
ème point (i = 1,…, k ; g = 1,…, t ; u = 1,…ng). Soit n le nombre total d’observations et (p+1) le
nombre de paramètres dans le modèle du second ordre devant être ajusté.

Nous illustrerons l’analyse à l’aide de données provenant d’un essai de culture en pots. Pour
simplifier, nous avons apporté quelques modifications aux données et à la structure du plan, de sorte
que l’ensemble de données est dans une certaine mesure hypothétique. Cet exemple permet
cependant de bien comprendre la procédure. L’expérience englobait trois facteurs: la quantité
d’azote (N), de phosphore (P) et de potassium (K), respectivement appliqués sous forme d’urée, de
superphosphate et de chlorure de potassium. Les unités expérimentales étaient des pots contenant
chacun une plantule de roseau (Calamus hookerianus) de deux ans. Au cours de l’expérience, les
quantités de N, P et K allaient de 5 à 20 g par pot. La structure des traitements était conforme au

- 135 -
Plan et analyse d’expériences

plan central composite décrit dans la Section 4.8.1, le schéma proprement dit étant un PER avec
deux répétitions. Comme α=1.682 était le plus haut niveau codé dans le plan, les autres niveaux (ou
doses) s’obtiennent en prenant pour α la valeur de 20g. Les autres doses sont donc (-α) = 5g, (-1)
= 8.041g , (0) =12.5g, , (+1) =16.959g, (α) = 20g. Les données, obtenues au terme d’une
expérience de 2 ans, sur le poids séché à l’étuve d’une pousse, sont reportées dans le Tableau 4.44.

Tableau 4.44. Données sur le poids séché à l’étuve d’une pousse, au terme d’une
expérience de deux ans
N P K Poids d’une pousse
(x 1) (x 2) (x 3) (en g)
(y)
Arbre 1 Arbre 2
-1 -1 -1 8.60 7.50
-1 -1 1 9.00 8.00
-1 1 -1 9.20 8.10
-1 1 1 11.50 9.10
1 -1 -1 10.00 9.20
1 -1 1 11.20 10.20
1 1 -1 11.00 9.90
1 1 1 12.60 11.50
1.682 0 0 11.00 10.10
-1.682 0 0 8.00 6.80
0 1.682 0 11.20 10.10
0 -1.682 0 9.50 8.50
0 0 1.682 11.50 10.50
0 0 -1.682 10.00 8.80
0 0 0 11.00 10.00

L’analyse se déroule selon les étapes suivantes

*Etape 1. Calculer les valeurs de λ 2 et λ 4 à l’aide des Equations (4.68) et (4.69).


15 λ 2 = 13.65825
λ 2 = 0.9106

3t λ 4 = 24.00789
λ 4 = 0.5335

Conformément à la notation adoptée dans les équations (4.68) et (4.69), t est le nombre de points
distincts dans le plan.

*Etape 2. Dresser le schéma préliminaire de la table d’analyse de la variance

- 136 -
Plan et analyse d’expériences

Tableau 4.45. Représentation schématique de la table d’analyse de variance pour l’ajustement d’un
PRSO.
Source de Degré de liberté Somme Carré Rapport
variation des moyen F
carrés calculé
MSR
Régression p SSR MSR
MSE
t
Manque SSL MSL MSL
d’ajustement n - 1- ∑(n g − 1) -
MSE
g= 1

p
t
Erreur pure SSE MSE
∑(n
g =1
g − 1)

Total n-1 SSTO

*Etape 3. Calculer le facteur de correction (C.F.)


2
 t ng 
 ∑ ∑ ygu 
 g =1 u = 1 
C. F.= (4.72)
n
( 8.60 + 7.50+...+10.00) 2
=
30
= 2873.37

*Etape 4. Calculer la somme totale des carrés:


t ng

SSTO = ∑ ∑ ygu
2
− C. F . (4.73)
g = 1 u =1

(293.60) 2
= (8.60) + ( 7.50) +...+(10.00) −
2 2 2

30
= 55.43

*Etape 5. Calculer les estimations des coefficients de régression


t ng k t ng

λ 4 ( k + 2 )∑ ∑ y gu − λ 2 ∑ ∑ ∑ ygu xigu
2

g =1 u = 1 i =1 g = 1 u =1
β$ 0 =
[
n λ 4( k + 2 ) − kλ22 ] (4.74)

( 0.5335)(3 + 2)( 293.60) − 0.9106( 797.98)


=
[
30 0.5335( 3 + 2) − 3( 0.9106)
2
]
= 10.47

- 137 -
Plan et analyse d’expériences

t ng

∑∑ y x
gu igu
g =1 u = 1
βi = (4.75)
nλ 2
25.20
β1 =
( 30)( 0.9106)
= 0.92

14.75
β2 =
(30)( 0.9106)
= 0.54

14.98
β3 =
( 30)( 0.9106)
= 0.55

 ng ng

[ ]∑ ∑ ∑ y x − 2 λ λ ∑ ∑ y
k t t
 t ng λ22 − λ 4 2
gu igu 2 4 gu

 
∑ ∑ y x2 +
1
β$ ii =
i =1 g =1 u =1 g =1 u =1

[λ ( k + 2 ) − kλ ]
(4.76)
2nλ 4  g=1 u=1 gu igu 2 
 4 2

 

β$ 11 =
1 
 258.17 +
[(0.9106) 2 − 0.5335](797.98) − (2 )(0.9106)(0.5335)(293.60) 

( 2)( 30)(0.5335)  [ (0.5335)(3 + 2) − (3)(0.9106) 2 ] 
= - 0.50

β$ 22 =
1 
 267.78 +
[(0.9106) 2 − 0.5335](797.98) − (2)(0.9106)(0.5335)(293.60) 

( 2)( 30)( 0.5335)  [ (0.5335)(3 + 2 ) − (3)(0.9106)2 ] 
= - 0.20

β$ 33 =
1 
 272.03 +
[ ( 0.9106) 2 − 0.5335]( 797.98) − (2 )( 0.9106)( 0.5335)(293.60) 

( 2)(30)(0.5335)  [ (0.5335)(3 + 2 ) − (3)(0.9106) 2 ] 
= - 0.06

t ng

∑∑ y gu xigu x jgu
g =1 u =1
β$ ij = (4.77)
nλ 4
( −0.40)
β$ 12 =
( 30)( 0.5335)
= - 0.02

(1..20)
β$ 13 =
( 30)(0.5335)
= 0.07

- 138 -
Plan et analyse d’expériences

( 3.40)
β$ 23 =
( 30)( 0.5335)
= 0.21

*Etape 6. Calculer la somme des carrés de la régression (SSR)

SSR = β$ 0 ∑ ∑ ygu + ∑ β$ i ∑ y gu xigu + ∑ β$ ii ∑ ygu xigu 2 + ∑ β$ ij ∑ y gu xigu x jgu − C. F


i u i u i< j u

(4.78)

= (10.47 )( 293.60) + ( 0.92)( 25.20) + (0.54 )(14.75) + ( 0.55)(14.98) + ( −0.50)(258.17) +

( −0.20)( 267.78) + ( −0.06)(272.03) + ( −0.02)( −0.40) + (0.07)(1.20) + ( 0.21)(3.40) −

( 293.60) 2
30
= 44.42

*Etape 7. Calculer la somme des carrés dus à l’erreur pure


2

( )
t ng

SSE = ∑ ∑ y gu − yg (4.79)
g =1 u = 1

= 9.9650

*Etape 8. Calculer la somme des carrés du manque d’ajustement avec la relation,


SSL = SSTO - SSR - SSE (4.80)
= 55.4347 - 44.4232 - 9.650
= 1.0465

*Etape 9. Insérer les différentes sommes des carrés dans la table d’analyse de la variance et calculer
les différents carrés moyens en divisant les sommes des carrés par leurs degrés de liberté.

Tableau 4.46. Table d’analyse de la variance pour l’ajustement d’un PRSO, d’après les données du
Tableau 4.44
Source de Degré de Somme des Carré Rapport F F
variation liberté carrés moyen calculé Tabulaire
5%
Régression 9 44.4232 4.9359 7.4299 2.56
Manque 5 1.0465 0.2093 0.3150 2.90
d’ajustement
Erreur pure 15 9.9650 0.6643
Total 29 55.4347

- 139 -
Plan et analyse d’expériences

*Etape 10. Calculer la valeur de F pour tester la signification du manque d’ajustement, pour détecter
d’éventuelles erreurs de spécification du modèle.
Manque d' ajustement MS
F= (4.81)
Erreur pure MS

Si le manque d’ajustement est significatif, le carré moyen de la régression est testé par rapport au
carré moyen du manque d’ajustement. Dans le cas contraire, il est testé par rapport au carré moyen
de l’erreur pure.

0.2093
Dans notre exemple, F = = 0.3150
0.6643

Ici, le manque d’ajustement n’est pas significatif. On peut donc tester le carré moyen de la régression
par rapport au carré moyen de l’erreur pure. La valeur de F servant à tester la signification de la
régression est
Régression MS
F= (4.82)
Erreur pure MS
4.9359
=
0.6643
= 7.4299

Cette valeur de F est significative, si on la compare avec sa valeur tabulaire, qui est de 2,56, pour 9
et 15 degrés de liberté, au seuil de signification de 5 %. Le rapport de la somme des carrés de la
régression à la somme totale des carrés indique que le modèle explique près de 80 % des variations
de la variable de réponse.

*Etape 11. Les variances et les covariances des coefficients estimés sont donnés par les relations,
λ4 ( k + 2 )
( ) [
V β$ 0 =
]
n λ 4 ( k + 2 ) − kλ22
E (4.83)

( 0.5335) ( 3 + 2)
( 0.6643)
30[ ( 0.5335) (3 + 2) − 3( 0.9106) 2 ]
=

= 0.3283
où E = Carré moyen de l’erreur pure dans la table d’analyse de la variance.
E
V ( β$ i ) = (4.84)
nλ 2
0.6643
=
( 30)( 0.9106)
= 0.0243

- 140 -
Plan et analyse d’expériences

V (β$ ii ) =
E 
1+
[
λ22 − λ 4 ] 

[ ]
(4.85)
2 nλ2  λ 4 ( k + 2) − kλ22 

0.6643 
1+
( 0.9106) 2 − 0.5335 [ ] 

[ ]
=
( 2)( 30)( 0.9106)  ( 0.5335) ( 3 + 2) − ( 3)( 0.9106) 2 

= 0.03

E
V ( β$ ij ) = (4.86)
nλ 4
0.6643
=
( 30)( 0.5335)

− λ2
Cov( β$ 0 ,β$ ii ) =
[ ]
E (4.87)
n λ 4 ( k + 2 ) − kλ22
− 0.5335
( 0.6643)
[ ]
=
30 ( 0.5335) ( 3 + 2) − ( 3)( 0.9106)
2

= -0.11

Cov( β$ ii ,β$ jj ) =
[λ 2
2 − λ4 ]
[ ]
(4.88)
2nλ 4 λ 4 ( k + 2 ) − kλ22
(( 0.9106) − 0.5335) 2

( 2)( 30)( 0.5335)[( 0.5335) ( 3 + 2) − ( 3)( 0.9106) ]


= 2

= 0.05

Toutes les autres covariances sont nulles.

La fonction de réponse ajustée est donc,


y$ = β$ 0 + ∑ β$ i xi +∑ β$ ii x i 2 + ∑ β$ ij xi x j
i i i< j

= 10.47 + 0.92 x1 + 0.54 x2 + 0.55x3 − 0.50 x12 − 0.20 x22 − 0.02 x32

− 0.02 x1x2 + 0.07 x1x3 + 0.21x2 x3

La surface sert entre autres à trouver la combinaison optimale des doses, pour laquelle la réponse est
maximale ou économiquement optimale. De plus, l’équation ajustée est utile pour analyser la nature
de la surface, dans des intervalles donnés des variables d’entrée. Etant donné que l’étude de ces
aspects demande une connaissance de techniques mathématiques avancées, elle ne sera pas abordée
ici, mais les lecteurs qui souhaitent approfondir cette question, peuvent se référer à Montgomery
(1991).

- 141 -
5. TECHNIQUES D’ECHANTILLONNAGE

5.1. Concepts fondamentaux de l’échantillonnage

L’échantillonnage consiste essentiellement à tirer des informations d’une fraction d’un grand groupe
ou d’une population, de façon à en tirer des conclusions au sujet de l’ensemble de la population. Son
objet est donc de fournir un échantillon qui représentera la population et reproduira aussi fidèlement
que possible les principales caractéristiques de la population étudiée.

Les principaux avantages de la technique d’échantillonnage par rapport à un énumération complète


sont le moindre coût, la rapidité, la portée et la précision accrues. Tous ceux qui soutiennent que le
seul moyen d’obtenir des informations exactes sur une population est de faire un recensement
exhaustif oublient que les sources d’erreurs sont nombreuses dans un dénombrement complet et
qu’un recensement à cent pour cent peut non seulement être faussé par un grand nombre d’erreurs,
mais être pratiquement irréalisable. En effet, avec un échantillon on peut obtenir des résultats plus
exacts car il est plus facile de contrôler les sources d’erreurs liées à la fiabilité et à la formation des
agents de terrain, à la clarté des instructions, aux mesures et à l’enregistrement, au mauvais entretien
des instruments de mesure, à l’identification des unités d’échantillonnage, au travail des enquêteurs et
au traitement et à l’analyse des données. Plus l’échantillon est petit, plus la supervision est efficace.
De plus, le degré de précision des estimations tirées de certains types d’échantillons, peut être estimé
à partir de l’échantillon même. En fin de compte on obtient souvent avec une enquête par sondage
une réponse plus exacte qu’avec un recensement complet, le tout en peu de temps, avec moins de
personnel, moins de travail et moins d’argent.
.
La méthode d’échantillonnage la plus simple consiste à sélectionner un certain nombre d’unités
d’échantillonnage considérées comme “représentatives” de l’ensemble de la population. Par
exemple, pour estimer le volume global d’un peuplement forestier, l’enquêteur peut choisir un petit
nombre d’arbres qui lui paraissent de dimensions moyennes et typiques de la zone considérée, et
mesurer leur volume. Les méthodes simples, telles que marcher dans la forêt, s’arrêter au hasard et
lancer une pierre les yeux fermés, ou tout autre démarche excluant en apparence toute possibilité de
choix délibéré des unités d’échantillonnage, sont très attirantes à cause de leur simplicité, mais elles
ont évidemment des chances d’être faussées par le jugement de l’enquêteur, de sorte que les
résultats seront biaisés et non fiables. Même si l’objectivité de l’enquêteur ne fait pas le moindre
doute, d’importantes erreurs de jugement, conscientes ou inconscientes, peuvent se produire, et elles
seront rarement identifiées. Or ces erreurs peuvent être bien supérieures à l’avantage de l’exactitude
accrue qui est censée dériver de la sélection délibérée ou intentionnelle des unités d’échantillonnage.
Sans compter qu’un échantillonnage subjectif ne permet pas d’évaluer la précision des estimations
calculées à partir des échantillons. Un échantillonnage subjectif est statistiquement irrationnel et en
tant que tel, il est à éviter.

Si l’échantillonnage est fait de façon à ce que chaque unité de la population ait quelque chance d’être
incluse dans l’échantillon et si la probabilité de sélection de chaque unité est connue, on parle de
méthode d’échantillonnage probabiliste. L’une de ces techniques est la sélection aléatoire, à ne pas
confondre avec la sélection au hasard, qui implique un processus de sélection rigoureux de type

- 142 -
Techniques d’échantillonage

tirage au sort. Dans ce manuel, le terme échantillonnage se réfère, sauf indication contraire, à une
forme quelconque d’échantillonnage probabiliste. La probabilité qu’une unité d’échantillonnage
quelconque soit incluse dans l’échantillon dépend de la procédure adoptée. Il faut toutefois savoir
que la précision et la fiabilité des estimations obtenues à partir d’un échantillon peuvent être évaluées
uniquement dans le cas d’un échantillon probabiliste, le contrôle des erreurs y étant relativement
facile.

Le but d’une enquête par sondage est de minimiser l’erreur dans les estimations finales. Toute
enquête forestière comportant des activités de collecte et d’analyse de données peut être entachée
de diverses erreurs. Il en existe deux sortes: i) les erreurs non liées à l’échantillonnage et ii) les
erreurs d’échantillonnage. Les erreurs non liées à l’échantillonnage, par exemple celles dues à la
localisation des unités, à la mesure des caractéristiques, à l’enregistrement des fautes, aux biais des
enquêteurs et aux méthodes d’analyse défectueuses peuvent représenter une grande part de l’erreur
totale des résultats finaux dans les recensements complets comme dans les enquêtes par sondage.
Cette part a des chances d’être plus grande dans un recensement complet car un projet échantillon,
de plus petite taille, permet d’être plus sélectif dans l’affectation du personnel aux opérations de
l’enquête, de leur offrir une formation plus complète, et de focaliser davantage l’attention sur la
réduction des erreurs non liées à l’échantillonnage. L’erreur d’échantillonnage est due au fait que
seule une fraction de la surface de forêt est recensée. Etant donné qu’un échantillon, même
probabiliste, se fonde sur des observations qui ne concernent qu’une fraction de la population, il ne
peut généralement pas représenter parfaitement la population. La grandeur moyenne des erreurs
d’échantillonnage de la majorité des échantillons probabilistes peut être estimée d’après les données
collectées, et elle dépend de la taille de l’échantillon, de la variabilité à l’intérieur de la population et
de la méthode d’échantillonnage adoptée. Ainsi, avec un échantillon probabiliste, il est possible de
déterminer à l’avance la dimension que doit avoir l’échantillon pour obtenir le degré de précision
souhaité, lequel doit être spécifié.

Un plan d’échantillonnage est déterminé par la taille des unités d’échantillonnage, leur nombre, leur
distribution sur la surface totale, le type et le mode de mesure dans les unités sélectionnées et les
procédures statistiques adoptées pour l’analyse des données de l’enquête. Des méthodes
d’échantillonnage et des techniques d’estimation différentes ont été mises au point spécifiquement en
fonction des besoins des statisticiens enquêteurs, de sorte que l’utilisateur a de vastes possibilités de
choix adaptées à des situations spécifiques. Il est possible de choisir la méthode ou la combinaison
de méthodes avec laquelle on obtiendra le degré de précision souhaité, à raison d’un coût minimum.
Pour de plus amples détails, on peut se référer à Chacko (1965) et Sukhatme et al, (1984).

5.1.1. Les principales étapes d’une enquête par sondage


Dans toute enquête par sondage, on commence par déterminer le type de données à collecter et le
degré d’exactitude des résultats auquel on veut arriver. Ensuite, on formule le plan d’échantillonnage
afférent à chaque caractère sur lequel on compte recueillir des informations. On définit également la
combinaison des procédures d’échantillonnage relatives aux différents caractères, pour éviter les
doubles emplois sur le terrain. Troisièmement, on organise avec soin les opérations en champ, en
prévoyant des crédits suffisants pour la supervision du travail du personnel de terrain. Enfin, on
analyse les données collectées au moyen de techniques statistiques appropriées et on rédige un
rapport complet et détaillé décrivant les hypothèses sur lesquelles on s’est fondé, le plan
d’échantillonnage et les résultats de l’analyse statistique. Le rapport contiendra une estimation de la

- 143 -
Techniques d’échantillonage

marge des erreurs d’échantillonnage des résultats et, le cas échéant, les effets possibles des erreurs
non liées à l’échantillonnage. Quelques-unes de ces étapes sont décrites de façon plus approfondie
dans les passages qui suivent.

i) Définition des objectifs de l’enquête: Pour commencer, les objectifs de l’enquête doivent être
examinés attentivement. Par exemple, pour une enquête forestière, on détermine la superficie qui sera
couverte par l’enquête. Les caractéristiques sur lesquelles des informations seront collectées et le
niveau de détail souhaité seront précisés. Si l’enquête porte sur des arbres, on déterminera les
espèces d’arbres qui devront être recensés et l’on décidera s’il convient d’énumérer uniquement les
arbres faisant partie de classes de diamètres déterminées ou si l’on estimera aussi le volume des
arbres. C’est aussi durant la première étape que l’on détermine le degré de précision que devront
avoir les estimations.

ii) Elaboration d’un diagramme des unités: Dans tout échantillon probabiliste, la première
exigence est l’établissement d’une base de sondage. La structure d’une enquête par sondage est
largement déterminée par cette base. La base de sondage est une liste des unités d’échantillonnage
qui peuvent être clairement définies et identifiées dans la population. Ces unités peuvent être des
compartiments, des sections topographiques, des bandes d’une certaine largeur ou des parcelles de
forme et de taille définies.

L’élaboration d’une base de sondage adaptée aux objectifs d’une enquête demande de l’expérience
et peut fort bien absorber une part importante des travaux de planification, en particulier dans les
enquêtes forestières où il peut être nécessaire de dresser une liste artificielle des unités
d’échantillonnage, faites de sections topographiques, de bandes ou de parcelles. Par exemple, dans
une enquête forestière, une base de sondage peut se présenter sous la forme d’une carte appropriée
de la superficie forestière. Le mode de sélection des unités d’échantillonnage doit permettre
d’identifier sur le terrain une unité spécifique devant être incluse dans l’échantillon. Le choix est
fonction de plusieurs facteurs: l’objet de l’enquête, les caractéristiques qui doivent être observées
dans les unités sélectionnées, la variabilité entre des unités d’échantillonnage d’une taille donnée, le
plan d’échantillonnage, le plan des travaux de terrain, et le coût total de l’enquête. Le choix est aussi
déterminé par des considérations pratiques. Par exemple, dans des zones de collines, il n’est pas
toujours possible de prendre des bandes comme unités d’échantillonnage, et les compartiments ou
les sections topographiques peuvent être plus appropriés. En général, pour une intensité
d’échantillonnage donnée (proportion de la surface recensée), plus les unités d’échantillonnage sont
petites, plus l’échantillon est représentatif et plus les résultats ont de chances d’être précis.

iii) Choix d’un plan d’échantillonnage: Si le plan d’échantillonnage doit être de nature à fournir
une mesure statistiquement significative de la précision des estimations finales, l’échantillon doit être
probabiliste, en ce sens que chaque unité de la population doit avoir une probabilité connue d’être
incluse dans l’échantillon. Le choix des unités à inscrire sur la liste doit être basé sur une règle
objective qui ne laisse aucune part à l’opinion de l’homme de terrain. La détermination du nombre
d’unités à inclure dans l’échantillon et la méthode de sélection sont également fonction du coût
admissible de l’enquête et de la précision des estimations finales.

iv) Organisation des travaux sur le terrain: Une enquête par sondage n’est pleinement réussie
que si les opérations de terrain sont fiables. Dans le domaine forestier, les travaux sur le terrain

- 144 -
Techniques d’échantillonage

doivent être organisés avec le plus grand soin autrement, même si le plan d’échantillonnage est
excellent, les résultats de l’échantillon risqueraient d’être incomplets ou trompeurs. Le choix d’un
personnel adéquat, une formation intensive, des instructions claires et une bonne supervision des
opérations de terrain sont essentiels pour obtenir des résultats satisfaisants. Les équipes itinérantes
doivent être capables de localiser correctement les unités sélectionnées et enregistrer les mesures
nécessaires conformément aux instructions spécifiques reçues. Les superviseurs vérifient une partie
de leur travail sur le terrain et s’assurent que l’enquête qui y effectuée correspond en tous points au
plan.

v) Analyse des données : En fonction du plan d’échantillonnage utilisé et de l’information collectée,


on utilisera les formules adéquates pour obtenir les estimations et calculer leur degré de précision.
Une contre-vérification des calculs est souhaitable pour garantir l’exactitude de l’analyse.

vi) Enquête préliminaire (essais pilotes): La conception d’un plan d’échantillonnage approprié à
une enquête forestière demande une bonne connaissance de la théorie statistique et des données
concernant la nature de la zone forestière, le mode de variabilité et le coût opérationnel. Dans le cas
où l’on ne possède pas ces connaissances, il est parfois nécessaire d’effectuer une enquête pilote à
petite échelle statistiquement planifiée, avant de se lancer dans une enquête à grande échelle sur toute
la superficie de forêt. Ces enquêtes préparatoires, ou pilotes, fourniront les renseignements voulus
sur la variabilité du matériel et offriront la possibilité d’essayer et d’améliorer les procédures en
champ, de former des hommes de terrain, et d’étudier l’efficacité opérationnelle d’un plan. Une
enquête pilote donnera aussi des renseignements pour estimer les différentes composantes du coût
des opérations, par exemple le temps de trajet, le temps de localisation et de recensement des unités
d’échantillonnage etc... Ces informations seront essentielles pour définir le type de plan et l’intensité
d’échantillonnage appropriés aux objectifs de l’enquête.

5.1.2. Terminologie d’échantillonnage


Après avoir expliqué les concepts fondamentaux et les étapes d’un plan d’échantillonnage, nous
allons maintenant définir de façon plus précise quelques termes généraux pour faciliter l’étude des
différents plans d’échantillonnage décrits dans les autres sections.

Population : Le mot population désigne l’ensemble des unités parmi lesquelles l’échantillon est
prélevé. Si une surface forestière est divisée en un certain nombre de compartiments (ou blocs) qui
sont les unités d’échantillonnage, ces compartiments constituent la population des unités
d’échantillonnage. En revanche, supposons qu’une surface de forêt soit divisée en mille bandes de
20 m de large chacune, les mille bandes forment la population. De même, si la surface de forêt est
divisée en parcelles d’un demi hectare l’une, l’ensemble de ces parcelles forme la population.

Unités d’échantillonnage : Les unités d’échantillonnage peuvent être des unités administratives ou
des unités naturelles, par exemple des sections topographiques et des sous-compartiments, ou
encore des unités artificielles, par exemple des bandes d’une largeur donnée ou des parcelles de
forme et de taille définies. L’unité doit être un élément bien défini ou un groupe d’éléments
identifiable dans la surface de forêt, dont les caractéristiques que l’on compte étudier peuvent être
observées. La population est donc subdivisée en unités appropriées à l’objet de l’enquête, appelées
unités d’échantillonnage.

- 145 -
Techniques d’échantillonage

Base de sondage : Une liste d’unités d’échantillonnage est une base de sondage. Une population
est “ finie ” si elle comprend un nombre fini d’unités d’échantillonnage.

Echantillon : Une ou plusieurs unités d’échantillonnage sélectionnées dans une population suivant
une procédure définie constituent un échantillon.

Intensité de l’échantillonnage : L’intensité de l’échantillonnage est le rapport du nombre d’unités


incluses dans l’échantillon au nombre d’unités comprises dans la population.

Total de population : Supposons une population finie composée d’unités U1, U2, …, UN. Notons
yi la valeur de la caractéristique de la i-ème unité. Par exemple, les unités peuvent être des bandes et
les caractéristiques peuvent être le nombre d’arbres d’une espèce déterminée à l’intérieur d’une
bande. La somme des valeurs yi ( i = 1, 2, …, N), à savoir,
N
Y = ∑ yi (5.1)
i =1

est appelée total de population. Dans notre exemple, celui-ci est le nombre moyen d’arbres de
l’espèce spécifique dans toute la population.

Moyenne de la population: La moyenne arithmétique


1 N
Y = ∑ yi (5.2)
N i=1
est appelée moyenne de la population. Ici, il s’agit du nombre moyen d’arbres de l’espèce
considérée, par bande.

Variance de la population: la variance de la population est une mesure de la variation entre les
unités de la population
1 N 1 N 2
S y = ∑ ( yi − Y ) = ∑ y i − Y
2 2 2
(5.3)
N i=1 N i =1

Dans notre exemple, la variance de la population mesure la variation du nombre d’arbres de l’espèce
considérée, entre les bandes. Des valeurs élevées indiquent une variation importante entre les unités
de la population, alors que des valeurs faibles montrent que les valeurs de la caractéristique dans les
unités sont proches de la moyenne de la population. La racine carrée de la variance est connue sous
le nom d’ écart-type.

Coefficient de variation : Le coefficient de variation est le rapport, généralement exprimé en


pourcentage, de l’écart type à la valeur de la moyenne arithmétique
S
C. V . = y (5.4)
Y
Du fait qu’il est adimensionnel, le coefficient de variation est un instrument précieux pour comparer
les variations de deux ou plusieurs populations ou ensembles d’observations.

Paramètre : On appelle paramètre toute fonction des valeurs des unités d’une population. La
moyenne de la population, la variance, le coefficient de variation etc... sont des exemples de
paramètres de population. Dans la théorie de l’échantillonnage, le problème est d’estimer les

- 146 -
Techniques d’échantillonage

paramètres à partir d’un échantillon, au moyen d’une procédure permettant de mesurer la précision
des estimations.

Estimateur, estimation : Notons y1, y2, …, yn les observations d’un échantillon de taille n. Toute
fonction des observations effectuées sur un échantillon est une statistique. Une statistique utilisée
pour estimer un paramètre de la population est un estimateur. Par exemple, la moyenne d’un
échantillon est un estimateur de la moyenne de la population. On appelle estimation toute valeur
spécifique d’un estimateur calculée à partir d’un échantillon observé.

Erreur provenant de l’estimation : Une statistique t est appelée estimateur non biaisé d’un
paramètre θ de la population si son espérance mathématique (ou valeur probable), notée E(t), est
égale à θ. Avec une procédure d’échantillonnage de type probabiliste, on obtient, par répétition, un
nombre certain nombre d’échantillons possibles. Si les valeurs de la statistique t sont calculées pour
chaque échantillon possible et si la moyenne des valeurs est égale à la valeur θ associée à la
population, on dit que t est un estimateur non biaisé de θ , basé sur la procédure d’échantillonnage.
La répétition de la procédure et du calcul des valeurs de t est une notion purement théorique, ces
opérations n’étant pas effectuées dans la réalité, mais l’idée selon laquelle on peut dériver toutes les
estimations possibles en répétant le processus d’échantillonnage est fondamentale pour l’étude du
biais. Si E(t) n’est pas égal à θ, la statistique t est un estimateur biaisé de θ et le biais est donné par
biais = E(t) - θ . L’introduction d’un processus réellement aléatoire pour la sélection d’un échantillon
est un pas important pour éviter les biais. Dans les enquêtes forestières, où les experts tendent à
choisir des étendues de forêt typiques pour les énumérations, les estimations sont inévitablement
biaisées, même si leur bonne foi n’est pas en cause.

Variance d’échantillonnage : La différence entre une estimation d’un échantillon et la valeur de la


population est appelée erreur d’échantillonnage de l’estimation; on ne connaît évidemment pas
l’amplitude de cette erreur puisqu’on ne connaît pas la valeur de la population. Etant donné que le
plan d’échantillonnage donne lieu à différents échantillons possibles, les estimations varient d’un
échantillon à l’autre. Sur la base de ces estimations possibles, on peut obtenir une mesure de
l’amplitude moyenne, par rapport à tous les échantillons possibles, des carrés de l’erreur
d’échantillonnage. Il s’agit de l’erreur quadratique moyenne (MSE) de l’estimation qui est
essentiellement une mesure de la variation d’un estimateur par rapport à la valeur réelle de la
population. En symboles, MSE = E[t - θ ]2. La variance d’échantillonnage (V(t)) est une mesure de
l’écart de l’estimation par rapport à son espérance mathématique. Elle est définie comme l’amplitude
moyenne par rapport à tous les échantillons possibles des carrés des écarts de l’estimateur par
rapport à son espérance mathématique et est donnée par V(t) = E[t - E(t)]2.

Remarquons que la variance d’échantillonnage coïncide avec l’erreur quadratique moyenne dans le
cas où t est un estimateur non biaisé. Généralement, l’amplitude de l’estimation de la variance
d’échantillonnage calculée à partir d’un échantillon donne une idée de l’utilité d’une estimation
relative à un échantillon. Plus l’échantillon est grand et plus la variabilité entre les unités constituant la
population est petite, plus l’erreur d’échantillonnage sera petite et plus les résultats sont fiables.

Erreur type d’un estimateur : L’erreur-type de l’estimateur est la racine carrée de sa variance
d’échantillonnage. L’erreur-type d’une estimation divisée par la valeur de l’estimation est l’erreur
type relative, habituellement exprimée en pourcentage.

- 147 -
Techniques d’échantillonage

Exactitude et précision : L’erreur-type d’une estimation, obtenue à partir d’un échantillon, ne tient
pas compte du biais. On peut donc dire que l’erreur-type ou la variance d’échantillonnage de
l’estimation mesure à l’échelle inverse la précision de l’estimation, plutôt que son exactitude.
L’exactitude se réfère habituellement à l’ampleur des écarts entre l’estimation d’un échantillon et la
moyenne m = E (t) qui serait obtenue en appliquant plusieurs fois le procédé expérimental, le biais
étant ainsi mesuré par m - θ.

Le point le plus important, c’est l’exactitude de l’estimation d’un échantillon, la précision avec
laquelle nous sommes capables de mesurer, dans la majorité des cas. Nous nous efforçons de
concevoir l’enquête et d’analyser les données en utilisant des méthodes statistiques propres à
maximiser la précision et à minimiser le biais.

Limites de confiance : Si l’estimateur t suit une loi de distribution normale (hypothèse


généralement valide pour les échantillons de grande taille), un intervalle de confiance défini par une
limite inférieure et une limite supérieure, inclut normalement le paramètre de la population θ , à un
seuil de probabilité déterminé. Les limites sont données par les relations
Limite inférieure = t - z Vˆ (t ) (5.5)
Limite supérieure = t + z Vˆ (t ) (5.6)
où Vˆ (t ) est l’estimation de la variance de t et z la valeur de l’écart réduit correspondant à une
probabilité de confiance souhaitée P, exprimée en pourcentage. Par exemple, si z est égal à 1.96, on
dit que les chances que la valeur réelle de θ soit contenue dans l’intervalle aléatoire défini par les
limites de confiance supérieure et inférieure sont de 95 pour cent. Les limites de confiance spécifient
l’amplitude prévue de la variation de la moyenne de la population et stipulent le degré de confiance
que nous devrions attacher aux résultats de nos échantillons. Si la taille de l’échantillon est inférieure
à 30, la valeur de k dans les formules donnant les limites de confiance supérieure et inférieure devrait
être tirée des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec les degrés
de liberté correspondant à la somme des carrés dans l’estimation de la variance de t. De modestes
écarts de la distribution par rapport à la normale n’affectent pratiquement pas la formule relative aux
limites de confiance. En revanche, si la distribution est très différente de la normale, il faut adopter
des méthodes spéciales. Par exemple, si l'on utilise de petites surfaces comme unités
d'échantillonnage, pour estimer le nombre moyen d’arbres à classes de diamètre élevées, la
distribution peut avoir une asymétrie prononcée. Dans ce cas, la formule indiquée ci dessus pour le
calcul des limites de confiance supérieure et inférieure n’est pas toujours directement applicable.

Quelques observations d’ordre général: Dans les sections qui suivent, les valeurs concernant la
population seront notées par des lettres majuscules et les valeurs de l’échantillon par des lettres
minuscules. Le symbole “cap” (^) au-dessus d’un symbole relatif à une valeur de la population
dénote son estimation basée sur des observations de l’échantillon. Les autres notations particulières
seront expliquées au fur et à mesure de leur apparition.

Les formules servant à estimer uniquement la moyenne de la population et sa variance


d’échantillonnage sont données avec la description des méthodes d’échantillonnage ci-dessous.
Deux des paramètres sont le total de la population et le rapport du caractère étudié (y) à une

- 148 -
Techniques d’échantillonage

variable auxiliaire quelconque (x). Ces statistiques connexes peuvent toujours être calculées à partir
de la moyenne, à l’aide des relations générales ci-après:
Y$ = NY$ (5.7)

V ( Y$ ) = N 2V ( Y$ ) (5.8)

Y$
R$ = (5.9)
X

V ( Y$ )
V ( R$ ) = (5.10)
X2
où Y$ = Estimation du total de la population
N = Nombre total d’unités dans la population
R$ = Estimation du rapport de la population
X = Total de la population de la variable auxiliaire

5.2. Echantillonnage aléatoire simple

Dans un échantillonnage aléatoire simple toutes les combinaisons possibles d’unités d’échantillonnage
tirées de la population ont les mêmes chances d’être sélectionnées. Théoriquement, l’échantillonnage
aléatoire simple est la procédure la plus simple, dont s’inspirent de nombreuses autres techniques.
Elle s’applique surtout au stade initial d’une enquête et aux études impliquant l’échantillonnage d’une
petite surface où la taille de l’échantillon est relativement petite. Si l’enquêteur connaît un peu la
population sondée, il peut adopter d’autres méthodes plus pratiques et plus efficaces pour organiser
l’enquête sur le terrain. Dans un échantillonnage aléatoire simple, la répartition irrégulière des unités
d’échantillonnage sur la surface de forêt peut être un gros inconvénient dans les zones difficilement
accessibles où les frais de déplacement et de localisation des parcelles sont considérablement plus
élevés que les coûts de l’énumération des parcelles.

5.2.1. Sélection des unités d’échantillonnage


Dans la pratique, la sélection d’un échantillon aléatoire se fait unité par unité. Nous expliquerons dans
cette section deux méthodes de sélection aléatoire pour un échantillonnage aléatoire simple sans
remise.

i) Echantillonnage par tirage: Les unités de la population sont numérotées de 1 à N.


Symboliquement, on peut assimiler ces unités à N boules identiques numérotées de 1 à N. Si on
en sélectionne une au hasard après les avoir mélangées, toutes les boules ont la même possibilité
d’être sélectionnées. Ce processus est répété n fois sans remettre en jeu les boules sélectionnées.
Les unités correspondant aux numéros inscrits sur les boules sélectionnées forment un échantillon
aléatoire simple de taille n tiré dans la population de N unités.

ii) Echantillonnage au moyen de tables de nombres aléatoires : la procédure d’échantillonnage


par tirage devient fastidieuse si N est élevé. Pour surmonter cette difficulté, on peut utiliser une table
de nombres aléatoires, du type de celles publiées par Fisher et Yates (1963) (voir Annexe 6). Les

- 149 -
Techniques d’échantillonage

tables de nombres aléatoires ont été conçues de manière à ce que les chiffres de 0 à 9 apparaissent
indépendamment les uns des autres, à peu près le même nombre de fois dans la table. La méthode la
plus simple pour choisir un échantillon aléatoire de la taille requise consiste à sélectionner un
ensemble de n nombres aléatoires l’un après l’autre, de 1 à N, dans la table, puis de prendre les
unités correspondant à ces numéros. Cette procédure peut comporter un certain nombre de rejets
du fait que tous les nombres supérieurs à N qui apparaissent dans la table sont exclus d’office. Dans
ces cas là, la procédure est modifiée comme suit. Si N est un nombre à d chiffres, on commence par
déterminer le plus grand multiple de N à d chiffres, noté N’. Ensuite, on choisit un nombre aléatoire r
de 1 à N’ et l’unité portant le numéro égal au restant obtenu après avoir divisé r par N, est
considérée comme sélectionnée. Si le reste est égal à zéro, la dernière unité est sélectionnée. Un
exemple numérique est donné ci-après.

Supposons que l’on doive choisir un échantillon aléatoire simple de 5 unités dans une liste de 40
unités numérotées en série, que l’on consulte l’Annexe 6 : Table de nombres aléatoires et que l’on
choisisse dans la colonne 5) des nombres à deux chiffres les nombres suivants :
39, 27, 00, 74, 07

Pour donner les mêmes probabilités de sélection aux 100 unités, il faut rejeter tous les nombres
supérieurs à 79 et considérer que (00) équivaut à 80. Ensuite, on divise les nombres ci-dessus par
40, et l’on prend les restes comme numéros des bandes sélectionnées pour l’échantillon, en rejetant
les restes qui sont répétés. On obtient ainsi les 16 numéros de bande comme échantillon, soit : 39,
27, 40, 34, 7.

5.2.2. Estimation de paramètres


Soient y1, y2,… ,yn les mesures d’une caractéristique spécifique, effectuées sur n unités sélectionnées
d’un échantillon d’une population de N unités d’échantillonnage. On constate dans le cas d’un
échantillonnage aléatoire simple sans remise que la moyenne de l’échantillon
n
∑ yi
Y$ = y = i =1
(5.11)
n
est un estimateur non biaisé de la moyenne Y de la population. Une estimation non biaisée de la
variance d’échantillonnage de y est donnée par
N −n 2
Vˆ (Yˆ ) = sy (5.12)
Nn
n

∑(y i − y) 2
où s 2y = i =1
(5.13)
n −1

Si l’estimation y suit une loi normale, il est possible d’établir un intervalle de confiance sur la
moyenne de la population Y , les limites de confiance inférieure et supérieure étant définies par,
s N −n
Limite inférieure YˆL = y − z y (5.14)
n N
s N −n
Limite supérieure YˆU = y + z y (5.15)
n N

- 150 -
Techniques d’échantillonage

où z est la valeur de la table qui dépend du nombre d’observations incluses dans l’échantillon. Si leur
nombre est égal ou supérieure à 30, on peut extraire ces valeurs de la table de la distribution normale
(Annexe 1). Si le nombre d’observations est inférieur à 30, la valeur tabulaire sera extraite de la table
de distribution t (Annexe 2), avec n - 1 degrés de liberté.

Nous allons illustrer ces calculs par un exemple. Supposons qu’une forêt ait été divisée en 1000
parcelles de 0,1 hectare chacune et qu’un échantillon aléatoire simple de 25 parcelles ait été
selectionné. Pour chacune de ces parcelles d’échantillon, les volumes de bois, en m3, ont été
enregistrés. Ces volumes étaient les suivants:

7 10 7 4 7
8 8 8 7 5
2 6 9 7 8
6 7 11 8 8
7 3 8 7 7

Si le volume de bois de la i-ème unit d’échantillonnage est noté yi, un estimateur non biaisé de la
moyenne Y de la population, s’obtient à l’aide de l’Equation (5.11), soit :
7 + 8 + 2 + . . . + 7 175
Yˆ = y = =
25 25
= 7 m3
qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de forêt.

Une estimation ( s 2y ) de la variance des valeurs individuelles de y s’obtient à l’aide de l’équation


(5.13).

s 2
=
(7 − 7 ) + (8 − 7 ) + . . . + (7 − 7 )
2 2 2

25 − 1
y

82
= = 3.833
24

L’estimation non biaisée de la variance d’échantillonnage de y est donc


 1000 − 25 
Vˆ (Yˆ ) =  3.833
 (1000 )(25) 
= 0.1495 (m3)2

SE(Yˆ ) = 0.1495 = 0.3867 m3


SE (Yˆ )
L’erreur-type relative, (100) est une expression plus commune. Ainsi,

0.1495
RSE (Yˆ ) = (100) = 5.52 %
7

- 151 -
Techniques d’échantillonage

Les limites de confiance attachées à la moyenne de la population Y s’obtiennent par les équations
(5.14) et (5.15).
Limite inférieure Yˆ = 7 − (2.064) 0.1495
L

= 6.20 cordes
ˆ
Limite supérieure YU = 7 + ( 2.064) 0.1495
= 7.80 cordes

L’intervalle de confiance de 95% associé à la moyenne de la population est de (6.20, 7.80) m3. Cela
signifie que l’on peut estimer qu’il y a 95 chances sur cent que l’intervalle de confiance de (6.20,
7.80) m3 inclura la moyenne de la population.

On obtiendra facilement une estimation du volume total de bois dans la surface de forêt
échantillonnée en multipliant l’estimation de la moyenne par le nombre total de parcelles comprises
dans la population. Ainsi
Yˆ = 7(1000) = 7000 m 3
avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de confiance
associés à la moyenne par N = 1000. L’erreur-type relative RSE de Yˆ , n’est cependant pas
modifiée par cette opération.

5.3. Echantillonnage systématique

La méthode d’échantillonnage systématique obéit à une règle simple, dans laquelle chaque k-ième
unité est sélectionnée à partir d’un nombre, de 1 à k, choisi au hasard comme point de départ
aléatoire. Supposons que N unités d’échantillonnage dans la population soient numérotées de 1 à N..
Pour sélectionner un échantillon systématique de n unités, on choisit une unité au hasard parmi les k
premières, puis on sélectionne chaque k-ième unité d’échantillonnage pour former l’échantillon. La
constante k est appelée pas d’échantillonnage, et est considérée comme étant le nombre entier le
plus proche de N / n, l’inverse du taux d’échantillonnage. La mesure de chaque k-ème arbre
correspondant à un relèvement au compas déterminé est un exemple d’échantillonnage systématique.
Dans les enquêtes forestières, une bande étroite, perpendiculaire à une ligne de base, traversant toute
la forêt est couramment prise comme unité d’échantillonnage. Si les unités d’échantillonnage sont des
bandes, le dispositif est connu sous le nom d’échantillonnage systématique en bandes, mais il existe
aussi un autre système, appelé échantillonnage systématique de parcelles en ligne, dans lequel des
parcelles de taille et de forme fixées sont sélectionnées à intervalles égaux le long de lignes parallèles
régulièrement espacées. Dans le dernier cas, l’échantillon pourrait aussi bien être systématique dans
deux directions.

Sur le plan intuitif, l’échantillonnage systématique est certainement attrayant, sans compter qu’il est
plus facile à sélectionner et à effectuer sur le terrain, du fait que l’échantillon est réparti également sur
toute la superficie de forêt et qu’il garantit une certaine quantité de représentation des différentes
parties de la surface. Ce type d’échantillonnage est souvent pratique pour contrôler les travaux de
terrain. A part ces considérations opérationnelles, il est démontré que la procédure de
l’échantillonnage systématique fournit des estimateurs plus efficaces que l’échantillonnage aléatoire
simple, dans des conditions sylvicoles normales. La propriété de l’échantillonnage systématique, à

- 152 -
Techniques d’échantillonage

savoir la répartition uniforme des unités d’échantillonnage sur la population peut être exploitée en
recensant les unités de manière à regrouper les unités homogènes ou de manière à ce que les valeurs
de la caractéristique relative aux unités soient rangées par ordre croissant ou décroissant. Par
exemple, si l’on connaît la tendance de fertilité de la surface de forêt, les unités (par exemple, les
bandes) peuvent être recensées conformément à cette tendance.

Si la population affiche un régime de variation régulier et si l’intervalle d’échantillonnage de


l’échantillon systématique coïncide avec cette régularité, l’échantillon systématique ne donne pas
d’estimations précises. Il est vrai qu’aucun cas évident de périodicité n’a jamais été signalé dans
une étendue forestière. Il faut néanmoins tenir compte, lorsque l’on planifie une enquête, du fait
qu’un échantillonnage systématique peut donner des résultats peu précis, au cas où une périodicité
insoupçonnée se vérifierait.

5.3.1. Sélection d’un échantillon systématique


Pour illustrer la sélection d’un échantillon systématique, prenons une population de N = 48 unités.
Un échantillon de n = 4 unités est nécessaire. Dans ce cas, k = 12. Si le nombre aléatoire choisi dans
l’ensemble de nombres allant de 1 à 12 est 11, les unités correspondant aux numéros de série 11,
23, 35 et 47 seront sélectionnées. Dans les cas où N n’est pas divisible par n, k est le nombre entier
le plus proche de N / n. Dans ce cas, la taille de l’échantillon n’est pas nécessairement égale à n et
elle peut être égale à n -1.

5.3.2. Estimation des paramètres


L’estimation de la moyenne de la population de chaque unité est donnée par la moyenne de
l’échantillon
n

∑y i
Yˆ = y = i =1
(5.16)
n
où n est le nombre d’unités dans l’échantillon.

Dans le cas d’enquêtes par échantillonnage systématique en bandes ou, d’une manière générale,
dans tout système d’échantillonnage systématique unidimensionnel, on peut obtenir une
approximation de l’erreur-type à partir des différences entre deux unités qui se suivent. Supposons
que n unités aient été énumérées dans l’échantillon systématique, on aura (n-1) différences. La
variance par unité est donc donnée par la somme des carrés des différences divisée par le double du
nombre de différences. Ainsi, si y1, y2,…,yn sont les valeurs observées (par exemple, le volume) des
n unités dans l’échantillon systématique, et en définissant la première différence d(yi) comme indiqué
ci-dessous
d ( y i ) = y(i +1) − y (i ) ; (i = 1, 2, …, n -1), (5.17)

la variance approximative par unité est estimée par la formule


n −1
ˆ
Vˆ (Y ) =
1
∑ [d ( yi )]2 (5.18)
2n( n − 1) i=1

A titre d’exemple, le Tableau 5.1. donne les diamètres observés de 10 arbres sélectionnés par
prélèvement systématique d’un arbre sur 20 dans un peuplement contenant 195 arbres disposés par

- 153 -
Techniques d’échantillonage

rangées de 15. Le premier élément sélectionné était le huitième arbre de l’un des cotés extérieurs du
peuplement, en partant d’un coin. Les autres arbres ont été sélectionnés systématiquement, en
prenant chaque 20ème arbre, puis en passant à l’arbre le plus proche de la rangée suivante après le
dernier arbre de chaque rangée.

Tableau 5.1. Diamètre des arbres observé sur un échantillon systématique de 10 arbres prélevés
dans une parcelle.
Numéro de Diamètre à hauteur Première
l’arbre sélectionné d’homme (en cm) différence
yi
d(yi)
8 14.8
28 12.0 -2.8
48 13.6 +1.6
68 14.2 +0.6
88 11.8 -2.4
108 14.1 +2.3
128 11.6 -2.5
148 9.0 -2.6
168 10.1 +1.1
188 9.5 -0.6

Le diamètre moyen est égal à


Yˆ = (14.8 + 12.0 + ....... + 9.5) = 12.07
1
10

Les neuf premières différences s’obtiennent avec la formule indiquée dans la colonne (3) du Tableau
5.1. La variance des écarts de la moyenne par unité est donc
ˆ (-2.8) 2 + (1.6) 2 + ... + (-0.6) 2 36.9
V (Y ) =
ˆ =
2 x9 x10 180
= 0.202167

L’un des inconvénients est qu’un échantillon systématique ne permet pas en lui-même d’obtenir une
évaluation valide de la précision des estimations. Pour en avoir, on peut avoir recours à des
échantillons partiellement systématiques. Il existe une méthode théoriquement valable qui fait appel au
concept d’échantillon systématique tout en aboutissant à des estimations non biaisées de l’erreur
d’échantillonnage; celle-ci consiste à prélever au moins deux échantillons systématiques, avec des
points de départ aléatoires indépendants. Si y1 , y 2 , …, ym sont m estimations de la moyenne de la
population basées sur m échantillons systématiques indépendants, l’estimation combinée est
1 m
y = ∑ yi (5.19)
m i=1

L’estimation de la variance de y est donnée par la relation

- 154 -
Techniques d’échantillonage

m
Vˆ ( y ) =
1
∑ ( yi − y )2 (5.20)
m ( m − 1) i=1
Remarquons que la précision augmente avec le nombre d’échantillons systématiques indépendants.

A titre d’exemple, prenons les données du Tableau 5.1, ainsi qu’un autre échantillon systématique
sélectionné avec des points de départ aléatoires indépendants. Dans le deuxième échantillon, le
premier élément sélectionné était le 10ème arbre. Les données concernant les deux échantillons
indépendants sont reportées dans le Tableau 5.2.

Tableau 5.2. Diamètre des arbres observé sur deux échantillons systématiques
indépendants de 10 arbres issus d’une parcelle.
Echantillon 1 Echantillon 2
Numéro de Diamètre à Numéro de Diamètre à
l’arbre hauteur de poitrine l’arbre hauteur de poitrine
sélectionné (en cm) sélectionné (en cm)
yi yi
8 14.8 10 13.6
28 12.0 30 10.0
48 13.6 50 14.8
68 14.2 70 14.2
88 11.8 90 13.8
108 14.1 110 14.5
128 11.6 130 12.0
148 9.0 150 10.0
168 10.1 170 10.5
188 9.5 190 8.5

Le diamètre moyen du premier échantillon, y1 = 12.07 . Le diamètre moyen du deuxième


échantillon, y 2 = 12.19 . L’estimation combinée de la moyenne de la population (y ) se calcule à
l’aide de l’équation (5.19),
y = (12.07 + 12.19 )
1
2
= 12.13

L’estimation de la variance de y s’obtient à l’aide de l’équation (5.20).

Vˆ ( y ) =
1
(12.07 − 12.13)2 (12.19 − 12.13)2 = 0.0036
2( 2 − 1)

SE( y ) = 0.0036 = 0.06

Il existe une autre variante de l’échantillonnage systématique, dans le cas d’un échantillonnage
systématique dans deux directions. Par exemple, si, dans des plantations, on veut estimer le volume
du peuplement, on peut adopter un échantillon systématique de rangées et prendre, dans chaque
rangée sélectionnée, des mesures sur le dixième arbre. Dans une enquête forestière, on peut prendre

- 155 -
Techniques d’échantillonage

une série de bandes parallèles équidistantes s’étendant sur toute la largeur de la forêt, et, dans
chaque bande, on peut procéder à l’énumération en prélevant un échantillon systématique de
parcelles ou d’arbres. Une autre méthode serait de former des grilles rectangulaires de (p x q)
mètres et de sélectionner un échantillon systématique de lignes et de colonnes, avec une parcelle
d’une taille déterminée et de la forme prescrite à chaque intersection.

Dans le cas d’un échantillon systématique bidimensionnel, on peut obtenir les estimations et une
approximation de l’erreur d’échantillonnage, grâce à une méthode basée sur la stratification. Celle-ci
est similaire à la méthode d’échantillonnage stratifié décrite dans la section 5.4. Par exemple,
l’échantillon peut être arbitrairement divisé en ensembles de 4 dans 2 x 2 unités, chaque ensemble
étant considéré comme formant une strate. On suppose en outre que les observations faites à
l’intérieur de chaque strate sont sélectionnées de manière indépendante et aléatoire. Pour ajuster les
bords, les strates qui se chevauchent seront prises en bordure de la zone forestière.

5.4. Echantillonnage stratifié

L’idée de base de l’échantillonnage aléatoire stratifié est de diviser une population hétérogène en
sous-populations, habituellement appelées strates, constituées d’éléments homogènes; on pourra
ainsi obtenir une estimation précise d’une moyenne de strate quelconque à partir d’un petit
échantillon prélevé dans cette strate, ainsi qu’une estimation précise pour l’ensemble de la
population, en combinant ces estimations. L’échantillonnage stratifié donne une meilleure section
transversale de la population que la procédure d’échantillonnage aléatoire simple. Cette méthode
peut aussi simplifier l’organisation des activités en champ. La proximité géographique est parfois
l’élément de base de la stratification, car on part du principe que des zones contiguës sont souvent
plus semblables que des zones très éloignées. L’élément de base de la stratification peut aussi être
dicté par des considérations d’ordre administratif. Par exemple, le personnel déjà disponible dans
chaque brigade d’une division forestière peut être chargé de superviser l’enquête dans la zone
relevant de sa compétence. Ainsi, des régions géographiques compactes peuvent former les strates.
Une méthode de stratification assez efficace consiste à effectuer une enquête préliminaire rapide de la
zone ou à rassembler l’information déjà disponible et à stratifier la surface de forêt suivant les types
de forêts, la densité des peuplements, la qualité de la station etc... Si l’on sait que la caractéristique à
l’étude est influencée par une variable supplémentaire au sujet de laquelle on dispose de données
réelles, ou au moins de bonnes estimations concernant les unités de la population, la stratification
peut être faite en utilisant les informations sur cette variable supplémentaire. Par exemple, la
population peut être stratifiée sur la base des estimations de volume obtenues lors d’un inventaire
antérieur de la superficie forestière.

Dans l’échantillonnage stratifié, la variance de l’estimateur ne comprend que la variation à l’intérieur


des strates. Ainsi, en général le degré de précision augmente avec le nombre de strates de la
population, car plus elles sont nombreuses, plus les unités qu’elles contiennent sont homogènes. Pour
estimer la variance à l’intérieur des strates, chaque strate devrait avoir au minimum deux unités. Plus
le nombre de strates est élevé, plus le coût de du recensement est élevé. Ainsi, le nombre de strates
devra être déterminé, et la décision dépendra de considérations de commodité administrative, du
coût de l’enquête et de la variabilité de la caractéristique à l’étude dans la zone.

- 156 -
Techniques d’échantillonage

5.4.1. Allocation et sélection de l’échantillon à l’intérieur des strates


Supposons que la population soit divisée en k strates de N1, N2 ,…, Nk unités respectivement, et
qu’un échantillon de n unités doive être prélevé de la population. Pour l’allocation, le problème est
de choisir les tailles d’échantillon dans les strates respectives, c’est-à-dire de déterminer le nombre
d’unités qui devraient être prélevées de chaque strate, pour que la taille de l’échantillon total soit
égale à n.

Tous les choix étant équivalents, il est possible de prélever un plus grand échantillon d’une strate qui
a une variance plus grande, de sorte que la variance des estimations des moyennes des strates se
trouve réduite. L’application du principe ci-dessus nécessite des estimations préalables de la
variation à l’intérieur de chaque strate. Celles-ci peuvent avoir été acquises lors d’une enquête
antérieure ou provenir d’enquêtes pilotes de nature restreinte. Ainsi, si ces informations sont
disponibles, la fraction sondée dans chaque strate peut être considérée comme proportionnelle à
l’écart-type de chaque strate.

Si le coût par unité de l’enquête dans chaque strate est connu et varie d’une strate à l’autre, une
méthode d’allocation efficace, pour un coût minimum, consiste à prélever de grands échantillons dans
la strate où l’échantillonnage coûte le moins cher et où la variabilité est la plus élevée. Pour appliquer
cette procédure, il faut des renseignements sur la variabilité et le coût des observations pour chaque
unité dans les différentes strates.

A défaut d’informations sur les variances relatives à l’intérieur des strates et sur le coût des
opérations, la partie de l’échantillon attribuée aux différentes strates peut être proportionnelle au
nombre d’unités qu’elles contiennent ou à la surface totale de chaque strate. Cette méthode est
habituellement appelée “répartition proportionnelle de l’échantillon”.

Pour la sélection des unités dans les strates, d’une manière générale, on peut adopter n’importe
quelle méthode basée sur une sélection probabiliste d’unités. Toutefois, la sélection doit être
indépendante dans chaque strate. Si des échantillons aléatoires indépendants sont prélevés dans
chaque strate, la procédure d’échantillonnage prend le nom d’“échantillonnage aléatoire stratifié”.
D’autres modes de sélection de l’échantillon, comme l’échantillonnage systématique, peuvent aussi
être adoptés à l’intérieur des différentes strates.

5.4.2. Estimation de la moyenne et de la variance


Nous supposerons que la population de N unités est d’abord divisée en k strates contenant
respectivement N1, N2,…,Nk unités. Ces strates ne se chevauchent pas et à elles toutes, elles forment
l’ensemble de la population, de sorte que
N1 + N2 + ….. + Nk = N. (5.21)
Lorsque les strates ont été définies, un échantillon est prélevé dans chacune d’elles, la sélection se
faisant indépendamment dans chaque strate. Les tailles des échantillons à l’intérieur des strates sont
respectivement notées n1, n2, …, nk . On a donc,
n1 + n2 +…..+ n3 = n (5.22)

- 157 -
Techniques d’échantillonage

Soit ytj (j = 1, 2,…., Nt ; t = 1, 2,..…k) la valeur de la caractéristique étudiée sur la j-ème unité
dans la t-ième strate. Dans ce cas, la moyenne de la population dans la t-ième strate est donnée par
la relation
Nt
1
Yt =
Nt ∑y j =1
tj , (t = 1, 2, ..., k ) (5.23)

La moyenne de l’ensemble de la population est donnée par


k
Y = 1
N ∑N Y t t (5.24)
t =1

Dans ce cas, une estimation de la moyenne Y de la population sera donnée par la formule
k

∑N t yt
Yˆ = t =1
(5.25)
N
nt
ytj
où y t = ∑ (5.26)
j =1 nt

L’estimation de la variance de Yˆ est donnée par


1 k s t2( y )
V (Y ) = 2 ∑ N t ( N t − nt )
ˆ ˆ (5.27)
N t=1 nt
nt
( y tj− yt ) 2
où s2
=∑ (5.28)
nt − 1
t ( y)
j =1

Si elle est effectuée comme on l’a expliqué dans les sections précédentes, la stratification donne
ordinairement une variance plus faible pour le total ou la moyenne de la population estimée qu’un
échantillon aléatoire simple de la même taille. Toutefois, si l’échantillon stratifié est prélevé sans les
précautions voulues, les résultats ne seront pas meilleurs qu’avec un échantillon aléatoire simple.

Nous allons maintenant illustrer par un exemple numérique les calculs de l’estimation du volume
moyen par hectare d’une espèce particulière et de son erreur-type, à partir d’un échantillon aléatoire
stratifié de compartiments sélectionnés de manière indépendante, avec des probabilités égales dans
chaque strate.

Une étendue forestière, constituée de 69 compartiments a été divisée en trois strates contenant
respectivement les compartiments 1 à 29, 30 à 45 et 46 à 69; on a ensuite choisi au hasard 10, 5 et
8 compartiments dans les trois strates. Les numéros de série des compartiments sélectionnés dans
chaque strate sont indiqués dans la colonne (4) du Tableau 5.3. Le volume observé correspondant
de l’espèce particulière dans chaque compartiment sélectionné est donné, en m3/ha, dans la colonne
(5).

Tableau 5.3. Illustration des paramètres d’estimation dans un système d’échantillonnage stratifié

- 158 -
Techniques d’échantillonage

Numéro Nombre total Nombre Numéro des Volume


de la d’unités dans d’unités unités (m3/ha) ( yt2j )
strate la strate (Nt) sondées d’échantillonna ( yt j )
ge
(nt) sélectionnées
(1) (2) (3) (4) (5) (6)
1 5.40 29.16
18 4.87 23.72
28 4.61 21.25
12 3.26 10.63
I 20 4.96 24.60
19 4.73 22.37
9 4.39 19.27
6 2.34 5.48
17 4.74 22.47
7 2.85 8.12
Total 29 10 .. 42.15 187.07
43 4.79 22.94
42 4.57 20.88
II 36 4.89 23.91
45 4.42 19.54
39 3.44 11.83
Total 16 5 .. 22.11 99.10
59 7.41 54.91
50 3.70 13.69
49 5.45 29.70
58 7.01 49.14
III 54 3.83 14.67
69 5.25 27.56
52 4.50 20.25
47 6.51 42.38
Total 24 8 .. 43.66 252.30

*Etape 1. Calculer les quantités suivantes


N = (29 + 16 + 24) = 69

n = (10 + 5 + 8) = 23

y t = 4.215, y t = 4.422, y t = 5.458

- 159 -
Techniques d’échantillonage

*Etape 2. Estimer la moyenne Y de la population à l’aide de l’équation (3)


3

∑N t yt
( 29 × 4.215) + (16 × 4.422) + ( 24 × 5.458) 323.979
Yˆ = t =1
= = = 4.70
N 69 69

*Etape 3. Estimer la variance de Yˆ à l’aide de l’équation (5)


1 3 st2( y)
V(Y ) = 2 ∑Nt ( Nt − nt )
ˆ ˆ
N t =1 nt

Dans cet exemple,


( 42.15) 2
187.07 −
10 9.41
s12( y ) = = = 1.046
9 9

( 22.11) 2
99.10 −
5 1.33
s 22( y ) = = = 0.333
4 4

( 43.66) 2
252.30 −
8 14.03
s32( y ) = = = 2.004
7 7

2
 1   29 × 19   16 × 11   24 ×16 
Vˆ (Yˆ ) =    × 1.046  +  × 0.333 +  × 2.004  
 69   10   5   8 
165.5482
= = 0.03477
4761

SE(Yˆ ) = 0.03477 = 0.1865

SE (Yˆ ) ×100
RSE (Yˆ ) = (5.29)

0.1865 × 100
= = 3.97%
4.70

Ignorons à présent les strates et supposons que le même échantillon de taille n = 23 formait un
échantillon aléatoire simple prélevé dans la population de N = 69. L’estimation de la moyenne de la
population se réduira alors à

n
42.15 + 22.11 + 43.66 107.92
y= 1
n ∑y i =
23
=
23
= 4.69
i =1

- 160 -
Techniques d’échantillonage

L’estimation de la variance de la moyenne y est alors


N −n 2
Vˆ ( y ) = s
Nn

(107.92) 2
538.47 −
s2 = 23
22
32.09
= = 1.4586
22

d’où
(69 − 23)
Vˆ ( y ) = ×1.4586
69 × 23

2.9172
= = 0.04230
69

SE( y ) = 0.04230 = 0.2057

0.2057 × 100
RSE ( y ) = = 4.39%
4.69

Le gain de précision due à la stratification se calcule comme suit


Vˆ (Yˆ ) srs 0.04230
× 100 = ×100
Vˆ (Yˆ ) st 0.03477
= 121.8

Le gain de précision est donc de 21.8%.

5.5. Echantillonnage à plusieurs degrés

En vue de réduire les coûts et/ou de concentrer les opérations en champ autour de certains points et,
dans le même temps, d’obtenir des estimations précises, l’échantillonnage se fait parfois en plusieurs
étapes. La procédure consistant à commencer par sélectionner des unités de grande taille puis à
choisir un nombre déterminé de sous-unités dans les grandes unités, est connue sous le nom de sous-
échantillonnage. Les grandes unités prennent le nom d’“unités du premier degré” ou “d’unités
primaires” alors que les sous-unités sont appelées “unités du deuxième degré” ou “unités
secondaires”. La procédure peut aisément être généralisée aux échantillons à trois ou à plusieurs
degrés. Par exemple, l’échantillonnage d’une étendue de forêt peut être effectué en trois étapes,
premièrement en sélectionnant un échantillon de compartiments (unités du premier degré), puis un
échantillon de sections topographiques (unités du deuxième degré) dans chaque compartiment
sélectionné, et enfin en prélevant, dans chaque section topographique sélectionnée, un certain
nombre de parcelles-échantillons de taille et de forme déterminées (unités du troisième degré).

- 161 -
Techniques d’échantillonage

Le système d’échantillonnage à plusieurs degrés a l’avantage de concentrer l’échantillon autour de


plusieurs “points échantillons”, au lieu de le disperser sur l’ensemble de la surface considérée dans
l’enquête. Ceci réduit considérablement le coût des opérations et contribue à réduire les erreurs non
liées à l’échantillonnage, grâce à une supervision efficace. De plus, dans les enquêtes forestières il
arrive souvent que l’on dispose d’informations détaillées pour des groupes d’unités
d’échantillonnage, mais par pour des unités individuelles. Par exemple, on peut avoir une liste de
compartiments avec des détails sur la surface, alors que l’on n’a pas d’informations détaillées sur les
sections topographiques dans chaque compartiment. C’est pourquoi, si les compartiments sont
sélectionnés en tant qu’unités du premier degré, il peut être possible de collecter des données
détaillées sur les sections topographiques, uniquement pour certains compartiments, et partant,
d’utiliser un système d’échantillonnage à deux degrés sans tenter de dresser une carte des sections
topographiques dans tous les compartiments. Le système d’échantillonnage à plusieurs degrés
permet donc d’utiliser une base de sondage incomplète de toutes les unités d’échantillonnage et
d’exploiter comme il convient et à bon escient les informations déjà disponibles, à chaque stade.

La sélection opérée à chaque stade peut être faite à l’aide d’une méthode d’échantillonnage aléatoire
simple ou de toute autre méthode d’échantillonnage probabiliste, et l’on peut employer une méthode
différente à chaque stade. Par exemple, on peut choisir un échantillon aléatoire simple de
compartiments et opter pour un sondage systématique de parcelles en ligne ou en bandes, avec une
origine choisie au hasard dans les compartiments sélectionnés.

5.5.1. Echantillonnage aléatoire simple à deux degrés


Si les deux étapes de la sélection se font par échantillonnage aléatoire simple, la méthode prend le
nom d’échantillonnage aléatoire simple à deux degrés. Par exemple, pour estimer le poids de l’herbe
dans une superficie forestière, faite de 40 compartiments, les compartiments peuvent être considérés
comme des unités d’échantillonnage primaires. Sur ces 40 compartiments, n = 8 compartiments
peuvent être choisis au hasard au moyen d’une procédure d’échantillonnage aléatoire simple (voir
Section 5.2.1). Un échantillon aléatoire de parcelles, égales en nombre ou non, peut être sélectionné
dans chaque compartiment pour mesurer la quantité d’herbe, grâce à la procédure de sélection d’un
échantillon aléatoire simple. On peut ensuite calculer les estimations de la quantité moyenne ou totale
d’herbe disponible dans la superficie forestière, à l’aide des formules appropriées.

5.5.2. Estimation des paramètres, dans le cadre d’une procédure d’échantillonnage


aléatoire simple à deux degrés
Soient une population constituée de N unités du premier degré et Mi le nombre d’unités du second
degré dans la i-ème unité du premier degré. Supposons que n unités du premier degré soient
sélectionnées et que, dans la i-ème unité du premier degré sélectionnée, on choisisse mi unités du
n
second degré pour former un échantillon de m = ∑ m i unités. Notons yij la valeur du caractère
i =1

pour la j-ème unité du second degré dans la i-ème unité du premier degré.

- 162 -
Techniques d’échantillonage

N Mi

∑∑ y ij

Un estimateur non biaisé de la moyenne de la population Y =


i j
N
s’obtient grâce à l’équation
∑M i =1
i

(5.30).
n mi
1
Yˆ = ∑ ∑y Mi
mi ij (5.30)
nM i =1 j =1
N

∑M i
où M = i =1
. (5.31)
N
L’estimation de la variance de Yˆ est donnée par la relation
1 n Mi   1 1  2
2
1 1 
Vˆ (Yˆ ) =  −  sb2 +
n N 
∑    − s
nN i =1  M   mi M i  wi
(5.32)
2
1 n Mi 
où s =
2
b ∑ 
n − 1 i=1  M
yi − y 

(5.33)

1 mi
mi − 1 ∑
s 2wi = ( y ij − y i ) 2 (5.34)
j =1

Ici, on remarque que la variance de Yˆ est composée de deux éléments. Le premier est une mesure
de la variation entre les unités du premier degré et l’autre est une mesure de la variation à l’intérieur
des unités du premier degré. Si mi = Mi, la variance est donnée uniquement par le premier élément.
Le second terme représente donc la contribution du sous-échantillonnage.

Nous allons illustrer par un exemple l’analyse d’un échantillon à deux degrés. Le Tableau 5.4 donne
des informations sur le poids de l’herbe (toutes espèces mélangées), en kilogrammes, dans des
parcelles de 0,025 ha sélectionnées dans 8 compartiments qui ont été choisis au hasard parmi les 40
compartiments d’une étendue forestière. La superficie totale de la forêt était de 1800 hectares.

- 163 -
Techniques d’échantillonage

Tableau 5.4. Poids de l’herbe, en kg, dans des parcelles sélectionnées dans le cadre d’une
procédure d’échantillonnage à deux degrés
Parcelle Numéro du compartiment Total
I II III IV V VI VII VIII
1 96 98 135 142 118 80 76 110
2 100 142 88 130 95 73 62 125
3 113 143 87 106 109 96 105 77
4 112 84 108 96 147 113 125 62
5 88 89 145 91 91 125 99 70
6 139 90 129 88 125 68 64 98
7 140 89 84 99 115 130 135 65
8 143 94 96 140 132 76 78 97
9 131 125 .. 98 148 84 .. 106
10 .. 116 .. .. .. 105 .. ..
Total 1062 1070 872 990 1080 950 744 810 7578
mi 9 10 8 9 9 10 8 9 72
Moyenne 118 107 109 110 120 95 93 90 842
( yi )
Mi 1760 1975 1615 1785 1775 2050 1680 1865 14505
sw2i 436.00 515.78 584.57 455.75 412.25 496.67 754.86 496.50 4152
2 48.44 51.578 73.07 50.63 45.80 49.667 94.35 55.167
s wi
mi

*Etape 1. Estimer le poids moyen par parcelle de l’herbe, en kg, à l’aide de la formule de l’équation
(5.30).
1 n M i mi
ˆ
Y = ∑ ∑ yij
nM i=1 mi j =1

1 N 1 1800
M = ∑
N i =1
Mi = (
40 0.025
)

= 1800

∑M i étant le nombre total d’unités du second degré, le poids moyen peut être obtenu en divisant
la superficie totale (1800 ha) par la taille d’une unité du second degré (0.025 ha).

La moyenne de la population, estimée au moyen de l’équation (5.30), est


1 n M i mi
ˆ
Y = ∑ ∑ yij
nM i=1 mi j =1
1523230
= = 105.78
(8)(40)

- 164 -
Techniques d’échantillonage

1  1760  
2 2 2
  1975   1865
s =
2
 × 118 − 105.25  +  × 107 − 105.25  + ... +  × 90 − 105.25  
(8 − 1)  1800
b
  1800   1800  
=140.36

La variance de Yˆ peut être estimée par l’équation (5.32)


1 1 
ˆ
Vˆ (Y ) =  − 140.3572 +
1
(465.1024 )
 8 40  (8)(40)
=15.4892

SE(Yˆ ) = 15.4892 = 3.9356

3.9356 × 100
RSE (Yˆ ) = = 3.72%
105.78

5.6. Echantillonnage à plusieurs phases

L’échantillonnage à plusieurs phases joue un rôle crucial dans les enquêtes forestières, puisqu’il est
utilisé aussi bien dans les inventaires forestiers continus que pour estimer le matériel sur pied, ou
encore dans les enquêtes par télédétection. L’idée de base de ce mode d’échantillonnage est
d’effectuer des sondages distincts, en plusieurs phases successives, commençant par un grand
nombre d’unités d’échantillonnage lors de la première phase, et en ne mesurant qu’un sous-ensemble
de ces unités durant chaque phase successive, de façon à estimer le paramètre visé avec plus de
précision et pour un coût relativement moindre, en étudiant la relation entre les caractères mesurés
durant différentes phases. Dans un souci de simplification, nous ne décrirons dans cette section que
l’échantillonnage à deux phases, ou échantillonnage double.

Une technique d’échantillonnage qui ne comporte que deux phases (occasions) prend le nom
d’échantillonnage à deux phases, ou d‘échantillonnage double. Elle est particulièrement utile dans les
situations où l’énumération du caractère étudié (caractère principal) coûte cher ou demande
beaucoup de main d’œuvre, alors qu’un caractère auxiliaire corrélé au caractère principal peut
facilement être observé. Dans ce cas, il est parfois plus facile et plus économique de prendre un
échantillon vaste pour analyser, dans le cadre d’une première phase, la variable auxiliaire. A l’issue
de cette phase on obtiendra des estimations précises de la valeur totale ou de la moyenne de la
population de la variable auxiliaire. Dans la seconde phase, on choisit un petit échantillon,
généralement un sous-échantillon, dans lequel il est possible d’observer à la fois le caractère principal
et la variable auxiliaire. A l’aide des renseignements supplémentaires obtenus lors de la première
phase, les estimations de régression ou par quotient permettent d’obtenir des estimations précises
concernant le caractère principal. La précision des estimations finales peut être accrue en incluant
plusieurs variables auxiliaires corrélées, au lieu d’une seule. Par exemple, pour estimer le volume
d’un peuplement, les variables auxiliaires peuvent être le diamètre ou la circonférence des arbres et
leur hauteur. Pour estimer le rendement en matières tannantes de l’écorce des arbres, on peut choisir
comme variables auxiliaires certaines mesures physiques des arbres comme la circonférence, la
hauteur, le nombre de pousses etc...

- 165 -
Techniques d’échantillonage

Comme bien d’autres modes d’échantillonnage, l’échantillonnage double est une technique utile pour
réduire le coût des énumérations et accroître la précision des estimations. Cette technique peut être
très avantageuse dans les enquêtes portant sur des superficies forestières. Elle permet par exemple,
après une enquête préliminaire de la forêt en question, d’obtenir une estimation du matériel sur pied à
une période ultérieure, par exemple à une distance de 10 à 15 ans, et de sa variation, sur la base
d’un échantillon relativement petit.

L’échantillonnage double est également utile pour stratifier une population. Un premier échantillon
concernant un caractère auxiliaire peut être utilisé pour subdiviser la population en strates dans
lesquelles le deuxième caractère (principal) varie peu. Si les deux caractères sont corrélés, on peut
ainsi obtenir des estimations précises du caractère principal, à partir d’un deuxième échantillon
relativement petit pour le caractère principal.

Il est possible de conjuguer le double échantillonnage avec d’autres méthodes, comme


l’échantillonnage à plusieurs degrés (sous-échantillonnage), qui sont économiques ou qui renforcent
la précision des estimations. Par exemple, si l’on veut estimer les disponibilités de graminées, cannes,
roseaux etc..., on peut prélever un double échantillon de compartiments (ou parcelles) et de sections
topographiques (ou blocs) pour estimer la surface effective portant les espèces considérées, et un
sous-échantillon des sections topographiques, des blocs ou des parcelles pour estimer le rendement.

5.6.1. Sélection des unités d’échantillonnage


Dans le cas le plus simple d’un échantillonnage à deux phases, on peut recourir à la technique
d’échantillonnage aléatoire simple dans les deux phases. Durant la première étape, la population est
divisée en unités d’échantillonnage bien définies et un échantillon est prélevé selon la procédure
d’échantillonnage aléatoire simple. Le caractère x est mesuré sur toutes les unités ainsi sélectionnées.
Ensuite, on prend un sous-échantillon dans ces unités, sélectionnées à l’aide de la méthode
d’échantillonnage aléatoire simple, et on mesure le caractère principal (y) sur ces unités. L’ensemble
de la procédure peut également être exécuté en combinaison avec d’autres méthodes, comme la
stratification ou l’échantillonnage à plusieurs phases.

5.6.2. Estimation des paramètres


i) Estimation de régression dans le double échantillonnage:
Supposons qu’un échantillon de n unités ait été prélevé au hasard, durant la phase initiale, dans la
population de N unités, pour observer la variable auxiliaire x, et que l’on prélève un sous-échantillon
de taille m au sein duquel on observe à la fois x et le caractère principal.

n
xi
Soient x( n) = moyenne de x dans le premier gros échantillon = x ( n) = ∑ (5.35)
i =1 n
m
x
x (m ) = moyenne de x dans le deuxième échantillon = x( m ) = ∑ i (5.36)
i =1 m
m
y
y = moyenne de y dans le deuxième échantillon = y = ∑ i (5.37)
i =1 m

On peut utiliser y pour estimer la moyenne de la population Y . Toutefois, avec les renseignements
précédemment obtenus sur les unités sondées, on peut obtenir une estimation plus précise de Y en

- 166 -
Techniques d’échantillonage

calculant la régression de y en x, et utilisant les informations supplémentaires fournies par le premier


échantillon. L’estimation de régression de Y est donnée par la formule
y ( drg) = y + b ( x (n ) − x (m ) ) (5.38)
où le suffixe (drg) dénote l’estimation de régression obtenue grâce au double échantillonnage, et b
est le coefficient de régression de y en x, calculé à partir des unités contenues dans le deuxième
échantillon de taille m. Ainsi,

∑ (x − x( m) )( y i − y )
m

i
b= i =1
(5.39)
∑ (x − x( m) )
m
2
i
i =1

La valeur approximative de la variance de l’estimation est donnée par


s 2y. x s 2y . x − s 2y
V ( y ) ( drg) = + (5.40)
m n
1  m m

où s 2y . x =
m − 2  i=1 ∑ ( y i − y ) 2
− b 2
∑ ( xi − x( m) ) 2  (5.41)
i =1 

( yi − y) 2
m
s =∑
2
(5.42)
m −1
y
i =1

ii) Estimation par quotient dans l’échantillonnage double :


L’estimation par quotient s’applique principalement lorsque l’ordonnée à l’origine de la droite de
régression de y en x est nulle. L’estimation par le quotient de la moyenne de la population Y est
donnée par la formule
y
y (dra) = x (5.43)
x ( m) ( n )
où y dra est l’estimation par quotient, dans l’échantillonnage double. La variance de l’estimation est
approximativement donnée par
s 2y − 2 Rˆ s yx + Rˆ 2 s 2x 2 Rˆ s yx − Rˆ 2 s 2x
V ( y dra ) = + (5.44)
m n

m

∑ (y
i =1
i − y)2
s 2y = (5.45)
m −1

− y )(xi − x ( m) )
m

∑(y
i =1
i
s yx = (5.46)
m −1

∑ (x i − xm )2
s 2x = i −1
(5.47)
m −1

- 167 -
Techniques d’échantillonage

y
Rˆ = (5.48)
x( m)

Nous allons illustrer par un exemple une analyse de données issues d’un échantillonnage double,
avec estimation de régression et estimation par quotient. Le Tableau 5.5 donne des renseignements
sur le nombre de cépées et le poids d’herbe correspondant sur des parcelles de 0,025 ha, observés
sur un sous-échantillon prélevé au hasard parmi 40 parcelles tirées d’un échantillon préliminaire de
200 parcelles, dans lesquelles seul était compté le nombre de cépées.

Tableau 5.5. Nombre de cépées et poids d’herbe observés sur des parcelles sélectionnées
dans le cadre d’une procédure d’échantillonnage à deux phases
Numéro Nombre de Poids en Numéro Nombre de Poids en
de série cépées kgs de série cépées kgs
(x) (y) (x) (y)
1 459 68 21 245 25
2 388 65 22 185 50
3 314 44 23 59 16
4 35 15 24 114 22
5 120 34 25 354 59
6 136 30 26 476 63
7 367 54 27 818 92
8 568 69 28 709 64
9 764 72 29 526 72
10 607 65 30 329 46
11 886 95 31 169 33
12 507 60 32 648 74
13 417 72 33 446 61
14 389 60 34 86 32
15 258 50 35 191 35
16 214 30 36 342 40
17 674 70 37 227 40
18 395 57 38 462 66
19 260 45 39 592 68
20 281 36 40 402 55

Ici, n = 200, m = 40. Le nombre moyen de cépées par parcelle, observé sur l’échantillon
préliminaire de 200 parcelles était x( n) = 374.4.
40 40

∑ x i = 15419 , ∑y i = 2104 ,
i =1 i =1

40 40 40

∑ x i = 7744481 ,
2
∑ y i = 125346 ,
2
∑x y i i = 960320
i =1 i =1 i =1

- 168 -
Techniques d’échantillonage

2
 40 
 ∑ xi 
(15419 ) = 1800842
2

∑ ( xi − x( m) ) = ∑ x i −  1 40 
40 40
2 2
= 7744481 −
1 i =1 40

2
 40 
 ∑ yi 
( 2104) 2
= ∑ y i −  i =1 
40 40

∑(y − y) = 125346 − = 14675.6


2 2
i
1 i =1 40 40
40 40

∑ xi ∑ yi 15419 × 2104
∑ (x − x( m ) )( yi − y ) = ∑ x i y i −
40 40

i
1 1
= 960320 − = 149280.6
1 1 40 40

Le nombre moyen de cépées par parcelle du sous-échantillon de 40 parcelles est


15419
x ( m) = = 385.5
40

Poids moyen des cépées par parcelle dans le sous-échantillon de 40 parcelles


2104
y= = 52.6
40

L’estimation de régression du poids moyen d’herbe par parcelle (en kg) s’obtient avec l’équation
(5.38), où le coefficient de régression b calculé à l’aide de l’équation (5.39) est
149280.6
b= = 0.08
1800842
D’où, y ( drg) = 52.6 + 0.08( 374.4 − 385.5)
= 52.6 - 0.89
= 51.7 kg /plot

s y2. x =
1
40 − 2
[
14675.6 − (0.08 ) (1800842 )
2
]
= 82.9

14675.6
s y2 =
39
=376.297

La variance approximative de l’estimation est donnée par l’équation (5.40)


82.9 82.9 − 376.297
V ( y ) ( drg) = + (5.40)
40 200
= 3.5395

- 169 -
Techniques d’échantillonage

L’estimation par quotient du poids moyen d’herbe par parcelle (en kg) est donnée par l’équation
(5.43)
y ( dra) =
52.6
(374.4 )
385.5
= 51.085

149280.6
s yx =
40 − 1
= 3827.708

1800842
s x2 =
40 − 1
= 46175.436

52.6
Rˆ =
385.5
= 0.1364

La variance approximative de l’estimation est donnée par l’équation (5.44)


376.297 − 2(0.1364 )(3827.708) + (0.1364) (46175 .436)
2

V ( y dra ) =
40

+
(2)(0.1364 )(3827.708 ) − (0.1364 )2 (46175.436 )
200
= 5.67

5.7. Echantillonnage avec probabilité proportionnelle à la taille (échantillonnage PPT)

Souvent, les unités d’échantillonnage ont une taille très variable, de sorte qu’un échantillonnage
aléatoire simple n’est pas toujours efficace, car il ne tient pas compte de l’importance que peuvent
avoir les unités plus grandes de la population. Dans ces situations, on a constaté que les
renseignements supplémentaires sur la taille des unités peuvent être mis à profit pour sélectionner
l’échantillon de façon à obtenir un estimateur plus précis des paramètres de la population. Une
méthode consiste à assigner des probabilités de sélection inégales aux différentes unités de la
population. Par exemple, les villages couvrant une zone géographique plus grande ont des chances
d’avoir une plus grande superficie sous cultures vivrières. Pour estimer la production, il est donc
souhaitable d’adopter un système d’échantillonnage dans lequel la probabilité de sélection des
villages est proportionnelle à la zone géographique. Si les unités ont une taille variable et si la variable
considérée est directement liée à la taille de l’unité, les probabilités peuvent être assignées
proportionnellement à la taille de l’unité. Ce type d’échantillonnage avec probabilité de sélection
proportionnelle à la taille de l’unité est appelé “échantillonnage PPT”. Lors de la sélection des unités
successives de la population, les unités antérieurement sélectionnées peuvent éventuellement être
remises dans la population. Dans les paragraphes qui suivent, nous aborderons uniquement
l’échantillonnage PPT avec remise des unités d’échantillonnage, car c’est le plus simple des deux
systèmes.

- 170 -
Techniques d’échantillonage

5.7.1. Méthode de sélection d’un échantillon PPT avec remise


La procédure de sélection de l’échantillon consiste à associer à chaque unité un ou des nombre(s)
égaux à sa taille et à sélectionner l’unité correspondant à un nombre choisi au hasard dans l’ensemble
de nombres associés aux unités. Il existe deux méthodes de sélection que nous allons décrire:

(i) Méthode des totaux cumulés: Supposons que la taille de la i-ème unité soit x i, (i = 1, 2, …,
N). On associe à la première unité les nombres allant de 1 à x i, à la seconde unité les nombres de
(x 1+1) à (x 1+x 2), et ainsi de suite, de manière à ce que le total des nombres ainsi associés soit égal à
X = x 1 + x 2 + … + x N. Ensuite, on choisit au hasard un nombre aléatoire de 1 à X et on sélectionne
l’unité associée à ce nombre.

Par exemple, un village a 8 vergers contenant respectivement 50, 30, 25, 40, 26, 44, 20 et 35
arbres. Un échantillon de 3 vergers doit être sélectionné avec remise et avec probabilité
proportionnelle au nombre d’arbres dans les vergers. La table des totaux cumulés se présentera
comme suit:
Numéro de série du Taille Taille cumulée Nombres associés
verger (x i)
1 50 50 1 - 50
2 30 80 51 - 80
3 25 105 81 -105
4 40 145 106 -145
5 26 171 146 - 171
6 44 215 172 - 215
7 20 235 216 - 235
8 35 270 236 - 270

Enfin, on choisit trois nombres aléatoires entre 1 et 270: ces nombres sont 200, 116 et 47. Les
unités associées à ces nombres sont la 6ème, la 4ème, et la 1ère. L’échantillon ainsi sélectionné contient
donc les unités portant les numéros de série 1, 4 et 6.

ii) Méthode de Lahiri: Comme on l’a vu, avec la méthode des totaux cumulés, il faut reporter les
totaux cumulés successifs, ce qui est à la fois long et fastidieux, en particulier si les populations sont
importantes. En 1951, Lahiri a proposé une autre procédure qui évite cette opération. La méthode
de Lahiri consiste à sélectionner un couple (i,j) de nombres aléatoires, où 1 ≤ i ≤ N et 1≤ j ≤ M; la
lettre M désignant le maximum des tailles des N unités de la population. Si j ≤ Xi, on sélectionne la
i-ème unité. Dans le cas contraire, la paire de nombres aléatoires est rejetée et on choisit une autre
paire. Pour sélectionner un échantillon de n unités, la procédure doit être répétée jusqu’à ce que les
n unités soient choisies. Cette procédure permet de déterminer les probabilités de sélection requises.

Par exemple, pour sélectionner, par la méthode de Lahiri de sélection d’un PPT avec remise, un
échantillon de 3 vergers dans la population de l’exemple précèdent (N = 8, M = 50 et n = 3), on
sélectionne trois paires de nombres aléatoires, dont le premier élément est inférieur ou égal à 8 et le
second inférieur ou égal à 50. Les trois paires sélectionnées dams la table des nombres aléatoires
sont (2, 23) (7,8) et (3, 30). Etant donné que, dans la troisième paire, j >Xi, une nouvelle paire doit
être sélectionnée. Celle-ci est (2, 18). L’échantillon sélectionné selon cette procédure est donc

- 171 -
Techniques d’échantillonage

constitué des unités portant les numéros de série 2, 7 et 2. Comme l’unité 2 revient deux fois dans
l’échantillon, la taille de l’échantillon est 2, dans ce cas. Pour obtenir une taille de l’échantillon de
trois, on peut répéter la procédure d’échantillonnage pour obtenir une nouvelle unité (distincte).

5.7.2. Procédure d’estimation


Supposons qu’un échantillon de n unités soit tiré d’une population de N unités, par la technique
d’échantillonnage PPT avec remise. De plus, désignons par (yi, pi) la valeur et la probabilité de
sélection de la i-ème unité de l’échantillon, i = 1, 2, 3, …., n.

On obtient un estimateur non biaisé de la moyenne de la population par la formule


1 n yi
nN ∑
Yˆ = (5.49)
i =1 p i

Un estimateur de la variance de cet estimateur est donné par

()
VY =
ˆ ˆ 1  N  y 2
  i  − nYˆ 2 

n( n − 1 _ N 2  i=1  pi 


(5.50)
 
x
où p i = i , Yˆ = NYˆ
X
Nous allons illustrer ceci par un exemple. Un échantillon aléatoire de 23 unités sur 69 a été
sélectionné avec probabilité proportionnelle à la taille de l’unité (compartiment) dans une superficie
forestière dans UP. La surface totale des 69 unités était de 14079 ha. Les volumes de bois
déterminés pour chaque compartiment sélectionné sont données dans le Tableau 5.6, avec la
superficie du compartiment.

- 172 -
Techniques d’échantillonage

Tableau 5. 6. Volume de bois et taille de l’unité d’échantillonnage pour un échantillon PPT de


compartiments forestiers.
No. Taille, en Taille Volume en m3 yi
= vi
de ha relative (yi) pi (v i)2
série (x i) (x i/X)
1 135 0.0096 608 63407.644 4020529373.993
2 368 0.0261 3263 124836.351 15584114417.014
3 374 0.0266 877 33014.126 1089932493.652
4 303 0.0215 1824 84752.792 7183035765.221
5 198 0.0141 819 58235.864 3391415813.473
6 152 0.0108 495 45849.375 2102165187.891
7 264 0.0188 1249 66608.602 4436705896.726
8 235 0.0167 1093 65482.328 4287935235.716
9 467 0.0332 1432 43171.580 1863785345.581
10 458 0.0325 3045 93603.832 8761677342.194
11 144 0.0102 410 40086.042 1606890736.502
12 210 0.0149 1460 97882.571 9580997789.469
13 467 0.0332 1432 43171.580 1863785345.581
14 458 0.0325 3045 93603.832 8761677342.194
15 184 0.0131 1003 76745.853 5889925992.739
16 174 0.0124 834 67482.103 4553834285.804
17 184 0.0131 1003 76745.853 5889925992.739
18 285 0.0202 2852 140888.800 19849653965.440
19 621 0.0441 4528 102656.541 10538365422.979
20 111 0.0079 632 80161.514 6425868248.777
21 374 0.0266 877 33014.126 1089932493.652
22 64 0.0045 589 129570.797 16788591402.823
23 516 0.0367 1553 42373.424 1795507096.959
1703345.530 147356252987.120

Superficie totale X = 14079 ha.

On obtient un estimateur non biaisé de la moyenne de la population par l’équation (5.49).


Yˆ =
1
(1703345.530 )
(23)(69 )
= 1073.312
Et une estimation de la variance de Yˆ à l’aide de l’équation (5.50).
()
Vˆ Yˆ =
1
23( 23 − 1) (69 )
2
(147356252987.120 - (23)(67618.632))
= 17514.6

Et l’erreur-type de Y est 17514.6 = 132.343.

- 173 -
6. CAS PARTICULIERS

En recherche forestière, un certain nombre de cas sont étudiés à l’aide d’applications statistiques
autres que les plans ou techniques classiques d’analyse ou d’échantillonnage. Ces méthodes
particulières sont entièrement subordonnées aux concepts afférents aux disciplines considérées de
sorte que, pour bien comprendre toutes leurs implications, il est indispensable d’avoir une bonne
maîtrise des statistiques et des disciplines en jeu. Quelques-uns de ces cas particuliers seront
brièvement examinés dans ce chapitre. On notera que chacun des cas décrits ci-dessous a été assez
largement développés et que cette section ne représente qu’un ensemble de base. Nous invitons nos
lecteurs à se reporter, le cas échéant, à d’autres ouvrages, pour mieux comprendre les variations
possibles, aussi bien dans la structure des données que dans la forme d’analyse.

6.1. La génétique et l’amélioration des plantes

6.1.1. Estimation de l’héritabilité et du gain génétique


Les variations observées dans un groupe d’individus comprennent une part de variation génétique,
ou héréditaire, et une part de variation non héréditaire. La fraction héréditaire de la variation totale
est appelée coefficient d’héritabilité au sens large. La variance génotypique peut elle-même être
subdivisée en variance génétique additive et non additive. Le rapport de la variance génétique
additive à la variance phénotypique totale est appelé coefficient d’héritabilité au sens strict et est
désigné par h2. On a donc,

variance génétique additive


h2 =
variance génétique additive + variance génétique non aditive + variance environnem ental

Le gain génétique ou amélioration génétique par génération peut être défini comme l’augmentation de
la productivité dérivant d’un changement de la fréquence génique dû le plus souvent à la sélection.

L’héritabilité et le gain génétique peuvent être évalués par deux méthodes, au choix. L’estimation la
plus directe est dérivée de la relation entre les parents et leur descendance, et s’obtient en mesurant
les parents, en cultivant leurs descendants et en les mesurant. L’autre méthode consiste à examiner la
descendance de familles pleinement ou à demi apparentées, de faire une analyse de la variance et de
calculer l’héritabilité comme fonction des variances. Dans ce contexte, il est indispensable de
posséder une connaissance approfondie des statistiques pour comprendre la partie théorique. Les
formules que l’on trouvera plus loin dans cette section ne sont données qu’à titre de référence. De
plus, nous avons volontairement renoncé à couvrir les multiples variations qui pourraient résulter
d’irrégularités dans le plan. Nous illustrerons ce qui précède à l’aide d’un testage de la descendance
de familles à demi apparentées, qui est le plus utilisé dans le secteur forestier en raison de sa
simplicité.

Les estimations de l’héritabilité et du gain génétique s’appliquent exclusivement aux expériences à


partir desquelles elles ont été obtenues. Il suffit parfois d’en modifier un léger détail pour obtenir des
résultats tout à fait différents. Il est donc recommandé, lorsque l’on décrit les expériences,
d’accompagner le plan expérimental et les procédures de calcul des détails et des explications

- 174 -
Cas particuliers

voulus. Il est bon également d’établir la fiabilité statistique de chaque estimation de l’héritabilité, c’est
pourquoi les formules permettant de la calculer figurent aussi dans cette section. Pour en savoir plus,
le lecteur pourra se référer à Falconer (1960), Jain (1982) et Namkoong et al. (1966).

Nous illustrerons ces techniques à l’aide des données du Tableau 6.1, obtenues à l’issue d’un essai
sur la descendance de bambous conduit à Vellanikkara et Nilambur, dans le Kerala ; le testage
portait sur 6 familles, et a été répété 3 fois pour chaque station, sur des parcelles de 6 arbres
chacune. Les données du Tableau 6.1 faisaient partie d’un plus grand ensemble.

Tableau 6.1. Données sur la hauteur issues d’un test sur la descendance de bambous, avec
répétitions, conduit sur deux stations, dans le Kerala.

Hauteur (en cm) deux ans après la plantation


Site I - Vellanikkara Site II – Nilambur
Famille Famille
Bloc Arbre 1 2 3 4 5 6 1 2 3 4 5 6
1 1 142 104 152 111 23 153 24 18 18 31 95 57
2 95 77 98 29 48 51 58 50 24 26 42 94
3 138 129 85 64 88 181 32 82 38 30 43 77
4 53 126 118 52 27 212 27 23 65 86 76 39
5 95 68 25 19 26 161 60 56 46 20 41 82
6 128 48 51 25 26 210 75 61 104 28 49 29
2 1 185 129 78 28 35 140 87 26 78 25 29 54
2 117 131 161 26 21 79 102 103 57 37 72 56
3 135 135 121 25 14 158 74 55 60 52 83 29
4 155 88 124 76 34 93 102 43 26 139 40 67
5 152 75 118 43 49 151 20 100 59 49 24 42
6 111 41 61 86 31 171 80 98 70 97 54 47
3 1 134 53 145 53 72 109 54 58 87 17 25 38
2 35 82 86 32 113 50 92 47 93 23 30 38
3 128 71 141 24 37 64 89 33 70 29 26 36
4 89 43 156 182 19 82 144 108 47 30 36 72
5 99 71 121 22 24 77 100 70 26 87 24 106
6 29 26 55 52 20 123 92 46 40 31 37 61

Pour estimer l’héritabilité et le gain génétique, sur la base d’un examen de la descendance de familles
à demi apparentées, on procède en plusieurs étapes:

- 175 -
Cas particuliers

*Etape 1. Etablir un test de la descendance répété portant sur la descendance obtenue par
pollinisation libre de f familles, répétée b (pour bloc) fois sur chacune des s stations, sur des
parcelles de n arbres. Mesurer un caractère, comme la hauteur, et calculer l’analyse de la
variance comme indiqué dans le Tableau 6.2. La descendance d’une plante femelle
quelconque constitue une famille.

Tableau 6.2. Représentation schématique de l’analyse de la variance relative à un test de la


descendance de familles à demi-apparentées pratiqué sur plusieurs plantations.
Source de variation Degré de liberté Somme des Carré moyen
(df) carrés  SS 
 MS = 
(SS)  df 
Station s-1 SSS MSS
Bloc dans la station s (b - 1) SSB MSB
Famille f-1 SSF MSF
Famille x Site (f - 1)(s - 1) SSFS MSFS
Famille x Bloc s(f - 1) (b - 1) SSFB MSFB
dans la station
Arbre dans la bsf (n - 1) SSR MSR
parcelle

Les formules permettant de calculer les différentes sommes des carrés de la table d’analyse de la
variance sont données plus loin, de même que la formule du facteur de correction (C.F.). Soit yijkl
l’observation correspondant au l-ème arbre appartenant à la k-ème famille du j-ème bloc dans la i-
ème station. Soit G le total général, Si le total de la i-ème station, Fk le total de la k-ème famille,
(SB)ij le total du j-ème bloc dans la i-ème station, (SF)ik le total de la k-ème famille dans la i-ème
station, (SBF)ijk le total de la k-ème famille dans le j-ème bloc de la i-ème station.
G2
CF = (6.1)
sbfn
15418.00 2
=
(2)(3)(6)( 6)
=1100531.13

s b f n
SSTO = ∑∑∑ ∑ y
i =1 j=1 k =1 l =1
2
ijkl − C.F. (6.2)

= (142)2+(95)2+…….+(61)2 - 1100531.13

= 408024.87

∑S 2
i
SSS = i =1
− C.F. (6.3)
bfn

- 176 -
Cas particuliers

(9334.00) 2 + ( 6084.00) 2
= -1100531.13
(3)(6)(6)
= 48900.46
s b

∑ ∑ (SB) 2
ij
i =1 j =1
SSB = − C. F. - SSS (6.4)
fn
(3238.00) 2 + (3377.00) 2 + ...... + (2042.00) 2
= -1100531.13 - 48900.46
(6)(6)
= 9258.13

∑F k
2

SSF = k =1
− C.F. (6.5)
sbn
(3332.00) 2 + (2574.00) 2 + ..... + (3289.00) 2
= - 1100531.13
(2)(3)(6)
= 80533.37

s b

∑∑ (SF)
i =1 j =1
2
ik

SSFS = − C. F. - SSS - SSF (6.6)


bn
(2020.00) 2 + (1497.00) 2 + ...(1024.00) 2
= - 1100531.13 - 48900.46 - 80533.37
(3)(6)
= 35349.37

s b f

∑∑∑ (SBF)
i =1 j=1 k =1
2
ijk

SSFB = − C. F. - SSS - SSB - SSF - SSFS (6.7)


n
(651.00) 2 + (552.00) 2 + .... + (351.00) 2
= - 1100531.13 - 48900.46 -
(6)
9258.13 - 80533.37 - 35349.37
= 45183.87

SSR = SSTO − SSS - SSB - SSF - SSFS - SSFB (6.8)


= 408024.87 - 48900.46 - 9258.13 - 80533.37 -35349.37 - 45183.87
= 188799.67

Les carrés moyens se calculent de la manière habituelle en divisant les sommes des carrés par leurs
degrés de liberté. Les résultats qui précèdent peuvent être mis en tableau (voir Tableau 6.3).

- 177 -
Cas particuliers

Tableau 6.3. Table d’analyse de la variance pour un testage de la descendance de familles à


demi-apparentées, pratiqué sur plusieurs plantations, à partir des données du Tableau 6.1.
Source de variation Degré de liberté Sommes des Carré moyen
(df) carrés  SS 
 MS = 
(SS)  df 
Station 1 48900.46 48900.46
Bloc-dans la 4 9258.13 2314.53
station
Famille 5 80533.37 16106.67
Famille x station 5 35349.37 7069.87
Famille x Bloc- 20 45183.87 2259.19
dans la station
Arbre- dans la 180 188799.67 1048.89
parcelle

En général, dans les études statistiques, on divise de plusieurs manières les carrés moyens les uns par
les autres pour obtenir des valeurs de F qui servent ensuite à tester la signification. Toutefois, comme
les carrés moyens sont par nature complexes, puisqu’ils contiennent généralement des variabilités
dues à plusieurs facteurs, on les fractionne en composantes de la variance selon les équivalents
présentés dans le Tableau 6.4.

Tableau 6.4. Composantes de la variance des carrés moyens pour un test de la descendance de
familles à demi-apparentées, pratiqué dans plusieurs plantations.
Source de variation Composantes de la variance des carrés moyens
Station Ve + n Vfb + n b Vfs + nf Vb + nfb Vs
Bloc-dans la station Ve + n Vfb + nf Vb
Famille Ve + n Vfb + n b Vfs + nbs Vf
Famille x Station Ve + n Vfb + nb Vfs
Famille x Bloc- Ve + n Vfb
dans la station
Arbre- dans la parcelle Ve

Dans le Tableau 6.4, Ve , Vfb , Vfs , Vf , Vb , et Vs sont les variances dues respectivement à l’arbre
dans la parcelle, à la famille x bloc dans la station, à la famille, au bloc dans la station, et à la station.

*Etape 2. Une fois les carrés moyens calculés, identifier chacun d’entre eux à sa composante de la
variance, comme dans le Tableau 6.4. Commencer par le bas du tableau de manière à
calculer les variances suivantes par un processus de soustraction et division. Pour ce faire,
soustraire le carré moyen dans la parcelle (Ve) du carré moyen famille x bloc (Ve + nsVfb)
pour obtenir nsVfb ; diviser ensuite par ns pour obtenir Vfb. Procéder de la même manière
jusqu’au haut du tableau.

*Etape 3. Après avoir calculé les variances, évaluer l’héritabilité des moyennes des familles à demi-
apparentées.

- 178 -
Cas particuliers

Vf
Héritabilité de la Famille = (6.9)
Ve Vfb Vfs
+ + + Vf
nbs bs s
251.02
=
1048.89 201.72 267.26
+ + + 251.02
(6)(3)(2) (3)(2) ( 2)
= 0.1600

En général, la sélection se fait sur la base des moyennes familiales, plus fiables que les moyennes par
parcelle ou par arbre.

*Etape 4. Si la sélection est basée sur les performances d’arbres individuels, on calcule l’héritabilité
individuelle. Dans un test de la descendance de familles à demi-apparentées, les différences
entre familles représentent un quart seulement de la variance génétique additive ; le reste
représente les variations au sein des familles. On multiplie donc Vf par 4 lorsque l’on calcule
l’héritabilité individuelle. En outre, comme la sélection est basée sur des arbres individuels,
toutes les variances sont insérées en totalité dans le dénominateur. La formule donnant
l’héritabilité individuelle est donc,
4Vf
Héritabilité individuelle = (6.10)
Ve + Vfb + Vfs + Vf
( 4)( 251.02)
=
1048.89 + 201.72 + 267.26 + 251.02
= 0.5676

Si les familles ne sont testées que dans une seule plantation, les procédures de test et de calcul sont
très simplifiées. Au total, les degrés de liberté sont nfb -1; les carrés moyens et les variances de la
station et de la famille x station sont éliminés du Tableau 6.2. Les familles ne sont mesurées que sur
une station, alors qu’elles pourraient avoir une croissance très différente ailleurs. La valeur calculée
de Vf est en réalité une combinaison de Vf et Vfs. L’héritabilité calculée à partir des données
provenant d’une seule plantation est donc surévaluée.

L’enregistrement et l’analyse de données concernant un arbre individuel sont les phases les plus
laborieuses, puisqu’elles absorbent souvent 75% des efforts de mesure et de calcul. Si les données
sont analysées en termes de moyenne par parcelles plutôt que de moyennes par arbre, les
estimations de Vfb, Vfs, et Vf ne varient pas, mais Ve ne peut pas être déterminé. Le terme (Ve/nbs)
est souvent si petit qu’il est sans incidence sur l’estimation de l’héritabilité familiale. L’héritabilité
individuelle est en revanche légèrement surévaluée si l’on omet Ve. On gagnera du temps en ne
prenant en considération que les moyennes familiales sur des stations différentes, c’est à dire en
calculant seulement Vfs et Vf . Normalement, l’élimination du terme Vfb/bs entraîne une légère
surestimation de l’héritabilité familiale, alors que la suppression du terme Vfb peut être à l’origine
d’une surévaluation plus importante de l’héritabilité individuelle.

*Etape 5. Calculer l’erreur type de l’estimation de l’héritabilité individuelle grâce à l’expression,

- 179 -
Cas particuliers

1 − h )[1 + ( nbs − 1) h ]
( 2 2

SE( h ) =
2 4 4 (6.11)
[( ) ]
1

2 (nbs − 1)(f − 1)
nbs 2

=
( )[
1 − 0.5676 4 1 + ((6)( 3)( 2) − 1) 0.5676 4 ]
1
 ( 6)(3)( 2)  (( 6)(3)( 2) − 11)(6 − 1) 2
 2  
= 0.0036

L’erreur type de l’héritabilité familiale est approximativement donnée par,


SE( h 2 ) ≅ (1 − t )(1 + nbst )1 (6.12)
[(nbs )(f − 1) 2] 2

(1 − 0.1419 )(1 + (6)( 3) (2)( 0.1419) )
[(( 6)(3)( 2) )(6 − 1) 2]2
1

≅ 0.5525

où t est la corrélation au sein d’une classe (ou corrélation intraclasse), égale à un quart de
l’héritabilité individuelle.

Les formules précédentes sont correctes si Ve = Vfb = Vfs. Toutefois, si l’une de ces quantités est
nettement supérieure aux autres, le terme nbs sera réduit en conséquence. Par exemple, si, Vfs est
nettement supérieur à Vfb ou Ve , on peut remplacer nbs par s.

L’estimation de l’héritabilité familiale calculée plus haut s’applique exclusivement dans le cas où les
familles sélectionnées sont celles qui ont les meilleures performances globales dans toutes les
plantations. Il arrive qu’un sélectionneur choisisse des familles qui ne sont supérieures que dans une
seule plantation. Dans ce cas, l’héritabilité familiale se calcule comme précédemment, mais en
remplaçant Vfs par Vfs/s au dénominateur.

Si un sélectionneur se base sur les moyennes de parcelles, seule l’héritabilité familiale est calculée
selon la formule ci-dessus, à la différence près que Vfs et Vfb sont respectivement remplacés par Vfs
/s et Vfb /bs au dénominateur.

*Etape 6. Pour calculer le gain génétique à partir d’un test de la descendance de familles à demi
apparentées, on utilise la formule permettant d’obtenir l’amélioration génétique dérivant
d’une sélection familiale.
Gain Génétique = Différentiel de sélection x Héritabilité familiale (6.13)
où Différentiel de sélection = (Moyenne des familles sélectionnées – moyenne de toutes les familles)

- 180 -
Cas particuliers

Pour calculer le gain attendu d’une sélection de masse dans un tel test de la descendance, on utilise la
formule,
Gain attendu de la sélection de masse = Différentiel de sélection x héritabilité individuelle
(6.14)
où Différentiel de sélection = (Moyenne des arbres sélectionnés – Moyenne de tous les arbres)

6.1.2. Interaction génotype - environnement


Le phénotype d’un individu est la résultante de son génotype et du milieu dans lequel il se développe.
Les effets d’un génotype et de l’environnement ne sont pas toujours indépendants. Une différence
particulière dans l’environnement peut avoir plus d’effet sur certains génotypes que sur d’autres, et le
classement des génotypes peut varier s’ils sont mesurés dans des environnements différents. Ce jeu
réciproque d’effets génétiques et non génétiques sur l’expression phénotypique est appelé interaction
génotype - environnement. Lorsqu’un génotype réagit différemment à une série d’environnements,
cela signifie que cette interaction existe.

L’environnement d’un individu est fait de tout ce qui a une influence sur son développement, à
l’exception de son génotype. On peut donc dire que l’environnement est la somme de tous les
facteurs non-génétiques externes à l’organisme. Comstock et Moll (1963) font une distinction entre
le micro et le macro-environnement. Le micro-environnement est celui d’un seul organisme, à
l’exclusion de tout autre qui se développerait en même temps et pratiquement au même endroit. Plus
spécifiquement, les différences micro-environnementales sont des fluctuations de l’environnement qui
se produisent même lorsque des individus sont apparemment soumis à des traitements identiques. En
revanche, le terme macro-environnement désigne l’ensemble des environnements, potentiels ou
effectifs, dans une zone et une période de temps déterminées. Un macro-environnement est donc en
quelque sorte l’ensemble des micro-environnements qu’il pourrait contenir. Les différences de
stations, de climat et même de pratiques de gestion sont des exemples de différences macro-
environnementales. On notera que l’effet d’un micro-environnement sur un organisme, et ses
interactions avec différents génotypes sont habituellement très faibles. De plus, étant donné qu’un
micro-environnement est par nature incontrôlable et imprévisible, ses interactions avec les génotypes
sont difficilement discernables. En d’autres termes, seule la déviation macro-environnementale et
son interaction avec un génotype peuvent être isolées et soumises à un test de signification.

L’une des méthodes employées pour détecter une interaction génotype-environnement consiste à
analyser les données provenant d’un essai multi-stations, comme dans le Tableau 6.2, et à tester la
signification du terme d’interaction Famille x Station. On compare la valeur calculée de F à sa valeur
tabulaire dans le cas de (f-1)(s-1) et s(f-1)(b-1) degrés de liberté (Voir Tableau 6.5).

Si l’interaction n’est pas significative ou ne comporte pas de différences notables de classement entre
les meilleures familles ou clones, celles-ci peuvent être ignorées et les sélections seront faites sur la
base de la performance moyenne du génotype, sur toutes les stations examinées. En revanche, si les
interactions sont importantes et peuvent être assez bien interprétées pour pouvoir déterminer à
l’avance les endroits où certains génotypes auront une croissance excellente ou, au contraire,
médiocre, elles ne peuvent pas être ignorées. Pour déterminer si elles sont significatives, on procède
comme suit : Regrouper les données provenant de plusieurs plantations suivant les caractéristiques de
la station (nord/sud ; sec/humide ; peu fertile/fertile). Déterminer la quantité d’interaction à l’intérieur
de ces groupes et entre eux. Si une part importante de l’interaction peut être imputable au

- 181 -
Cas particuliers

regroupement, faire des sélections distinctes pour les stations représentatives de chaque groupe de
plantation. Ensuite, la procédure correcte consiste à faire une analyse de variance distincte et une
estimation de l’héritabilité pour chaque groupe de plantation au sein duquel les interactions sont trop
faibles ou trop difficiles à interpréter pour avoir une signification pratique.

Tableau 6.5. Analyse de la variance pour un test multi-plantations de la descendance de familles à


demi-apparentées.
Sources de Degrés de Somme Carré F F
variation liberté des carrés moyen calculé Tabulaire5
%
Station 1 48900.46 48900.46
Bloc dans la 4 9258.13 2314.53
station
Famille 5 80533.37 16106.67
Famille x station 5 35349.37 7069.87 MSFS 2.71
=3.97*
MSFB
Famille x bloc 20 45183.87 2259.19
dans la station
Arbre dans la 180 188799.67 1048.89
parcelle
* Significatif au seuil de 5% .

Une autre approche consiste à utiliser la technique de régression pour répartir la composante de
variabilité de l’interaction génotype – environnement entre ses fractions linéaires et non linéaires, en
vue d’évaluer la stabilité des génotypes sur une série d’environnements (Freeman et Perkins, 1971).
Un examen plus approfondi de cette méthode n’a pas sa place dans cette section.

6.1.3. Plans de vergers à graines


Un verger à graines est une plantation d’arbres génétiquement supérieurs, isolés pour réduire la
pollinisation de sources externes génétiquement inférieures, et gérée de manière intensive pour
produire des récoltes de graines fréquentes, abondantes et faciles à ramasser. Pour ce faire, on
désigne des clones (sous la forme de greffons ou de boutures) ou des plantules descendant d’arbres
sélectionnés pour les caractéristiques recherchées. La présente section décrit certains plans utilisés
pour l’établissement de vergers à graines, principalement à des fins statistiques. Des ouvrages sur
l’amélioration génétique des arbres, comme celui de Wright (1976) et Faulkner (1975) donnent des
informations sur plusieurs autres aspects de la planification des vergers à graines, notamment sur le
type de clones ou de plantules utilisés pour la plantation, le nombre de clones ou de familles, les
écartements de plantation, et sur d’autres éléments connexes.

Dans le cas de vergers à graines de clone, les plants d’un même clone sont appelés ramets.
Toutefois, dans cette section, les termes “clone ” ou “ramet ”, tels qu’ils s’appliquent dans des
vergers à graines de clones, sont utilisés à des fins descriptives. On peut adopter des plans analogues
pour les vergers à graines de plantule, et dans ce cas on dira “ descendance ” au lieu de “ clone ” et
“ parcelle familiale ” au lieu de “ ramet ”. Les parcelles familiales peuvent être composées d’un seul
arbre ou de groupes de plusieurs arbres.

- 182 -
Cas particuliers

Un plan entièrement randomisé (PER) avec sélection entièrement aléatoire de tous les ramets
disponibles de tous les clones, entre toutes les positions de plantation disponibles sur la station, est le
plus simple à concevoir, sur le papier. Toutefois, sa réalisation pose parfois des problèmes liés à la
plantation, ou au greffage in situ et à la réimplantation de chaque ramet à un stade ultérieur, en
particulier si le verger est grand et contient de nombreux clones. S’il est prévu de pratiquer des
éclaircies systématiques en enlevant un arbre sur deux ou un rang sur deux, le plan peut être encore
amélioré en faisant des randomisations distinctes pour les ramets qui doivent être laissés en place et
pour ceux qui seront supprimés lors des éclaircies. Assez souvent, la randomisation est limitée par
des restrictions, par exemple par une interdiction de planter deux ramets du même clone l’un à côté
de l’autre à l’intérieur des rangées ou des colonnes, ou bien dans des positions adjacentes, en
diagonale ; ou qu’au moins deux ramets différents s’intercalent entre des ramets du même clone. Ces
restrictions supposent généralement de manipuler les positions des ramets sur le plan, qui perd alors
son caractère purement aléatoire, mais il est rare que cette perte soit réellement significative. Cette
stratégie vise essentiellement à éviter les risques de consanguinité.

Nous illustrerons ce qui précède par la représentation graphique d’un plan entièrement randomisé
comportant une dizaine de répétitions, relatif à dix clones plantés, avec un anneau d’isolation.

Figure 6.1. Représentation schématique d’un PER, comportant dix répétitions, concernant 10
clones, avec un anneau d’isolation autour des ramets de chaque clone.
4 7 4 8 5 10 7 6 4 7
8 3 9 1 2 1 3 5 3 5
6 1 5 3 10 5 10 9 7 10
8 4 2 1 9 7 6 3 5 8
5 7 3 6 2 3 5 2 10 2
1 10 4 7 10 6 8 4 1 5
9 7 6 3 5 2 7 3 6 2
1 5 2 10 1 3 10 5 4 9
8 10 4 7 5 7 8 2 1 6
7 2 8 6 1 4 6 7 10 4

Ces concepts peuvent être élargis aux plans expérimentaux en blocs aléatoires complets (PEBAC)
ou aux plans en blocs incomplets, comme les treillis examinés dans le chapitre 4 de ce manuel, qui
permettent de contrôler plus facilement la composante d’erreur. Toutefois, la randomisation à
l’intérieur des blocs est ordinairement modifiée pour respecter les restrictions concernant la proximité
des ramets d’un même clone. Ces plans d’expérience sont surtout appropriés pour les études
comparatives de clones, mais ils ont des inconvénients, notamment : le PEBAC ne fonctionne pas
bien avec un grand nombre de clones ; les treillis et les autres plans en blocs incomplets ne sont
disponibles que pour certaines combinaisons déterminées de nombre de clones et de nombres de
ramets par clone, et sont inapplicables dans le cas d’éclaircies systématiques qui détruiraient le plan.
La Bastide (1967) a mis au point un programme informatique qui fournit un plan réalisable pour des
nombres déterminés de clones, de ramets par clone, et pour un rapport déterminé entre les lignes et
les colonnes. Ce programme comporte deux contraintes : premièrement, il faut un double anneau de
clones différents pour isoler chaque ramet d’un même clone (qui sont plantés dans des rangs
disposés en quinconce) ; une combinaison quelconque de deux clones adjacents ne peut se trouver

- 183 -
Cas particuliers

qu’une seule fois dans une direction spécifique quelconque (voir Figure 6.2.). Ce plan peut être
appelé “ plan de permutation des combinaisons de voisinage ”.

Figure 6.2. Fragment d’un plan de permutation des combinaisons de voisinage relatif à 30 clones,
avec les restrictions au caractère aléatoire imposées par La Bastide (1967) dans son programme
informatique, à savoir i) 2 anneaux de clones différents isolent chaque ramet, et ii) une combinaison
quelconque de deux clones adjacents ne peut pas se retrouver plus d’une fois dans une direction
spécifique quelconque.

16 22 18 24 10 23

21 5 29 3 19 5 1
15 23 14 22 30 24

6 4 26 7 25 8 3

21 22 12 20 27 26

5 8 6 9 10 7 15

25 23 2 29 8 2

L’idéal est que le plan soit construit pour un nombre de répétitions égal au nombre de clones diminué
de un, de façon à ce que chaque clone se trouve à côté de chaque autre clone une fois dans chacune
des six directions possibles. Pour trente clones, il faudrait donc 29 ramets par clone, soit au total 870
greffons, même s’il n’est pas toujours possible de construire des plans de cette taille. Même dans ce
cas, les petits blocs qui ont été créés sont pour l’instant les meilleurs plans dont on dispose pour
garantir, au moins en théorie, la permutation maximale des combinaisons de voisinage et la
production minimale de frères complets dans la descendance du verger. Chakravarty et Bagchi
(1994) et Vanclay (1991) décrivent de bons programmes d’ordinateur permettant de construire des
plans de permutation de voisinage relatifs à des vergers à graines..

Lorsque l’on établit des vergers à graines, on part ordinairement de l’hypothèse que chaque clone
(ou ramet, ou parcelle familiale ou plantule) du verger fleurira à la même période ; aura le même
cycle de grosse floraison périodique ; sera complètement inter fécondable avec tous ses voisins et
produira un nombre identique de semences viables par plant; aura le même degré de résistance à
l’autostérilité ; et aura un taux de croissance et une forme de couronne similaires à tous les autres
plants. Comme chacun sait, il n’en est, et n’en sera probablement jamais ainsi. Pour obtenir de bons
résultats, un sélectionneur doit être patient et observateur et rassembler sans relâche toutes les
informations essentielles sur le comportement des clones, leurs compatibilités et leurs facultés de
combinaison, et en tenir compte pour améliorer les générations prochaines et successives de vergers
à graines. Ce type de plans utilise le maximum de données existantes.

- 184 -
Cas particuliers

6.2. Dendrométrie

6.2.1. Equations de volume et de biomasse


Dans de nombreux domaines de recherche forestière, comme la sylviculture, l’écologie ou la science
du bois, on doit déterminer le volume ou la biomasse des arbres, le plus souvent, d’une partie
spécifique de l’arbre. Comme les méthodes physiques de mesure du volume et de la biomasse sont
destructrices, on peut recourir à des équations préétablies pour obtenir des estimations de ces
caractéristiques. Ces équations varient d’une espèce à l’autre, et pour une espèce donnée, d’un
peuplement à l’autre. Les estimations se rapportant à un seul arbre manquent parfois de précision,
mais elles sont valables si on les refait pour plusieurs arbres, et si l’on additionne les résultats, comme
pour calculer le volume d’un peuplement. Dans tous les cas où l’on ne dispose pas d’une équation
appropriée, on devra établir une équation prédictive. Il faut pour cela déterminer le volume ou la
biomasse réels d’un ensemble d’arbres-échantillons et les relier, par une analyse de la régression, à
des mesures non-destructrices telles que le diamètre à hauteur d’homme ou la hauteur des arbres.

(i) Mesure du volume et de la biomasse d’un arbre


La détermination du volume d’une partie spécifique de l’arbre, telle que le fût ou une branche,
s’obtient, en général, en découpant la partie considérée en grumes, puis en mesurant celles-ci. Les
grumes coupées aux fins de la recherche font généralement 3 mètres de long, sauf celle de l’extrémité
supérieure qui peut mesurer jusqu’à 4,5m. Cependant, si le dernier tronçon fait plus de 1,5m de
long, on le considère comme une grume et on le met de côté. Le diamètre, ou la circonférence, se
mesure au centre et aux deux extrémités de la grume, ou en bas, au milieu et au sommet des grumes,
selon le cas. On mesure aussi la longueur de chaque grume. Les mesures peuvent être prises sur ou
sous écorce, après l’avoir enlevée. Selon les mesures dont on dispose, on peut calculer le volume de
chaque grume à l’aide de l’une des formules du tableau ci-dessous.
Volume de la grume Observations
(b + t ) l
2 2
Formule de Smalian

 m2  Formule de Huber
 l
 4π 
( )
b 2 + 4 m2 + t 2 l
24π Formule de Newton
où b est la circonférence de la base de la grume,
m est la circonférence de la partie centrale de la grume
t est la circonférence du fin bout de la grume
l est la longueur ou la hauteur de la grume

Pour expliquer le calcul du volume d’un arbre à l’aide des formules ci-dessus, nous prendrons les
données sur la longueur et la circonférence (du bas, du milieu et du bout) de différentes grumes d’un
arbre, reprises dans le Tableau 6.6.

Tableau 6.6. Circonférences (du bas, du milieu et du bout) et longueurs des grumes d’un teck.

- 185 -
Cas particuliers

Circonférence (cm) Volume des grumes (cm)3


Numéro Bas Milieu Bout Longueur Formule de Formule de Formule de
de la (b) (m) (t) (l) Smalian Huber Newton
grume
1 129.00 99.00 89.00 570.00 556831.70 444386.25 481868.07
2 89.00 90.10 91.00 630.00 405970.57 406823.00 406538.86
3 64.00 60.00 54.90 68.00 19229.35 19472.73 19391.60
4 76.00 85.00 84.60 102.00 52467.48 58621.02 56569.84
5 84.90 80.10 76.20 111.00 57455.84 56650.45 56918.91
Total 1091954.94 985953.45 1021287.28

En additionnant les volumes de chaque grume, on obtiendra la valeur du volume de l’arbre ou de la


partie considérée. On peut exprimer ce volume en m3 en divisant la valeur obtenue (en (cm)3) par
1000.000.

Dans le commerce du bois, la mesure utilisée est généralement le volume, mais certains produits
comme le bois de feu ou le bois de trituration se vendent aussi au poids. Le poids est aussi la mesure
standard pour de nombreux produits forestiers mineurs. En recherche, on se réfère de plus en plus
souvent à la biomasse. Il est certes plus facile de déterminer le poids plutôt que le volume, mais
divers problèmes, comme le caractère variable de la teneur en humidité et de l’épaisseur de l’écorce,
font que cette mesure n’est pas fiable. On exprime donc en général la biomasse en poids sec des
parties de l’arbre (tronc, branches, et feuilles). On utilise des méthodes destructrices pour déterminer
la biomasse d’arbres individuels, en les abattant et en séparant les parties, comme le tronc, les
branches, les rameaux et les feuilles. Il importe de bien définir toutes les parties constituantes de
l’arbre: par exemple, tout matériel issu du tronc, dont la circonférence mesurée sur écorce est
inférieure à 10 cm, fait partie du bois des branches. Les différentes parties doivent être pesées
immédiatement après l’abattage. Si l’on veut obtenir des poids séchés à l’étuve, les échantillons sont
prélevés à ce stade. Au moins trois échantillons d’environ 1 kilo doivent être prélevés sur le tronc,
les branches et les rameaux de chaque arbre ; ensuite il faut les peser et les emporter au laboratoire
pour le séchage à l’étuve. Le poids sec total de chaque partie constituante de l’arbre est ensuite
estimé en appliquant le rapport poids frais / poids sec observé dans l’échantillon, au poids frais total
correspondant des parties constituantes de l’arbre. Par exemple,
Total DW du fut =
DW des échantillo ns du fut
(Total FW du fut ) (6.15)
FW des échantillo ns du fut
où FW = Poids frais
DW = Poids sec

- 186 -
Cas particuliers

Pour illustrer ceci par un exemple, nous prendrons les données du Tableau 6.7.

Tableau 6.7. Poids frais et poids sec de disques-échantillons prélevés sur le fût d’un arbre
Disque Poids frais Poids sec
(kg) (kg)
1 2.0 0.90
2 1.5 0.64
3 2.5 1.37
Total 6.0 2.91

Total DW du fut =
DW des échantillo ns du fut
(Total FW du fut )
FW des échantillo ns du fut

DW total du fût de l’arbre = 460.8 kg

(ii) Estimation d’équations allométriques


Les données sur le volume ou la biomasse ainsi que sur le diamètre à hauteur d’homme (dbh) et la
hauteur issues de l’observation d’arbres-échantillons, sont utilisées pour développer des équations
prédictives, à l’aide de techniques de régression. Pour les équations de biomasse, on prend parfois
comme variable de régression un diamètre mesuré à un point plus bas que la hauteur de poitrine. Le
volume, ou la biomasse, est la variable dépendante et les fonctions du dbh et de la hauteur sont les
variables indépendantes de la régression. On trouvera ci-dessous quelques formes classiques
d’équations prédictives du volume ou de la biomasse.
y = a + b D + c D2 (6.16)

ln y = a + b D (6.17)

ln y = a + b ln D (6.18)

y0.5 = a + b D (6.19)

y = a + b D2H (6.20)

ln y = a + b D2H (6.21)

y0.5 = a + b D2H (6.22)

ln y = a + b ln D + c ln H (6.23)

y0.5 = a + b D + c H (6.24)

y0.5 = a + b D2 + c H + d D2H (6.25)

- 187 -
Cas particuliers

Dans toutes ces équations, y représente le volume ou la biomasse de l’arbre, D est son diamètre
mesuré, de manière uniforme pour tous les arbres-échantillon, à hauteur d’homme ou à un point plus
bas, H sa hauteur et a, b, c des coefficients de régression (ln indique le logarithme naturel).

En général, plusieurs formes d’équations sont adaptées aux données, et la plus appropriée est choisie
sur la base de certaines mesures, comme le coefficient de détermination ajusté, ou l’indice de
Furnival. Ce dernier doit impérativement être utilisé si l’on doit comparer des modèles comprenant
des variables dépendantes de formes différentes.
n-1
R 2 adapté = 1 − (1-R 2 ) (6.26)
n-p
où R2 est le coefficient de détermination, donné par le rapport de la somme des carrés de régression
à la somme totale des carrés (voir Section 3.7)
n est le nombre d’observations concernant la variable dépendante
p est le nombre de paramètres intervenant dans le modèle

L’indice de Furnival se calcule comme suit. Pour chaque modèle intervenant dans l’analyse de la
variance, on calcule la racine carrée du carré moyen de l’erreur. A partir des observations, on
détermine, pour chaque modèle, la moyenne géométrique de la dérivée de la variable dépendante
par rapport à y. La moyenne géométrique d’un ensemble de n observations est définie par la racine
n-ème du produit des observations. L’indice de Furnival de chaque modèle s’obtient ensuite en
multipliant les valeurs correspondantes de la racine carré du carré moyen de l’erreur par l’inverse de
la moyenne géométrique. Par exemple, la dérivée de ln y est (1/y) et l’indice de Furnival est dans ce
cas,
 1 
Indice de Furnival = MSE  
 Moyenne géométriqu e ( )
y −1 

(6.27)
0.5 - 0.5
La dérivée de y est (1/2)(y ) ; l’Equation (6.27) devra donc être modifiée en conséquence si la
variable dépendante est y0.5.

A titre d’exemple, prenons les données du Tableau 6.8 sur le poids sec et le diamètre à hauteur
d’homme de 15 acacias.

- 188 -
Cas particuliers

Tableau 6.8. Poids sec et dbh de 15 acacias.


N° de Poids sec (en tonnes) Dbh (en m)
l’arbre (y) (D)
1 0.48 0.38
2 0.79 0.47
3 0.71 0.44
4 1.86 0.62
5 1.19 0.54
6 0.51 0.38
7 1.04 0.50
8 0.62 0.43
9 0.83 0.48
10 1.19 0.48
11 1.03 0.52
12 0.61 0.40
13 0.68 0.44
14 0.20 0.26
15 0.66 0.44

Avec les données qui précèdent, deux modèles de régression y = a + b D + c D2 et


ln y = a + b D ont été ajustés à l’aide de l’analyse de régression multiple décrite dans Montgomery
et Peck (1982),. Pour ces deux modèles, on a calculé la valeur ajustée de R2 et l’indice de Furnival.
Les résultats sont reportés dans les tableaux 6.9 à 6.12.

Tableau 6.9. Estimation des coefficients de régression et erreur-type pour le modèle de


régression y = a + b D + c D2.
Coefficient de Coefficient de régression Erreur-type du
Régression estimé coefficient estimé
a 0.5952 0.4810
b -3.9307 2.0724
c 9.5316 2.4356

Tableau 6.10. Table d’analyse de variance pour l’analyse de régression, modèle y = a


+ b D + c D2.
Source df SS MS F
calculé
Régression 2 2.0683 1.0341 105.6610
Résidu 12 0.1174 0.0098

SSR 2.0683
R2 = = = 0.9463
SSTO 2.1857

- 189 -
Cas particuliers

15 - 1
R 2 ajusté = 1 − (1 - 0.9463)
15 - 3
= 0.9373

Ici, la dérivée de y est 1. Par conséquent,


Indice de Furnival MSE = 0.0098 = = 0.0989.

Tableau 6.11. Estimation des coefficients de régression et erreur-type pour le modèle


de régression ln y = a + b D.
Coefficient de Coefficient de régression Erreur-type du
Régression estimé coefficient estimé
a -3.0383 0.1670
b 6.0555 0.3639

Table 6.12. Table d’analyse de variance pour l’analyse de régression – modèle


ln y = a + b D
Source df SS MS F
calculé
Régression 1 3.5071 3.5071 276.9150
Résidu 13 0.1646 0.0127

SSR 3.5071
R2 = = = 0.9552
SSTO 35198
.
15 - 1
R 2 ajusté = 1 − (1 - 0.9552)
15 - 2
= 0.9517
Ici, la dérivée de y est 1/y. L’indice de Furnival, donné par l’équation (6.27), est
 1 
Indice de Furnival = 0.0127   == 0.0834
 13514
. 
La moyenne géométrique de (1/y) est ici la moyenne géométrique des inverses des quinze valeurs de
y du Tableau 6.8.

Dans l’exemple considéré, le modèle ln y = a + b D a un indice de Furnival plus faible, de sorte qu’il
est préféré à l’autre modèle y = a + b D + c D2. On note également que le second modèle a aussi
une valeur ajustée de R2 plus élevée.

6.2.2. Modèles de croissance et de rendement relatifs à des peuplements forestiers


L’estimation de la croissance et du rendement est un aspect important des sciences forestières. Le
terme ‘croissance’ se réfère aux changements irréversibles qui se produisent dans le système sur de
brefs cycles de temps, alors que le ‘rendement’ est la croissance globale au cours d’un intervalle de
temps donné, et reflète l’état du système à des moments, ou points de temps, donnés. Ces modèles
sont importants car de nombreuses décisions de gestion se fondent sur les prévisions de croissance
et de rendement. Supposons par exemple que l’on se pose les questions suivantes : Est-il plus
rentable de cultiver des acacias ou des tecks, sur une station? La réponse dépend, non seulement du

- 190 -
Cas particuliers

prix, mais aussi des rendements escomptés de ces espèces sur cette station. Ou encore, combien de
fois faudrait-il éclaircir une plantation de tecks ? La réponse dépend bien évidemment du taux de
croissance attendu de la plantation. Qu’adviendrait-il des tecks s’ils étaient cultivés en mélange avec
d’autres espèces? Avec des modèles de croissance appropriés, il est possible de répondre à ce type
de questions.

Dans la majorité des modèles, le peuplement est considéré comme une unité d’aménagement. On
entend par ‘peuplement’ un groupe d’arbres associés à une station. Les modèles tentent de
comprendre le comportement d’un peuplement au moyen d’équations algébriques. Avant d’étudier
les différents modèles de peuplement, nous commencerons par décrire quelques-unes des mesures
les plus courantes de leurs attributs.

(i) Mesure des caractéristiques d’un peuplement


Les mesures les plus courantes des arbres, autres que le simple comptage, sont le diamètre ou la
circonférence à hauteur d’homme et la hauteur totale. Pour la définition de ces termes, nous nous
sommes référés aux manuels classiques sur ce sujet (Chaturvedi et Khanna, 1982). Quelques
attributs des peuplements qui peuvent être dérivés de ces mesures de base, et quelques
caractéristiques additionnelles sont décrites ci-dessous.

Diamètre moyen : diamètre correspondant à la surface terrière moyenne d’un groupe d’arbres, ou
d’un peuplement, la surface terrière étant la superficie de la section de la tige de l’arbre, mesurée à
hauteur d’homme.

Surface terrière d’un peuplement : Somme des surfaces de la section, à hauteur d’homme, des
tiges des arbres du peuplement, ordinairement exprimée en m2 par rapport à une unité de surface.

Hauteur moyenne: hauteur correspondant au diamètre moyen d’un groupe d’arbres, donnée par la
courbe hauteur-diamètre du peuplement.

Hauteur dominante : hauteur correspondant au diamètre moyen des 250 arbres ayant le plus gros
diamètre, sur un hectare, donnée par la courbe hauteur-diamètre.

Indice de la qualité de la station : hauteur dominante prévue d’un peuplement, à un certain âge
(généralement âge où la croissance en hauteur est à son maximum).

Volume d’un peuplement: volume total de tous les arbres du peuplement, habituellement exprimé en
m3 par rapport à une unité de surface.

Suivant le degré de résolution des variables d’entrée, les modèles de peuplement peuvent être
classés comme suit: i ) modèles de peuplement globaux ii) modèles de classes de diamètre et iii)
modèles d’arbres individuels. Bien qu’il existe des modèles différents pour les peuplements
équiennes et non équiennes, la majorité s’appliquent dans les deux cas. En général, les plantations
sont principalement constituées d’arbres du même âge et de la même espèce, alors que les forêts
naturelles contiennent des arbres d’espèces et d’âges différents. Le terme « équienne » s’applique à
des cultures d’arbres qui ont à peu près le même âge, mais on tolère des différences allant jusqu’à
25% de l’âge de rotation si un peuplement n’a pas été exploité depuis au moins 100 ans. En

- 191 -
Cas particuliers

revanche, le terme inéquienne s’applique à des peuplements dans lesquels l’âge des fûts varie
considérablement, la fourchette de variation étant ordinairement de plus de 20 ans et, dans le cas de
peuplements à rotation longue, de plus de 25% de la rotation.

Les modèles de peuplement globaux prévoient les différents paramètres d’un peuplement
directement à partir des variables de régression concernées. Les paramètres habituellement pris en
considération sont le volume commercial /ha, le diamètre et la hauteur du peuplement. Les variables
de régression sont principalement l’âge, la densité de peuplement et l’indice de qualité de la station.
Etant donné que l’âge et l’indice de la qualité de la station déterminent la hauteur dominante, on se
contente parfois de prendre en considération cette dernière caractéristique, à la place des deux
premières. Les modèles de peuplement globaux peuvent être classés en modèles avec ou sans
densité de peuplement comme variable indépendante. Les tables de production normales classiques
ne prennent pas en considération la densité de peuplement, étant donné que le terme «normal »
sous-entend une densité naturelle maximale. En revanche, les tables de production empiriques
supposent une densité naturelle moyenne. Il existe deux sortes de modèles à variable -densité: ceux
où le volume présent ou futur est estimé directement par les fonctions de croissance et ceux où le
volume du peuplement est obtenu en additionnant des classes de diamètre engendrées
mathématiquement. De plus, certains modèles estiment la croissance directement alors que d’autres
procèdent en deux étapes (estimation de la densité de peuplement future, estimation du peuplement
futur sur la base de cette information, et obtention de la croissance, par soustraction).

Les modèles en classes de diamètre retracent les variations du volume ou d’autres caractéristiques,
pour chaque classe de diamètre en calculant la croissance de l’arbre moyen de chaque classe, et en
multipliant le chiffre obtenu par le nombre de fûts répertoriés dans chaque classe. Les volumes de
toutes les classes sont regroupés pour obtenir les caractéristiques du peuplement.

Les modèles d’arbres individuels sont les plus complexes et modélisent chaque arbre sur une liste
d’arbres-échantillon. Presque tous ces modèles calculent un indice de concurrence des cimes pour
chaque arbre, afin de déterminer si l’arbre vivra ou non et, dans l’affirmative, de déterminer sa
croissance, en termes de diamètre du fût, de hauteur et de diamètre de la couronne. L’un des
critères de distinction entre les types de modèles est le mode de calcul de l’indice de concurrence
des cimes. Si le calcul est basé sur la distance (mesurée ou relevée sur une carte) entre un sujet et
tous les arbres situés à l’intérieur de sa zone de concurrence, le modèle est dit dépendant de la
distance. Si l’indice de concurrence des cimes est calculé uniquement d’après les caractéristiques du
sujet et de l’ensemble du peuplement, on a un modèle indépendant de la distance.

Nous allons maintenant décrire quelques modèles appropriés d’une part pour des peuplements
équiennes et de l’autre pour des peuplements inéquiennes.

ii) Modèles pour peuplements équiennes


Sullivan et Clutter (1972) ont donné trois équations de base qui forment un ensemble compatible en
ce sens que le modèle de rendement s’obtient en sommant les croissances prévues sur des périodes
appropriées. Plus précisément, la forme algébrique du modèle de rendement peut être dérivée d’une
intégration, au sens mathématique, du modèle de croissance. La forme générale de ces équations est
la suivante

- 192 -
Cas particuliers

Rendement actuel = V1 = f (S, A1, B1) (6.28)

Rendement futur = V2 = f (S, A2, B2) (6.29)

Surface terrière projetée = B2 = f (A 1, A2, S, B1) (6.30)


Où S = Indice de la qualité de la station
V1 = Volume actuel du peuplement
V2 = Volume projeté du peuplement
B1 = Surface terrière actuelle du peuplement
B2 = Surface terrière projetée du peuplement
A1 = Age actuel du peuplement
A2 = Age projeté du peuplement

Dans l’Equation (6.29), on remplace B2 par l’équation (6.30), et on obtient une équation du
rendement futur, en fonction des variables actuelles et de l’âge projeté du peuplement,
V2=f(A 1,A2, S, B1) (6.31)

Prenons un exemple particulier:


log V2 = β 0 + β1S + β 2A −21 + β 3 (1 − A 1A −2 1 ) + β 4 (log B1 )A 1 A −21 (6.32)

On peut estimer directement les paramètres de l’Equation (6.32) grâce à une analyse de régression
linéaire multiple (Montgomery et Peck, 1982), avec un nouveau mesurage des données observées
sur des parcelles-échantillon permanentes, en gardant V2 comme variable dépendante et A1, A2, S et
B1 comme variables indépendantes.

En posant A2 = A1, l’Equation (6.32) devient,


log V = β 0 + β1S + β 2 A −1 + β 3log B (6.33)
qui permettra de prévoir le volume actuel.

Nous illustrerons une application de l’approche de modélisation à l’aide des équations de Brender et
Clutter (1970), ajustées pour 119 peuplements de pins à l’encens de piémont, près de Macon, en
Géorgie. L’équation du volume projeté (en acres/ pieds cubes) est
( )
log V2 = 1.52918 + 0.002875S + 6.1585A −21 + 2.291143 1 − A1 A −21 + 0.93112(log B1 )A1A −21
(6.34)
En posant A2 = A1, cette équation permet de prévoir le volume actuel, soit
log V = 1.52918 + 0.002875S − 6.15851A −1 + 0.93112(log B) (6.35)

Pour illustrer une application du modèle de Brender-Clutter, prenons le cas d’un peuplement
actuellement âgé de 25 ans, d’une surface terrière de 70 pieds2/acre, situé dans une station ayant un
indice de qualité de 80 pieds. Le propriétaire veut faire estimer le volume actuel et le volume projeté
après dix années de croissance supplémentaires. Le volume actuel est estimé par l’équation (6.35),
log V = 1.52918 + 0.002875(80) − 6.15851(1/25) + 0.93112(log 70)
= 1.52918 + 0.23 - 0.24634 + 1.71801
= 3.23085

- 193 -
Cas particuliers

V = 10 3.23085 =1,701 pieds3.

Le volume projeté dans 10 ans s’obtient par l’Equation (6.34),


logV2 = 1.52918 + 0.002875(80) + 6.1585(1/25) + 2.291143(1 − 25 / 35)
+ 0.93112(log 70 )(25/35)
= 1.52918 +0.23 - 0.24634 + 0.65461 -1.22714
= 3.39459

V2 = 2,480 pieds3

iii) Modèles pour peuplements inéquiennes


Boungiorno et Michie (1980) présentent un modèle en matrices dans lequel les paramètres
représentent i) le passage stochastique des arbres d’une classe de diamètre à l’autre et ii) les recrues
de nouveaux arbres, qui dépendent de l’état du peuplement. Le modèle se présente comme suit
y1t +ϑ = β 0 + g 1 (y 1t − h 1t ) + g 2 ( y 2t − h 2t ) + .... + g n ( y nt − h nt ) (6.36)

y 2 t+ θ = b 2 ( y1t − h 1t ) + a 2 ( y 2t − h 2t )
. . .
. . .
. . .
y nt +θ = b n (y {n−1}t − h {n−1}t ) + a n ( y nt − h nt )
où y it+ ϑ est le nombre prévu d’arbres vivants dans la i-eme classe de taille au temps t.
h it est le nombre d’arbres de la i-eme classe de taille abattus pendant un intervalle de temps.
gi, ai, bi sont des coefficients à estimer.

Ici le nombre d’arbres dans la plus petite classe de taille est exprimé en fonction du nombre total
d’arbres dans toutes les classes de taille et de la récolte pendant un certain intervalle de temps. Sur la
même période de référence, les nombres d’arbres dans les plus grandes classes de taille sont des
fonctions des nombres d’arbres dans les classes de taille adjacentes. Il est possible d’estimer ces
paramètres par une analyse de régression en utilisant des données provenant de parcelles-
échantillons permanentes en précisant le nombre d’arbres, et leur état, dans les différentes classes de
diamètre, à chaque période, avec un intervalle de temps donné, ainsi que le nombre d’arbres abattus
entre deux mesurages successifs.

Nous illustrerons ce qui précède par un exemple très simple, à l’aide des données suivantes,
collectées en deux occasions successives, espacées par un intervalle θ = 5 ans, dans un petit nombre
de parcelles-échantillon permanentes situées dans des forêts naturelles. Les données du Tableau
6.13 indiquent le nombre d’arbres appartenant à trois classes de diamètres, lors des deux
mesurages. Supposons qu’aucune récolte n’ait eu lieu pendant cet intervalle de temps, ce qui
implique que les quantités hit; i = 1, 2, …, n sont nulles. Dans la réalité, il se peut que les classes de
diamètre soient plus nombreuses, et qu’il faille prendre plusieurs mesures dans un grand nombre de
parcelles, en enregistrant le nombres d’arbres enlevés de chaque classe de diamètres entre deux
mesurages successifs.

- 194 -
Cas particuliers

Tableau 6.13. Nombre d’arbres/ha dans trois classes de diamètres, lors de deux mesurages
successifs, dans des forêts naturelles.
N° de la Nombre d’arbres/ha Nombre d’arbres/ha
parcelle au Mesurage - I au Mesurage - II
échantillon classe classe classe classe classe classe
dbh dbh dbh dbh dbh dbh
<10cm 10-60 cm >60 cm <10cm 10-60 cm >60 cm
(y1t) (y2t) (y3t) (y1t+θ) (y2t+θ) (y2t+θ)
1 102 54 23 87 87 45
2 84 40 22 89 71 35
3 56 35 20 91 50 30
4 202 84 42 77 167 71
5 34 23 43 90 31 29
6 87 23 12 92 68 20
7 78 56 13 90 71 43
8 202 34 32 82 152 33
9 45 45 23 91 45 38
10 150 75 21 83 128 59

Les équations à estimer sont les suivantes


y1t +ϑ = β 0 + g 1y 1t + g 2 y 2 t + g 3 y 3t (6.37)

y 2 t+ θ = b 2 y1t + a 2 y 2 t

y 3t +θ = b 3 y 2 t + a 3 y 3t

En regroupant les données respectives du Tableau 6.13, et en effectuant comme d’habitude l’analyse
de régression linéaire multiple (Montgomery et Peck,1982), on obtient les estimations suivantes.

y1t +ϑ = 99.8293 − 0.0526 y1t − 0.0738 y 2t − 0.1476y 3t (6.38)

y 2 t+ θ = 0.7032 y 1t + 0.2954 y 2 t

y 3t + θ = 0.7016 y 2 t + 0.2938 y 3t

Comme l’ont démontré Boungiorno et Michie (1980), les équations de ce type (6.38)) sont
fondamentales pour prévoir l’état futur d’un peuplement et concevoir des politiques d’exploitation
optimales sur l’unité d’aménagement. Dans le domaine de l’aménagement des forêts, les modèles de
croissance sont généralement utilisés pour comparer différentes options d’aménagement. Avec des
modèles de simulation de la croissance, il est possible de comparer les résultats des différentes
simulations, notamment les taux de rentabilité interne et d’établir des programmes d’exploitation
optimaux. Etant donné que divers modèles permettent d’établir des projections de la croissance et
du rendement, il faudra choisir le plus adapté, en tenant compte des données qu’ils nécessitent et de

- 195 -
Cas particuliers

la complexité des calculs qu’ils impliquent. En outre, la validité biologique et la précision des
prévisions sont des éléments cruciaux du choix du modèle.

6.3. Ecologie forestière

6.3.1. Mesure de la biodiversité


La biodiversité est la propriété qu’ont les systèmes vivants d’être distincts, c’est à dire différents,
dissemblables. Dans cet ouvrage, celle qui nous intéresse est la diversité biologique, ou biodiversité,
de groupes ou de classes d’entités biologiques. La biodiversité se manifeste sous deux formes, à
savoir la variété et l’abondance relative des espèces (Magurran, 1988). La première est souvent
exprimée par l’indice de la richesse en espèces, donné par l’expression,
S
Indice de la richesse en espèces = (6.39)
N
où S = Nombre d’espèces dans une collection
N = Nombre d’individus récoltés

Supposons, par exemple, que l’on identifie 400 espèces dans une collection de 10 000 individus,
l’indice de la richesse en espèces sera
400
Indice de la richesse en espèces = =4
10000

L’augmentation du nombre d’espèces en fonction du nombre d’individus ou de la surface couverte


est représentée par une courbe d’accumulation des espèces. La relation entre le nombre d’espèces
(S) et la surface couverte (A) est souvent donnée mathématiquement par l’équation S = αAβ , dont
on trouvera ci-dessous la représentation graphique pour des valeurs spécifiques de α et β (α = 100
et β = 0.2). Ici , les paramètres α et β devront être estimés empiriquement à l’aide des techniques
de régression linéaire avec des données sur la surface couverte et le nombre d’espèces enregistré
correspondant.

Figure 6.3. Exemple de courbe espèces- surface

Nombre d’espèces

500
400
300
200
100
0

Surface couverte (ha)

- 196 -
Cas particuliers

L’équation S = 100A0.2, va nous permettre de prévoir le nombre d’espèces qu’il serait possible
d’obtenir en couvrant une plus grande surface, à l’intérieur de la région d’échantillonnage. Dans
l’exemple ci-dessus, nous devrions obtenir ‘458’ espèces pour une surface de 2000 hectares.

Si l’on capture des insectes à l’aide de pièges lumineux, une courbe espèces-individus sera plus utile.
Pour trouver une courbe asymptotique, il faut parfois utiliser des équations non-linéaires de la forme,
αN
S= (6.40)
β+ N
où S tend vers α lorsque N tend vers ∞. Autrement dit, α sera le nombre limite d’espèces dans une
collection infiniment grande d’individus. Dans ce cas, les paramètres α et β devront être estimés à
l’aide de techniques de régression non-linéaire (Draper et Smith, 1966). Un graphique de l’équation
(6.40) est donné ci-dessous pour α = 500 et β = 100.

Figure 6.4. Exemple de courbe espèces-individus

Nombre d’espèces

500
400
300
200
100
0

Nombre d’individus
L’abondance relative se mesure habituellement par des indices de diversité. L’un des plus connus est
l’indice de Shannon-Wiener (H).
S
H = −∑ pi ln pi (6.41)
i =1

où pi = proportion d’individus dans la i-ème espèce


ln indique le logarithme naturel.

Les valeurs de l’indice de Shannon-Wiener obtenues pour différentes communautés peuvent être
vérifiées à l’aide du test t de Student, où t est défini par
H1 − H2
t= (6.42)
Var ( H1 ) + Var ( H2 )

et suit une loi de distribution de Student avec ν degrés de liberté, où

(Var ( H1 ) + Var ( H2 ))2


ν= (6.43)
( Var( H1 ))2 N1 + ( Var ( H2 ))2 N 2

- 197 -
Cas particuliers

∑ p (ln p ) − ( ∑ pi ln pi ) 2 S − 1
2

Var ( H ) = +
i i
2 (6.44)
N 2N

Les méthodes à employer pour calculer l’indice de Shannon-Wiener et tester la différence entre les
indices de deux endroits sont illustrées dans ce qui suit.

Le Tableau 6.14 montre le nombre d’individus appartenant à différentes espèces d’insectes attrapés
à l’aide de pièges lumineux, dans deux endroits du Kerala ( Matthew et al., 1998).

Tableau 6.14. Nombre d’individus appartenant à différentes espèces d’insectes


attrapés à l’aide de pièges lumineux dans deux endroits.

Code de Nombre d’individus Nombre d’individus


l’espèce attrapés à attrapés à
Parambikulum
Nelliampathy
1 91 84
2 67 60
3 33 40
4 22 26
5 27 24
6 23 20
7 12 16
8 14 13
9 11 12
10 10 7
11 9 5
12 9 5
13 5 9
14 1 4
15 4 6
16 2 2
17 2 4
18 1 4
19 2 5
20 4 1

*Etape 1. Lorsque l’on calcule manuellement l’indice de Shannon-Wiener, on commence par


dresser un tableau (Tableau 6.15) donnant les valeurs de pi et pi ln pi . Si l’on utilise aussi le
test t, il convient d’ajouter au tableau une colonne contenant les valeurs de pi (ln pi)2.

*Etape 2. La diversité des insectes est H1 = 2.3716 à Nelliyampathy, alors qu’à Parambikulam elle
est de H2 = 2.4484. Ces valeurs représentent la somme des colonnes pi ln pi relatives à
chaque endroit. La formule de calcul de l’indice de Shannon-Wiener est précédée d’un signe
moins, ce qui annule le signe négatif du à l’utilisation de logarithmes de proportions.

- 198 -
Cas particuliers

*Etape 3. La variance de diversité des deux endroits peut être estimée à l’aide de l’Equation (6.44).
∑ p (ln p ) − ( ∑ pi ln pi ) 2 S − 1
2

Var ( H ) = +
i i
2
N 2N
6.6000 − 5.6244 19
D’où, Var( H1 ) -Nelliyampathy = + 2 = 0.0029
349 2( 349 )
6.9120 − 5.9947 19
Var ( H2 ) -Parambikulam = + 2 = 0.0027
347 2( 347 )

Tableau 6.15. Calcul de l’indice de Shannon-Wiener pour les deux endroits

code Nelliyampathy Parambikulam


de pi pi ln pi pi (ln pi )2 pi pi ln pi pi (ln pi )2
l’espèce
1 0.2607 -0.3505 0.4712 0.2421 -0.3434 0.4871
2 0.1920 -0.3168 0.5228 0.1729 -0.3034 0.5325
3 0.0946 -0.2231 0.5262 0.1153 -0.2491 0.5381
4 0.0630 -0.1742 0.4815 0.0749 -0.1941 0.5030
5 0.0774 -0.1980 0.5067 0.0692 -0.1848 0.4936
6 0.0659 -0.1792 0.4873 0.0576 -0.1644 0.4692
7 0.0344 -0.1159 0.3906 0.0461 -0.1418 0.4363
8 0.0401 -0.1290 0.4149 0.0375 -0.1231 0.4042
9 0.0315 -0.1090 0.3768 0.0346 -0.1164 0.3916
10 0.0286 -0.1016 0.3609 0.0202 -0.0788 0.3075
11 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591
12 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591
13 0.0143 -0.0607 0.2577 0.0259 -0.0946 0.3456
14 0.0029 -0.0169 0.0990 0.0115 -0.0514 0.2295
15 0.0115 -0.0514 0.2297 0.0173 -0.0702 0.2848
16 0.0057 -0.0294 0.1518 0.0058 -0.0299 0.154
17 0.0057 -0.0294 0.1518 0.0115 -0.0514 0.2295
18 0.0029 -0.0169 0.099 0.0115 -0.0514 0.2295
19 0.0057 -0.0294 0.1518 0.0144 -0.0611 0.2591
20 0.0115 -0.0514 0.2297 0.0029 -0.0169 0.0987
Total 1 -2.3716 6.6000 1 -2.4484 6.9120

*Etape 4. Le test t permet de comparer les diversités des deux endroits. Les formules appropriées
sont données par les Equations (6.42) et (6.43).

- 199 -
Cas particuliers

H1 − H2
t=
Var ( H1 ) + Var ( H2 )

( Var( H1 ) + Var( H2 ))2


ν=
( Var ( H1 ))2 N1 + ( Var ( H2 )2 N 2

2.3716 − 2.4484
Dans notre exemple, t = = 1.0263
0.0029 + 0.0027
Les degrés de liberté correspondants sont donnés par
( 0.0029 + 0.0027 ) 2
ν = = 695.25
( 0.0029 ) 2 349 + (0.0027) 2 347

La valeur tabulaire de t correspondant à 695 degrés de liberté (Annexe 2) montre que la différence
entre les indices de diversité des deux endroits n’est pas significative.

Par convention, pour des études de la biodiversité on emploie des modèles d’échantillonnage
aléatoire. Il convient aussi de se demander quelle taille doivent avoir les échantillons pour estimer un
indice de diversité spécifique, quel qu’il soit. Des exercices de simulation fondés sur une structure
réaliste des abondances d’espèces ont révélé que l’observation de 1000 individus sélectionnés au
hasard était suffisante pour estimer l’indice de Shannon-Wiener. L’estimation de la richesse en
espèces requiert parfois jusqu’à 6000 individus (Parangpe etGore, 1997).

6.3.2. Relation d’abondance des espèces


Un modèle d’abondance des espèces permet d’obtenir une description complète de l’abondance
relative de différentes espèces au sein d’une communauté. La distribution empirique de l’abondance
des espèces s’obtient en traçant point par point le graphe du nombre d’espèces et du nombre
d’individus. Ensuite, on obtient une distribution théorique approchant la distribution observée. L’un
des modèles théoriques utilisés à cet égard, en particulier en présence de populations partiellement
perturbées, est la série logarithmique. Celle-ci prend la forme
αx2 αx 3 αxn
αx, , ,..., (6.45)
2 3 n
αx étant le nombre d’espèces constituées d’un individu, αx 2/2 le nombre d’espèces de deux
individus, etc... Le nombre total d’espèces (S) dans la population s’obtient en sommant tous les
termes de la série, ce qui donnera
S = α [- ln (1-x)].

Pour ajuster la série, il faut calculer le nombre d’espèces qui devraient avoir un, deux etc…
individus. Ces valeurs prévues sont ensuite rangées dans les mêmes classes d’abondance que celles
qui ont été utilisées pour la distribution observée et les deux distributions sont comparées à l’aide
d’un test de validité de l’ajustement. Le nombre total d’espèces est bien entendu identique dans les
distributions observée et prévue.

- 200 -
Cas particuliers

Tous les calculs sont illustrés par l’exemple qui suit. Mathew et al. (1998) ont étudié l’impact de la
perturbation d’une forêt sur la diversité des espèces d’insectes, dans quatre stations du Western
Ghats, dans le Kerala. Dans le cadre de cette étude, ils ont établi une liste de l’abondance de 372
espèces, à Nelliyampathy. Cette liste n’est pas reproduite ici, pour des raisons d’espace, en série
log.

*Etape 1. Ranger les abondances observées dans les classes d’abondance. Dans notre cas, on
choisit des classes en log2 (c’est à dire en octaves, ou doubles, des abondances d’espèces).
Il suffit d’ajouter 0.5 à la borne supérieure de chaque classe, pour assigner clairement les
abondances d’espèces observées à chaque classe. Ainsi, dans le tableau ci-dessous
(Tableau 6.16), on constate que 158 espèces ont une abondance d’un ou deux individus,
55 espèces en ont 3 ou 4 etc.

Tableau 6.16. Nombre d’espèces obtenues dans différentes classes d’abondance.


Classe Borne supérieure Nombre d’espèces
observées
1 2.5 158
2 4.5 55
3 8.5 76
4 16.5 49
5 32.5 20
6 64.5 9
7 128.5 4
8 ∞ 1
Nombre total - 372
d’espèces (S)

*Etape 2. Les deux paramètres nécessaires pour ajuster la série sont x et α. La valeur de x est
estimée par itération du terme suivant
S
= [(1 − x ) / x][ −ln (1 − x )] (6.46)
N
où S = Nombre total d’espèces (372)
N = Nombre total d’individus (2804).

La valeur de x est en général supérieure à 0.9 et toujours <1.0. Il suffit de faire quelques opérations
sur une calculatrice, pour obtenir la bonne valeur de x, en essayant différentes valeurs de x dans
l’expression [(1 − x ) / x ][ −ln (1 − x )] jusqu’à arriver à S/N = 0.13267.

x [(1 − x ) / x ][ −ln (1 − x )]
0.97000 0.10845
0.96000 0.13412
0.96100 0.13166
0.96050 0.13289
0.96059 0.13267

- 201 -
Cas particuliers

La valeur correcte de x est donc 0.96059. Une fois que l’on a obtenu cette valeur de x, on peut
facilement calculer α à l’aide de l’équation,
N (1 − x ) 2804(1 − 0.96059)
α= = = 115.0393 (6.47)
x 0.96059

*Etape 3. Lorsque l’on a obtenu les valeurs de α et x, on peut calculer le nombre d’espèces qui
devraient contenir 1, 2, 3, . . ., n individus. Ceci est illustré ci dessous, pour les quatre
premières classes d’abondance correspondant aux sommes cumulées.

Tableau 6.17. Calculs à effectuer pour obtenir le nombre d’espèces prévu dans un modèle en
série log.
Nombre Terme de la série Nombre d’espèces Somme cumulée
d’individus prévu
1 αx 110.5
2 α x 2/2 53.1 163.6
3 α x 3/3 33.9
4 α x 4/4 24.5 58.5
5 α x 5/5 18.8
6 α x6/6 15.1
7 α x 7/7 12.4
8 α x 8/8 10.4 56.7
9 α x 9/9 8.9
10 α x 10/10 7.7
11 α x 11/11 6.7
12 α x 12/12 6.0
13 α x 13/13 5.2
14 α x 14/14 4.7
15 α x 15/15 4.2
16 α x 16/16 3.8 47.1

*Etape 4. L’étape suivante consiste à dresser un tableau du nombre d’espèces prévu et observé
dans chaque classe d’abondance et à comparer les deux distributions à l’aide d’un test de
validité de l’ajustement. Le test du χ 2 est l’un des plus utilisés.
Pour chaque classe, calculer χ 2 comme suit.
χ 2 = (Fréquence observée – Fréquence prévue)2/ Fréquence prévue (6.48)

Par exemple, dans la classe 1, χ2 = (158-163.5809)2 /163.5809 =0.1904. Pour finir, sommer cette
colonne pour obtenir la validité globale de l’ajustement, ∑ χ . Vérifier la valeur du χ2 obtenue dans
2

la table du χ2 (Annexe 4) en prenant comme degré de liberté le nombre de classes moins 1. Dans
∑χ
2
notre cas, = 12 .0624 , avec 6 degrés de liberté. La valeur de χ2 pour P=0.05 est 12.592.

- 202 -
Cas particuliers

On en conclut qu’il n’y a pas de différence significative entre la distribution observée et la distribution
prévue. Le modèle en série log est donc bien ajusté aux données.

Lorsque le nombre d’espèces prévues est petit (<1.0), la valeur calculée du χ2 peut être très élevée.
Dans ce cas, il est préférable de combiner le nombres d’espèces observé dans au moins deux
classes adjacentes, et de le comparer avec le nombre combiné d’espèces prévu dans les deux
mêmes classes. Les degrés de liberté doivent être réduits en conséquence. Dans l’exemple qui
précède, la fréquence prévue de la classe 8 est inférieure à 1, de sorte que l’on a combiné les
fréquences observée et prévue de la classe 8 avec celles de la classe 7, pour tester la validité de
l’ajustement.

Tableau 6.18. Test de validité de l’ajustement d’un modèle en série log.


Classe Borne Observée Prévue (Observée - prévue)2
supérieure Observée
1 2.5 158 163.5809 0.1904
2 4.5 55 58.4762 0.2066
3 8.5 76 56.7084 6.5628
4 16.5 49 47.1353 0.0738
5 32.5 20 30.6883 3.7226
6 64.5 9 11.8825 0.6992
7 128.5 5 3.5351 0.6070
Total 372 372.0067 12.0624

6.3.3. Etude de la configuration spatiale


La distribution spatiale des végétaux et des animaux est une importante caractéristique des
communautés écologiques. C’est habituellement l’une des premières caractéristiques que l’on
observe lorsque l’on étudie une communauté et c’est l’une des propriétés les plus fondamentales de
tout groupe d’organismes biologiques. Une fois qu’une configuration a été identifiée, l’écologiste peut
proposer des hypothèses qui expliquent les causes profondes de cette configuration et les tester.
Ainsi, en fin de compte, c’est principalement pour tirer des hypothèses concernant la structure des
communautés écologiques que l’on cherche à identifier les distributions spatiales. Nous allons décrire
dans cette section l’utilisation de distributions statistiques ainsi que quelques indices de dispersion,
pour détecter et mesurer la distribution spatiale des espèces au sein des communautés.

On discerne dans les communautés trois grands types de configuration : aléatoire, en bouquets et
uniforme (voir Figure 6.5). Les mécanismes de causalité suivants sont souvent utilisés pour expliquer
les répartitions observées dans les communautés écologiques. Dans une population d’organismes, la
répartition aléatoire implique un environnement homogène et des comportements non sélectifs. En
revanche, les configurations non aléatoires (regroupement en bouquets et uniformes) impliquent que
des contraintes soient exercées sur la population. Le regroupement en bouquets laisse penser que
les individus sont regroupés dans les endroits les plus favorables; Il peut y avoir diverses causes : le
comportement grégaire, l’hétérogénéité de l’environnement, le mode de reproduction etc. Les
dispersions uniformes résultent d’interactions négatives entre les individus, telles que la concurrence
pour la nourriture et l’espace. On notera que l’identification d’une configuration et l’explication des
causes possibles de cette configuration sont deux problèmes différents. De plus, il ne faut pas oublier

- 203 -
Cas particuliers

le caractère multifactoriel de la nature; de nombreux processus (biotiques et abiotiques)


interdépendants) peuvent favoriser les configurations.

Figure 6.5. Les trois grands types de distribution spatiale


(a) Aléatoires (b) En bouquets (c) Uniforme

Hutchinson a été l’un des premiers spécialistes de l’environnement à prendre conscience de


l’importance des configurations spatiales dans les communautés et à identifier divers facteurs de
causalité pouvant conduire à la structuration d’organismes, notamment : i) facteurs vectoriels résultant
de l’action de forces environnementales externes (vent, courants de l’eau, et intensité de la lumière) ;
ii) facteurs de reproduction, pouvant être attribués au mode de reproduction de l’organisme (clonage
et régénération de la descendance) ; iii) facteurs sociaux dûs à des comportements innés (ex :
comportement territorial) ; iv) facteurs coactifs, résultant d’interactions intra-spécifiques (ex :
concurrence) ; et v) facteurs stochastiques résultant d’une variation aléatoire de l’un des facteurs qui
précèdent. Ainsi les processus entrant en jeu dans les configurations spatiales peuvent être
considérés comme intrinsèques (ex : facteurs sociaux, coactifs et de reproduction) ou extrinsèques
aux espèces (ex : vectoriel). Les causes de la distribution spatiale sont analysées de façon plus
approfondie dans Ludwig and Reynolds (1988).

Si des individus d’une espèce sont dispersés sur des unités d’échantillonnage discontinues (ex :
cochenilles sur les feuilles des plantes), et si, à un moment donné, on préleve un échantillon du
nombre d’individus par unité d’échantillonnage, il est possible de récapituler les données en terme de
distribution de fréquence, c’est-à-dire du nombre d’unités d’échantillonnage avec 0, 1, 2, etc…
individus. Cette distribution est l’ensemble de données de base qui entre en jeu dans les méthodes de
détection des configurations décrites plus loin. On remarquera que les espèces sont supposées
apparaître sur des sites ou des unités d’échantillonnage naturelles discontinus, telles que feuilles,
fruits, arbres. En général, les relations entre la moyenne et la variance du nombre d’individus par
unité d’échantillonnage sont fonction des modes de dispersion de la population. Par exemple, la
moyenne et la variance sont à peu de choses près égales dans les répartitions aléatoires, mais la
variance est plus grande que la moyenne dans les distributions en bouquets, et plus petite dans les
répartitions uniformes. Il existe certains types de distribution de fréquence statistique qui, en raison
de leurs rapports variance-moyenne, ont été utilisés comme modèles de ces types de configurations
écologiques. Il s’agit de i) la distribution de Poisson pour les configurations aléatoires ; ii) la
distribution binomiale négative pour les distributions en bouquets et iii) la distribution binomiale
positive pour les distributions uniformes. Ces trois modèles statistiques ont couramment été utilisés
dans les études de configuration spatiale, mais il existe d’autres distributions statistiques tout aussi
appropriées.

- 204 -
Cas particuliers

La première étape de la détection du mode de distribution, dans une communauté écologique,


implique souvent de tester l’hypothèse “ la distribution du nombre d’individus par unité
d’échantillonnage est aléatoire ”. La distribution de Poisson a déjà été décrite dans la Section 2.4.2.
Si l’hypothèse de la distribution aléatoire est rejetée, la distribution peut tendre vers le regroupement
en bouquets (cas habituel) ou uniforme (exception). Si la direction tend vers une dispersion en
bouquets, la concordance avec la distribution binomiale négative doit être testée et certains indices
de dispersion, basés sur le rapport de la variance à la moyenne, peuvent être utilisés pour mesurer le
degré de regroupement. Ce cas n’est pas abordé ici, d’une part parce que les configurations
uniformes sont relativement rares dans les communautés naturelles, et d’autres part parce que la
distribution binomiale a déjà été décrite dans la Section 2.4.1.

Avant de poursuivre, quelques réserves s’imposent. Tout d’abord, le non-rejet d’une hypothèse de
distribution aléatoire signifie seulement qu’aucun caractère non aléatoire n’a été détecté à l’aide de
l’ensemble de données spécifié. Deuxièmement, les hypothèses proposées doivent être raisonnables,
c’est-à-dire soutenables et fondées à la fois sur le bon sens et sur des connaissances biologiques. Ce
second point est lié par d’importantes ramifications au premier. Il n’est pas rare qu’une distribution
statistique théorique (ex. distribution de Poisson) ressemble à une distribution de fréquence observée
(c’est-à-dire qu’il y a concordance statistique entre les deux), même si les hypothèses qui sous-
tendent ce modèle théorique ne sont pas vérifiées par l’ensemble de données. Il s’ensuit que l’on
peut accepter une hypothèse nulle même si elle n’a pas de justification biologique. Troisièmement, les
conclusions ne doivent pas être basées uniquement sur les tests de signification. Toutes les sources
d’information disponibles (écologiques et statistiques) devraient être utilisées ensemble. Ainsi, le non
rejet d’une hypothèse nulle, basée sur une petite taille d’échantillon, devrait être considéré comme
une faible confirmation de ladite hypothèse. Enfin, il faut avoir présent à l’esprit que la détection
d’une configuration spatiale et l’explication de ses causes possibles sont deux problèmes différents.

L’utilisation de la loi binomiale négative pour la vérification de configurations en bouquets est décrite
ici. Le modèle binomial négatif est vraisemblablement la loi de probabilité la plus couramment utilisée
pour les distributions en bouquets (également appelées distributions “ contagieuses ” ou
“ agrégatives ”). Lorsque deux des conditions requises pour l’emploi du modèle de Poisson ne sont
pas vérifiées - à savoir la condition 1 (toutes les unités d’échantillonnage naturelles ont la même
probabilité de contenir un individu) et la condition 2 (la présence d’un individu dans une unité
d’échantillonnage est sans influence sur le fait qu’elle soit occupée par un autre individu) - on obtient
en général un rapport variance- moyenne élevé du nombre d’individus par unité d’échantillonnage.
Comme on l’a vu plus haut, ceci laisse penser que l’on est en présence d’une configuration en
bouquets.

La loi binomiale négative a deux paramètres, µ, le nombre moyen d’individus par unité
d’échantillonnage et k, un paramètre lié au degré de regroupement. Les étapes de la vérification de la
concordance entre la distribution de fréquence observée et la loi binomiale négative sont décrites ci-
dessous.

*Etape 1. Formulation de l’hypothèse; il s’agit de tester l’hypothèse selon laquelle le nombre


d’individus par unité d’échantillonnage suit une loi de distribution binomiale négative, ce qui

- 205 -
Cas particuliers

dénote l’existence d’une dispersion non-aléatoire ou en bouquets. S’il n’arrive pas à rejeter
cette hypothèse, l’écologiste peut avoir un bon modèle empirique pour décrire un ensemble
de données de fréquence observées, sans que ce modèle explique quels sont les causes
profondes possibles de cette configuration. Autrement dit, il faut se garder de déduire la
causalité uniquement sur la base de nos méthodes de détection du mode de dispersion.

*Etape 2. Le nombre d’individus par unité d’échantillonnage est résumé sous la forme d’une
distribution de fréquence, autrement dit du nombre d’unités d’échantillonnage avec 0, 1, 2,
…, r individus.

*Etape 3. Calculer les probabilités P(x) de la loi binomiale négative. La probabilité de trouver x
individus dans une unité d’échantillonnage, c’est à dire que dans P(x), x soit égal à 0, 1, 2,
…, r individus, est donnée par la formule,
 µ   ( k + x − 1 )!   µ  − k
x

P( x ) =     1 +  (6.49)
 ( µ + k )   x !( k − 1)!   k 

Le paramètre µ est estimé à partir de la moyenne de l’échantillon (x ). Le paramètre k mesure le


degré de regroupement et tend vers zéro pour le regroupement maximal. On peut obtenir une
estimation de k par itérations successives de l’équation suivante :
 N   x 
log10   = k$ log10 1 +  $   (6.50)
 N0    k 
où N est le nombre total d’unités d’échantillonnage dans l’échantillon, et N0 est le nombre d’unités
d’échantillonnage avec 0 individus. Dans un premier temps, on remplace k$ dans le second membre
de l’équation par une estimation initiale. Si le second membre de l’équation est inférieur au premier,
on essaie une valeur plus élevée de k$ , et l’on compare à nouveau les deux membres. On itère ce
processus (en choisissant de manière appropriée des valeurs inférieures ou supérieures de k$ )
jusqu’à obtenir une valeur de k$ vers laquelle les deux membres de l’équation convergent. Une
bonne estimation initiale de k$ pour la première itération est obtenue grâce à la formule,
x
k$ = 2 (6.51)
s −x
où s2 est la variance de l’échantillon estimée.

Lorsque la moyenne est basse (inférieure à 4), l’Equation (6.50) fournit un bon moyen d’estimer k$ .
Par contre, si la moyenne est élevée (supérieure à 4), la méthode itérative n’est efficace que si le
regroupement de la population est généralisé. Ainsi, lorsque la moyenne (x ) de la population et la
valeur de k$ (le paramètre de regroupement calculé à partir de l’équation (6.51)) sont toutes les deux
supérieures à 4, l’équation (6.51) est préférée à l’équation (6.50) pour estimer k$ .

Une fois que l’on a obtenue les deux statistiques, x et k$ , on calcule, avec la formule (6.49), les
probabilités P(x) de trouver x individus dans une unité d’échantillonnage, où x = 0, 1, 2, …, r
individus,

- 206 -
Cas particuliers

P( 0 ) = 
0
(
 x   k + 0 − 1 !  
$ ) x − k
  1+
 x + k$   0!( k − 1 )!   k$ 
−k
  x 
= 1 +  $  
  k 

P( 1 ) = 
1
( $ )
 x   k + 1 − 1 !   x  
−k
 1 +   
 x + k$   1!( k$ − 1 )!   k$  

 x   k$ 
=    P (0)
 x + k$   1 

P( 2 ) = 
2
( $ )
 x   k + 2 − 1 !    x  
−k
  1 +   
 x + k$   2 !( k$ − 1 )!    k$  

 x  k$ + 1
=    P (1)
 x + k$  2 

P( r ) = 
r
( $ )
 x   k + r − 1 !   x  
−k
 1 +   
 x + k$   r !( k$ − 1 )!   k$  

 x  k$ + r − 1
=    P( r − 1)
 x + k$  r 

*Etape 4. Trouver les fréquences binomiales négatives théoriques. Le nombre théorique d’unités
d’échantillonnage contenant x individus s’obtient en multipliant chaque probabilité binomiale
négative par N, le nombre total d’unités d’échantillonnage dans l’échantillon. Le nombre de
classes de fréquence, noté q, est aussi déterminé selon la méthode décrite pour le modèle de
Poisson.

*Etape 5. Test de la validité de l’ajustement. Le test du χ 2 sera effectué suivant la procédure décrite
dans la Section 3.5.

Nous allons maintenant examiner un exemple d’ajustement d’une distribution binomiale négative. On
trouve souvent des larves d’abeilles charpentières dans les pédicelles des inflorescences des yuccas
(arbre à savon), dans le sud du Nouveau Mexique. Un écologiste spécialiste des insectes qui étudiait
les modes de dispersion spatiale de ces abeilles, a récolté au hasard un échantillon de larves sur 180
pédicelles de yucca. Les données observées sont résumées dans le tableau de fréquence suivant,
x 0 1 2 3 4 5 6 7 8 9 10
fx 114 25 15 10 6 5 2 1 1 0 1

- 207 -
Cas particuliers

où x est le nombre de larves d’abeilles par pédicelle et f x est la fréquence de pédicelles de yucca
ayant x = 0, 1, 2, …., r larves. Dans cet exemple, r = 10. Le nombre total d’unités
d’échantillonnage est
10
N = ∑( f x )
x =0

= 114 + 25 + …..+ 0 + 1 = 180

et le nombre total d’individus est


10
n= ∑ ( xf x ) = (0)(114) + (1)(25) + (9)(0) + (10)(1) = 171
x =0

La moyenne arithmétique de l’échantillon est


n 171
x= =
N 180
= 0.95

et sa variance est
 10 
 ∑ ( xf x ) − xn
2

 x =0 
s2 =
( n − 1)

=
[ 681 − ( 0.95)(171)]
179
= 2.897

*Etape 1. Hypothèse: L’hypothèse nulle est « les larves d’abeilles charpentières se regroupent en
bouquets sur les pédicelles des inflorescences de yucca ». Il convient donc de tester la concordance
(du nombre d’individus par unité d’échantillonnage) avec la loi binomiale négative. La variance
supérieure à la moyenne laisse penser que les abeilles sont distribuées en bouquets.

*Etape 2. Distribution de fréquence, fx : La distribution de fréquence observée, sa moyenne et sa


variance, sont données plus haut.

*Etape 3. Probabilités binomiales négatives, P(x) : Une estimation de k$ , obtenue à l’aide de


l’Equation (6.51) avec x = 0.95 est s2= 2.897 est
$
( 0.95) 2
k= = 0.4635
( 2.897 − 0.95)

Les valeurs de k$ et x étant l’une et l’autre inférieures à 1, l’Equation (6.50) peut être utilisée pour
donner une estimation de k$ . En prenant les valeurs N =180 et N0 =114 dans le premier membre de
l’équation (6.50), on obtient la valeur 0.1984. Ensuite, en posant k$ = 0.4635 dans le second
membre de l’Equation (6.50), on obtient :

 x  0.95 
Itération 1 : k$ log10  1 +  = 0.4635 log10  1 + 
 k
$  0.4635

- 208 -
Cas particuliers

= 0.2245

Puisque le second membre de l’équation donne une valeur supérieure à 0.1984, on remplace k$ par
une valeur plus petite que 0.4635, dans l’Equation (6.50). En choisissant k$ = 0.30 on trouve,
 x  0.95
Itération 2 : k$ log10 1 + $  = 0.30 log10 1 + 
 k  0.30 
= 0.1859

Cette valeur est proche de 0.1984, (mais à présent plus petite). Pour l’itération suivante, on choisit
donc une valeur de k$ légèrement plus grande. En prenant k$ =0.34, on a
 x  0.95 
Itération 3 : k$ log10 1 + $  = 0.34 log10  1 +  = 0.1969
 k  0.34 

Là encore, pour l’itération suivante, on essaye une valeur de k$ légèrement plus élevée. Pour
k$ =0.3457,
 x  95 
Itération 4 : k$ log10 1 + $  = 0.3457 log10  1 +  = 0.1984
 k  0.3457 

Cette valeur numérique est identique à la valeur fournie par le premier membre de l’Equation (6.50)
de sorte que, dans notre exemple, la meilleure estimation de k$ est 0.3457. Enfin, les probabilités,
individuelles et cumulatives, de trouver 0, 1, 2, et 3 larves par pédicelles [pour x =0.95 et
x
k$ =0.3457, où = 0.7332 ] sont données dans le Tableau 6.18.
( x + k$)
Les probabilités cumulées, après avoir trouvé 4 individus dans une unité d’échantillonnage sont de
94.6%. Les probabilités restantes, de P(5) à P(10) sont donc de 5,4%, soit
P(5+) = 1.0 - 0.946 = 0.054.

- 209 -
Cas particuliers

Tableau 6.18. Calcul de P(x), les probabilités binomiales négatives, pour x individus (abeilles) par
unité d’échantillon (pédicelle de yucca)
Probabilité Probabilité
Cumulée
−0.3457
  0.95  
P( 0) = 1 +   =0.6333 0.6333
  0.3457  
 0.3457 
P(1) = [ 0.7332 ]  P (0) = (0.2535)(0.6333)
 1  =0.1605 0.7938

 1.3457 
P ( 2) = [ 0.7332]   P (1) = ( 0.4933)( 01605
. )
 2  =0.0792 0.8730

 2.3457 
P ( 3) = [ 0.7332]   P ( 2 ) = ( 0.5733)( 0.0792 )
 3  =0.0454 0.9184

 33457
. 
P ( 4) = [ 0.7332 ]  P( 3) = ( 0.6133)( 0.0454)
 4  =0.0278 0.9462

P(5+ ) = 100
. − 0.9462 =0.0538 1.0000

*Etape 4. Fréquences théoriques, Ex : Elles s’obtiennent en multipliant les fréquences théoriques par
le nombre total d’unités d’échantillonnage (Tableau 6.19)

Tableau 6.19. Calcul des fréquences théoriques d’unités d’échantillonnage contenant un


nombre variable d’abeilles.
Probabilité Probabilité
Cumulée
E0 =(N)P(0) =(180)(0.633) =114.00 114.00
E1 =(N)P(1) =(180)(0.161) = 28.90 142.90
E2 =(N)P(2) =(180)(0.079) = 14.25 157.20
E3 =(N)P(3) =(180)(0.045) = 8.17 165.30
E4 =(N)P(4) =(180)(0.028) = 5.00 170.30
E5+ =(N)P(5+) =(180)(0.054) = 9.68 180.00

*Etape 5. Validité de l’ajustement : Le test statistique χ2 est calculé comme suit,


 (114 − 114.0) 2   (10 − 9.67) 2 
χ2 =   +...+ 
 114 .0   9.67 
= 0.00 + …+ 0.01= 1.18

On compare cette valeur du critère de test à la table des valeurs critiques du χ2 avec (nombre des
classes – 3)= 3 degrés de liberté. La valeur critique, au seuil de probabilité de 5%, est de 7.82

- 210 -
Cas particuliers

(Annexe 4), et, puisque la probabilité d’obtenir une valeur de χ2 égale à 1.18 est nettement inférieure
à cette valeur, on ne rejette pas l’hypothèse nulle. Le modèle binomial négatif apparaît donc comme
un bon ajustement des données observées, mais nous souhaitons obtenir une confirmation
supplémentaire (par exemple, un ensemble de données indépendant) avant de conclure que les larves
d’abeilles charpentières sont effectivement réparties en bouquets. On notera que si, dans notre
exemple, on laisse descendre les valeurs théoriques minimales jusqu’à 1.0 et 3.0, les valeurs de χ2
sont respectivement 2.6 et 2.5 – niveaux encore nettement inférieurs à la valeur critique.

Tableau 6.20. Calculs pour le critère de test χ2


Nombre de Fréquence Fréquence (f x − Ex )
2

larves d’abeilles observée théorique


Ex
par pédicelle fx Ex
(x)
0 114 114.0 0.00
1 25 28.9 0.53
2 15 14.3 0.04
3 10 8.2 0.41
4 6 5.0 0.19
5 10 9.7 0.01
Total 180 180.0 χ = 1.18
2

Pour détecter des configurations spatiales, on peut préférer aux distributions statistiques certains
indices faciles à calculer, comme l’indice de dispersion ou l’indice de Green, si les unités
d’échantillonnage sont discrètes.

(i) Indice de dispersion : Le quotient variance-sur-moyenne ou indice de dispersion (ID) est


s2
ID = (6.52)
x

où x est s2 sont respectivement la moyenne et la variance de l’échantillon. Le quotient variance-sur-


moyenne (ID) est utile pour évaluer la concordance d’un ensemble de données avec la série de
Poisson. Par contre, ce n’est pas un bon paramètre pour mesurer le degré de regroupement. Si la
population est regroupée en bouquets, le ID est fortement influencé par le nombre d’individus dans
l’échantillon, et ne sera un bon indice comparatif de regroupement que dans le cas où n est le même
dans chaque échantillon. L’indice de Green (GI), qui est une version modifiée de l’ID, indépendante
de n, est donné par la formule,
 s2 
 − 1 − 1
 x 
 
GI = (6.53)
n −1

GI varie de 0 (pour la dispersion aléatoire) à 1 (pour le regroupement maximal). On peut donc


utiliser l’indice de Green pour comparer des échantillons dont le nombre total d’individus, la
moyenne et le nombre d’unités d’échantillonnage dans l’échantillon varient. En conséquence, parmi

- 211 -
Cas particuliers

les nombreuses variantes de l’ID qui ont été proposées pour mesurer le degré de regroupement, le
GI semble la plus appropriée. Les valeurs du GI pour la population de cochenilles peuvent être
obtenues comme suit
( 3.05 − 1)
GI = = 0.012
( 171 − 1)

Comme la valeur maximale du GI est 1.0 (si les 171 individus étaient apparus dans une seule
pédicelle de yucca), cette valeur représente un degré de regroupement relativement faible.

6.3.4. Dynamique des écosystèmes


Il est bien connu que les forêts, en tant qu’écosystèmes, varient considérablement au fil du temps. Il
est important, aussi bien du point de vue scientifique, que sur le plan de l’aménagement, de
comprendre ces processus dynamiques. On s’est beaucoup intéressé dans le passé à l’estimation de
la croissance et du rendement des forêts, qui est l’un des éléments de ces processus. Cependant
plusieurs aspects tout aussi importants sont liés à la dynamique des forêts, notamment les effets à
long terme de la pollution de l’environnement, les variations des cycles écologiques dans les forêts,
la dynamique, la stabilité et la résilience des écosystèmes tant naturels qu’artificiels etc… Ces
différents objectifs des applications requièrent des approches de modélisation radicalement
différentes. Ces modèles sont si complexes qu’il est impossible, ne serait-ce que d’en donner un bref
aperçu ici, de sorte que l’on s’est limité à tenter de donner une description simplifiée de quelques-uns
de ceux qui pourraient être utilisées dans ce contexte.

Tout processus dynamique est configuré par l’échelle de temps caractéristique de ses composantes.
Dans les forêts, ces échelles peuvent se compter en minutes (processus stomatiques) en heures
(cycle diurne, dynamique sol-eau), en jours (dynamique des nutriments, phénologie), en mois (cycle
saisonnier, accroissement), en années (croissance et sénescence des arbres), en décennies (stades
de végétation successifs des forêts) ou en siècles (réaction d’une forêt à un changement climatique).
L’échelle de temps que l’on privilégiera dépend de l’objet du modèle. On la détermine
habituellement avec des données agrégées décrivant les processus qui ont des échelles de temps
différentes, mais le niveau d’agrégation dépend du degré de validité comportementale visé.

Pour rassembler des données sur la dynamique des forêts, au niveau du macro-environnement, la
méthode traditionnelle consiste à établir des parcelles échantillons permanentes et à faire des
observations périodiques. Dernièrement, la télédétection par satellite et par d’autres dispositifs a
élargi le champ d’application de la collecte de données historiques précises sur les forêts. Sans entrer
dans les détails de ces autres approches possibles qui sont complexes, nous allons expliquer dans
cette section comment sont utilisées les parcelles échantillons permanentes, dans les recherches
forestières à long terme, et illustrer un modèle de succession forestière par un exemple très simplifié.

i) Utilisation des parcelles-échantillons permanentes


Le meilleur moyen d’étudier la dynamique des forêts naturelles est d’établir des parcelles échantillons
permanentes. Bien que la taille et la forme des parcelles et la nature et la périodicité des observations
varient suivant l’objet de l’enquête, nous proposons quelques directives valables pour les études
écologiques en général ou pour les études sur l’aménagement des forêts.
Il convient de choisir des stations représentatives dans chaque catégorie de forêts et d’établir des
parcelles échantillons pour observer en détail la regénération et la croissance. Les parcelles doivent

- 212 -
Cas particuliers

être assez grandes - au moins un hectare (100 m x 100 m) – et être situées dans différentes stations
ayant des peuplements de densités variables. L’idéal est d’avoir au moins 30 parcelles dans une
catégorie de forêt particulière pour étudier la dynamique et les interactions entre le peuplement et la
station. Les parcelles peuvent être délimitées par de petites tranchées aux quatre coins. Il faut aussi
dresser une carte du lieu, indiquant l’emplacement exact de la parcelle. Un inventaire complet des
arbres se trouvant dans les parcelles doit être fait en marquant chaque arbre avec des bagues
d’aluminium numérotées. L’inventaire précisera certains paramètres de base, comme le nom de
l’espèce et la circonférence à hauteur d’homme sur les arbres adultes (gbh sur écorce > 30 cm) et
sur les gaulis (gbh sur écorce >10 cm <30 cm). Les plantules (gbh sur écorce < 10 cm) peuvent être
comptées dans des sous-parcelles d’une taille de 1m x 1m, sélectionnées de manière aléatoire ou
systématique.

Des informations sur les propriétés du sol de chaque parcelle sont rassemblées dans plusieurs fosses
d’observation, dont les on regroupera les différentes données. Les paramètres de base seront le pH
du sol, le carbone organique, la texture du sol (teneur en gravier, sable, limon et argile), température
et réserves d’humidité du sol. Des observations concernant certaines caractéristiques
topographiques, comme la pente, l’aspect, la proximité d’une source d’eau etc…, sont aussi
enregistrées pour chaque parcelle.

ii) Modèle de transition des forêts (d’un état à l’autre)


Nous allons maintenant concentrer notre attention sur un modèle particulier, appelé “modèle de
Markov”, qui nécessite l’utilisation d’outils mathématiques appelées matrices. Une description
élémentaire de la théorie des matrices est fournie à l’Annexe 7, pour les non initiés. Dans un modèle
de Markov du premier ordre, l’évolution future d’un système est déterminée par son état présent, et
ne dépend pas de la manière dont cet état s’est développé. L’enchaînement de résultats produits par
un modèle de ce type est souvent appelé chaîne de Markov. L’application de ce modèle à des
problèmes concrets est limitée par trois contraintes majeures, à savoir: le système doit être classé en
un nombre fini d’états, les transitions doivent avoir lieu à des instants discrets, même si, pour le
système en cours de modélisation, ces derniers peuvent être si proches qu’ils peuvent être
considérés comme continus dans le temps, et enfin les probabilités de transition ne doivent pas varier
avec le temps. Il est possible de modifier dans une certaine mesure ces contraintes, quitte à
augmenter la complexité mathématique du modèle. On peut utiliser des probabilités variant en
fonction du temps, ou des intervalles variables entre les transitions et, dans les modèles de Markov
d’ordre plus élevé, les probabilités de transition dépendent, non seulement de l’état actuel, mais aussi
d’un ou plusieurs états antérieurs.

Les modèles markoviens ont une valeur potentielle particulièrement élevée, mais jusqu’à présent ils
ont été peu utilisés en écologie. Toutefois des études préliminaires laissent penser que, lorsque les
systèmes écologiques étudiés affichent des propriétés markoviennes, et plus particulièrement d’une
chaîne de Markov stationnaire de premier ordre, il est possible de faire plusieurs analyses
intéressantes et importantes du modèle. Par exemple, l’analyse algébrique d’une matrice de transition
déterminera l’existence d’une série d’états transitoires, d’ensembles fermés d’états ou d’un état
absorbant. Une analyse plus approfondie permet de fractionner la matrice de transition de base et
d’étudier séparément les différentes composantes, ce qui simplifie le système écologique à l’étude.
L’analyse d’une matrice de transition peut aussi conduire à calculer les temps de passage moyens
d’un état à l’autre et la durée moyenne d’un état particulier, depuis son début. En présence d’états

- 213 -
Cas particuliers

fermés ou absorbants, il est possible de calculer la probabilité d’absorption et le temps moyen


d’absorption. Un ensemble transitoire d’états est un ensemble dans lequel chaque état peut en fin de
compte être atteint à partir de tout autre état faisant partie de l’ensemble, mais qui est abandonné
lorsque l’état entre dans un ensemble d’états fermés ou dans un état absorbant. Un ensemble fermé
se distingue d’un ensemble transitoire en ce sens que, une fois que le système est entré dans un état
quelconque de l’ensemble fermé, l’ensemble ne peut pas être abandonné. Un état absorbant est un
état que l’on ne peut plus quitter, c’est à dire où l’auto remplacement est complet. C’est pourquoi le
temps de passage moyen représente le temps moyen nécessaire pour passer à travers un état
particulier de la succession, et le temps moyen d’absorption est le temps moyen pour atteindre une
composition stable.

Pour construire des modèles apparentés à celui de Markov, les principales informations nécessaires
sont les suivantes: une classification quelconque qui, jusqu’à un degré acceptable, sépare les états de
la succession en des catégorie définissables, des données servant à déterminer les probabilités de
transferts ou les vitesses auxquelles les états passent, au cours du temps, d’une catégorie de cette
classification à une autre et des données décrivant les conditions initiales à un temps donné,
habituellement suivant une perturbation bien établie.

Prenons pour exemple les interactions forêts (terres boisées) – prairies sur de longues périodes de
temps dans des paysages naturels. Il est bien connu que lorsque les forêts naturelles sont
continuellement perturbées par l’homme ou affectées par des incendies répétés, elles peuvent
retourner à l’état de prairie. L’inverse peut aussi se produire, en ce sens que des prairies peuvent se
transformer en forêts dans certains environnements propices. Dans cet exemple, les forêts et les
prairies sont deux états que le système peut prendre avec des définitions bien adaptées même si,
dans la réalité, il peut y avoir plus de deux catégories.

Le Tableau 6.21 présente les données collectées dans 20 parcelles échantillons permanentes, sur
l’état de la végétation se trouvant dans les parcelles classées dans la catégorie forêts (F) ou prairies
(G), en 4 occasions successives, espacées de 5 ans.

Les probabilités historiques de transition entre les deux états possibles, sur une période de 5 ans,
sont indiquées dans le Tableau 6.22. Ces probabilités ont été estimées en comptant le nombre de
fois où se produit un type particulier de transition, disons F-G, sur une période de 5 ans, et en
divisant ce nombre par le nombre total de transitions possibles dans les 20 parcelles, en vingt ans.

- 214 -
Cas particuliers

Tableau 6.21. Etat de la végétation dans les parcelles témoin, en 4 occasions


Numéro de Occasions
la parcelle
1 2 3 4
1 F F F F
2 F F F F
3 F F G G
4 F F F G
5 G G G G
6 G G G G
7 F F G G
8 F G G G
9 F F F G
10 G G F F
11 F F F F
12 G G F F
13 G G F F
14 F F G G
15 F F G G
16 F F F F
17 F F G G
18 F F F F
19 F F G G
20 F F F F

Tableau 6.22. Probabilités de transition, relatives aux changements successifs se produisant dans un
paysage (intervalle = 5 ans)
Etat initial Probabilité de transition jusqu’à l’état final
Forêt Prairie
Forêt 0.7 0.3
Prairie 0.2 0.8

Ainsi, les parcelles qui sont initialement des forêts ont une probabilité de 0,7 de rester à l’état de
forêts à la fin de la période de 5 ans, et une probabilité de 0,3 d’être convertie en prairie. Les
surfaces qui, au départ, sont des prairies ont une probabilité de 0,8 de rester dans cet état et une
probabilité de 0,2 de retourner à l’état de forêt. Aucun des états n’est donc absorbant ou fermé,
mais chacun représente une transition de la forêt à la prairie, et vice-versa. En l’absence d’états
absorbants, le processus de Markov prend le nom de chaîne ergodique et l’on peut étudier toutes les
conséquences de la matrice des probabilités de transition en exploitant les propriétés fondamentales
du modèle markovien.

- 215 -
Cas particuliers

Les valeurs du Tableau 6.22 montrent les probabilités de transition d’un état quelconque à un autre
après un intervalle de temps (5ans). Les probabilités de transition après deux intervalles de temps
peuvent être dérivées directement en multipliant la matrice de transition en une étape par elle-même,
de manière à ce que, dans le cas plus simple où il est existe deux états, les probabilités
correspondantes soient données par la matrice suivante:
(2 ) (2 )
p11 p12 p11 p12 p11 p12

= ×
(2 ) (2 )
p21 p22 p21 p22 p21 p22

Sous une forme condensée, on peut écrire :


P(2) = PP

De même, la matrice de transition en trois étapes s’écrit :


(3) (3) (2 ) (2 )
p11 p12 p11 p12 p11 p12

= ×
(3) (3) (2 ) (2 )
p21 p22 p21 p22 p21 p22

ou P(2) = P(2)P

En général, pour la n-ème étape, on peut poser :


P(n) = P(n-1)P (6.54)

Pour la matrice du Tableau 6.22, les probabilités de transition à l’issue de deux intervalles de temps
sont:
0.5500 0.4500
0.3000 0.7000

Et à l’issue de quatre intervalles de temps :


0.4188 0.5813
0.3875 0.6125

Si une matrice de probabilités de transition est élevée à des puissances successives jusqu’à atteindre
un état où toutes les lignes de la matrice sont identiques, formant un vecteur de probabilité fixe, la
matrice est appelée matrice de transition régulière. La matrice donne la limite à laquelle les
probabilités de passer d’un état à un autre sont indépendantes de l’état initial, et le vecteur fixe de
probabilité t exprime les proportions d’équilibre des différents états. Par exemple, le vecteur des
probabilités d’équilibre est
0.40 0.60

Donc, si les probabilités de transition ont été correctement estimées et restent stationnaires - ce qui
implique qu’il ne se produit aucun changement majeur dans les conditions environnementales ou dans
le modèle d’aménagement de la région considérée - le paysage finira par atteindre un état d’équilibre
formé d’environ 40% de forêt et environ 60 % de prairie.

- 216 -
Cas particuliers

Lorsque, comme dans cet exemple, il n’existe pas d’états absorbants, on peut aussi estimer, au
moyen de calculs complexes, l’intervalle de temps moyen nécessaire pour qu’une surface de prairie
se transforme en forêt, (et vice-versa) compte tenu des conditions qui prévalent dans la région, c’est
à dire les temps moyens de premier passage. En d’autres termes, si l’on choisit une surface au
hasard, pendant combien de temps devrons nous attendre, en moyenne, pour que cette surface
devienne une forêt ou une prairie, c’est-à-dire les temps moyens de premier passage à l’équilibre.

6.4. Biologie de la faune sauvage

6.4.1. Estimation de l’abondance de la faune


L’échantillonnage par lignes interceptées est une méthode couramment employée pour estimer
l’abondance de la faune. Cette méthode peut être grossièrement décrite comme suit. Supposons que
l’on ait une surface de limites connues et de taille A et que l’on veuille estimer l’abondance d’une
population biologique, sur cette surface. La technique d’échantillonnage par lignes interceptées
requiert l’établissement d’au moins une ligne de parcours (ou transect) sur la surface considérée. On
note le nombre d’objets détectés (si) et les distances perpendiculaires (x i), de la ligne jusqu’aux
objets détectés. On peut aussi enregistrer la distance d’observation ri et l’ angle d’observation θi,
qui permettent de retrouver x i à l’aide de la formule x = r sin(θ). Soit n la taille de l’échantillon.
L’échantillon correspondant de données potentielles est indexé par (si, ri, θi , i = 1,..., n). La
méthode est représentée graphiquement à la Figure 6.6.

Figure 6.6. Représentation graphique de l’échantillonnage par lignes interceptées

r
x
θ L

Quatre hypothèses cruciales doivent être posées pour obtenir des estimations fiables de l’abondance
de la population à partir d’une enquête par lignes interceptées, à savoir: i) Les points situés
directement sur la ligne ne sont jamais omis ii) Les points sont fixes à leur emplacement
d’observation initial, dont ils ne bougent pas avant d’être détectés et ils ne sont jamais comptés deux
fois iii) Les distances et les angles sont mesurés avec exactitude iv) Les observations sont des
événements indépendants.

Une estimation de la densité est donnée par la formule suivante :


nf (0)
D= (6.55)
2L

- 217 -
Cas particuliers

où n = Nombre d’objets observés


f(0) = Estimation de la fonction de densité de probabilité des valeurs des distances, à distance
nulle
L = Longueur du transect

Pour estimer la quantité f(0) on part du principe qu’une distribution théorique, comme la distribution
semi-normale ou la distribution exponentielle négative, est un bon ajustement de la distribution de
fréquences observée des valeurs des distances. Dans le contexte de l’échantillonnage par lignes
interceptées, ces distributions prennent le nom de modèles de fonction de détection. L’ajustement de
ces distributions peut aussi être testé en calculant les fréquences théoriques et en effectuant un test de
validité de l’ajustement du χ2. Une autre variante permet d’estimer la distribution de fréquence
observée par des fonctions non-paramétriques comme la série de Fourier, et d’estimer f(0). L’idéal
est d’effectuer au moins 40 observations indépendantes pour obtenir une estimation précise de la
densité. On trouvera dans Buckland et al. (1993) une description détaillée des différents modèles de
fonction de détection qui entrent en jeu dans les échantillonnages par lignes interceptées.

Prenons par exemple l’échantillon suivant de 40 observations sur la distance perpendiculaire (x), en
mètres séparant des troupeaux d’éléphants de 10 transects de 2 km de long chacun, disposés au
hasard dans un sanctuaire de faune

32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15
32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15

Ici n = 40, L = 20 km. Si la fonction de détection est semi-normale, la densité de troupeaux


d’éléphants dans le sanctuaire de faune peut être estimée par la formule,
−0 .5

nf (0) 
n x2 
= 2 πL ∑ 3 
2
$
D=  i

2L  n 
 i =1 
−0 .5

$ nf (0)  2 (0.032) + (0.056) +...+(0.015)


2 2 2

D= =  2π(20) 3 
2L  (40) 
2
= 13.63 Troupeaux/ km

Dans le cas d’une fonction de détection semi-normale, l’erreur-type relative, ou au choix, le


coefficient de variation (CV) de l’estimation de D est donné par la relation,
1 1
CV ( D$ ) = 100  +  (6.56)
 n 2n 
 1 1 
= 100  + 
 40 (2)(40) 
= 19.36%

6.4.2. Estimation du domaine vital


Le domaine vital, ou aire de répartition naturelle, est l’espace dans laquelle vit normalement un
animal, qu’il le défende ou non comme son territoire, et qu’il le partage ou non avec d’autres

- 218 -
Cas particuliers

animaux. En général, le domaine vital ne comprend pas les zones de migration ou de dispersion. Les
données géographiques concernant un ou plusieurs animaux servent de base pour calculer le
domaine vital, et toutes les statistiques sur ce sujet sont obtenues grâce à la manipulation de ces
données pendant une certaine unité de temps. Il existe plusieurs méthodes d’évaluation du domaine
vital, mais elles rentrent généralement dans 3 catégories, suivant qu’elles sont basées sur i) un
polygone ii) un centre d’activités ou iii) des fonctions non paramétriques (Worton,1987), chacune
ayant ses avantages et ses inconvénients. Nous allons illustrer ce qui précède à l’aide d’une méthode
basée sur un centre d’activité.

Si x et y sont deux co-ordonnées indépendantes de chaque position et n est la taille de l’échantillon,


le point ( x , y ) est considéré comme le centre d’activité
n n

∑ xi ∑y i
i =1 i =1
x= ,y = (6.57)
n n
Le calcul d’un centre d’activité simplifie les données géographiques en les réduisant à un point
unique. Cette mesure peut être utile pour séparer les domaines des individus dont les points relatifs
aux données géographiques empiètent largement les uns sur les autres.

L’une des principales méthodes proposées pour mesurer le domaine vital est basée sur un modèle
elliptique à deux variables. Pour estimer le domaine vital par cette approche, on commence par
calculer certaines mesures de dispersion élémentaires concernant le centre d’activité, comme la
variance et la covariance,
n n n

∑ ( xi − x ) ∑ ( yi − y ) ∑ (x − x )( yi − y )
2 2
i
s =
2 i =1
, s = 2 i =1
, sxy = i =1
(6.58)
x
( n − 1) y
(n − 1) ( n − 1)
( )
1 1

ainsi que l’écart-type, sx = ( s 2


x ) 2
et s y = s 2
y
2
. Ces statistiques de base peuvent être utilisées
pour déterminer d’autres variables, comme les valeurs propres, connues aussi sous le nom de
racines caractéristiques ou latentes, de la matrice 2 x 2 des variances-covariances. Les équations des
valeurs propres sont les suivantes:
1  2 
1

( 2 2 
) ( )
2
λ x =  s y + s x +  s y + s x − 4 s y s x − s xy  
2 2 2 2 2
(6.59)
2   
 

1  2 
1

(
λ y = s y + s 2x −  s 2y + s 2x ) ( )
2
2
−4 s s −s
2 2 2
 (6.60)
2  y x xy
 
 

Ces valeurs mesurent la variabilité intrinsèque de la dispersion des positions selon deux axes
orthogonaux (perpendiculaires et indépendants) passant par le centre d’activité.

Bien que l’orientation de ces nouveaux axes ne puisse pas se déduire directement des valeurs
propres, leurs pentes peuvent être déterminées par les relations,

- 219 -
Cas particuliers

s xy
( )
b1 (pente de l’axe principal [le plus long]) = (6.61)
λ x − s 2y
−1
b2 (pente de l’axe secondaire [le plus court]) = (6.62)
b1
Les ordonnées y à l’origine (a 1 = y 1 − b1 x and a 2 = y 2 − b2 x ) ainsi que les pentes des axes
complètent les calculs nécessaires pour tracer les axes de variabilité. Les équations
y1 = a1 + b1 x and y 2 = a 2 + b2 x (6.63)
décrivent respectivement l’axe de variabilité principal et l’axe de variabilité secondaire.

Considérons un ensemble de données géographiques représenté par un nuage de points orienté


parallèlement à l’un des axes de la grille. Les écart-types des coordonnées x et y (sx et sy) sont
proportionnels aux longueurs des axes principal et secondaire (ou semi-principal et semi-secondaire)
d’une ellipse passant par ces points. En utilisant la formule de l’aire d’une ellipse, Ae= πsxsy, on peut
obtenir une estimation de la taille du domaine vital. Dans le reste de notre démonstration, nous
prendrons pour ellipse type l’ellipse ayant des axes de longueur 2sx et 2s. Si l’axe principal et l’axe
secondaire de l’ellipse sont égaux, la figure est un cercle et la formule devient Ac= πr2, où r = sx =
sy.

L’un des inconvénients évidents de cette mesure est que les axes calculés de données géographiques
naturelles sont rarement parfaitement alignés avec les axes d’une grille déterminés arbitrairement. Il
s’ensuit que les valeurs sx et sy dont dépend l’aire de l’ellipse, peuvent être affectées par l’orientation
et la forme de l’ellipse. Ce problème n’existe pas dans les modèles circulaires de domaine vital. Il
existe deux méthodes qui permettent de calculer des valeurs de sx et sy, corrigées pour l’orientation
(covariance). Dans la première, chaque ensemble de coordonnées est transformé comme suit, avant
de calculer l’aire de l’ellipse
x t = ( x − x ) cos θ − ( y − y ) sin θ (6.64)

et yt = ( x − x ) sin θ + ( y − y ) cos θ (6.65)


où θ = arctan(-b) et b est la pente de l’axe principal de ellipse.

La deuxième méthode, beaucoup plus simple, qui permet de déterminer sx et sy corrigés pour
l’orientation de l’ellipse, fait appel aux valeurs propres de la matrice des variances-covariances
dérivées des coordonnées des observations. Puisque ces valeurs propres sont analogues à des
variances, leurs racines carrées fournissent aussi des valeurs équivalentes aux écarts-types des

( )
1

(λ )
1

données géographiques transformées (c’est à dire, x


2
= sxt et λ y 2
= s yt . ). Bien que cette
seconde procédure soit beaucoup plus simple, les transformations trigonométriques de points
individuels des données sont également utiles à plusieurs égards, comme le verrons plus loin.

Le fait de prendre l’ellipse type comme mesure du domaine vital pose un autre problème car les
variances et covariances utilisées dans les calculs sont des estimations de valeurs paramétriques. En
tant que telles, elles sont influencées par la taille de l’échantillon. A partir du moment où les données
suivent une loi de distribution normale à deux variables, l’incorporation du critère de test statistique F
dans le calcul de l’ellipse permet de compenser en partie la taille de l’échantillon. La formule,

- 220 -
Cas particuliers

π sx t sy t 2 (n − 1)
Ap = Fα ( 2, n − 2) (6.66)
n−2
peut être utilisée pour éliminer l’incidence de la taille de l’échantillon qui a servi à déterminer ce qui
est maintenant devenu une ellipse d’un pourcentage de confiance de [(1-α)100]. Cette mesure est
supposée fournir une estimation fiable de la taille du domaine vital, lorsque les données
géographiques suivent une loi de distribution normale à deux variables. Avant l’introduction du test
F, les calculs présentés pourraient s’appliquer à tous les cas où l’éparpillement des données
géographiques est symétrique, unimodal. White et Garrott (1990) ont indiqué les calculs
supplémentaires qui doivent être faits pour tracer sur papier l’ellipse de confiance [(1-α)100].

L’application d’un modèle général du domaine vital permet de tirer des conclusions sur la familiarité
relative d’un animal avec un point quelconque situé à l’intérieur de son domaine vital. Ces
informations peuvent être déterminées avec plus de précision par une simple observation, mais elles
sont extrêmement coûteuses, en temps, et il est difficile de faire des comparaisons quantitatives entre
des individus ou entre des enquêtes. A propos du concept de centre d’activité, Hayne (1949) estime
que, bien qu’il soit tentant d’identifier le centre d’activité avec l’emplacement du domaine vital d’un
animal, cela ne doit pas être fait car ce point est une moyenne des points de capture et n’a pas
nécessairement d’autre signification biologique. Mis à part le problème que nous venons de
mentionner, les écarts inhérents à la normalité des données géographiques peuvent être une source
de difficultés. Du fait de l’étalement (asymétrie du domaine vital), le centre d’activité se trouve en
réalité plus près d’un arc de l’ellipse de confiance que ne le prévoyait le modèle, de sorte que la taille
du domaine vital (l’ellipse de confiance [1-α]100 ) est surestimée. La kurtose (aplatissement) peut
augmenter ou diminuer les estimations de la taille du domaine vital. Si les données sont platikurtiques,
la taille du domaine vital est sous-évaluée, et inversement dans le cas de données leptokurtiques. La
transformation trigonométrique de données à deux variables aide à résoudre ce problème en
fournissant des distributions non-corrélées des coordonnées x et y. Quoiqu’il en soit, pour vérifier le
bien-fondé de l’hypothèse de la distribution normale à deux variables, on peut se référer aux
méthodes décrites par White et Garrott (1990), que nous ne développerons pas ici pour ne pas
compliquer notre exposé.

La taille de l’échantillon peut avoir une influence importante sur la fiabilité des statistiques présentées
ici. Il est assez évident que les petites tailles d’échantillons (ex : n <20), peuvent fausser sérieusement
les mesures considérées. Une multitude de facteurs qui n’ont pas été pris en considération dans cette
étude, peuvent également influencer les résultats sans que l’on sache encore comment. C’est
notamment le cas des différences entre les espèces et les individus, du comportement social, des
sources de nourriture et de l’hétérogénéité de l’habitat, pour n’en citer que quelques-uns.

Les étapes du calcul du domaine vital sont décrites ci-après, à partir de données simulées obéissant
à une loi de distribution normale à deux variables avec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0
(White and Garrott (1990)). Ces données sont reportées dans le Tableau 6.23.

- 221 -
Cas particuliers

Tableau 6.23. Données simulées obéissants à une loi de distribution normale à deux variables
avec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0.
N° x y N° x y
Observation (m) (m) Observation (m) (m)
1 10.6284 8.7061 26 16.9375 11.0807
2 11.5821 10.2494 27 9.8753 10.9715
3 15.9756 10.0359 28 13.2040 11.0077
4 10.0038 10.8169 29 6.1340 7.6522
5 11.3874 10.1993 30 7.1120 12.0681
6 11.2546 12.7176 31 8.8229 13.2519
7 16.2976 9.1149 32 4.7925 12.6987
8 18.3951 9.3318 33 15.0032 10.2604
9 12.3938 8.8212 34 11.9726 10.5340
10 8.6500 8.4404 35 9.8157 10.1214
11 12.0992 6.1831 36 6.7730 10.8152
12 5.7292 10.9079 37 11.0163 11.3384
13 5.4973 15.1300 38 9.2915 8.6962
14 7.8972 10.4456 39 4.4533 10.1955
15 12.4883 11.8111 40 14.1811 8.4525
16 10.0896 11.4690 41 8.5240 9.9342
17 8.4350 10.4925 42 9.3765 6.7882
18 13.2552 8.7246 43 10.8769 9.0810
19 13.8514 9.9629 44 12.4894 11.4518
20 10.8396 10.6994 45 8.6165 10.2106
21 7.8637 9.4293 46 7.1520 9.8179
22 6.8118 12.4956 47 5.5695 11.5134
23 11.6917 11.5600 48 12.8300 9.6083
24 3.5964 9.0637 49 4.4900 10.5646
25 10.7846 10.5355 50 10.0929 11.8786

*Etape 1. Calcul des moyennes, des variances et des covariances


10.63 + 1158
. +...+10.09
x=
50
= 10.14

8.71 + 10.25+...1188
.
y=
50
=10.35

(10.63 − 1014
. ) 2 + (1158
. − 1014) 2 +...(10.09 − 10.14) 2
s2x =
( 50 − 1)
=11.78

- 222 -
Cas particuliers

( 8.71 − 10.35) 2 + (10.25 − 10.35) 2 +...(1188


. − 10.35) 2
s 2y =
( 50 − 1)
= 2.57

(10.63 − 1014
. )(8.71 − 10.35) + (1158
. − 1014. )(10.25 − 10.35) +...+
1  
sxy =
( 50 − 1)  (10.09 − 1014 . − 10.35) 
. )(1188

= -1.22

1
sx = ( 11.78) 2
= 3.43

1
sy = ( 2.57) 2
= 1.60

*Etape 2. Calcul des valeurs propres et des pentes des axes.


1 
[ ]
1

λ x = 2.57 + 1178. + ( 2.57 + 1178. ) − 4(( 2 .57 )( 11.78 ) − ( −1.22 )) 2 


2

2 
= 11.6434

1 
[ ]
1

. − ( 2.57 + 11.78) − 4(( 2.57 )( 11.78 ) − ( −1.22 )) 2 


λ y = 2.57 + 1178
2

2 
= 2.7076

*Etape 3. Calcul des valeurs de sxt et sy t .

sxt = ( λ x ) 2 = ( 11.6434) 2 = 3.4122


1 1

( )
1 1
sy t = λ y 2
= ( 2.7076) 2 = 1.6455

*Etape 4. Calcul du domaine vital sur la base du test F à (1-α) = 0.95.


π sx t sy t 2 (n − 1)
Ap = Fα ( 2, n − 2) .
n−2
( 3.1416)( 3.4122 )( 1.6455)( 2) ( 50 − 1)
= ( 3188
. )
50 − 2
= 114.8118 m2 = 0.0115 ha

- 223 -
7. CONCLUSION

Le présent manuel couvre quelques-uns des concepts fondamentaux qui entrent en jeu dans les
statistiques appliquées à la recherche forestière, tant au niveau théorique que pratique. Tout
chercheur digne de ce nom doit comprendre ces concepts pour appliquer avec succès la méthode
scientifique dans ses enquêtes. Cependant, les situations que l’on rencontre dans la réalité sont
souvent beaucoup trop complexes pour pouvoir être appréhendées par les techniques et les modèles
de base auxquels se réfère le présent manuel. Ainsi, le recours à une analyse multivariable est
souvent nécessaire, lorsque les observations faites dans les unités expérimentales portent sur de
multiples caractères. Très souvent, les hypothèses relatives aux distributions ne sont pas respectées,
ce qui impose le recours à des statistiques non paramétriques. De nombreux problèmes
d’optimisation imposent l’adoption de techniques de recherche opérationnelle ou d’une approche
conforme à la théorie de la décision. Etant donné que beaucoup d’enquêtes sur les forêts se
prolongent sur une longue période, des études de simulation seraient plus appropriées qu’une
approche expérimentale. Les processus écologiques sont souvent trop complexes pour pouvoir être
manipulés à travers les modèles simples étudiés dans ce manuel. Malgré ces limites, cet ouvrage a
une fonction bien précise, qui est d’inculquer aux chercheurs les principes statistiques les plus
élémentaires, dans le domaine de la recherche, et de leur donner la possibilité de communiquer et de
collaborer en connaissance de cause avec un expert, pour s’attaquer à des problèmes plus
complexes.

224
8. BIBLIOGRAPHIE

Anderson, R. L. et Bancroft, T. A. 1952. Statistical Theory in Research. Mc. Graw Hill Book Co.,
New York.

Borders, B. E. et Bailey, R. L. 1986. A compatible system of growth and yield equations for slash
pine fitted with restricted three-stage least squares. Forest Science, 32: 185-201.

Brender, E.V. et Clutter, J. L. 1970. Yield of even-aged natural stands of loblolly pine. Report 23,
Georgia Forest Research Council.

Boungiorno, J. et Michie, B. R. 1980. A matrix model of uneven-aged forest management. Forest


Science, 26(4): 609-625.

Buckland, S. T., Anderson, D. R., Burnham, K. P. et Laake, J. L. 1993. Distance Sampling :


Estimating Abundance of Biological Populations. Chapman and Hall, London. 446 p.

Chacko, V. J. 1965. A Manual on Sampling Techniques for Forest Surveys. The Manager of
Publications, Delhi.172 p.

Chakravarty, G. N. et Bagchi, S. K. 1994. Short note: enhancement of the computer program of the
permutated neighbourhood seed orchard design. Silvae-Genetica., 43: 2-3, 177-179.

Chaturvedi, A. N. et Khanna, E. S. 1982. Forest Mensuration. International Book Distributors,


India. 406 p.

Clutter, J. L. Fortson, J. C. Pienaar, L.V. Brister, G. H. et Bailey, R. L. 1983. Timber Management:


A Quantitative Approach. John Wiley and Sons, New York. 333 p.

Comstock, R. E. et Moll, R. H. 1963. Genotype-environment interactions. In : W. D. Hanson and


H. F. Robinson (Eds). Statistical Genetics and Plant Breeding, 164-194.

Crowder M. J. et Hand, D. J. 1990. Analysis of Repeated Measures. Chapman and Hall, New
York. 257 p.

Das, M. N. et Giri, N. C. 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. New
Delhi. 295 p.

Dixon, W. J. et Massey, F. J. 1951. Introduction to Statistical Analysis. Mc. Graw Hill Book Co.,
New York.

Draper, N. R. et Smith, H. 1966. Applied Regression Analysis. John Wiley and Sons, New York.
407 p.

Gomez, K. A. rt Gomez, A. A. 1984. Statistical Procedures for Agricultural Research. John Wiley
and Sons. New York. 680 p.

225
Bibliographie

Faulkner, R. 1975. Seed Orchards. Forestry Commission Bulletin No.54. Her Majesty’s Stationary
Office, London. 149 p.

Falconer, D. S. 1960. Introduction to Quantitative Genetics. Longman Group Ltd.,365 p.

Fisher, R. A. et Yates, F. 1963. Statistical Tables for Biological, Agricultural and Medical Research.
Longman Group Limited, London. 146 p.

Freeman, G. H. et Perkins, J. M. 1971. Environmental and genotype-environmental components of


variability. VIII. Relations between genotypes grown in different environments and measure
of these environments. Heredity, 26: 15-23.

Hayne, D. W. 1949. Calculation of size of home range. Journal of Mammology, 30: 1-18.

Jain, J. P. 1982. Statistical Techniques in Quantitative Genetics. Tata McGraw-Hill Publishing


Company Ltd. New Delhi. 328 p.

Jeffers, J. N. R. 1978. An Introduction to Systems Analysis : with Ecological Applications. Edward


Arnold, London. 198 p.

La Bastide, J. G. A. 1967. A computer programme for the layouts of seed orchards. Euphytica, 16,
321-323.

Lahiri, D. B. 1951. A method of sample selection providing unbiased ratio estimates. Bull. Inst. Stat.
Inst., 33, (2) 133-140.

Ludwig, J. A. et Reynolds, J. F. 1988. Statistical Ecology : A Primer on Methods and Computing.


John Wiley and Sons, New York. 337 p.

Magurran, A. E. 1988. Ecological Diversity and its Measurement. Croom Helm Limited, London.
179 p.

Mathew, G, Rugmini, P. et Sudheendrakumar, V. V. 1998. Insect biodiversity in disturbed and


undisturbed forests in the Kerala part of Western Ghats. KFRI Research Report No. 135,
113 p.

Mood, A. 1950. Introduction to the Theory of Statistics. Mc. Graw Hill Book Co., New York.

Montogomery, D.C. 1991. Design and analysis of Experiments. John Wiley and Sons. New York.
649 p.

Montogomery, D. C. et Peck, E. A. 1982. Introduction to Linear Regression Analysis. John Wiley


and Sons, New York. 504 p.

Namkoong, G., Snyder, E. B. et Stonecypher, R. W. 1966. Heretability and gain concepts for
evaluating breeding systems such as seedling orchards. Silvae Genetica, 15, 76-84.

- 226 -
Bibliographie

Parangpe, S. A. et Gore, A. P. 1997. Effort needed to measure biodiversity. International Journal of


Ecology and Environmental Sciences, 23: 173-183.

Searle, S. R. 1966. Matrix Algebra for the Biological Sciences (Including Applications in Statistics).
John Wiley and Sons, Inc., New York. 296 p.

Seigel, S. 1956. Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill International
Book Company. Tokyo. 312 p.

Snedecor G. W. et Cochran. W. G. Statistical Methods. USA: The Iowa State University Press,
1980. pp. 232-237.

Sokal, R. R. et Rolhf, F. J. 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.

Spiegel, M. R. et Boxer, R. W. 1972. Schaum’s Outline of Theory and Problems of Statistics in SI


units. McGraw-Hill International Book Company, New York. 359 p.

Steel, R. G. D. et Torrie, J. A. 1980. Principles and Procedures of Statistics, 2nd ed., USA:
McGraw-Hill, pp. 183-193.

Sukhatme, P. V., Sukhatme, B. V., Sukhatme, S. et Asok, C. 1984. Sampling theory of Surveys
and Applications. Iowa State University Press, U.S.A. and ISAS, New Delhi. 526 p.

Sullivan, A. D. et Clutter, J. L. 1972. A simultaneous growth and yield model for loblolly pine.
Forest Science, 18: 76-86.

Vanclay, J. K. 1991. Seed orchard designs by computer. Silvae-Genetica, 40: 3-4, 89-91.

White, G. C. et Garrott, R. A. 1990. Analysis of Wildlife Radio-Tracking Data. Academic Press,


Inc. San Diego. 383 p.

Worton, B. J. 1987. A review of models of home range for animal movement. Ecological modelling,
38, 277-298.

Wright, J. W. 1976. Introduction to Forest Genetics. Academic Press, Inc. 463 p.

- 227 -
Bibliographie

Références bibliographiques complémentaires


sur les plans d’expérience

Box. G.E.P., Hunter W.G., Hunter J.S. – Statistics for experimenters. John wiley & sons, New
York, 1978.

CEA – Ouvrage collectif. – Statistique appliquée à l’exploitation des mesures. Masson, Paris, 1978.

Chapouille P. – Planification et analyse des expériences. Masson et Cie, 1973.

Cochran W.G. et Cox G.M. – Experimental designs, John Wiley & sons, New York, 1957

Cox D.R. – Planning of experiments. John Wiley & sons, New York, 1958.

Dagnelie P. – Principes d’expérimentation. Les Presses Agronomiques de Gembloux, 1980.

Dagnelie P. – Théorie et méthodes statistiques 1 et 11. Les Presses Agronomiques de Gembloux,


1973.

Das M.N., Giri N.C. – Design and analysis of experiments. Wiley Eastern limited, 1979.

Dodge Y. – Analysis of experiments with missing data. John wiley & sons, New York, 1985.

Dogué D. et Girault M. – Analyse de variance et palns d’expérience. Dunod, 1969.

Federer W.T. – Experimental design. Oxford & IBH Publishing, 1955.

Finney D.J. – An introduction to the theory of experimental design. Midway reprint, 1960

Finney D.J. – Statistical method in biological assay. Charles Griffin and Cy, 1978.

Fisher R.A. – The design of experiments. Oliver & Boyd Edinburgh (7ème édition), 1960.

Gomez K.A. et Gomez A.A. – Statistical procedures for agricultural research. John Wiley & sons,
New York (2e édition), 1984.

Kempthorne O. – Design and analysis of experiments. John Wiley & sons, New York, 1952.

Lellouch J., Lazar P. – Méthodes statistiques en expérimentation biologique. Flammarion, 1974.

Ogawa J. – Statistical theory of the analysis of experimental designs. Marcel Dekker, New York,
1974.

Pearce S.C. – The agricultural field experiment. John Wiley & sons, New York, 1983.

Philippeau G. – Théorie des plans d’expérience (application à l’agronomie).

- 228 -
Bibliographie

Snedecor G.M. et Cochran W.G. – Statistical methods. Iowa State University Press (6ème
édition), 1967.

Sokal R.R. abd Rohlf F.J. – Biometry. W.H. Freeman and Cy (2èmeédition), 1969.

Tassi P. – Méthodes statistiques. Economica, 1985.

Tomassone R., Dervin C. et Masson J.P. – Biométrie modélisation de phénomènes biologiques.


Masson, 1993.

Vajda S. – The mathematics of experimental design. Griffin’s statistical monographs & courses,
1967.

Vessereau A. – Méthodes statistiques en biologie et en agronomie. J.B. Baillière (2ème édition),


1988.

Winer B.J. – Statistical principles in experimental design. McGraw-Hill (2ème édition), 1971.

- 229 -
Annexe 1. Points de pourcentage de la distribution normale

Cette table donne les points de pourcentage de la distribution normale standard. Ce sont les valeurs
de z pour lesquelles un pourcentage donné, P, de la distribution normale standard est situé en dehors
de la fourchette allant de -z à +z.

P (%) z
90 0.1257
80 0.2533
70 0.3853
60 0.5244

50 0.6745
40 0.8416
30 1.0364
20 1.2816

15 1.4395
10 1.6449
5 1.9600
2 2.3263

1 2.5758
0.50 2.8070
0.25 3.0233
0.10 3.2905
0.01 3.8906

230
Annexes

Annexe 2. Distribution de t de Student

Cette table donne les points de pourcentage de la distribution de t avec ν degrés de liberté. Ce sont
les valeurs de t pour lesquelles un pourcentage donné, P, de la distribution de t est situé en dehors
de la fourchette allant de -t à +t. Au fur et à mesure que le nombre de degrés de liberté augmente, la
distribution se rapproche de la distribution normale standard.

Test unilatéral Test bilatéral


Pourcentage (P)
Degré de
liberté 5% 1% 5% 1%
(v)
1 6.31 31.8 12.7 63.7
2 2.92 6.96 4.30 9.92
3 2.35 4.54 3.18 5.84
4 2.13 3.75 2.78 4.60
5 2.02 3.36 2.57 4.03
6 1.94 3.14 2.45 3.71
7 1.89 3.00 2.36 3.50
8 1.86 2.90 2.31 3.36
9 1.83 2.82 2.26 3.25
10 1.81 2.76 2.23 3.17
11 1.80 2.72 2.20 3.11
12 1.78 2.68 2.18 3.05
13 1.77 2.65 2.16 3.01
14 1.76 2.62 2.14 2.98
15 1.75 2.60 2.13 2.95
16 1.75 2.58 2.12 2.92
17 1.74 2.57 2.11 2.90
18 1.73 2.55 2.10 2.88
19 1.73 2.44 2.09 2.86
20 1.72 2.53 2.09 2.85
22 1.72 2.51 2.07 2.82
24 1.72 2.49 2.06 2.80
26 1.71 2.48 2.06 2.78
28 1.70 2.47 2.05 2.76
30 1.70 2.46 2.04 2.75
35 1.69 2.44 2.03 2.72
40 1.68 2.42 2.02 2.70
45 1.68 2.41 2.01 2.69
50 1.68 2.40 2.01 2.68
55 1.67 2.40 2.00 2.67
60 1.67 2.39 2.00 2.66
∞ 1.64 2.33 1.96 2.58

- 231 -
Annexes

- 232 -
Annexes

Annexe 3. Distribution de F (5%)

Cette table donne les valeurs pour lesquelles le pourcentage de la distribution de F dans le titre est
supérieur à la valeur tabulaire de F pour v 1 (degrés de liberté du numérateur) et v 2 (degrés de liberté
du dénominateur) associés au rapport F.

Degré de liberté (v1)


Degré
de 1 2 3 4 5 6 7 8 10 12 24
liberté
(v2)
2 18.5 19.0 19.2 19.2 9.3 19.3 19.4 19.4 19.4 19.4 19.5
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.79 8.74 8.64
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 5.96 5.91 5.77
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.74 4.68 4.53

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.06 4.00 3.84
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.64 3.57 3.41
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.35 3.28 3.12
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.14 3.07 2.90
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 2.98 2.91 2.74

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.85 2.79 2.61
12 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.75 2.69 2.51
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.67 2.60 2.42
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.60 2.53 2.35
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.54 2.48 2.29

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.49 2.42 2.24
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.45 2.38 2.19
18 4.41 3.55 3.16 2.93 2.77 3.66 2.58 2.51 2.41 2.34 2.15
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.38 2.31 2.11
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.35 2.28 2.08

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.30 2.23 2.03
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.25 2.18 1.98
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.22 2.15 1.95
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.19 2.12 1.91
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.16 2.09 1.89

35 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.11 2.04 1.83
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.08 2.00 1.79
45 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.05 1.97 1.76
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.03 1.95 1.74
55 4.02 3.16 2.77 2.54 2.38 2.27 2.18 2.11 2.01 1.93 1.72

- 233 -
Annexes

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 1.99 1.92 1.70

- 234 -
Annexes

Annexe 4. Distribution de χ2

Cette table présente les points de pourcentage de la distribution chi-carré avec ν degrés de liberté.
Ce sont les valeurs de χ2 pour lesquelles un pourcentage donné, P, de la distribution chi-carré est
supérieur à χ2.

Pourcentage (P)
Degré de
liberté 97.5 95 50 10 5 2.5 1 0.1
(ν)
1 .000982 .00393 0.45 2.71 3.841 5.02 6.64 10.8
2 0.0506 0.103 1.39 4.61 5.99 7.38 9.21 13.8
3 0.216 0.352 2.37 6.25 7.81 9.35 11.3 16.3
4 0.484 0.711 3.36 7.78 9.49 11.1 13.3 18.5
5 0.831 1.15 4.35 9.24 11.1 12.8 15.1 20.5

6 1.24 1.64 5.35 10.6 12.6 14.5 16.8 22.5


7 1.69 2.17 6.35 12.0 14.1 16.0 18.5 24.3
8 2.18 2.73 7.34 13.4 15.5 17.5 20.1 26.1
9 2.70 3.33 8.34 14.7 16.9 19.0 21.7 27.9
10 3.25 3.94 9.34 16.0 18.3 20.5 23.2 29.6

11 3.82 4.57 10.3 17.3 19.7 21.9 24.7 31.3


12 4.40 5.23 11.3 18.5 21.0 23.3 26.2 32.9
13 5.01 5.89 12.3 19.8 22.4 24.7 27.7 34.5
14 5.63 6.57 13.3 21.1 23.7 26.1 29.1 36.1
15 6.26 7.26 14.3 22.3 25.0 27.5 30.6 37.7

16 6.91 7.96 15.3 23.5 26.3 28.8 32.0 39.3


17 7.56 8.67 16.3 24.8 27.6 30.2 33.4 40.8
18 8.23 9.39 17.3 25.0 28.9 31.5 34.8 42.3
19 8.91 10.1 18.3 27.2 30.1 32.9 36.2 43.8
20 9.59 10.9 19.3 28.4 31.4 34.2 37.6 45.3

22 11.0 12.3 21.3 30.8 33.9 36.8 40.3 48.3


24 12.4 13. 9 23.3 33.2 36.4 39.4 43.0 51.2
26 13.8 15. 4 25.3 35.6 38.9 41.9 45.6 54.1
28 15.3 16. 9 27.3 37.9 41.3 44.5 48.3 56.9
30 16.8 18.5 29.3 40.3 43.8 47.0 50.9 59.7

35 20.6 22.5 34.3 46.1 49.8 53.2 57.3 66.6


40 24.4 26. 5 39.3 51.8 55.8 59.3 63.7 73.4
45 28.4 30.6 44.3 57.5 61.7 65.4 70.0 80.1
50 32.4 34. 8 49.3 63.2 67.5 71.4 76.2 86.7
55 36.4 39.0 54.3 68.8 73.3 77.4 82.3 93.2
60 40.5 43. 2 59.3 74.4 79.1 83.3 88.4 99.7

- 235 -
Annexes

Annexe 5. Valeurs significatives du coefficient de corrélation

Cette table présente les valeurs au-delà desquelles le coefficient de corrélation est déclaré
significatif, pour un seuil de signification déterminé et un nombre donné de paires
d’observations de x et y

n .1 .05 .02 .01 .001


1 .9877 .9969 .9995 .9999 .9999
2 .9000 .9500 .9800 .9900 .9990
3 .8054 .8783 .9343 .9587 .9912
4 .7293 .8114 .8822 .9172 .9741
5 .6694 .7545 .8329 .8745 .9507
6 .6215 .7067 .7887 .8343 .9249
7 .5822 .6664 .7498 .7977 .8982
8 .5494 .6319 .7155 .7646 .8721
9 .5214 .6021 .6851 .7348 .8471
10 .4973 .5760 .6581 .7079 .8233
11 .4762 .5529 .6339 .6835 .8010
12 .4575 .5324 .6120 .6614 .7800
13 .4409 .5139 .5923 .6411 .7603
14 .4259 .4973 .5742 .6226 .7420
15 .4124 .4821 .5577 .6055 .7246
16 .4000 .4683 .5425 .5897 .7084
17 .3887 .4555 .5285 .5751 .6932
18 .3783 .4438 .5155 .5614 .6787
19 .3687 .4329 .5034 .5487 .6652
20 .3598 .4227 .4921 .5368 .6524
25 .3233 .3809 .4451 .4869 .5974
30 .2960 .3494 .4093 .4487 .5541
35 .2746 .3246 .3810 .4182 .5189
40 .2573 .3044 .3578 .3932 .4896
45 .2428 .2875 .3384 .3721 .4648
50 .2306 .2732 .3218 .3541 .4433
60 .2108 .2500 .2948 .3248 .4078
70 .1954 .2319 .2737 .3017 .3799
80 .1829 .2172 .2565 .2830 .3568
90 .1726 .2050 .2422 .2673 .3375
100 .1638 .1946 .2301 .2540 .3211

- 236 -
Annexes

Annexe 6. Nombres aléatoires

1
Tous les chiffres figurant dans la table ci-dessous sont indépendants et ont une probabilité de . La
10
table a été calculée à partir d’une population dans laquelle les chiffres de 0 à 9 étaient également
vraisemblables.

77 21 24 33 39 07 83 00 02 77 28 11 37 33
78 02 65 38 92 90 07 13 11 95 58 88 64 55
77 10 41 31 90 76 35 00 25 78 80 18 77 32
85 21 57 89 27 08 70 32 14 58 81 83 41 55
75 05 14 19 00 64 53 01 50 80 01 88 74 21
57 19 77 98 74 82 07 22 42 89 12 37 16 56
59 59 47 98 07 41 38 12 06 09 19 80 44 13
76 96 73 88 44 25 72 27 21 90 22 76 69 67
96 90 76 82 74 19 81 28 61 91 95 02 47 31
63 61 36 80 48 50 26 71 16 08 25 65 91 75
65 02 65 25 45 97 17 84 12 19 59 27 79 18
37 16 64 00 80 06 62 11 62 88 59 54 12 53
58 29 55 59 57 73 78 43 28 99 91 77 93 89
79 68 43 00 06 63 26 10 26 83 94 48 25 31
87 92 56 91 74 30 83 39 85 99 11 73 34 98
96 86 39 03 67 35 64 09 62 36 46 86 54 13
72 20 60 14 48 08 36 92 58 99 15 30 47 87
67 61 97 37 73 55 47 97 25 65 67 67 41 35
25 09 03 43 83 82 60 26 81 96 51 05 77 72
72 14 78 75 39 54 75 77 55 59 71 73 15 56
59 93 34 37 34 27 07 66 15 63 14 50 74 29
21 48 85 56 91 43 50 71 58 96 14 31 55 61
96 32 49 79 42 71 79 69 52 39 45 04 49 91
16 85 53 65 11 36 08 14 86 60 40 18 51 15
64 28 96 90 23 12 98 92 28 94 57 41 99 11
60 54 36 51 15 63 83 42 63 08 01 89 18 53
42 86 68 06 36 25 82 26 85 49 76 15 90 13
00 49 62 15 53 32 31 28 38 88 14 97 80 33
26 64 87 61 67 53 23 68 51 98 60 59 02 33
02 95 21 53 34 23 10 82 82 82 48 71 02 39
65 47 77 14 75 30 32 81 10 83 03 97 24 37
28 55 15 36 46 33 06 22 29 23 81 14 20 91
59 75 78 49 51 02 20 17 02 30 32 78 44 79
87 54 57 69 63 31 61 25 92 31 16 44 02 10
94 53 87 97 15 23 08 71 26 06 25 87 48 97
79 43 75 93 39 10 18 51 28 17 65 43 22 06
48 38 71 77 53 37 80 13 60 63 59 75 89 73
98 30 59 32 90 05 86 12 83 70 50 30 25 65
85 80 16 77 35 74 09 32 06 30 91 55 92 33
87 03 96 27 05 59 64 25 33 07 03 08 55 58

- 237 -
Annexes

Annexe 7. Concepts mathématiques et statistiques élémentaires

Logarithme: Le logarithme d’un nombre N à base a est le nombre x auquel la base doit être élevée
pour égaler le nombre de départ. En symboles, si loga N = x, on a ax = N. Le nombre N est appelé
antilogarithme (ou logarithme inverse) de x. Le logarithme à base 10 est appelé logarithme ordinaire
(ou logarithme décimal) et est noté log. Le logarithme à base e, une constante mathématique, est
appelé logarithme naturel (noté ln).

Factoriel n : n factoriel, noté n!, est défini par n! = n(n-1)(n-2)…1. Par exemple, 5! = 5.4.3.2.1 =
120. Par convention, on pose 0! = 1.

Combinaisons : Une combinaison de n objets différents pris r à r est une sélection de r objets
parmi les n objets, sans tenir compte de l’ordre dans lequel ils sont rangés. Le nombre de
 n
combinaisons de n objets pris r à r est noté   et est donné par
r
 n n( n − 1)( n − 2) . . .( n − r + 1) n!
 = =
r r! r !( n − r )!
 3 3.2
Par exemple, le nombre de combinaisons de deux des lettres a, b, c est   = = 3. Ces
 2 2 !
combinaisons sont ab, ac, bc. Remarquons que ab est la même combinaison que ba mais avec une
permutation différente.

Espérance mathématique : Si X est une variable aléatoire discrète pouvant prendre les valeurs X1,
X2, …, Xk avec les probabilités respectives p1, p2, …, pk où p1+ p2+ …+ pk = 1, l’espérance
mathématique de X (ou, simplement, espérance de X), notée E(X), est définie par
k
E(X) = p1X1 + p2X2 + …+ pkXk = ∑ pjX j = ∑ pX .
j =1
Dans le cas de variables continues, la définition de l’espérance est modifiée comme suit. Soient g(X)
une fonction d’une variable aléatoire continue X, et f(x) la fonction de densité de probabilité de X.
L’espérance mathématique de g(x) est alors donnée par
E{g ( X )} = ∫
R
g ( x ) f ( x )dx
où R représente l’amplitude des valeurs de X (espace-échantillon), à condition que l’intégrale
converge absolument.

- 238 -
Annexes

Matrice : Une matrice est un tableau rectangulaire de nombres disposés en lignes et colonnes. Les
lignes ont la même longueur que les colonnes. Si aij dénote l’élément situé sur la i-éme ligne et la j-
ème colonne d’une matrice A constituée de r lignes et c colonnes, A peut s’écrire

a11 a12 ... a1 j ... a1c 


 
a21 a22 ... a 2 j ...a2 c 
. . . . 
Ar x c = A = {aij} =  
ai1 ai 2 ... aij ... aic 
 
. . . . 
ar1 ar 2 ... arj ... arc 

 4 0 - 3
Un exemple simple de matrice 2 x 3 est A 2 x 3=  
- 7 2 1

Une matrice constituée d’une seule colonne est appelée vecteur-colonne. De même, une matrice
 4
constituée d’une seule ligne est appelée vecteur-ligne. Par exemple, x =   est un vecteur-
- 7 
colonne et y’ = [ 4 2 ] un vecteur-ligne. Un nombre unique, comme 2, 4 ou –6, est un
“ scalaire ”.

La somme de deux matrices A = {aij} et B = {bij} est définie par C ={cij} = {aij+ bij}. Par
exemple, si,

 4 0 - 3  2 1 - 3  6 1 - 6
A=   et B =   , on a C = - 6 3 3
- 7 2 1  1 1 2  

Le produit de deux matrices est défini par Cr x s = Ar x c Bc x s où le ij-ème élément de C est donné
c
par cij = ∑a b ik kj . Par exemple, si
k=1

 2 1
 4 0 - 3    2 1
A=   et B =  1 1  , alors C = 
- 7 2 1 - 10 - 4 
 2 1 

Pour avoir de plus amples détails et des exemples tirés de la biologie, le lecteur peut se référer à
Searle (1966).

- 239 -