Professional Documents
Culture Documents
2009 par StatPoint Technologies, Inc. www.STATGRAPHICS.com Traduction par Christian R. CHARLES www.STATGRAPHICS.fr Tous droits rservs. Aucune partie de ce document ne peut tre reproduite, sous toute forme ou par tout moyen, sans laccord crit de StatPoint Technologies, Inc. Rfrenc comme : STATGRAPHICS Centurion XVI - Manuel de lUtilisateur STATGRAPHICS est une marque dpose de StatPoint Technologies, Inc. STATGRAPHICS Centurion XVI, StatPoint, StatFolio, StatGallery, StatReporter, StatPublish, StatWizard, StatLink et SnapStats sont des marques de StatPoint Technologies, Inc. Tous les produits et services mentionns dans ce livre sont des marques ou services de leurs propritaires respectifs. Imprim aux Etats-Unis dAmrique.
3.2.1 Bouton Dfinition de lanalyse ................................................................................66 3.2.2 Bouton Options danalyse .......................................................................................67 3.2.3 Bouton Tableaux et graphiques ...............................................................................68 3.2.4 Bouton Options pour la fentre ..............................................................................70 3.2.5 Bouton Enregistrer les rsultats...............................................................................72 3.2.6 Boutons pour les graphiques ...................................................................................73 3.2.7 Bouton Inclure / Exclure .......................................................................................74 3.3 Imprimer les rsultats ...................................................................................................75 3.4 Publier les rsultats.......................................................................................................77 Graphiques ................................................................................................................ 79 4.1 Modifier les graphiques ................................................................................................80 4.1.1 Options Apparence ................................................................................................81 4.1.2 Options Grille ........................................................................................................83 4.1.3 Options Lignes ......................................................................................................85 4.1.4 Options Points .......................................................................................................87 4.1.5 Options Titre principal ...........................................................................................89 4.1.6 Options Echelles des axes.......................................................................................91 4.1.7 Options Remplissages ............................................................................................93 4.1.8 Options Textes, Libells et Lgendes ......................................................................94 4.1.9 Ajouter un nouveau texte........................................................................................94 4.2 Eparpiller un nuage de point .........................................................................................95 4.3 Brosser un nuage de points ...........................................................................................97 4.4 Lisser un nuage de points ........................................................................................... 100 4.5 Identifier des points ................................................................................................... 101 4.6 Copier des graphiques dans dautres applications ......................................................... 105 4.7 Enregistrer des graphiques dans des fichiers ................................................................ 106 StatFolios................................................................................................................. 107 5.1 Enregistrer votre session ............................................................................................ 107 5.2 Script de dmarrage du StatFolio................................................................................. 108 5.3 Interroger les sources de donnes ............................................................................... 112 5.4 Publier les rsultats au format HTML ......................................................................... 113 Utiliser la StatGallery .................................................................................................117 6.1 Configurer un page de la StatGallery ........................................................................... 117 6.2 Copier des graphiques dans la StatGallery .................................................................... 119 6.3 Superposer des graphiques.......................................................................................... 120 6.4 Modifier un graphique dans la StatGallery ................................................................... 121 6.4.1 Ajouter des lments ............................................................................................ 121 6.4.2 Modifier des lments........................................................................................... 122 6.4.3 Supprimer des lments ........................................................................................ 122 iv / Table des matires
6.5 Imprimer la StatGallery.............................................................................................. 123 Utiliser le StatReporter .............................................................................................. 125 7.1 La fentre StatReporter .............................................................................................. 125 7.2 Copier des rsultats dans le StatReporter .................................................................... 126 7.3 Modifier les rsultats dans le StatReporter .................................................................. 127 7.4 Enregistrer le StatReporter ......................................................................................... 127 Utiliser le StatWizard ................................................................................................ 129 8.1 Accder des donnes ou crer une nouvelle tude .................................................... 130 8.2 Slectionner les analyses pour vos donnes ................................................................. 134 8.3 Rechercher les statistiques ou tests dsirs .................................................................. 139 Prfrences du logiciel .............................................................................................. 143 9.1 Prfrences gnrales du logiciel................................................................................. 143 9.2 Impression ................................................................................................................ 146 9.3 Graphiques ............................................................................................................... 146 Didacticiel n 1 : Analyser un unique chantillon ........................................................ 149 10.1 Mettre en oeuvre la procdure Analyse une variable ................................................ 150 10.2 Statistiques rsums ................................................................................................. 153 10.3 Graphique en bote moustaches ............................................................................. 156 10.4 Tester la prsence de points extrmes ....................................................................... 158 10.5 Histogramme .......................................................................................................... 162 10.6 Graphique des quantiles et quantiles ......................................................................... 167 10.7 Intervalles de confiance............................................................................................ 168 10.8 Tests dhypothses................................................................................................... 170 10.9 Limites des tolrances .............................................................................................. 172 Didacticiel n 2 : Comparer deux chantillons ............................................................ 175 11.1 Mettre en oeuvre la procdure de comparaison des deux chantillons ........................ 176 11.2 Statistiques rsumes ............................................................................................... 178 11.3 Double histogramme ............................................................................................... 179 11.4 Botes moustaches................................................................................................. 179 11.5 Comparer les carts-types ........................................................................................ 181 11.6 Comparer des moyennes .......................................................................................... 183 11.7 Comparer des mdianes ........................................................................................... 184 11.8 Graphique des quantiles ........................................................................................... 185 11.9 Test de Kolmogorov-Smirnov pour deux chantillons............................................... 186 11.10 Graphiques quantiles-quantiles ............................................................................... 187 Didacticiel n 3 : Comparer plus de deux chantillons ................................................ 189 12.1 Mettre en oeuvre la procdure de comparaison de plusieurs chantillons .................... 190 12.2 Analyse de la variance .............................................................................................. 194 12.3 Comparer les moyennes ........................................................................................... 197 v / Table des matires
12.4 Comparer des mdianes ............................................................................................ 199 12.5 Comparer des carts-types ........................................................................................ 201 12.6 Graphiques des rsidus ............................................................................................. 202 12.7 Graphique de lanalyse des moyennes (ANOM) ......................................................... 203 Didacticiel n 4 : Mthodes de rgression .................................................................. 205 13.1 Analyse des corrlations............................................................................................ 206 13.2 Rgression simple ..................................................................................................... 210 13.3 Ajuster un modle non linaire.................................................................................. 213 13.4 Examiner les rsidus ................................................................................................. 216 13.5 Rgression multiple .................................................................................................. 217 Didacticiel n 5 : Analyse de donnes qualitatives ...................................................... 227 14.1 Rsumer des donnes qualitatives.............................................................................. 228 14.2 Analyse de Pareto ..................................................................................................... 229 14.3 Tri crois ................................................................................................................. 232 14.4 Comparer deux chantillons ou plus .......................................................................... 239 14.5 Tableaux de contingence........................................................................................... 243 Didacticiel n 6 : Analyse daptitude dun procd ..................................................... 245 15.1 Visualiser graphiquement les donnes........................................................................ 246 15.2 Procdure danalyse daptitude .................................................................................. 248 15.3 Travailler avec des donnes non normales ................................................................. 252 15.4 Indices daptitude ..................................................................................................... 259 15.5 Calculatrice Six Sigma ............................................................................................... 263 Didacticiel n 7 : Plans dexpriences ........................................................................ 267 16.1 Crer le plan............................................................................................................. 268 Etape 1: Dfinir les rponses ........................................................................................ 269 Etape 2 : Dfinir les facteurs exprimentaux .................................................................. 270 Etape 3: Slectionner le plan ......................................................................................... 270 Etape 4 : Prciser le modle .......................................................................................... 276 Etape 5: Slection des essais.......................................................................................... 278 Etape 6: Evaluer le plan ................................................................................................ 278 Etape 7: Enregistrer le plan dexpriences ...................................................................... 280 16.2 Analyser les rsultats................................................................................................. 281 Etape 8: Analyser les donnes ....................................................................................... 281 Etape 9: Optimiser les rponses .................................................................................... 294 Etape 10: Enregistrer les rsultats .................................................................................. 297 16.3 Expriences complmentaires ................................................................................... 298 Etape 11 : Augmenter le plan ........................................................................................ 298 Etape 12 : Extrapoler.................................................................................................... 300 Livres suggrs ........................................................................................................ 303 vi / Table des matires
Prface
Ce livre est conu pour prsenter, aux utilisateurs de STATGRAPHICS Centurion XVI, les oprations de base du logiciel et son utilisation pour analyser des donnes. Il donne un aperu complet du logiciel : installation, gestion des donnes, mise en uvre danalyses statistiques, impression et publication des rsultats. Comme ce livre a pour but de permettre aux utilisateurs dutiliser le logiciel rapidement, il se concentre sur les fonctionnalits les plus importantes du logiciel plutt que dessayer de couvrir tous les dtails. Le menu Aide dans STATGRAPHICS Centurion XVI donne accs un grand nombre dinformations additionnelles avec un fichier PDF ddi pour chacune des 160 procdures statistiques. Les neuf premiers chapitres de ce livre prsentent lutilisation de base du logiciel. Bien que vous puissiez probablement dcouvrir tout cela par vous-mme en utilisant le logiciel, une lecture complte de ces chapitres vous aidera prendre en main rapidement le logiciel et vous assurera que vous ne passez pas ct dimportantes fonctionnalits. Les sept derniers chapitres apportent des didacticiels qui ont pour but : 1. de vous prsenter quelques-unes des analyses statistiques les plus courantes. 2. dillustrer comment certaines des fonctionnalits uniques de STATGRAPHICS Centurion XVI vous facilitent la dmarche danalyse de vos donnes. Il vous est recommand dexplorer ces didacticiels car ils vous donneront une bonne ide sur la faon dutiliser au mieux STATGRAPHICS Centurion XVI pour lanalyse de donnes relles. NOTE : une copie de ce manuel au format PDF est livre avec le logiciel et peut tre accde par le menu Aide. Dans le document PDF, tous les graphiques sont en couleurs. Les fichiers de donnes et les StatFolios utiliss dans ce manuel sont galement fournis avec le logiciel. StatPoint Technologies, Inc. Dcembre 2009
ix / Prface
x / Prface
Chapitre
Dmarrer
Installer STATGRAPHICS Centurion XVI, utiliser le logiciel et crer un fichier de donnes.
1 Dmarrer
Slectionner le langage principal et un ou plusieurs langages additionnels. Le langage principal sera utilis durant linstallation et galement comme langage par dfaut lorsque le logiciel sera charg la premire fois. Si vous installez des langages additionnels, vous pourrez passer dun langage un autre langage en slectionnant Editer Prfrences dans le menu principal. Si vous avez tlcharg le logiciel via Internet, vous devrez effectuer une installation spare pour chaque langage que vous avez tlcharg. NOTE : Durant la priode dvaluation, vous pourrez accder tous les langages disponibles dans STATGRAPHICS Centurion XVI. Lors de lachat du logiciel, il vous sera demand de choisir le langage principal et les ventuels langages additionnels. Merci de noter que seuls ces langages seront alors utilisables dans STATGRAPHICS Centurion XVI.
2 Dmarrer
Etape 3 : STATGRAPHICS Centurion XVI utilise InstallShield pour installer le logiciel sur votre ordinateur. Lassistant InstallShield pilote linstallation via un ensemble de botes de dialogue. La premire bote de dialogue vous accueille dans STATGRAPHICS Centurion XVI :
Cliquer sur le bouton Suivant. NOTE : Pour installer et activer le logiciel STATGRAPHICS Centurion XVI vous devez avoir les droits administrateur sur votre ordinateur. Si une personne du service informatique doit intervenir pour cette installation, nous vous recommendons dinstaller et dactiver le logiciel en sa prsence.
3 Dmarrer
Lire attentivement le contrat de licence. Si vous en acceptez les termes, cliquez sur le bouton radio appropri puis cliquez sur Suivant pour continuer. Si vous ne lacceptez pas, cliquez sur Annuler. Si vous nen acceptez pas les termes, vous ne devez pas utiliser le logiciel.
4 Dmarrer
Etape 5 : La bote de dialogue suivante vous demande des informations identifiant la personne qui utilisera le logiciel :
Entrez les informations demandes. Si vous souhaitez permettre chaque utilisateur de lordinateur daccder au logiciel STATGRAPHICS Centurion XVI, cliquez sur le bouton radio appropri.
5 Dmarrer
Etape 6 : La bote de dialogue suivante indique le rpertoire dans lequel le logiciel sera install :
Par dfaut, STATGRAPHICS Centurion XVI est install dans un sous-rpertoire de Program Files nomm STATGRAPHICS Centurion XVI. Si vous installez le logiciel sur un serveur, installez-le dans un rpertoire auquel tous les utilisateurs potentiels auront accs en lecture. Laccs en criture par les utilisateurs nest pas ncessaire. Consultez le fichier Lisezmoi.txt prsent sur le CD de STATGRAPHICS Centurion XVI ou tlcharg pour des informations compltes sur linstallation en rseau.
6 Dmarrer
Etape 7 : La bote de dialogue suivante vous permet de prciser le type dinstallation effectuer :
Slectionnez lune des installations suivantes : Typique installe le logiciel, les fichiers daide, la documentation et les fichiers de donnes des exemples. Il faut pour cela un peu plus de 60 Mo despace libre sur votre disque dur. Minimale installe uniquement le logiciel et les fichiers daide. Il faut pour cela environ 30 Mo despace libre sur votre disque dur. Personnalise installe uniquement les composants que vous slectionnez.
7 Dmarrer
Vous pouvez conomiser de lespace sur votre disque dur en faisant une installation minimale, mais vous naurez alors ni accs la documentation en ligne ni accs aux fichiers de donnes des exemples. Etape 8 : Suivre ensuite les instructions pour terminer linstallation. Lorsque linstallation est termine, une bote de dialogue finale saffiche :
Cliquez sur Terminer pour terminer linstallation. Cocher la case Lancer le programme si vous souhaitez dmarrer STATGRAPHICS Centurion XVI immdiatement ou suivre les instructions ci-dessous.
pouvez galement slectionner Program s Files Statgraphics - STATGRAPHICS Centurion XVI en utilisant lexplorateur Windows et cliquer sur licne de lapplication sgwin pour utiliser le logiciel. Etape 2 : Lorsque STATGRAPHICS Centurion XVI se charge, il ouvre une nouvelle fentre. La premire fois que vous chargerez le logiciel, la bote de dialogue Bienvenue saffichera :
Vous avez deux choix : 1. Pour dbuter une priode dvaluation de 30 jours, cliquez sur le bouton Ev aluer. 9 Dmarrer
2. Si vous avez dj acquis le logiciel et avez reu un numro de srie, cliquez sur le bouton Activer. Si vous cliquez sur le bouton Ev aluer, la bote de dialogue suivante saffiche :
Cette bote de dialogue affiche une cl du produit sur 16 caractres qui est spcifique votre ordinateur. Pour dbuter votre prriode dvaluation, vous devez entrer un code dactivation qui 10 Dmarrer
dpend de cette cl du produit. Pour recevoir ce code dactivation, cliquer sur lun des deux boutons affichs en bas de la bote de dialogue dactivation (tape 2) : 1. Le bouton 1. Cliquer ici permet denvoyer automatiquement un message StatPoint Technologies par Internet pour demander un code dactivation. Un service Web rpond immdiatement cette demande en envoyant le code dactivation ladresse de messagerie indique. 2. Le bouton 2. Cliquer ici accde votre logiciel de messagerie par dfaut et cre un message contenant les informations entres pour envoi StatPoint Technologies. Les demandes faites par messagerie sont traites durant les heures de travail aux USA. Pour viter un dlai, il est prfrable dutiliser la premire mthode. NOTE : Les utilisateurs activant un logiciel obtenu via un tablissement denseignement possdant une licence de site doivent obligatoirement utiliser la premire mthode. Le code dactivation sera uniquement envoy une adresse de messagerie de ltablissement. Le gestionnaire de la licence de site doit lindiquer aux utilisateurs. Etape 3 : Une fois la demande effectue, un message vous sera envoy indiquant le code dactivation. Entrez ce code dans le champ associ ltape 3) puis cliquez sur le bouton Activer. Si le code entr est bien associ la cl du produit, le message suivant saffiche :
Cliquez sur OK pour afficher la fentre principale du logiciel. NOTE 1 : Si vous utilisez Microsoft Vista ou Windows 7 lorsque vous double-cliquez sur licne STATGRAPHICS pour dmarrer le logiciel, il est possible que cela ne fonctionne pas. Dans ce cas, vous devez cliquer sur le bouton droit de la souris et slectionner Excuter en tant quadministrateur dans la liste des options qui saffiche. 11 Dmarrer
NOTE 2 : Si vous installez plus tard STATGRAPHICS Centurion XVI sur un autre ordinateur, il faudra demander nouveau un code dactivation car la cl du produit est spcifique chaque ordinateur. Etape 4 : La premire fois que vous utiliserez le logiciel, il vous sera galement demand quel sy stme de menus vous souhaitez utiliser. Vous avez le choix entre le classique menu STATGRAPHICS, qui organise les procdures statistiques en Graphique, Dcrire, Comparer, Relier, Prvoir, MSP et Plans dExpriences ou le menu Six Sigma qui organise les procdures en Dfinir, Mesurer, Analyser, Innover, Contrler et Prvoir. Ces deux menus comportent les mmes procdures. Seule lorganisation est diffrente. Vous pourrez modifier votre choix initial plus tard en slectionnant Prfrences dans le menu Editer du logiciel.
12 Dmarrer
Les paragraphes qui suivent montrent comment crer un fichier de donnes contenant des informations relatives au recensement amricain de lan 2000.
13 Dmarrer
Dans un tableur type, chaque ligne contient des informations concernant un individu dun chantillon, un sujet ou une observation, alors que chaque colonne reprsente une variable. Par exemple, supposons que vous dsiriez utiliser STATGRAPHICS Centurion XVI pour analyser des donnes du recensement amricain de lanne 2000. Un sous-ensemble des donnes de ce recensement est montr ci-aprs :
14 Dmarrer
Population Age mdian % Femme Revenu par tte 4447100 35,8 51,7 18819 $ 626932 32,4 48,3 22660 $ 5130632 34,2 50,1 20275 $ 2673400 36,0 51,2 16904 $ 33871648 33,3 50,2 22711 $ 4301261 34,3 49,6 24049 $
Lorsque vous entrez ces donnes dans le tableur de STATGRAPHICS Centurion XVI, les informations concernant chaque tat doivent tre places dans une ligne diffrente. Cinq colonnes sont cres pour contenir les noms des tats et les donnes du recensement. Pour entrer les donnes montres ci-dessus dans STATGRAPHICS Centurion XVI, vous avez deux possibilits : 1. Entrer les donnes directement dans le tableur de STATGRAPHICS Centurion XVI. 2. Entrer les donnes dans un autre logiciel, comme par exemple Excel, puis les charger ou les copier dans le tableur de STATGRAPHICS Centurion XVI. Dans ce paragraphe, nous choisirons la premire approche. Pour dbuter, double-cliquons sur lentte de la premire colonne dans laquelle le nom de la colonne est Col_1. Cela va afficher une bote de dialogue que vous pourrez utiliser pour modifier dimportantes proprits de cette colonne. Chaque colonne du tableur de STATGRAPHICS Centurion XVI est caractrise par un nom, un commentaire et un type : Nom Donner un nom unique chaque colonne, compos de 1 32 caractres. Les noms sont utiliss par le logiciel pour identifier les variables analyser lorsquune analyse statistique est mise en oeuvre. Ils servent galement de libells par dfaut dans la plupart des graphiques. Les noms peuvent tre composs de tout caractre, ne distinguent pas les minuscules des majuscules et les espaces sont autoriss. Le logiciel affichera un message derreur si vous tentez dutiliser le mme nom pour plus dune colonne dans un mme tableur, mme si des colonnes dans des tableurs diffrents peuvent porter le mme nom. 15 Dmarrer
Commentaire Entrer un commentaire identifiant les donnes de la colonne. Les commentaires peuvent avoir jusqu 64 caractres et sont optionnels. Ils saffichent dans la deuxime ligne de len-tte. Type Prciser le type des donnes entres dans la colonne. Dans notre cas, la premire colonne contient les noms des tats et est donc de type Caractre. Les autres colonnes peuvent rester Numrique ou tre dfinies comme Entier ou Dcimal fixe si vous dsirez restreindre le type de donnes qui peut y tre saisi. Pour des informations dtailles sur les types de colonnes, voir le Chapitre 2. Aprs avoir dfini chaque colonne, cliquer sur OK. Lorsque les cinq colonnes sont dfinies, cliquer sur Annuler. Un tableur vide saffiche alors indiquant les noms des colonnes cres :
16 Dmarrer
Figure 1-16. Le tableur de STATGRAPHICS Centurion XVI avec les nom s des colonnes
Vous pouvez alors entrer les donnes comme dans tout tableur, en utilisant les touches flches pour vous dplacer de cellule en cellule. Lorsque vous aurez termin, le tableur doit avoir laspect de celui montr ci-aprs :
Figure 1-17. Le tableur de STATGRAPHICS Centurion XVI aprs y avoir entr 6 lignes de donnes
17 Dmarrer
Enfin, vous devez enregistrer votre fichier de donnes. Choisir Fichier Enregistrer Enregistrer un fichier de donnes dans le menu principal. Slectionner un nom de fichier dans lequel enregistrer vos donnes :
Les fichiers de donnes de STATGRAPHICS Centurion XVI sont enregistrs sur le disque dur avec par dfaut lextension .sgd qui enregistre les donnes sous le format XML. Lorsque vous enregistrez un fichier, vous pouvez modifier ce paramtre dans le champ Type et choisir un autre format.
La slection par dfaut est la bonne dans notre cas. Il faut ensuite slectionner le nom du fichier contenant les donnes :
19 Dmarrer
Le fichier exemple est localis dans le rpertoire de donnes par dfaut (habituellement c:\Program Files\Statgraphics\STATGRAPHICS Centurion XVI\Data). Ouvrir le fichier de donnes pour charger les 51 lignes de donnes dans le tableur :
20 Dmarrer
Dbutons en analysant la variabilit du revenu par tte dans les diffrents tats. La meilleure procdure pour rsumer une unique colonne de donnes numriques est lAnalyse une variable. Cette procdure calcule des statistiques rsumes comme la moyenne et lcart-type dun chantillon. Elle fournit galement divers graphiques, dont un histogramme et une bote moustaches. La localisation de cette procdure dAnalyse une variable dpend du systme de menus utilis : 1. Menu classique : Slectionner Dcrire Donnes quantitatives Analyse une variable. 2. Menu Six-Sigma : Slectionner Analyser Donnes quantitatives Analyse une variable. Comme pour toutes les procdures statistiques, lAnalyse une variable dbute en affichant une bote de dialogue dentre des donnes :
Figure 1-22. Bote de dialogue dentre des donnes pour lanalyse une variable
La zone de type liste gauche affiche les noms de toutes les colonnes des tableurs contenant des donnes. Pour analyser les donnes de la colonne Per Capita Income, cliquer sur son nom puis cliquer sur le bouton contenant une flche noire au-dessous du champ Donnes. Cela place le nom de la colonne contenant les revenus dans le champ Donnes. Laisser blanc le champ Slection (il est utile uniquement si vous souhaitez analyser un sous-ensemble des lignes du tableur plutt que toutes les lignes). Lorsque vous cliquez sur le bouton OK, la bote de dialogue Tableaux et graphiques saffiche. Cette bote de dialogue donne la liste des tableaux et graphiques disponibles pour la procdure Analyse une variable. Acceptons pour le moment les choix par dfaut. 21 Dmarrer
En cliquant nouveau sur le bouton OK, une nouvelle fentre danalyse est cre :
La fentre contient quatre sous-fentres avec des barres dplaables les sparant. Les deux sousfentres de gauche contiennent des tableaux alors que les deux sous-fentres de droite contiennent des graphiques. Si vous double-cliquez dans la fentre en bas gauche, le tableau des statistiques rsumes est maximis : 22 Dmarrer
Plusieurs statistiques intressantes sont donnes dans ce tableau. Dans les n = 51 tats plus D.C., les revenus par tte varient entre 15.853$ et 28.766$. La moyenne des revenus par tte est de 20.934,47$. Au-dessous de tableau des rsultats se trouve le StatAdvisor, qui vous donne une rapide interprtation des rsultats. Dans notre cas, le StatAdvisor se concentre sur les deux statistiques affiches en rouge, qui mesurent lasymtrie et laplatissement dans les donnes. Comme expliqu par le StatAdvisor, les donnes provenant dune loi normale ou dune distribution gaussienne doivent avoir une asymtrie standardise et un aplatissement standardis compris entre 2 et +2. Dans notre cas, les deux statistiques sont dans cette plage, ce qui indique quune loi normale en forme de cloche est un modle raisonnable pour les observations, mme si lasymtrie standardise est trs prs dtre statistiquement significative. Un double-clic dans le tableau des statistiques rsumes nous permet de revenir laffichage dorigine en quatre sous-fentres. En double-cliquant dans la fentre en bas droite, le graphique de la bote moustaches est maximis :
23 Dmarrer
Le graphique de la bote moustaches, invent par John Tukey, affiche cinq statistiques rsumes de notre chantillon de donnes. La partie centrale de la bote couvre la moiti centrale des donnes et va du premier quartile au troisime quartile. Les lignes qui stendent gauche et droite du graphique (les moustaches) indiquent les positions de la plus petite donne et de la plus grande donne. La mdiane des donnes est indique par la ligne verticale lintrieur de la bote et le signe + donne la position de la moyenne de lchantillon. Le fait que la moustache de droite soit plus longue que la moustache de gauche, alors que la moyenne est un peu plus grande que la mdiane, est une indication dasymtrie positive dans les donnes.
Lorsquune fentre danalyse, comme lAnalyse une variable est initialement affiche, seules certains tableaux et graphiques sont prsents. Pour afficher dautres tableaux ou graphiques, vous devez cliquer sur les boutons appropris dans la Barre doutils danalyse, qui est affiche juste au-dessus du titre de lanalyse.
24 Dmarrer
Les boutons de la barre doutils danalyse sont trs importants. Les actions de ses sept premiers boutons sont dcrites ci-aprs. Nom Dfinition de lanalyse Options danalyse Tableaux et graphiques Options pour la fentre Enregistrer des rsultats Options graphiques Fonction Affiche la bote de dialogue dentre des donnes et permet de changer les colonnes de donnes analyser. Permet de slectionner les options qui sappliquent tous les tableaux et graphiques de lanalyse en cours. Affiche la liste des tableaux et des graphiques qui peuvent tre crs. Slectionne les options qui sappliquent uniquement au tableau ou au graphique maximis. Permet denregistrer des statistiques calcules dans des colonnes du tableur. Permet de modifier les titres, chelles et autres caractristiques du graphique maximis.
Dautres boutons droite de ceux-ci permettent dautres actions lorsquun graphique est maximis, comme cela est expliqu dans le Chapitre 5. Par exemple, si vous cliquez sur le bouton Tableaux et graphiques , une bote de dialogue saffichera listant tous les tableaux et graphiques disponibles pour lAnalyse une variable :
Cliquer dans la case cocher gauche de Histogramme deffectifs puis cliquer sur OK ajoute un troisime graphique dans la partie droite de la fentre danalyse : 25 Dmarrer
Figure 1-30. La fentre de lanalyse une v ariable aprs ajout de lhistogramme deffectifs
Si vous double-cliquez dans lhistogramme pour le maximiser puis cliquez sur le bouton Options pour la fentre, une bote de dialogue saffiche avec des options spcifiques lhistogramme :
26 Dmarrer
En utilisant cette bote de dialogue, vous pouvez modifier le nombre de barres dans lhistogramme et la plage quelles recouvrent. Si le Nombre de classes est dfini 15, lorsque vous cliquez sur le bouton OK, lhistogramme est modifi pour tenir compte de la nouvelle dfinition :
27 Dmarrer
Vous pouvez galement modifier le type de remplissage et la couleur des barres de lhistogramme en cliquant sur le bouton Options graphiques. Il saffiche alors une bote de dialogue onglets qui vous permet de modifier la plupart des lments du graphique. Si vous cliquez sur longlet Remplissages, la bote de dialogue suivante saffiche :
En cliquant sur le bouton radio n1 puis en slectionnant un nouveau Type de remplissages ou une nouvelle Couleur, la prsentation des barres de lhistogramme sera modifie. NOTE : Les oprations de nombreux boutons de la barre doutils danalyse peuvent galement tre effectues en cliquant sur le bouton droit de la souris dans la sous-fentre contenant le tableau ou le graphique. Un menu popup saffiche alors listant les oprations disponibles. 28 Dmarrer
Publier les rsultats pour les visualiser via un navigateur sur le Web. Copier les rsultats dans un autre logiciel. Enregistrer lanalyse dans un rapport.
29 Dmarrer
Un StatFolio consiste en un ensemble dinstructions permettant de recrer chacune des analyses de la session courante, avec des pointeurs vers les fichiers de donnes ou les bases de donnes contenant vos donnes. Si vous rechargez le StatFolio une date ultrieure, il va automatiquement relire vos donnes et recrer les analyses. Toutes les options que vous avez slectionnes seront ractives. NOTE 1 : Si les donnes dans les sources de donnes ont t modifies entre le moment o vous avez enregistr le StatFolio et celui o il est recharg, les analyses seront automatiquement mises jour pour prendre en compte les nouvelles donnes. Cela offre un moyen simple pour remettre en oeuvre des analyses qui doivent tre rptes de faon priodique sans devoir les recrer.
30 Dmarrer
NOTE 2 : Les donnes et le StatFolio sont enregistrs dans des fichiers spars. Si vous devez transfrer un StatFolio sur un autre ordinateur, assurez-vous de transfrer galement le ou les fichiers de donnes.
31 Dmarrer
32 Dmarrer
Chapitre
Ce chapitre dcrit tout ce que vous devez savoir sur les donnes avec STATGRAPHICS Centurion XVI, notamment comment y accder, comment les manipuler et comment les utiliser dans les analyses statistiques.
2.1 Le classeur
Chaque colonne du tableur de STATGRAPHICS Centurion XVI reprsente une variable diffrente. Les variables sont habituellement des attributs ou des mesures associs aux lignes qui dfinissent les lignes dans le tableur. Par exemple, dans le tableur 93cars, il y a une colonne identifiant la marque de chaque vhicule, une colonne identifiant son type, des colonnes contenant les nombres de miles par gallon pour les conduites en ville et sur autoroutes, des colonnes contenant les longueurs, hauteurs et poids ainsi que dautres informations similaires. A chaque colonne sont associs un nom et un type. Le nom est utilis pour identifier les donnes utiliser dans les analyses statistiques. Le type affecte la faon dont les donnes sont analyses. Un commentaire optionnel est galement associ chaque colonne. Il est utilis pour donner des informations complmentaires sur le contenu de la colonne. NOTE : Les donnes proviennent du Journal of Statistical Education Data Archive et sont utilises avec la permission de ce journal (www.amstat.org/publications/jse/jse_data_archive.html).
Figure 2-2. Bote de dialogue utilise pour modifier les proprits dune colonne
Pour afficher ou modifier les proprits dune colonne dans le tableur, double-cliquer sur le nom de la colonne pour afficher la bote de dialogue Modifier une colonne. Vous pouvez prciser : 1. Nom : de 1 32 caractres. Lorsque vous mettez en oeuvre des analyses statistiques, les colonnes sont identifies par ces noms. Chaque colonne du tableur doit avoir un nom unique, mais des colonnes de diffrents tableurs peuvent avoir le mme nom. Les noms peuvent inclure tout caractre y compris des espaces. Les noms ne doivent pas dbuter par un chiffre, les espaces y sont autoriss et ils ne distinguent pas les minuscules des majuscules. 2. Commentaire : de 0 64 caractres, ils donnent des informations complmentaires sur le contenu de la colonne. 3. Type : le type de donnes autoris dans la colonne. Les types suivants peuvent tre dfinis : Type Numrique Caractre Entier Date Mois Trimestre Heure (HH:MM) Heure (HH:MM:SS) Date-Heure (HH:MM) Date-Heure (HH:MM:SS) Dcimal fixe Formule
Figure 2-3. Types des colonnes
Contenu Tout nombre valide Toute chane alphanumrique Un nombre entier Jour, mois, anne Mois, anne Trimestre, anne Heure, minute Heure, minute, seconde Jour, mois, anne, heure, minute Jour, mois, anne, heure, minute, seconde Nombre avec 1 9 dcimales Calcul partir dautres colonnes
Exem ple 3,14 Chevrolet 105 19/02/06 02/06 Q1/06 3:15 3:15:53 19/02/06 3:15 19/02/06 3:15:53 34,10
MPG City/MPG Highway
Lorsque vous entrez des donnes dans le tableur, les donnes doivent tre conformes aux types des colonnes dans lesquelles les donnes sont entres. Par exemple, lentre dun nom dans une colonne numrique sera rejete. Lorsque vous entrez des donnes, le format des donnes doit galement tre en accord avec les paramtres de Windows. En particulier, STATGRAPHICS Centurion XVI utilise les paramtres de Windows suivants : 35/ Gestion des donnes
1. Sparateur dcimal pour les valeurs numriques 2. Format heure et son sparateur 3. Format court des dates et son sparateur Pour vrifier les paramtres de Windows sur votre ordinateur, il suffit daccder au Panneau de configuration de Windows. Lorsque vous entrez une date, vous devez utiliser le format indiqu dans la bote de dialogue Editer - Prfrences, soit 4 chiffres pour les annes (par exemple 18/12/2009) soit 2 chiffres (par exemple 18/12/09). Si le format 2 chiffres est utilis pour les annes, il est suppos que les annes sont comprises entre 1950 et 2049. Plus dinformations sur les colonnes de type Formule peuvent tre trouves dans le paragraphe Manipuler des donnes plus loin dans ce chapitre.
2.2.1 Lire des donnes dun fichier STATGRAPHICS Centurion XVI Pour lire des donnes dj enregistres dans un fichier STATGRAPHICS Centurion XVI, choisir lun des 26 tableurs du Classeur en cliquant sur son onglet puis slectionner Fichier Ouvrir Ouvrir une source de donnes et choisir Fichier STATGRAPHICS dans la bote de dialogue montre ci-dessous :
Vous pouvez lire des fichiers de donnes de STATGRAPHICS Centurion XVI ou de toute version prcdente de STATGRAPHICS dont STATGRAPHICS Plus. Les donnes du fichier remplaceront alors les donnes prsentes dans le tableur slectionn. 2.2.2 Lire des donnes de fichiers Excel, ASCII, XML ou dautres formats Pour lire des donnes enregistres dans des fichiers crs par dautres logiciels, choisir lun des 26 tableurs du Classeur en cliquant sur son onglet puis slectionner Fichier Ouvrir Ouvrir une source de donnes et choisir Fichier externe dans la bote de dialogue montre ci-dessous :
Aprs avoir cliqu sur OK, une bote de dialogue saffiche pour vous permettre de prciser le fichier importer ainsi que dautres informations :
Les champs de cette bote de dialogue sont : 1. Fichier de type type du fichier importer. STATGRAPHICS Centurion XVI peut importer des donnes depuis de nombreuses autres applications, dont Excel, Matlab, Minitab, JMP, SPSS, SAS et beaucoup dautres logiciels statistiques. 2. Nom du fichier nom du fichier importer. Cliquer sur le bouton NAVIGUER pour slectionner le fichier dsir. 3. Feuille nom de la feuille importer (si utile). Seule une feuille peut tre importe la fois. 4. Largeurs des colonnes les largeurs des colonnes, spares par des virgules (pour les fichiers ASCII formats uniquement). 5. Dlimiteur dlimiteur des colonnes (pour les fichiers ASCII dlimits uniquement). 6. Lignes la plage des lignes de la feuille qui sera lue. Cette plage inclut les noms des variables et les commentaires, sil y en a. 7. En-tte - information continue dans les 2 premires lignes de la plage indique (pour les tableurs comme Excel, par exemple). Les deux lignes immdiatement au-dessus des donnes lire peuvent contenir des noms de colonnes et/ou des commentaires. Si les noms ne sont pas contenus dans le fichier, alors des noms par dfaut seront gnrs. 8. Valeur manquante - tout symbole spcial utilis dans le fichier externe pour indiquer une valeur manquante, comme par exemple NA. Les cellules contenant le symbole indiqu seront converties en cellules vides lorsquelles seront places dans le tableur de STATGRAPHICS Centurion XVI. Lorsque vous cliquez sur OK, les donnes du fichier externe sont lues et charges dans STATGRAPHICS Centurion XVI. Chaque colonne est inspecte et un type appropri lui est affect. Les donnes sont alors prtes pour les analyses. 2.2.3 Transfrer des donnes par copier-coller La faon la plus simple de transfrer les donnes dautres logiciels dans STATGRAPHICS Centurion XVI est frquemment par le presse-papiers de Windows. Par exemple, si les donnes sont dans un fichier Excel, Excel peut tre charg et les donnes copies dans le presse-papiers 39/ Gestion des donnes
en slectionnant les donnes dsires dans Excel puis en choisissant Copier dans le menu Editer dExcel. Une fois dans STATGRAPHICS, les donnes peuvent y tre colles directement dans un tableur de STATGRAPHICS Centurion XVI en slectionnant Coller dans le menu Editer de STATGRAPHICS. Lorsque les donnes sont colles dans une colonne du tableur, STATGRAPHICS Centurion XVI inspecte automatiquement les donnes et affecte le type appropri la colonne. Lorsque vous copiez et collez des donnes, les noms des colonnes et les commentaires peuvent galement tre transfrs. Il suffit dinclure les noms des colonnes et les commentaires dExcel lorsque vous copiez les donnes dans le presse-papiers. Dans STATGRAPHICS Centurion XVI, cliquez sur la ligne den-ttes du tableur avant de slectionner Coller. Les informations du dbut du presse-papiers seront colles dans les lignes den-ttes. 2.2.4 Faire une requte dans une base de donnes ODBC STATGRAPHICS Centurion XVI permet galement de lire des donnes contenues dans des bases de donnes comme Oracle, Access ou toute base de donnes utilisant lODBC. Pour accder des donnes contenues dans une base de donnes, slectionner Fichier Ouvrir Ouvrir une source de donnes puis Requte ODBC dans la bote de dialogue initiale :
Une suite de botes de dialogue saffichera dans lesquelles vous : 1. Slectionnerez le nom de la base de donnes lire. 2. Slectionnerez les champs transfrer. 3. Dfinirez un filtre pour slectionner les enregistrements transfrer. 4. Dfinirez la faon de trier les rsultats. 40/ Gestion des donnes
Une requte SQL est alors construite et les rsultats sont chargs dans le tableur actif de STATGRAPHICS Centurion XVI Des informations dtailles concernant la construction de requtes ODBC peuvent tre trouves dans le document PDF intitul Fichiers de donnes et StatLink.
2.3.2 Crer de nouvelles variables partir de colonnes existantes STATGRAPHICS Centurion XVI possde une large gamme doprateurs pour vous permettre deffectuer des oprations mathmatiques. Lusage le plus important de ces oprateurs dans lanalyse de vos donnes est pour crer de nouvelles variables bases sur des colonnes existantes. De nouvelles variables peuvent tre cres : 1. A la vole directement dans les champs des botes de dialogue dentre des donnes, sans avoir enregistrer ces variables dans le tableur. 2. En crant une nouvelle colonne dans lun des 26 tableurs du classeur. Par exemple, supposons que vous dsiriez calculer les rapports des nombres de miles par gallon pour une conduite en ville sur les nombres de miles par gallon pour une conduite sur autoroutes pour chaque automobile du fichier de donnes 93cars. Ce fichier contient 2 colonnes spares, lune nomme MPG City et lautre nomme MPG Highway. Pour obtenir un rsum statistique de la distribution de ces rapports, vous pouvez slectionner la procdure Analyse une variable et entrer directement la formule dfinissant votre calcul dans le champ Donnes de la bote de dialogue dentre des donnes :
Lorsque vous cliquez sur OK, lanalyse sera faite sur 100 fois ces rapports, sans devoir modifier les donnes dans le tableur.
Le rapport moyen vaut approximativement 76,3% et stend dune valeur basse de 64,0% une valeur haute de 93,9%. La possibilit de mettre en uvre des analyses sans avoir modifier les tableurs est trs importante car elle facilite grandement lexploration des donnes. Si vous le souhaitez, une nouvelle colonne contenant les valeurs transformes peut tre cre dans le tableur. Par exemple, vous pouvez revenir la fentre contenant les donnes du fichier 93cars et double-cliquer sur len-tte de la colonne nomme Col_27. La bote de dialogue Modifier une colonne peut alors tre utilise pour dfinir une nouvelle variable de type Formule avec la transformation dsire. Cela va vous permettre de crer une nouvelle colonne dont les valeurs seront calcules partir des deux colonnes dorigine contenant les donnes relatives aux nombres de miles par gallon. Les colonnes Formule sont affiches en couleur grise dans le tableur pour rappeler quelles sont automatiquement calcules partir dautres colonnes.
Si les valeurs dans les colonnes MPG City ou MPG Highway sont modifies, MPG Ratio sera automatiquement recalcule pour prendre en compte ces modifications. NOTE : Le recalcul des colonnes de type Formule nest pas effectu tant que ces colonnes ne sont pas ncessaires pour des calculs ou enregistres ou imprimes. Vous pouvez forcer le recalcul immdiat de ces colonnes en slectionnant Mettre jour les formules dans le menu Editer.
2.3.3 Transformer des donnes STATGRAPHICS Centurion XVI possde galement un grand nombre de fonctions mathmatiques qui peuvent tre utilises pour transformer des donnes existantes. Comme pour la cration de nouvelles variables, les transformations peuvent tre effectues soit directement dans les champs de la bote de dialogue dentre des donnes soit en crant de nouvelles colonnes dans le tableur. Par exemple, supposons que nous dsirions tracer un graphique des nombres de miles par gallon pour nos automobiles par rapport au logarithme naturel des poids de ces vhicules. Slectionnons la procdure Graphique X-Y dans le menu principal pour afficher la bote de dialogue dentre des donnes :
Figure 2-13. Transformer des donnes dans une bote de dialogue dentre des donnes
Au lieu dentrer le nom dune colonne dans le champ dentre des donnes, nous allons entrer une expression STATGRAPHICS Centurion XVI. Les expressions STATGRAPHICS Centurion XVI sont des formules qui manipulent des donnes en utilisant des symboles algbriques et des oprateurs spciaux. Un grand nombre doprateurs est disponible comme dcrit dans le document PDF intitul Oprateurs STATGRAPHICS. Le tableau ci-aprs liste les oprateurs les plus couramment utiliss : Oprateur + / * ^ ABS AVG DIFF EXP LAG LOG LOG10 MAX MIN SD SQRT STANDARDIZE Usage Addition Soustraction Division Multiplication Exponentiation Valeur absolue Moyenne Diffrences successives Fonction exponentielle Dcalage de k priodes Logarithme naturel Log base 10 Maximum Minimum Ecart-type Racine carre Conversion en scores Z Exem ple X+100 X-100 X/100 X*100 X^2 ABS(X) AVG(X) DIFF(X) EXP(10) LAG(X,k) LOG(X) LOG10(X) MAX(X) MIN(X) SD(X) SQRT(X) STANDARDIZE(X)
Lorsque vous construisez une expression STATGRAPHICS Centurion XVI, plusieurs oprateurs peuvent tre combins en utilisant les rgles algbriques normales de prcdence. Par exemple, lexpression suivante permet de convertir chaque valeur de la colonne appele Weight en un nombre compris entre 0 et 1 et gal la distance entre les valeurs minimum et maximum de toutes les automobiles : ( Weight MIN(Weight) ) / ( MAX(Weight) - MIN(Weight) ) Les parenthses sont ncessaires pour sassurer que les soustractions sont bien effectues avant la division. Les expressions ne distinguent pas les minuscules des majuscules et les espaces sont ignors. 46/ Gestion des donnes
Chaque bote de dialogue dentre des donnes possde un bouton Transformer, comme dans la Figure 2-13. Ce bouton peut tre utilis pour aider crer des expressions STATGRAPHICS Centurion XVI si vous ne vous rappelez pas des oprateurs utiliser. Si vous positionnez le curseur dans un champ de donnes et cliquez sur le bouton Transformer, une bote de dialogue similaire celle montre ci-aprs saffichera :
A droite dans cette bote de dialogue, la liste de tous les oprateurs STATGRAPHICS Centurion XVI est affiche avec une indication du nombre darguments fournir. Cliquer sur le nom dun oprateur le place dans le champ Expression. Aprs avoir remplac les points dinterrogation par des noms de colonnes ou des nombres, vous pouvez cliquer sur le bouton Afficher pour visualiser les premires valeurs gnres par lexpression ou sur le bouton OK pour mettre lexpression dans la bote de dialogue dentre des donnes. NOTE : Vous navez pas besoin dutiliser le bouton Transformer si vous souhaitez entrer lexpression au clavier directement dans la bote de dialogue dentre des donnes.
Une fois la transformation place dans la bote de dialogue dentre des donnes, comme montr dans la Figure 2-13, cette transformation sera utilise lorsque la procdure sera excute :
Figure 2-16. Procdure Graphique X-Y utilisant les donnes transformes de Weight
Les oprateurs de STATGRAPHICS Centurion XVI peuvent galement tre utiliss pour crer des colonnes de type Formule, de faon similaire ce qui a t illustr dans le prcdent paragraphe. 2.3.4 Trier des donnes Le contenu dun tableur peut tre tri en slectionnant la ou les colonnes utiliser pour dfinir lordre du tri et en choisissant Trier un fichier dans le menu Editer. Par exemple, pour trier les donnes du fichier 93cars en fonction des nombres de miles par gallon, slectionner les colonnes nommes MPG City et MPG Highway puis Trier un fichier. La bote de dialogue montre ci-aprs saffiche :
Vous pouvez slectionner un ou deux colonnes sur lesquelles le tri sera bas ainsi que lordre du tri. Trier par MPG City puis par MPG Highway va dabord trier les nombres de miles par gallon pour une conduite en ville puis pour les automobiles possdant la mme valeur de MPG City par nombres de miles par gallon pour une conduite sur autoroutes :
NOTE : Les procdures statistiques ne vous demandent pas de trier les donnes avant de pouvoir les mettre en oeuvre car elles effectueront ce tri automatiquement si cela est ncessaire. De mme, le fichier sur le disque nest pas modifi lorsque vous effectuez un tri sauf si vous enregistrez nouveau les donnes. Le tri naffecte que lordre dans lequel les donnes sont affiches dans le tableur.
2.3.5 Recoder des donnes Il est parfois utile de recoder des donnes, soit pour les regrouper en groupes similaires, soit pour affecter de nouveaux libells. Pour recoder une colonne de donnes, cliquer en premier sur len-tte de la colonne recoder puis slectionner Recoder des donnes dans le menu Editer. La bote de dialogue suivante saffiche alors :
Par exemple, la colonne nomme Domestic dans le fichier 93cars contient un 1 pour chaque automobile fabrique par un constructeur amricain et un 0 pour toutes les autres automobiles. Pour transformer les 0 dans la colonne en Foreign et tous les 1 en U.S., la bote de dialogue renseigne comme ci-dessus peut tre utilise. Jusqu 7 plages de valeurs peuvent tre recodes la fois. Le document PDF intitul Menu Editer prsente de faon dtaille deux exemples de recodifications. 2.3.6 Combiner plusieurs colonnes De nombreuses procdures statistiques de STATGRAPHICS Centurion XVI supposent que les donnes analyser sont dans une unique colonne. Parfois les donnes ne sont pas sous cette forme. Comme exemple simple, supposons que votre chantillon de 12 observations soit organis en 4 colonnes comme montr ci-dessous :
Pour organiser les donnes en une unique colonne, de nombreuses oprations copier et coller sont ncessaires. Une solution plus simple consiste utiliser la procdure Combiner des colonnes qui se trouve dans le menu Editer. Cette procdure affiche une bote de dialogue dentre des donnes qui demande les noms des colonnes contenant les donnes :
Figure 2-21. Bote de dialogue dentre des donnes pour Combiner des colonnes
Elle contient les champs suivants : 1. Donnes colonnes combiner 2. Slection slection classique dun sous-ensemble des lignes. 3. Mettre dans la feuille feuille cible pour les donnes combines. 4. Ordre des colonnes permet dindiquer si les donnes sont groupes par colonnes (une colonne aprs lautre) ou par lignes. 5. Crer une colonne des numros des lignes indique si une colonne est cre identifiant la ligne dorigine de chaque donne. 52/ Gestion des donnes
6. Crer une colonne des identifiants indique si une colonne est cre identifiant la colonne dorigine de chaque donne. 7. Supprimer les donnes manquantes indique si les cellules vides sont supprimes ou si elles son conserves. Aprs avoir cliqu sur OK, les donnes sont combines dans une unique colonne comme montr ci-dessous:
2.4.1 Gnrer des donnes structures Plusieurs procdures de STATGRAPHICS Centurion XVI, particulirement celles qui mettent en uvre lanalyse de la variance, supposent que les donnes analyser sont dans une unique colonne du tableur et sont accompagnes dune ou de plusieurs variables de codes identifiant les facteurs explicatifs. Par exemple, considrons les donnes du tableau deux entres suivant : Blend 1 2 3 4 Treatment 1 75 78 77 75 Treatment 2 82 85 84 85 Treatment 3 91 93 92 96
Pour analyser ces donnes dans la procdure Analyse de la variance plusieurs facteurs, elles doivent tre places dans le tableur dans le format suivant :
Les deux premires colonnes indiquent les niveaux des facteurs qui correspondent chaque donne. La troisime colonne contient toutes les observations. 54/ Gestion des donnes
Pour crer un tel fichier, la solution la plus simple est souvent de saisir au clavier les deux premires colonnes. Cependant, comme ces colonnes ont une structure simple, vous pouvez les gnrer en utilisant les oprateurs de STATGRAPHICS Centurion XVI. Par exemple, les valeurs de Blend peuvent tre cres en cliquant sur len-tte de la colonne n1 et en slectionnant Gnrer des donnes dans le menu Editer. La bote de dialogue suivante saffiche alors, bote dans laquelle une expression a t entre :
Loption Gnrer des donnes value lexpression STATGRAPHICS Centurion XVI et place le rsultat dans la colonne slectionne. Dans lexpression montre ci-dessus, deux oprateurs importants sont utiliss : COUNT(de ; ; par) gnre des valeurs dbutant de et se terminant avec un pas gal par. COUNT(1 ;4 ;1) gnre ainsi les entiers 1, 2, 3 et 4. REP(X ; rptitions) rpte chaque valeur de X un nombre de fois gal rptitions. Dans notre cas, chaque entier compris entre 1 et 4 est rpt 3 fois. Les nombres pour les traitements peuvent tre gnrs de la mme faon en cliquant sur len tte de la colonne n 2, en slectionnant Gnrer des donnes dans le menu Editer et en entrant lexpression suivante :
Cette expression utilise un oprateur additionnel : RESHAPE(X ; taille) rpte les valeurs de X de faon circulaire jusqu obtenir un nombre de valeurs gal taille. Dans notre cas, la squence 1, 2, 3 est rpte 4 fois. Ces oprateurs sont trs utiles lorsque le fichier crer est de taille importante. 2.4.2 Gnrer des nombres alatoires Des nombres alatoires peuvent tre gnrs par STATGRAPHICS Centurion XVI de deux faons : 1. Si les nombres suivent une loi exponentielle, gamma, log-normale, normale, uniforme ou de Weibull, ils peuvent tre gnrs dans le tableur en cliquant sur len-tte de la colonne, en slectionnant Gnrer des donnes dans le menu Editer et en entrant lexpression approprie dans STATGRAPHICS Centurion XVI. 2. Pour les autres lois, les nombres alatoires doivent tre gnrs dans la procdure Lois de probabilits.
Comme exemple, supposons que nous dsirions obtenir 100 nombres alatoires qui suivent une loi normale de moyenne 20 et dcart-type 2. Cliquons sur len-tte dune colonne vide dans le tableur pour slectionner cette colonne. Slectionnons ensuite Gnrer des donnes dans le menu Editer et renseignons la bote de dialogue comme montr ci-dessous :
Figure 2-26. Gnrer des nombres alatoires pour une loi normale
La syntaxe pour loprateur RNORMAL est : RNORMAL(n ; mu ; sigma) gnre n nombres pseudo-alatoires pour une loi normale de moyenne mu et dcart-type sigma. Cliquons sur OK pour gnrer les nombres alatoires et les placer dans la colonne slectionne du tableur. La syntaxe des autres oprateurs pour la gnration de nombres alatoires est donne dans le document PDF intitul Oprateurs STATGRAPHICS.
A tout moment, le statut des tableurs peut tre affich en activant la fentre Classeur et en slectionnant Proprits du classeur dans le menu Editer ou en slectionnant StatLin k dans le menu Fichier :
Cette bote de dialogue affiche les sources des donnes pour les diffrents tableurs. Si vous le souhaitez, les tableurs peuvent tre en lecture uniquement de faon ne pas modifier par inadvertance les donnes. Il est galement possible dacqurir les donnes (les relire) des intervalles rguliers de temps et dautomatiquement voir les analyses statistiques les utilisant mises jour. Ces fonctionnalits importantes sont dcrites au Chapitre 5.
Caractre Caractre Caractre price for basic version in $1,000 Numrique average of min and max prices in $1,000 Numrique price for a premium version in $1,000 Numrique miles per gallon in city driving Numrique miles per gallon in highway driving Numrique 0=none, 1=driver only, 2=driver and passenger Numrique Caractre Numrique liters Numrique maximum Numrique revs per minute at maximum horsepower Numrique revs per mile in highest gear Numrique 0=no, 1=yes Numrique gallons Numrique persons Numrique inches Numrique inches Numrique inches Numrique feet Numrique inches Numrique cu. ft. Numrique pounds Numrique 1=U.S. manufacturer Numrique
6.7 7.4 7.9 15.0 20.0 0 3.0 1.0 55.0 3800.0 1320.0 0 9.2 2.0 141.0 90.0 60.0 32.0 19.0 6.0 1695.0 0
45.4 61.9 80.0 46.0 50.0 2.0 8.0 5.7 300.0 6500.0 3755.0 1.0 27.0 8.0 219.0 119.0 78.0 45.0 36.0 22.0 4105.0 1.0
Chapitre
7. Les tableaux et les graphiques individuels peuvent tre modifis en maximisant la fentre correspondante et en slectionnant Options pour la fentre dans la barre doutils danalyse. 8. Pour les graphiques, le titre par dfaut, lchelle, les types des points, les polices, etc. peuvent tre changs en double-cliquant dans le graphique pour le maximiser et en slectionnant Options graphiques dans la barre doutils danalyse. 9. Les tableaux et les graphiques peuvent tre imprims, publis sous la forme de pages HTML, copis dans dautres applications comme Microsoft PowerPoint ou enregistrs dans le StatReporter. 10. Les rsultats numriques peuvent tre enregistrs dans des colonnes dun tableur en utilisant le bouton Enregistrer des rsultats de la barre doutils danalyse. 11. Lanalyse peut tre enregistre sur le disque comme un StatFolio pour un usage ultrieur. Dans ce chapitre, une analyse type est dcrite en dtail. Le but de cette analyse est de construire un modle statistique reliant les nombres de miles par gallon pour une conduite en ville pour les n = 93 automobiles du fichier de donnes 93cars.sgd aux poids de ces automobiles. Un nuage de points de ces donnes est montr ci-dessous :
Figure 3-1. Graphique X-Y des nombres de miles par gallon pour une conduite en ville par rapport aux poids en livres
Comme attendu, les nombres de miles par gallon sont corrls ngativement aux poids des vhicules. La relation ne semble pas linaire et au moins un point semble tre un possible point aberrant. La procdure de base dans STATGRAPHICS Centurion XVI pour ajuster un modle statistique reliant deux variables est la Rgression sim ple. Cette procdure ajuste la fois des modles linaires et non linaires. Le modle le plus simple reliant une variable expliquer Y une variable explicative X est la droite de la forme Y = a + b X o b est la pente de la droite et a la valeur lorigine. Des modles curvilinaires comme le modle exponentiel Y = exp(a + b X) peuvent tre utiliss si la relation est non linaire.
Figure 3-2. Bote de dialogue dentre des donnes pour la rgression simple
Les deux premiers champs de donnes sont obligatoires : Y: la variable expliquer ou la rponse. X: la variable explicative ou la variable prdictrice. 63/ Mettre en uvre des analyses statistiques
Dans les champs dentre des donnes, vous pouvez soit entrer le nom dune colonne, comme MPG City ou une expression STATGRAPHICS Centurion XVI, comme LOG(MPG City)) Si plus dun tableur contient une colonne du nom indiqu, vous devez prcder le nom de la colonne par lindication du tableur dsir. Par exemple, si les deux tableurs A et B contiennent une colonne nomme Weight et que vous dsirez utiliser la colonne du tableur A, vous devez entrer le nom sous la forme A.Weight. Le champ Slection peut tre utilis pour slectionner un sous-ensemble des lignes du tableur. Par exemple, si vous entrez lexpression FIRST(50) dans ce champ, seuls les 50 premires lignes du tableur sont utilises. Des expressions usuelles pour le champ Slection sont : Expression FIRST(k) LAST(k) ROWS(dbut ; fin) Usage Slectionne les k premires lignes. Slectionne les k dernires lignes. Slectionne les lignes entre dbut et fin, de faon inclusive. RANDOM(k) Slectionne k lignes de faon alatoire. colonne < valeur Slectionne les lignes pour lesquelles colonne est infrieur valeur. colonne < = valeur Slectionne les lignes pour lesquelles colonne est infrieur ou gal valeur. colonne > valeur Slectionne les lignes pour lesquelles colonne est suprieur valeur. colonne > = valeur Slectionne les lignes pour lesquelles colonne est suprieur ou gal valeur. colonne = valeur Slectionne les lignes pour lesquelles colonne est gal valeur. colonne <> valeur Slectionne les lignes pour lesquelles colonne nest pas gal valeur. condition1 & condition2 Slectionne les lignes qui satisfont les deux conditions. condition1 | condition2 Slectionne les lignes qui satisfont au moins lune des deux conditions. colonne binaire Slectionne uniquement les lignes pour lesquelles les valeurs de la colonne binaire ne sont pas gales 0.
Figure 3-3. Expressions usuelles pour le champ Slection
Exemple FIRST(50) LAST(50) ROWS(21 ;70) RANDOM(50) Passengers< 5 Passengers< = 5 Passengers> 5 Passengers> = 5 Cylinders = 6 Cylinders<> 4 Cylinders = 6 & Make = Ford Cylinders = 6 | Make = Ford Domestic
Lorsque vous dfinissez une condition utilisant une variable non numrique, valeur doit tre mis entre guillemets et les majuscules se diffrencient des minuscules. Les conditions multiples doivent tre combines en utilisant les symboles conditionnels & (ET) et | (OU). Chaque expression du champ Slection gnre une squence binaire de 0 et de 1, o 0 reprsente FAUX et 1 reprsente VRAI. Lorsque utilise dans le champ Slection de la bote de dialogue dentre des donnes, le rsultat est la slection de toutes lignes pour lesquelles la condition est VRAIE et lexclusion de toutes les lignes pour lesquelles la condition est FAUX.
La fentre est dcoupe en plusieurs sous-fentres avec des barres dplaables les sparant. Les tableaux sont positionns gauche de lcran et les graphiques droite. Vous pouvez maximiser un tableau ou un graphique de toute sous-fentre en double-cliquant dans cette sous-fentre. Dans ce cas la sous-fentre va remplir la fentre complte :
Figure 3-5. Fentre danalyse de la rgression simple avec une sous-fentre maximise
Double-cliquer dans la sous-fentre une seconde fois permet de rafficher le dcoupage en sousfentres dorigine. Lorsquune fentre danalyse est slectionne, une seconde barre doutils est active juste au-dessous de la barre doutils principale de STATGRAPHICS Centurion XVI. Cette barre doutils danalyse saffiche comme montr ci-dessous :
A chacun des boutons de cette barre doutils correspond une opration importante. 3.2.1 Bouton Dfinition de lanalyse Lorsque vous cliquez sur ce bouton, la bote de dialogue dentre des donnes saffiche. Elle est initialement utilise pour indiquer les variables contenant les donnes, comme montr en Figure 3-2. Si vous modifiez les variables de donnes puis cliquez sur OK, lanalyse sera mise jour pour prendre en compte ces nouvelles variables. Cela vous permet dutiliser diffrentes combinaisons de variables sans devoir mettre en oeuvre une nouvelle analyse. 66/ Mettre en uvre des analyses statistiques
3.2.2 Bouton Options danalyse La plupart des analyses ont de nombreuses options. Lorsquune analyse est mise en uvre la premire fois, des valeurs par dfaut sont slectionnes pour ces options. Elles sont souvent suffisantes. Cependant, en cliquant sur le bouton Options danalyse dans toute procdure, il est possible de modifier ces valeurs par dfaut. Pour la Rgression simple, la bote de dialogue Options danalyse permet de prciser le type de modle ajuster et la mthode destimation des coefficients inconnus du modle :
Figure 3-6. Bote de dialogue des Options danalyse pour la rgression simple
Si vous examinez le contenu de la Figure 3-9 ci-aprs, il peut y tre not que dans le tableau de comparaison des modles alternatifs plusieurs modle curvilinaires ont un R-carr plus lev que le modle linaire. En haut de la liste se trouve le modle Courbe en S. Si vous slectionnez ce modle dans la bote de dialogue des Options danalyse puis cliquez sur le bouton OK, toute lanalyse prendra en compte ce nouveau modle. Comme cela peut tre vu en regardant le graphique du modle ajust, une courbe en S permet de capturer assez bien la courbure dans les donnes : 67/ Mettre en uvre des analyses statistiques
3.2.3 Bouton Tableaux et graphiques Ce bouton affiche la liste des tableaux et graphiques qui peuvent tre ajouts la fentre danalyse. Pour la rgression simple, les tableaux et graphiques disponibles sont :
Par exemple, si vous ajoutez les tableaux de comparaison des modles alternatifs et des rsidus non usuels, de nouvelles sous-fentres de type texte sont ajoutes la fentre danalyse :
Figure 3-9. Fentre danalyse de la rgression simple avec des tableaux ajouts
La slection du graphique des rsidus ajoute un graphique additionnel dans la fentre danalyse :
3.2.4 Bouton Options pour la fentre En plus des options qui modifient globalement la fentre danalyse, beaucoup de tableaux et de graphiques possdent des options qui ne sappliquent qu eux. Ces options sont accessibles en maximisant en premier le tableau ou le graphique slectionn puis en cliquant sur le bouton Options pour la fentre. Pour le Graphique du modle ajust, les options pour la fentre sont :
Figure 3-11. Bote de dialogue des options pour la fentre pour le graphique du modle ajust
Par exemple, dcocher la case Limites de confiance puis cliquer sur OK va rafficher le graphique sans les limites internes :
3.2.5 Bouton Enregistrer les rsultats Ce bouton vous permet denregistrer des rsultats numriques calculs par lanalyse statistique dans des colonnes dun tableur. Pour la Rgression simple, il affiche les choix suivants :
Figure 3-13. Bote de dialogue denregistrement des rsultats pour la rgression simple
Pour enregistrer des informations, cocher les lments enregistrer dans le champ Enregistrer. Pour chaque lment enregistrer, donner un nom de colonne dans le champ Variables cibles et indiquer le feuille souhaite. Si vous souhaitez enregistrer un commentaire avec les donnes, cocher Enregistrer les commentaires. La case cocher Enregistrement automatique est utilise pour enregistrer nouveau llment slectionn chaque fois que lanalyse est mise en oeuvre. Cela est utile si vous souhaitez enregistrer les analyses dans un StatFolio car les analyses sont remises en oeuvre lorsque les StatFolios sont chargs. En cochant la case Enregistrement automatique, vous pouvez crer un StatFolio qui calcule et enregistre automatiquement les statistiques dsires. Lorsque vous combinez cet enregistrement automatique avec les possibilits des scripts dcrites au Chapitre 5, cela vous permet de mettre en place des procdures automatises. 72/ Mettre en uvre des analyses statistiques
3.2.6 Boutons pour les graphiques Lorsquun graphique est maximis dans une fentre danalyse, plusieurs boutons complmentaires sont activs. Ces boutons sont les suivants : Options graphiques affiche une bote de dialogue permettant de modifier les couleurs, libells, chelles des axes et autres paramtres similaires. Ajouter un texte utile pour ajouter un texte dans le graphique. Eparpiller utile pour ajouter de petites valeurs alatoires aux coordonnes horizontales et verticales des points pour viter la superposition de ces points. Brosser permet de colorer les points dun nuage de points en fonction des valeurs dune variable slectionne. Lissage/Rotation lissage dun graphique deux dimensions ou rotation dun graphique trois dimensions. Panoramique ou zoom permet de faire un panoramique ou un zoom dans un graphique par rapport une direction X, Y ou Z. Explorer explore de faon dynamique une surface de rponse ou un graphique de contours. Identifier affiche un libell identifiant le point lorsquon clique sur ce point avec la souris. Localiser par un libell claire en rouge tous les points dont les valeurs sont gales celle entre dans le champ Libell ( utiliser avec le bouton Identifier). Localiser par une ligne claire en rouge tous les points qui correspondent au numro de ligne entr dans le champ Ligne. Chacun de ces boutons est dcrit de faon dtaille au Chapitre 4. 73/ Mettre en uvre des analyses statistiques
3.2.7 Bouton Inclure / Exclure Quelques procdures statistiques vous permettent dexclure de faon interactive des points suspects ou extrmes de lanalyse en maximisant un graphique, en cliquant sur le point suspect et en cliquant sur le bouton Inclure/Exclure. Par exemple, le graphique affich en Figure 3-12 montre un point qui est loign des limites de prvision. En cliquant sur ce point puis sur le bouton Inclure/Exclure, lajustement du modle est recalcul sans ce point. Le graphique du modle ajust affiche le nouveau modle et indique le ou les points qui ont t exclus par un X :
Tous les autres tableaux et graphiques de la fentre danalyse sont galement mis jour pour prendre en compte le nouveau modle. Plusieurs points peuvent tre exclus du modle en cliquant sur ces points un la fois puis sur le bouton Inclure/Exclure. Cliquer sur un point qui a dj t exclu le rintroduit dans le modle.
Dans la partie Etendue dimpression, il faut prciser les sous-fentres imprimer. Vous pouvez de faon simultane imprimer les fentres dautres analyses en cochant Toutes les analyses. Dautres options utilises lors de limpression sont proposes dans la bote de dialogue Mise en page du menu Fichier :
Dans cette bote de dialogue, vous pouvez : 1. Prciser les m arges pour les pages imprimes. 2. Dfinir un en-tte qui sera imprim en haut de chaque page. 3. Indiquer si chaque sous-fentre (tableau ou graphique) doit tre imprime sur une page spare ou si plusieurs sous-fentres doivent tre imprimes sur une mme page si cela est possible. 4. Prciser la taille relative des graphiques en pourcentage des dimensions de la page. 5. Dcider si vous imprimez en noir et blanc, mme si votre imprimante peut imprimer en couleurs. 6. Imprimer la couleur du fond (sil y en a une) de vos graphiques. 7. Imprimer des lignes paisses utilisant deux pixels au lieu dun. Cette option est utile dans le cas dimprimantes ayant de hautes rsolutions. 76/ Mettre en uvre des analyses statistiques
Dautres options, comme par exemple imprimer en mode portrait ou paysage, sont dfinies en slectionnant Configuration de limpression dans le menu Fichier, qui donne accs la bote de dialogue spcifique votre pilote dimprimante.
Chapitre
Graphiques
Modifier les graphiques, enregistrer les profils graphiques, interagir avec les graphiques, enregistrer les graphiques dans des fichiers et copier les graphiques dans dautres applications.
Les 160 procdures statistiques de STATGRAPHICS Centurion XVI permettent de crer des centaines de graphiques diffrents. Pour faciliter le processus danalyse de vos donnes, des titres par dfaut, des chelles et dautres attributs par dfaut sont slectionns automatiquement lorsquun nouveau graphique est cr. Pour les besoins danalyse, ces valeurs par dfaut sont gnralement suffisantes. Mais lorsque vous souhaitez publier vos rsultats dfinitifs, crer un graphique de qualit publiable devient important. Ce chapitre dcrit tout ce que vous devez savoir pour travailler avec des graphiques dans STATGRAPHICS Centurion XVI. Il vous indique comment les mettre en forme pour la publication, comment les copier dans dautres applications comme par exemple Microsoft Word et PowerPoint. Il vous indique galement comment interagir avec les graphiques. Par exemple, lorsque vous reprez un point intressant et voulez en savoir plus sur ce point ou lorsque vous souhaitez mettre un graphique 3D en rotation pour visualiser les ventuelles relations prsentes entre les variables X, Y et Z dfinissant les axes. Comme exemple, nous utiliserons nouveau le fichier de donnes 93cars.sgd. Pour dbuter, le graphique du modle ajust reliant les nombres de miles par gallon pour une conduite en ville aux poids des vhicules sera utilis pour illustrer quelques-unes des oprations importantes avec les graphiques.
79/ Graphiques
Figure 4-1. Graphique du modle ajust avec ses titres et chelles par dfaut
Les titres, chelles, types des points et des lignes, couleurs et autres attributs graphiques ont t gnrs automatiquement.
80/ Graphiques
4.1.1 Options Apparence Pour modifier un graphique une fois quil est cr, il faut dabord double-cliquer dans le graphique pour le maximiser la taille de la fentre danalyse puis il faut cliquer sur le bouton Options graphiques de la barre doutils danalyse. Une bote de dialogue onglets saffiche avec des onglets pour les diffrents lments du graphique. Longlet Apparence de la bote de dialogue des Options graphiques est utile pour modifier des caractristiques de base du graphique :
81/ Graphiques
Cet onglet permet de dfinir lorientation des graduations sur les axes, lpaisseur des axes et les couleurs de fond et de bordure du graphique. Par exemple, modifier la couleur de Fond en jaune et ajouter des Effets 3D modifie le graphique comme montr ci-dessous :
NOTE : Cette modification de la couleur de fond peut tre visualise dans la documentation livre avec le logiciel et accessible par le menu ? Manuel de lutilisateur.
82/ Graphiques
4.1.2 Options Grille Longlet Grille est utilis pour ajouter une grille au graphique :
Ajouter une grille grise forme de tirets dans les deux directions produit le graphique suivant :
83/ Graphiques
84/ Graphiques
4.1.3 Options Lignes Longlet Lignes est utilis pour prciser le type, la couleur et lpaisseur des lignes dans le graphique :
Un graphique comme celui du modle ajust a trois types de lignes : la ligne de meilleur ajustement, les lignes des limites de confiance et les lignes des limites de prvision. Pour modifier lun de ces types de lignes, cliquer sur le bouton radio n1, n15 ou n 16 puis slectionner les attributs dsirs. Augmenter lpaisseur de la ligne centrale et modifier les autres types de lignes cre le graphique montr ci-aprs :
85/ Graphiques
86/ Graphiques
4.1.4 Options Points Longlet Points est utilis pour prciser le type, la couleur et la taille des points dans le graphique :
Le bouton radio n 1 permet de contrler les attributs du premier ensemble de points dans le graphique. Dans notre exemple, il ny a quun unique ensemble de points. Modifier le type de ces points en avec un remplissage affiche le graphique montr ci-aprs :
87/ Graphiques
88/ Graphiques
4.1.5 Options Titre principal Longlet Titre principal est utilis pour prciser le texte et la police des informations affiches audessus du graphique :
Figure 4-10. Onglet Titre principal de la bote de dialogue des options graphiques
Les graphiques peuvent possder deux lignes pour le titre principal. Une entre telle que {3} dans un champ du titre indique que le texte est automatiquement gnr par la procdure danalyse. Il contient alors habituellement les noms de variables ou de statistiques calcules. Vous pouvez modifier les titres, y compris ceux gnrs automatiquement. Vous pouvez galement dplacer le titre une nouvelle position avec la souris :
89/ Graphiques
90/ Graphiques
4.1.6 Options Echelles des axes La bote de dialogue des Options graphiques contient galement des onglets qui vous permettent de modifier les titres et les chelles des axes :
Figure 4-12. Onglet Axe des X de la bote de dialogue des options graphiques
Il y a plusieurs champs importants dans cette bote de dialogue : 1. Titre : le titre affich le long de laxe. 2. De, A, Par et Sauter : permet de dfinir lchelle des graduations. La valeur dans Sauter est utilise pour viter que des graduations se chevauchent. Par exemple, une valeur de 1 dans le champ Sauter permet de nafficher quune graduation sur deux. 3. Rotation des libells : permet dafficher verticalement les libells des graduations.
91/ Graphiques
4. Pas de puissance : naffiche pas les petits ou les grands nombres avec des libells comportant une puissance comme (X 1000). 5. Echelle : trace laxe en utilisant diffrents type dchelles. 6. Si modification des donnes : permet de prciser si lchelle est constante ou se modifie avec les donnes. 7. Polices : cliquer sur ces boutons pour modifier la couleur, la taille ou le type de la police pour le titre ou les graduations. Le graphique cr suite aux modifications apportes dans la bote de dialogue est affich ci-dessous :
Figure 4-13. Graphique aprs modifications des titres des axes et des chelles
92/ Graphiques
4.1.7 Options Remplissages Certains graphiques, comme les histogrammes, possdent des zones avec remplissages. Longlet Remplissages de la bote de dialogue Options graphiques permet de prciser la couleur et le type de btons, polygones et parts dun diagramme circulaire :
Le bouton radio n 1 contrle le premier type de remplissage dans le graphique. Dans un histogramme, toutes les barres utilisent ce premier type. Dans certains graphiques, comme les diagrammes circulaires, plus dun type est utilis. Dans ces cas, les boutons n 2 20 contrlent les autres types de remplissages. Pour des graphiques comme les histogrammes, dfinir un type de remplissage hachur est souvent un bon choix lorsque vous imprimez les rsultats en noir et blanc :
93/ Graphiques
4.1.8 Options Textes, Libells et Lgendes Pour les graphiques contenant des lgendes ou des libells additionnels, des onglets spciaux sont proposs dans la bote de dialogue des Options graphiques. Ils vous permettent de modifier les textes et les polices. 4.1.9 Ajouter un nouveau texte Des textes additionnels peuvent galement tre ajouts dans tout graphique en cliquant sur le bouton Ajouter un texte dans la barre doutils danalyse. Une bote de dialogue saffiche dans laquelle vous pouvez entrer le texte ajouter :
94/ Graphiques
Le texte sera initialement positionn sous le titre principal. Il peut tre dplac la souris tout endroit du graphique :
Aprs avoir ajout un texte, cliquer sur ce texte puis sur le bouton des Options graphiques pour y apporter des modifications.
95/ Graphiques
Figure 4-18. Nuage de points des nombres de miles par gallon par rapport aux nombres de cylindres
Bien que le tableur comporte 93 lignes, il y a beaucoup moins de points reprsents dans le graphique. Si vous cliquez sur le bouton Eparpiller, une bote de dialogue saffiche pour vous permettre dajouter un petit parpillement alatoire aux coordonnes des points :
Dans notre cas, ajouter une petite quantit alatoire horizontale permet dobtenir une bien meilleure vision des donnes :
96/ Graphiques
A chaque point a t ajout une petite quantit alatoire le long de laxe horizontal. Eparpiller un graphique affecte uniquement laffichage. Cela na aucun effet sur les donnes dans le tableur ou dans les calculs effectus sur les donnes.
97/ Graphiques
Figure 4-21. Matrice de nuages de points pour des v ariables du fichier 93cars
Le nuage de points dans chaque cellule de la matrice de nuages de points affiche les valeurs des variables qui correspondent aux identifiants de la ligne et de la colonne caractrisant cette cellule. Supposons que nous dsirions visualiser comment la puissance des automobiles est relie aux cinq variables affiches. Si vous cliquez sur le bouton Brosser la bote de dialogue suivante saffiche : dans la barre doutils danalyse,
98/ Graphiques
Slectionnons la variable quantitative utiliser pour coder les points. Aprs slection de la variable de brossage, une bote de dialogue flottante saffiche :
Les deux rglettes sont utilises pour dfinir les limites basse et haute pour la variable. Tous les points compris dans lintervalle sont colors en rouge. Par exemple, dans le graphique ci dessous, toutes les automobiles dont la puissance est comprise entre 55,0 et 121,15 sont colores en rouge :
Il est clair partir du graphique ci-dessus que la puissance Horsepower est fortement corrle dautres variables.
99/ Graphiques
Lisser un nuage de points se fait en dfinissant un ensemble de positions sur laxe des X et en affichant chacune de ces positions une moyenne pondre de la fraction des points qui sont proches de cette position. Une des meilleures mthodes de lissage est appele LOWESS (LOcally WEighted Scatterplot Smoothing) et utilise habituellement une fraction de lissage comprise entre 40% et 60%. Le rsultat de ce lissage sur la Matrice de nuages de points des donnes de nos automobile est affich ci-dessous :
100/ Graphiques
Figure 4-26. Matrice de nuages de points aprs lissage Lowess avec une fraction de lissage de 50%
101/ Graphiques
Simultanment, le numro de la ligne du point saffiche dans le champ Ligne de la barre doutils danalyse :
Figure 4-28. Barre doutils danalyse affichant le numro de la ligne du point slectionn
Dautres informations concernant le point slectionn peuvent tre obtenues en cliquant sur le bouton Identifier et en slectionnant une colonne du Classeur :
102/ Graphiques
Aprs avoir slectionn une variable, cliquer sur un point quelconque affiche la valeur de la variable slectionne dans le champ Libell de la barre doutils danalyse :
Les boutons de localisation droite des champs Libell et Ligne peuvent tre utiliss pour localiser des points dans le graphique. Si vous entrez une valeur dans lun de ces champs puis cliquez sur le bouton de localisation correspondant, tous les points du graphique qui possdent la valeur entre safficheront dans une couleur diffrente. Par exemple, dans le graphique ci aprs, les points qui correspondent des automobiles de marque Honda sont affichs en rouge :
103/ Graphiques
Cette technique est galement utile pour la Matrice de nuages de points. Dans laffichage suivant, tous les points qui correspondent la ligne 42 ont t mis en vidence :
104/ Graphiques
Localiser un point dans une Matrice de nuages de points peut vous aider identifier si ce point est ou nest pas un point extrme par rapport une ou plusieurs variables. NOTE : La couleur utilise pour mettre en vidence les points peut tre dfinie dans longlet Graphiques de la bote de dialogue Prfrences accessible par le menu Editer.
105/ Graphiques
Pour enregistrer des graphiques insrer dans Word ou PowerPoint, enregistrer les graphiques en mtafichiers Windows donne le plus de flexibilit. Si les graphiques doivent tre affichs dans une page Web, les enregistrer au format JPEG est recommand.
106/ Graphiques
Chapitre
StatFolios
Enregistrer votre session, publier vos rsultats au format HTML et automatiser les analyses en utilisant des scripts de dmarrage.
A chaque fois que vous slectionnez une analyse statistique dans le menu de STATGRAPHICS Centurion XVI, une nouvelle fentre danalyse est cre. Vous pouvez enregistrer toutes les fentres des analyses en crant un StatFolio. Un StatFolio est un fichier contenant la dfinition de toutes les analyses statistiques qui ont t mises en oeuvre avec des pointeurs vers les donnes quelles ont utilises. En enregistrant un StatFolio et en le rouvrant plus tard, vous enregistrez et rechargez votre session de travail STATGRAPHICS Centurion XVI. Lorsquune session est enregistre dans un StatFolio, cest la dfinition des analyses qui est enregistre, pas les rsultats. Lorsque vous rouvrez un StatFolio, les donnes des sources de donnes sont relues et les analyses sont recalcules. Le StatFolio apporte ainsi un moyen simple de rpter des analyses plus tard sur dautres jeux de donnes. Vous pouvez galement y associer un script qui est excut lorsque le StatFolio est charg. Des dtails sur le script et dautres fonctionnalits du StatFolio sont donns plus loin dans ce chapitre.
107/ StatFolios
Figure 5-1. Bote de dialogue dentre dun nom pour lenregistrement du StatFolio
Les StatFolios sont enregistrs dans des fichiers dont lextension est .sgp. Ils contiennent : 1. Une dfinition de toutes les analyses qui ont t mises en oeuvre, dont les noms des variables, les tableaux et les graphiques, les paramtres de toutes les options, les modifications faites aux graphiques, etc. Lorsquun StatFolio est rouvert, les analyses sont remises en oeuvre et tous les tableaux et graphiques sont mis jour. 2. Les liens aux sources de donnes dfinis dans le Classeur. Si les donnes ont t modifies entre le moment o le StatFolio a t enregistr et le moment o il est rouvert, les fentres des analyses prendront en compte ces modifications. 3. Les liens aux fichiers de la StatGallery et du StatReporter, si des lments ont t placs dans ces fichiers avant que le StatFolio ne soit enregistr. Le logiciel vous demandera des noms pour ces fichiers StatGallery et StatReporter lorsque le StatFolio sera enregistr.
Les oprations dsires sont entres dans lordre dans lequel elles doivent tre excutes. Les oprations possibles sont :
109/ StatFolios
Commande Commande Windows excuter Dlai Nombre de secondes Charger Nom du StatFolio
Argument de la commande
Quitter
Figure 5-3. Oprations pour le script de dmarrage
Description Met jour lanalyse indique. Evalue lexpression et affecte le rsultat dans la colonne indique. Imprime le contenu des fentres indiques. Excute le StatPublish pour publier le contenu du StatFolio au format HTML. Demande Windows dexcuter la commande. Effectue une pause du temps indiqu. Indique le StatFolio charger aprs lexcution du script. Cela permet dexcuter des StatFolios de faon enchane. Quitte STATGRAPHICS Centurion XVI.
Dans lexemple montr en Figure 5-2, une Rgression sim ple est mise en oeuvre. Dans cette analyse, on suppose que loption Enregistrement des rsultats a t active pour automatiquement enregistrer les rsidus du modle ajust dans une colonne nomme RESIDUS. Les rsidus sont alors diviss par les valeurs des donnes dorigine et multiplis par 100 pour crer des pourcentages derreurs qui sont affects une nouvelle variable nomme PERREUR. Des calculs de statistiques descriptives sont alors effectus sur les valeurs de PERREUR en utilisant la procdure Analyse une variable puis les rsultats de ces deux analyses sont imprims. NOTE : Les StatFolios peuvent tre enchans en utilisant lopration CHARGER dans un script pour charger et dmarrer le script dun autre StatFolio. Vous pouvez galement quitter automatiquement STATGRAPHICS Centurion XVI en utilisant lopration QUITTER. NOTE : Vous pouvez dsactiver lexcution des scripts en slectionnant Dsactiver les scripts dans longlet Gnral de la bote de dialogue Prfrences accessible par le menu Editer :
110/ StatFolios
111/ StatFolios
Figure 5-5. Bote de dialogue des proprits du classeur pour linterrogation des sources de donnes
Pour interroger les sources de donnes de faon rptitive : 1. Cocher la case Acqurir pour chacune des sources de donnes relire. 2. Slectionner le bouton radio Oui dans le champ Acquisition par le StatLink. 3. Prciser la frquence dinterrogation des sources de donnes.
112/ StatFolios
4. Cocher Excuter le script si vous dsirez excuter le script de dmarrage du StatFolio chaque fois que les donnes sont lues. En incluant ltape Publier dans chaque script de dmarrage, vous pouvez demander STATGRAPHICS Centurion XVI de charger automatiquement les rsultats des analyses sur un serveur du rseau.
Figure 5-6. Bote de dialogue StatPublish pour crer un rapport au format HTML
113/ StatFolios
Fichier HTML dans le rpertoire local : Cest le nom du fichier HTML qui contient la table des matires pour le StatFolio. Il liste le contenu du StatFolio et contient des liens vers dautres fichiers HTML qui correspondent chacune des fentres dans le StatFolio. Par dfaut, il est plac dans le mme rpertoire que le StatFolio et porte le mme nom que le StatFolio mais avec une extension .htm au lieu de .sgp. Pour visualiser un StatFolio publi, un navigateur Internet est appel pour ouvrir ce fichier. URL du site FTP : Tous les rsultats publis sont dabord placs dans le rpertoire local indiqu ci-dessus. Cela inclut les fichiers HTML, les fichiers contenant les graphiques et dautres fichiers. Si vous avez renseign le champ URL du site FTP, tous les fichiers sont galement chargs lendroit indiqu par lURL. Cest classiquement un rpertoire sur un serveur. A noter que vous devez avoir un droit dcriture en mode FTP dans lURL indiqu, ce qui doit tre paramtr par ladministrateur du rseau. Utilisateur FTP : Nom de lutilisateur pour laccs en mode FTP lURL indiqu. Mot de passe FTP : Mot de passe pour accder en mode FTP lURL indiqu. Inclure : Cocher toutes les fentres du StatFolio qui doivent tre publies. Largeur et hauteur des graphiques : La taille des graphiques en pixels lorsquils sont insrs dans les pages HTML. Format des images : Les graphiques peuvent tre insrs dans les fichiers HTML sous trois formats : 1. JPEG images statiques enregistres au format JPEG. Les fichiers sont crs avec des noms comme pubexemple_analyse1_graph1.jpg. 2. PNG images statiques enregistres au format PNG. Les fichiers sont crs avec des noms comme pubexemple_analyse1_graph1.png. 3. Applet Java rsultats publis et visualiss de faon dynamique dans le navigateur Internet. Dans le navigateur Internet, les graphiques sont mis jour en fonction de lintervalle de temps dfini, en lisant un fichier auxiliaire portant un nom comme pubexemple_analysis1_graph1.sgz.
114/ StatFolios
Cette option est conue pour tre utilise en conjonction avec lacquisition en temps rel utilisant le StatLink, comme dcrit dans le document PDF intitul Gestion et analyse dynamique des donnes. NOTE : tous les graphiques ne seront pas publis correctement par cette option. Si un ou plusieurs graphiques ne sont pas publis correctement, choisir une option diffrente. Interactivit des applets : Pour les graphiques publis sous la forme dapplets, la slection de cette fonctionnalit permet dafficher des informations concernant les donnes en cliquant sur un point avec la souris depuis le navigateur Internet. Aprs avoir renseign ces champs, cliquer sur OK pour publier le StatFolio. Pour visualiser un StatFolio publi, dmarrer le navigateur Internet et utiliser son menu Fichier pour ouvrir le fichier indiqu dans le premier champ de la Figure 5-6. Vous pouvez galement visualiser les rsultats en slectionnant Voir les statistiques publies dans le menu Fichier de STATGRAPHICS Centurion XVI. NOTE : Les tableaux et les graphiques sont insrs dans les fichiers HTML avec des noms crs automatiquement par le StatPublish. Depuis le navigateur Internet, vous pouvez afficher le code source et aisment dterminer les noms de ces fichiers. Ces fichiers peuvent alors tre insrs dans vos propres pages Web si vous le dsirez.
115/ StatFolios
116/ StatFolios
Chapitre
Utiliser la StatGallery
Juxtaposer et superposer des graphiques.
La StatGallery est une fentre spciale de STATGRAPHICS Centurion XVI dans laquelle les graphiques crs par dautres procdures peuvent tre juxtaposs ou superposs. Juxtaposer les graphiques est un puissant outil pour comparer deux jeux de donnes, deux modles statistiques ou deux niveaux dun graphique diso-contours. Superposer des graphiques permet de crer de nouveaux graphiques non proposs par le logiciel. La StatGallery est enregistre dans un fichier de suffixe .sgg. Si vous copiez des lments dans la StatGallery, un pointeur vers le fichier de la StatGallery est enregistr dans le StatFolio courant. Lorsque le StatFolio est rouvert, il charge automatiquement la StatGallery associe.
Les boutons en haut de la fentre vous permettent de vous dplacer vers les autres pages de la galerie. Si vous dsirez modifier le nombre de graphiques affichs dans une page, cliquez sur le bouton droit de la souris et slectionnez Arranger les fentres. Des arrangements contenant jusqu 9 graphiques peuvent tre slectionns pour chaque page :
Les sept configurations de gauche correspondent des arrangements rectangulaires de lignes et de colonnes. Loption Par colonnes vous permet de crer des arrangements comportant des nombres diffrents de lignes pour chacune des 3 colonnes. 118/ Utiliser la StatGallery
Vous pouvez galement utiliser les barres dplaables de la fentre de la StatGallery pour crer tout arrangement dsir.
Dans le graphique ci-dessus, la progression des couleurs dun graphique lautre montre une dcroissance de la force lorsque le polythylne augmente. Lorsque vous collez des graphiques dans la StatGallery, vous pouvez slectionner Coller avec lien dans le menu popup affich lorsque vous cliquez sur le bouton droit de la souris plutt que Coller. Avec loption coller avec lien, le graphique dans la galerie est coll et li lanalyse dans laquelle il a t cr et ainsi il se modifiera dans la StatGallery chaque fois quil sera modifi dans la fentre danalyse.
Lorsquun graphique est superpos sur un autre dans la StatGallery, seul le contenu du second graphique lintrieur des axes est ajout laffichage. Les textes du second graphique ne sont pas inclus. NOTE : Si lchelle du second graphique est diffrente de celle du premier graphique, le second graphique est ajust lchelle du premier.
3. Slectionner le type dlment ajouter dans le graphique. Les cinq premiers boutons de la bote de dialogue montre en Figure 6-5 sutilisent en maintenant appuy le bouton de la souris et en se dplaant jusqu ce que la ligne ou la figure possde la forme dsire. Le dernier bouton active le mode texte. Au prochain clic dans le graphique, une bote de dialogue permettant dentrer le texte saffichera. Le texte ajout peut tre dplac la position souhaite. 6.4.2 Modifier des lments Pour modifier un lment de la StatGallery : 1. Double-cliquer dans le graphique dsir pour maximiser sa sous-fentre. 2. Cliquer sur llment modifier avec la souris pour le slectionner. Des petits carrs saffichent aux extrmits de llment qui a t slectionn. 3. Cliquer sur le bouton droit de la souris et slectionner Modifier un lment dans le menu popup. Une bote de dialogue correspondant au type de llment slectionn saffiche dans laquelle vous pouvez faire les modifications souhaites. 6.4.3 Supprimer des lments Pour supprimer un lment de la StatGallery : 1. Double-cliquer dans le graphique dsir pour maximiser sa sous-fentre. 2. Cliquer sur llment supprimer avec la souris pour le slectionner. 3. Cliquer sur le bouton droit de la souris et slectionner Supprimer un lment dans le menu popup. 122/ Utiliser la StatGallery
Chapitre
Utiliser le StatReporter
Copier des analyses dans le StatReporter, annoter les rsultats et les enregistrer dans un fichier RTF pour importation dans Microsoft Word.
Le StatReporter est une fentre dans laquelle les rsultats de diffrentes analyses statistiques peuvent tre intgrs pour former un rapport. Cest une version de WordPad fonctionnant dans STATGRAPHICS Centurion XVI. Le StatReporter vous permet : 1. De crer un rapport complet dans STATGRAPHICS sans devoir utiliser un autre logiciel. 2. Denregistrer le contenu du StatReporter dans un fichier RTF (Rich Text Format), qui peut tre lu directement dans dautres logiciels comme Microsoft Word.
Vous pouvez saisir tout texte dans la fentre et y copier des rsultats crs dans les analyses de STATGRAPHICS.
3. Pour copier tous les rsultats de la fentre danalyse, cliquer sur le bouton droit de la souris et slectionner Copier lanalyse dans le StatReporter dans le menu popup. Tous les tableaux et tous les graphiques de lanalyse sont copis dans le StatReporter. Chacune des oprations ci-dessus effectue un collage statique (les rsultats dans le StatReporter ne seront jamais mis jour). Vous pouvez lier un tableau ou un graphique sa source en utilisant la mthode n1 ci-dessus et en slectionnant Copier avec lien au lieu de Coller. Le tableau ou le graphique coll sera li et mis jour automatiquement lorsque la source des rsultats sera modifie.
Chapitre
Utiliser le StatWizard
Slectionner lanalyse statistique adapte, rechercher les statistiques et tests dsirs et crer de multiples fentres pour diffrents niveaux dun facteur.
Le StatWizard est une fonctionnalit unique de STATGRAPHICS Centurion XVI conue pour vous assister de diffrentes faons : 1. Il peut vous aider crer un nouveau tableur de donnes ou lire une source de donnes. 2. Il peut suggrer les analyses mettre en oeuvre en se basant sur les types des donnes analyser. 3. Il peut rechercher les statistiques ou les tests que vous dsirez utiliser et vous proposer les analyses qui les calculent. 4. Il peut vous aider dfinir des transformations de vos donnes ou slectionner des sous-ensembles de vos donnes. 5. Il peut rpter les analyses dsires pour chaque valeur unique dune colonne de donnes. Le StatWizard peut tre appel tout moment en cliquant sur le bouton principale. de la barre doutils
Il y a trois choix : 1. Vous souhaitez charger de nouvelles donnes dans le classeur de STATGRAPHICS Centurion XVI. Lassistant va alors vous afficher une squence de botes de dialogue pour dfinir les colonnes du tableur ou slectionner une source de donnes, comme dcrit dans les chapitres prcdents de ce manuel. 2. Vous souhaitez dfinir une nouvelle tude avant de collecter des donnes. Dans ce cas, lassistant va vous demander de prciser le type dtude crer et vous afficher une squence de botes de dialogue qui vous permettront de dfinir ltude crer. 130/ Utiliser le StatWizard
3. Vous souhaitez mettre en oeuvre une tude ne ncessitant pas de donnes. Dans ce cas, lassistant va lister toutes les analyses qui ne ncessitent pas de donnes, vous demander den slectionner une et vous conduire immdiatement cette analyse. Par exemple, supposons que vous dsiriez mettre en oeuvre une tude R&R pour estimer la rptabilit et la reproductibilit dun procd de mesure. En slectionnant le deuxime bouton radio de la Figure 8-1 puis en cliquant sur le bouton OK, les options suivantes saffichent :
Slectionnons Dfinir une tude R & puis cliquons sur OK pour afficher une troisime bote de R dialogue vous demandant des informations concernant votre tude :
Dans cette bote de dialogue, il faut entrer le nombre doprateurs qui sont impliqus dans ltude, le nombre de pices qui sont mesures et le nombre de fois o chaque oprateur mesure chaque pice. Vous pouvez galement dfinir un en-tte pour ltude. Une dernire bote de dialogue vous demande les noms des oprateurs, juges ou laboratoires qui font les mesures :
Figure 8-4. Bote de dialogue pour prciser les nom s des oprateurs
Le StatWizard cre alors ltude dsire et met les informations dans un tableur du classeur :
Ltude doit ensuite tre ralise et les mesures entres dans le tableur. Le StatWizard pourra alors tre accd nouveau pour slectionner la procdure danalyse (vous pouvez galement aller directement lanalyse adapte par le menu principal). 133/ Utiliser le StatWizard
Il y a cinq options : 1. Slectionner une analyse en fonction du type des donnes : Affiche des botes de dialogue additionnelles demandant des informations sur les donnes analyser, aprs quoi une liste des procdures adaptes est prsente. 2. Slectionner une analyse par son nom : Affiche toutes les analyses dans lordre alphabtique. Slectionner une analyse par son nom puis cliquer sur OK vous amne directement la bote de dialogue dentre des donnes de cette analyse, sans passer par les menus usuels. 134/ Utiliser le StatWizard
3. Slectionner un SnapStat : Vous permet de slectionner un SnapStat. Les SnapStats sont des analyses structures qui produisent une unique page prformate de rsultats. Ils ont moins doptions que les autres analyses mais sont trs faciles crer. 4. Rechercher : Affiche un menu droulant listant les statistiques, tests, graphiques et autres lments qui peuvent tre crs par STATGRAPHICS Centurion XVI. Slectionner un lment dans la liste modifie laffichage dans le champ Slectionner une analyse par son nom de faon ny afficher que les analyses calculant llment dsir. 5. Slectionner partir des Quick Picks suivants : Liste quelques-unes des analyses les plus couramment utilises. Slectionner une analyse et cliquer sur OK vous amne directement la bote de dialogue dentre des donnes de cette analyse. Si vous choisissez loption n1, le StatWizard affiche la bote de dialogue suivante dans laquelle vous devez indiquer les donnes analyser. Par exemple, si le fichier 93cars.sgd est charg dans le classeur, la bote de dialogue saffiche sous la forme suivante :
Les champs dans cette bote de dialogue sont : 135/ Utiliser le StatWizard
Donnes ou Rponses (Y) : une ou plusieurs variables Y contenant les donnes analyser. Si une unique colonne contient les donnes analyser, elle doit tre entre ici. Type : le type des donnes contenues dans les variables Y. Les analyses affiches dans les botes de dialogue suivantes dpendent de ce choix. Facteurs explicatifs quantitatifs (X) : tous les facteurs quantitatifs qui doivent tre utiliss pour modliser les variables Y. Pour une rgression, les variables explicatives sont entrer ici. Facteurs explicatifs qualitatifs (X) : tous les facteurs non quantitatifs qui doivent tre utiliss pour modliser les variables Y. Pour une ANOVA, les facteurs explicatifs sont entrer ici. Libells des observations : une colonne contenant les libells pour chacune des observations (lignes). Les procdures proposes dans les botes de dialogue suivantes dpendent des rponses donnes dans la Figure 8-7. La prochaine bote de dialogue vous demande de prciser les lignes du fichier analyser :
Les six premires options supposent que vous allez crer une unique fentre danalyse. La dernire option va crer plusieurs fentres, une pour chaque valeur unique contenue dans la colonne indique. Cest une faon simple de dfinir une variable BY pour un ensemble danalyses. Il vous sera ensuite demand si vous dsirez transformer les variables indiques. Si vous rpondez affirmativement, les botes de dialogue suivantes seront affiches :
Vous pouvez slectionner une transformation pour une ou plusieurs variables. Si vous demandez une transformation, lexpression approprie sera cre. Par exemple, demander la racine carre de MPG City va crer lexpression SQRT(MPG City) qui sera utilise par les analyses. Une bote de dialogue finale sera alors affiche listant toutes les analyses appropries pour le type de donnes qui a t indiqu :
Slectionner une ou plusieurs analyses dans la liste. Lorsque vous cliquez sur OK, une fentre danalyse est cre pour chaque analyse slectionne.
Si vous slectionnez un lment dans cette liste, toutes les analyses calculant cet lment slectionn seront affiches dans le champ Slectionner une analyse par son nom :
Figure 8-12. Liste de toutes les analyses calculant llment indiqu dans le champ Rechercher
Pour mettre en oeuvre une analyse slectionne : 1. Cliquer sur le bouton radio Slectionner une analyse par son nom . 2. Cliquer sur le nom dune analyse. 3. Cliquer sur OK. Le logiciel vous amnera directement dans la bote de dialogue dentre des donnes pour lanalyse slectionne, sans utiliser les menus habituels.
Chapitre
Prfrences du logiciel
Dfinir les prfrences pour lutilisation du logiciel.
STATGRAPHICS Centurion XVI contient des centaines doptions, chacune delles ayant une valeur par dfaut dfinie pour satisfaire la plupart des utilisateurs. Si vous le souhaitez, vous pouvez dfinir de nouvelles valeurs par dfaut pour beaucoup de ces options. Il y a trois endroits principaux dans le logiciel o vous pouvez le faire : 1. Prfrences gnrales du logiciel : dfinies dans la bote de dialogue Prfrences accessible par le menu Editer. 2. Options pour limpression : dfinies dans la bote de dialogue Mise en page accessible par le menu Fichier. 3. Graphiques : dfinies en slectionnant Options graphiques lorsquun graphique est affich. Longlet Profil de la bote de dialogue Options graphiques vous permet denregistrer plusieurs ensembles dattributs graphiques.
Quelques-unes des options les plus importantes sont : Niveau de confiance : pourcentage par dfaut utilis pour les limites de confiance, limites de prvision, tests dhypothses et linterprtation des valeurs des probabilits par le StatAdvisor. Nombre de chiffres significatifs : nombre de chiffres significatifs pour laffichage des rsultats numriques. Le nombre indiqu de chiffres sera affich, sauf pour les zros de queue qui seront supprims. Une entre distincte permet de prciser ce nombre pour les donnes enregistres dans le tableur.
Options du logiciel : options qui sappliquent tout le logiciel. o Utiliser le menu Six Sigma : organise les analyses dans des menus qui correspondent la dmarche DMAIC du Six Sigma (Dfinir, Mesurer, Analyser, Innover, Contrler). Les mmes analyses que dans le menu classique sont disponibles, sauf quelles sont accessibles dans des menus diffrents. o Trier les noms des colonnes : permet de lister les noms des colonnes dans lordre alphabtique dans les botes de dialogue dentre des donnes. Sinon, les noms des colonnes sont lists dans lordre des colonnes dans les tableurs. o Annes sur 4 chiffres : indique si les annes pour les dates doivent tre affiches avec 4 chiffres ou avec 2 chiffres. Par dfaut, les annes sont sur 2 chiffres comme par exemple 2/1/05 et sont supposes reprsenter des dates entre 1950 et 2049. Modifier cette option ne prendra effet quaprs avoir recharg le logiciel. o Enregistrement automatique : permet denregistrer le StatFolio courant et les fichiers de donnes de faon automatique en tche de fond et de prciser la dure entre deux enregistrements. Si cette option est active et si vous avez un problme avec le logiciel ou votre ordinateur, le logiciel vous proposera de recharger votre StatFolio et les fichiers de donnes louverture de sa prochaine session. o Mise jour des liens chaque donne : permet de recalculer toutes les statistiques ds quune donne est modifie dans un des tableurs. Normalement, les statistiques ne sont pas recalcules avant quune analyse nen reoive lordre, soit imprime, publie ou que le StatFolio ne soit enregistr. StatAdvisor: permet de dfinir les options par dfaut pour le StatAdvisor. o Ajouter aux tableaux : indique si le texte du StatAdvisor doit tre automatiquement ajout en pied des fentres de type texte. Le texte du StatAdvisor est toujours accessible en cliquant sur le bouton de la barre doutils principale.
o Rfrences en : indique si les lments rfrencs dans le StatAdvisor doivent tre affichs en couleur dans les fentres de type texte. En-ttes des analyses : indique si le titre de lanalyse doit tre affich en couleur en haut de la sous-fentre Rsum de lanalyse. 145/ Prfrences du logiciel
StatFolios: cocher Dsactiver les scripts pour viter dexcuter les scripts de dmarrage lorsque les StatFolios sont chargs. Rpertoire pour les fichiers temporaires : Si un rpertoire est indiqu, les StatFolios, fichiers de donnes et autres fichiers seront dabord enregistrs dans ce rpertoire avant dtre copis dans le rpertoire final de destination. En indiquant un disque local, cela peut rduire de faon importante le temps ncessaire pour lenregistrement dun fichier sur un rseau, car cela diminue le nombre de requtes daccs au rseau. Pour une description des options des autres onglets, voir le fichier PDF intitul Prfrences.
9.2 Impression
Deux options dans le menu Fichier permettent de contrler les impressions : 1. Configuration de limpression : accde la bote de dialogue usuelle des options pour limprimante. Cette bote de dialogue permet notamment de choisir la taille du papier et lorientation paysage ou portrait pour les impressions. 2. Mise en page : une bote de dialogue de STATGRAPHICS Centurion XVI permettant de dfinir les marges, len-tte et dautres options. Cette bote de dialogue a t prsente au paragraphe 3.3.
9.3 Graphiques
Maximiser une sous-fentre contenant un graphique dans toute fentre danalyse active le bouton Options graphiques dans la barre doutils danalyse. Ce bouton affiche une bote de dialogue onglets qui permet de modifier lapparence dun graphique, comme dcrit en dtails dans le Chapitre 4. Cette bote de dialogue inclut galement un onglet Profil qui vous permet denregistrer des ensembles de paramtres graphiques dans des profils dutilisateurs et de modifier le profil par dfaut utilis lorsquun nouveau graphique est cr :
Pour modifier les valeurs par dfaut du logiciel : 1. Modifier les caractristiques dun graphique dans toute fentre danalyse. Dfinir les couleurs, les polices et autres options que vous souhaitez utiliser pour vos futurs graphiques. 2. Slectionner Options graphiques dans la barre doutils danalyse et activer longlet Profil. 3. Cocher Profil Dfaut. 4. Slectionner lun des 12 profils dutilisateurs et cliquer sur le bouton Enregistrer sous (les profils systme sont en lecture uniquement). 5. Entrer un nom pour le profil enregistrer : 147/ Prfrences du logiciel
6. Cliquer sur OK pour enregistrer lensemble des paramtres graphiques (couleurs, polices, types des points et des lignes, etc.) dans le nouveau profil. Le prochain graphique utilisera le nouveau profil enregistr. Vous pouvez galement utiliser dautres profils enregistrs pour un nouveau graphique en crant le graphique avec les paramtres par dfaut puis : 1. En slectionnant Options graphiques dans la barre doutils danalyse et en choisissant longlet Profil. 2. En slectionnant lun des 15 profils et en cliquant sur le bouton Charger. Le graphique en cours sera immdiatement mis jour et utilisera les paramtres graphiques du profil slectionn.
10
Didacticiel n 1 : Analyser un unique chantillon
Statistiques rsumes, histogramme, bote moustaches, intervalles de confiance et tests dhypothses.
Un problme frquent en statistique est lanalyse dun chantillon de n observations issues dune unique population. Par exemple, considrons les tempratures corporelles releves sur n = 130 individus : 98.4 97.4 98.6 99.2 97.1 98.8 98.6 98.3 98.6 97.4 98.4 98.4 98.6 98.4 98.8 97.7 97.9 98.4 98.7 98 98.7 98.4 98.8 98.2 97.6 98.3 98.2 99.5 96.7 98.8 97.4 98.8 99.1 96.8 98.2 99.3 99.3 98.4 98.6 97.8 98 98.8 97.6 98.6 98.1 97.8 98 98 98.9 98.5 98 97.4 98 100.8 98.2 98.6 97.8 96.4 97.2 97.2 98 96.3 98.3 98.8 98.1 97.9 97.1 97.5 98.8 98.2 98.8 98.2 97.9 98.2 97.8 99 97.3 97.8 99 98 97.2 98.5 98 98.7 98.7 96.9 97.8 99.9 99.2 98.7 98.2 98.5 98.7 97.4 98.7 98 97.9 98.4 98.3 99 98.4 97.6 98.6 99 98.8 98.9 97.1 97.5 98.3 98.6 98.2 97.8 98.1 99.4 99.1 99.4 99.1 98 99 96.7 97.9 98.6 99.2 97.7 97 97.7 98.7 97.6 100 98.2
Chapitre
Ces donnes proviennent du Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) et sont utilises avec sa permission. 149/ Analyse dun chantillon
Elles sont contenues dans le fichier nomm bodytemp.sgd, dans une colonne intitule Tem perature contenant 130 lignes, une pour chaque personne de ltude. Le principal outil de STATGRAPHICS Centurion XVI pour rsumer un chantillon issu dune unique population est la procdure Analyse une v ariable. La procdure Analyse une variable rsume les donnes la fois de faon numrique et de faon graphique et effectue des tests dhypothses concernant la moyenne, la mdiane et lcart-type.
Les tempratures corporelles sont dans la colonne la plus gauche et sont mesures en degrs Fahrenheit. La procdure Analyse une v ariable peut tre accde partir du menu principal : 1. Si vous utilisez le menu classique, slectionner Dcrire Donnes quantitatives Analyse une variable. 2. Si vous utilisez le menu Six Sigma, slectionner Analyser Variables Analyse une variable. Dans la bote de dialogue dentre des donnes, indiquer le nom de la colonne analyser :
Figure 10-2. Bote de dialogue dentre des donnes pour lanalyse une variable
Laisser le champ Slection blanc pour analyser toutes les 130 lignes. Cliquer sur OK. Une fentre Tableaux et graphiques saffiche alors. Cette fentre indique les tableaux et les graphiques disponibles. Pour le moment, acceptons les options par dfaut.
La sous-fentre en haut gauche indique que lchantillon possde n = 130 valeurs comprises entre 96,3 et 100,8 degrs. La sous-fentre en haut droite affiche un nuage de points des donnes, avec les points parpills de faon alatoire le long de laxe vertical. A noter que la densit de points est plus forte entre 98 et 99 degrs et moins forte ailleurs et des deux cts. Cela est typique dun chantillon issu dune population dont la distribution possde un pic central. Les sous-fentres den bas affichent des statistiques rsumes des donnes et une bote moustaches et sont dcrites dans les prochains paragraphes.
Figure 10-5. Bote de dialogue des options pour les statistiques rsumes
Lajout de la mdiane de lchantillon, des quartiles et de ltendue inter -quartiles affiche le nouveau tableau suivant :
Statistiques rsumes pour Temperature Effectif 130 Moyenne 98.2492 Mdiane 98.3 Ecart-type 0.733183 Coef. de variation 0.746248% Minimum 96.3 Maximum 100.8 Etendue 4.5 1er quartile 97.8 3me quartile 98.7 Etendue inter-quartiles 0.9 Asymtrie std. -0.0205699 Aplatissement std. 1.81642
Une hypothse courante pour des mesures est que les donnes proviennent dune population qui suit une loi gaussienne, cest--dire quelles saffichent sous la forme dune courbe en cloche. Les donnes qui suivent une loi normale sont compltement dcrites par deux statistiques :
n
1. La moyenne de lchantillon x
xi
i 1
n
n
xi
i 1
n 1
Pour une loi normale, approximativement 68% des donnes sont moins dun cart-type de la moyenne de la population, approximativement 95% sont moins de deux carts-types et approximativement 99,73% moins de trois carts-types. La moyenne et lcart-type de lchantillon dcrivent compltement lchantillon uniquement si celui-ci suit une loi normale. Deux statistiques peuvent tre utilises pour vrifier cette hypothse. Ce sont les asymtrie et aplatissement standardiss. Ces statistiques sont des mesures de la forme : 1. Lasymtrie mesure la symtrie ou le manque de symtrie. Une loi symtrique comme la loi normale a une asymtrie nulle. Des lois qui ont des valeurs plutt au-dessus du pic quaudessous ont une asymtrie positive. Des lois qui ont des valeurs plutt au-dessous du pic quau-dessus ont une asymtrie ngative. 2. Laplatissement mesure la forme dune loi symtrique. Une loi normale ou en forme de cloche a un aplatissement nul. Une loi plus pointue que la loi normale a un aplatissement positif. Une loi plus plate que la loi normale a un aplatissement ngatif. Si les donnes suivent une loi normale, les asymtrie et aplatissement standardiss doivent tre compris entre -2 et + 2. Dans ce cas, la loi normale est un modle raisonnable pour les donnes. Une autre faon de rsumer les donnes est fournie par cinq valeurs choisies par John Tukey : Minimum (plus petite valeur des donnes) = 96,3 Premier quartile (25me centile) = 97,8 Mdiane (50me centile) = 98,3 Troisime quartile (75me centile) = 98,7 Maximum (plus grande valeur des donnes) = 100,8 154/ Analyse dun chantillon
Ces cinq nombres divisent lchantillon des donnes en quatre zones et sont la base du graphique en bote moustaches, dcrit dans le prochain paragraphe. NOTE : Slectionner dautres statistiques en utilisant Options pour la fentre modifie la slection pour cette analyse en cours uniquement. Pour modifier les statistiques par dfaut pour les futures analyses, aller dans le menu Editer et slectionner Prfrences. Longlet Stats dans la bote de dialogue vous permet de modifier les statistiques calcules par dfaut lorsque lAnalyse une variable est mise en oeuvre (ainsi que dans dautres analyses affichant des statistiques rsumes) :
Figure 10-7. Bote de dialogue Prfrences utilise pour slectionner les statistiques par dfaut
Ce graphique en bote moustaches est construit en : 1. Traant une bote stendant du premier au troisime quartile. Les 50% centraux des donnes sont ainsi contenus dans cette bote. 2. Traant une ligne verticale la position de la mdiane de lchantillon, qui divise les donnes en deux. Si les donnes suivent une loi symtrique, cette ligne doit tre proche du centre de la bote. 3. Affichant un signe plus la position de la moyenne de lchantillon. Tout cart substantiel entre la mdiane et la moyenne indique habituellement soit la prsence dun point extrme (une valeur des donnes qui ne provient pas de la mme population que le reste des donnes) soit une loi asymtrique. Dans le cas dune loi asymtrique, la moyenne est dcale en direction de la plus longue queue de la distribution. 156/ Analyse dun chantillon
4. Affichant des moustaches qui stendent des quartiles aux plus petite et plus grande valeurs des donnes de lchantillon, moins que des valeurs soient suffisamment loignes de la bote pour tre classes non usuelles. Dans ce cas, les moustaches stendent jusquaux points les plus distants non classs loigns. STATGRAPHICS Centurion XVI suit les rgles dfinies par Tukey en distinguant deux types de points non usuels : a. Points trs loigns points plus de 3 fois ltendue inter-quartiles au-dessus ou au-dessous des limites de la bote. (NOTE : ltendue inter-quartiles est la distance entre les quartiles et est gale la largeur de la bote.) Les points trs loigns sont marqus par un symbole de point (habituellement un petit carr) avec un signe plus ajout lintrieur. Si les donnes suivent une loi normale, la probabilit pour qun point soit suffisamment loign pour tre class comme point trs loign est de 1 sur 300 dans un chantillon de cette taille. A moins que lchantillon ne soit constitu de milliers de points, des points trs loigns indiquent la prsence de points extrmes (ou dune loi non normale). b. Points loigns - points plus d1,5 fois ltendue inter-quartiles au-dessus ou au-dessous des limites de la bote. Les points loigns sont marqus par un symbole de point mais sans signe plus ajout. Mme lorsque les donnes suivent une loi normale, la probabilit dobserver 1 ou 2 points loigns dans un chantillon de n = 100 observations est denviron 50% et nindique pas ncessairement la prsence de vrais points suspects. Ces points doivent uniquement vous inciter faire plus dinvestigations. Le graphique de la bote moustaches de la Figure 10-8 est raisonnablement symtrique. Les moustaches sont peu prs de mmes longueurs et la moyenne et la mdiane de lchantillon sont proches et prs du centre de la bote. Trois points sont marqus, mais il ny a pas de points extrmes. En cliquant sur le point le plus droite, le logiciel indique quil correspond la ligne n 15 du fichier. Si vous slectionnez les Options pour la fentre dans la barre des outils danalyse, vous pouvez ajouter une encoche sur la mdiane dans le graphique :
Cela affiche une encoche dans le graphique correspondant approximativement un intervalle de confiance sur la mdiane de la population au niveau de confiance par dfaut (habituellement 95%). Elle montre la marge derreur dans lestimation de la mdiane des tempratures de la population partir de lchantillon prlev. Dans ce cas, lerreur dchantillonnage est denviron 0,15 degr dans chaque direction. Un chantillon plus large donnerait une marge derreur plus petite.
En entrant Tem perature dans le champ Donnes, les fentres des Options puis des Tableaux et graphiques saffichent. Aprs slection des options dsires, un tableau de statistiques est affich dans la moiti infrieure de la sous-fentre de gauche. La partie particulirement intressante de ce tableau est celle affichant les 5 plus petites et les 5 plus grandes valeurs des donnes de lchantillon :
Donnes tries Ligne 95 55 23 30 73 ... 99 13 97 120 15 Valeur 96.3 96.4 96.7 96.7 96.8 99.4 99.5 99.9 100.0 100.8 Valeurs studentises sans suppression -2.65859 -2.52219 -2.11302 -2.11302 -1.97663 1.56955 1.70594 2.25151 2.3879 3.47903 Valeurs studentises avec suppression -2.74567 -2.59723 -2.15912 -2.15912 -2.01521 1.59096 1.7323 2.30628 2.45231 3.67021 Scores Z MAD modifis -2.698 -2.5631 -2.1584 -2.1584 -2.0235 1.4839 1.6188 2.1584 2.2933 3.3725
Figure 10-10. Partie slectionne du tableau des rsultats pour lidentification des points extrmes
La valeur la moins usuelle des donnes est celle de la ligne n 15 qui est affiche en rouge. Elle a une v aleur studentise sans suppression de 3,479. Les valeurs studentises sont calcules partir de :
zi xi s x
Une valeur de 3,479 indique que lobservation est 3,479 carts-types au-dessus de la moyenne de lchantillon lorsque cette observation est incluse dans le calcul de x et de s. La v aleur studentise avec suppression indique de combien dcarts-types chaque observation est loigne de la moyenne de lchantillon lorsque cette observation nest pas utilise dans les calculs. Si la ligne n 15 nest pas incluse dans les calculs, elle est alors 3,67 carts-types de la moyenne. Des observations plus de 3 carts-types de la moyenne sont des donnes non usuelles, moins que la taille n de lchantillon ne soit grande ou que la loi ne soit pas normale. Un test dhypothses formel peut tre effectu : 159/ Analyse dun chantillon
Hypothse nulle : la valeur la plus extrme est issue de la mme loi normale que les autres observations. Hypothse alternative : la valeur la plus extrme nest pas issue de la mme loi normale que les autres observations. Un test couramment utilis est le test de Grubbs, galement appel test de lcart studentis extrme. STATGRAPHICS Centurion XVI effectue ce test et affiche une valeur de probabilit. En gnral, cette valeur quantifie la probabilit dobtenir une statistique aussi non usuelle ou encore moins usuelle que celle observe dans lchantillon si lhypothse nulle est vraie. Si la valeur de la probabilit est suffisamment petite, lhypothse nulle peut tre rejete puisque lchantillon constitue un vnement rare. Suffisamment petit est habituellement dfini comme infrieur 0,05 qui est appel le niveau de signification ou risque alpha de la procdure de test. Sil y a moins de 5% de chances que lchantillon se soit produit sachant que lhypothse nulle est vraie, alors lhypothse nulle est rejete. Dans cet exemple, le test statistique est la plus grande valeur absolue des v aleurs studentises sans suppression, soit 3,479. Il a une valeur de probabilit de 0,0484. Comme cette valeur est infrieure 0,05, on peut rejeter lhypothse nulle et en conclure que la ligne n 15 est un point extrme par rapport au reste de lchantillon. Vous pouvez supprimer la ligne n 15 en cliquant sur le bouton Dfinition de lanalyse dans la barre des outils danalyse et en entrant une expression dans le champ Slection comme montr ci-aprs :
Figure 10-11. Bote de dialogue didentification des points extrmes avec expression pour la suppression des points extrmes
Comme la ligne n 15 est la seule observation qui dpasse 100 degrs, lentre dans le champ de Slection ci-dessus permet de slectionner uniquement les n = 129 autres lignes. Le tableau modifi pour lidentification des points extrmes est affich ci-dessous :
Donnes tries Ligne 95 55 23 30 73 ... 119 99 13 97 120 Valeur 96.3 96.4 96.7 96.7 96.8 99.4 99.4 99.5 99.9 100.0 Valeurs studentises sans suppression -2.75487 -2.61209 -2.18375 -2.18375 -2.04097 1.6713 1.6713 1.81408 2.3852 2.52798 Valeurs studentises avec suppression -2.85205 -2.6956 -2.23455 -2.23455 -2.08332 1.69652 1.69652 1.84516 2.44992 2.60411 Scores Z MAD modifis -2.698 -2.5631 -2.1584 -2.1584 -2.0235 1.4839 1.4839 1.6188 2.1584 2.2933
Figure 10-12. Tableau didentification des points extrmes aprs suppression de la ligne n 15
La valeur la plus extrme dans les observations restantes est la ligne n 95. Comme la valeur de la probabilit pour le test de Grubbs est bien au-dessus de 0,05, toutes les observations restantes semblent tre issues de la mme population. Idalement, il faudrait revenir sur ltude initiale et tenter de trouver une cause assignable pour la donne anormale de lindividu n 15. Comme il nest pas possible de le faire ici, nous allons accepter les rsultats du test de Grubbs et supprimer la ligne n 15 des tous les prochains calculs. Modifions la bote de dialogue dentre des donnes de lAnalyse une variable comme montr en Figure 10-11. Les statistiques rsumes rsultantes sont montres ci-dessous :
Statistiques rsumes pour Temperature Effectif 129 Moyenne 98.2295 Mdiane 98.3 Ecart-type 0.70038 Coef. de variation 0.713004% Minimum 96.3 Maximum 100.0 Etendue 3.7 1er quartile 97.8 3me quartile 98.7 Etendue inter-quartiles 0.9 Asymtrie std. -1.40217 Aplatissement std. 0.257075
10.5 Histogramme
Un autre affichage graphique classique illustrant un chantillon de mesures est lhistogramme deffectifs. En revenant lAnalyse une variable, un histogramme peut tre cr en cliquant sur le bouton Tableaux et graphiques de la barre des outils danalyse et en slectionnant Histogramme deffectifs. Lhistogramme par dfaut est montr ci-aprs. La hauteur de chaque barre de lhistogramme reprsente le nombre dobservations qui appartiennent lintervalle des tempratures dfini par la barre. Le nombre de barres et la largeur des barres sont dfinis par dfaut en se basant sur la taille n de lchantillon et en utilisant la rgle choisie dans longlet Analyses exploratoires de la bote de dialogue Editer - Prfrences.
En utilisant la rgle de Sturges, le nombre de barres est dfini comme le plus petit entier ntant pas infrieur (1+ 3,322log10(n)). Dautres rgles, comme la rgle 10log10(n), tendent produire plus de barres par dfaut et peuvent tre prfrables si vous travaillez avec de grands jeux de donnes. Une modification temporaire de ce nombre de barres pour un histogramme dj cr est possible en double-cliquant dans lhistogramme pour maximiser sa sous-fentre et en slectionnant les Options pour la fentre :
Figure 10-16. Bote de dialogue des options pour la fentre pour lhistogramme deffectifs
Lors de la dfinition des classes, le nombre de chiffres significatifs des donnes doit tre pris en compte. Par exemple, les tempratures corporelles sont mesures 0,1 degr prs. La largeur des intervalles pour les barres doit donc tre dfinie comme un entier multiple de 0,1. De cette faon, chaque barre reprsentera le mme nombre de mesures possibles. Le graphique ci -aprs affiche 25 intervalles compris entre 96 et 101 degrs, chacun couvrant un intervalle de 0,2 degr.
Avec ce plus grand nombre de classes, plus de dtails sont apparents. La forme gnrale de la loi est similaire celle dune courbe en cloche. Les donnes affiches dans lhistogramme peuvent tre visualises sous la forme dun tableau en cliquant sur le bouton Tableaux et graphiques slectionnant Tableau des effectifs : dans la barre des outils danalyse et en
Tableau des effectifs pour Temperature Classe Limite Limite Point Effectif infr. supr. central < ou = 96.0 0 1 96.0 96.2 96.1 0 2 96.2 96.4 96.3 2 3 96.4 96.6 96.5 0 4 96.6 96.8 96.7 3 5 96.8 97.0 96.9 2 6 97.0 97.2 97.1 6 7 97.2 97.4 97.3 6 8 97.4 97.6 97.5 6 9 97.6 97.8 97.7 10 10 97.8 98.0 97.9 16 11 98.0 98.2 98.1 13 12 98.2 98.4 98.3 14 13 98.4 98.6 98.5 13 14 98.6 98.8 98.7 18 15 98.8 99.0 98.9 7 16 99.0 99.2 99.1 6 17 99.2 99.4 99.3 4 18 99.4 99.6 99.5 1 19 99.6 99.8 99.7 0 20 99.8 100.0 99.9 2 21 100.0 100.2 100.1 0 22 100.2 100.4 100.3 0 23 100.4 100.6 100.5 0 24 100.6 100.8 100.7 0 25 100.8 101.0 100.9 0 > 101.0 0 Moyenne = 98.2295 Erreur-type = 0.70038
Frquence 0.0000 0.0000 0.0155 0.0000 0.0233 0.0155 0.0465 0.0465 0.0465 0.0775 0.1240 0.1008 0.1085 0.1008 0.1395 0.0543 0.0465 0.0310 0.0078 0.0000 0.0155 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Effectif cumul 0 0 2 2 5 7 13 19 25 35 51 64 78 91 109 116 122 126 127 127 129 129 129 129 129 129 129
Frquence cumule 0.0000 0.0000 0.0155 0.0155 0.0388 0.0543 0.1008 0.1473 0.1938 0.2713 0.3953 0.4961 0.6047 0.7054 0.8450 0.8992 0.9457 0.9767 0.9845 0.9845 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
A noter que les observations sont comptes comme appartenant un intervalle si elles sont suprieures la limite infrieure et infrieures ou gales la limite suprieure. La colonne la plus droite est galement trs intressante car elle affiche la probabilit cumule quun individu appartienne la classe donne ou aux classes prcdentes. Par exemple, 89,92% des donnes sont infrieures ou gales 99,0 degrs.
Dans ce graphique, les donnes sont dabord tries de la plus petite la plus grande. La j-me plus grande valeur est affiche = (j+0,5)/n. Cest une estimation de la proportion de la population ou au-dessous de cette temprature observe. Comme la colonne la plus droite dans le tableau des effectifs, cette courbe reprsente les probabilits cumules davoir une temprature infrieure ou gale celle indique sur laxe horizontal. Comme les tempratures ont t mesures 0,1 degr prs, il y a des sauts verticaux dans laffichage ci-dessus. La Figure 10-19 affiche galement deux lignes de localisation. Elles sont cres en cliquant sur le bouton droit de la souris dans le graphique et en slectionnant Localiser dans le menu popup. Il est alors possible dutiliser la souris pour dplacer ces lignes tout emplacement. Les nombres affichs le long de ces lignes indiquent les positions de ces lignes. Dans le graphique ci -dessus, les lignes sont utilises pour localiser approximativement la mdiane ou 50 me centile, qui est la valeur des tempratures laquelle la proportion affiche sur laxe vertical vaut 0,5.
Un tableau des quantiles peut aussi tre cr en slectionnant Quantiles dans la liste des tableaux :
Quantiles pour Temperature Quantiles Limite infrieure 1.0% 96.4 96.34 5.0% 97.0 96.8727 10.0% 97.2 97.1538 25.0% 97.8 97.6152 50.0% 98.3 98.1082 75.0% 98.7 98.5743 90.0% 99.1 98.9761 95.0% 99.3 99.2116 99.0% 99.9 99.6479 Limite suprieure 96.811 97.2473 97.4829 97.8846 98.3508 98.8437 99.3051 99.5862 100.119
Le rapport affiche les limites normales bilatrales de confiance 95.0%. Figure 10-20. Tableau des quantiles
Le p-me quantile estime la valeur des tempratures au-dessous de laquelle est p % de la population. Les Options pour la fentre ont t utilises pour ajouter des intervalles de confiance 95% aux quantiles, en se basant sur lhypothse que lchantillon est issu dune loi normale. Par exemple, le 90me quantile est une valeur des tempratures dpasse uniquement par 10% des individus de la population. La meilleure estimation de ce quantile sur les donnes de notre chantillon est de 99,1 degrs. Cependant, compte tenu de la taille limite de notre chantillon, le 90me quantile est en fait compris entre 98,98 et 99,31 degrs, avec un niveau de confiance de 95%.
Les intervalles de confiance fournissent une borne de lerreur potentielle destimation de la moyenne et de lcart-type de la population. A partir des n = 129 observations restantes, on peut dclarer avec un niveau de confiance de 95% que la temprature moyenne de la population est comprise entre 98,11 degrs et 98,35 degrs. De mme, lcart-type de la population est compris entre 0,624 degr et 0,798 degr. En slectionnant les Options pour la fentre, des intervalles de confiance additionnels peuvent tre demands en utilisant la mthode bootstrap :
Figure 10-22. Bote de dialogue des options pour les intervalles de confiance
Les intervalles bootstrap, la diffrence des intervalles de la Figure 10-21, ne supposent pas que la population suit une loi normale. Au lieu de cela, des chantillons alatoires de n = 129 observations sont prlevs dans les donnes par un chantillonnage avec remise (la mme observation peut tre slectionne plusieurs fois). Ceci est rpt 500 fois, des statistiques des chantillons sont calcules et les 95% centraux de ces rsultats sont utiliss pour valuer les intervalles de confiance. Le tableau ci-aprs affiche les intervalles bootstrap pour la moyenne, lcart-type et la mdiane de la population :
Intervalles de confiance pour Temperature Intervalle de confiance 95.0% pour la moyenne: 98.2295 +/- 0.122015 [98.1074;98.3515] Intervalle de confiance 95.0% pour l'cart-type: [0.624081;0.798114] Intervalles de validation croise Moyenne: [98.1147;98.3543] Ecart-type: [0.61717;0.781741] Mdiane: [98.1;98.4]
NOTE : Vos rsultats peuvent tre diffrents de ceux affichs ci-dessus. 169/ Analyse dun chantillon
Les prcdents intervalles, calculs en utilisant les lois t de Student et du Khi -carr, sont trs proches des intervalles bootstrap . Cela nest pas surprenant puisque les donnes naffichent pas dasymtrie ou daplatissement significatifs.
La valeur entre pour la Moyenne reprsente lhypothse nulle. Dans Hypothse alternative, vous pouvez slectionner lune des trois hypothses alternatives suivantes : 1. Non gal : 98.6 2. Infrieur : < 98.6 3. Suprieur : > 98.6 Mme si lchantillon suggre une temprature moyenne infrieure, un test bilatral alternatif a t slectionn. Choisir un test unilatral avec une hypothse alternative de < 98,6 degrs nest pas correct ce point car lhypothse est formule aprs avoir dj regard les donnes. Les rsultats du test sont montrs ci-dessous :
Tests d'hypothses pour Temperature Moyenne de l'chantillon = 98.2295 Mdiane de l'chantillon = 98.3 test t Hypothse nulle: moyenne = 98.6 Alternative: non gal Statistique t calcule = -6.00896 Proba. = 1.81264E-8 Rejet de l'hypothse nulle pour alpha = 0.05. test du signe Hypothse nulle: mdiane = 98.6 Alternative: non gal Nombre de valeurs au-dessous de la mdiane hypothtique: 81 Nombre de valeurs au-dessus de la mdiane hypothtique: 38 Test statistique sur large chantillon = 3.85013 (correction de continuit applique) Proba. = 0.000118096 Rejet de l'hypothse nulle pour alpha = 0.05. test du rang sign Hypothse nulle: mdiane = 98.6 Alternative: non gal Rang moyen des valeurs au-dessous de la mdiane hypothtique: 67.7099 Rang moyen des valeurs au-dessus de la mdiane hypothtique: 43.5658 Test statistique sur large chantillon = 5.07771 (correction de continuit applique) Proba. = 3.82663E-7 Rejet de l'hypothse nulle pour alpha = 0.05.
Les rsultats des deux tests sont donns : 1. Un test t classique, qui suppose que les donnes sont issues dune loi normale (mme si ce test nest pas trop sensible cette hypothse). 2. Un test non paramtrique des rangs signs, bas sur les rangs de la distance de chaque observation la mdiane hypothtique. Ce test ne suppose pas la normalit et est moins sensible aux points extrmes que le test t. Dans les deux cas, la valeur de la probabilit est bien au-dessous de 0,05, rejetant lhypothse que lchantillon est issu dune population suivant une loi normale de moyenne 98,6 degrs. NOTE : la notation E-8 aprs un nombre indique que ce nombre doit tre multipli par 10-8. La valeur de la probabilit affiche comme 1.81264E-8 est donc gale 0.0000000181264. Il faut noter que lintervalle de confiance pour la moyenne, donn au paragraphe 10.8, ninclut pas la valeur 98,6. Toute valeur non comprise dans lintervalle de confiance aurait t rejete par le test t utilis ici. Vous pouvez donc considrer les intervalles de confiance comme des intervalles contenant toutes les valeurs possibles pour la population et qui sont tolrables par lchantillon de donnes.
La procdure dbute en affichant une bote de dialogue dans laquelle vous dfinissez la taille n de lchantillon ainsi que la moyenne et lcart-type de cet chantillon. En utilisant les rsultats affichs en Figure 10-13, les valeurs entrer sont :
Linterprtation par le StatAdvisor donne un rsum des rsultats. Le niveau de confiance et le pourcentage de la population qui est lintrieur des limites peuvent tre modifis en utilisant les Options pour la fentre.
La procdure Limites statistiques de tolrances permet galement de crer un Graphique des tolrances, qui affiche les limites de tolrances :
Pas plus dun individu sur 100 na de chances dtre en dehors des limites calcules.
11
Didacticiel n 2 : Comparer deux chantillons
Comparaisons graphiques et tests dhypothses.
Souvent, les donnes analyser sont constitues de deux chantillons ventuellement issus de populations diffrentes. Dans de tels cas, il est utile de : 1. Afficher les donnes de telle faon que des comparaisons visuelles soient possibles. 2. Tester des hypothses pour dterminer sil y a ou non une diffrence statistiquement significative entre les deux chantillons. Le didacticiel n 1 du chapitre prcdent a tudi un jeu de donnes constitu de tempratures corporelles mesures sur 130 individus. Parmi ces individus, 65 sont des femmes et 65 sont des hommes. Dans ce didacticiel, nous allons comparer les donnes des femmes celles des hommes. Pour analyser les tempratures corporelles, ouvrir le fichier de donnes bodytemp.sgd en utilisant Ouvrir une source de donnes dans le menu Fichier Ouvrir.
Chapitre
Le champ Entre permet dindiquer comment les donnes des deux chantillons ont t saisies : 1. Deux colonnes de donnes les donnes pour chaque chantillon sont dans des colonnes diffrentes.
2. Donnes et codes les donnes pour les deux chantillons sont dans la mme colonne et une seconde colonne contient les codes qui permettent de diffrencier les deux chantillons. Le fichier bodytemp.sgd a ce second type de structure avec les n = 130 observations dans une colonne appele Tem perature et une seconde colonne appele Gender contenant le libell Female ou Male. Dans le champ Slection, une expression a t entre pour slectionner uniquement les lignes pour lesquelles Temperature est infrieur ou gal 100. Cela va exclure la ligne n 15 de lanalyse car cette ligne est un point extrme comme cela a t vu au Chapitre 10. Aprs affichage de la bote de dialogue Tableaux et graphiques, la fentre danalyse initiale est constitue de quatre sous-fentres avec un rsum des donnes, un double histogramme, des statistiques rsumes par groupe et une double bote moustaches :
Aprs avoir exclu le point extrme, il y a n 1 = 64 observations pour les femmes qui vont de 96,4 100,0 degrs et n 2 = 65 observations pour les hommes qui vont de 96,3 degrs 99,5 degrs. 177/ Comparer deux chantillons
Plusieurs lments de ce tableau sont particulirement intressants : 1. La temprature moyenne des femmes est denviron 0,25 degr plus leve que celle des hommes. La diffrence entre les mdianes est de 0,30 degr. 2. Lcart-type pour les femmes est relativement plus faible que celui pour les hommes, ce qui indique que les tempratures corporelles des femmes sont moins variables que celles des hommes. 3. Les deux chantillons ont des asymtries standardises et des aplatissements standardiss compris entre -2 et +2. Comme expliqu dans le Chapitre 10, des valeurs dans cette plage confirment lhypothse que les donnes sont issues de lois normales. Il reste dterminer si la diffrence apparente entre les femmes et les hommes est statistiquement significative.
Lhistogramme pour les femmes est affich au-dessus de la ligne horizontale et celui pour les hommes est affich au-dessous de la ligne horizontale. Les formes de deux distributions sont similaires, avec un possible dcalage de la loi pour les femmes vers la droite de la loi pour les hommes.
Les moustaches stendent jusquaux plus grandes et plus petites valeurs des donnes, sauf si ces valeurs sont trop loignes des botes. Une ligne verticale est trace dans chaque bote la position de la mdiane de lchantillon et un signe plus indique la position de la moyenne de lchantillon. Dans notre cas, il est particulirement utile dajouter les encoches sur les mdianes en utilisant les Options pour la fentre. Le graphique rsultant est montr ci-aprs :
Ce graphique montre de faon vidente : 1. Un dcalage de la valeur centrale de la distribution pour les femmes vers la droite par rapport celle pour les hommes. Les moyennes et les mdianes des deux chantillons affichent cette mme diffrence. 2. Une tendue des donnes pour les femmes plus grande que celle pour les hommes, mais uniquement si les points loigns sont pris en compte.
3. Une encoche sur la mdiane pour les femmes qui chevauche celle pour les hommes. Les encoches sont traces de telle faon que si deux encoches ne se chevauchent pas, il est alors possible de dclarer que les deux mdianes ne sont pas significativement diffrentes au niveau de signification dfini par dfaut dans le logiciel (ici 5%). Une comparaison plus formelle est dcrite dans un prochain paragraphe. En se basant sur ce graphique, il apparat quil y a une diffrence entre les valeurs centrales de ceux deux chantillons, mme si la signification statistique de cette diffrence nest pas encore confirme.
Hypothse alternative :
Cela nous permettra de dterminer si la diffrence apparente entre la variabilit des hommes et celle des femmes est statistiquement significative ou si elle est de lordre de celle habituelle pour des chantillons de ces tailles. Pour mettre en oeuvre ce test, cliquer sur bouton Tableaux et graphiques outils danalyse et slectionner Comparaison des carts-types. Les rsultats les plus importants dans ce tableau sont affichs en rouge : 1. Rapport des variances : affiche un intervalle de confiance 95% pour le rapport des variances de la population des femmes, 12, divis par la variance de la population des hommes, 22. La v ariance est une mesure de la variabilit calcule en prenant le carr de lcart-type. (NOTE : les comparaisons des variabilits de plusieurs chantillons sont classiquement bases sur les variances, plutt que sur les carts-types, car elles possdent des proprits mathmatiques intressantes.). Lintervalle pour 12 / 22 stend de 0,58 1,58. dans la barre des
Cela indique que la variance des femmes est comprise entre 58% et 158% de la variance des hommes. Ce manque de prcision est typique lorsquon compare les variabilits de relativement petits chantillons.
Comparaison des carts-types pour Temperature Gender=Female Gender=Male Ecart-type 0.684262 0.698756 Variance 0.468214 0.48826 Ddl 63 64 Rapport des variances = 0.958945 Intervalles de confiance 95.0% Ecart-type de Gender=Female: [0.582853;0.828723] Ecart-type de Gender=Male: [0.595887;0.844885] Rapport des variances: [0.584028;1.57609] Test F de comparaison des carts-types Hypothse nulle: sigma1 = sigma2 (1) Hypothse Alt.: sigma1 NE sigma2 F = 0.958945 Probabilit = 0.8684 Ne pas rejeter l'hypothse nulle pour alpha = 0.05.
2. La valeur de la probabilit associe au test F des hypothses dfinies ci-dessus. Une probabilit infrieure 0,05 indiquerait une diffrence statistiquement significative entre les variances des femmes et des hommes au niveau de signification de 5%. Comme la valeur de la probabilit est bien suprieure 0,05, il ny a pas de raison de rejeter lhypothse dgalit des variances et donc dgalit des carts-types. Il ny a donc pas de raison de conclure une variabilit diffrente des tempratures corporelles de femmes par rapport celles des hommes. Il doit tre not que ce test est assez sensible lhypothse que les chantillons sont issus de populations distribues selon des lois normales, une hypothse qui est raisonnable si lon se base sur les valeurs des coefficients dasymtrie standardise et daplatissement standardis.
2 1
Hypothse alternative :
Pour effectuer ce test, cliquer nouveau sur le bouton Tableaux et graphiques et slectionner Comparaison des moyennes. Les rsultats obtenus sont :
Comparaison des moyennes pour Temperature Intervalle de confiance 95.0% pour la moyenne de Gender=Female: 98.3562 +/- 0.170924 [98.1853;98.5272] Intervalle de confiance 95.0% pour la moyenne de Gender=Male: 98.1046 +/- 0.173144 [97.9315;98.2778] Intervalle de confiance 95.0% pour la diffrence entre les moyennes : en supposant l'galit des variances: 0.251635 +/- 0.240998 [0.0106371;0.492632] Test t de comparaison des moyennes Hypothse nulle: moy1 = moy2 (1) Hypothse Alt.: moy1 NE moy2 en supposant l'galit des variances: t = 2.06616 Rejet de l'hypothse nulle pour alpha = 0.05.
Probabilit = 0.040846
Les parties les plus importantes du tableau des rsultats sont nouveau affiches en rouge : 1. Diffrence entre les moyennes (en supposant lgalit des variances) : affiche un intervalle de confiance 95% pour la moyenne de la population des femmes moins la moyenne de la population des hommes. Lintervalle pour 1 - 2 stend de 0,01 0,49, indiquant que la temprature moyenne des femmes est de 0,01 degr 0,49 degr suprieure la temprature moyenne des hommes. 2. La valeur de la probabilit associe au test t des hypothses dfinies ci-dessus. Comme la valeur de la probabilit est infrieure 0,05, il est possible de rejeter lhypothse dgalit des moyennes et donc de dclarer que les moyennes des deux populations sont significativement diffrentes au niveau de signification de 5%.
A noter que ce test a t effectu en supposant que les variances des deux populations sont gales, ce qui a t valid par le test F dans le prcdent paragraphe. Si les variances avaient t significativement diffrentes, un test t approxim aurait pu tre calcul en demandant les Options pour la fentre et en dcochant la case intitule Egalit des carts-types. Il apparat ainsi que les femmes sont issues dune population dont la moyenne des tempratures est suprieure celle des hommes.
Linterprtation du test de Mann-Whitney (Wilcoxon) est similaire celle du test t dcrit dans le paragraphe prcdent, avec une petite valeur de probabilit indiquant que les mdianes des deux populations sont significativement diffrentes.
Le graphique des quantiles affiche la proportion de donnes de chaque chantillon qui est audessous dune valeur donne X, comme une fonction de X. Si les deux chantillons sont issus dune mme population, les deux courbes des quantiles doivent tre proches lune de lautre. Tout dcalage dune courbe vers la gauche ou vers la droite indique une diffrence entre les moyennes. Une diffrence dans les pentes des courbes indique une diffrence entre les cartstypes. Dans le graphique ci-dessus, il est clair que la distribution des femmes est dcale vers la droite par rapport celle des hommes. Les pentes semblent toutefois similaires.
La distance verticale maximale, note DN, est approximativement gale 0,24 pour nos tempratures corporelles. La valeur de la probabilit est utilise pour dterminer si les distributions sont significativement diffrentes lune de lautre ou non. Une petite valeur de la probabilit indique quil y a une diffrence significative. Comme la valeur de la probabilit pour nos donnes est infrieure 0,05, il y a une diffrence significative entre les distributions des femmes et des hommes au niveau de signification de 5%. Attention : Si les donnes sont fortement arrondies, ce test peut ne pas tre fiable car la fonction de rpartition empirique peut afficher de grands sauts. Lorsque cela est possible, il est alors prfrable de comparer les paramtres des distributions, comme les moyennes, carts-types et mdianes.
Figure 11-11. Graphique quantiles-quantiles pour les donnes des tempratures corporelles
Il y a dans ce graphique un point pour chaque observation du plus petit des deux chantillons. Le quantile estim du plus grand des deux chantillons est affich sur lautre axe. Si les chantillons sont issus dune mme population, les points doivent saligner le long de la droite diagonale. Un dcalage constant vers la gauche ou vers la droite indique quil y a une diffrence significative entre les valeurs centrales des deux distributions. Des points scartant de cette ligne avec une pente diffrente de celle de la ligne diagonale indiquent une diffrence significative en variabilit. Dans notre cas, la diffrence entre les populations semble tre un peu plus complexe quun simple dcalage de la moyenne, puisque les points sont plus proches de la ligne centrale pour les tempratures hautes et basses que pour les tempratures centrales. Il apparat que la distribution des tempratures des femmes est plus dense vers le centre que la distribution des hommes. 187/ Comparer deux chantillons
12
Didacticiel n 3 : Comparer plus de deux chantillons
Comparer des moyennes et des carts-types, ANOVA un facteur, ANO M et mthodes graphiques.
Lorsque les donnes sont dans plus de deux groupes, un ensemble diffrent de techniques, par rapport celles prsentes dans le prcdent chapitre, doit tre utilis. Par exemple, supposons que lon souhaite comparer la solidit de pices fabriques partir de quatre matriaux diffrents. Une exprimentation typique consiste fabriquer des pices (ici 12) dans chacun des 4 matriaux de faon les comparer Les donnes ci-dessous reprsentent les rsultats de lexprimentation : Matriau A 64.7 64.8 66.8 67.0 64.9 63.7 61.8 64.3 64.3 65.9 63.6 64.6 Matriau B 60.4 61.8 63.3 61.6 61.0 63.8 60.9 65.1 61.5 60.0 62.9 60.6 Matriau C 58.3 62.1 62.4 60.3 60.6 60.0 60.3 62.4 61.9 63.1 60.2 58.6 Matriau D 60.8 60.2 59.8 58.3 56.4 61.6 59.5 62.0 61.4 58.6 59.5 60.0
Chapitre
Il est trs intressant de pouvoir dterminer le matriau qui donne la plus grande solidit aux pices, ainsi que de savoir quels sont les matriaux qui sont statistiquement diffrents de faon significative des autres. Il y a deux faons dentrer les donnes de multiples chantillons dans le tableur : 1. Utiliser une colonne spare pour chaque chantillon. 2. Utiliser une colonne unique pour les donnes et crer une seconde colonne contenant des codes permettant didentifier lchantillon dorigine de chaque donne. Dans cet exemple, la premire approche est utilise. Les donnes pour les pices sont places dans les quatre colonnes du fichier widgets.sgd que vous pouvez ouvrir en slectionnant Ouvrir Ouvrir une source de donnes dans le menu Fichier.
Dans notre cas, les donnes ont t structures en plusieurs colonnes dans le tableur. La deuxime bote de dialogue vous demande les noms des colonnes contenant les donnes :
Figure 12-2. Bote de dialogue dentre des donnes pour la comparaison de plusieurs chantillons
Dans le fichier de donnes de notre exemple, les observations sont dans quatre colonnes nommes A, B, C et D. Aprs avoir cliqu sur OK, la bote de dialogue Tableaux et graphiques saffiche. Les options par dfaut sont conserves pour ce didacticiel. Lorsque la fentre danalyse souvre, elle contient quatre sous-fentres :
La sous-fentre en haut gauche indique la taille et ltendue de chacun des chantillons. La sous-fentre en haut droite affiche un nuage des points, maximis ci-aprs :
A noter que beaucoup dobservations se superposent. Pour remdier ce problme, doublecliquer dans le graphique pour le maximiser puis cliquer sur le bouton Eparpiller dans la barre des outils danalyse et ajouter une petite quantit alatoire horizontale en dplaant le curseur vers la droite :
Cela dcale de faon alatoire chaque point dune petite quantit par rapport laxe horizontal, rendant la vision des points individuels plus facile :
Lparpillement naffecte que laffichage, pas les donnes ni les calculs effectus partir de ces donnes.
o j reprsente la moyenne de la population dont lchantillon j provient. Le rejet de lhypothse nulle indique que les chantillons sont issus de populations dont les moy ennes ne sont pas toutes gales. Les rsultats de lANOVA sont contenus dans le tableau de lANOVA affich dans la sousfentre en haut gauche de la fentre danalyse :
Tableau de l'ANOVA Source Somme des carrs Inter-groupes 157.882 Intra-groupes 101.728 Total (Corr.) 259.61 Ddl 3 44 47 Carr moyen 52.6272 2.31201 F 22.76 Probabilit 0.0000
Lanalyse de la variance dcompose la variabilit des donnes observes en deux composants : un composant inter-groupes, quantifiant les diffrences entre les pices fabriques dans diffrents matriaux, et un composant intra-groupe, quantifiant les diffrences entre les pices fabriques avec le mme matriau. Si la variabilit estime entre les groupes est significativement plus grande que la variabilit estime dans les groupes, il est alors vident que les moyennes des groupes ne sont pas toutes les mmes. La valeur cl dans la Figure 12-7 est la valeur de la probabilit. De petites valeurs de cette probabilit (infrieures 0,05 pour un niveau de signification de 5%) conduisent rejeter lhypothse que toutes les moyennes sont gales. Dans cet exemple, il est clair que les moyennes sont significativement diffrentes. Dans la rcente dition de Statistics for Experimenters de Box, Hunter et Hunter (John Wiley and Sons, 2005), les auteurs prsentent un nouveau graphique illustrant les rsultats dune ANOVA. LANO VA graphique est affiche par dfaut dans la sous-fentre en bas droite de la fentre danalyse :
En bas du graphique, un diagramme de densit des rsidus du modle est affich. Dans une ANOVA un facteur, les rsidus sont gaux la diffrence entre chaque observation et la moyenne des observations de son groupe. Dans cet exemple, la variabilit observe dans les rsidus est une indication de la variabilit naturelle entre les pices fabriques partir du mme matriau. Au-dessus de la ligne centrale sont affichs les carts entre les moyennes des groupes et la moyenne gnrale des n = 48 observations. Ces carts sont affichs dans une chelle telle que la variabilit de ces carts peut tre compare celle des rsidus. Les groupes dont les points sont trop loigns pour provenir dune distribution ayant une plage similaire celle des rsidus correspondent probablement des populations diffrentes. Dans la Figure 12-8, le groupe A semble bien spar des autres groupes. La sparation entre les trois autres moyennes est moins vidente. Une comparaison plus formelle des quatre moyennes des chantillons est dcrite dans le paragraphe suivant.
Le graphique des moyennes affiche chacune des moyennes des chantillons, avec des intervalles de confiance pour chacune delles. Linterprtation de ces intervalles dpend du type dintervalles affichs. Ce type peut tre choisi en utilisant les Options pour la fentre. Les deux types les plus couramment utiliss sont :
1. Intervalles LSD de Fisher (Least Significant Difference) : Ces intervalles sont labors de telle faon quil est possible de slectionner toute paire dintervalles et de dclarer que les moyennes de ces intervalles sont significativement diffrentes si les intervalles ne se chevauchent pas dans la direction verticale. Bien que la probabilit de dclarer incorrectement que deux chantillons sont diffrents par cette mthode soit fixe et gale 5%, faire de nombreuses comparaisons entre des paires de moyennes peut conduire une erreur sur au moins une paire avec une probabilit considrablement plus leve. 2. Intervalles HSD de Tukey (Honestly Significant Difference) : Ces intervalles sont labors de telle faon assurer un taux global derreur de 5%. En utilisant la mthode de Tukey, vous ne dclarerez pas incorrectement une paire de moyennes significativement diffrentes lorsquelles ne le sont pas dans plus de 5% des analyses effectues.
Tests des tendues multiples Mthode: 95.0 % LSD Effectif Moyenne D 12 59.8417 C 12 60.85 B 12 61.9083 A 12 64.7
Groupe homogne X XX X X
Contraste Sig. Diffrence +/- limites A-B * 2.79167 1.25105 A-C * 3.85 1.25105 A-D * 4.85833 1.25105 B-C 1.05833 1.25105 B-D * 2.06667 1.25105 C-D 1.00833 1.25105 * indique une diffrence statistiquement significative.
Les intervalles de la Figure 12-9 utilisent la mthode de Tukey. Comme lintervalle pour lchantillon A ne chevauche aucun des autres intervalles, la moyenne de lchantillon A est significativement diffrente de celles des 3 autres chantillons. Lchantillon B est galement significativement diffrent de lchantillon D puisque les intervalles associs ne se chevauchent pas. Par contre, lchantillon C nest pas significativement diffrent des chantillons B ou D. La mme analyse peut tre affiche sous la forme dun tableau (Figure 12-10) en slectionnant Tests des tendues multiples dans la bote de dialogue Tableaux et graphiques.
Le bas du tableau affiche chacune des paires de moyennes. La colonne Diffrence affiche la moyenne de lchantillon dans le premier groupe moins la moyenne de lchantillon dans le second groupe. La colonne +/- limites donne lintervalle dincertitude pour la diffrence. Chaque paire pour laquelle la valeur absolue de la diffrence excde la limite est statistiquement significative au niveau de confiance choisi et est marque par une * dans la colonne Sig. Dans notre exemple, quatre des six paires de moyennes affichent des diffrences significatives. Le haut du tableau prsente les chantillons en groupes homognes affichs sous la forme de colonnes de X. Un groupe homogne est un groupe dans lequel il ny a pas de diffrences significatives. Dans notre cas, lchantillon A constitue un groupe lui seul car il est statistiquement diffrent de tous les autres chantillons. Lchantillon C appartient deux groupes, un avec B et un autre avec D. Plus de donnes seraient ncessaires pour savoir quel groupe lchantillon C appartient effectivement.
Test de Kruskal-Wallis Taille de l'chantillon Rang moyen A 12 40.7917 B 12 25.7917 C 12 19.25 D 12 12.1667 Test statistique = 27.3735 Proba. = 0.00000491592
Linformation importante dans le tableau ci-dessus est la valeur de la probabilit. Comme la valeur de la probabilit est petite (infrieure 0,05), lhypothse dgalit des mdianes est rejete. Les paires de mdianes peuvent galement tre compares en slectionnant Botes moustaches dans la bote de dialogue Tableaux et graphiques et en utilisant les Options pour la fentre pour ajouter des encoches sur les mdianes :
La plage couverte par chaque encoche montre lincertitude associe lestimation de la mdiane du groupe. Les encoches sont labores de telle faon que si les encoches de deux chantillons ne se chevauchent pas, il est alors possible de dclarer que les mdianes de ces deux chantillons sont significativement diffrentes au niveau de signification par dfaut du logiciel (habituellement 5%). Dans le graphique ci-dessus, les encoches pour les chantillons B, C et D se chevauchent, mais la mdiane pour lchantillon A est significativement plus grande que celles des trois autres chantillons. NOTE : le repliement des encoches observ en Figure 12-12 survient lorsquune encoche stend au-del du bord de la bote.
Hypothse alternative : les carts-types ne sont pas tous gaux Cela est fait en slectionnant Test des variances dans la bote de dialogue Tableaux et graphiques :
Tests des variances Test Test de Levene 0.143286 Probabilit 0.933432
Un des quatre tests saffichera en fonction des paramtres des Options pour la fentre. Trois des tests disponibles, dont le test de Levene, donnent des valeurs de probabilits. Une valeur de probabilit infrieure 0,05 conduit au rejet de lhypothse dgalit des carts-types au niveau de signification de 5%. Dans notre cas, les carts-types ne sont pas significativement diffrents les uns des autres, puisque la valeur de la probabilit est bien plus grande que 0,05. En rsum, il apparat que la solidit moyenne varie avec les diffrents matriaux. Cependant, la variabilit entre les pices fabriques avec ces matriaux est peu prs la mme pour tous les matriaux. 201/ Comparer plus de deux chantillons
Figure 12-14. Graphique des rsidus par rapport aux v aleurs prvues de strength
1. Les points extrmes rsidus trs loigns des autres. De tels points ncessitent des analyses complmentaires pour dterminer si une cause assignable existe expliquant ces comportements non usuels. 2. Lhtroscdasticit une volution systmatique de la variance quand les valeurs prvues augmentent ou diminuent. Cela se traduit par un graphique en forme dentonnoir et suggre de transformer les donnes dorigine en prenant les logarithmes des donnes avant de mettre en oeuvre lanalyse. Des procdures telles que les Tests des tendues multiples ne sont pas adquates lorsque les variabilits dans les groupes diffrent de faon significative. Si dsir, les rsidus peuvent tre enregistrs dans une colonne dun tableur en cliquant sur le bouton Enregistrer les rsultats dans la barre des outils danalyse.
Conu pour tre similaire une carte de contrle, ce graphique affiche les moyennes des chantillons avec une ligne verticale trace la moyenne gnrale des observations. Des limites de dcision sont ajoutes au-dessus et au-dessous de la moyenne gnrale. Toute moyenne dun chantillon qui est en dehors de ces limites peut tre dclare significativement diffrente de la moyenne gnrale. Dans notre cas, linterprtation est que les pices de lchantillon A sont significativement plus solides que la moyenne, alors que les pices des chantillons C et D sont significativement moins solides que la moyenne. Ce type dinterprtation peut parfois tre trs utile.
13
Didacticiel n 4 : Mthodes de rgression
Ajuster des modles de rgression linaire et non linaire, slectionner le meilleur modle, faire un graphique des rsidus et afficher les rsultats.
Une des parties les plus utilises de STATGRAPHICS Centurion XVI est celle relative la modlisation statistique par mthodes de rgression. Dans un modle de rgression, une variable de rponse Y est exprime comme une fonction dune ou de plusieurs variables prdictrices X plus un bruit. Dans beaucoup de cas, mais pas tous, la forme de la fonction est linaire par rapport aux coefficients inconnus, si bien que le modle peut tre exprim sous la forme : Yi =
0
Chapitre
X 1,i +
2 2,i
x +
X 3,i + +
Xk,i +
o lindice i reprsente la i-me observation dans lchantillon des donnes, les sont les coefficients inconnus du modle et est un cart alatoire habituellement suppos suivre une loi normale de moyenne 0 et dcart-type . A partir dun jeu de donnes contenant une variable de rponse Y et une ou plusieurs variables prdictrices, le but de lanalyse de rgression est de construire un modle qui : 1. Dcrit la relation entre les variables de faon permettre de bien prvoir Y partir de valeurs connues des X. 2. Ne contient pas plus de variables X que ncessaire pour obtenir une bonne prvision. 205/ Mthodes de rgression
Cette dernire considration est parfois appele principe de parcimonie. Typiquement, les modles comportant un petit nombre de prdicteurs bien slectionns sont en pratique meilleurs. Ce chapitre considre plusieurs types de modles de rgression. Comme exemple, les nombres de miles par gallon pour une conduite en ville de nos automobiles du fichier 93cars.sgd vont servir de variable de rponse Y. Le but est dlaborer un modle partir des autres colonnes du fichier de faon prvoir avec succs le nombre de miles par gallon dune automobile.
Figure 13-1. Bote de dialogue dentre des donnes pour lanalyse plusieurs v ariables
Six variables prdictrices possibles ont t slectionnes, en plus de MPG City. Ces variables potentielles sont : X 1: Engine Size (litres) X 2: Horsepower (maximum) X 3: Length (pouces) X 4: Weight (livres) X 5: Wheelbase (pouces) X 6: Width (pouces) Aprs avoir cliqu sur OK, les botes de dialogue Options danalyse et Tableaux et graphiques saffichent puis la fentre danalyse :
La sous-fentre en haut gauche liste les variables choisies et celle au milieu gauche affiche des statistiques rsumes. Il y a un total de 93 lignes dans le fichier des donnes qui sont toutes renseignes pour les variables choisies analyser. 207/ Mthodes de rgression
La matrice de nuages de points droite affiche des graphiques X-Y pour chaque paire de variables :
Pour interprter ce graphique, choisir une variable, par exemple MPG City. La variable choisie est affiche sur laxe vertical de chaque graphique de cette ligne et sur laxe horizontal de chaque graphique de cette colonne. Chaque paire de variables est donc affiche deux fois, une fois au dessus de la diagonale et une fois au-dessous de la diagonale. Des lisseurs robustes LOWESS ont t ajouts dans la figure ci-dessus en maximisant la sousfentre et en slectionnant le bouton Lissage/Rotation dans la barre des outils danalyse. La premire ligne est particulirement intressante. Elle affiche MPG City par rapport chacune des 6 variables prdictrices potentielles. Toutes les variables sont clairement corrles avec les nombres de miles par gallon, quelques-unes de faon non linaire. Il y a galement une importante multicolinarit entre les variables (corrlation entre les variables prdictrices), ce qui laisse prsager que de nombreuses diffrentes combinaisons des variables peuvent tre intressantes pour prvoir Y.
Le tableau en bas gauche affiche une matrice des coefficients de corrlation estims pour chaque paire de variables dans lanalyse :
Corrlations MPG City MPG City Engine Size -0.7100 (93) 0.0000 Horsepower -0.6726 (93) 0.0000 0.7321 (93) 0.0000 Length -0.6662 (93) 0.0000 0.7803 (93) 0.0000 0.5509 (93) 0.0000 Weight -0.8431 (93) 0.0000 0.8451 (93) 0.0000 0.7388 (93) 0.0000 0.8063 (93) 0.0000 Wheelbase -0.6671 (93) 0.0000 0.7325 (93) 0.0000 0.4869 (93) 0.0000 0.8237 (93) 0.0000 0.8719 (93) 0.0000 Width -0.7205 (93) 0.0000 0.8671 (93) 0.0000 0.6444 (93) 0.0000 0.8221 (93) 0.0000 0.8750 (93) 0.0000 0.8072 (93) 0.0000
Engine Size
Horsepower
Length
Weight
Wheelbase
Width
-0.7100 (93) 0.0000 -0.6726 (93) 0.0000 -0.6662 (93) 0.0000 -0.8431 (93) 0.0000 -0.6671 (93) 0.0000 -0.7205 (93) 0.0000
0.7321 (93) 0.0000 0.7803 (93) 0.0000 0.8451 (93) 0.0000 0.7325 (93) 0.0000 0.8671 (93) 0.0000
0.5509 (93) 0.0000 0.7388 (93) 0.0000 0.4869 (93) 0.0000 0.6444 (93) 0.0000
Le tableau affiche les coefficients de corrlation de chacune des paires de variables, le nombre dobservations utilises pour obtenir cette estimation et une valeur de probabilit. Un coefficient de corrlation r est un nombre, compris entre -1 et +1, qui mesure la force de la relation linaire entre deux variables. Plus la corrlation est proche de -1 ou de + 1, plus la relation est forte. Le signe de la corrlation indique le sens de la relation. Une valeur positive indique que Y augmente lorsque X augmente. Une valeur ngative indique que Y diminue lorsque X augmente. Pour dterminer si deux variables sont significativement lies lune lautre, une valeur de probabilit est calcule pour chaque coefficient de corrlation. Toute paire de variables pour laquelle la valeur de la probabilit est infrieure 0,05 indique une corrlation linaire significative au niveau de signification de 5%. 209/ Mthodes de rgression
La ligne du haut indique la corrlation entre MPG City et les 6 variables prdictrices. La plus forte corrlation est avec Weight et vaut 0,8431. Le signe ngatif indique que lorsque Weight augmente, MPG City diminue, ce qui nest pas surprenant.
Weight +
Dans lquation ci-dessus, 1 est la pente de la droite en nombre de miles par gallon et par livre, alors que o est la valeur lorigine. Pour ajuster ce modle : 1. Dans le menu classique, slectionner Relier Un facteur Rgression sim ple. 2. Dans le menu Six Sigma, slectionner Innover Rgression Un facteur Rgression simple. La bote de dialogue dentre des donnes doit tre renseigne comme montr ci-dessous :
Figure 13-5. Bote de dialogue dentre des donnes pour la rgression simple
La fentre danalyse initiale comporte quatre sous-fentres donnant des informations sur le modle ajust et les rsidus :
Ordonne Pente
Analyse de variance Source Somme des carrs Modle 2065.52 Rsidu 840.051 Total (Corr.) 2905.57
Ddl 1 91 92
F 223.75
Probabilit 0.0000
Coefficient de corrlation = -0.843139 R-carr = 71.0883 % R-carr (ajust pour les ddl) = 70.7705 % Estimation de l'cart-type du rsidu = 3.03831 Erreur absolue moyenne = 1.99274 Test de Durbin-Watson = 1.64586 (P=0.0405) Autocorrlation rsiduelle d'ordre 1 = 0.176433
Parmi les nombreuses statistiques dans ce tableau, les statistiques suivantes sont les plus importantes : 1. Coefficients : les coefficients estims du modle. Le modle ajust qui peut tre utilis pour faire des prvisions est : MPG City = 47,0484 0,00803239Weight 2. R-carr : le pourcentage de la variabilit de Y qui a t explique par le modle. Dans notre cas, une rgression linaire par rapport Weight explique environ 71,1% de la variabilit de MPG City. 3. Valeur de la probabilit : teste lhypothse nulle que le modle ajust nest pas meilleur quun modle nincluant pas Weight. Une valeur de probabilit infrieure 0,05, comme dans cet exemple, indique que Weight est une variable prdictrice utile pour MPG City. Le graphique en haut droite de la fentre danalyse affiche le modle ajust : 212/ Mthodes de rgression
Le graphique affiche la droite de rgression des moindres carrs et deux jeux de limites. Les limites internes donnent des intervalles de confiance 95% pour la valeur moyenne de Y. Elles indiquent la qualit de lestimation de la position de la droite, sachant que la relation est linaire. Plus la taille de lchantillon est grande, plus les limites sont serres. Les limites externes donnent des intervalles de prvision 95% pour de nouvelles observations. Il est estim que 95% de nouvelles observations, similaires celles de lchantillon, seront entre ces limites. Il est intressant de noter que 3 observations ayant de faibles valeurs de Weight sont bien au-del des limites de prvision 95%. Cela peut indiquer soit des points extrmes, soit un modle ne prenant pas en compte la non linarit de la relation entre MPG City et Weight.
slectionner Comparaison de modles alternatifs dans la bote de dialogue Tableaux et graphiques. Cela permet dajuster tous les modles possibles et de les lister dans lordre dcroissant des R -carrs :
Comparaison des modles alternatifs Modle Corrlation Courbe en S 0.9016 Rciproque Y, racine carre X 0.8995 Rciproque Y, log X 0.8995 Racine carre Y, rciproque X 0.8988 Multiplicatif -0.8981 Rciproque Y 0.8969 Log Y, racine carre X -0.8919 Rciproque double -0.8896 Rciproque X 0.8888 Racine carre Y, log X -0.8879 Rciproque Y, X carr 0.8852 Exponentiel -0.8833 Racine carre Y et X -0.8784 Log X -0.8705 Racine carre Y -0.8668 Log Y, X carr -0.8611 Racine carre X -0.8577 Y carr, rciproque X 0.8472 Linaire -0.8431 Racine carre Y, X carr -0.8393 Y carr, log X -0.8146 X carr -0.8106 Y carr, racine carre X -0.7957 Y carr -0.7758 Y carr, X carr -0.7346 Logistique <pas d'ajustement> Log probit <pas d'ajustement> R-carr 81.29% 80.92% 80.90% 80.78% 80.65% 80.44% 79.54% 79.14% 79.00% 78.83% 78.35% 78.03% 77.16% 75.78% 75.14% 74.15% 73.56% 71.77% 71.09% 70.44% 66.35% 65.71% 63.31% 60.18% 53.96%
Les modles en haut de la liste expliquent un grand pourcentage de la variabilit de la variable de rponse. Le R-carr nest quun des critres pouvant tre utilis pour aider choisir un modle. Des modles ayant des R-carrs un peu infrieurs celui du modle en tte de liste peuvent tre prfrs sils ont plus de sens par rapport au contexte des donnes. Dans notre exemple, un modle attractif pas trop loign du haut de la liste est le modle Rciproque Y. Ce modle a la forme suivante :
1 = MPGCity
Weight +
Linverse des nombres de miles par gallon (nombres de gallons par mile) est exprim comme une fonction linaire de Weight. Il nest pas rare que des transformations de Y, X ou des deux conduisent de meilleurs modles. Pour ajuster un modle Rciproque Y, cliquer sur le bouton Options danalyse et slectionner Rciproque Y dans la bote de dialogue. Lajustement qui en rsulte est montr ci-dessous :
Bien que linaire par rapport linverse de MPG City, le modle est non linaire dans la mtrique dorigine. A noter galement que les limites de prvision pour Weight deviennent plus larges lorsque les valeurs prvues deviennent plus grandes. Cela est raisonnable pour nos donnes, car cela indique quil y a plus de variabilit dans les vhicules lgers que dans les vhicules lourds.
En utilisant les Options pour la fentre, il est possible de choisir un graphique des rsidus ou un graphique des rsidus studentiss. Les rsidus studentiss sont calculs comme les rsidus ordinaires dfinis ci-dessus diviss par leurs erreurs-types estimes. Un rsidu studentis indique donc de combien derreurs-types un point est loign du modle.
STATGRAPHICS Centurion XVI calcule les rsidus studentiss aprs suppression. Ces rsidus sont calculs en retirant une observation la fois, en rajustant le modle et en dterminant de combien derreurs-types le point retir est du nouveau modle ajust. Cela permet de diminuer limpact dun point extrme sur le modle lorsque son rsidu est calcul. Loption Rsidus non usuels dans la bote de dialogue Tableaux et graphiques affiche les rsidus studentiss qui sont suprieurs 2 en valeurs absolues :
Rsidus non usuels Ligne X Y 5 36 42 57 91 3640.0 3735.0 2350.0 2895.0 2810.0 22.0 15.0 42.0 17.0 18.0 Y prvu 18.0808 17.6366 27.4778 22.5306 23.1816 Rsidu 3.91924 -2.63658 14.5222 -5.53064 -5.18157 Rsidu studentis -2.38 2.41 -3.11 3.60 3.04
Les rsidus studentiss suprieurs 3, comme par exemple celui de la ligne n 57, sont de potentiels points extrmes qui semblent ne pas appartenir au reste des donnes. La ligne n 57 correspond au vhicule Mazda RX-7 qui ne fait que 17 miles par gallon pour une conduite en ville alors que le modle en prvoit 22,5. Comme le prochain paragraphe ajoute des variables supplmentaires au modle qui peuvent amliorer sa capacit de prvision pour des telles voitures sportives, la ligne n 57 ne sera pas exclue de lajustement mme si elle demande une attention particulire.
Figure 13-13. Bote de dialogue dentre des donnes pour la rgression multiple
Pour dbuter, les 6 variables prdictrices considres dans la procdure Analyse plusieurs variables discute prcdemment sont entres dans le modle comme variables explicatives. La variable expliquer est linverse de MPG City, cest--dire le nombre de gallons par mile. La bote de dialogue des Options danalyse saffiche alors puis celle des Tableaux et graphiques. Le rsum de cette analyse est affich ci-dessous :
Analyse de variance Source Somme des carrs Modle 0.00705967 Rsidu 0.001496 Total (Corr.) 0.00855567
Ddl 6 86 92
F 67.64
Probabilit 0.0000
R-carr = 82.5145 % R-carr (ajust pour les ddl) = 81.2946 % Estimation de l'cart-type du rsidu = 0.00417077 Erreur absolue moyenne = 0.00304978 Test de Durbin-Watson = 1.6264 (P=0.0306) Autocorrlation rsiduelle d'ordre 1 = 0.186005
A noter que le R-carr a augment pour atteindre 82,5%. Cependant, le modle est compliqu sans que cela ne soit ncessaire. En haut du tableau des rsultats figure une colonne de valeurs de probabilits. Chaque valeur de probabilit teste lhypothse que le coefficient correspondant de la variable est gal 0, sachant que toutes les autres variables sont dans le modle. Une valeur de probabilit suprieure 0,05 indique que la variable ne contribue pas significativement lajustement, en prsence de toutes les autres variables. En dehors de Weight, toutes les variables prdictrices ont des valeurs des probabilits au-dessus de 0,05. Cela indique quau moins une variable prdictrice peut tre retire du modle sans limpacter significativement. 219/ Mthodes de rgression
NOTE : Il serait faux ce point de dire que les 5 variables prdictrices qui ont des valeurs des probabilits suprieures 0,05 peuvent tre retires du modle. A cause de la forte multicolinarit des donnes, toutes les valeurs des probabilits peuvent tre modifies de faon importante mme si une seule variable est retire du modle. Une mthode utile pour simplifier le modle est la rgression pas pas. Dans la rgression pas pas, les variables sont ajoutes ou retires du modle de rgression une la fois, avec pour but lobtention dun modle ne contenant que des variables prdictrices significatives et nexcluant aucune variable utile. La rgression pas pas est disponible comme une option dans la bote de dialogue des Options danalyse :
Figure 13-15. Bote de dialogue des options danalyse pour la rgression multiple
Deux options pour la rgression pas pas sont proposes : 1. Slection ascendante commence avec un modle contenant uniquement une constante et ajoute les variables une la fois si elles amliorent de faon significative lajustement. 2. Slection descendante commence avec un modle contenant toutes les variables et les limine une la fois jusqu ce que seules les variables statistiquement significatives soient prsentes. 220/ Mthodes de rgression
Dans ces deux mthodes, des variables limines peuvent entrer nouveau dans le modle une tape ultrieure si elles apparaissent comme tant alors des variables prdictrices utiles. De mme des variables entres des tapes prcdentes peuvent tre limines si elles ne sont plus significatives. La mise en oeuvre dune slection descendante construit le modle suivant :
Rgression multiple - 1/MPG City
Variable expliquer: 1/MPG City Variables explicatives: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches) Paramtre CONSTANTE Horsepower Weight Estimation 0.0034427 0.0000260839 0.0000129513 Erreur type 0.00243602 0.0000124356 0.0000011041 T 1.41325 2.09752 11.7302 Probabilit 0.1610 0.0388 0.0000
Analyse de variance Source Somme des carrs Modle 0.00696044 Rsidu 0.00159524 Total (Corr.) 0.00855567
Ddl 2 90 92
F 196.35
Probabilit 0.0000
R-carr = 81.3546 % R-carr (ajust pour les ddl) = 80.9403 % Estimation de l'cart-type du rsidu = 0.00421009 Erreur absolue moyenne = 0.00313061 Test de Durbin-Watson = 1.62892 (P=0.0338) Autocorrlation rsiduelle d'ordre 1 = 0.184113
Figure 13-16. Rsum de lanalyse pour la rgression multiple aprs slection descendante
Seules deux variables sont dans le modle : Horsepower et Weight. Ces deux variables ont des valeurs des probabilits infrieures 0,05. Une fois lquation mathmatique du modle trouve, il est intressant de visualiser graphiquement cette quation. Lorsque le modle contient deux variables prdictrices, lquation reprsente une surface 3 dimensions, habituellement appele surface de rponse. Dans ce cas, lquation du modle ajust est un plan, puisque Horsepower et Weight sont entres dans un modle linaire. 221/ Mthodes de rgression
Pour visualiser le modle, vous pouvez utiliser la procdure graphique Surface de rponse en copiant la fonction visualiser et en dfinissant vos titres et chelles via : 1. le menu classique, slectionner Graphique Surface de rponse. 2. le menu Six Sigma, slectionner Outils Surface de rponse. Dans la bote de dialogue dentre des donnes, entrer lquation du modle, en exprimant les deux variables prdictrices comme X et Y. La faon la plus simple pour le faire est de copier lquation gnre par la procdure de Rgression multiple, en transformant Horsepower en X et Weight en Y :
Figure 13-17 Bote de dialogue dentre des donnes pour la procdure Surface de rponse
Les chelles en X et en Y doivent galement tre modifies pour reprsenter les donnes utilises dans le modle ajust. Aprs avoir cliqu sur le bouton OK, la bote de dialogue Tableaux et graphiques saffiche. En cliquant nouveau sur le bouton OK, un graphique en surface de rponse est obtenu. La forme initiale du graphique est une surface maille : 222/ Mthodes de rgression
Vous pouvez amliorer le graphique en : Slectionnant les Options graphiques dans la barre des outils danalyse et en modifiant les libells et les chelles via les onglets Titre principal, Axe des X, Axe des Y et Axe des Z. En particulier : Changer le titre de laxe des X en Horsepower. Changer le titre de laxe des Y en Weight Changer lchelle de laxe des Y pour aller de 1500 4500 par 1000. Changer le titre de laxe des Z en 1/MPG City. Slectionnant les Options pour la fentre et en modifiant le type de graphique affich :
Dans la bote de dialogue ci-dessous, le Type est Contours et le champ Contours est Continu. Le graphique final est montr ci-aprs. Les automobiles qui consomment le plus sont dans le coin arrire droit du graphique : gros vhicules avec gros moteurs.
14
Didacticiel n 5 : Analyse de donnes qualitatives
Tri plat, tableau de contingence et analyse de Pareto.
Chacun des quatre premiers didacticiels a utilis des donnes quantitatives avec des observations reprsentes par des nombres mesurs sur des chelles continues. Ce didacticiel examine un jeu de donnes qualitatives, dans lequel chaque observation est une modalit ou catgorie dune variable de type attribut, plutt que des mesures. Comme exemple, considrons les donnes contenues dans le fichier defects.sgd. Une partie de ce fichier est montre ci-dessous : Defect Misaligned Contaminated Contaminated Contaminated Missing parts Misaligned Contaminated Leaking Damaged Contaminated Facility Virginia Texas Virginia Texas Texas Virginia Texas Texas Virginia Texas
Chapitre
Les donnes sont constitues de n = 120 lignes, chacune correspondant un dfaut observ sur une pice manufacture. Le fichier indique galement le type de dfaut et lusine qui a produit la pice.
Figure 14-1. Bote de dialogue dentre des donnes pour le tri plat
Cette procdure analyse la colonne et identifie chaque valeur unique. La bote de dialogue Tableaux et graphiques saffiche puis une fentre danalyse similaire celle montre ci-aprs :
La fentre en haut gauche indique que 9 valeurs uniques ont t trouves dans les n = 120 lignes. Le diagramme en btons et le diagramme circulaire droite donnent les effectifs de chaque type de dfaut, effectifs galement affichs dans le tableau en bas gauche. Le type de dfaut le plus courant est Contaminated , qui reprsente environ 44% de tous les dfauts.
La bote de dialogue dentre des donnes doit tre renseigne comme montr ci-dessous :
Figure 14-3. Bote de dialogue dentre des donnes pour lanalyse de Pareto
LAnalyse de Pareto accepte des donnes sous deux formats : 1. Donnes non tabules qui doivent tre comptes, comme dans notre exemple. 2. Donnes tabules, cest--dire des comptages par type de dfaut. Cela est applicable si vous avez deux colonnes, une identifiant les types des dfauts et une contenant les nombres de fois o chaque dfaut est apparu. La fentre danalyse affiche un tableau rsum et un diagramme de Pareto :
Le diagramme de Pareto affich droite est particulirement intressant. Il affiche les effectifs de chaque type de dfaut dans lordre du plus frquent au moins frquent. Initialement les libells des barres se superposent cause du nombre et de la longueur des libells. Cela peut tre corrig en : 1. Double-cliquant dans le graphique pour maximiser la sous-fentre dans la fentre danalyse. 2. Choisissant les Options graphiques dans la barre des outils danalyse, en cliquant sur longlet Axe des X et en cochant la case Rotation des libells. 3. Aprs avoir quitt la bote de dialogue des Options graphiques, les libells peuvent ne pas safficher compltement lcran. Si cest le cas, vous pouvez les dplacer en cliquant et en maintenant le bouton de la souris appuy, ou vous pouvez dplacer vers le haut laxe des X pour rduire la taille de laxe vertical. Lorsque vous avez termin, le diagramme de Pareto doit ressembler celui montr ci-aprs : 231/ Analyse de donnes qualitatives
Les barres verticales dans le diagramme de Pareto sont traces avec des hauteurs proportionnelles aux nombres de fois o chaque dfaut est survenu. La ligne au-dessus des barres est un comptage cumul de la gauche vers la droite. Au-dessus de chaque barre est affich le pourcentage des dfauts survenus dans la classe et dans les classes prcdentes gauche. Le principe de base de lanalyse de Pareto est quune majorit des dfauts provient dun petit nombre de causes possibles. Dans notre cas, il y a 3 types de dfauts frquents qui reprsentent plus de 80% de tous les dfauts.
2. Si vous utilisez le menu Six Sigma, slectionner Analyser Attributs Plusieurs facteurs Tri crois. La bote de dialogue dentre des donnes demande les noms de deux colonnes, lune dfinissant les lignes pour le tri crois ou tableau de contingence et lautre dfinissant les colonnes :
Figure 14-6. Bote de dialogue dentre des donnes pour le tri crois
Aprs affichage des botes de dialogue Options danalyse et Tableaux et graphiques, la fentre danalyse suivante apparat :
Le tableau en bas gauche affiche les comptages par type de dfaut et par usine :
Tableau des effectifs pour Defect par Facility Texas Virginia Total en ligne Contaminated 36 17 53 30.00% 14.17% 44.17% Damaged 10 6 16 8.33% 5.00% 13.33% Leaking 2 1 3 1.67% 0.83% 2.50% Misaligned 8 20 28 6.67% 16.67% 23.33% Misshapen 0 3 3 0.00% 2.50% 2.50% Missing parts 2 1 3 1.67% 0.83% 2.50% Poor color 6 2 8 5.00% 1.67% 6.67% Rusted 2 3 5 1.67% 2.50% 4.17% Wrong size 1 0 1 0.83% 0.00% 0.83% Total en colonne 67 53 120 55.83% 44.17% 100.00% Contenu des cellules: Effectif observ Pourcentage du tableau
Comme affich initialement, chaque cellule du tableau indique le nombre dobservations dans le fichier de donnes qui correspondent une combinaison particulire de la ligne et de la colonne du tableau. Il indique galement le pourcentage de lensemble du tableau reprsent par cette cellule. Par exemple, il y a 36 pices Contaminated produites par lusine au Texas, ce qui reprsente 30% de lensemble des pices dfectueuses de lchantillon. Les Options pour la fentre vous permettent de slectionner dautres lments afficher dans chaque cellule :
Figure 14-9 Bote de dialogue des options pour la fentre pour le tri crois
Un choix intressant pour nos donnes est Pourcentages en lignes plutt que Pourcentages du tableau :
Tableau des effectifs pour Defect par Facility Texas Virginia Total en ligne Contaminated 36 17 53 67.92% 32.08% 44.17% Damaged 10 6 16 62.50% 37.50% 13.33% Leaking 2 1 3 66.67% 33.33% 2.50% Misaligned 8 20 28 28.57% 71.43% 23.33% Misshapen 0 3 3 0.00% 100.00% 2.50% Missing parts 2 1 3 66.67% 33.33% 2.50% Poor color 6 2 8 75.00% 25.00% 6.67% Rusted 2 3 5 40.00% 60.00% 4.17% Wrong size 1 0 1 100.00% 0.00% 0.83% Total en colonne 67 53 120 55.83% 44.17% 100.00% Contenu des cellules: Effectif observ Pourcentage en ligne
Le pourcentage affich indique maintenant le pourcentage reprsent par chaque cellule dans sa ligne. Par exemple, 67,92% de toutes les pices Contaminated ont t produites au Texas, alors que 71,43% de toutes les pices Misaligned lont t en Virginie. Cela indique que certains types de dfauts surviennent plus frquemment dans certaines usines, une hypothse qui sera teste formellement dans le prochain paragraphe. Diffrents graphiques proposs sont galement utiles. Par exemple, le diagramme en btons affiche les donnes par rapport au type de dfaut et lusine :
La diffrence entre les deux usines est visible. Un autre graphique, appel Graphique en mosaque, est galement informatif :
Dans ce graphique, la hauteur de chaque barre est proportionnelle au nombre total de dfauts pour chaque type. La largeur de chaque barre est proportionnelle au pourcentage relatif de chaque dfaut dans chaque usine. En consquence, la surface totale de chaque rectangle est proportionnelle leffectif de la cellule correspondante dans le tableau deux entres. Si cela est dsir, les effectifs des cellules peuvent galement tre visualiss en trois dimensions en slectionnant Diagramme en barres 3D dans la bote de dialogue Tableaux et graphiques :
Dans un Diagramme en barres 3D, la hauteur de chaque barre reprsente leffectif dune cellule du tableau de contingence.
Hypothse nulle : les lignes et les colonnes sont indpendantes. Hypothse alternative : les lignes et les colonnes ne sont pas indpendantes. Lindpendance implique que le type de dfaut trouv sur une pice na rien voir avec lusine qui a fabriqu la pice. Pour le test du Khi-carr, une petite valeur de probabilit indique que les lignes et les colonnes ne sont pas indpendantes. Dans notre cas, la valeur de la probabilit est infrieure 0,05, indiquant quau niveau de signification de 5% la distribution des types de dfauts pour lusine du Texas est diffrente de celle pour lusine de Virginie. Une mise en garde est toutefois affiche, car certaines cellules dans le tableau deux entres ont des comptages infrieurs 5. (Techniquement cette mise en garde saffiche si le comptage attendu dans une cellule quelconque est infrieur 5 en supposant que lhypothse nulle est vraie). Avec de petits comptages dans certaines cellules, la valeur de la probabilit nest pas fiable. Une solution ce problme consiste regrouper les types de dfauts peu frquents dans une unique catgorie puis refaire le test. Cela est fait aisment dans STATGRAPHICS Centurion XVI de la faon suivante : 1. Revenir dans le tableur et cliquer sur len-tte de la colonne Defects pour la slectionner. 2. Cliquer sur le bouton droit de la souris et slectionner Recoder des donnes dans le menu popup. 3. Renseigner la bote de dialogue Recoder des donnes comme montr ci-aprs pour combiner les types de dfauts les moins frquents dans une catgorie appele Other :
Les entres dans la bote de dialogue Recoder des donnes indiquent au logiciel de rechercher les valeurs dans la colonne Defects appartenant chaque intervalle. Tout libell compris alphabtiquement entre les limites prcises pour une ligne donne prend la valeur indique dans la colonne Nouvelle valeur. Aprs avoir fait cette opration de recodification, revenir la fentre de lanalyse Tri crois. Suite aux modifications effectues dans le tableur, lanalyse a t automatiquement mise jour. La nouvelle catgorie Other a un comptage raisonnablement lev, comme montr dans le nouveau Graphique en mosaque :
Aprs cette recodification, le test du Khi-carr indique toujours une diffrence statistiquement significative entre les usines du Texas et de Virginie :
Tests d'indpendance Test Statistique Khi-carr 11.874 Ddl 3 Probabilit 0.0078
Le StatAdvisor Ce tableau affiche les rsultats d'un test d'hypothse effectu pour dterminer si on doit ou non rejeter l'ide que les lignes et les colonnes sont indpendantes. Comme la valeur de la probabilit est infrieure 0.05, on peut rejeter l'hypothse que les lignes et les colonnes sont indpendantes au niveau de confiance de 95.0%. Ainsi, la valeur observe de Defect pour une observation donne est lie sa valeur pour Facility.
Il apparat alors que le type de dfaut est bien reli lusine dans laquelle la pice a t produite. Il doit tre not que le test ci-dessus compare la distribution des types de dfauts entre les deux usines. Il ne compare pas les nombres ou les pourcentages de pices dfectueuses dans chaque usine. Une telle comparaison requiert un autre test, comme expliqu dans le paragraphe suivant. 242/ Analyse de donnes qualitatives
Soit 1 la proportion de pices dfectueuses produites au Texas et 2 la proportion de pices dfectueuses produites en Virginie. Les proportions estimes sont donnes par :
67 6237 0, 0107 53 7343 0, 0072
En se basant sur ces donnes, il apparat que le pourcentage de pices dfectueuses fabriques au Texas est suprieur au pourcentage de pices dfectueuses fabriques en Virginie. Pour dterminer si cette diffrence apparente est statistiquement significative, crons un tableur comme montr ci-dessous :
Les lignes contiennent les comptages des pices dfectueuses et non dfectueuses. Slectionnons Tableau de contingence dans le mme menu que Tri crois. Renseignons la bote de dialogue comme montr ci-aprs :
Figure 14-19. Bote de dialogue dentre des donnes pour lanalyse Tableau de contingence
Il faut se rappeler que le test du Khi-carr dtermine si les lignes et les colonnes sont indpendantes ou non. Dans notre cas, lindpendance impliquerait que le fait quune pice soit dfectueuse ou non na pas de lien avec lusine qui la produite. Comme la valeur de la probabilit dans le tableau ci-dessus est infrieure 0,05, lhypothse dindpendance est rejete au niveau de signification de 5%. Il est donc possible den conclure que les proportions de pices dfectueuses des deux usines sont significativement diffrentes.
15
Didacticiel n 6 : Analyse daptitude dun procd
Calculer le DPM ou le pourcentage au-del des limites des spcifications.
STATGRAPHICS Centurion XVI est largement utilis par des personnes dont le mtier est de sassurer que les produits ou les services quils fournissent est de la plus haute qualit. Un travail courant dans ce cadre est la collecte de donnes issues du procd et la comparaison des limites de spcifications tablies. Le rsultat de ce type danalyse daptitude est une estimation de la capacit du procd satisfaire ces spcifications. Le Six Sigma, mthodologie trs utilise pour atteindre un niveau de qualit de classe mondiale, cible un taux de dfauts de 3,4 dfauts par million dopportunits. Comme exemple, considrons un produit dont la solidit requise est comprise entre 190 et 230 psi (pound force per square inch). Supposons que n = 100 chantillons soient prlevs durant la fabrication et que les forces soient mesures, comme montr dans le tableau ci-dessous : 213.5 207.0 205.8 197.4 202.8 205.5 195.7 196.7 201.5 199.5 203.3 200.4 200.3 194.8 201.6 203.0 229.5 216.0 200.0 195.5 191.3 197.2 196.1 201.0 197.4 208.1 199.9 211.6 211.8 201.0 197.1 202.4 205.9 202.5 200.9 200.2 208.1 208.7 195.6 206.0 205.7 205.2 195.1 199.0 203.3 218.2 210.3 199.4 201.9 215.3 215.6 211.0 203.9 200.7 209.4 202.0 202.0 200.8 199.0 202.6 193.7 214.5 192.9 197.6 201.4 209.3 202.6 201.1 200.3 199.9 201.7 201.5 199.0 198.5 199.5 201.2 213.6 195.3 197.8 200.6 201.5 200.9 195.5 205.3 207.8 200.4 198.0 206.8 200.8 197.6 207.1 206.8 203.1 197.1 204.9 201.0 197.8 211.3 194.8 207.4
Chapitre
Ce chapitre dcrit comment mettre en oeuvre une analyse daptitude pour ce type de donnes mesures.
Plusieurs rsultats intressants sont immdiatement visibles : 246/ Analyse daptitude dun procd
1. Les donnes sont toutes comprises entre les limites des spcifications, mais tout juste, et stendent de 191,3 229,5. 2. La bote moustaches met en vidence un point trs loign (un petit carr avec un signe plus rouge lintrieur). De tels points sont souvent considrs comme des points extrmes, si le reste des donnes semble issu dune loi normale. Dans notre cas, toutefois, mme en ne prenant pas en compte ce point apparemment extrme, la forme de la bote nest pas trs symtrique. La moustache droite est plus longue que celle gauche et la bote stend plus au-dessus de la mdiane (la ligne verticale dans la bote) quau-dessous. 3. Si on maximise la fentre Statistiques rsumes, on visualise que lasymtrie standardise est gale 4,94. Si les donnes taient issues dune loi normale, cette valeur devrait tre comprise entre -2 et +2. Mme en liminant la plus grande valeur des donnes, lasymtrie standardise reste gale 2,81. Un histogramme deffectifs peut galement tre affich en cliquant sur licne Tableaux et graphiques dans la barre des outils danalyse et en slectionnant Histogramme deffectifs dans la liste :
Les donnes affichent clairement une asymtrie positive, stendant plus loin droite du pic qu gauche du pic. Des donnes non normales comme celles de notre exemple sont frquemment rencontres. Une approche classique pour travailler avec de telles donnes consiste souvant ignorer la non normalit et calculer des indices comme le C pk en utilisant des formules pour des donnes issues dune loi normale. Comme cela sera vu dans ce didacticiel, ignorer la non normalit peut conduire des rsultats faux qui surestiment ou sous-estiment de faon significative le pourcentage de produits au-del des limites des spcifications.
Figure 15-3. Bote de dialogue dentre des donnes pour lanalyse daptitude dun procd
Les limites des spcifications haute et basse ont t indiques ainsi quune valeur nominale ou cible. Aprs avoir cliqu sur OK, les botes de dialogue Options danalyse et Tableaux et graphiques saffichent. Les options par dfaut sont utilises pour ce didacticiel. La fentre danalyse initiale affiche un rsum des donnes, un tableau dindices daptitude et un graphique daptitude :
Lorsque lanalyse daptitude est mise en oeuvre la premire fois, une loi normale est ajuste aux donnes. Le Graphique daptitude affiche un histogramme des donnes ainsi que la courbe du meilleur ajustement par une loi normale :
Les grandes lignes verticales dans le graphique indiquent les positions des limites des spcifications et de la valeur nominale. Les petites lignes verticales sont localises la moyenne plus ou moins 3 carts-types. Les lments particulirement intressants dans ce graphique sont : 1. La loi normale ajuste ne sajuste pas trs bien aux donnes. Bien que la courbe en cloche possde la mme moyenne et le mme cart-type que les donnes, lasymtrie dans les donnes fait que la courbe najuste pas bien les barres de lhistogramme. 2. La moyenne de lchantillon est localise 202,8, ce qui est plus faible que la valeur nominale de 210. 3. Bien quaucune des observations ne soit infrieure la limite basse des spcifications, une quantit non ngligeable de la queue infrieure de la loi normale est au -dessous de cette limite. 4. Les lignes plus ou moins 3 carts-types ne sont pas trop distantes pour pouvoir sinsrer lintrieur des limites des spcifications mais elles sont dcales vers la gauche. Le Rsum de lanalyse dans la fentre en haut gauche quantifie cet ajustement :
La partie basse du tableau est particulirement intressante car elle estime le pourcentage des produits qui sont en dehors des spcifications. En se basant sur la loi normale ajuste, le pourcentage estim de produits en dehors des spcifications est denviron 2%, ce qui correspond 20.021 dfauts par million (DPM).
En fonction des prfrences dfinies dans votre logiciel, un ou plusieurs tests de normalit saffichent. Chacun des tests disponibles est bas sur les hypothses suivantes : 252/ Analyse daptitude dun procd
Hypothse nulle : les donnes sont issues dune loi normale. Hypothse alternative : les donnes ne sont pas issues dune loi normale. Une valeur de probabilit en dessous de 0,05 conduit au rejet de lhypothse de normalit au niveau de signification de 5%. Dans le tableau ci-dessus, le test de Shapiro-Wilks permet de rejeter lhypothse que les donnes sont issues dune loi normale. Ainsi, toutes les valeurs estimes du DPM ou des indices daptitude bases sur cette hypothse de normalit sont errones. Lorsque les donnes ne sont pas normales, deux approches sont possibles : 1. Slectionner une autre loi que la loi normale pour faire lanalyse. 2. Transformer les donnes pour que les donnes transformes suivent une loi normale. Pour aider slectionner une autre loi, STATGRAPHICS Centurion XVI possde une option appele Comparaison des lois alternatives dans la bote de dialogue Tableaux et graphiques. Cette option ajuste plusieurs autres lois et liste ces lois dans lordre de qualit dajustement. En utilisant la slection par dfaut des lois, le tableau suivant saffiche :
Comparaison des lois alternatives Loi Nb. paramtres estims Plus grande valeur 2 extrme Log-logistique 2 Logistique 2 Log-normale 2 Laplace 2 Gamma 2 Normale 2 Weibull 2 Plus petite valeur 2 extrme Exponentielle 1 Pareto 1 KS D 0.0675422 0.0913779 0.0941708 0.13213 0.0920985 0.134136 0.138628 0.177886 0.189989 0.61064 0.628084 A^2 0.372613 1.15081 1.27599 1.66564 1.68399 1.73401 1.90094 5.67166 6.28546 43.3327 45.3859
Les lois ont t listes en fonction des valeurs de la statistique de qualit dajustement de Kolmogorov-Smirnov, qui mesure la distance maximale entre la fonction de rpartition des donnes et celle de la loi ajuste. Dans notre cas, la loi donnant le meilleur ajustement est la loi de la Plus grande valeur extrme. Vous pouvez choisir cette loi en accdant aux Options danalyse :
Figure 15-9. Bote de dialogue des options danalyse pour lanalyse daptitude dun procd
A noter que la loi est asymtrique droite et que de ce fait elle ajuste mieux les donnes observes que la loi normale. Les petites lignes verticales ont t positionnes des limites quivalentes 3 carts-types, cest--dire des limites contenant 99,73% de la loi ajuste comme cest le cas pour la moyenne plus ou moins 3 carts-types dans le cas dune loi normale. A noter que ces limites ne sont pas symtriques par rapport au pic de la loi cause de son asymtrie positive. Le Rsum de lanalyse affiche une importante diffrence dans le pourcentage estim de produits hors spcifications, en comparaison avec la loi normale prcdemment ajuste :
Figure 15-11. Rsum de lanalyse aprs ajustement par la loi de la plus grande v aleur extrme
Le pourcentage estim en dehors des spcifications est maintenant de 0,23 % seulement ou de 2.256 DPM, un dixime de celui obtenu avec la loi normale. Dans ce cas, supposer par erreur une loi normale fait apparatre le procd comme beaucoup moins bon quil nest en ralit. NOTE : En fonction des limites des spcifications et de la vraie loi sous-jacente, supposer par erreur une loi normale peut faire apparatre le procd comme significativement moins bon ou meilleur quil nest en ralit. Une alternative la slection dune autre loi de probabilits consiste transformer les donnes. La bote de dialogue des Options danalyse offre un ensemble de possibilits de Transformation :
Figure 15-12. Bote de dialogue des options danalyse pour slectionner une transformation
Parmi les choix proposs, on trouve le logarithme naturel, llvation de chaque valeur une puissance donne ou la slection dune transformation par les mthodes de Box et Cox. Cette dernire approche considre un ensemble de transformations de la forme Yp en utilisant les mthodes de Box et Cox et slectionne une valeur optimale pour p. Si une transformation est slectionne, une loi normale est ajuste aux donnes transformes. Le graphique ci-aprs affiche les rsultats de lapproche Box-Cox :
Pour le graphique, une transformation inverse a t applique pour afficher lajustement dans la mtrique dorigine. La transformation a eu un effet similaire sur la forme de la loi, mais toutefois moins important que celui de la loi de la plus grande valeur extrme. Le DPM estim est de 4.353, ce qui est peu prs le double de celui obtenu avec la loi de la plus grande valeur extrme, mais malgr tout beaucoup plus petit que celui obtenu en supposant une loi normale. NOTE : la moyenne et lcart-type affichs dans le graphique correspondent aux donnes transformes et ne sont pas en gnral trs utiles. STATGRAPHICS convertit automatiquement tout dans les units dorigine.
Pour comparer les deux approches, un Graphique de normalit peut tre slectionn dans la bote de dialogue des Tableaux et graphiques pour chacune des approches et ces graphiques colls cte cte dans la StatGallery :
Si la loi suppose est correcte, les points doivent saligner le long de la ligne diagonale lorsquils sont affichs dans ce graphique. Les deux mthodes semblent prendre correctement en compte la non normalit, ce qui rend difficile le choix entre ces mthodes. Quelle que soit la mthode utilise, il est important de dfinir un protocole pour grer une variable donne (comme Strength) et dappliquer ce protocole chaque fois que de telles donnes sont analyses. Ce serait une erreur de refaire les analyses exploratoires dcrites dans ce chapitre chaque fois quun ensemble de donnes similaires a t collect. Au contraire, ce type danalyse doit tre fait une fois pour dterminer comment une variable slectionne doit tre analyse, puis lapproche slectionne doit tre utilise pour cette variable chaque fois quelle est nouveau analyse.
C pk
min
LSI LSS , 3 3
Plus simplement, le C pk est la distance entre la moyenne estime du procd et la plus proche des limites des spcifications, divise par 3 fois lcart-type estim du procd. La procdure dAnalyse daptitude dans STATGRAPHICS affiche les indices daptitude dans le Graphique daptitude ainsi que dans le tableau Indices daptitude. Si la loi normale est utilise, des indices court-terme et long-terme sont calculs :
Indices d'aptitude pour Strength Spcifications LSS = 230.0 Nominal = 210.0 LSI = 190.0 Long-terme Performance Ecart-type 6.23781 Cp/Pp 1.06875 Cpk/Ppk 0.684481 Cpk/Ppk (sup.) 1.45302 Cpk/Ppk (inf.) 0.684481 Cpm 0.698308 K -0.35955 DPM 13020.9 20021.2 Niveau de qualit Sigma 3.72559 3.55332 Bas sur des limites 6.0 carts-types. L'cart-type court-terme a t estim partir de la moyenne des tendues mobiles. Le niveau de qualit Sigma inclut une drive de la moyenne de 1.5 cart(s)-type(s). Intervalles de confiance 95.0% Indice Limite infrieure Limite suprieure Cp 0.997149 1.31931 Pp 0.920008 1.21725 Cpk 0.619618 0.864129 Ppk 0.568904 0.800059 Cpm 0.61885 0.777645 Court-terme Aptitude 5.75525 1.15836 0.741874 1.57485 0.741874
Les indices court-terme, qui sont calculs en utilisant une estimation de lcart-type obtenue partir dobservations temporellement proches, indique ce que le procd est apte (capable de) faire si la moyenne reste constante.
Les indices long-terme, qui sont calculs en utilisant une estimation de lcart-type obtenue partir de la variabilit totale des observations sur toute la priode dchantillonnage, indique ce qua t la performance du procd. Un procd hors contrle dont la moyenne est fortement instable durant la priode de collecte des donnes peut afficher une performance beaucoup moins bonne que celle quil serait apte raliser si le procd tait sous contrle. Par dfaut, STATGRAPHICS Centurion XVI donne des libells aux indices daptitude commenant par la lettre C et aux indices de performance des libells commenant par la lettre P . Longlet Aptitudes de la bote de dialogue Prfrences, accessible par Editer dans le menu principal de STATGRAPHICS, permet de prciser les indices calculer par dfaut, ainsi que dautres importantes options :
La partie gauche de la bote de dialogue liste les indices qui peuvent tre calculs. En plus du C pk, les indices disponibles sont :
Cet indice calcule le rapport de la distance entre les limites des spcifications sur la distance reprsente par six carts-types. C p est toujours suprieur ou gal C pk. Une diffrence sensible entre ces deux indices apparat lorsque le procd nest pas bien centr. 2. K une mesure du dcentrage du procd. K est calcul de la faon suivante :
K NOM ( LSS LSI ) / 2
o NO M est la valeur nominale ou cible. Une valeur de K proche de 0 indique un procd bien centr. 3. Niveau de Qualit Sigma un indice utilis pour le Six Sigma pour indiquer le niveau de qualit associ un procd. Un Niveau de Qualit Sigma de 6 est habituellement associ un taux de dfauts de 3,4 par million. La bote de dialogue Prfrences permet galement de dfinir les indices affichs dans le Graphique daptitude ainsi que les libells de ces indices. Une discussion dtaille de ces divers indices est disponible dans le document PDF intitul Analyse daptitude (Variables). En plus des indices daptitude, le tableau de la Figure 15.15 inclut des intervalles de confiance indiquant la marge derreur dans lestimation de ces indices. Par exemple, le tableau indique une valeur du C pk gale 0,74. Lintervalle de confiance 95% stend de 0,62 0,86. Cela indique que la vraie valeur du C pk du procd dont les donnes chantillonnes proviennent est comprise entre 0,62 et 0,86. Lorsque les donnes ne suivent pas une loi normale, les indices daptitude doivent tre modifis. Loption par dfaut dans la bote de dialogue Prfrences calcule des indices non normaux en valuant en premier des scores Z quivalents pour la loi non normale ajuste. Pour une loi normale, le score Z mesure le nombre dcarts-types entre la moyenne du procd et une limite des spcifications et est directement reli la probabilit quune observation soit au-del de cette limite. 262/ Analyse daptitude dun procd
Pour une loi non normale, un score Z quivalent est en premier calcul en dterminant la probabilit de dpasser cette limite et en trouvant le score Z qui vaut cette probabilit. Aprs avoir calcul des scores Z quivalents pour la limite base et la limite haute des spcifications, le Cpk peut tre calcul partir de :
C pk min Zlss , Zlsi /3
NOTE : Bien que la bote de dialogue des Prfrences offre loption de calcul des indices daptitude partir des quantiles plutt que des scores Z quivalents, le faire ne permet plus davoir la relation usuelle entre indices daptitude et DPM.
Pour utiliser cette procdure : 1. Slectionner lun des boutons radio et entrer la valeur de la statistique correspondante. 2. Pour calculer des valeurs bases sur la limite la plus proche des spcifications uniquement, slectionner soit le bouton radio Limite infrieure uniquement, soit le bouton radio Limite suprieure uniquement. 3. Indiquer la valeur suppose du dcalage long-terme de la moyenne du procd. Pour le Six Sigma, ce dcalage de la moyenne du procd est habituellement suppos tre de 1,5 cart-type autour de sa valeur long-terme. 4. Cliquer sur le bouton Calculer pour afficher les valeurs associes des autres statistiques.
En supposant que la moyenne du procd ne se dcale pas, un C pk de 1,33 est quivalent environ 33 dfauts par million au-del de la limite la plus proche des spcifications.
16
Didacticiel n 7 : Plans dexpriences
Planifier des expriences pour aider amliorer un procd.
Toutes les donnes nont pas la mme valeur. Souvent, une petite tude bien planifie fournit plus dinformations quune importante tude mal labore. Ce dernier didacticiel examine quelques-unes des possibilits de STATGRAPHICS Centurion XVI pour crer et analyser des plans dexpriences. Considrons le cas dun ingnieur souhaitant dterminer les variables de son procd qui ont le plus grand impact sur le produit final. Il envisage dtudier limpact li aux variations de 5 facteurs : temprature, coulement, concentration, agitation et catalyseur. En pratique, ce problme peut tre trait de plusieurs faons, dont : 1. Essai et erreur : slection arbitraire dune combinaison des facteurs chaque fois quune exprience est effectue. Une telle approche donne rarement des rsultats intressants. 2. Un facteur la fois : maintien de tous les facteurs sauf un des niveaux constants pour dterminer leffet dun facteur. Cette approche est particulirement inefficace et peut tre trompeuse sil existe des interactions entre les facteurs. 3. Utiliser un plan dexpriences conu statistiquement : dfinition dune squence dexpriences mettre en oeuvre permettant dobtenir le plus dinformations possibles sur les facteurs et leurs interactions tout en ralisant le plus petit nombre possible dexpriences. Ce didacticiel dcrit comment btir un plan dexpriences en utilisant la troisime approche et comment les donnes rsultantes sont analyses. 267/ Plans dexpriences
Chapitre
Figure 16-1. Fentre principale de lassistant pour les plans dexpriences avec sa barre doutils 12 tapes
Les 7 premires tapes permettent dlaborer le plan dexpriences et sont mises en oeuvre avant que les expriences ne soient faites. Les 5 dernires tapes sont mises en oeuvre une fois les expriences ralises et permettent danalyser les rsultats collects.
Etape 1: Dfinir les rponses La premire tape dans la cration dun plan dexpriences consiste dfinir les rponses qui vont tre mesures lors de chaque essai exprimental. Cliquer sur le bouton 1) pour afficher la bote de dialogue suivante :
Dans cet exemple, il y a deux rponses : yield en grammes et strength en livres par pouces carrs (psi). Le but de lexprience est de maximiser yield tout en maintenant strength aussi proche que possible de 250. Les quatre colonnes les plus droite sont utilises pour quilibrer les exigences concernant les deux rponses, exigences qui peuvent tre contradictoires. Impact dfinit limportance de chaque rponse sur une chelle de 1 5, o 5 indique la plus grande importance. Les valeurs minimum et maximum dfinissent la plage dtude dsire pour chaque rponse et sensibilit indique limportance dtre proche de la position optimale dans cette plage. Dans cet exemple, strength est plus important que yield et ainsi il lui est donn un impact plus grand. La sensibilit des deux rponses est mise Moyen , ce qui indique que la dsirabilit de chaque rponse augmente de faon linaire dans la plage indique. 269/ Plans dexpriences
Etape 2 : Dfinir les facteurs exprimentaux Le bouton 2) est utilis pour entrer les informations concernant les facteurs exprimentaux qui vont varier durant lexprience. Elle affiche la bote de dialogue montre ci-dessous :
Dans cet exemple, 5 facteurs procd contrlables sont utiliss. Entrer le nom de chaque facteur, ses units et la plage dans laquelle il sera tudi. Tous les facteurs sont continus car ils peuvent prendre toute valeur entre les niveaux bas et haut indiqus. Etape 3: Slectionner le plan La troisime tape dans la cration du plan dexpriences consiste slectioner le type de plan mettre en oeuvre. En cliquant sur le bouton 3), une premire bote de dialogue saffiche : 270/ Plans dexpriences
Pour crer un plan pour les 5 facteurs procd, cliquer sur le bouton Options. Une liste des types de plans appropris pour 5 facteurs continus saffiche alors :
Comme nous souhaitons crer un plan de criblage, il suffit de cliquer sur OK. La bote de dialogue suivante est utilise pour slectionner le plan desir dans un catalogue des plans de criblage appropris pour 5 facteurs :
Pour visualiser la liste des plans de criblage qui sont disponibles pour cinq facteurs, cliquer sur la flche vers le bas pour drouler la liste. Cette liste affiche : 1. Nom : le nom de chaque plan dexpriences disponible. 2. Essais : le nombre dessais dans le plan de base, avant prise en compte de points au centre et de rptitions. 3. Rsolution : la rsolution du plan. Les plans de rsolution V peuvent estimer tous les effets directs et toutes les interactions dordre deux. Les plans de rsolution IV peuvent estimer tous les effets directs, mais les interactions dordre deux sont confondues entre elles ou avec les effets des blocs. Les plans de rsolution III confondent les interactions dordre deux avec les effets directs.
4. DDL erreur : le nombre de degrs de libert disponibles pour estimer lerreur exprimentale. La puissance des tests statistiques est lie ce nombre de degrs de libert, ainsi quau nombre total dessais dans le plan dexpriences. Normalement, au moins 3 degrs de libert doivent tre disponibles, mme si plus est prfrable. 5. Taille du bloc : le nombre dessais dans le plus grand bloc. Dans notre cas, lingnieur a slectionn un plan en demie-fraction comportant deux blocs de 8 essais chacun. La bote de dialogue finale est utilise pour ajouter des points au centre ou des rplications dessais :
Figure 16-7. Bote de dialogue des options pour le plan de criblage avec blocs
Les champs renseigner sont : 1. Points au centre : le nombre dessais effectuer au centre du domaine exprimental. Ajouter des points au centre est une bonne faon dajouter des degrs de libert pour lerreur exprimentale. 2. Em placement : lemplacement des points au centre. Les choix les plus frquents sont Alatoire, (rpartition alatoire des points au centre parmi les autres essais) et Espac (espacement rgulier des points au centre parmi les autres essais). 273/ Plans dexpriences
3. Rplication du plan : le nombre de fois supplmentaires o chaque exprience est remise en oeuvre. La rplication de lensemble du plan de cette faon peut augmenter le nombre des essais raliser trs rapidement. 4. Randomisation : indique si les essais doivent tre lists dans un ordre alatoire. La randomisation doit tre effectue chaque fois que cela est possible pour viter les effets perturbateurs de variables externes (comme des modifications dans le procd au cours du temps) qui peuvent biaiser les rsultats. Pour notre exprimentation, quatre points au centre sont demands, portant le nombre dessais 20 pour notre plan final. Il est galement demand de faire les expriences dans un ordre alatoire, ce qui veut dire que lordre des 10 essais dans chaque bloc sera gnr alatoirement. Aprs cette bote de dialogue finale, la fentre Slectionner le plan indique les essais expriementaux raliser :
Si le plan convient, cliquer sur OK pour revenir la fentre de lassistant pour les plans dexpriences qui rsume les choix effectus jusqu prsent :
Figure 16-9. Fentre de lassistant pour les plans dexpriences aprs slection du plan
Au mme moment, le plan a t charg dans la feuille A du classeur de STATGRAPHICS Centurion XVI :
La feuille affiche une colonne contenant les numros des blocs, 5 colonnes contenant les valeurs des facteurs exprimentaux et 2 colonnes pour la saisie des rponses une fois les essais exprimentaux raliss. Etape 4 : Prciser le modle Lassistant pour les plans dexpriences va valuer le plan que vous avez cr par rapport un modle statistique spcifique. Si vous cliquez sur le bouton 4), la bote de dialogue suivante saffichera :
Vous devez slectionner le modle le plus compliqu que vous souhaitez utiliser avec vos donnes. Dans le cas dun plan factoriel deux niveaux, le modle le plus compliqu pouvant tre ajust est le modle avec interactions dordre deux dfini par : Y=
0 1 1 15 1 5
x2 x x
3 3 24
x4
5 5 25 2 5
12 1 2 34 3 4
xx
13 1 3 35 3 5
xx
14 1 4 45 4 5
xx
xx
23 2 3
x2 x4
x x
xx
xx
x x
Il est constitu de chaque facteur exprimental (les effets directs) et de termes utilisant chaque paire de facteurs (les interactions dordre deux). Un terme peut tre exclu du modle slectionn en double-cliquant sur ce terme avec la souris, ce qui le place dans le champ Exclure de la bote de dialogue. Dans cet exemple, le modle factoriel complet avec interactions dordre deux est choisi.
Etape 5 : Slection des essais Pour des plans plus compliqus, il peut tre souhaitable de ne raliser quun sous-ensemble des essais crs ltape 3. En cliquant sur le bouton 5), un algorithme de slection des essais peut tre utilis pour crer un sous-ensemble des essais qui est D-optimal. Dans cet exemple, tous les essais seront raliss, ainsi ltape 5 est omise. Etape 6 : Evaluer le plan En cliquant sur le bouton 6), une bote de dialogue saffiche listant tous les tableaux et graphiques pouvant tre ajouts la fentre de lassistant pour les plans dexpriences :
Une option utile pour les plans de criblage est Matrice des corrlations, qui indique sil y a des confusions entre les termes du modle qui va tre ajust :
Matrice des corrlations block 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.8944 0.0000 0.0000 A 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 B 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 C 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 D 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 E 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AB 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 BC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 BD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 BE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 CD 0.8944 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000
block A B C D E AB AC AD AE BC BD BE CD CE DE
block A B C D E AB AC AD AE BC BD BE CD CE DE
CE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000
DE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000
Une valeur non nulle en dehors de la diagonale du tableau indique que les effets de cette ligne et de cette colonne sont confondus et ne peuvent pas tre isols. Dans le plan actuel, linteraction CD a une forte corrlation avec les blocs. Il faut noter que ce plan a arbitrairement supprim la possibilit destimer linteraction entre les facteurs C et D, qui sont concentration et agitation rate. Si cest une interaction que lingnieur suppose importante, il peut modifier lordre des variables de faon ce que C et D correspondent deux variables qui ne sont pas supposes tre en interaction. 279/ Plans dexpriences
Etape 7 : Enregistrer le plan dexpriences En cliquant sur le bouton 7), il est possible denregistrer le plan dexpriences dans un fichier. La bote de dialogue suivante saffiche :
Les plans dexpriences crs par lassistant pour les plans dexpriences sont enregistrs dans des fichiers ayant le suffixe .sgx. Ils sont similaires des fichiers de donnes classiques, lexception quils contiennent des informations additionnelles concernant le plan exprimental et le modle statistique slectionn.
Si ncessaire, une transformation peut tre indique pour une ou plusieurs variables. Comme nous analysons des rponses continues, des transformations peuvent tre ncessaires si la variance de la rponse augmente avec sa moyenne. Dans cet exemple, aucune transformation nest ncessaire. En cliquant sur le bouton OK, une nouvelle fentre danalyse souvre pour chaque rponse. La fentre danalyse pour Yield affiche initialement les informations suivantes :
La fentre est compose de quatre sous-fentres : 1. Rsum de lanalyse : liste les estimations des effets directs et des interactions. 2. Tableau de lANO VA : affiche des valeurs de probabilits pouvant tre utilises pour tester la significativit statistique de chacun des effets. 3. Graphique de Pareto standardis : affiche les effets dans lordre dcroissant de signification avec une ligne permettant de dterminer ceux qui sont statistiquement significatifs. 282/ Plans dexpriences
4. Graphique des effets directs : affiche les variations estimes de la rponse lorsque chacun des facteurs passe de son niveau bas son niveau haut. Le graphique de Pareto standardis dans la sous-fentre en haut droite peut tre utilis pour rapidement dterminer les effets qui sont les plus importants :
La longueur de chaque barre est proportionnelle la valeur de la statistique t calcule pour leffet associ. Toute barre au-del de la ligne verticale est statistiquement significative au niveau de signification prcis, par dfaut de 5%. Dans notre cas, il y a 3 effets directs significatifs : temperature, concentration et catalyst. Il y a galement une interaction significative entre temperature et flow rate. Le Graphique des effets directs dans la sous-fentre en bas droite montre comment chaque facteur affecte la rponse yield :
Les lignes indiquent les variations estimes de la rponse yield lorsque chaque facteur passe de son niveau bas son niveau haut, sachant que tous les autres facteurs sont maintenus des valeurs mi-chemin entre leurs niveaux hauts et bas respectifs. A noter que trois facteurs ayant des effets significatifs ont des impacts plus importants sur la rponse que les autres. Par exemple, le rendement moyen pour une temprature basse est approximativement de 82, alors que le rendement moyen pour une temprature leve est approximativement de 85,4. Cette diffrence de 3,4 est appele effet direct de temprature. Pour visualiser graphiquement linteraction entre temperature et flow rate, il faut dabord slectionner Graphique des interactions dans la bote de dialogue Tableaux et graphiques puis utiliser les Options pour la fentre pour slectionner uniquement ces deux facteurs :
Figure 16-19. Bote de dialogue des options pour la fentre du graphique des interactions
Le graphique rsultant montre la moyenne de yield lorsque temperature varie pour chaque niveau de flow rate :
A noter que si flow rate est son niveau bas, temperature a un faible effet sur le rendement. Par contre si flow rate est son niveau haut, temperature est un facteur important. Avant dutiliser un modle statistique dans cette analyse, il est important de retirer les effets non significatifs. Pour retirer ces effets : 1. Cliquer sur le bouton Options danalyse dans la barre des outils danalyse. 2. Cliquer sur le bouton Exclure dans la bote de dialogue des options pour lestimation des effets. 3. Dans la bote de dialogue Options pour lexclusion deffets, double-cliquer sur chacun des effets que vous souhaitez exclure, ce qui le dplace de la colonne Inclure vers la colonne Exclure :
La rgle suivre lors de lexclusion deffets est la suivante : 1. Exclure toutes les interactions entre deux facteurs non significatives. 2. Exclure tous les effets directs non significatifs et qui ne sont pas prsents dans des interactions significatives.
Dans notre cas, cela veut dire quil faut exclure tout ce qui nest pas significatif dans le graphique de Pareto, lexception de leffet direct B. Cet effet direct est conserv car il est prsent dans linteraction significative avec le facteur A. Une fois les effets exclus, le graphique de Pareto saffiche comme montr ci-aprs :
A lexception de leffet direct B, tous les effets conservs sont statistiquement significatifs. Le modle final peut tre visualis en slectionnant Coefficients de rgression dans la bote de dialogue Tableaux et graphiques :
Coefficients de rgression pour yield Coefficient Estimation constante 250.074 A:temperature -1.0595 B:flow rate -17.4475 C:concentration 0.555417 E:catalyst 2.6175 AB 0.106625 Le StatAdvisor Ce tableau affiche l'quation de rgression qui a t ajuste aux donnes. L'quation du modle ajust est : yield = 250.074 - 1.0595*temperature - 17.4475*flow rate + 0.555417*concentration + 2.6175*catalyst + 0.106625*temperature*flow rate Figure 16-23. Modle de rgression ajust pour Yield
A noter que le modle prend la forme dun modle de rgression linaire multiple. Chaque effet direct retenu est prsent tel quel dans le modle et linteraction entre les deux facteurs est reprsente par le produit de temperature par flow rate. Pour bien comprendre le modle ajust, il est prfrable de le visualiser graphiquement. Plusieurs types de graphiques peuvent tre crs en slectionnant Surface de rponse dans la bote de dialogue Tableaux et graphiques. Par dfaut, un graphique en surface de rponse maille est affich :
Dans ce graphique, la hauteur de la surface reprsente la valeur prvue de yield dans les plages affiches de temperature et de flow rate, avec les trois autres facteurs maintenus fixs aux valeurs moyennes respectives. Les plus grands rendements sont obtenus pour une temprature leve et un coulement lev. Le type du graphique et les facteurs utiliss pour afficher la rponse peuvent tre modifis en utilisant les Options pour la fentre :
Les types de graphiques qui peuvent tre crs sont : 1. Surface : affiche lquation ajuste sous la forme dune surface 3D par rapport deux facteurs exprimentaux quelconques. La surface peut tre m aille, unie ou contoure. Loption Contours au-dessous ajoute les iso-contours en pied du graphique.
2. Contour : cre un graphique 2D des iso-contours par rapport deux facteurs exprimentaux quelconques. Les contours peuvent tre affichs comme des lignes, lidentique dune carte topographique, comme des rgions peintes ou en utilisant une coloration continue. 3. Carr : affiche la rgion exprimentale par rapport deux facteurs exprimentaux quelconques et indique les valeurs prvues de la rponse en chaque sommet du carr. 4. Cube : affiche la rgion exprimentale par rapport trois facteurs exprimentaux quelconques et indique les valeurs prvues de la rponse en chaque sommet du cube. Pour crer ce graphique, il faut pralablement cliquer sur le bouton Facteurs et slectionner un troisime facteur. 5. Contours 3-D : affiche des contours pour la rponse par rapport 3 facteurs exprimentaux simultanment. 6. Maillage 3-D : cre un graphique maill affichant la valeur de la rponse dans une rgion exprimentale 3 dimensions. Le bouton Facteurs est utilis pour slectionner les facteurs qui dfinissent les axes des graphiques et les valeurs auxquelles les autres facteurs sont maintenus :
Figure 16-26. Bote de dialogue des options pour le choix des facteurs
Pour crer le graphique ci-aprs, le champ Contours a t positionn Rgions peintes, la Surface Unie avec des Contours au-dessous et la plage pour les contours dfinie de 81 86 par pas de 1 :
Le mme graphique peut tre affich sous la forme diso-contours plutt que sous la forme dune surface :
Les grandes valeurs de yield sont obtenues dans le coin suprieur droit. La seconde rponse mesure durant le plan dexpriences est strength. La fentre danalyse pour cette rponse affiche la graphique de Pareto suivant :
Aprs avoir exclu les effets non significatifs, le modle ajust est :
strength = -317,288 + 1,02083*temperature 1,3125*flow rate + 3,005*agitation rate
A noter que agitation rate impacte strength, mme sil na pas deffet significatif sur yield. Le graphique en iso-contours pour les deux facteurs les plus importants est affich ci-dessous :
Etape 9 : Optimiser les rponses Aprs avoir labor les modles statistiques pour les deux rponses, le paramtrage optimal des facteurs peut tre dtermin. Le but de lexprimentation est de maximiser yield en maintenant strength aussi proche que possible de 250 psi. En cliquant sur le bouton associ ltape 9), la bote de dialogue suivante saffiche :
Puisque le logiciel effectuera une recherche numrique de la meilleure position dans la rgion exprimentale, il est bon de dmarrer cette recherche partir de plusieurs points de faon viter de trouver un optimum local. Cliquer sur OK pour dmarrer la recherche. Aprs quelques instants, le message suivant saffichera :
Au mme moment, le tableau ci-dessous est ajout dans la fentre principale de lassistant pour les plans dexpriences :
9) Optimiser les rponses Rponse Valeurs l'optimum Rponse Prvision Limite infrieure 95.0% yield 88.6734 78.5661 strength 250.0 187.505 Dsirabilit globale = 0.948029 Valeurs des facteurs l'optimum Facteur Valeur temperature 180.0 flow rate 12.0 concentration 8.0 agitation rate 132.946 catalyst 1.49998 Figure 16-33. Rsum de loptimisation ajout la fentre de lassistant pour les plans dexpriences
Pour le paramtrage indiqu des facteurs, il est estim que yield est gal 88,67 grammes et strength 250 psi. La dsirabilit de yield est de 0,867, car distant de 86,7% dans la plage stendant de 80 90 grammes. Strength a une dsirabilit de 1, car exactement sur la cible. La dsirabilit globale est gale 0,948 et est calcule partir de la dsirabilit de chaque rponse, en llevant la puissance indique comme im pact, en multipliant les rsultats ensemble et en levant le produit a une puissance gale 1 divis par la somme des impacts. Le rsultat est un nombre compris entre 0 et 1, avec un poids plus grand donn la rponse ayant le plus fort impact. 295/ Plans dexpriences
En cliquant sur le bouton Tableaux et graphiques de la barre des outils danalyse, il est possible de crer deux autres graphiques. Le Graphique de superposition des contours affiche les contours des deux rponses en les superposant lun lautre :
Le point optimal est dans le coin suprieur droit, o yield est maximis le long de la ligne strength = 250. Le Graphique de la dsirabilit peut tre utilis pour afficher la dsirabilit globale par rapport deux ou trois facteurs la fois. La slection dun maillage 3D affiche le graphique suivant :
La position optimale, affiche en rouge, est caractrise par des valeurs leves de temperature et de flow rate et par une valeur moyenne de agitation rate. Etape 10 : Enregistrer les rsultats Pour enregistrer les rsultats de lanalyse et de loptimisation, cliquer sur le bouton associ ltape 10) pour enregistrer ces rsultats dans un StatFolio :
Si des expriences complmentaires sont souhaites, STATGRAPHICS Centurion XVI peut vous aider en augmentant le plan existant ou en gnrant des points le long du chemin de la plus grande pente. Etape 11 : Augmenter le plan En cliquant sur le bouton associ ltape 11), il est possible dajouter des essais additionnels au plan courant. La bote de dialogue montre ci-dessous saffiche alors :
Deux options sont possibles : 1. Rpliquer le plan : ajoute 20 essais additionnels identiques aux 20 premiers essais. Cela donnera plus de degrs de libert pour estimer lerreur exprimentale. 2. Ajouter une fraction : ajoute 20 essais additionnels pour transformer le plan en un plan factoriel complet.
Etape 12 : Extrapoler Il est possible de gnrer des points le long du chemin de la plus grande pente, dans le but de se dplacer rapidement dans des rgions o le rendement est plus lev, partir dun point donn de la rgion exprimentale et en se dplaant dans la direction de plus forte variation de la rponse estime pour les plus faibles modifications des facteurs exprimentaux. Suivre ce chemin peut tre trs utile pour obtenir des amliorations importantes trs rapidement. En cliquant sur le bouton associ ltape 12), la bote de dialogue suivante saffiche :
Les informations entres dans la bote de dialogue ci-dessus indiquent au logiciel de dmarrer loptimum calcul et de faire varier 5 facteurs entre des bornes basses et hautes qui doublent la largeur de la rgion exprimentale dans chaque dimension. Il est demand dafficher les 300/ Plans dexpriences
combinaisons des facteurs lorsque la dsirabilit estime volue dau moins 0,5%. Aprs avoir cliqu sur OK, le tableau suivant sajoute la fentre de lassistant pour les plans dexpriences :
12) Extrapoler le modle Valeurs extrapoles de la rponse Etape Dsirabilit yield 0 0.948025 88.6736 1 0.953335 88.8035 2 0.958545 88.9364 3 0.963801 89.064 4 0.969996 89.2249 5 0.97518 89.3567 6 0.980313 89.4898 7 0.985479 89.6185 8 0.991132 89.7708 9 0.996304 89.9048 10 0.999994 90.0076
strength 249.999 250.0 250.014 249.999 250.017 250.016 250.02 250.003 249.983 249.991 250.0 agitation rate 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 catalyst 1.49998 1.50549 1.51094 1.516 1.52263 1.52757 1.5325 1.53738 1.54361 1.54872 1.55944
Valeurs des facteurs pour l'extrapolation Etape temperature flow rate concentration 0 180.0 12.0 8.0 1 180.052 12.05 8.0296 2 180.117 12.1 8.05895 3 180.153 12.15 8.09103 4 180.23 12.21 8.12566 5 180.28 12.26 8.15831 6 180.333 12.31 8.19064 7 180.366 12.36 8.22371 8 180.402 12.42 8.25888 9 180.455 12.47 8.28913 10 180.481 12.51 8.28166
Figure 16-39. Tableau rsum de lextrapolation ajout dans la fentre de lassistant pour les plans dexpriences
Il est estim que yield peut atteindre sa valeur cible de 90 grammes tout en maintenant strength 250, en augmentant temperature 180,48 degrs, flow rate 12,51 litres par minutes, concentration 8,28% et catalyst 1,56%. Comme il sagit dune extrapolation du modle statistique ajust en dehors de la rgion exprimentale, des essais de confirmation doivent tre raliss pour vrifier ce rsultat.
Livres suggrs
Les livres suivants sont dexcellentes sources dinformations sur les techniques statistiques dcrites dans ce manuel : Statistiques de base : Applied Statistics and Probability for Engineers, 4me dition par Douglas C. Montgomery et George C. Runger (2006). John Wiley and Sons, New York. Analyse de la variance : Applied Linear Statistical Models, 5me dition par Michael H. Kutner, Christopher J. Nachtsheim et John Neter (2004). McGraw Hill. Mthodes de rgression : Applied Linear Regression, 3me dition par Sanford Weisberg (2005). John Wiley and Sons, New York. Matrise statistique des procds : Introduction to Statistical Quality Control, 6me dition par Douglas C. Montgomery (2008). John Wiley and Sons, New York. Plans dexpriences : Statistics for Experimenters: Design, Innovation and Discovery, 2me dition par George E. P. Box, William G. Hunter et J. Stuart Hunter (2005). John Wiley and Sons, New York.
303/Livres suggrs
304/Livres suggrs
bodytemp.sgd
Ces donnes ont galement t tlcharges depuis le site Web du Journal of Statistical Education . Elles ont t runies par Allen Shoemaker du dpartement de psychologie du Calvin College et sont utilises avec sa permission. Ces donnes sont issues dun article paru dans le Journal of the American Medical Association (1992, vol. 268, pp. 1578-1580) intitul A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich par P. A. Mackowiak, S. S. Wasserman et M. M. Levine. Un article associ au jeu de donnes est paru dans le Journal of Statistics Education, volume 4, numro 2 (juillet 1996). Site Web des donnes du Journal of Statistical Education (JSE) : http://www.amstat.org/publications/jse/jse_data_archive.html
Index
ABS ............................................................ 47 Analyse une v ariable ........................ 22, 152, 249 Analyse daptitude .......................................... 251 analyse daptitude dun procd ................... 248 analyse de la variance .................................. 197 Analyse de Pareto ........................................... 232 analyse de rgression ................................... 208 analyse des corrlations ............................... 209 analyse des moyennes.................................. 207 ANOM ...................................................... 207 ANOVA .................................................... 197 ANOVA graphique..................................... 198 aplatissement .............................................. 156 asymtrie .................................................... 156 augmenter le plan........................................ 301 AVG........................................................... 47 barre doutils danalyse ............................ 25, 68 bote de dialogue dentre des donnes..... 65, 68 botes moustaches ............................ 182, 203 brosser un nuage de points ........................... 99 Calculatrice Six Sigm a .................................... 266 centiles ....................................................... 156 champs de slection ..................................... 66 chemin de la plus grande pente .................... 303 Classeur ................................................. 14, 34 coefficients de rgression ............................ 290 colonne de donnes Cp ............................................................. 265 Cpk ............................................................. 262 dates .......................................................... 147 diagramme circulaire ................................... 232 diagramme en barres 3D .................................. 241 diagramme en btons........................... 232, 240 DIFF ........................................................... 47 donnes
accs .................................................. 37 coller ................................................. 42 combiner plusieurs colonnes ............... 53 copier ................................................ 42 couper ............................................... 42 entre ................................................ 14 fichiers............................................... 19 gnrer .............................................. 55 insrer................................................ 42 nouvelles variables.............................. 43 recodage .......................................... 243 recoder .............................................. 52 structures ......................................... 56 supprimer .......................................... 42 tableur ............................................... 14 transformations .................................. 46 trier ................................................... 50
Comparaison de deux chantillons ....................... 179 Comparaison de plusieurs chantillons .................. 193 Configuration de lim pression ............................. 148 contrat de licence ........................................... 4 COUNT ..................................................... 57
donnes qualitatives.................................... 230 DPM .................................................. 259, 262 cart-type ................................................... 156 encoche sur la mdiane ............................... 159 Enregistrement automatique ......................... 74, 147 Enregistrer les rsultats ...................................... 74 en-ttes des analyses ................................... 148 parpiller un nuage de points.................. 97, 196
307/Index
ET .............................................................. 67 tudes R&R ............................................... 133 exclusion deffets ....................................... 289 EXP ............................................................ 47 extrapoler .................................................. 303 fentre danalyse .......................................... 23 fichiers ASCII .............................................. 39 fichiers de donnes
graphique des tolrances ............................. 176 graphique en bote moustaches ................. 158 graphique en carr ...................................... 292 graphique en cube....................................... 292 graphique en mosaque................................ 240 graphique en surface ................................... 292 graphique maill 3D .................................... 300 graphique quantiles-quantiles ....................... 190 graphiques
fichiers Excel .......................................... 39, 41 fichiers HTML........................................... 116 fichiers XML ............................................... 39 FIRST ......................................................... 66 formules
FTP .......................................................... 116 Gnrer des donnes ..................................... 49, 57 graphique daptitude ............................ 253, 263 graphique de la bote moustaches ............... 25 graphique de normalit ............................... 261 graphique de Pareto ................................... 286 graphique de Pareto standardis ......................... 285 graphique de superposition des contours ..... 299 graphique des effets directs ......................... 286 graphique des interactions .......................... 287 graphique des moyennes............................. 200 graphique des quantiles ....................... 169, 188 graphique des rsidus ................................. 219
conversion en scores Z ....................... 48 dcalage de k priodes ......................... 47 diffrences successives ........................ 47 cart-type ........................................... 48 fonction exponentielle......................... 47 log base 10.......................................... 48 logarithme naturel ............................... 47 maximum ........................................... 48 minimum ............................................ 48 moyenne ............................................ 47 racine carre ....................................... 48 valeur absolue ..................................... 47
ajouter un texte ...................................96 boutons de la barre doutils..................75 copier dans dautres applications ........ 107 chelle log...........................................94 effets 3D ............................................84 enregistrer des fichiers graphiques ...... 108 exclure des points ...............................76 fond ...................................................84 identifier des points ........................... 103 modifier..............................................82 modifier lapparence par dfaut .......... 148 polices ................................................94 rotation ............................................ 102 rotation des libells des axes ................93 titres des axes......................................93 chelles des axes..................................93
graphiques
graphiques des rsidus................................. 205 htroscdasticit........................................ 206 histogramme deffectifs ................ 164, 182, 250 imprimer
Inclure/Exclure ...............................................76 indices daptitude ........................................ 263 installation..................................................... 1 intervalles bootstrap.................................... 171 intervalles de confiance
analyses ..............................................77 en-tte ................................................78 fond ...................................................78 lignes paisses .....................................78 marges................................................78
cart-type.......................................... 170
308/ Index
intervalles HSD .......................................... 201 intervalles LSD ........................................... 201 iso-contours ............................................... 292 K 265 LAG ........................................................... 47 LAST .......................................................... 66 limites statistiques de tolrances ................... 175 lissage Lowess ............................................ 102 lisser un nuage de points ............................. 102 LOG........................................................... 47 LOG10 ....................................................... 48 loi cumule ................................................. 168 loi de la plus grande valeur extrme.............. 257 loi normale ......................................... 156, 254 LOWESS ................................................... 211 matrice de nuages de points ................. 106, 211 matrice des corrlations....................... 212, 281 MAX .......................................................... 48 maximum ................................................... 157 mdiane ..................................................... 156 menu Six Sigma .................................... 12, 147 mthodes non paramtriques
addition ............................................. 47 division .............................................. 47 exponentiation ................................... 47 multiplication ..................................... 47 soustraction ....................................... 47
grille ....................................................... 85 axes ................................................... 93 lignes................................................... 87 onglet remplissages .................................. 95 points .................................................. 89 profils .............................................. 148 texte, libells et lgendes............................ 96 titre principal ........................................ 91 apparence ............................................. 83
Options graphiques
Mettre jour les formules................................... 46 MIN ........................................................... 48 minimum ................................................... 156 mise jour des liens .................................... 147 Mise en page .................................................. 77 modle linaire de rgression ....................... 216 modle non linaire de rgression ................ 217 Modifier une colonne......................................... 36 moyenne .................................................... 156 niveau de confiance Niveau de Qualit Sigm a ................................. 265 nombre de chiffres significatifs
test de Friedman ............................... 202 test de Kolmogorov-Smirnov .... 189, 257 test de Kruskal-Wallis ........................ 202 test de Mann-Whitney (Wilcoxon)...... 187 test des rangs signs .......................... 172
Options pour la fentre................................. 27, 72 OU .............................................................. 67 parcimonie ................................................. 209 plans dexpriences ..................................... 270 plans de criblage ......................................... 275 points au centre .......................................... 276 points extrmes ................................... 160, 206 points trs loigns ..................................... 159 Prfrences ............................................. 112, 145
Proprits du classeur ........................................ 60 qualit dajustement .................................... 257 quantiles .................................................... 170 quartiles ..................................................... 156 RANDOM .................................................. 66 randomisation ............................................ 277 R-carr................................................ 215, 217 rechercher les statistiques ou tests dsirs..... 141
onglet Analyses exploratoires ............ 164 onglet Aptitudes ............................... 264 onglet Stats ......................................... 157
309/ Index
Recoder des donnes .......................................... 52 rfrences .................................................. 306 rgle de Sturges .......................................... 166 Rgression multiple ......................................... 220 rgression pas pas .................................... 223 Rgression sim ple ...................................... 65, 213 REP ............................................................ 57 rpertoire pour les fichiers temporaires........ 148 requtes ODBC ........................................... 41 RESHAPE .................................................. 58 rsidus................................................ 205, 219 rsidus studentiss...................................... 219 RNORMAL ................................................ 59 ROWS ........................................................ 66 scores Z .................................................... 266 SD .............................................................. 48 slection des analyses ................................. 136 squences binaires ........................................ 67 sgcinstall.exe .................................................. 1 Six Sigma ................................................... 248 sources de donnes sous-fentres ............................................... 67 SQRT.......................................................... 48 STANDARDIZE ........................................ 48 StatAdvisor StatFolios
enregistrer .................................. 30, 109 publier .............................................. 115 script de dmarrage ............ 110, 115, 148 configurer ......................................... 119 imprimer .......................................... 125 modifier les graphiques ..................... 123 superposer des graphiques ................. 122 y copier des graphiques ..................... 121
Statistics for Experimenters ........................ 198 Statistiques rsumes.................... 24, 155, 181, 250 StatLink................................................ 60, 114 StatPublish .................................................. 115 StatReporter .............................................. 127
coefficient de corrlation ................... 212 comparer des distributions................. 189 comparer des carts-types.................. 184 comparer des mdianes ..................... 187 comparer des moyennes .................... 186 comparer des proportions ................. 247 comparer plusieurs carts-types ......... 205 comparer plusieurs mdianes ............. 202 comparer plusieurs moyennes ............ 197 mdiane ............................................ 172 moyenne........................................... 172 normalit .......................................... 255 points extrmes................................. 162 rgression ......................................... 215 tableau deux entres ....................... 242
310/ Index
Transformation Box-Cox ............................ 260 transformations .......................................... 140 Tri plat ..................................................... 231 Tri crois ...................................................... 235 trier les noms des colonnes.......................... 147
Trier un fichier ................................................ 50 utiliser le logiciel .............................................8 valeurs de probabilits ................................ 162 valeurs studentises .................................... 161 variables BY ............................................... 139
311/ Index