Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
SOMMAIRE
1. INTRODUCTION A LAUDIO-NUMERIQUE.....................................................................................4 1.1.CONVERSION ANALOGIQUE/NUMERIQUE, NUMERIQUE/ANALOGIQUE...........................................................4 1.2.PRINCIPE GENERAL DE LA CONVERSION (A/N,N/A). ...................................................................................4 2. LECOUTE HUMAINE..............................................................................................................................6 3. LA METHODE DE HUFFMAN...............................................................................................................9 3.1.NOTION ALGORITHMES..............................................................................................................................9 3.2.CODAGE HUFFMAN/ SHANNON-FANO.........................................................................................................9 3.3. LARBRE DE HUFFMAN.............................................................................................................................10 4. QUEST CE QUE LA COMPRESSION................................................................................................13 4.1.LES DIFFERENTS TYPES DE COMPRESSION ET DE CODAGE...........................................................................13 4.2. INFORMATIONS SUR LA COMPRESSION NON DESTRUCTIVE.........................................................................15 4.3. LA COMPRESSION DESTRUCTIVE. .............................................................................................................15 5. LATRAC....................................................................................................................................................16 5.1. INTRODUCTION.......................................................................................................................................16 5.2 LENCODEUR ATRAC (1 ERE ETAPE) ...........................................................................................................18 5.3. LENCODEUR ATRAC (2 EME PARTIE) ........................................................................................................20 5.4. LEVOLUTION DE LATRAC. ....................................................................................................................21 6. LE MP3......................................................................................................................................................23 6.1. LHISTOIRE.............................................................................................................................................23 6.2. LE CONCEPT ...........................................................................................................................................23 6.3. LALGORITHME POUR LA COMPRESSION MP3............................................................................................24 6.3.1. La batterie de filtres Hybride....................................................................................................24 6.3.2. Le modle psychoacoustique...................................................................................................24 6.3.3. Attribution de bit ........................................................................................................................25 6.4. NOTIONS DE COUCHES ...........................................................................................................................25 6.5. UTILISATION DU BITRATE EN MP3..........................................................................................................27 7. LE MP3PRO.............................................................................................................................................28 8. LE MPEG-2 AAC....................................................................................................................................30 9. LE WMA....................................................................................................................................................31 10. LOGG VORBIS.....................................................................................................................................32 10.1. LHISTOIRE...........................................................................................................................................32 10.2. LE CONCEPT .........................................................................................................................................32 10.3. SON UTILISATION FACE A LA CONCURRENCE...........................................................................................33 11. ETUDE COMPARATIVE......................................................................................................................34 11.1.ANALYSE...............................................................................................................................................35 11.2.CONDITIONS DE LETUDE .......................................................................................................................36 12. CONCLUSION.......................................................................................................................................37
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
2 LA COMPRESSI ON AUDI O-NUMERI QUE
La compression audio vise rduire la quantit de donnes pour stocker la musique. Deux formats de compression sont possibles : la compression sans pertes de donnes et la compression avec perte de donnes. Cest cette dernire qui nous intresse puisquelle occupe un espace 10 fois moins grand que la premire.
Un certain nombre de normes de compression avec pertes de donnes est disponible aujourdhui. Les plus communs sont MP3, VQF, OGG VORBIS. Mais il existe dautres formats tels que ATRAC, MP3Pro, AAC, WMA. Les compressions sans pertes de donnes sont le Wave et lAIFF.
J e ferai une tude plus ou moins labors de chacun de ces formats, et une tude comparative entre le MP3, lOGG VORBIS, le WMA et le MP3Pro.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
3 1. INTRODUCTION A LAUDI O-NUMERIQUE
De nos jours, de plus en plus de mdias sont numriss (image, son, vido) et stocks ou transmis dans un format numrique. Cela a plusieurs avantages, dont le plus important est labsence de perte de qualit du mdia numris pendant son transport ou lors de traitements sur celui-ci ( laide de logiciel, par exemple). Il existe galement quelques inconvnients intrinsques au caractre numrique, notamment la perte de prcision lors dune conversion analogique/numrique et inversement. Pour que le mdia numris soit rigoureusement le mme que le signal dorigine, il faudrait numriser ce dernier avec une prcision infinie, donc en stockant une quantit infinie dinformations. Cest videmment trs thorique et impossible raliser. En pratique, la limite de prcision ncessaire est fix gnralement par celle du rcepteur final de ce mdia : lil pour limage, loreille pour le son.
1.1.Conversion Analogique/ Numrique, Numrique/ Analogique. La grande majorit de systmes denregistrement numrique travaillent largement de la mme manire. Un signal audio entrant est introduit dans ce qui est connu comme un convertisseur Analogique-Numrique(A/N). Ce convertisseur prend une srie de mesures du signal intervalles rguliers, et stocke chacun comme un nombre. La longue srie rsultante de nombres est alors place sur un certain genre de support de stockage duquel elle peut tre recherche. La lecture du signal est essentiellement le mme processus lenvers, une longue srie de nombres est recherche dun support de stockage, et passe ce qui est connu comme un convertisseur Numrique-Analogique(N/A). Ce dernier prend les nombres obtenus en mesurant le signal original, et les emploie pour construire une approximation trs troite avec ce signal, qui peut alors tre passe un haut-parleur et tre entendue comme un son. Le nom gnrique pour ce systme est la modulation de code dimpulsion (PCM). Il est employ dans tous les chantillonneurs modernes, enregistreurs numriques et interfaces audio dordinateur.
1.2.Principe gnral de la conversion (A/ N,N/ A).
En prenant et en stockant une srie de mesures trs prcises dune forme donde, le PCM peut reconstruire une approximation trs troite du son qui correspond cette forme donde. Le systme denregistrement PCM utilise deux paramtres essentiels : la frquence dchantillonnage et la quantification . La frquence dchantillonnage dcrit le nombre de fois quun signal audio entrant est mesur. On lindique en kilohertz. Gnralement on utilise une frquence dchantillonnage de 44.1 kHz. La quantification concerne la prcision de chaque mesure effectue. Le convertisseur dans un systme audio numrique de PCM mesure un signal, et stocke la mesure comme un nombre, ce nombre est reprsent comme une srie de 0 et de 1, galement connue sous le nom de mot binaire exprime en bit. Le codage sur 16 bits est trs usit.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
4
On peut reprsenter schmatiquement ( en trois tapes principales) la chane qui permet de faire un enregistrement audio analogique-numrique.
Son analogique
Codage Quantificateur Echantillonneur Son numris
Compte tenu des contraintes thoriques de restitution dun signal analogique de bonne qualit (pour loreille humaine) partir dun signal chantillonn, on a impos aux CD audio un format de stockage du son ayant les donnes suivantes :
La frquence dchantillonnage (Fe) : 44.1 kHz, La quantification (Q) : 16 bits (2 octets), Son stro.
Avec ce format impos on peut calculer la place quoccupe une minute de musique.
La formule est la suivante : D= F*Q*P*T avec :
D qui est la taille du fichier en kilo-octets, F qui est la frquence dchantillonnage, Q qui est le nombre doctets utiliss pour coder le signal, P qui le nombre de piste. En stro on utilise deux pistes, T qui est le temps de lenregistrement en seconde.
Numriquement on trouve :
D=44.1*2*2*60 D=10 584*10 exp. 6 soit environ 10 Mo
Il faut compter environ 40 Mo pour stocker 4 minutes de musique sur un CD, au format CDA (CD Audio).
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
5
2.LECOUTE HUMAINE
Loreille est un organe extrmement complexe, ultrasensible et est capable de sadapter une large plage dintensits.
Loreille est constitue en trois parties : Loreille externe, moyenne et interne.
Loreille externe comprend le pavillon et la premire partie du conduit auditif. La forme du pavillon influe sur la perception acoustique, et notamment sur la localisation des sources sonores. Le conduit auditif sert concentrer le son ambiant, tout en accentuant la plage de frquences autour de 2500 Hz.
Loreille moyenne joue le rle damplification. Cette partie fonctionne comme un microphone, lnergie acoustique extrieure est transforme en nergie mcanique qui fait vibrer
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
6 le tympan. Cette vibration est transmise par la chane dosselets ( le marteau, lenclume et ltrier). La trompe dEustache assure lquilibre entre loreille moyenne et larrire-gorge.
Les diffrents organes de loreille interne servent transformer lnergie mcanique en une nergie lectrique directement analysable par le cerveau.
Loreille est trs sensible aux alentours de 2 kHz 5kHz. Pour les frquences alentours, la courbe des niveaux ncessaires rendre une frquence audible croit vitesse variable en fonction de lindividu, de son ge etc.
La courbe ci-dessous reprsente la courbe moyenne du seuil daudibilit des frquences en fonction de leur niveau et ce dans une chambre silencieuse.
dB
Frquences (kHz)
La compression audio-numrique utilise plusieurs techniques psychoacoustiques de faon nencoder que les informations utiles. Lune de ces techniques est le masquage. Le seuil partir duquel loreille humaine peroit un son dpend normment de la frquence de ce son (voir schma ci-dessus). Par exemple, nous percevons beaucoup plus facilement un son faible 4 kHz qu 50 Hz ou 15 kHz. De plus, partir de 25 kHz, quelque soit le niveau sonore, loreille humaine ne peroit plus aucun son.
La technique du masquage est la suivante : si deux sons de frquences proches sont jous avec une intensit trs diffrente, on pourra supprim le son le plus faible qui sera de toute faon masqu et ignor par loreille humaine.
Le schma ci-dessous met en relief le phnomne de masquage de frquences. En effet, en prsence dun signal de 500 Hz, un son dune frquence de 500 Hz est masqu et son niveau doit dpasser la courbe b pour tre audible par loreille humaine. Si son niveau est en dessous, on nest pas oblig den tenir compte dans le fichier compress.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
7
dB
Frquences en Hz
Dautres techniques psychoacoustiques seront explicites ultrieurement dans le chapitre concernant la compression.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
8 3.LA METHODE DE HUFFMAN
3.1. Notion Algorithmes
Un algorithme est une procdure bien dfinie pour rsoudre un problme en un nombre fini doprations. A lorigine, ce terme a t utilis pour les rgles permettant de faire les oprations arithmtiques dans la base dix. Ainsi, lorsque que lon additionne ou multiplie deux nombres, on utilise un algorithme qui permet darriver la rponse en un nombre fini dtapes. Aujourdhui le terme algorithme a pris un sens plus gnral pour inclure toutes les procdures pour rsoudre des problmes.
Lors dune compression deux types dalgorithmes peuvent tre utiliss.
Lalgorithme non destructif. Sa proprit principale est quune fois dcompress, le fichier est rigoureusement le mme que le fichier avant le compression. Il ny a donc aucune perte dinformation. Son fonctionnement est le suivant : lors de la compression lalgorithme de compression recherche dans le fichier des occurrences multiples dune suite doctets. Il se cre ainsi ce que lon appelle un dictionnaire, index qui rfrence ces suites doctets rptitives. Ensuite, lalgorithme remplacera celles-ci, dans le fichier compress, par ces codes qui prennent moins de place.
Si on prend lexemple dun fichier texte lalgorithme va crer une table de correspondance pour des mots qui sont utiliss plusieurs fois, X=1, Y=2, Z=3, O=4. Ainsi, dans le texte, ces mots vont tre remplacs par leur code, p)lus court, donc prenant moins de place dans le fichier compress. Voil, de manire simplifie le fonctionnement de la compression non destructive.
Pour ce qui concerne laudio on se servira dune compression qui utilise un algorithme destructif. Un fichier texte peut se compresser trs facilement, ce nest pas le cas de laudio, car il ny a pas beaucoup de rptition.
3.2. Codage Huffman/ Shannon-Fano
Les ordinateurs codent gnralement des caractres en utilisant le diagramme standard ASCII , qui assigne un code de 8 bits chaque symbole. Pour exemple, la lettre a a pour valeur ASCII : 61 et est cod en tant que 00111101. Des caractres qui se produisent plus frquemment comme e sont traits de la mme faon que les caractres rares tels que u. Un dossier qui a 100 caractres exigeront 800 bits, cette valeur est fixe, si le dossier contient 100 caractres uniques ou sil a 100 occurrences de mme caractre. Les avantages de larrangement de codage ASCII est que des frontires entre les caractres sont facilement dtermines, et le modle utilis pour chaque caractre est fixe et universel.
Cependant, dans nimporte fichier texte, il y a des caractres qui se produisent plus frquemment que dautres. Aux caractres plus souvent usits ont t affect des codes courts, et pour les caractres moins souvent utiliss ont t affect des codes plus longs.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
9
Cette ide nest pas nouvelle. Un exemple de ce type de compression est le code Morse, dvelopp par Samuel Morse au milieu du 19 me sicle. Des lettres envoyes par le tlgraphe sont codes avec des points et des tirets. Morse a not que certaines lettres se sont produites plus souvent que dautres. Afin de rduire le temps moyen requis pour envoyer un message, il a assign des ordres plus courts aux lettres qui se produisent plus frquemment comme e() et a(- ), et de plus longs ordres aux lettres qui se produisent moins frquemment comme q(---) et j(- --).
Cette ide demployer des codes plus courts pour les caractres plus frquemment utiliss a t prise dans le champ de calcul par Claude Shannon et Fano dans les annes 50, quand ils ont dvelopp lalgorithme de compression de Shannon-Fano. Cependant Huffman a dit un papier en 1952 qui amliore lalgorithme lgrement.
3.3. Larbre de Huffman
Le codage dHuffman cre ce qui sappelle un arbre dHuffman, qui est un arbre binaire tel que celui-ci :
J e vais expliquer la construction de cet arbre par un exemple. Considrons une phrase compose de 35 caractres dont 14 A, 7 B, 5 C, 5 D, 4 E.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
10
Nous commenons par choisir les deux plus petits nuds, qui sont D et E. Nous combinons ces deux nuds dans un nouvel arbre dont la racine est la somme des poids choisis dans ce cas 9 . Puis, nous remplaons les deux nuds par larbre combin.
Aprs nous rptons cette tape, combinant B et C. Nous enlevons ces deux nuds, et, comme dans la premire tape, nous les combinons dans un arbre de poids 12. notez que sur chaque itration, le nombre de nuds restants dans le choix se rtrcit par un, car nous enlevons deux nuds et les remplaons par un nud simple de racine.
De nouveau, nous retirons les plus petits nuds et construisons un arbre du poids 21.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
11
Et en conclusion, nous combinons les deux derniers nuds restants dans notre file dattente pour obtenir notre arbre final, la racine de larbre final aura toujours un poids gal au nombre de caractres dans le dossier dentre, qui est dans cet exemple 35.
Pour lire les codes de cet arbre de Huffman, nous commenons par la racine et ajoutons un 0 chaque fois que nous nous dplaons vers la gauche, et ajoutons un 1 a chaque fois que nous nous dplaons vers la droite.
Cet arbre nous donne le tableau ci-dessous :
Symbole Code A 0 B 100 C 101 D 110 E 111
J e vous ai prsent dune manire simpliste le fonctionnement du codage de Huffman. Maintenant je vais passer la compression.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
12 4. QUEST-CE QUE LA COMPRESSION
De nos jours, la puissance des processeurs augmente plus vite que les capacits de stockage, et normment plus vite que la bande passante des rseaux, car cela demande dnormes changements dans les infrastructures de tlcommunication. Ainsi pour palier se manque, il est courant de rduire la taille des donnes en exploitant la puissance des processeurs plutt quen augmentant les capacits de stockage et de transmission des donnes.
La compression consiste rduire la taille physique de blocs dinformations. Un compresseur utilise un algorithme qui sert optimiser les donnes en utilisant des considrations propres au type de donnes compresser. Un dcompresseur est donc ncessaire pour reconstruire les donnes originelles grce lalgorithme inverse de celui utilis pour la compression. La mthode de compression dprend intrinsquement du type de donnes compresser ; on ne compressera pas de la mme faon une image quun fichier audio.
4.1.Les diffrents types de compression et de codage
La compression physique agit directement sur les donnes, il sagit ainsi de regarder les donnes redondantes dun train de bits un autre. La compression logique par contre est effectue par un raisonnement logique en substituant une information par une information quivalente.
La compression symtrique utilise la mme mthode pour compresser et dcompresser linformation. Il faut donc la mme quantit de travail pour chacune de ces oprations. Cest ce type de compression qui est gnralement utilis dans les transmissions de donnes. La compression asymtrique demande plus de travail pour lune de ces oprations, on recherche souvent des algorithmes pour lesquels la compression est plus lente que la dcompression. Des algorithmes plus rapides en compression quen dcompression peuvent tre ncessaire lorsque lon archive des donnes auxquelles on naccde peu souvent (pour des raisons de scurit par exemple), car cela cre des fichiers compacts.
Les programmes ont besoin de conserver leur intgrit pour fonctionner, en effet il nest pas concevable de reconstruire l peu prs un programme en omettant parfois des bits et en ajoutant l o il nen faut pas. La compression avec pertes se permet dliminer quelques informations pour avoir le meilleur taux de compression possible, tout en gardant un rsultat qui soit le plus proche possible des donnes originales. Cest le cas par exemple de certaines compressions dimages ou de sons.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
13 Certains algorithmes de compression sont bass sur des dictionnaires spcifiques un type de donnes : ce sont des encodeurs non adaptatifs. Les occurrences de lettres dans un fichier texte par exemple dpendent de la langue dans laquelle celui-ci est crit. Un encodeur adaptatif sadapte aux donnes quil va devoir compresser, il ne part pas avec un dictionnaire dj prpar pour un type de donnes. Un encodeur semi-adaptatif construira celui-ci en fonction des donnes compresser : il construit le dictionnaire en parcourant le fichier, puis compresse ce dernier.
La compression RLE est utilise par de nombreux formats dimages (BMP, PCX, TIFF). Elle est base sur la rptition dlments conscutifs. Une premire valeur (code sur un octet) donne le nombre de rptitions, une seconde valeur donne la valeur rpter (code sur un octet). La phrase suivante oooooohhhhhhhhhhh donnerait 6o11h, elle est trs utile dans ce cas l. Par contre dans onde cela donne 1o1n1d1e, elle savre ici trs coteuse.
Le codage Huffman est une mthode qui permet dattribuer un mot de code binaire aux diffrents symboles composer (pixels ou caractres par exemple). La longueur de chaque mot de code nest pas identique pour tous les symboles : les symboles les plus frquents (qui apparaissent le plus souvent) sont cods avec de petits mots de code, tandis que les symboles les plus rares reoivent de plus longs codes binaires. Ainsi la suite finale de mots cods longueurs variables sera en moyenne plus petite quavec un codage de taille constante.
Le codeur de Huffman cre un arbre ordonn partir de tous les symboles et de leur frquence dapparition. Les branches sont construites rcursivement en partant des symboles les moins frquents. Plus le symbole est profond dans larbre, plus le mot de code sera long.
Les compressions bases sur ce type de codage donnent de bonds taux de compressions, notamment pour les images monochromes (les fax par exemple).
La compression LZW est un algorithme trs rapide aussi bien en compression quen dcompression. Ses crateurs sont Abraham Lempel et J acob Ziv, ils ont cr le compresseur LZ77 en 1977. Il tait utilis pour larchivage (les formats ZIP, ARJ et LHA lutilisent). En 1978 ils crs le compresseur LZ78 spcialis dans la compression dimages. En 1984, Terry Welch le modifia pour lutiliser dans les contrleurs de disques durs, son initiale vint donc se rajouter labrviation LZ pour donner LZW. Le LZW substitue des motifs en construisant au fur et mesure un dictionnaire. De plus il travaille sur des bits et non sur des octets, il ne dpend donc pas de la manire de laquelle le processeur code les informations. Cest un des algorithmes les plus populaires, il est utilis notamment dans les formats TIFF et GIF.
Construction du dictionnaire :
Le dictionnaire est initialis avec les 256 valeurs de la table ASCII. Le fichier est dcoup en chanes doctets (ainsi pour des images monochromes -codes sur 1 bit. - cette compression est peu efficace), chacune de ces chanes est compare au dictionnaire et est ajoute si jamais elle ny est pas prsente. Pour la dcompression lalgorithme reconstruit le dictionnaire dans le sens inverse, il na donc pas besoin dtre stock.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
14 4.2. Informations sur la compression non destructive
Il existe plusieurs algorithmes non destructifs (le ZIP, RAR , ACE). Dautres sont plus ddis au son. Notons le WAVE (.wav) dvelopp par Microsoft pour les PC et lAIFF (.aif) dvelopp par Apple pour les macintosh. Elle utilise comme mode de compression le PCM explicit dans le chapitre Introduction laudionumrique). De nombreux autres algorithmes propres ce type de mdia existent, bien quils soient moins connus. Citons WavArc (.arc), tir du format de compression ARC de Dennis Lee, AudioZIP (.zip), tir du ZIP de Lin Xiao, LPAC de Tilman Liebchen, Monkeys Audio de Matthew T. Ashland et enfin RKAU de Malcolm Taylor.
Sound Forge propose quant lui un format propritaire, le Perfect Clarrity Audio (dont lextension des fichiers est le PCA).
Cependant, malgr la compression, les fichiers audio sont encore trop volumineux pour tre utiliss dans certaines applications : dans lutilisation de tels fichiers sur Internet, certes, mais aussi dans les canaux de transmission numriques comme le cble tlvis. On a donc recours un autre type de compression : la compression destructive.
4.3. La compression destructive.
Il existe galement de multiples formats de compression destructive. Il faut savoir que lun dentre eux, le trs connu MP3, a t cr et brevet par Thomson Multimdia. Aussi thoriquement, chaque personne qui cre un fichier MP3 pour lexploiter commercialement est cens reverser des droits lentreprise. Le format impos par Microsoft, le Windows Mdia Audio (WMA), ressemble au MP3. Son format est galement brevet donc son utilisation se fait en contre partie de droit revers Microsoft. Le format OGG Vorbis quant lui rsout ces problmes de brevet. Cest un format quasi identique au MP3, la diffrence que lutilisation de celui-ci est libre de droit. Mais ce format nest pas aussi rpandu que le MP3 ou le WMA. Parmi les autres formats de compression destructive, citons le MP3Pro, le Real Audio de Real Networks, le Yamaha VQF. Les algorithmes utiliss sont principalement le MPEG (pour le format MP3), lAAC (MP3Pro), lATRAC (Sony Minidisc), le PASC (Philips DCC), et enfin les Dolby AC-1, AC-2 et AC-3.
Afin de dfinir les diffrentes techniques utilises pour compresser le son, je vais principalement mappuyer sur le format MP3, lATRAC, format audio utilisant typiquement la compression destructive, donc les limites psychoacoustiques de loreille humaine, afin de supprimer certaines parties du son inaudibles.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
ATRAc est un systme audio de codage bas sur des principes psychoacoustiques.
Le MiniDisc, sur lequel est stock le signal cod au format ATRAC, est compos dun disque optique ou magnto-optique de 64 millimtres qui a approximativement 1/5 de la capacit de stockage de donns dun disque compact standard. En dpit de la capacit de stockage rduite, il tait ncessaire que le MiniDisc maintiennent la qualit de son leve et un temps de jeu de 74 minutes. Le systme de la compression de donns ATRAC a t pour cette fin conu pour rpondre aux critres suivants :
Compression des 44.1 kiloHertz de 16 bits dacoustique stro dans moins de 1/5 du dbut original avec la rduction minimale de la de son. Excution de matriel simple et peu coteuse approprie aux joueurs et aux enregistreurs portatifs.
LATRAC emploie la psychoacoustique. Il utilise le seuil daudibilit. Comme nous lavons vu dans le chapitre 2, loreille est sensible aux frquences comprises entre 2 kHz et 5 kHz. Il utilise le masking frquentiel : pour deux sons de frquences proches, le signal le moins fort ne sera pas ou peu entendu en fonction de son intensit (vu au chapitre 2).
LATRAC met en uvre une troisime notion de la psychoacoustique qui est le masking temporel.
Principe : aprs laudition dun son fort, loreille met un certain temps avant dentendre un autre son de frquence proche si son niveau est plus faible. Lexprience qui permet de le constater est dlicate raliser. Il faut gnrer une frquence masquante (1 kHz 60 dB par exemple), et une frquence masque (1.1 kHz 40 dB pour cet exemple). Ce qui demande deux gnrateurs de frquences. Pour mesurer le temps du masking temporel :
1. on coupe la frquence masquante, 2. aprs un dlai t, on coupe la frquence masque, 3. on recommence lexprience en diminuant le dlai t jusqu ce que le 1.1 kHz ne soit plus audible.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
16 Sur la figure ci-dessous, cest pendant les 2 et 15 milliseconde que le masking se produit, ces deux portions du signal ne seront pas analyses par loreille. Le systme ATRAC ne les codera pas.
La dernire notion psychoacoustique sur laquelle repose le procd ATRAC est la notion de la bande critique.
Pour comprendre cette partie, il faut partir de lide que loreille analyse le spectre audio en le dcoupant en bandes dites critiques. Dans chacune de ces bandes ( dont la largeur varie en fonction de la prcision de loreille ces frquences et non de la largeur de la courbe de masking), loreille assimile les frquences et ne les diffrencie plus. Ces bandes de frquences correspondent dailleurs la rpartition des cellules cilies dans loreille interne.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
17 Le tableau ci-dessous donne le dtail de ces bandes. >On remarque que ces bandes sont plus troites dans les basses frquences. En fait, les trois quarts de ces bandes sont situs sous 5 kHz, ce qui montre bien que loreille est plus prcise dans les basses frquences que dans les hautes.
Le cahier des charges du codeur ATRAC est de compresser les donnes numriques de faon nen garder que 1/5, tout en conservant une qualit sonore subjective avec les standards de la haute-fidlit. Pour cela, il va travailler en tenant compte des limites et des dfauts de loreille et du cerveau de lauditeur.
Les effets de masking rendent inutiles des portions entires du signal audio. De mme, certaines bandes critiques sont plus larges que dautres et mritent moins de dfinition. Le point de dpart de la transformation est le signal stro PCM issu du disque compact. Il est cod sur 16 bits, avec une frquence dchantillonnage de 44.1 kHz.
Le codeur procde en trois tapes comme le montre la figure ci-dessous :
1. Cration des BFUs (Bloc Floating Units) : a) Le signal est divis en trois bandes par les filtres QMF. b) Chacune de ces trois bandes est transforme par les blocs MDCT en domaines de frquences produisant ainsi des bandes (spectrales ou raies) avec chacune un coefficient ; il y en a 512 ; on parle de bandes critiques. c) Ces coefficients sont groups non uniformment en blocs, les BFUs
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
18 2. Une allocation approprie des bits les rorganise en mettant les bits de poids forts en dbut de mots 3. Une quantification rduit la taille des donnes en ne laissant passer finalement que les donnes non significatives, ce en vertu de leffet de masking.
Les filtres QMF divisent le signal en trois bandes : - de 0 5.512 kHz, - de 5.512 11.025 kHz, - de 11025 22.05 kHz.
Les blocs MDCT (Modified Discrete Cosine Transform) transforment chacune de ces bandes en domaine de frquence. Cest lquivalent dune transforme de Fourier (F.F.T, Fast Fourier Transform) afin dorthogonaliser le signal et de travailler sur des axes diffrents, savoir le temps et la frquence. Except lamplitude qui est traduite en un coefficient spectral pour chaque bande.
Le codeur choisi la longueur des blocs en fonction des caractristiques du signal dans chaque bande. Il choisi entre deux modes :
- Le mode long : 11.6 millisecondes, - Le mode court : 1.45 millisecondes dans les frquences hautes (aigus) et 2.9 pour les autres.
Le mode long donne une meilleure rsolution frquentielle. Toute fois, un problme intervient pendant les attaques (monts rapides) du signal. Plus prcisment, le bruit de quantification augmente rapidement et nest plus masqu. Cest le pr cho. Pour lviter, le codeur dtecte les attaques et passe en mode court. Le bruit est toujours prsent, mais sur un segment court. Il est masqu par leffet de backward masking. Le backward masking est certes effectif sur courte portion, mais puisque le mode court rduit la dure du bruit, loreille ne lentend pas. LATRAC peut alors coder les passages plus stables, tout en ayant rpondu aux attaques. Le mme problme se produit lorsque le signal dcrot rapidement, mais le fowrad masking dure plus longtemps que le backward masking. Le phnomne inverse ne pose aucun problme.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
19
5.3. Lencodeur ATRAC (2 me partie)
Cette deuxime partie parlera de la quantification. Les valeurs des BFUs sont quantifies avec deux paramtres :
un facteur dchelle (scale factor) : il dfinit la largeur de la fentre de quantification et est choisit dans une liste fixe de possibilits traduites par des codes, la longueur du mot binaire (wordlength) : il dfinit la prcision dans la fentre analyse et est obtenu par un algorithme comme celui de Huffman,
Le facteur dchelle et la longueur de mot restent lis afin de reflter les proprits psychoacoustiques de chaque BFU.
A ce stade on obtient les sounds frames, ou samples de donnes. Pour chaque sample, les informations suivantes sont enregistres :
Le mode (court ou long) pour la taille des blocs. La longueur de mot binaire pour chaque BFU. Le facteur dchelle pour chaque BFU. Les coefficients spectraux quantifis.
Lallocation binaire : Cest maintenant que commence la compression des donnes. Mais le plus gros du travail a dj t fait. On a des samples avec coefficients qui sont reprsentatifs de leurs proprits psychoacoustiques. Et les mots binaires ont t construits de faon ce que les bits de poids forts soient en premier.
Pour simplifier, il ne reste plus quau codeur qu rduire le nombre de BFUs, privilgiant les plus significatifs du signal, supprimant ceux qui ne seraient pas entendus par le cerveau et loreille.
Pour ce faire, on peut utiliser un algorithme de Huffman qui permet de stocker les octets les plus frquemment rencontrs sur un nombre minimal de bits. On limine aussi les redondances. Le signal est dsormais compress suivant le principe ATRAC. Mais cette formule nest pas fige et lATRAC permet dutiliser nimporte quel algorithme au codage, pourvu que lenveloppe ATRAC soit respecte. Do un norme avantage : lvolution du procd ATRAC.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
20
5.4. Lvolution de lATRAC.
Comme nous lavons vu prcdemment, le procd ATRAC nest pas fig et volue en fonction des recherches des fabricants.
Diffrentes versions ont donc vu le jour depuis le lancement du MiniDisc par Sony en 1992. Certains affirment que sony aurait sortit le MD avant que lATRAC soit rellement au point afin de ne pas tre devanc par la Digital Compact Cassette (DCC) de Philips Ceci explique les dfauts audibles et les critiques des audiophiles qui ont dsormais du mal accepter le MiniDisc, lui prfrant le Digital Audio Tape (DAT).
Voici lhistorique sur les diffrentes versions de lATRAC, tirs du magazine allemand Stereo.
ATRAC 1 ATRAC 2 ATRAC 3 ATRAC 3.5 Sortie 1992 1994 1995 1996 Seuil 15kHz ! 18kHz 18kHz 18kHz Bruit Important Moins que l' ATRAC 1 Filtre dynamique : pas de bruit lors de silences =DAT Son Mtallique Proche du DAT gal au DAT en coute "blind test*" DAT "Spratzeln"** Audible Pas mieux Audible seulement dans les silences Supprim *"Blind test" : les yeux bands pour viter d'tre subjectif. **"Spratzeln" : c'est le terme utilis par le magazine allemand pour voquer le bruit audible sur les premires versions. Assez difficile dcrire, il ressemble au bruit que font les bulles la surface d'une boisson gazeuse.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
21 Compatibilit entre versions.
Enregistreur ATRAC 1 Enregistreur ATRAC 2 Enregistreur ATRAC 3 Enregistreur ATRAC 3.5 Lecture ATRAC 1 Voir tableau ci- dessus 15kHz, moins de bruit 15kHz, moins de bruit 15kHz, moins de bruit, bruit "Spratzeln" supprim Lecture ATRAC 2 15kHz, moins de bruit, son toujours mtallique Voir tableau ci- dessus Aucune diffrence qu'avec un enr. ATRAC 2 Plus de "Spratzeln", un peu moins de bruit (comme avec un ATRAC 2) Lecture ATRAC 3 Peu de diffrence avec ci-dessus Pas de diffrence avec un lecteur ATRAC 2 Voir tableau ci- dessus Plus de "Spratzeln", un peu moins de bruit (comme avec un ATRAC 3) Lecture ATRAC 3.5 Peu de diffrence avec ci-dessus "Spratzeln" toujours idem, mais moins de bruit Il reste du "Spratzeln", mais moins de bruit qu'au dessus Voir tableau ci-dessus
Le lecteur est un systme fixe qui, contrairement au codeur, utilise une technique fige. Les algorithmes de compression ne cessent dtre amliors. Il faut donc privilgier la version la plus rcente pour lenregistrement.
Comme tout format numrique, lATRAC est cens permettre la copie de copie sans pertes de qualit. Ce nest pas le cas en ralit.
Voici ce que donne la multi-copie avec le format ATRAC(ces informations sont tirs du magazine allemand Stereo).
ATRAC 1 vers ATRAC 1 Inacceptable aprs 5 gnrations, mauvais aprs 20 gnrations. ATRAC 2 vers ATRAC 2 Pas de diffrence audible aprs 5 gnrations, lgre distorsion aprs 20 gnrations. ATRAC 3 vers ATRAC 3 Pas mieux qu'avec l' ATRAC 2. ATRAC 3.5 vers ATRAC 3.5 Lgrement meilleur que l' ATRAC 3 pour le bruit.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
22 6. LE MP3
6.1. Lhistoire
Le MP3 est une technique de compression des formats audio-numriques. Le brevet en a t dpos par linstitut allemand de recherche Fraunhofer. Au dpart les chercheurs de cet institut travaillaient sur la compression de squences vido en vue de la diffusion de la TV numrique. Le projet Eurka EU147 en 1987 a commenc bien faire bouger les choses. Les chercheurs de linstitut Fraunhofer ont travaill, ds le dpart, en accord avec les normes tablies par le MPEG (Moving Pictures Experts Group), un groupe dexperts au sein de lISO dfinissant le standard international pour la compression vido. Le MPEG-1 Layer 1 fut la 1 re norme voir le jour. La 3 me version de cette technique est la MPEG-1 Layer 3 dont la variante spcifiquement audio est la norme MPEG-1 Audio Layer 3. Ce format a t standardis par lISO, fin 1992. En novembre 1996, un brevet est dpos aux USA.
Les fichiers audio enregistrs sous ce format ont comme extension .mp3. Un fichier audio- numrique compress laide du format MPEG-1 Audio Layer 3 est appel MP3.
Linstitut allemand Fraunhofer dtient 10 des 18 brevets MP3, Thomson Multimdia dtient les 8 autres et gre les licences.
6.2. Le concept
Sans nimporte quelle sorte de compression, il faut 1 mga octets pour reprsenter 1 seconde de musique CD de qualit. Mais en employant le codage audio MPEG, la taille peut tre rtrcie par un facteur de douze sans perdre en terme de qualit de son. La compression MP3 utilise tous les concepts psychoacoustique tudis dans les chapitres prcdents.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
23 6.3. Lalgorithme pour la compression MP3
Le processus de la compression MP3 peut tre dcompos en 3 tapes. Dabord, le jet audio dentre traverse une batterie de filtres qui divise le signal en sous-bandes de frquence. Simultanment, il traverse un modle psychoacoustique qui utilise le concept de masque auditif pour dterminer ce qui peut ou ne pas tre entendu dans chaque sous-bande. Le bloc dattribution de bit rduit au minimum laudibilit du bruit. En conclusion, le bloc de train binaire accumule toutes les informations et processus. De ce bloc il en sort un bitstream cod.
Entre Audio PCM Batterie de filtres Bloc Bit stream Attribution Bit/Bruit, Quantification et codage Modle Psychoacoustique
Bitstream cod
6.3.1. La batterie de filtres Hybride
Le but de la batterie de filtres est de diviser le signal audio en 32 sous-bandes de frquences dgale largeur. Loreille humaine a une rsolution limit qui peut tre exprime en termes de largeurs de bande critiques moins que 100 Hz et plus de 4 kHz. Dans une largeur de bande critique loreille humaine brouille des frquences. Ainsi la batterie de filtres cre les sous bandes de frquence dgale largeur qui se corrlent avec les largeurs de bande critiques.
6.3.2. Le modle psychoacoustique
La branche de la psychoacoustique examine le concept de lauditoire masquant et son effet sur la compression. Dans chaque sous bande o le flou se produit, la prsence dun signal fort, par exemple peut masquer une rgion des signaux plus faibles.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
24
6.3.3. Attribution de bit
Par un algorithme itratif, lattribution de bit emploie linformation du modle psychoacoustique pour dterminer le nombre de bit de code assigner chaque sous bande. Ce processus peut tre dcrit en utilisant la formule suivante :
MNR (dB)= SNR (dB) SMR (dB)
MNR est le rapport de masque bruit. SNR est le rapport signal/bruit, donn avec la norme audio MPEG. SMR est le rapport de signal masque, driv du modle psychoacoustique.
Alors les sous bandes sont places par ordre du plus bas au rapport de masque bruit le plus lev, et la plus basse sous-bande est assigne au plus petit nombre de bit de code et ce processus continue jusqu' ce quil ny ai plus de bit qui ne puisse tre assign.
Deux boucles ditrations appeles boucle de taux et boucle de bruit control/ distorsion servent quantifier et coder dans les encodeurs MP3. Les valeurs quantifier sont codes en utilisant les mthodes dHuffman.
6.4. Notions de Couches
Le MP3 a trois couches distinctes pour la compression. La couche 1 forme lalgorithme de base et les autres couches augmentent la couche 1.
Lalgorithme de la couche 1 code des donnes audio en groupant ensemble, 12 chantillons provenant de chacune des 32 sous-bandes cres dans ltape batterie de filtres pour un total de 384 sous-bandes. Chaque groupe de 12 chantillons obtient une attribution de bit et un facteur de balance. Lattribution de bit indique au dcodeur le nombre de bit employ pour reprsenter lchantillon, tandis que le facteur de balance est un multiplicateur qui classe les chantillons.
Lalgorithme de la couche 2 augmente la couche 1 en codant des donnes dans de plus grands groupes avec des restrictions sur des attributions de bit pour des valeurs dans de plus grandes sous-bandes.
Lencodeur de la couche 2 rassemble trois groupes de douze chantillons comme organis dans la couche 1.
La couche 2 sauvegarde un bit qui reprsente lattribution de bit, les valeurs de facteur de balance, et les chantillons quantiss. Ceci tient compte pour que plus de bits soient consacrs amliorer la qualit audio.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
25
La couche 3 est une amlioration au-dessus des deux autres couches parce quelle utilise une transformation connue sous le nom de MDCT, pour reprsenter la frquence du signal 32 bandes de frquence diffrentes.
A dbit gale, la qualit obtenue est proportionnelle au niveau de la couche utilise. Le temps de compression/dcompression lest aussi. En pratique, le layer 1 convient des applications o prime la qualit et/ou le temps dencodage/dcodage.
La plage de dbits quoffre le MPEG-1 schelonne de 32 448 kbps/s pour le Layer 1, de 32 384 pour le Layer 2 et de 32 320 pour le Layer 3.
Rien nempche dencoder un signal en choisissant nimporte quel dbit lintrieur de ces plages, mais chacun de ces trois niveaux correspond un dbit idal, celui pour lesquels ils ont t conus. 384 kbps/s par canal pour le Layer 1, 192 pour le Layer 2 et 128 pour le Layer 3 (trs usit sur internet).
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
26 6.5. Utilisation du bitrate en MP3
On peut encore ajouter quil faut aussi faire attention la technologie utilise par lencodeur. Il existe en effet trois grandes familles dencodeurs qui se distinguent par leur algorithme de codage. Il y a les encodeurs dvelopps par linstitut Fraunhofer, les encodeurs base de routines dveloppes par Xing Technologie et ceux base de routines ISO. Grossirement, on peut dire que Fraunhofer privilgie la qualit du signal compress tandis que Xing privilgie la rapidit de ses algorithmes. Pour les autres cela dpend des crateurs.
Tableau de rfrence de lutilisation du bitrate constant. Bitrate Qualit Compression 1 mn de son occupe Notre avis sur l'utilisation Rfrence CD audio Aucune 10,094 Mo Toutes (chane Hifi, mini-chane, ordinateur ou encore baladeur) 192 kbits/s ou plus CD audio conserve 1:7 ou moins 1,373 Mo ou plus Toutes (chane Hifi, mini-chane, ordinateur ou encore baladeur) 128 kbits/s CD audio conserve (limite) 1:11 0,915 Mo Toutes (limite pour bonne Hifi) 96 kbits/s Supportable 1:15 703 Ko Ordinateur ou baladeur 64 kbits/s Limite 1:22 469 Ko Baladeur moins de 64 kbits/s Non supportable 1:22 ou plus moins de 469 Ko Non conseill
Pour lencodage du signal nous avons fait rfrence au bitrate constant. Mais il est aussi possible dencoder bitrate variable (VBR). Ce systme permet de faire varier dynamiquement le bitrate du codage en fonction de la complexit du son. Ainsi un passage musical complexe sera encod avec un haut bitrate et un simple passage musical avec un plus bas bitrate. Lavantage de cet mthode est quelle permet un meilleur codage avec une trs large dynamique. Linconvnient est quelle change invariablement la taille du fichier.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
27 7. LE MP3PRO
Le MP3Pro date de fin 2001. Ce format rsulte de lassociation de deux technologies : le codage MP3 dune part et la technique de reconstruction de la bande passante dautre part. Cette technique, nomme SBR (Spectral Bandwidth Replication), qui rtablit une partie des hautes frquences dun signal aprs la transmission de celui-ci, permet lamlioration de la qualit sonore du signal reu.
Pour expliquer lamlioration apporte par le codage MP3Pro, prenons lexemple dune radio FM diffus en numrique. Le signal analogique a une bande passante denviron 20 kHz. Avant denvoyer ce signal sur les ondes, on va le numriser puis le coder pour quil occupe moins de place lors de la transmission. Utilisons le MP3 64 kbits/s. Le signal encod na plus quune bande passante de 11 kHz car on a purement et simplement limin toutes les frquences au-del de 11 kHz). Le systme de rception avant de dlivrer le signal lutilisateur, va le dcoder. Nous savons que le MP3 ralise une compression destructrice. Les donnes limines par lencodage sont perdues. Le signal, une fois dcod, a donc une bande passante de 11kHz, soit une perte de la qualit audio, par rapport loriginal, pour lutilisateur.
Le MP3Pro va en partie amliorer ce problme. Les 64 kbits/s disponibles pour raliser la compression sont utiliss de la manire suivante. Le signal original est encod environ 60 kbits/s, en utilisant les techniques de codage MP3 habituelles. Les 4 kbits/s restant servent vhiculer des informations utiles la reconstruction de la bande passante aprs transmission du signal. Des informations telles que la frquence partir de laquelle il faut reconstruire la bande passante et le niveau des frquences prsentes dans le signal original mais qui vont tre limins par codage MP3 sont cods par un encodeur distinct (lencodeur SBR) et stocks de sorte quelles occupent les 4 kbits/s restant. Le signal encod en MP3Pro vhicule bien 64 kbits/s mais il contient deux parties distinctes. Le signal est ensuite transmis puis dcod. La partie MP3 est dcode normalement et le dcodeur SBR reconstruit la partie haute du spectre. Lutilisateur reoit un signal ayant une bande passante de 16 kHz contre 11 kHz soit une bien meilleure qualit audio.
Lalliance du MP3 et de la technique SBR augmente considrablement la qualit audio dun signal pour un bitrate donn. On peut raisonner dans lautre sens et se dire quen encodant un bitrate infrieur en MP3Pro, par exemple 96 kbits/s, on va obtenir la qualit que lon avait en MP3 128 kbits/s. Cest en partie vrai. Le MP3Pro sil est bien adapt aux bas bitrates, namliore pas beaucoup lencodage bitrate lev. En effet, rappelons qu bitrates levs, le MP3 le MP3 standard ne supprime gure les hautes frquences. Do linutilit de leur reconstruction par technique SBR. Lalliance dun codage et de la technique SBR est donc surtout efficace pour un codage effectu des bitrates peu levs.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
28 Le MP3Pro peut encoder des sons issus de sources analogiques chantillonnes une frquence de 44.1 kHz, sur 16 bits, en mono ou stro. Lencodage se fait bitrate constant. Celui ci peut tre rgl de 24 kbits/s 96 kbits/s. La ncessit de dcoder deux parties distinctes fait que, globalement, le dcodage dun fichier MP3Pro est plus long que celui dun fichier MP3 et surtout ncessite plus de puissance de la part du processeur. Si ceci ne reprsente pas une contrainte pour les PC actuels, cela pourrait tre gnant pour les processeurs embarqus, en particulier pour les tlphones portables ou les baladeurs MP3.
La technique SBR a t mise au point par la socit Coding Technologies et des accords ont t pass avec Fraunhofer et Thomsom Multimdia pour le dveloppement des outils MP3Pro. Thomsom Multimdia gre les licences MP3Pro.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
29 8. LE MPEG-2 AAC
Etant donn le succs rencontr par le MPEG-1, il a t dcid de poursuivre dans cette voie et dtendre le standard dautres types dapplications, de le rendre plus efficace mais aussi mieux arm pour faire face de faibles dbits. Do la naissance du MPEG-2, publi sous la rfrence 13818. Cette nouvelle norme compte neuf parties numrotes de 13818-1 13818-9 ( les cinq premires reprennent les intituls de leurs homologues MPEG-1). Le dveloppement de ces diffrentes parties sest chelonn dans le temps. Deux dentres elles concernent laudio, commencer par la troisime (ISO/IEC 13818-3). Finalis en 1994 et publi en 1995, elle est non seulement trs proche du standard MPEG-1 Audio, mais surtout compatible avec lui. Cest la raison pour laquelle on la surnomme MPEG-2 BC (Backward Compatible). Elle reprend le principe des trois Layers et propose une stucture de fichiers similaires.
Les diffrences portent essentiellement sur deux points.
Premirement sur les frquences dchantillonnage des signaux encoder : 16, 22.05, 24 kHz, soit la moiti de celles du MPEG-1. Do des dbits plus faibles, schelonnant de 32 256 kbps/s (Layer 1) et de 8 160 kbps/s (Layer 2 et 3). Notons quun logiciel de dcodage MPEG-1 Audio ne pourra exploiter ces trois nouvelles frquences. Deuximement sur lapport de canaux supplmentaires : jusqu sept, par exemple pour le surround, en 5.1. Stocks dans des zones auxiliaires ces canaux seront purement et simplement ignors par un dcodeur MPEG-1. Pour maintenir une compatibilit avec ce dernier dans le cadre dune transmission surround, il est prvu de pouvoir scinder la modulation en deux flux : dune part un mixage stro matric, de lautre des informations permettant den extraire nos cinq canaux. Concrtement, seul le mixage stro matric sera lu par un dcodeur MPEG-1. Tandis quun dcodeur MPEG-2 tirera profit de toutes les informations.
Devant la ncessit de rpondre plus efficacement aux exigences de la diffusion multicanal, mais aussi dintgrer les progrs effectus en matire de compression, une extension au MPEG-2 Audio a t cre. Incompatible avec le MPEG-1, parfois surnomm MPEG-2 NBC (Non Backward Compatible), elle est officiellement baptise MPEG-2 AAC.
Finalis en avril 1997 et matrialis en 1998 par le document ISO/IEC 13818-7, ce standard reprsente ltat de lart en matire de compression. Plus labor que le Dolby AC-3, particulirement appropri la transmission daudio sur internet.
Dans les faits, il est possible de vhiculer jusqu 48 canaux pleine bande, 15 canaux basse frquence, des canaux multilingues.., et dencoder des signaux aux frquences dchantillonnage comprises entre 8 et 96 kHz. Si la notion de Layer sest envole, on retrouve trois niveaux de complexit : Main, LC (Low Complexity) et SSR (Scaleable Sampling Rate). Plus la structure est complexe, plus les temps dencodage/dcodage sont longs, et meilleurs est la qualit dbit gal.
Ce format ne cesse dvoluer le MPEG-4 AAC a aussi t dvelopp ( prvu pour la tlvision haute dfinition le MPEG-3 na pas vu le jour). J e nen parlerai pas car mon tude de la compression sarrte au MPEG-2 AAC.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
30 9.LE WMA
Le WMA exploite en 1 er lieu les proprits de loreille pour rduire la taille dun morceau, puis on traite laspect stro et enfin on applique des codages en terminant par le codage de Huffman. Lutilisation de toutes les possibilits de rduction voques dpend de la place que lon souhaite accorder 1 minute de son compress et donc aux taux de compression que lon va devoir appliquer. Pour lencodage de fichiers son en WMA on parle plutt en terme de birate que de taux de compression. Le bitrate est le nombre de bits que lon autorise pour coder 1 seconde. On aura donc la relation suivante : plus on veut compresser un morceau ( pour quil prenne le moins de place possible) plus le bitrate choisir devra tre faible.
Les fichiers encods laide du codeur WMA portent lextension.wma. Dans sa forme actuelle, le WMA encode des sons numriques provenant de signazux sonores analogiques chantillonns une frquence pouvant aller de /8 kHz 48 kHz, sur 8 ou 16 bits, en mono ou stro. Lencodage se fait bitrate constant. Ce dernier peut se rgler nimporte quelle valeur comprise entre 5 kbits/s et 192 kbits/s. Les techniques de compression WMA et MP3 sont semblabes.
Microsoft gre les licences WMA.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
31 10. LOGG VORBI S
10.1. Lhistoire
Sous lappellation OGG se cache un certain nombre de projets lis au multimdia et au traitement du signal. La recherche engage par ce groupe de projets touche deux thmes principaux : le codage audio et vido. OGG Vorbis sintresse au codage audio. Cest un codage avec perte comme le MP3 et le WMA. La spcificit de OGG est que cest un projet totalement Open Source et que le format Vorbis est sans brevet et compltement libre de droits.
OGG est n en 1993 aprs que linstitut allemand Fraunhofer ait obtenu la standardisation ISO du MP3 et dpos son 1 er brevet, faisant ainsi du MP3 un format audio propritaire. Le groupe du de projets OGG a alors dvelopp un format audio compress devant rivaliser en taille et qualit avec le MP3 mais gratuit. Les spcifications du format Vorbis sont dans le domaine public.
10.2. Le concept
Le format OGG Vorbis dlivre des fichiers audio dont lextension est .ogg. Les techniques de compression du signal audio sont peu diffrentes de celles employs par les formats MP3 et WMA. Evidemment, on exploite toujours les caractristiques de loreille humaine pour augmenter le taux de compression Un encodeur OGG Vorbis procde en trois phases distinctes pour finir le fichier OGG. Celles ci :
Lanalyse. Le codage. Le streaming.
Lanalyse consiste en deux tapes. Les donnes audio sont dabord spare en petits segments contigus puis ces segments sont traits sparment : ils sont transforms en une reprsentation plus propice au codage. La phase de codage consiste en deux tapes galement. Les segments transforms prcdemmen,t sont analyss laide dun modle probabiliste (codage de Huffman par exemple) et cods en nombre de bits le plus faible possible. Les mots ainsi obtenus tant de longueur diffrente ( on rappelle quun codage de Huffman produit le mot le plus court pour loccurrence la plus frquente), ltape de bitpacking les arranges en squences doctets sans perdre de place. Lensemble des octets ncessaires au codage dun segment (obtenu la 1 re tape) est un Vorbis packet. Enfin, la troisime phase, le streaming assemble les Vorbis packets en un flux de donnes appel un Ogg bitsream. Une table de correspondance entre la structure logique des Ogg bittstreams et leurs combinaisons en un flux physique de donnes est tablie. Celle ci doit permettre au player ou au dcodeur de retrouver comment assembler les Ogg bitstreams entre eux pour dlivrer un signal audio image de loriginal.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
32
10.3. Son utilisation face la concurrence
Le format OGG Vorbis est particulirement bien adapt la diffusion de musique en streaming de par sa structure intrinsque. Dans sa forme actuelle, Ogg encode des sons numriques provenant de signaux sonores analogiques chantillonns une frquence pouvant aller de 8kHz 48 kHz, sur 16 bits ou plus et en polyphonie. Ainsi, le son Surround peut tre compress en OGG sans perdre ses caractristiques multi-voies alors quen MP3 ou WMA, il obligatoirement ramen la stro. Lencodage OGG se fait bitrate constant ou variable. Dans le cas dun bitrate constant, ce dernier peut se rgler une valeur comprise entre 16 kbits/s et 128 kbits/s. Thoriquement, lencodeur actuel supporte un bitrate pouvant aller jusqu 512 kbits/s. Les versions futures offriront un bitrate pouvant descendre en dessous de 16 kbits/s.
Dans la page daccueil consacre a Vorbis, le site xiph.org (Xiphophorus company est le nom du groupe de projets OGG) revendique une qualit comptitive avec celle du format AAC et suprieure celle des formats MP3, WMA et VQF.
Le format OGG, est 100% backwards compatible. Cela signifie quun fichier encod en OGG Vorbis avec lencodeur actuel est lisible avec un ancien player Ogg sans dgradation de la qualit.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
33 11. ETUDE COMPARATIVE
J ai fais une petite tude comparative entre diffrents formats de compression. J ai pris comme cobaye un morceau que japprcie et donc que je connais trs bien. Il s agit de Sensitive de Sla qui dure 4 minutes et 17 secondes. Vous trouverez ci-dessous un tableau rcapitulatif des tests effectus.
Format de compression(bitrate) Temps de compression en seconde Taille du fichier kilo octets Logiciel utilis WAVE 44.1 kHz, 16 bits AIFF 44.1 kHz, 16 bits 15.22
17.80 44 040
44 040 Nero (version 5.5.6.4) Nero
MP3 20 kbits/s 28.09 631 Play Center Creative(version 3.00.14) MP3 96 kbits/s
35.48 3023 Play center MP3 160 kbits/s
38.17 5037 Play center MP3 192 kbits/s
38.76 6045 Play center MP3 320 kbits/s
40.23 10 073 Play center MP3Pro 40 kbits/s
85.32 1259 Nero MP3Pro 96 kbits/s
94.76 3021 Nero WMA 96 kbits/s 41.81 3057 Windows Media Player(version 7) WMA 160 kbits/s 42.29 5080 Windows Media Player WMA 96 kbits/s
39.15 3056 Play Center WMA 160 kbits/s
40.68 5079 Play Center OGG 96 kbits/s Set processing high priority 236 2878 OGG Vorbis (version 1.6.11c) OGG 160 kbits/s Set processing high priority 250 4820 OGG Vorbis OGG 160 kbits/s Set processing normal priority 249 4820 OGG Vorbis
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
34 11.1.Analyse
En gnral on constate que la taille dun fichier issu dune compression destructive est en moyenne 10 fois plus petite quun fichier qui est compress en WAVE ou en AIFF (non destructif).
Il ny a aucune diffrence entre les fichiers WAVE et AIFF, si bien au niveau de la taille du fichier, qu lcoute.
En passant au signal compress en MP3, avec un bitrate de 20 kbits/s, on a certes un fichier intressant en taille, mais on a une dgradation importante du signal. Avec un bitrate de 320 kbits/s, nous avons un fichier 16 fois plus grand, mais avec une qualit nettement meilleure. En le comparant avec un fichier WAVE le son est quasiment le mme la diffrence que ce dernier plus de dynamique, surtout lattaque dun son (exemple 0.25 secondes du morceau). En conclusion, en ce qui concerne le MP3, plus on utilise un bitrate bas, plus la qualit du son se dgrade et plus on perd en dynamique, mais on y gagne beaucoup en terme de taille de fichier.
Quand je compresse un morceau en MP3, jutilise un bitrate de 192 kbits/s. Cest le meilleur compromis que jai trouv. Et cest dailleurs ce type de compression que lon utilise sur Internet.
Entre un fichier WMA et MP3 de mme bitrate (160 kbits/s), le MP3 est lgrement avantageux en taille, mais le WMA est de meilleure qualit. Le son a plus de pche. Un fichier WMA cod avec deux logiciels diffrents reste identiquement le mme.
En comparant un fichier WMA, MP3 et MP3Pro de mme bitrate (96 kbits/s), le MP3Pro prend lavantage au niveau taille, dynamique, mais la restitution des aigus, ce nest pas encore a. Il par contre meilleure que son cousin le MP3 compress en 96 kbits/s.
J ai compar ces trois derniers formats avec le concurrent, lOGG Vorbis toujours 96 kbits/s. LOGG Vorbis a remport de loin tous les suffrages.
La restitution du signal compress 160kbits/s est impressionnante. Il difficile de le distingu de loriginal. Mais encore une fois je trouve que la dynamique prime lgrement. A savoir quun fichier OGG Vorbis compress 160 kbits/s est bien de meilleure qualit quun fichier MP3 compress 192 kbits/s. A noter quil y a une diffrence relle entre deux compressions OGG Vorbis, qui ont le mme bitrate et qui utilise une qualit de processing diffrente.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
35
11.2. Conditions de ltude
Tous les fichiers ont t compress sur un PC utilisant un Pentium 3 cadenc 500 MHZ avec une RAM (SDRam) de 256 Mo. La carte son utilis est une Sound Blaster Audigy Platinium. Le graveur est un Ricoh 8*4*32. J ai utilis le lecteur (player) Winamp (version 5.01) afin de lire les diffrents formats qui ont t compresss.
Nayant pas un laboratoire scientifique et informatique sophistiqu, mes oreilles de technicien du son taient donc les seules juges.
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr
36
12. Conclusion
Alors, que choisir ? Tout dpend de lutilisation que lon veut faire du signal compress. Lorsque que lon veut travailler avec un format numrique tel qui lest utilis dans le milieu de laudio professionnel. Il est rigoureusement conseiller de travailler avec un format de compression non destructif.
Mais si lon veut faire du stockage massif de donne ou de la transmission de signaux via les canaux dont nous disposons actuellement (internet), il prfrable travailler avec un format de compression destructif.
Libre a vous de choisir
Copyright - Enseignement des Mtiers de la Communication Malakoff 92240 - Tous droits rservs. Site web : http://www.emc.fr