Hoe werkt MP3

GO!

Als er één compressietechniek een revolutie op internet heeft veroorzaakt, is het wel mp3. Deze methode zorgde ervoor dat muziekbestanden tien keer zo klein konden worden gemaakt met behoud van acceptabele kwaliteit.

Moving Pictures Experts Group

De techniek achter mp3 is oorspronkelijk ontwikkeld voor het comprimeren van videobestanden. De Moving Pictures Experts Group (MPEG) bedacht een methode om bewegende beelden te comprimeren, waarbij een deel werd gebruikt voor de afzonderlijke afbeeldingen (frames) in een film en een aparte methode voor het geluid. Deze werd MPEG audio Layer-3 genoemd. Het grote publiek kent natuurlijk vooral de afkorting hiervan: mp3.

Geluidsgolf

Het doel van mp3 is het comprimeren van muziek. In het artikel over de werking van een rewritable cd wordt uitgebreid uitgelegd hoe analoge muziek wordt gedigitaliseerd voor gebruik op een cd. Voor een goed begrip van de werking van mp3 is het handig om hier een korte omschrijving van dit proces te geven. Geluid is niets anders dan een golf met pieken en dalen van wisselende grootte, het geluidsvolume. De snelheid waarmee de pieken en dalen elkaar opvolgen heet de frequentie van het geluid, oftewel de toonhoogte. Muziekfragmenten bevatten een groot aantal van deze signalen met frequenties die sterk kunnen uiteenlopen. En voor iedere frequentie geldt dat het geluidsvolume gedurende het muziekstuk sterk kan wisselen.

 Afbeelding 1

Samplen

De analoge wereld is dus feitelijk bijna oneindig subtiel, maar de digitale wereld is dat om praktische redenen (opslagcapaciteit) niet. Het analoge signaal wordt daarom bij het omzetten (‘samplen’) niet exact gekopieerd, maar zo goed mogelijk benaderd. Het samplen van een analoog signaal komt erop neer dat een aantal maal per seconde wordt gekeken hoe hoog de golf is (de 'sampling rate') en wordt de waarde daarvan vastgelegd met een bepaald aantal gradaties (de ‘sampling precision’). Dit is de nauwkeurigheid waarmee de hoogte van de golf wordt vastgesteld, de afronding eigenlijk. Hoe nauwkeurig ook, het resultaat van samplen blijft altijd een benadering van het origineel.

 Afbeelding 2

Lomp

Strikt genomen is bij het samplen dus al sprake van kwaliteitsverlies en zou van compressie gesproken kunnen worden. De ‘sampling rate’ van 44,1 kHz en ‘sampling precision’ van 2 bytes (65.536 gradaties) die zijn afgesproken voor de cd zijn echter zo gekozen dat het menselijk oor niet of nauwelijks verschil hoort met het origineel. Het signaal is daarmee in praktische zin dus nog volledig intact, en daarmee helaas ook behoorlijk groot. Een nummer van 4 minuten neemt bijvoorbeeld 44.100 samples per seconde maal 2 bytes per sample maal 240 seconden maal twee geluidskanalen (stereo) = 42.336.000 bytes aan informatie in beslag. Dit is dus ruim 42 megabyte. Dat is zelfs voor een moderne breedband internetverbinding of draagbare muziekspeler een behoorlijk lompe verzameling bytes!

Perceptie

Het doel van mp3 is om de grote muziekbestanden van cd-kwaliteit te verkleinen met een factor 10 tot 14, waarbij de geluidskwaliteit die van een cd zo dicht mogelijk moet benaderen. Het eerder genoemde muziekstuk zou dan geen 42 maar slechts ongeveer 4 megabyte in beslag nemen. En dat bestand kan een stuk sneller over internet worden gejaagd en neemt heel wat minder ruimte in op een mobiel apparaat. De mp3-techniek maakt bij het comprimeren gebruik van de eigenschappen van het menselijk oor. Zo kan het menselijk oor geluiden beneden een bepaalde frequentie (20 Hertz) niet horen en boven een bepaalde frequentie (20.000 Hertz) ook niet. Geluiden met dergelijke frequenties kunnen dus zonder problemen uit het bestand worden verwijderd.

Verder zijn er geluiden die wij mensen juist veel beter kunnen horen dan andere. Als die tegelijk met andere geluiden (frequenties) in het muziekstuk aanwezig zijn, kunnen de andere geluiden dus sterk gereduceerd worden. De derde regel is dat het luidste van de twee geluiden die simultaan aanwezig zijn, verreweg het beste is te horen. Het zachte geluid kan dus in veel gevallen worden weggelaten. Deze drie methoden zijn dus gebaseerd op de manier waarop wij geluiden waarnemen, de menselijke perceptie dus. Het originele geluidssignaal wordt zo omgevormd dat het menselijk oor niet of nauwelijks in de gaten heeft dat er iets is veranderd (weggelaten). In het Engels heet deze methode daarom Perceptual Noise Shaping.

Bitrate

De voorgaande verhandeling is de algemene beschrijving van de manier waarop een muzieksignaal kan worden gecomprimeerd. De mate waarin de informatie van het originele bestand verloren gaat bij het omzetten in een mp3, wordt bepaald door de bitrate. Dit is de hoeveelheid informatie (bits) die per seconde mag worden gebruikt om het signaal weer te geven. Als de sofware (encoder) de opdracht mee krijgt om maximaal 128 kilobits per seconde (kbps) te gebruiken, resulteert dit in een mp3-bestand met de geluidskwaliteit die te vergelijken is met die van een radio-uitzending. Pas bij een bitrate vanaf 160 kbps is de geluidskwaliteit te vergelijken met die van een cd, al beweren sommige audiofielen dat zelfs een bitrate van 320 kbps niet genoeg is om cd-kwaliteit te evenaren. Hoe dan ook, over het algemeen kan worden gesteld dat de kwaliteit van een mp3-bestand hoger wordt met het stijgen van de bitrate.

Advanced Audio Coding

Kanttekening bij de conclusie van de vorige alinea is dat sommige encoders beter in staat blijken om de perceptie van het menselijk oor te gebruiken bij het omzetten van een muziekbestand dan andere, ook al hebben ze dezelfde bitrate gehanteerd. Een voorbeeld hiervan is het onder andere door Apple gebruikte MPEG Advanced Audio Coding (AAC). Er zijn wat mythes ontstaan rond dit formaat. AAC maakt echter gebruik van dezelfde technieken als mp3, alleen doet het dit beter dan zijn voorganger. Het komt erop neer dat mp3 compatibel moest zijn met de eerste versie van MPEG, terwijl AAC dit niet is, waardoor compromissen overboord konden en de methode beter kon worden dan mp3. Feitelijk is AAC de compressietechniek die wordt gebruikt voor geluid in MPEG-4. Apple zou bestanden met AAC-codering dus net zo goed de extensie '.mp3' hebben kunnen meegeven, maar wilde vanwege de betere geluidskwaliteit een duidelijk onderscheid en gebruikt daarom de extensie '.m4p'.