Kodierung und Komprimierung von Audiodaten

Transcription

Kodierung und Komprimierung von Audiodaten
Kodierung und Komprimierung
von Audiodaten
Seminararbeit im Seminar
Neue Technologien in Internet und WWW
Wintersemester 2003/2004
Universität Jena
Norman Bichler
Januar 2004
Abstract
Das Seminarthema „Kodierung und Komprimierung von Audiodaten“
versucht Fragen der Art zu klären, wie: „Wie kann ein analoges Schallsignal
in ein digitales Computersystem gebracht werden?“, „Welche Fehler treten
dabei auf?“ oder „Welche Verfahren dafür gibt es?“
Des weiteren werden Methoden zur Komprimierung aufgezeigt, wie und
warum diese funktionieren und welche Vor- und Nachteile die einzelnen
Verfahren haben.
Am Schluss werden unterschiedliche Audioformate und -Codecs behandelt.
Sowohl komprimierte (insbesondere MP3) als auch unkomprimierte (wie
WAV) Formate werden hinsichtlich Qualität, Dateiaufbau und
zugrundeliegender Techniken analysiert.
2
Inhaltsverzeichnis
Abstract
2
Inhalt
3
1 Einleitung
4
2 Digitalisierung von Audiosignalen
5
3 Komprimierung von Audiodaten
9
3.1 Verfahren der Audiokomprimierung
11
3.2 Grundlagen der Fourier-Transformation
11
4 Formate und Codecs
12
4.1 MPEG-1 Layer 3
13
4.2 ATRAC
14
4.3 Dolby
15
4.4 OggVorbis
16
4.5 MIDI
16
5 Zusammenfassung
17
Index
18
Glossar
20
Wichtige Internetadressen
21
Abkürzungsverzeichnis
22
Quellenverzeichnis
23
3
1 Einleitung
Schall – was ist das eigentlich?
Es handelt sich, physikalisch gesehen, um Schwingungen von Molekülen in
einem elastischen Medium, die sich wellenförmig ausbreiten. Dabei
entspricht der Schalldruck (also sozusagen die Stärke, mit der die Moleküle
schwingen) der wahrgenommenen Lautstärke und die Frequenz, mit der sich
die Schwingung ausbreitet wird vom Menschen als Tonhöhe interpretiert
(wobei gilt: je höher die Frequenz, desto höher der wahrgenommene Ton).
Schall ist also, wie die meisten Dinge in der Natur, ein analoges Signal. Es
stellt sich daher die Frage, wie man dieses Schallsignal auf ein digitales
Computersystem bringt. Kapitel 2 wird versuchen, dies zu klären. Darin
wird auf Begriffe wie Sampling, Quantisierung und Kodierung eingegangen, sowie einige Verfahren der Digitalisierung behandelt.
Sind die analogen Schalldaten nun digitalisiert, das heißt, in Form von
Einsen und Nullen auf einem Computersystem gespeichert, werden wir in
Kapitel 3 sehen, wie man diese Daten komprimieren kann. Das bedeutet wir
werden versuchen die Anzahl der Einsen und Nullen zu verringern, ohne
dabei (relevante) Audioinformation zu verlieren („relevant“ ist hier stark
abhängig vom Kontext. So wird bei einem Brandenburgischen Konzert
mehr relevante Information zu erhalten sein als bei einem Telefongespräch).
Wichtig ist diese Komprimierung zum einen, um auf dem Computer selbst
platzsparender zu speichern (aufgrund der steigenden Kapazität heutiger
Festplatten aber immer weniger von Bedeutung), zum anderen spielt Audiokomprimierung für die Datenübertragung im Internet eine sehr große Rolle.
Das vierte Kapitel behandelt verschiedene Audiocodecs. Das sind, einfach
gesprochen, Vorschriften zur Kompression, Speicherung und Dekompression der Audiodaten. Neben dem wohl populärsten Codec MP3,
werden auch ATRAC, Dolby AC, OggVorbis und Außenseiter MIDI
behandelt.
4
2 Digitalisierung von Audiosignalen
Ein Schallsignal ist analog, das heißt, es ist in seinem Verlauf sowohl zeitals auch wertekontinuierlich. Auf einem Computer werden Daten aber nicht
analog (wie es zum Beispiel auf einer Schallplatte der Fall ist), sondern
digital abgespeichert, das heißt, das Signal muss zeit- und wertediskret sein.
Also muss unser analoges Schallsignal einen Prozess durchlaufen, der es
von analog in digital wandelt.
Dieser Prozess, sinnigerweise „Digitalisierung“ genannt, unterteilt sich in
drei Schritte: Abtastung (oder auch Sampling), Quantisierung und
Kodierung.
Beim Sampling wird sich der Zeitdiskretisierung angenommen. Das analoge
Signal wird in einer bestimmten Frequenz über die Zeit abgetastet und nur
die zu diesen diskreten Zeitpunkten gemessenen Werte werden weiter
berücksichtigt, alle anderen verworfen. Somit haben wir eine endliche
Anzahl von Werten, die aber immer noch potentiell beliebig genau sein
können. Dieses Problem wird durch den zweiten Schritt, die Quantisierung,
gelöst. Die beliebig genauen Werte werden schlicht auf den nächsten
diskreten Wert gerundet, die sogenannten Quantisierungsintervalle.
Sampling
Abb.1 analoges Signal
Abb.2 abgetastetes, analoges Signal
Quantisierung
Abb.3 zeitdiskret/wertekontinuierlich
Abb.4 digitales Signal
5
Bei diesem Runden entstehen natürlich Fehler, da nicht der exakte, sondern
nur der gerundete Wert abgespeichert wird. Sind zu wenig Quantisierungsintervalle vorhanden, kann dieser Fehler zu hörbaren Qualitätseinbußen
führen. Man nennt diesen Effekt daher auch Quantisierungsrauschen oder
Quantisierungsfehler. Wir werden später Verfahren kennenlernen, um
diesen Fehler zu minimieren.
Um die Begriffe Sampling und Quantisierung noch einmal zu verdeutlichen,
sollen sie nun anhand eines Beispiels erläutert werden. Die wohl jedem gut
bekannte Audio-CD enthält die Audiodaten natürlich auch in digitaler Form.
Wie sind hier Abtastfrequenz und Quantisierungsintervalle gewählt?
Wieviel Minuten Musik passen rein rechnerisch auf eine 650MB große CD?
Signale für eine Audio-CD werden 44100 mal pro Sekunde abgetastet, die
Samplingrate beträgt also 44.1kHz (zu den Gründen dieser speziellen
Frequenz später mehr). Die Quantisierungsintervalle werden mit 16bit
dargestellt (es ergeben sich also 216 Intervalle). Desweiteren liegt das
Audiosignal in Stereo vor.
Die Berechnung ergibt sich also wie folgt:
44100 mal in einer Sekunde müssen 16 bit gespeichert werden.
44100 s-1 * 16 bit = 705600 bit/s
Ein Byte hat bekanntermaßen 8 bit.
705600 bit/s / 8 = 88200 byte/s
Aufgrund der Stereoeigenschaft wird linker und rechter Kanal separat
kodiert. Der Wert verdoppelt sich also.
88200 byte/s * 2 = 176400 byte/s
Bisher haben wir also berechnet, dass pro Sekunde Audioinformation auf
der CD 176400 Byte belegt werden.
Wie viele Sekunden passen demnach auf ein Megabyte (=1048567 Byte)?
1048567 byte / 176400 byte/s = 5,94 s
Jetzt müssen wir diesen Wert nur noch mit 650 multiplizieren, und wir
haben die Anzahl der Sekunden, die auf 650 MB passen.
5,94 s * 650 = 3863,8 s = 64,4 min
Der aufmerksame Leser wundert sich nun vielleicht darüber, dass auf einem
gekauften 650MB CD-Rohling die Angabe 74 Minuten zu finden ist.
Dies ist ganz einfach dadurch zu erklären, dass sich die 650MB auch
tatsächlich auf Daten beziehen, die 74 Minuten auf Musik.
Möchte ich den Rohling nämlich als Daten-Medium nutzen, fallen noch
etliche Bytes an Verwaltungsinformation an, die zusätzlich zu den
eigentlichen Daten auf der CD gespeichert werden müssen. Diese entfallen
bei der Nutzung des Rohlings als Audio-CD und der so zusätzlich
gewonnene Speicherplatz kann für Musik genutzt werden.
6
An dieser Stelle möchte ich noch einmal auf die oben bereits angesprochene
Frequenz von 44.1kHz zurückkommen. Wieso ausgerechnet diese
Frequenz? Um diese Frage beantworten zu können, müssen wir uns zwei
Dinge verdeutlichen.
Als erstes sei das sogenannte Abtasttheorem von Shannon erwähnt. Es
besagt Folgendes: Ein analoges Signal kann dann und nur dann fehlerfrei
rekonstruiert werden, wenn die Abtastfrequenz (Samplingrate) mindestens
doppelt so groß ist, wie die höchste im Signal vorkommende Frequenz. (fs >
2 fmax)
Das klingt zunächst kompliziert, lässt sich aber anhand einer kleinen
Illustration leicht verdeutlichen:
Abb.5 Abtasttheorem
Bei einer Abtastfrequenz von größer-gleich der maximal vorkommenden
Signalfrequenz ist sichergestellt, dass in jedem Periodendurchlauf des
Signals mindestens 2 Abtastpunkte liegen, wodurch man das Signal
eindeutig rekonstruieren kann. Hält man diese Samplingrate nicht ein, so
kommt es zu Mehrdeutigkeiten oder Fehlinterpretationen des
Ausgangssignals. In Abb.5 durch die grauen Abtastpunkte verdeutlicht, die
zum Beispiel auch die gestrichelte Signallinie als mögliches Ausgangssignal
zulassen würden.
Das Abtasttheorem vorausgesetzt kann man sich nun leicht überlegen,
welche Samplingrate nötig ist, um alle vom Menschen wahrnehmbare
Frequenzen rekonstruierbar zu digitalisieren. Der menschliche Hörbereich
ist von ca. 20 Hz bis ca. 22kHz (personenspezifische Unterschiede
vernachlässigt). Das bedeutet, wir müssen lediglich noch sicherstellen, dass
auch die höchstmöglichen Frequenzen in einem Audiosignal (22kHz)
entsprechend ausreichend abzutasten. So ergibt sich die für Audio-CDs und
auch Semi-professionelle Musikbearbeitung typische Samplingrate von
44,1kHz.
7
Nachdem wir uns auf den vorangegangenen Seiten mit den ersten beiden
Schritten der Digitalisierung beschäftigt haben, kommen wir nun zur dritten
Stufe, der Kodierung.
Unter Kodierung versteht man ganz einfach die Beschreibung der
Quantisierungsintervalle durch bestimmte binäre Codewörter. Dies schließt
den Prozess analog-digital-Wandlung ab und wir haben nun ein rein
digitales Signal vorliegen.
Der gesamte Vorgang der Umwandlung von analog nach diskret wird auch
als Pulse Code Modulation (PCM) oder Waveform Encoding bezeichnet.
Hier unterscheidet man die folgenden drei wichtigen Verfahren:
Lineare PCM
Dynamische PCM
Differenzielle PCM
Lineare PCM:
Bei der linearen PCM wird das Audiosignal in gleich
große Quantisierungsintervalle zerlegt. Der Vorteil
liegt klar auf der Hand: Bei genügend feiner
Rasterung, das heißt, bei genügend großer Anzahl an
Quantisierungsintervallen fällt das Quantisierungsrauschen sehr gering aus. Dies bedeutet aber auch,
dass eine hohe Datenrate notwendig ist, da bei jedem
Abtasten sehr viele Bits gespeichert werden müssen.
Dynamische PCM:
Die dynamische PCM benötigt im Vergleich zur
linearen PCM weniger Quantisierungsintervalle bei
subjektiv gleichbleibender Audioqualität. Dies wird
durch eine z.B. logarithmische Einteilung der
Intervalle erreicht, durch welche leise Passagen feiner
Unterteilt werden, als laute. Dies entspricht der
menschlichen
Hörgewohnheit,
da
in
der
RealitätSignale mit hohen Amplituden vom Menschen
schlechter differenziert werden können.
Differenzielle PCM:
Im Unterschied zu den beiden vorhergehenden Typen werden bei der
differenziellen PCM nicht die Signalwerte selbst, sondern nur die
Differenzen aufeinanderfolgender Abtastwerte kodiert. Dies ist sinnvoll, da
bei vielen Signalen die Differenz zweier folgender Werte meist nur gering
ist. Trotzdem werden in fest definierten Abständen Referenzpunkte
eingefügt, in denen der tatsächliche Abtastwert kodiert wird. Nachteil dieses
Verfahrens ist, dass bei schnellen Signalschwankungen schwerwiegende
Quantisierungsfehler auftreten können.
8
3 Komprimierung von Audiodaten
In Kapitel 2 haben wir gesehen, wie ein analoges Schallsignal auf ein
digitales System gebracht werden kann. Wie ebenfalls aus Kapitel 2
ersichtlich, sind diese digitalisierten Daten relativ groß. Dazu sehen wir uns
nocheinmal kurz das Beispiel mit der Audio-CD an. Nach der dort geführten
Rechnung belegen rund 6 Sekunden ein Megabyte an Daten. Ein
Musikstück von 4 Minuten wäre somit 40 MB groß. Auf einer heutigen
Festplatte von 80GB würden gerade einmal 2000 Musikstücke Platz finden
(Von anderen Daten wie Betriebssystem etc. abgesehen).
Wen das nicht beeindruckt der halte sich einmal vor Augen, wie lange eine
Übertragung eines solchen Musikstückes übers Internet dauern würde. Bei
ISDN-Geschwindigkeit von 128kbps (auch ein DSL-Nutzer kann nicht
schneller senden – und einer muss ja bei einer Übertragung der Sender sein)
bedarf es rund 45 Minuten, um eine 4-minütige Musikdatei zu übertragen.
Komprimierung, das heißt, Reduktion der Datenmenge bleibt also
unumgänglich, um eine vertretbare Übertragungszeit oder gar Streaming1
sicherzustellen.
Man unterscheidet Grundsätzlich zwei Arten der Audiokomprimierung:
Die verlustfreie Komprimierung und die verlustbehaftete Komprimierung.
Bei ersterer ist das Ursprungssignal auch nach der Komprimierung noch
eindeutig wiederherstellbar und es treten keinerlei qualitätsmindernde
Effekte auf. Das Grundprinzip der verlustfreien Komprimierung ist die
Differenzkodierung mit linearer Prediktion.
Differenzkodierung wurde schon in Kapitel 2 erläutert. Unter Prediktion
versteht man das Nutzen des Wissens über das bereits kodierte Signals zur
Vorhersage des Folgesignals. Auch hier speichert man nur die Differenz
zwischen dem Signal und seiner Vorhersage.
Wendet man nun noch eine Hufmann-Kodierung2 an, kann man auf diese
Weise eine Kompressionsrate von immerhin 1 : 2 erreichen.
Auch wenn diese Datenreduktion bereits beachtlich ist, reicht sie jedoch
nicht aus um eine effiziente Übertragung über das Internet zu ermöglichen.
Dies führt uns zur zweiten Komprimierungsart, der verlustbehafteten
Komprimierung. Bei dieser Methode verringert man die Qualität gezielt, um
sehr hohe Kompressionsraten zu erreichen. Das Grundprinzip: Nicht oder
kaum wahrnehmbare Anteile der Audiodaten müssen nicht mitkodiert
werden.
Wie bereits eher erwähnt hat das menschliche Gehör einen Wahrnehmungsbereich von ca. 20 Hz bis 22kHz. Das heißt, Signale die außerhalb dieses
Bereiches liegen, müssen gar nicht erst mitkodiert werden. Aber auch
Signale, die innerhalb dieses Frequenzbereiches liegen können unter
Umständen vom Menschen nicht wahrgenommen werden. Ein solches
1
2
Echtzeitübertragung (man hört, während man gleichzeitig noch herunterlädt)
häufig vorkommende Kodewörter werden kürzer kodiert als selten vorkommende
9
Phänomen ist die sogenannte Verdeckung, auf die ich im Weiteren kurz
eingehen möchte.
Allgemein versteht man unter Verdeckung die Überlagerung eines leisen
Signals durch ein lautes Signal, sodass das leise Signal nicht mehr
wahrnehmbar ist (man sagt auch, das Signal liegt unter der sogenannten
Verdeckungsschwelle).
Hierzu ein kleines Beispiel: Stellen Sie sich vor, sie lesen diese
Ausarbeitung hier in gedruckter Form an Ihrem Schreibtisch. Ansonsten ist
es sehr ruhig in Ihrem Zimmer. Sie werden beim Weiterblättern das
Knistern des Papiers vernehmen können. Nun stellen Sie sich die gleiche
Situation vor, nur dass ihr rücksichtsloser Zimmergenosse meint, er müsse
wahnsinnig laut Musik hören, während Sie sich weiterbilden wollen.
Obwohl das Geräusch des Umblätterns zweifellos noch vorhanden ist
(vorausgesetzt Sie kommen bei diesen widrigen Arbeitsbedingungen über
die erste Seite hinaus), werden weder Sie noch Ihr Mitbewohner Notiz
davon nehmen. Es wurde durch die laute Musik verdeckt.
Würde man dieses Szenario aufnehmen, müsste man also das
Papiergeräusch nicht mit kodieren.
Abhängig vom Auftreten des Verdeckungssignals unterscheiden wir zwei
Arten der Verdeckung:
simultane Verdeckung
temporäre Verdeckung
Simultane Verdeckung:
Ein Signal mit niedrigem Pegel wird durch ein
zeitgleich auftretendes Signal mit hohem Pegel
maskiert.
Temporäre Verdeckung:
Ein Signal mit niedrigem Pegel wird durch ein Signal
mit hohem Pegel, welches nach (bis 200ms) oder kurz
vor (bis 50ms) dem schwachen Signal auftritt
ebenfalls maskiert.
Simultane Verdeckung ist intuitiv klar. Die temporäre Verdeckung kann
man sich am einfachsten dadurch erklären, dass dem menschlichen Ohr ja
auch eine gewisse Mechanik zu Grunde liegt, die eine entsprechende
Trägheit besitzt.
10
3.1 Verfahren der Audiokomprimierung
In diesem Unterkapitel sollen kurz einige grundlegende Verfahren zur
Komprimierung von Audiodaten vorgestellt werden.
Bereits Erwähnung fand das Verfahren des Predictive Codings, bei dem das
Folgesignal aufgrund des aktuellen Signals vorhergesagt wird und dann nur
noch die Abweichung der Vorhersage vom tatsächlichen Wert gespeichert
werden muss.
Desweiteren gibt es das sogenannte Spectral- oder Transform Coding. Bei
diesem Verfahren wird eine Fourier-Transformation (dazu gleich mehr) des
Wellensignals durchgeführt, durch welche nun eine FrequenzraumDarstellung möglich ist. Diese Darstellung ändert sich langsamer, weshalb
weniger Samples übertragen werden müssen [MS04].
Als letztes möchte ich auf das sogenannte Sub-Band-Coding eingehen,
welchem ein psychoakustisches Modell zugrunde liegt. Das AudioSpektrum wird in verschiedene Frequenzbänder unterteilt. Fast alle Bänder
beinhalten im Vergleich zu dem lautesten Band kaum relevante Information.
Man nutzt dies bei der Komprimierung, indem man die wichtigen Bänder
weniger stark „kürzt“ als die nicht so wichtigen.
3.2 Einschub: Grundlagen der Fourier-Transformation
Wie Sie sehen, spielt die Fourier-Transformation bei der AudioKomprimierung eine wesentliche Rolle. Ich möchte nur kurz auf die
Funktionsweise eingehen, da eine ausführliche mathematische Darstellung
den Rahmen dieser Ausarbeitung sprengen würde und auch mehr zur
Verwirrung als zum Verständnis beitrüge. Deshalb nur eine kleine grafische
Veranschaulichung:
Abb.6
Abb.7
Abb.8
Mit der Fourier-Transformation kann man ein Signal in den sogenannten
Frequenzraum überführen. Dies basiert auf der Tatsache, dass sich jedes
beliebige Signal als Summe von periodischen Funktionen darstellen lässt
(Abb.7). Nun kann man diese (im Regelfall sehr viele) Sinuswellen einfach
durch ihre zwei Parameter Frequenz und Amplitude darstellen (Abb.8).
11
4. Formate und Codecs
In diesem Kapitel möchte ich auf verschiedene Audioformate und –Codecs
eingehen. Eines der wohl bekanntesten und weit verbreitetsten Formate ist
das WAV-Format. Es ist Bestandteil des Windows RIFF (Resource
Interchange File Format).
Der Dateiaufbau ist wie folgt gegeben: Es existieren mehrere, voneinander
unabhängige Blöcke, oder auch Chunks genannt.
Der Format-Chunk enthält Daten zum Format der einzelnen Sampleblöcke,
die Anzahl der Kanäle, Samplingrate usw.
Dann folgt der eigentliche Datenchunk, in welchem die Audiodaten in einer
Reihe von Sampleblöcken vorliegen.
In Abb.9 ist der Aufbau einer WAV-Datei nocheinmal grafisch dargestellt.
RIFF-Chunk
Format-Chunk
Daten-Chunk
RIFF
chunk size
size
wave format
data
file size
# channels
WAVE
# smp / sec
avg bytes / sec
block align
bits / sample
Abb.9 Aufbau einer WAV-Datei
Im Folgenden sollen einige wichtige Audio-Codecs behandelt werden.
Darunter verschiedene MPEG-Standards, ATRAC, Dolby sowie
OggVorbis.
Beginnen wir mit MPEG (Motion Picture Expert Group), ursprünglich ein
Gremium für Kodierung von Video- und Audiodaten. Hauptsächlich sind
folgende Entwicklungen dieser Organisation zu nennen: MPEG-1, welches
bei VCDs (Video Compact Discs) Anwendung findet, sowie als MPEG-1Layer-3 (MP3) der wohl bekannteste Standard für Audiokomprimierung im
Internet. Desweiteren MPEG-2 für Digitales Fernsehen und DVD, MPEG-4
im Bereich der mobilen Kommunikation, sowie MPEG-7 und -21, welche
hauptsächlich zur Beschreibung und Idizierung von Audio- und Videodaten
verwendet werden.
12
4.1 MPEG-1 Layer-3 - MP3
Ich möchte nun speziell auf MPEG-1-Layer-3 (MP3) eingehen.
Dieser Standard wurde vom Frauenhofer Institut in Erlangen entwickelt. Es
basiert auf dem bereits im vorigen Kapitel beschriebenen Sub-Band-Coding
unter Zuhilfenahme eines psycho-akkustischen Modells. Im Gegensatz zu
der oben beschriebenen WAV-Datei besitzt eine MP3-Datei keinen Header
im eigentlichen Sinne, sondern besteht aus einer Aneinandereihung von
einzelnen Datenblöcken, die aus jeweils einem eigenen Header und
zugeordneten Audioinformationen bestehen.
Die nächste Abbildung soll den Dateiaufbau kurz illustrieren, eine
entsprechende Erklärung folgt.
Sync
MPEG ID | Layer | CRC
Bitrate Index
Samplingrate | Padding | Priv
Channel mode | Mode Extens.
Copyright flag | Original | Ephas.
16-bit CRC
Audio Data
ID3-Tag
Abb.10 MP3 Dateiaufbau
Zur Erklärung: Der Sync-Block dient lediglich zur Synchronisation (die
ersten 11 Bits werden stets auf 1 gesetzt). Der zweite Block in der obigen
13
Zeichnung enthält Informationen über die MPEG-Version sowie die LayerVersion. Die nächsten Blöcke enthalten die verwendete Bitrate, die
Samplingfrequenz, ob es sich um ein Stereosignal handelt sowie Copyrightinformationen. Dann folgt noch ein optionaler CRC-Block mit einer
Prüfsumme, die dazu dient die fehlerfreie Übertragung der Datei
sicherzustellen.
Jetzt kommen die eigentlichen Audiodaten.
Am Schluss befindet sich noch der sogenannte ID3-Tag, ein zusätzlicher
Bereich, in dem Informationen zu den in der Datei befindlichen Audiodaten
angegeben werden können, wie z.B. Interpret, Titel, Musikgenre usw.
Der Kodierungsvorgang einer MP3-Datei gestaltet sich im Groben wie
folgt: Zunächst wird die Eingabe maximal 576 gleichbreite Subbänder (je
750Hz breit) zerlegt. Nun wird jeweils ein Abtastwert in seine Spektralkomponenten zerlegt und auf die 576 Subbänder aufgeteilt. Mit Hilfe des
zugrundeliegenden psychoakustischen Modells wird nun für jede Samplegruppe die Anzahl der benötigten Bits zur Kodierung bestimmt.
Einige Eigenschaften von MP3 sind zum einen, dass es aufgrund der
separaten Header für jeden Datenblock möglich ist ein MP3-File in
sogenannter variabler Bitrate (VBR) zu kodieren. Darunter versteht man,
dass der Datenstrom nicht mit einer konstanten Bitrate fließt, sondern, je
nach Qualitätsansprüchen variiert werden kann. Zum Beispiel kann es in ein
und demselben Musikstück Passagen geben, die eine hohe Qualität und
damit eine hohe Bitrate erfordern und wiederum andere, die vielleicht kaum
relevante Information enthalten und deshalb mit einer sehr geringen Bitrate
kodiert werden können. Auf diese Art kann man bei subjektiv gleicher
Audioqualität eine beachtliche Reduktion der Dateigröße erreichen.
Die Blockstruktur von MP3 hat allerdings auch Nachteile. So sind nicht alle
Blöcke unabhängig voneinander, das heißt, nicht jeder beliebige Block kann
ohne Weiteres wiedergegeben werden. Jedoch ist die Information von
maximal neun anderen Blöcken erforderlich um einen Block abspielen zu
können.
Eine weitere technische Eigenschaft ist die sogenannte Intensity StereoTechnik. Sie basiert auf der Beobachtung, dass das menschliche Gehör bei
sehr hohen bzw. sehr niedrigen Frequenzen die Richtung nicht mehr gut
oder gar nicht mehr wahrnehmen kann. Deshalb werden bei Anwendung der
Intensity Stereo Technik hohe und niedrige Frequenzen nicht in stereo
kodiert, sondern in mono mit einem geringen Zusatz an
Richtungsinformation. Außerdem werden bei Signalen, die sehr wenig
Stereo-information enthalten (das heißt der linke und rechte Kanal
unterscheiden sich nur geringfügig) nicht beide Kanäle kodiert, sondern nur
einer und die jeweilige Differenz zum anderen Kanal.
14
4.2 Adaptive Transform Acoustic Encoding (ATRAC)
Entwickelt von SONY als Codec für Mini Disk. Bei einer Mini Disk handelt
es sich um ein Speichermedium, welches ca. ein Fünftel der Kapazität einer
normalen Audio-CD aufweist.
Jedoch konnte durch Komprimierung eine Spielzeit von 74 Minuten erreicht
werden (entspricht normaler Audio-CD-Spielzeit). Die Komprimierungsrate
von ATRAC ist also ca 5 : 1.
Die Funktionsweise basiert ähnlich wie MPEG auf einem psychoakustischen Modell, wobei das Audiosignal zunächst in drei Subbänder
aufgeteilt wird, welche dann nochmals weiter unterteilt werden.
Ein Nachteil von ATRAC ist, dass bei mehrfacher En- und Dekodierung
Kaskadenefekte auftreten können, die die Audioqualität mindern.
4.3 Dolby AC-1
Von der amerikanischen Firma Dolby entwickelt ist ihr Audio Code 1
(AC1) für Satellitenübertragung für Fersehen und Radio entwickelt worden.
Auch dieses Verfahren basiert auf einem psycho-akustischen Modell. Das
Signal wird in mehrere überlappende Subbänder unterteilt, die dann
letztendlich je nach Wichtigkeit mehr oder weniger Bits zur Kodierung
erhalten. Mit dieser Methode kann bei Erhaltung einer sehr hohen Qualität
das Audiosignal um den Faktor 3 in seiner Größe reduziert werden.
4.4 Dolby AC-2
Dieser Standard kommt vor allem bei professionellen Audioanwendungen,
aber auch in einigen PC-Soundkarten zum Einsatz.
Er besitzt eine sehr hohe Qualität bei einer Datenrate von 256kbps sowie
eine Komprimierungsrate von ca. 6 : 1. Durch die zusätzliche Technik der
Time Domain Aliasing Cancellation (TDAC) werden Aliasingeffekte
vermieden.
4.5 Dolby AC-3
Vorallem für die Komprimierung von Mehrkanal-Signalen kommt dieses
Vefahren zum Einsatz. Anwendung findet es im Heimkinobereich, da es 6
Kanäle kodieren kann (eigentlich nur 5 tatsächliche Kanäle und einen Bass-
15
Kanal, der in seinem Frequenzbereich stark eingeschränkt ist – bis maximal
120 Hz)
Maskierungseffekte werden bereits vor der eigentlichen Komprimierung
genutzt, um irrelevante Daten aus dem Audiosignal zu entfernen.
Dolby AC-3 ist ebenfalls sehr verbreitet in Kinos (hier mit 640 kbps),
wogegen er auf DVDs „nur“ mit 384 kbps Anwendung findet.
4.6 OggVorbis
An dieser Stelle möchte ich kurz einen Open-Source-Ansatz erwähnen.
OggVorbis ist dem oben beschriebenen MP3 sehr ähnlich und entstand
mehr als lizenzfreie Variante des MPEG-Standards. Es ist subjektiv bei
niedrigen Bitraten sogar qualitativ hochwertiger als sein Konkurrent MP3.
4.7 Musical Instrument Digital Interface (MIDI)
Zum Schluss soll noch ein Außenseiter der Audio-Formate kurz erläutert
werden. Das MIDI-Format ist kein Audio-Codec im eigentlichen Sinne, da
in einer MIDI-Datei keinerlei Audio-Informationen enthalten sind. MIDI ist
hauptsächlich zur Ansteuerung von elektronischen Musikinstrumenten, aber
auch PC-Soundkarten gedacht. Man kann sich ein MIDI-File am besten als
Dirigent eines Orchesters vorstellen. Er allein wäre auch nicht in der Lage
auch nur einen einzigen Ton zu spielen. Aber da er ein komplettes Orchester
zur Verfügung und alle Partituren als Notenblätter vor sich hat, weiß er
genau welche „Befehle“ er an das Orchester geben muss, damit es das
gewünschte Musikstück spielt. Ähnlich macht das eine MIDI-Datei mit
elektronischen Musikinstrumenten bzw. einer Soundkarte. So sind im
General-Midi-Standard (GM) 128 Instrumente spezifiziert, die zur
Verfügung stehen (angefangen von Klavier, über Streicher bis hin zur EGitarre und Schlagzeug). In der MIDI-Datei stehen nun genaue
Informationen wann, welches Instrument für wielange welchen Ton spielt.
Sozusagen die Partitur. Aber nicht nur Instrument, Zeit, Tondauer und
Tonhöhe sind genau angegeben, bei einigen Instrumenten und Soundkarten
können noch spezifische Parameter wie Tremolo (z.B. bei einem Streicher)
oder Dämpfung (z.B. bei einer Jazz-Trompete) enthalten sein.
Auf diese Weise erreicht man eine unglaubliche Datenreduktion. Der
Nachteil ist allerdings, dass die Tonqualität sehr stark von der verwendeten
Hardware (Soundkarte) abhängig ist.
16
5. Zusammenfassung
Meine Ausarbeitung sollte das Themengebiet der Audio-Speicherung, Komprimierung und –Kodierung behandeln, sowie am Schluss einige
Codecs und Ihre Anwendungsgebiete aufführen.
Wir haben gesehen, wie ein analoges Schallsignal mittels Digitalisierung
auf ein Computersystem gebracht werden kann, welche verschiedenen
Verfahrensweisen es dafür gibt und wo ihre Vor- und Nachteile liegen.
Desweiteren habe ich Möglichkeiten zur Datenreduktion aufgezeigt, um ein
digitales Audiosignal auch für Internetanwendungen attraktiv zu machen.
Gezieltes Weglassen von nichtrelevanten Daten ist hierfür unvermeidlich.
Das vierte Kapitel sollte einen Überblick über heutige Audioformate und
Audiocodecs geben und kurz die Besonderheiten der einzelnen Verfahren
hervorheben.
17
Index
Abtasttheorem
analog
ATRAC
Chunk
Codec
Datenreduktion
Differenzielle PCM
Differenzkodierung
digital
digitales Fernsehen
Digitalisierung
Dolby
DVD
Format
Fourier-Transformation
Frauenhofer Institut
Frequenz
Frequenzraum
Gehör
Header
Heimkino
Hufmann-Kodierung
ID3-Tag
Intensity Stereo
Kino
Kodierung
Kompressionsrate
Komprimierung
verlustbehaftete
verlustfreie
Lautstärke
Mehrkanalsignal
MIDI
Mini Disk
MP3
MPEG
OggVorbis
open source
PCM
predictive Coding
7
5
12, 14
12
12
9
8
9
5
12
5
15
12
12
11
13
4
11
9
13
15
9
13
14
15
5, 8
9
9
9
4
15
16
14
13
12
12, 16
16
8
11
18
Prediktion
lineare
psychoakustisches Modell
Pulse Code Modulation
Quantisierung
Quantisierungsintervalle
Quantisierungsrauschen
-fehler
RIFF
Sampling
Samplingrate
Satellitenübertragung
Schall
Schalldruck
Sinuswelle
Soundkarte
spectral Coding
Streaming
Sub-Band-Coding
Tonhöhe
Transform Coding
Überlagerung
Übertragung
Verdeckung
simultane
temporäre
WAV
wertkontinuierlich
zeitkontinuierlich
9
11,13, 15
8
5
5
6
6
12
5
7
15
4
4
11
15, 16
11
9
11,13
4
11
10
9
10
10
12
5
5
19
Glossar
Abtasttheorem: Theorem über die Mindestfrequenz, mit der ein analoges
Signal abgetastet werden muss. (fs > 2 fmax)
Chunk: Einheit. Etwas, das als ein Ganzes betrachtet werden kann.
Codec: Vorschrift zur Kodierung/Dekodierung von Daten
Digitalisierung: Vorgang der Umwandlung eines analogen in ein digitales
Signal.
Fourier-Transformation: mathematisches Verfahren zur Darstellung einer
Funktion mit Hilfe der Summe von anderen periodischen Funktionen.
Hufmann-Kodierung: Kodierungsverfahren, bei dem die Wortlänge
umgekehrt proportional zur Häufigkeit des Wortes gewählt wird.
Intensity Stereo: Hohe bzw. niedrige Frequenzen werden nicht stereo
kodiert, um Speicherplatz zu sparen. Vom Menschen nicht wahrnehmbar.
Komprimierung: Vorgang zur Reduktion der Datenmenge.
psychoakustisches Modell: Modell zur Simulation des menschlichen Hörvorgangs durch ein Computersystem.
Streaming: Echtzeitübertragung von Daten. Bereits während der Datenübertragung ist es möglich die Datei, soweit geladen, abzuspielen.
Pulse Code Modulation: Bezeichnung für den Vorgang der Digitalisierung
und Kodierung von Audiodaten.
Verdeckung: Überlagerung eines leisen Audiosignals durch ein lauteres
20
Wichtige Internetadressen
http://www.mpeg.org - Index of MPEG resources
http://www.w3c.org – Word Wide Web Community
21
Abkürzungen und Akronyme
ATRAC – Adaptive Transform Acoustic Encoding
CD – Compact Disc
DVD – Digital Versatile Disc
MP3 – MPEG 1 Layer 3
MPEG – Moving Picture Experts Group
MIDI – Musical Instrument Digital Interface
PCM – Pulse Code Modulation
RIFF – Resource Interchange File Format
22
Quellennachweis:
[MS04]
Christoph Meinel, Harald Sack
WWW – Kommunikation, Internetworking, WebTechnologien
Springer Verlag 2004
23