Kodierung und Komprimierung von Audiodaten
Transcription
Kodierung und Komprimierung von Audiodaten
Kodierung und Komprimierung von Audiodaten Seminararbeit im Seminar Neue Technologien in Internet und WWW Wintersemester 2003/2004 Universität Jena Norman Bichler Januar 2004 Abstract Das Seminarthema „Kodierung und Komprimierung von Audiodaten“ versucht Fragen der Art zu klären, wie: „Wie kann ein analoges Schallsignal in ein digitales Computersystem gebracht werden?“, „Welche Fehler treten dabei auf?“ oder „Welche Verfahren dafür gibt es?“ Des weiteren werden Methoden zur Komprimierung aufgezeigt, wie und warum diese funktionieren und welche Vor- und Nachteile die einzelnen Verfahren haben. Am Schluss werden unterschiedliche Audioformate und -Codecs behandelt. Sowohl komprimierte (insbesondere MP3) als auch unkomprimierte (wie WAV) Formate werden hinsichtlich Qualität, Dateiaufbau und zugrundeliegender Techniken analysiert. 2 Inhaltsverzeichnis Abstract 2 Inhalt 3 1 Einleitung 4 2 Digitalisierung von Audiosignalen 5 3 Komprimierung von Audiodaten 9 3.1 Verfahren der Audiokomprimierung 11 3.2 Grundlagen der Fourier-Transformation 11 4 Formate und Codecs 12 4.1 MPEG-1 Layer 3 13 4.2 ATRAC 14 4.3 Dolby 15 4.4 OggVorbis 16 4.5 MIDI 16 5 Zusammenfassung 17 Index 18 Glossar 20 Wichtige Internetadressen 21 Abkürzungsverzeichnis 22 Quellenverzeichnis 23 3 1 Einleitung Schall – was ist das eigentlich? Es handelt sich, physikalisch gesehen, um Schwingungen von Molekülen in einem elastischen Medium, die sich wellenförmig ausbreiten. Dabei entspricht der Schalldruck (also sozusagen die Stärke, mit der die Moleküle schwingen) der wahrgenommenen Lautstärke und die Frequenz, mit der sich die Schwingung ausbreitet wird vom Menschen als Tonhöhe interpretiert (wobei gilt: je höher die Frequenz, desto höher der wahrgenommene Ton). Schall ist also, wie die meisten Dinge in der Natur, ein analoges Signal. Es stellt sich daher die Frage, wie man dieses Schallsignal auf ein digitales Computersystem bringt. Kapitel 2 wird versuchen, dies zu klären. Darin wird auf Begriffe wie Sampling, Quantisierung und Kodierung eingegangen, sowie einige Verfahren der Digitalisierung behandelt. Sind die analogen Schalldaten nun digitalisiert, das heißt, in Form von Einsen und Nullen auf einem Computersystem gespeichert, werden wir in Kapitel 3 sehen, wie man diese Daten komprimieren kann. Das bedeutet wir werden versuchen die Anzahl der Einsen und Nullen zu verringern, ohne dabei (relevante) Audioinformation zu verlieren („relevant“ ist hier stark abhängig vom Kontext. So wird bei einem Brandenburgischen Konzert mehr relevante Information zu erhalten sein als bei einem Telefongespräch). Wichtig ist diese Komprimierung zum einen, um auf dem Computer selbst platzsparender zu speichern (aufgrund der steigenden Kapazität heutiger Festplatten aber immer weniger von Bedeutung), zum anderen spielt Audiokomprimierung für die Datenübertragung im Internet eine sehr große Rolle. Das vierte Kapitel behandelt verschiedene Audiocodecs. Das sind, einfach gesprochen, Vorschriften zur Kompression, Speicherung und Dekompression der Audiodaten. Neben dem wohl populärsten Codec MP3, werden auch ATRAC, Dolby AC, OggVorbis und Außenseiter MIDI behandelt. 4 2 Digitalisierung von Audiosignalen Ein Schallsignal ist analog, das heißt, es ist in seinem Verlauf sowohl zeitals auch wertekontinuierlich. Auf einem Computer werden Daten aber nicht analog (wie es zum Beispiel auf einer Schallplatte der Fall ist), sondern digital abgespeichert, das heißt, das Signal muss zeit- und wertediskret sein. Also muss unser analoges Schallsignal einen Prozess durchlaufen, der es von analog in digital wandelt. Dieser Prozess, sinnigerweise „Digitalisierung“ genannt, unterteilt sich in drei Schritte: Abtastung (oder auch Sampling), Quantisierung und Kodierung. Beim Sampling wird sich der Zeitdiskretisierung angenommen. Das analoge Signal wird in einer bestimmten Frequenz über die Zeit abgetastet und nur die zu diesen diskreten Zeitpunkten gemessenen Werte werden weiter berücksichtigt, alle anderen verworfen. Somit haben wir eine endliche Anzahl von Werten, die aber immer noch potentiell beliebig genau sein können. Dieses Problem wird durch den zweiten Schritt, die Quantisierung, gelöst. Die beliebig genauen Werte werden schlicht auf den nächsten diskreten Wert gerundet, die sogenannten Quantisierungsintervalle. Sampling Abb.1 analoges Signal Abb.2 abgetastetes, analoges Signal Quantisierung Abb.3 zeitdiskret/wertekontinuierlich Abb.4 digitales Signal 5 Bei diesem Runden entstehen natürlich Fehler, da nicht der exakte, sondern nur der gerundete Wert abgespeichert wird. Sind zu wenig Quantisierungsintervalle vorhanden, kann dieser Fehler zu hörbaren Qualitätseinbußen führen. Man nennt diesen Effekt daher auch Quantisierungsrauschen oder Quantisierungsfehler. Wir werden später Verfahren kennenlernen, um diesen Fehler zu minimieren. Um die Begriffe Sampling und Quantisierung noch einmal zu verdeutlichen, sollen sie nun anhand eines Beispiels erläutert werden. Die wohl jedem gut bekannte Audio-CD enthält die Audiodaten natürlich auch in digitaler Form. Wie sind hier Abtastfrequenz und Quantisierungsintervalle gewählt? Wieviel Minuten Musik passen rein rechnerisch auf eine 650MB große CD? Signale für eine Audio-CD werden 44100 mal pro Sekunde abgetastet, die Samplingrate beträgt also 44.1kHz (zu den Gründen dieser speziellen Frequenz später mehr). Die Quantisierungsintervalle werden mit 16bit dargestellt (es ergeben sich also 216 Intervalle). Desweiteren liegt das Audiosignal in Stereo vor. Die Berechnung ergibt sich also wie folgt: 44100 mal in einer Sekunde müssen 16 bit gespeichert werden. 44100 s-1 * 16 bit = 705600 bit/s Ein Byte hat bekanntermaßen 8 bit. 705600 bit/s / 8 = 88200 byte/s Aufgrund der Stereoeigenschaft wird linker und rechter Kanal separat kodiert. Der Wert verdoppelt sich also. 88200 byte/s * 2 = 176400 byte/s Bisher haben wir also berechnet, dass pro Sekunde Audioinformation auf der CD 176400 Byte belegt werden. Wie viele Sekunden passen demnach auf ein Megabyte (=1048567 Byte)? 1048567 byte / 176400 byte/s = 5,94 s Jetzt müssen wir diesen Wert nur noch mit 650 multiplizieren, und wir haben die Anzahl der Sekunden, die auf 650 MB passen. 5,94 s * 650 = 3863,8 s = 64,4 min Der aufmerksame Leser wundert sich nun vielleicht darüber, dass auf einem gekauften 650MB CD-Rohling die Angabe 74 Minuten zu finden ist. Dies ist ganz einfach dadurch zu erklären, dass sich die 650MB auch tatsächlich auf Daten beziehen, die 74 Minuten auf Musik. Möchte ich den Rohling nämlich als Daten-Medium nutzen, fallen noch etliche Bytes an Verwaltungsinformation an, die zusätzlich zu den eigentlichen Daten auf der CD gespeichert werden müssen. Diese entfallen bei der Nutzung des Rohlings als Audio-CD und der so zusätzlich gewonnene Speicherplatz kann für Musik genutzt werden. 6 An dieser Stelle möchte ich noch einmal auf die oben bereits angesprochene Frequenz von 44.1kHz zurückkommen. Wieso ausgerechnet diese Frequenz? Um diese Frage beantworten zu können, müssen wir uns zwei Dinge verdeutlichen. Als erstes sei das sogenannte Abtasttheorem von Shannon erwähnt. Es besagt Folgendes: Ein analoges Signal kann dann und nur dann fehlerfrei rekonstruiert werden, wenn die Abtastfrequenz (Samplingrate) mindestens doppelt so groß ist, wie die höchste im Signal vorkommende Frequenz. (fs > 2 fmax) Das klingt zunächst kompliziert, lässt sich aber anhand einer kleinen Illustration leicht verdeutlichen: Abb.5 Abtasttheorem Bei einer Abtastfrequenz von größer-gleich der maximal vorkommenden Signalfrequenz ist sichergestellt, dass in jedem Periodendurchlauf des Signals mindestens 2 Abtastpunkte liegen, wodurch man das Signal eindeutig rekonstruieren kann. Hält man diese Samplingrate nicht ein, so kommt es zu Mehrdeutigkeiten oder Fehlinterpretationen des Ausgangssignals. In Abb.5 durch die grauen Abtastpunkte verdeutlicht, die zum Beispiel auch die gestrichelte Signallinie als mögliches Ausgangssignal zulassen würden. Das Abtasttheorem vorausgesetzt kann man sich nun leicht überlegen, welche Samplingrate nötig ist, um alle vom Menschen wahrnehmbare Frequenzen rekonstruierbar zu digitalisieren. Der menschliche Hörbereich ist von ca. 20 Hz bis ca. 22kHz (personenspezifische Unterschiede vernachlässigt). Das bedeutet, wir müssen lediglich noch sicherstellen, dass auch die höchstmöglichen Frequenzen in einem Audiosignal (22kHz) entsprechend ausreichend abzutasten. So ergibt sich die für Audio-CDs und auch Semi-professionelle Musikbearbeitung typische Samplingrate von 44,1kHz. 7 Nachdem wir uns auf den vorangegangenen Seiten mit den ersten beiden Schritten der Digitalisierung beschäftigt haben, kommen wir nun zur dritten Stufe, der Kodierung. Unter Kodierung versteht man ganz einfach die Beschreibung der Quantisierungsintervalle durch bestimmte binäre Codewörter. Dies schließt den Prozess analog-digital-Wandlung ab und wir haben nun ein rein digitales Signal vorliegen. Der gesamte Vorgang der Umwandlung von analog nach diskret wird auch als Pulse Code Modulation (PCM) oder Waveform Encoding bezeichnet. Hier unterscheidet man die folgenden drei wichtigen Verfahren: Lineare PCM Dynamische PCM Differenzielle PCM Lineare PCM: Bei der linearen PCM wird das Audiosignal in gleich große Quantisierungsintervalle zerlegt. Der Vorteil liegt klar auf der Hand: Bei genügend feiner Rasterung, das heißt, bei genügend großer Anzahl an Quantisierungsintervallen fällt das Quantisierungsrauschen sehr gering aus. Dies bedeutet aber auch, dass eine hohe Datenrate notwendig ist, da bei jedem Abtasten sehr viele Bits gespeichert werden müssen. Dynamische PCM: Die dynamische PCM benötigt im Vergleich zur linearen PCM weniger Quantisierungsintervalle bei subjektiv gleichbleibender Audioqualität. Dies wird durch eine z.B. logarithmische Einteilung der Intervalle erreicht, durch welche leise Passagen feiner Unterteilt werden, als laute. Dies entspricht der menschlichen Hörgewohnheit, da in der RealitätSignale mit hohen Amplituden vom Menschen schlechter differenziert werden können. Differenzielle PCM: Im Unterschied zu den beiden vorhergehenden Typen werden bei der differenziellen PCM nicht die Signalwerte selbst, sondern nur die Differenzen aufeinanderfolgender Abtastwerte kodiert. Dies ist sinnvoll, da bei vielen Signalen die Differenz zweier folgender Werte meist nur gering ist. Trotzdem werden in fest definierten Abständen Referenzpunkte eingefügt, in denen der tatsächliche Abtastwert kodiert wird. Nachteil dieses Verfahrens ist, dass bei schnellen Signalschwankungen schwerwiegende Quantisierungsfehler auftreten können. 8 3 Komprimierung von Audiodaten In Kapitel 2 haben wir gesehen, wie ein analoges Schallsignal auf ein digitales System gebracht werden kann. Wie ebenfalls aus Kapitel 2 ersichtlich, sind diese digitalisierten Daten relativ groß. Dazu sehen wir uns nocheinmal kurz das Beispiel mit der Audio-CD an. Nach der dort geführten Rechnung belegen rund 6 Sekunden ein Megabyte an Daten. Ein Musikstück von 4 Minuten wäre somit 40 MB groß. Auf einer heutigen Festplatte von 80GB würden gerade einmal 2000 Musikstücke Platz finden (Von anderen Daten wie Betriebssystem etc. abgesehen). Wen das nicht beeindruckt der halte sich einmal vor Augen, wie lange eine Übertragung eines solchen Musikstückes übers Internet dauern würde. Bei ISDN-Geschwindigkeit von 128kbps (auch ein DSL-Nutzer kann nicht schneller senden – und einer muss ja bei einer Übertragung der Sender sein) bedarf es rund 45 Minuten, um eine 4-minütige Musikdatei zu übertragen. Komprimierung, das heißt, Reduktion der Datenmenge bleibt also unumgänglich, um eine vertretbare Übertragungszeit oder gar Streaming1 sicherzustellen. Man unterscheidet Grundsätzlich zwei Arten der Audiokomprimierung: Die verlustfreie Komprimierung und die verlustbehaftete Komprimierung. Bei ersterer ist das Ursprungssignal auch nach der Komprimierung noch eindeutig wiederherstellbar und es treten keinerlei qualitätsmindernde Effekte auf. Das Grundprinzip der verlustfreien Komprimierung ist die Differenzkodierung mit linearer Prediktion. Differenzkodierung wurde schon in Kapitel 2 erläutert. Unter Prediktion versteht man das Nutzen des Wissens über das bereits kodierte Signals zur Vorhersage des Folgesignals. Auch hier speichert man nur die Differenz zwischen dem Signal und seiner Vorhersage. Wendet man nun noch eine Hufmann-Kodierung2 an, kann man auf diese Weise eine Kompressionsrate von immerhin 1 : 2 erreichen. Auch wenn diese Datenreduktion bereits beachtlich ist, reicht sie jedoch nicht aus um eine effiziente Übertragung über das Internet zu ermöglichen. Dies führt uns zur zweiten Komprimierungsart, der verlustbehafteten Komprimierung. Bei dieser Methode verringert man die Qualität gezielt, um sehr hohe Kompressionsraten zu erreichen. Das Grundprinzip: Nicht oder kaum wahrnehmbare Anteile der Audiodaten müssen nicht mitkodiert werden. Wie bereits eher erwähnt hat das menschliche Gehör einen Wahrnehmungsbereich von ca. 20 Hz bis 22kHz. Das heißt, Signale die außerhalb dieses Bereiches liegen, müssen gar nicht erst mitkodiert werden. Aber auch Signale, die innerhalb dieses Frequenzbereiches liegen können unter Umständen vom Menschen nicht wahrgenommen werden. Ein solches 1 2 Echtzeitübertragung (man hört, während man gleichzeitig noch herunterlädt) häufig vorkommende Kodewörter werden kürzer kodiert als selten vorkommende 9 Phänomen ist die sogenannte Verdeckung, auf die ich im Weiteren kurz eingehen möchte. Allgemein versteht man unter Verdeckung die Überlagerung eines leisen Signals durch ein lautes Signal, sodass das leise Signal nicht mehr wahrnehmbar ist (man sagt auch, das Signal liegt unter der sogenannten Verdeckungsschwelle). Hierzu ein kleines Beispiel: Stellen Sie sich vor, sie lesen diese Ausarbeitung hier in gedruckter Form an Ihrem Schreibtisch. Ansonsten ist es sehr ruhig in Ihrem Zimmer. Sie werden beim Weiterblättern das Knistern des Papiers vernehmen können. Nun stellen Sie sich die gleiche Situation vor, nur dass ihr rücksichtsloser Zimmergenosse meint, er müsse wahnsinnig laut Musik hören, während Sie sich weiterbilden wollen. Obwohl das Geräusch des Umblätterns zweifellos noch vorhanden ist (vorausgesetzt Sie kommen bei diesen widrigen Arbeitsbedingungen über die erste Seite hinaus), werden weder Sie noch Ihr Mitbewohner Notiz davon nehmen. Es wurde durch die laute Musik verdeckt. Würde man dieses Szenario aufnehmen, müsste man also das Papiergeräusch nicht mit kodieren. Abhängig vom Auftreten des Verdeckungssignals unterscheiden wir zwei Arten der Verdeckung: simultane Verdeckung temporäre Verdeckung Simultane Verdeckung: Ein Signal mit niedrigem Pegel wird durch ein zeitgleich auftretendes Signal mit hohem Pegel maskiert. Temporäre Verdeckung: Ein Signal mit niedrigem Pegel wird durch ein Signal mit hohem Pegel, welches nach (bis 200ms) oder kurz vor (bis 50ms) dem schwachen Signal auftritt ebenfalls maskiert. Simultane Verdeckung ist intuitiv klar. Die temporäre Verdeckung kann man sich am einfachsten dadurch erklären, dass dem menschlichen Ohr ja auch eine gewisse Mechanik zu Grunde liegt, die eine entsprechende Trägheit besitzt. 10 3.1 Verfahren der Audiokomprimierung In diesem Unterkapitel sollen kurz einige grundlegende Verfahren zur Komprimierung von Audiodaten vorgestellt werden. Bereits Erwähnung fand das Verfahren des Predictive Codings, bei dem das Folgesignal aufgrund des aktuellen Signals vorhergesagt wird und dann nur noch die Abweichung der Vorhersage vom tatsächlichen Wert gespeichert werden muss. Desweiteren gibt es das sogenannte Spectral- oder Transform Coding. Bei diesem Verfahren wird eine Fourier-Transformation (dazu gleich mehr) des Wellensignals durchgeführt, durch welche nun eine FrequenzraumDarstellung möglich ist. Diese Darstellung ändert sich langsamer, weshalb weniger Samples übertragen werden müssen [MS04]. Als letztes möchte ich auf das sogenannte Sub-Band-Coding eingehen, welchem ein psychoakustisches Modell zugrunde liegt. Das AudioSpektrum wird in verschiedene Frequenzbänder unterteilt. Fast alle Bänder beinhalten im Vergleich zu dem lautesten Band kaum relevante Information. Man nutzt dies bei der Komprimierung, indem man die wichtigen Bänder weniger stark „kürzt“ als die nicht so wichtigen. 3.2 Einschub: Grundlagen der Fourier-Transformation Wie Sie sehen, spielt die Fourier-Transformation bei der AudioKomprimierung eine wesentliche Rolle. Ich möchte nur kurz auf die Funktionsweise eingehen, da eine ausführliche mathematische Darstellung den Rahmen dieser Ausarbeitung sprengen würde und auch mehr zur Verwirrung als zum Verständnis beitrüge. Deshalb nur eine kleine grafische Veranschaulichung: Abb.6 Abb.7 Abb.8 Mit der Fourier-Transformation kann man ein Signal in den sogenannten Frequenzraum überführen. Dies basiert auf der Tatsache, dass sich jedes beliebige Signal als Summe von periodischen Funktionen darstellen lässt (Abb.7). Nun kann man diese (im Regelfall sehr viele) Sinuswellen einfach durch ihre zwei Parameter Frequenz und Amplitude darstellen (Abb.8). 11 4. Formate und Codecs In diesem Kapitel möchte ich auf verschiedene Audioformate und –Codecs eingehen. Eines der wohl bekanntesten und weit verbreitetsten Formate ist das WAV-Format. Es ist Bestandteil des Windows RIFF (Resource Interchange File Format). Der Dateiaufbau ist wie folgt gegeben: Es existieren mehrere, voneinander unabhängige Blöcke, oder auch Chunks genannt. Der Format-Chunk enthält Daten zum Format der einzelnen Sampleblöcke, die Anzahl der Kanäle, Samplingrate usw. Dann folgt der eigentliche Datenchunk, in welchem die Audiodaten in einer Reihe von Sampleblöcken vorliegen. In Abb.9 ist der Aufbau einer WAV-Datei nocheinmal grafisch dargestellt. RIFF-Chunk Format-Chunk Daten-Chunk RIFF chunk size size wave format data file size # channels WAVE # smp / sec avg bytes / sec block align bits / sample Abb.9 Aufbau einer WAV-Datei Im Folgenden sollen einige wichtige Audio-Codecs behandelt werden. Darunter verschiedene MPEG-Standards, ATRAC, Dolby sowie OggVorbis. Beginnen wir mit MPEG (Motion Picture Expert Group), ursprünglich ein Gremium für Kodierung von Video- und Audiodaten. Hauptsächlich sind folgende Entwicklungen dieser Organisation zu nennen: MPEG-1, welches bei VCDs (Video Compact Discs) Anwendung findet, sowie als MPEG-1Layer-3 (MP3) der wohl bekannteste Standard für Audiokomprimierung im Internet. Desweiteren MPEG-2 für Digitales Fernsehen und DVD, MPEG-4 im Bereich der mobilen Kommunikation, sowie MPEG-7 und -21, welche hauptsächlich zur Beschreibung und Idizierung von Audio- und Videodaten verwendet werden. 12 4.1 MPEG-1 Layer-3 - MP3 Ich möchte nun speziell auf MPEG-1-Layer-3 (MP3) eingehen. Dieser Standard wurde vom Frauenhofer Institut in Erlangen entwickelt. Es basiert auf dem bereits im vorigen Kapitel beschriebenen Sub-Band-Coding unter Zuhilfenahme eines psycho-akkustischen Modells. Im Gegensatz zu der oben beschriebenen WAV-Datei besitzt eine MP3-Datei keinen Header im eigentlichen Sinne, sondern besteht aus einer Aneinandereihung von einzelnen Datenblöcken, die aus jeweils einem eigenen Header und zugeordneten Audioinformationen bestehen. Die nächste Abbildung soll den Dateiaufbau kurz illustrieren, eine entsprechende Erklärung folgt. Sync MPEG ID | Layer | CRC Bitrate Index Samplingrate | Padding | Priv Channel mode | Mode Extens. Copyright flag | Original | Ephas. 16-bit CRC Audio Data ID3-Tag Abb.10 MP3 Dateiaufbau Zur Erklärung: Der Sync-Block dient lediglich zur Synchronisation (die ersten 11 Bits werden stets auf 1 gesetzt). Der zweite Block in der obigen 13 Zeichnung enthält Informationen über die MPEG-Version sowie die LayerVersion. Die nächsten Blöcke enthalten die verwendete Bitrate, die Samplingfrequenz, ob es sich um ein Stereosignal handelt sowie Copyrightinformationen. Dann folgt noch ein optionaler CRC-Block mit einer Prüfsumme, die dazu dient die fehlerfreie Übertragung der Datei sicherzustellen. Jetzt kommen die eigentlichen Audiodaten. Am Schluss befindet sich noch der sogenannte ID3-Tag, ein zusätzlicher Bereich, in dem Informationen zu den in der Datei befindlichen Audiodaten angegeben werden können, wie z.B. Interpret, Titel, Musikgenre usw. Der Kodierungsvorgang einer MP3-Datei gestaltet sich im Groben wie folgt: Zunächst wird die Eingabe maximal 576 gleichbreite Subbänder (je 750Hz breit) zerlegt. Nun wird jeweils ein Abtastwert in seine Spektralkomponenten zerlegt und auf die 576 Subbänder aufgeteilt. Mit Hilfe des zugrundeliegenden psychoakustischen Modells wird nun für jede Samplegruppe die Anzahl der benötigten Bits zur Kodierung bestimmt. Einige Eigenschaften von MP3 sind zum einen, dass es aufgrund der separaten Header für jeden Datenblock möglich ist ein MP3-File in sogenannter variabler Bitrate (VBR) zu kodieren. Darunter versteht man, dass der Datenstrom nicht mit einer konstanten Bitrate fließt, sondern, je nach Qualitätsansprüchen variiert werden kann. Zum Beispiel kann es in ein und demselben Musikstück Passagen geben, die eine hohe Qualität und damit eine hohe Bitrate erfordern und wiederum andere, die vielleicht kaum relevante Information enthalten und deshalb mit einer sehr geringen Bitrate kodiert werden können. Auf diese Art kann man bei subjektiv gleicher Audioqualität eine beachtliche Reduktion der Dateigröße erreichen. Die Blockstruktur von MP3 hat allerdings auch Nachteile. So sind nicht alle Blöcke unabhängig voneinander, das heißt, nicht jeder beliebige Block kann ohne Weiteres wiedergegeben werden. Jedoch ist die Information von maximal neun anderen Blöcken erforderlich um einen Block abspielen zu können. Eine weitere technische Eigenschaft ist die sogenannte Intensity StereoTechnik. Sie basiert auf der Beobachtung, dass das menschliche Gehör bei sehr hohen bzw. sehr niedrigen Frequenzen die Richtung nicht mehr gut oder gar nicht mehr wahrnehmen kann. Deshalb werden bei Anwendung der Intensity Stereo Technik hohe und niedrige Frequenzen nicht in stereo kodiert, sondern in mono mit einem geringen Zusatz an Richtungsinformation. Außerdem werden bei Signalen, die sehr wenig Stereo-information enthalten (das heißt der linke und rechte Kanal unterscheiden sich nur geringfügig) nicht beide Kanäle kodiert, sondern nur einer und die jeweilige Differenz zum anderen Kanal. 14 4.2 Adaptive Transform Acoustic Encoding (ATRAC) Entwickelt von SONY als Codec für Mini Disk. Bei einer Mini Disk handelt es sich um ein Speichermedium, welches ca. ein Fünftel der Kapazität einer normalen Audio-CD aufweist. Jedoch konnte durch Komprimierung eine Spielzeit von 74 Minuten erreicht werden (entspricht normaler Audio-CD-Spielzeit). Die Komprimierungsrate von ATRAC ist also ca 5 : 1. Die Funktionsweise basiert ähnlich wie MPEG auf einem psychoakustischen Modell, wobei das Audiosignal zunächst in drei Subbänder aufgeteilt wird, welche dann nochmals weiter unterteilt werden. Ein Nachteil von ATRAC ist, dass bei mehrfacher En- und Dekodierung Kaskadenefekte auftreten können, die die Audioqualität mindern. 4.3 Dolby AC-1 Von der amerikanischen Firma Dolby entwickelt ist ihr Audio Code 1 (AC1) für Satellitenübertragung für Fersehen und Radio entwickelt worden. Auch dieses Verfahren basiert auf einem psycho-akustischen Modell. Das Signal wird in mehrere überlappende Subbänder unterteilt, die dann letztendlich je nach Wichtigkeit mehr oder weniger Bits zur Kodierung erhalten. Mit dieser Methode kann bei Erhaltung einer sehr hohen Qualität das Audiosignal um den Faktor 3 in seiner Größe reduziert werden. 4.4 Dolby AC-2 Dieser Standard kommt vor allem bei professionellen Audioanwendungen, aber auch in einigen PC-Soundkarten zum Einsatz. Er besitzt eine sehr hohe Qualität bei einer Datenrate von 256kbps sowie eine Komprimierungsrate von ca. 6 : 1. Durch die zusätzliche Technik der Time Domain Aliasing Cancellation (TDAC) werden Aliasingeffekte vermieden. 4.5 Dolby AC-3 Vorallem für die Komprimierung von Mehrkanal-Signalen kommt dieses Vefahren zum Einsatz. Anwendung findet es im Heimkinobereich, da es 6 Kanäle kodieren kann (eigentlich nur 5 tatsächliche Kanäle und einen Bass- 15 Kanal, der in seinem Frequenzbereich stark eingeschränkt ist – bis maximal 120 Hz) Maskierungseffekte werden bereits vor der eigentlichen Komprimierung genutzt, um irrelevante Daten aus dem Audiosignal zu entfernen. Dolby AC-3 ist ebenfalls sehr verbreitet in Kinos (hier mit 640 kbps), wogegen er auf DVDs „nur“ mit 384 kbps Anwendung findet. 4.6 OggVorbis An dieser Stelle möchte ich kurz einen Open-Source-Ansatz erwähnen. OggVorbis ist dem oben beschriebenen MP3 sehr ähnlich und entstand mehr als lizenzfreie Variante des MPEG-Standards. Es ist subjektiv bei niedrigen Bitraten sogar qualitativ hochwertiger als sein Konkurrent MP3. 4.7 Musical Instrument Digital Interface (MIDI) Zum Schluss soll noch ein Außenseiter der Audio-Formate kurz erläutert werden. Das MIDI-Format ist kein Audio-Codec im eigentlichen Sinne, da in einer MIDI-Datei keinerlei Audio-Informationen enthalten sind. MIDI ist hauptsächlich zur Ansteuerung von elektronischen Musikinstrumenten, aber auch PC-Soundkarten gedacht. Man kann sich ein MIDI-File am besten als Dirigent eines Orchesters vorstellen. Er allein wäre auch nicht in der Lage auch nur einen einzigen Ton zu spielen. Aber da er ein komplettes Orchester zur Verfügung und alle Partituren als Notenblätter vor sich hat, weiß er genau welche „Befehle“ er an das Orchester geben muss, damit es das gewünschte Musikstück spielt. Ähnlich macht das eine MIDI-Datei mit elektronischen Musikinstrumenten bzw. einer Soundkarte. So sind im General-Midi-Standard (GM) 128 Instrumente spezifiziert, die zur Verfügung stehen (angefangen von Klavier, über Streicher bis hin zur EGitarre und Schlagzeug). In der MIDI-Datei stehen nun genaue Informationen wann, welches Instrument für wielange welchen Ton spielt. Sozusagen die Partitur. Aber nicht nur Instrument, Zeit, Tondauer und Tonhöhe sind genau angegeben, bei einigen Instrumenten und Soundkarten können noch spezifische Parameter wie Tremolo (z.B. bei einem Streicher) oder Dämpfung (z.B. bei einer Jazz-Trompete) enthalten sein. Auf diese Weise erreicht man eine unglaubliche Datenreduktion. Der Nachteil ist allerdings, dass die Tonqualität sehr stark von der verwendeten Hardware (Soundkarte) abhängig ist. 16 5. Zusammenfassung Meine Ausarbeitung sollte das Themengebiet der Audio-Speicherung, Komprimierung und –Kodierung behandeln, sowie am Schluss einige Codecs und Ihre Anwendungsgebiete aufführen. Wir haben gesehen, wie ein analoges Schallsignal mittels Digitalisierung auf ein Computersystem gebracht werden kann, welche verschiedenen Verfahrensweisen es dafür gibt und wo ihre Vor- und Nachteile liegen. Desweiteren habe ich Möglichkeiten zur Datenreduktion aufgezeigt, um ein digitales Audiosignal auch für Internetanwendungen attraktiv zu machen. Gezieltes Weglassen von nichtrelevanten Daten ist hierfür unvermeidlich. Das vierte Kapitel sollte einen Überblick über heutige Audioformate und Audiocodecs geben und kurz die Besonderheiten der einzelnen Verfahren hervorheben. 17 Index Abtasttheorem analog ATRAC Chunk Codec Datenreduktion Differenzielle PCM Differenzkodierung digital digitales Fernsehen Digitalisierung Dolby DVD Format Fourier-Transformation Frauenhofer Institut Frequenz Frequenzraum Gehör Header Heimkino Hufmann-Kodierung ID3-Tag Intensity Stereo Kino Kodierung Kompressionsrate Komprimierung verlustbehaftete verlustfreie Lautstärke Mehrkanalsignal MIDI Mini Disk MP3 MPEG OggVorbis open source PCM predictive Coding 7 5 12, 14 12 12 9 8 9 5 12 5 15 12 12 11 13 4 11 9 13 15 9 13 14 15 5, 8 9 9 9 4 15 16 14 13 12 12, 16 16 8 11 18 Prediktion lineare psychoakustisches Modell Pulse Code Modulation Quantisierung Quantisierungsintervalle Quantisierungsrauschen -fehler RIFF Sampling Samplingrate Satellitenübertragung Schall Schalldruck Sinuswelle Soundkarte spectral Coding Streaming Sub-Band-Coding Tonhöhe Transform Coding Überlagerung Übertragung Verdeckung simultane temporäre WAV wertkontinuierlich zeitkontinuierlich 9 11,13, 15 8 5 5 6 6 12 5 7 15 4 4 11 15, 16 11 9 11,13 4 11 10 9 10 10 12 5 5 19 Glossar Abtasttheorem: Theorem über die Mindestfrequenz, mit der ein analoges Signal abgetastet werden muss. (fs > 2 fmax) Chunk: Einheit. Etwas, das als ein Ganzes betrachtet werden kann. Codec: Vorschrift zur Kodierung/Dekodierung von Daten Digitalisierung: Vorgang der Umwandlung eines analogen in ein digitales Signal. Fourier-Transformation: mathematisches Verfahren zur Darstellung einer Funktion mit Hilfe der Summe von anderen periodischen Funktionen. Hufmann-Kodierung: Kodierungsverfahren, bei dem die Wortlänge umgekehrt proportional zur Häufigkeit des Wortes gewählt wird. Intensity Stereo: Hohe bzw. niedrige Frequenzen werden nicht stereo kodiert, um Speicherplatz zu sparen. Vom Menschen nicht wahrnehmbar. Komprimierung: Vorgang zur Reduktion der Datenmenge. psychoakustisches Modell: Modell zur Simulation des menschlichen Hörvorgangs durch ein Computersystem. Streaming: Echtzeitübertragung von Daten. Bereits während der Datenübertragung ist es möglich die Datei, soweit geladen, abzuspielen. Pulse Code Modulation: Bezeichnung für den Vorgang der Digitalisierung und Kodierung von Audiodaten. Verdeckung: Überlagerung eines leisen Audiosignals durch ein lauteres 20 Wichtige Internetadressen http://www.mpeg.org - Index of MPEG resources http://www.w3c.org – Word Wide Web Community 21 Abkürzungen und Akronyme ATRAC – Adaptive Transform Acoustic Encoding CD – Compact Disc DVD – Digital Versatile Disc MP3 – MPEG 1 Layer 3 MPEG – Moving Picture Experts Group MIDI – Musical Instrument Digital Interface PCM – Pulse Code Modulation RIFF – Resource Interchange File Format 22 Quellennachweis: [MS04] Christoph Meinel, Harald Sack WWW – Kommunikation, Internetworking, WebTechnologien Springer Verlag 2004 23