Skript zur Vorlesung "Kommunikationstechnik II"

Transcription

Skript zur Vorlesung "Kommunikationstechnik II"
Kommunikationstechnik II
Prof. Dr. Stefan Weinzierl
Autoren: Stefan Weinzierl & Alexander Lerch
Sommersemester 2006
Inhaltsverzeichnis
1
Einleitung
2
Grundlagen
2.1 Beschreibung von Zufallssignalen .
2.2 Abtastung . . . . . . . . . . . . . .
2.3 Quantisierung . . . . . . . . . . . .
2.4 Dither . . . . . . . . . . . . . . . .
2.5 Überabtastung . . . . . . . . . . . .
2.6 Noise-Shaping . . . . . . . . . . . .
2.7 Delta-Sigma-Modulation . . . . . .
2.8 Zahlendarstellung und Zahlenformat
2.8.1 Festkomma-Format . . . . .
2.8.2 Gleitkomma-Darstellung . .
3
4
5
A/D- und D/A- Wandlung
3.1 A/D-Wandler . . . . . . . . . . . .
3.1.1 Parallel-Wandler . . . . . .
3.1.2 SAR-Wandler . . . . . . . .
3.1.3 Delta-Sigma-Wandler . . .
3.2 D/A-Wandler . . . . . . . . . . . .
3.2.1 R-2R-Wandler . . . . . . .
3.2.2 Delta-Sigma-DA-Wandler .
3.3 Kenn- und Messgrößen für Wandler
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
12
15
19
25
26
28
29
30
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
35
35
35
35
36
Kodierung
4.1 Grundlagen der Informations- und Kodierungstheorie
4.2 Kanalkodierung . . . . . . . . . . . . . . . . . . . .
4.2.1 Einfache Kodes . . . . . . . . . . . . . . . .
4.2.2 Gruppenkodes . . . . . . . . . . . . . . . .
4.3 Fehlererkennung - Fehlerkorrektur . . . . . . . . . .
4.3.1 Parität und Hamming-Distanz . . . . . . . .
4.3.2 Blockkodes und Faltungskodes . . . . . . . .
4.4 Interfaces . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
43
43
44
45
47
48
50
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4.5
4.4.1 AES 3 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 AES 10 . . . . . . . . . . . . . . . . . . . . . . . . .
Bitratenreduktion . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Redundanzkodierung . . . . . . . . . . . . . . . . . .
4.5.1.1 Lineare Prädiktion . . . . . . . . . . . . . .
4.5.1.2 Entropiekodierung . . . . . . . . . . . . . .
4.5.1.3 Beispiel MPEG-4 ALS . . . . . . . . . . .
4.5.2 Irrelevanzkodierung . . . . . . . . . . . . . . . . . .
4.5.2.1 Verdeckung und Frequenzgruppen . . . . .
4.5.2.2 Beispiel MPEG-4 AAC . . . . . . . . . . .
4.5.2.3 Qualität . . . . . . . . . . . . . . . . . . .
4.5.2.4 Auswahlkriterien von Kodierungsverfahren .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
52
52
53
54
55
56
57
59
61
65
67
Abbildungsverzeichnis
69
Tabellenverzeichnis
71
Literaturverzeichnis
73
Kapitel 1
Einleitung
Seit Ende der 70er Jahre findet im Audiobereich ein grundlegender Systemwandel mit
der Ablösung analoger Systeme durch digitale Technologien statt. Wesentliche Gründe
für diesen Wandel waren
• die überwiegend überlegenen technischen Übertragungseigenschaften digitaler Audiotechnologie (Frequenzgang, Verzerrungen, Signal-Rauschabstand, Gleichlauf)
• die Möglichkeit verlustlosen Kopierens und Archivierens digitaler Inhalte
• umfangreichere Möglichkeiten der Signalbearbeitung und Editierung
• der Preisverfall digitaler Hard- und Software im Vergleich zu hochwertiger analoger
Schaltungstechnik
• die Konvergenz digitaler Medien auf Seiten der Audioindustrie (technologische
Konvergenz) wie auf Seiten der Rezipienten (Konvergenz der Mediennutzung)
Der Umstieg von analogen zu digitalen Aufzeichnungsverfahren im Audiobereich wurde von den meisten größeren Plattenfirmen Ende der 70er Jahre vollzogen. Das erste
im kommerziellen Einsatz befindliche, Harddisc-gestützte Aufnahme- und Editierungssystem wurde bereits 1976 von Thomas Stockham unter dem Namen Soundstream“ ent”
wickelt. In der Breite setzten sich in der Produktion jedoch zunächst bandgestützte Systeme durch: Sonys PCM 1600 Prozessor (1978), der ein zweikanaliges Digitalsignal
so formatierte, daß es auf einem 3/4-Zoll Videoband mit Schrägspuren (U-matic) aufgezeichnet werden konnte. Das weiterentwickelte 1610/1630-Format wurde schließlich
zum Premaster-Format für die CD-Fertigung. 1982 erschien Sony’s ursprünglich für den
Consumer-Bereich vorgesehener PCM-F1 Prozessor mit wahlweise 14 oder 16 Bit Wortbreite, der vor einen VCR-Recorder (Beta, VHS oder U-matic) geschaltet werden konnte.
Gleichzeitig mit den genannten 2-Spur-Systemen wurde 1978 von der Firma 3M eine digitale 16-Spur-Maschine mit 16 Bit- und 50 kHz-Aufzeichnung vorgestellt, auf der 1979
die ersten Digitalaufnahmen der Deutschen Grammophon aufgezeichnet wurden. Zu einem Quasi-Standard wurde Sonys 1981 eingeführte PCM-3324 Maschine mit 24 Spuren,
5
6
KAPITEL 1. EINLEITUNG
die mit 44.1 kHz Abtastfrequenz auch keine Konvertierungsprobleme bei der Herstellung
eines digitalen Premasters für die CD-Herstellung mehr stellte.
Bereits vor der Einigung auf ein digitales Tonträgerformat, das mit Markteinführung der
von Sony und Philips entwickelten Compact Disc (CD) abgeschlossen war, wurde die Produktionstechnik nachhaltig durch digitale Signalverarbeitung verändert. Darunter fallen
Entwicklungen wie Digitale Synthesizer, Sampling Keyboards bzw. Standalone-Sampler,
Drumcomputer und digital erzeugte Effekte wie Nachhallalgorithmen (Tabelle 1.1). 1983
wurde mit MIDI (Musical Instrument Digital Interface) ein Format für den Austausch
von Steuerdaten zwischen Computer, Synthesizern und Samplern geschaffen, das den Produktionsvorgang v.a. bei Aufnahmen von Popularmusik nachhaltig veränderte. Nach der
Einführung des Sequenzers war die Studiotechnik nicht mehr nur Mittel zur Übertragung
und Abbildung von Audiosignalen (und sei es durch deren Verfremdung), sondern sie
erlaubte eine programmgesteuerte Konstruktion des musikalischen Verlaufs selbst.
Hardware
Dig. Synth. /Sampling Keyboard
Synclavier
Fairlight CMI
E-mu Emulator
Kurzweil 250
Yamaha DX7
Dig. Effekt / Nachhall
Lexicon Delta-T 101 Digital Delay
EMT 250 Digital Reverberation
Lexicon 224 Digital Reverberation
Lexicon 480 Digital Reverberation
Sony DRE-S777 Sampling Reverb
Drumcomputer
Linn LM-1
MIDI Standard
Editoren
Sony DAE-1100 Umkopierschnittplatz
Sony DAE-3000 Umkopierschnittplatz
Sonic Solutions Harddisc Editing
Markteinführung
Einführungspreis
1978
1979
1981
1983
1983
100.000 DM
100.000 DM
20.000 DM
30.000 DM
4.000 DM
1971
1976
1978
1986
1999
7.900 $
1980
1983
5.000 $
1980
1987
1988
ca. 200.000 DM
ca. 200.000 DM
Tabelle 1.1: Einzug digitaler Signalverarbeitung im Tonstudiobereich
Im Consumer-Bereich wurde die Audio CD (CD-A) im Laufe der 80er Jahre zu einer
ganzen Familie von CD-Formaten erweitert, von denen die Daten-CD für ComputerAnwendungen (CD-ROM) und ein beschreibbares Format (CD-R) die größte Verbreitung
fanden. Das ursprünglich für den Consumer-Markt entwickelte Digital Audio Tape mit
rotierenden Tonköpfen (R-DAT, später einfach DAT) fand dort nur geringe Akzeptanz,
etablierte sich jedoch als 2-kanaliges Speichermedium im Tonstudio-Bereich. Nicht alle
digitalen Speicher konnten sich am Markt behaupten: Die Produktion der 1992 als Konkurrenz zur MiniDisc von Phillips eingeführten Digital Compact Cassette (DCC) wurde
1996 wieder eingestellt.
7
Mit der DVD-Video und der DVD-ROM begann 1997 die Einführung der Digital Versatile
Disc (DVD) als Nachfolger der CD-Familie. Äußerlich kaum von der CD unterscheidbar,
besitzt die DVD eine 8-fach höhere Datendichte auf bis zu 4 Datenschichten. Jüngster Vertreter der Familie war die 1999 eingeführte DVD-Audio, die seither mit der von Sony und
Phillips entwickelten Super Audio CD (SACD) auf dem audiophilen Markt konkurriert
(Tabelle 1.2).
Tonträger/Format
PCM-1600 (U-matic)
PCM-1 (Betamax)
Digitale Mehrspurrekorder
(3M, Sony PCM 3324)
PCM-F1
ADAT (Alesis)
DA-88 (Tascam)
Compact Disc (CD)
CD-ROM
CD-R
Digital Audio Tape (DAT)
MiniDisc (MD)
Digital Compact Cassette (DCC)
DVD-Video
DVD-ROM
DVD-Audio
Super Audio Disc (SACD)
Markteinführung
1978
1978
1982
1991
1993
1982 (Europa, Japan)
1983 (USA)
1985
1990
1987
1991
1992 (bis 1996)
1997
1999
1999
Tabelle 1.2: Einführung digitaler Speichermedien
Auch im Bereich des Filmtons konkurrieren seit Mitte der 90er Jahre drei Systeme, die
Mehrkanalton in einem datenreduzierten Format zur Verfügung stellen: Dolby Digital und
Sony Dynamic Digital Sound (SDDS), die als digitaler Lichtton auf der Filmrolle abgelegt
sind, sowie das von Digital Theater Systems entwickelte DTS, bei dem sich der Ton auf
einer externen CD-ROM befindet, die mittels einer auf den Film belichteten TimecodeSpur zum Bild synchronisiert wird.
Format
DTS
Dolby Digital
SDDS
Premierenfilm
Jurassic Park
Batman Forever
Last Action Hero
Jahr
1993
1995
1993
Kanäle
5
6
8
Codec
apt-X100
AC-3 (Dolby Digital)
ATRAC
Tonträger
CD-ROM (ext.)
Film
Film
Tabelle 1.3: Digitale Filmton-Formate
Aktuelle Entwicklungen im Bereich der digitalen Audiotechnik sind
• die Verlängerung der digitalen Übertragungskette durch die Entwicklung von Mi-
8
KAPITEL 1. EINLEITUNG
krofonen mit digitalen Ausgangssignalen und Lautsprechern, die digitale Eingangssignale verarbeiten
• die Weiterentwicklung von Wandler-, Kodierungs- und Speichertechnologie hin zu
höheren Wortbreiten und Abtastraten
• die Erschließung neuer Übertragungs- und Vertriebskanäle durch digitalen Rundfunk, digitales Fernsehen, lokale Netzwerke und das Internet.
Kapitel 2
Grundlagen
2.1
Beschreibung von Zufallssignalen
Signale, die sich durch analytische Ausdrücke wie Sinus- oder Rechteckfunktionen beschreiben lassen, nennt man deterministische Signale, da sie einen vorhersagbaren Verlauf besitzen. In der Audiotechnik (ebenso wie in der Bildverarbeitung)hat man es in der
Regel mit nicht-deterministischen Signalen (stochastische Signale, Zufallssignale) zu tun,
deren Verlauf sich nicht durch einen mathematischen Ausdruck beschreiben lässt.
Das Handwerkszeug, mit dem Zufallssignale beschrieben werden, ist die Zuordnung von
statistischen Mittelwerten zu einem Zufallsprozess. Dies können Mittelwerte über die verschiedenen Ausprägungen (auch Realisationen oder Musterfunktionen) eines Zufallsprozesses sein, sog. Scharmittelwerte, oder Mittelwerte über den Verlauf eines Zufallsignals
entlang der Zeitachse (Zeitmittelwerte). Bei ergodischen Prozessen lassen sich Scharmittelwerte durch Zeitmittelwerte ersetzen.
Die Zuordnung von Mittelwerten zu einem Zufallsprozess setzt die Kenntnis der Wahrscheinlichkeit voraus, mit der die stochastische Variable X einen Wert bzw. eine Signalamplitude x annimmt. Für diskrete Variablen ist dies die Einzelwahrscheinlichkeit
pi = P (X = xi )
(2.1)
0 ≤ pi ≤ 1
(2.2)
X
(2.3)
mit der Bedingung
und der Normierung
pi = 1
i
Für kontinuierliche Variablen X beschreibt die Wahrscheinlichkeitsdichtefunktion (WDF)
pX (x) die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen x und x+dx annimmt:
9
10
KAPITEL 2. GRUNDLAGEN
pX (x)dx = P (x < X ≤ x + dx)
(2.4)
pX (x) ≥ 0
(2.5)
mit der Bedingung
und der Normierung
Z
+∞
pX (x)dx = 1
(2.6)
−∞
Auf die doppelte Formulierung für diskrete und kontinuierliche Variablen X soll in Zukunft verzichtet werden, da sich die eine leicht aus der anderen ableiten lässt.
Die Wahrscheinlichkeitsdichtefunktion pX (x) lässt sich aus der Messung von einzelnen
Realisationen schätzen oder aus theoretischen Annahmen über den zugrundeligenden Prozess ableiten. Mit Hilfe der WDF lassen sich der Zufallsvariablen X sog. Erwartungswerte
zuordenen mit
Z +∞
f (x)pX (x)dx
(2.7)
E{f (X)} =
−∞
wobei f (X) eine beliebige Funktion der Zufallsvariable X ist.
Für f (X) = X ergibt sich der lineare Mittelwert
Z +∞
E{X} =
xpX (x)dx = µX
(2.8)
−∞
Für f (X) = X 2 ergibt sich der quadratische Mittelwert
Z +∞
2
E{X } =
x2 pX (x)dx
(2.9)
−∞
Für f (X) =| X − µX |2 ergibt sich mit
Z +∞
2
2
E{| X − µX | } =
| x − µX |2 pX (x)dx = σX
(2.10)
−∞
2
die Varianz σX
der Zufallsvariablen X.
Die Autokorrelationsfunktion (AKF) eines Signals x(t) ist definiert durch
ϕxx (t1 , t2 ) = E{x(t1 )x(t2 )}
(2.11)
Sie ist ein Erwartungswert 2. Ordnung, da sie von der Signalamplitude zu zwei verschiedenen Zeitpunkten t1 und t2 abhängt. Für stationäre Zufallsprozesse hängen die Erwartungswerte 2. Ordnung nicht von den konkreten Zeitpunkten t1 und t2 ab, sondern nur
2.1. BESCHREIBUNG VON ZUFALLSSIGNALEN
11
von der Differenz τ = t1 − t2 . Falls diese Bedingung nicht für alle Erwartungswerte 2.
Ordnung, sondern nur für die AKF erfüllt ist, spricht man von einem schwach stationären
Prozess. In diesem Fall gilt
ϕxx (τ ) = E{x(t − τ )}
(2.12)
Die Autokorrelationsfunktionen hatte einige charakteristische Eigenschaften. Zum einen
hat sie eine gerade Symmetrie, d.h.
ϕxx (τ ) = ϕxx (−τ )
(2.13)
Dies ergibt sich unmittelbar aus der Definition schwach stationärer Prozesse, wie sich
durch Substitution zeigen lässt:
E{x(t)x(t + τ )} = E{x(t0 − τ )x(t0 )} = E{x(t0 )x(t0 − τ )}
(2.14)
Das bei der Bildung der AKF zu berechnende Produkt x(t)x(t − τ ) kann bei Wechselgrößen positive oder negative Werte annehmen, ebenso wie der daraus gebildete Erwartungswert ϕxx (τ ). Ihr Maximum nimmt die AKF für τ = 0 an, wo x(t)x(t − τ ) = x(t)2 .
Dies lässt sich zeigen, indem man die sicher postive Größe
E{(x(t)x(t − τ ))2 } = ϕxx (0) + 2ϕxx (τ ) + ϕxx (0) ≥ 0
(2.15)
betrachtet. Daraus ergibt sich unmittelbar
ϕxx (τ ) ≤ ϕxx (0)
(2.16)
ϕxx (0) entspricht dem quadratischen Mittelwert der Variablen X und ist damit ein Maß
für die Leistung des Zufallsprozesses X.
Zur Beschreibung von Zufallssignalen im Spektralbereich transformiert man nicht das
Signal selbst in den Frequenzbereich, da das Fourierintegral
Z +∞
X(ω) =
x(t)e−jωt dt
(2.17)
−∞
in der Regel nur exisistiert, wenn x(t) absolut integrierbar ist, d.h.
Z +∞
| x(t) | dt < ∞
(2.18)
−∞
Da dies für stationäre Zufallsprozesse, die für t → ∞ nicht abklingen, nicht der Fall ist,
bildet man zunächst den Erwartungswert im Zeitbereich und transformiert diese - dann
deterministische - Größe in den Frequenzbereich.
So definiert man das Leistungsdichtespektrum(LDS) als Fouriertransformierte der Autokorrelationsfunktion, d.h.
Sxx (ω) = F {ϕxx (τ )}
(2.19)
12
KAPITEL 2. GRUNDLAGEN
Damit ist
ϕxx (τ ) = F
−1
1
{Sxx (ω)} =
2π
Z
+∞
Sxx (ω)e−jωτ dω
(2.20)
−∞
und für den quadratischen Mittelwert von x(t) gilt dann
Z +∞
1
2
E{x(t) } = ϕxx (0) =
Sxx (ω)dω
2π −∞
(2.21)
Das LDS ist eine rein reelle Funktion. Dies lässt sich aus den Symmetrieeigenschaften der
AKF ableiten. Bis auf den Faktor 1/2π entspricht die Signalleistung dem Integral des LDS
über den gesamten Frequenzbereich. Das LDS Sxx (ω) beschreibt somit die Verteilung der
Leistung des Signals in unendlich viele infinitesimal kleine Frequenzbänder der Breite dω.
2.2
Abtastung
Der Verlauf zeit- und wertekontinuierlicher Signale wie der von einer Schallquelle erzeugte Schalldruck im Raum oder die von einem Mikrofon abgegebene Spannung wird als
analog bezeichnet. Um solche Signale in einem Digitalrechner mit begrenztem Speicher
ablegen und verarbeiten zu können, muss der Zeitverlauf diskretisiert, d.h. zu bestimmten Zeitpunkten abgetastet werden, so daß nur die einzelnen Amplitudenwerte zum Abtastzeitpunkt gespeichert werden müssen. Die Frequenz dieser Abtastung wird Abtastrate
(sampling rate) genannt. Abbildung 2.1 zeigt einen Ausschnitt eines kontinuierlichen (analogen) Signals und die resultierende Abtastfolge.
Die Frequenzzuordnung eines abgetasteten Signals ist nicht eindeutig; so führen beispielsweise in dem in Abbildung 2.2 dargestellten Beispiel alle Sinusschwingungen zu der gleichen Folge von Abtastwerten.
Abb. 2.3 stellt Sinusschwingungen der Frequenzen 1 kHz, 5 kHz, 7 kHz und 11 kHz und
die dazugehörigen Abtastwerte bei einer Abtastfrequenz von 6 kHz dar: die Frequenz der
resultierenden Abtastfolge ist in allen Fällen gleich.
Es läßt sich zeigen, daß das Spektrum eines abgetasteten Signals das periodisch mit der
Abtastfrequenz wiederholte Spektrum des Originalsignals ist.
Abb. 2.4 veranschaulicht diese Periodizität, aus der sich unmittelbar das sogenannte Abtasttheorem ergibt:
Ein abgetastetes Signal lässt sich ohne Informationsverlust rekonstruieren, wenn die
Abtastfrequenz fS mindestens doppelt so hoch ist wie die höchste im Signal vorkommende Frequenz fmax .
fS > 2fmax
2.2. ABTASTUNG
13
Abbildung 2.1: Kontinuierliches Signal (oben) und zugehörige Abtastfolge bei einer Abtastfrequenz von 50 Hz (unten)
Abbildung 2.2: Mehrere Sinusschwingungen unterschiedlicher Frequenz und Phase führen zu der
gleichen Folge von Abtastwerten
Wird das Abtasttheorem verletzt, überlappen sich die periodisch fortgesetzten Spektren
und man spricht von Unterabtastung, d.h. es entstehen innerhalb der Bandbreite des Originalsignals Spiegelfrequenzen. Dieser Effekt wird als Aliasing bezeichnet. Zur Vermeidung solcher Aliasing-Artefakte muß das Eingangssignal so bandbegrenzt werden, daß
das Abtasttheorem erfüllt ist. Daher befindet sich vor jedem A/D-Wandler ein analoges
Tiefpaßfilter, das alle Frequenzanteile oberhalb der halben Abtastfrequenz abschneidet
bzw. möglichst stark dämpft. Die Eigenschaften dieses Antialiasing-Filters beeinflussen
die Qualität des A/D-Wandlers.
Ein anschauliches Beispiel einer Unterabtastung im Visuellen findet man in
vielen Westernfilmen. Die Speichenräder einer Kutsche drehen sich mit der erwarteten Geschwindigkeit und Richtung, solange die Kutsche langsam fährt.
14
KAPITEL 2. GRUNDLAGEN
Abbildung 2.3: Darstellung von analogem und abgetastetem Zeitverlauf von Sinusschwingungen
der Frequenzen 1 kHz, 5 kHz , 7 kHz und 11 kHz, die Abtastfrequenz ist 6 kHz; oben: kontinuierlicher Zeitverlauf, unten: abgetasteter Zeitverlauf
Abbildung 2.4: Spektrum des kontinuierlichen Signals (schematisch, links) und der zugehörigen
Abtastfolge (rechts) mit Seitenbändern bei Vielfachen der Abtastfrequenz fS . Wird die Bandbreite
des Ausgangssignals nicht auf die Hälfte der Abtastfrequenz begrenzt, überlappen sich die Seitenbänder (unten)
2.3. QUANTISIERUNG
15
Übersteigt die Speichengeschwindigkeit allerdings die halbe Abtastfrequenz
der Kamera (24 Hz), so nimmt die wahrgenommene Geschwindigkeit des Rades wieder ab. Die unterabgetastete Drehung produziert eine Aliasingkomponente, die mit zunehmender Drehfrequzenz abnimmt. Wenn die Drehfrequenz
die Abtastfequenz erreicht, scheint das Rad stillzustehen.
Zur Rekonstruktion des analogen Signals aus dem digitalen Signal ist aufgrund der Periodizität des Spektrums ebenfalls ein Tiefpaßfilter (Rekonstruktionsfilter) erforderlich, das
nur Signalfrequenzen unterhalb der halben Abtastfrequenz passieren läßt.
Abbildung 2.5: Notwendige Verarbeitungsschritte vor und nach der Abtastung eines Signals
Theoretisch ist ein unter Berücksichtigung des Abtasttheorems abgetastetes Signal in dem
in Abb. 2.5 dargestellten Ablauf fehlerfrei rekonstruierbar, wenn Filter und Abtastung
ideal sind.
2.3
Quantisierung
Ebenso wie ein digitales Signal keinen kontinuierlichen Zeitverlauf haben kann, kann
es auch keinen kontinuierlichen Amplitudenverlauf besitzen, da nur diskrete Werte abgespeichert werden können. Die für die Digitalisierung notwendige Amplitudendiskretisierung (Quantisierung) wird durch die Quantisierungskennlinie beschrieben. Sie entspricht einer Treppenfunktion mit der Schrittweite bzw. dem Quantisierungsintervall ∆.
Bei der Darstellung des Amplitudenwerts durch einen binären Zahlenwert bestimmt die
Wortbreite, d.h. die Zahl der Bits pro Zahlenwert, die Zahl der Quantisierungsstufen
und damit die Auflösung des Quantisierers. Bei einer Wortbreite von 16 Bit sind somit 216 = 65536 Quantisierungsstufen möglich. Bei einem Aussteuerungsbereich von
-2V bis 2V entspricht in diesem Fall ein Quantisierungsintervall ∆ einer Spannung von
4V /65536 = 61µV .
Abb. 2.6 zeigt eine Quantisierungskennlinie und den Quantisierungsfehler in
Abhängigkeit des Eingangswertes. Der Quantisierungsfehler hat bei nicht übersteuerten
Signalen maximal den Betrag ∆/2.
16
KAPITEL 2. GRUNDLAGEN
Abbildung 2.6: links: Kennlinie des Quantisierers, rechts: Quantisierungsfehler in Abhängigkeit
der Eingangsamplitude
Im Audiobereich wird üblicherweise eine sogenannte mid-tread“-Kennlinie verwendet,
”
die eine Quantisierungsstufe für die Amplitude 0 besitzt und aus diesem Grund nicht
symmetrisch ist, sondern im negativen Amplitudenbereich eine Quantisierungsstufe mehr
besitzt (bei 16 Bit Wortbreite könnten dann Werte von -32768 bis 32767 dargestellt werden). Bei den im Audiobereich typischen, hohen Wortbreiten kann diese Asymmetrie
vernachlässigt werden.
Während sich die bei der Abtastung eines Signals verlorenen Signalanteile unter den genannten Voraussetzungen zumindest theoretisch wieder vollständig rekonstruieren lassen,
ist dies im Falle der Quantisierung nicht möglich. Bei jeder Quantisierung wird unvermeidlich ein Fehler gemacht, der Quantisierungsfehler q(n). Er ist die Differenz zwischen
quantisiertem Signal xQ (n) und Originalsignal x(n) zu einem beliebigen Abtastzeitpunkt
n. Die Quantisierung lässt sich somit als Addition eines Fehlersignals q(n) zum Eingangssignal x(n) beschreiben (s. Abb. 2.7).
Abbildung 2.7: Quantisierungsvorgang
Abb. 2.8 zeigt den Quantisierungsfehler eines mit 4 Bit quantisierten, optimal ausgesteuerten Sinussignals.
Aus der Kennlinie (Abb. 2.6) ergibt sich die Amplitude des Quantisierungsfehlers in
Abhängigkeit von der Amplitude des Eingangssignals.
Das Ausmaß des durch die Quantisierung induzierten Fehlers wird üblicherweise
durch den Signalrauschabstand (Signal-to-Noise-Ratio SNR) beschrieben, der als Pegelverhältnis von Signalleistung WS zu Fehlerleistung WF berechnet wird.
17
2.3. QUANTISIERUNG
Abbildung 2.8: links oben: das kontinuierliche Originalsignal; rechts oben: das mit einer
Auflösung von 4 Bit quantisierte Signal; unten: der dabei gemachte Quantisierungsfehler
WS
(2.22)
WF
Der Quantisierungsfehler ist, ebenso wie das Anregungssignal (Musik, Sprache), durch
das er induziert wird, ein stochastisches Signal. Seine Leistung ergibt sich womit aus der
Wahrscheinlichkeitsdichtefunktion der Amplitude des Fehlersignals. Sie wird auch als
Amplitudendichteverteilung (ADV) bezeichnet und gibt für jeden möglichen Amplitudenwert die zugehörige Auftretenshäufigkeit an. Für einen gut ausgesteuerten Quantisierers
kann ein Quantisierungsfehler mit gleichverteilter Amplitudendichteverteilung angenommen werden, d.h. daß alle möglichen Amplitudenwerte mit gleicher Wahrscheinlichkeit
auftreten.
SN R = 10 · log10
Abbildung 2.9: Amplitudendichteverteilung des Quantisierungsfehlers
18
KAPITEL 2. GRUNDLAGEN
Da der mögliche Wertebereich des Fehlers −∆/2 bis ∆/2 ist und die Summe aller Wahrscheinlichkeiten den Wert 1 ergeben muß (s. 2.3), ist somit die Auftretenswahrscheinlichkeit jedes einzelnen Amplitudenwertes 1/∆. Abb. 2.9 zeigt die gleichverteilte ADV des
Quantisierungsfehlers. Die ADV eines typischen Audiosignals ist in Abb. 2.10 dargestellt.
Abbildung 2.10: typische Amplitudendichteverteilung eines Musiksignals (linker und rechter Kanal)
Andererseits kann der Quantisierungsfehler als weißes Rauschen angenommen werden,
so daß alle Frequenzen gleichstark vertreten sind. Die Leistung des Fehlers q läßt sich aus
seiner ADV über das in Glg. 2.23 angegebene Integral berechnen:
−
Z+∞
Z∆/2
1
∆2
WQ =
q 2 pQ (q)dq =
q 2 dq =
∆
12
−∞
(2.23)
∆/2
Legt man als Nutzsignal ein vollausgesteuertes Sinussignal zugrunde mit der resultierenden Leistung
(∆ · 2w−1 )2
2
so ergibt sich für den Signalrauschabstand (SNR) ein Wert von
WS =
WS
)
WF
∆2 · 22w−2 12
= 10 · log10 (
· 2)
2
∆
3 2w
= 10 · log10 ( · 2 )
2
= 6.02 · w + 1.76 [dB]
(2.24)
SN R = 10 · log10 (
(2.25)
Somit ergibt sich ein theoretischer SNR aufgrund des Quantisierungsfehlers von etwa 98
dB (16 bit), 122 dB (20 bit) bzw. 146 dB (24 bit). Ein vollausgesteuertes Sinussignal wird
z.B. als Testsignal zur Messung des SNR von realen Wandlern benutzt. Abweichungen
2.4. DITHER
19
des Messwerts (der auch bei 24-bit-Wandlern real selten höher als 100 dB liegt) von den
nach Glg. (2.25) berechneten Werten weisen dann auf Fehler des Wandlers hin.
Bezieht man den Quantisierungsfehler nicht auf ein sinusförmiges Testsignal, sondern auf
die Amplitudenverteilung eines Musiksignals, die typischerweise eine annähernd gaußoder laplaceverteilte ADV aufweist (Abb. 2.10), liegt auch der theoretische SNR um etwa
10 dB unter dem nach Glg. (2.25) berechneten Wert.
Abbildung 2.11: theoretisch erreichbarer Signalrauschabstand eines Quantisierers mit der Wortbreite 16 Bit in Abhängigkeit von der Aussteuerung eines sinusförmigen Eingangssignals
Der oben hergeleitete SNR ist der maximale SNR bei Vollaussteuerung. Abb. 2.11 zeigt
den bei einer Wortbreite von 16 Bit theoretisch erreichbaren SNR in Abhängigkeit der
Amplitude eines sinusförmigen Eingangssignals. Unter den genannten Bedingungen kann
der Quantisierungsfehler als weißes Rauschen angenommen werden, d.h. jede Frequenz
ist in dem Fehlersignal gleichstark vertreten. Übersteigt der Maximalwert des zu quantisierenden Signals allerdings die Maximalaussteuerung des Quantisierers, so tritt eine
Übersteuerung (Clipping) auf, das zu einer drastischen Verschlechterung des SNR und zu
nichtlinearen Verzerrungen führt, die in Abb. 2.12 für ein sinusförmiges Signal dargestellt
sind.
2.4
Dither
Eine niedrige Aussteuerung des Eingangssignals führt nicht nur zu einem geringeren Signalrauschabstand, sondern kann einen weiteren unerwünschten Effekt haben: Das Rauschen ist nicht mehr weiß wie bei guter Aussteuerung, sondern ist korreliert mit dem Eingangssignal. Dieser Effekt ist besonders deutlich bei niedriger Aussteuerung und tiefen
Eingangssignalfrequenzen. Die oben erwähnten Voraussetzungen für eine gleichförmig
verteilte ADV des Quantisierungsfehler sind dann nicht mehr gegeben.
Abbildung 2.13 zeigt ein mit drei Stufen quantisiertes Signal und dessen Quantisierungsfehler. Der hier eingeführte Quantisierungsfehler ist kein Rauschen mehr, sondern eine
Verzerrung, die bei niedrig ausgesteuertem Wandler (etwa im Ausklang von Musiksignalen) hörbar ist.
20
KAPITEL 2. GRUNDLAGEN
Abbildung 2.12: nichtlineare Verzerrungen bei Übersteuerung eines Quantisierers, links oben:
optimal ausgesteuertes Sinussignal, rechts oben: dazugehöriges Spektrum (dB), links mitte:
übersteuertes Sinussignal (ursprüngliche Amplitude 1.4), rechts mitte: dazugehöriges Spektrum
(dB), links unten: übersteuertes Sinussignal mit Wrap-Around, rechts unten: dazugehöriges Spektrum (dB)
Die Korrelation zwischen Signal und Quantisierungsfehler kann aufgehoben werden, indem vor dem Quantisierungsprozeß ein Zufallssignal, z.B. weißes Rauschen addiert wird.
Dieses Rauschen wird Dither genannt. Zunächst naheliegend scheint die Annahme, dieses
Rauschen müßte so stark sein, daß es die o.g. Verzerrungen akustisch verdeckt; das muß
aber nicht der Fall sein. Vielmehr genügt ein schwaches Rauschen, das zu einer nicht
mehr deterministischen, gleichbleibenden Abfolge der ausgewählten Quantisierungsstufen führt, sondern zu einer zufälligen. Liegt beispielsweise am Eingang des Quantisierers
eine Gleichspannung von 1.3mV, und wird das Signal in 1mV-Schritten quantisiert, dann
wird das Ausgangssignal bei einem ungeditherten Eingang konstant bei 1mV liegen. Wird
das Eingangssignal hingegen gedithert, so wird es manchmal bei 2mV, häufiger bei 1mV
und sehr selten bei anderen Quantisierungswerten liegen. Tatsächlich wird aber der Mit-
2.4. DITHER
21
Abbildung 2.13: oben: Originalsignal, mitte: 3-stufig quantisiertes Signal, unten: Quantisierungsfehler
telwert des Ausgangssignals 1.3mV betragen; im zeitlichen Mittel ist also die geditherte
Quantisierung genauer, da beliebige Quantisierungswerte möglich gemacht werden.
Abbildung 2.14 zeigt das obige Beispiel mit einem hinzugefügten Dithersignal. Abbildung 2.15 zeigt die Spektren des quantisierten Signals und des gedithert quantisierten
Signals. Verwendet wurde ein Dither mit dreiecksförmiger ADV.
Abbildung 2.14: oben: gedithertes Originalsignal, mitte: grob-stufig quantisiertes Signal, unten:
Quantisierungsfehler bei gedithertem Eingang
22
KAPITEL 2. GRUNDLAGEN
Abbildung 2.15: Spektrum eines mit und ohne Dither quantisierten Signals; oben: gleichförmig
gedithert quantisiertes Signal, unten: ungedithert quantisiertes Signal
Die Wirkung des Dithering läßt sich leicht anhand eines Beispiels veranschaulichen. Hält man sich eine Hand mit leicht geöffneten Fingern vor die Augen,
so wird ein Großteil des Gesichtsfeldes von den Fingern abgedeckt, und nur
durch die Zwischenräume läßt sich etwas erkennen. Bewegt man diese Hand
allerdings sehr schnell, so lassen sich - wenn auch etwas undeutlich - auch
die Bereiche erkennen, die zuvor von den Fingern verdeckt waren.
Die durch die Nichtlinearität der Quantisierungskennlinie hervorgerufenen Verzerrungen
treten sowohl bei der Analog-Digital-Wandlung auf, als auch bei der Requantisierung digitaler Signale, wie sie bei Formatwandlung, Speicherung oder bei Signalverarbeitungsprozessen vorkommt. Da er mathematisch leichter zu modellieren ist, beschränken wir uns
im folgenden auf digital erzeugten Dither, auch wenn die Ergebnisse ohne weiteres auf
analog erzeugte Dithersignale übertragbar sind. Auf digitaler Ebene wird das Dithering
durch Addition einer Zufallsfolge d(n) zum Eingangssignal x(n) vor der Quantisierung
vorgenommen.
Abbildung 2.16: links: Requantisierung mit Dithering durch eine Zufallsfolge d(n), rechts: Wortbreitenkonvention
23
2.4. DITHER
Für die in Abb. 2.16 definierten Wortbreiten, einen Amplitudenbereich für das Gesamtsignal von [−1 . . . 1] und ein (Re)Quantisierungsintervall von ∆ = 2−(w−1) gilt für die
möglichen Dither-Amplituden
dk = k · 2−s · ∆ mit −2s−1 ≤ k ≤ 2s−1 − 1
(2.26)
Der Index k ist eine von N = 2s möglichen Zahlen mit der Auftretenswahrscheinlichkeit
−s
2
−2s−1 ≤ k ≤ 2s−1 − 1
P (dk ) =
(2.27)
0
sonst
Bei einer Eingangsamplitude V und einer (re)quantisierten Amplitude g(V ) gilt für den
mittleren Ausgangswert gm (V )
X
gm (V ) =
g(V + dk )P (dk )
(2.28)
k
2
(V ) beträgt
Der mittlere quadratische Ausgangswert gm
X
2
gm
(V ) =
g 2 (V + dk )P (dk )
(2.29)
k
und für die Varianz
d2R (V
) gilt
d2R (V ) =
=
X
{g(V + dk ) − gm (V + dk )}2 P (dk )
k
2
gm (V
) − {gm (V )}2
(2.30)
Abb. 2.17 verdeutlicht die Linearisierung der Kennlinie durch Addition der Zufallsfolge
d(n): Die treppenförmige Kennlinie mit der Stufenhöhe ∆ wird durch eine feinere Abstufung für den mittleren Ausgangswert gm (V ) ersetzt. Die quadratische Abweichung vom
mittleren Ausgangswert d2R (V ) bezeichnet man als Rauschmodulation. Für gleichverteiltes Dither ist die Rauschmodulation abhängig von der Eingangsamplitude V . Sie geht
gegen Null an den Ecken“ der Quantisierungskennlinie und ist maximal in der Mitte zwi”
schen zwei Quantisierungsübergängen. Sie äußert sich durch eine amplitudenabhängige
Rauschintensität, die vor allem bei niedrigen Pegeln hörbar werden kann, z.B. im Ausklang von Musiksignalen. Die Rauschmodulation lässt sich unterdrücken durch Dither
mit dreieckförmig verteilter Amplitudenhäufigkeit (zur Erzeugung s.u.). Bei Dither mit
dreieckförmiger ADV ist die Varianz konstant, es tritt keine Rauschmodulation auf.
Das Dithersignal lässt sich auf digitaler Ebene durch einen Zufallszahlengenerator erzeugen. Durch Zufallszahlen mit gleichverteilter Amplitudenhäufigkeit ergibt sich ein
24
KAPITEL 2. GRUNDLAGEN
Abbildung 2.17: links: Requantisierung mit RECT Dither, rechts: Requantisierung mit TRI Dither
Signal mit rechteckförmiger Amplitudendichteverteilung (Rectangular Dither). Durch Addition zweier unabhängiger, gleichverteilter Zahlenfolgen ergibt sich ein Signal mit dreieckförmiger ADV (Triangular Dither). Die Subtraktion zweier gleichverteilter Zahlenfolgen ergibt eine Hochpassfilterung, die in den meisten Fällen zu einer subjektiven Qualitätsverbesserung führt, da die Rauschleistung etwas aus dem Hörbereich herausgeschoben wird.
dRECT (n) = d(n)
dT RI (n) = d1 (n) + d2 (n)
dHP (n) = d(n) − d(n − 1)
(2.31)
(2.32)
(2.33)
Abbildung 2.18 zeigt die Zeitverläufe und die Amplitudendichteverteilungen von
gleich- und dreieckförmig verteiltem Rauschen. Analoge Rauschsignale weisen eine
gaußförmige ADV auf.
Die Verwendung unterschiedlicher Ditherformen führt auch zu unterschiedlichem Pegel
des in das Signal eingefügten Rauschens. Der Rauschpegel von RECT-Dither hat eine
ADV, die dem Quantisierungsfehler selbst entspricht und dementsprechend eine Leistung
von σ 2 = ∆2/12. Bei dreieckförmigem TRI-Dither addiert sich die Leistung zweier gleichverteilter Rauschsignale und die Gesamtleistung ergibt sich als ∆2/6. Entsprechend verringern sich die Signal-Rauschabstände bei der (Re)Quantisierung gemäß Glg. (2.34)
SN RRect = 6.02 · w − 1.24 [dB] RECT Dither
SN RT ri = 6.02 · w − 3 [dB] TRI Dither
(2.34)
(2.35)
2.5. ÜBERABTASTUNG
25
Abbildung 2.18: Zeitverläufe (links) und Amplitudendichteverteilungen (rechts) von Rauschen;
oben: gleichverteilt, unten: dreieckförmig verteilt
2.5
Überabtastung
Um die Qualität einer Digitalisierung zu verbessern, wird oftmals mit sog. Überabtastung
(Oversampling) gearbeitet. Überabtastung bedeutet, daß das Audiosignal zunächst mit
einer höheren Frequenz abgetastet wird als nach dem Abtasttheorem gefordert und anschließend auf die am Ausgang des Wandlers geforderte Abtastfrequenz konvertiert wird.
Es existieren zwei Gründe für diese Verfahrensweise. Der erste Grund ist die effiziente
technische Realisierung: um maximale Audiobandbreite bis nah an die halbe Abtastfrequenz ohne aufwendiges Antialiasingfilter realisieren zu können, wird die Abtastrate so
hochgesetzt, daß ein einfaches, nicht steiles Antialiasingfilter ausreicht, um das Abtasttheorem zu erfüllen. Anschließend wird das Signal im digitalen Bereich tiefpaßgefiltert,
so daß es die Anforderungen des Abtasttheorems für die eigentlich gewollte Abtastfrequenz erfüllt.
Dieses Vorgehen hat einen erwünschten Nebeneffekt, welcher der zweite Grund für die
temporäre Erhöhung der Abtastfrequenz ist: der Signal-Rauschabstand (SNR) kann verbessert werden. Das ist zunächst überraschend, da die Abtastrate im Grunde lediglich die
Bandbreite des digitalisierten Signals beeinflußt, nicht den SNR. Zwei wichtige Eigenschaften des Quantisierungsrauschens helfen jedoch bei einer Erklärung:
• Die Gesamtleistung des Quantisierungsrauschens ist unabhängig von der Abtastfrequenz.
26
KAPITEL 2. GRUNDLAGEN
• Das Quantisierungsrauschen ist näherungsweise weißes Rauschen, dessen Leistung
über die gesamte Bandbreite des Signals gleichmäßig verteilt ist.
Wenn also die Gesamtleistung des Quantisierungsfehlers gleich bleibt, obwohl die Abtastfrequenz erhöht wird, dann wird bei Erhöhung der Abtastfrequenz die durchschnittliche Leistung des Fehlers in einem festen Frequenzbereich sinken, da das Quantisierungsrauschen sich über einen größeren Frequenzbereich erstrecken kann. Wendet man
anschließend das oben genannte digitale Antialiasingfilter an, so wird der Anteil des Quantisierungsrauschen über der endgültigen halben Abtastfrequenz herausgefiltert“, und der
”
SNR steigt. Man gewinnt mit solchen Oversamplingverfahren pro Frequenzverdopplung
ca. 3 dB Signal-Rauschabstand. Abb. 2.19 zeigt die Leistung des Quantisierungsfehlers
im Normalfall und bei einem Oversamplingfaktor L.
Abbildung 2.19: Quantisierungsfehlerleistung ohne Oversampling (hellgrau) und nach L-fachem
Oversampling und Tiefpassfilterung (dunkelgrau)
2.6
Noise-Shaping
Noise-Shaping ist wie das Dithering eine Methode, die Qualität eines Wandlers oder einer
Wortbreitenkonvertierung zu erhöhen. Der Quantisierungsfehler, der bei normaler Quantisierung näherungsweise ein weißes Spektrum hat, wird dabei spektral geformt. Idealerweise wird die Rauschleistung von Frequenzbereichen hoher Gehörempfindlichkeit (wie z.B.
2-4 kHz) in Bereiche geringerer Empfindlichkeit verschoben (zumeist hohe Frequenzbereiche). Diese Frequenzverschiebung wird durch eine Rückkopplung (und Filterung) des
Quantisierungsfehlers erreicht. Je nachdem, wieviele Koeffizienten das Filter für diese
Rückkopplung hat, spricht man von Noise-Shaping verschiedener Ordnungen.
Im Fall von Noise-Shaping erster Ordnung (s. Abb. 2.20) wird der Quantisierungsfehler
festgestellt und vom darauffolgenden Sample subtrahiert, es handelt sich also um eine
einfache Rückkopplung ohne dedizierte Filterung des Quantisierungsfehlers. Durch die
Rückkopplung entsteht eine Verschiebung des Quantisierungsfehlers hin zu höheren Frequenzen.
27
2.6. NOISE-SHAPING
Quantisierer
e(n)
x(n)
- +m
6
?
r - +m r
y(n)
-
-- +m
z −1 Abbildung 2.20: Noise-Shaping 1. Ordnung
Jeder Ausgangswert y(n) ist daher die quantisierte Differenz von aktuellem Eingangswert
x(n) und vorhergehendem Quantisierungsfehler q(n). Dadurch ergibt sich ein Filter mit
der Differenzengleichung
y(n) = [x(n) − e(n − 1)]Q
= x(n) − e(n − 1) + e(n)
(2.36)
Die Übertragungsfunktion läßt sich aus der Differenzengleichung mit der zTransformation (s. z.B. Skript: Einführung in die digitale Signalverarbeitung) bestimmten.
Mit dieser ergibt sich im z-Bereich die Gleichung
Y (z) = X(z) − z −1 · Q(z) + Q(z)
= X(z) + (1 − z −1 ) · Q(z)
(2.37)
und somit eine Rauschübertragungsfunktion HQ (z) = 1 − z −1 . Der sinusförmige Verlauf des Betragsfrequenzgangs dieser spektralen Formung des Quantisierungsrauschens
ist in Abb. 2.21 dargestellt. Die Übertragungsfunktion des Nutzsignals x(n) ist sowohl in Betrag als auch Phase konstant. Wird das einzelne Verzögerungsglied im
Rückkopplungszweig in Abb. 2.20 durch eine kompliziertere Funktion ersetzt, so erhält
man Noise-Shaping höherer Ordnungen. Im einfachsten Fall handelt es sich bei höherer
Ordnung ebenfalls um ein Hochpaßfilter, dessen Steilheit mit der Ordnung zunimmt. Abb.
2.21 zeigt die Betragsfrequenzgänge für Noise-Shaping erster bis vierter Ordnung.
Bei höheren Ordnungen lassen sich auch spezielle Rauschübertragungsfunktionen bilden,
die komplexere spektrale Verschiebungen des Quantisierungsfehlers ermöglichen; auf diese Weise ist die unterschiedliche Gewichtung verschiedener Frequenzbereiche denkbar.
Manche Systeme formen beispielsweise die Rauschübertragungsfunktion so, daß sie die
frequenzabhängige Empfindlichkeit des menschlichen Gehörs nachbildet.
Noise-Shaping wird meistens in Zusammenhang mit Dither verwendet, um unerwünschte
Effekte bei der Rückkopplung des Quantisierungsfehlers zu vermeiden. Hierbei wird das
Ditherrauschen direkt vor der Quantisierung eingefügt.
28
KAPITEL 2. GRUNDLAGEN
Abbildung 2.21: Betragsfrequenzgang Noise-Shaping verschiedener Ordnungen
2.7
Delta-Sigma-Modulation
Bei der Delta-Sigma-Modulation wird der entstehende Quantisierungsfehler wie beim
Noise-Shaping spektral geformt. Dies geschieht durch Integrierung der Differenz zwischen Eingangssignal und quantisiertem Signal. Das Modell eines Delta-Sigma-Modulators 1. Ordnung ist in Abb. 2.22 dargestellt.
Quantisierer
q(n)
x(n)
- +m
6
R
?
- +m r
y(n)
-
z −1 Abbildung 2.22: Delta-Sigma Modulator 1. Ordnung
Die Übertragungsfunktion läßt sich in Abhängigkeit von der Übertragungsfunktion des
Integrierers H(z) wie folgt bestimmen:
29
2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT
X(z) − z −1 · Y (z) · H(z) + Q(z)
1
H(z)
·X(z) +
=
−1
−1
1 + z · H(z)
1 + z · H(z)
|
{z
}
|
{z
}
Y (z) =
Signal-Übertragungsfunktion
·Q(z)
(2.38)
Rausch-Übertragungsfunktion
Ist die Übertragungsfunktion des Integrierers:
1
,
(2.39)
1 − z −1
so ergibt sich für die Signalübertragungsfunktion Hx (z) = 1 und damit eine konstante Übertragungsfunktion, während sich die Rauschübertragungsfunktion für das Quantisierungsrauschen zu HQ (z) = 1 − z −1 ergibt. Diese Rauschübertragungsfunktion gleicht
der von Noise-Shaping 1. Ordnung und ist in Abb. 2.21 dargestellt.
Die Güte eines Delta-Sigma-Modulators läßt sich direkt durch den Oversamplingfaktor
und die Art bzw. Ordnung des Noise-Shaping beeinflussen. Je größer der Oversamplingfaktor ist, desto mehr Signal-Rausch-Abstand kann erzielt werden, da mehr Anteile des
Quantisierungsfehlers in nicht verwendete Frequenzbereiche verschoben werden. Da der
Quantisierungsfehler spektral geformt ist, ist der SNR-Gewinn schon im Falle des DeltaSigma-Modulators 1. Ordnung nicht nur wie beim einfachen“ Oversampling (vgl. Ab”
schnitt 2.5) 3dB, sondern 9dB pro Verdopplung des Oversamplingfaktors (s. Glg. (2.40).
Delta-Sigma-Modulatoren höherer Ordnung zeichnen sich durch stärkere Filterung des
Quantisierungsrauschens aus. Die Rauschübertragungsfunktion eines einfachen DeltaSigma-Modulators der Ordnung n ist HQ (z) = (1 − z −1 )n (vgl. Abb. 2.21).
Durch die veränderte Übertragungsfunktion in Abhängigkeit der Ordnung n ändert sich
auch der Einfluß des Oversampling auf den Signal-Rauschabstand:
H(z) =
SN R = 6.02 · w + (2n + 1) · 10 · log10 (L) + const(n) [dB]
(2.40)
Abb. 2.23 veranschaulicht der SNR-Gewinn abhängig vom Oversamplingfaktor L.
Wie es schon beim Noise-Shaping der Fall war, verwenden Delta-SigmaModulatoren höherer Ordnung im allgemeinen nicht die obige hochpaßartige
Rauschübertragungsfunktion, sondern beeinflussen die Verschiebung des Quantisierungsfehlers auf andere Art und Weise.
2.8
Zahlendarstellung und Zahlenformat
Zur Speicherung und Verarbeitung von digitalen Werten gibt es zwei grundsätzliche Formate, das Festkomma- und das Gleitkomma-Format. Beim Festkomma-Format ist der
Abstand einer Zahl zur nächsthöheren gleichbleibend, während er beim GleitkommaFormat mit dem Zahlenwert zunimmt. Das Festkomma-Format wird bei der Speicherung,
Übertragung und Bearbeitung von Audiosignalen eingesetzt, das Gleitkomma-Format
setzt sich allerdings bei der Bearbeitung immer stärker durch.
30
KAPITEL 2. GRUNDLAGEN
Abbildung 2.23: SNR-Gewinn durch verschiedene Oversamplingfaktoren für Delta-SigmaModulatoren der Ordnungen 1-3
2.8.1
Festkomma-Format
Im Audiobereich hat sich die Darstellung einer Festkomma-Zahl im sogenannten 2erKomplement durchgesetzt. Bei einer Wortbreite w stellt die erste Hälfte der Binärwerte
den Zahlenbereich 0 bis 1 − 2−(w−1) dar, die folgenden Binärwerte den Zahlenbereich
−1 bis −2−(w−1) . Abb. 2.24 zeigt die Zuordnung der quantisierten Amplitudenwerte zu
Binärwerten der 2er-Komplement-Darstellung im Fall einer Wortbreite w von vier Bit.
Das links notierte Bit bw−1 ist das Vorzeichenbit und somit das wichtigste, Most Significant Bit (MSB). Veränderungen im rechts notierten Bit b0 beeinflussen den Wert am
geringsten, daher handelt es sich hier um das Least Significant Bit (LSB).
Als Alternative zur 2er-Komplementdarstellung wird in seltenen Fällen auch eine vorzeichenlose Darstellung gewählt. Tabelle 2.1 zeigt diese beiden Darstellungen im Vergleich.
Statt der Normierung des Zahlenbereichs auf −1 bis 1 ist manchmal auch die Darstellung
0 bis 2w−1 − 1 und von −2w−1 bis −1 (vorzeichenbehaftet) respektive von 0 bis 2w − 1
(ohne Vorzeichen) üblich.
Format
2er-Komplement
Dualzahl ohne Vorzeichen
Bitzuweisung
Pw−2
xQ = −bw−1 + i=0 bi 2−(w−i−1)
Pw−1
xQ = i=0 bi 2−(w−1)
Wertebereich
−1 ≤ xQ ≤ 1 − 2−(w−1)
0 ≤ xQ ≤ 1 − 2−w
Tabelle 2.1: Festkomma-Darstellung mit Bitzuweisung und Wertebereich
2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT
31
Abbildung 2.24: Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung einer 4 BitQuantisierung
2.8.2
Gleitkomma-Darstellung
Werte im Gleitkomma-Format haben die Form
xQ = MG · 2EG
(2.41)
Dabei ist
MG : Normalisierte Mantisse mit 0.5 ≤ MG < 1
EG : Exponent
Durch die Normalisierung der Mantisse wird eine Mehrdeutigkeit vermieden, die sich
daraus ergibt, dass etwa 24 und 42 auf den selben Zahlenwert führen. Das genormte Standardformat (IEEE single precision mit 32 bit) benutzt folgende Aufteilung:
Vorzeichen (Bit 31)
s
Exponent (Bits 30-32)
e7 ... e0
Mantisse (Bits 22-0)
m22 ... m0
Tabelle 2.2: Bitzuweisung in der Gleitkomma-Darstellung
Der Exponent EG wird mit 8 Bit dargestellt und ist eine ganze Zahl zwischen -126 und
+127. Die Mantisse MG wird mit einer Wortbreite von 23 bit dargestellt und bildet eine
fraktionale Darstellung im Festkomma-Format. Dabei gelten folgende Sonderfälle:
32
KAPITEL 2. GRUNDLAGEN
Typ
normal
NAN (not a number)
Infinity
Zero
Exponent
1 ≤ EG ≤ 254
255
255
0
Mantisse
beliebig
6= 0
=0
0
Zahlenwert
(−1)s (0.m)2EG −127
undefiniert
∞
0
Tabelle 2.3: Sonderfälle bei der Gleitkomma-Darstellung
Kapitel 3
A/D- und D/A- Wandlung
3.1
3.1.1
A/D-Wandler
Parallel-Wandler
Bei Parallel-Wandlern (Flash Converter) der Wortbreite w wird eine Referenzspannung
durch 2w Widerstände in eine entsprechende Anzahl von Intervallen geteilt und mit der
von der Abtast-Halte-Schaltung gelieferten Eingangsspannung UE über 2w −1 Spannungskomparatoren verglichen. Die Ausgänge der Komparatoren werden über eine Kodierlogik
in ein w-bit Datenwort umgesetzt. Da für jede Umsetzung intern nur ein Rechenzyklus
notwendig ist, sind Abtastraten bis zu 500 MHz erreichbar. Aufgrund der hohen Anzahl
an Komparatoren sind Auflösungen bis zu einer Wortbreite von 10 bit ereichbar.
Abbildung 3.1: Parallel-Wandler
Eine Variante des Parallel-Wandlers ist der Subranging-Wandler. Er führt die Wandlung in
zwei Schritten durch: In einem ersten Schritt wird die gehaltene Eingangsspannung einem
m-bit A/D-Wandler zu. In einem zweiten Schritt wird die um den Faktor 2m verstärkte Differenzspannung zwischen der Eingangsspannung und der durch einen m-bit D/A-Wandler
33
34
KAPITEL 3. A/D- UND D/A- WANDLUNG
rückgeführten Spannung dem m-bit A/D-Wandler erneut zugeführt. Die durch das zweistufige Verfahren erhöhte Auflösung geht auf Kosten der Umsetzungsgeschwindigkeit, so
dass Abtastraten bis 40 MHz und Auflösungen bis 16 bit möglich sind.
Abbildung 3.2: Subranging-Wandler
3.1.2
SAR-Wandler
A/D-Wandler mit sukzessiver Approximation (Successive approximation register, SAR)
wandeln die Eingangsspannung innerhalb von w Umsetz-Zyklen in ein w-bit Wort um (s.
Abb. 3.3 und 3.4). Im ersten Schritt wird überprüft, ob UE positiv oder negativ ist, im
ersteren Fall wird das MSB auf 0 gesetzt. Im nächsten Schritt wird das zweite bit auf
1 gesetzt, die zugehörige Spannung von +0.5UR über einen D/A-Wandler rückgeführt
und durch einen Komparator überprüft, ob die Eingangsspannung größer oder kleiner als
dieser Wert ist. Falls UE größer ist, wird die 1“ beibehalten und das nächste bit gesetzt.
”
Dadurch nähert sich Ausgangsspannung in w Zyklen schrittweise der Eingangsspannung
an und führt auf ein w-bit Ausgangswort.
Abbildung 3.3: SAR-Wandler
Abbildung 3.4: Spannungsverlauf
35
3.2. D/A-WANDLER
3.1.3
Delta-Sigma-Wandler
Der Delta-Sigma-Wandler besteht aus einem als Delta-Sigma-Modulator ausgelegten 1bit-Wandler mit L-facher Überabtastung und einem Dezimationsfilter. Letzteres besteht
aus einem digitalen Tiefpassfilter, welches das 1-bit-Eingangssignal durch ein linearphasiges, nichtrekursives FIR-Filter mit Filterkoeffizienten der Wortbreite w in ein w-bit Ausgangssignal überführt, aus dem ein Abwärtstaster nur jedes L-te Wort entnimmt.
Abbildung 3.5: Delta-Sigma-Wandler
3.2
D/A-Wandler
3.2.1
R-2R-Wandler
Der R-2R-Wandler ist ein Widerstandsnetzwerk, dessen Zweige wie geschaltete Stromquellen wirken, deren Ausgänge aufsummiert auf einen Strom-Spannungs-Wandler gehen. Jeder Knoten sieht“nach rechts einen Widerstand von R + 2R k 2R = 2R. Somit
”
teilt sich der Strom an jedem Knoten in zwei gleiche Anteile.
Wenn jeder Schalter durch eines der w bits gesteuert wird, ergibt sich eine binäre Gewichtung der Ströme mit
b2
b3
bw
b1
+
+
+ . . . + w−1 )
2R 4R 8R
2 R
= −UR (b1 2−1 + b2 2−2 + b3 2−3 + . . . + bw 2−w )
UA = −RI = −R(
3.2.2
(3.1)
(3.2)
Delta-Sigma-DA-Wandler
Der Delta-Sigma-DA-Wandler unterzieht die eingelesenen w-bit Datenworte zunächst einer Abtastratenerhöhung durch einen Aufwärtstaster und einen digitalen Tiefpassfilter.
36
KAPITEL 3. A/D- UND D/A- WANDLUNG
Abbildung 3.6: R-2R-Wandler
Der Delta-Sigma-Modulator (s. Kap. 2.7) führt eine Requantisierung von w bit auf einen
1 bit-Datenstrom durch, der anschließend durch einen 1-bit-D/A-Wandler mit nachfolgendem Rekonstruktionsfilter in ein analoges Signal umgesetzt wird. Der analoge Tiefpass
benötigt aufgrund der hohen Abtastrate - bei fA = 44.1 kHz und 64-fachem Oversampling etwa 2.8 MHz - nur eine geringe Flankensteilheit.
Abbildung 3.7: Delta-Sigma-DA-Wandler
3.3
Kenn- und Messgrößen für Wandler
Abweichungen vom Verhalten des idealen Wandlers entstehen durch bei A/D- und D/AWandlung auftretende
• Amplitudenfehler
• Zeitfehler (Jitter)
3.3. KENN- UND MESSGRÖSSEN FÜR WANDLER
37
Amplitudenfehler ergeben sich aus Abweichungen von der idealen Treppenform der
Wandlerkennlinie (s. Abb. 3.8). Differentielle Nichtlinearitäten äußern sich in Abweichungen von der idealen Stufenbreite (Stufenbreitenfehler), also des EingangsspannungsIntervalls zwischen zwei aufeinanderfolgenden Ausgangskodes. Integrale Nichtlinearitätensind das Ergebnis der kumlierten Stufenbreitenfehler, d.h. die Abweichung des
quantisierten Werts vom idealen kontinuierlichen Wert. Fehler entstehen außerdem aus
Nulldurchgangsverschiebungen (Offset-Fehler) der Kennlinie und Abweichungen von
der idealen Steigung der Kurve (Verstärkungsfehler). Die in Abb. 3.8 für die A/DWandlung dargestellten Fehler können in gleicher Weise bei der D/A-Wandlung auftreten,
nur dass die Kodewerte (y-Achse) in diesem Fall das Eingangssignal bilden, die Spannungen (x-Achse) das Ausgangssignal.
Abbildung 3.8: Abweichungen von der idealen Wandlerkennlinie. A: Differentielle Nichtlinearitäten, B: Integrale Nichtlinearitäten, C: Verstärkungsfehler, D: Offset-Fehler
Zeitfehler, wie sie durch Variationen des Abtastzeitpunktes um den idealen Wert entstehen, werden als Jitter bezeichnet. Jeder Zeitfehler bei der A/D- oder D/A-Wandlung hat
seinerseits einen Amplitudenfehler zur Folge, der umso größer ausfällt, je höher die Signalfrequenz ist (Abb. 3.9).
Wenn der Zeitversatz bei der Abtastung auf digitaler Ebene korrigiert wird, verbleibt der
durch den Jitter induzierte Amplitudenfehler als Störsignal im System. Für ein 16-bit System mit 216 Quantisierungsintervallen Q beträgt die maximale Steigung des Signals bei
einer Frequenz von 20 kHz 20000 × π × 216 Q pro Sekunde. Der durch Jitter bedingte
38
KAPITEL 3. A/D- UND D/A- WANDLUNG
Abbildung 3.9: Amplitudenfehler durch Sampling-Jitter
Amplitudenfehler sei vernachlässigbar, wenn er weniger als
fehler beträgt für diesen Fall
Q
2
beträgt. Der zulässige Zeit-
1
= 121ps
(3.3)
2 · 20000 · π · 216
Abb. 3.10 zeigt die Auswirkungen eines Jitters auf den Signal-Rauschabstand in
Abhängigkeit von Zeitfehler und Signalfrequenz.
Da Amplitudenfehler, die durch Jitter entstehen ebenso wie Amplitudenfehler in Folge
von Nichtlinearitäten der Kennlinie zu einer Verringerung des Signal-Rauschabstands
führen, ist es üblich, den Jitter nicht direkt zu messen, sondern über eine Messung der
SNR mitzuerheben. In Datenblättern von Wandlern sind üblicherweise folgende Messwerte mit jeweils unterschiedlichen Messverfahren aufgeführt:
tJ =
Klirrfaktor (Total Harmonic Distortion, THD)
Durch ein Testsignal, das den A/D-Wandler voll aussteuert (X1 = 0 dBFS), werden am
Ausgang des Wandlers die Klirrkomponenten (Klirrfaktoren n-ter Ordnung) gemessen.
Dabei gilt
Xn
kn = 10 20
kn : Klirrfaktor n-ter Ordnung (dimensionslos)
Xn : Amplitude der n-ten harmonischen Oberwelle in dBFS
Für den Gesamtklirrfaktor gilt somit
(3.4)
3.3. KENN- UND MESSGRÖSSEN FÜR WANDLER
39
Abbildung 3.10: Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in Abhängigkeit
von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und
18-bit Systemen
v
u∞
uX
k=t
kn2
(3.5)
n=2
und für das Klirrdämpfungsmaß ak :
1
(3.6)
k
Als Testsignal wird üblicherweise ein Sinussignal von 1000 Hz oder 997 Hz verwendet.
Der THD wird entweder als Klirrfaktor in % oder als Klirrdämpfungsmaß in [dB] angegeben.
ak = 20 log
Klirrfaktor plus Rauschen (Total Harmonic Distortion plus Noise, THD+N)
Bei der Messung des Klirrfaktors plus Rauschen wird ausgangsseitig lediglich das Testsignal durch ein Notch-Filter unterdrückt. Die Messung berücksichtigt somit nicht nur
harmonische Oberwellen, sondern das gesamte Störspektrum einschließlich unharmonischer Anteile, Einstreuungen, Brummen, Rauschanteile u.ä..
Dynamik (Dynamic Ratio, DR)
Messverfahren wie THD+N, allerdings mit einem niedrig ausgesteuerten Testsignal, typischerweise ein Sinussignal bei -60 dBFS. Da die Amplituden der nichtlinearen Verzerrungen proportional zur Amplitude des Eingangssignals sind, wird bei Messung der Dynamik
nur der Rauschpegel erfasst, da die Amplituden einzelner nichtlinearer Verzerrungensprodukte bei Anregung mit -60 dB bereits im Rauschteppich verschwinden.
40
KAPITEL 3. A/D- UND D/A- WANDLUNG
Kapitel 4
Kodierung
Bei der Übertragung und Speicherung digitaler Audiosignale wird das vom A/DWandler generierte Signal, das in der Regel aus linear quantisierten Abtastwerten in 2erKomplement-Darstellung besteht, mehrfach umkodiert. Ziel dieser Kodierungen ist die
• Anpassung des elektrischen Signalverlaufs an Eigenschaften (Bandbreite,
Störanfälligkeit) des Übertragungskanals bzw. des Speichermediums (Kanalkodierung)
• Erzeugung zusätzlicher Daten, die beim Empfänger eine Erkennung und Korrektur
von Übertragungsfehlern zulassen
• möglichst effiziente Nutzung vorhandener Übertragungsraten und Speicherkapazität durch einen dicht gepackten“ Kode bei Verzicht auf redundante Information
”
(Redundanzkodierung) oder auf Daten, deren Verlust nur eine vertretbare Beeinträchtigung des Hörereignisses zur Folge hat (Irrelevanzkodierung)
• Herstellung einheitlicher, standardisierter Datenformate für die Verbindung verschiedener Geräte (Interfacing)
4.1
Grundlagen der Informations- und Kodierungstheorie
Eine theoretische Grenze für die Konstruktion möglichst effizienter Kodes liefert die Informationstheorie, wie sie auf die Formulierung durch Hartlay (1888-1970) und Shannon
(1916-2001) zurückgeht. Darin ist
1
= − log2 p(xi )
(4.1)
p(xi )
ein Maß für die Unbestimmtheit des Ereignisses xi ∈ {x1 , x2 , . . . , xN } mit der Auftrittswahrscheinlichkeit p(xi ). Somit enthält das sichere Ereignis (p(xi ) = 1) keine Unbestimmtheit. Wenn Information als beseitigte Unbestimmtheit verstanden wird, gilt Hi als
Hi = log2
41
42
KAPITEL 4. KODIERUNG
Maß sowohl für die (vor dem Auftreten von xi vorhandene) Unbestimmtheit als auch für
die (nach dem Auftreten von xi vorhandene) Information.
Dieses zunächst nur postulierte Informationsmaß hat sich als mathematisch elegant
und (insbesondere durch die Verwendung des 2er-Logarithmus) für den Bereich der
Informations- und Kodierungstheorie in binären Systemen als äußerst geeignet erwiesen.
Es berücksichtigt allerdings nur den statistischen, nicht jedoch semantische und pragmatische Aspekte von Information und Kommunikation.
Im Sinne der Informationstheorie sind digitale Audiosignale Ereignisse einer diskreten
Quelle mit dem Alphabet X = {x1 , x2 , . . . , xN } und den zugehörigen Auftrittswahrscheinlichkeiten p(xi ) = pi . Für die mittlere Unbestimmtheit der Quelle und damit auch
für ihren mittleren Informationsgehalt gilt
Hm =
N
X
p i Hi
(4.2)
i=1
Hm wird als Entropie oder Quellenentropie bezeichnet mit der Maßeinheit bit/Zeichen
oder einfacher bit, wenn klar ist auf welche Ereignisse sich Hm bezieht. Die Quellenentropie ist maximal, wenn alle Ereignisse gleichwahrscheinlich sind (Beweis z.B. [KPS03]).
In diesem Fall ist
Hmax = log2 N
(4.3)
Was als Menge der möglichen Ereignisse aufgefasst wird, hängt konkret vom Vorgang
der Kodierung ab. Dies kann ein einzelnes Bit, eine Signalamplitude mit 16 oder 24 bit
Wortbreite oder eine noch größere Einheit sein.
Unter Kodierung wird allgemein ein Vorgang verstanden, bei dem Elemente eines Quellalphabets xi auf Elemente eines anderen Alphabets abgebildet werden. Jedes Quellsignal
bzw. Quellereignis wird eindeutig einem Element des Kanalalphabets U bzw. einem Wort
über U zugeordnet. Bei binären Kodierungen ist
U = {0, 1}
(4.4)
l
Ein Wort a ∈ {0, 1} wird als Kodewort der Länge l bezeichnet. Das Alphabet A =
{0, 1}l , d.h. die Menge aller Kodewörter, die einem Quellenalphabet eindeutig zugeordnet sind, bildet einen Kode. Wenn alle Kodewörter gleich lang sind, spricht man
von einem gleichmäßigen Kode, ein Kode mit ungleicher Kodewortlänge wird als ungleichmäßiger Kode bezeichnet. Die Differenz zwischen der der mittleren Kodewortlänge
lm (bei gleichmäßigen Kodes gleich der Kodewortlänge l) und dem mittleren Informationsgehalt der Quelle wird als Koderedundanz RK bezeichnet:
RK = lm − Hm ≥ 0
(4.5)
4.2. KANALKODIERUNG
4.2
43
Kanalkodierung
Bei der Quellkodierung geht es um eine Kodierung von Audiosignalen, die zum einen
die vom A/D-Wandler gelieferte Auflösung darstellen kann, dabei möglichst redundanzarm ist und zum anderen ein geeignetes Format für die Weiterverarbeitung durch Hardund Software zur Signalverarbeitung bildet. Am weitesten verbreitet ist die Darstellung in
linearer Pulskode-Modulation (Linear PCM) mit Zahlendarstellung als 2er-Komplement.
Für den in jüngster Zeit im Zusammenhang mit der Super Audio CD (SACD) favorisierten
Direct Stream Digital (DSD) Kode gibt es dagegen (noch) keine Signalverarbeitungsbausteine.
Bei der Kanalkodierung geht es darum, den zu übertragenden Zeichen für die Übertragung
und Speicherung in realen Kanälen geeignete Signale zuzuordnen. Bei digitalen Audiosignalen sind vor allem eine möglichst effiziente Ausnutzung der vorhandenen spektralen
Bandbreite, Gleichspannungsfreiheit, ein selbsttaktender Signalverlauf und Unempfindlichkeit gegenüber Interface Jitter von Bedeutung. Für die Leistungsfähigkeit von Kanalkodes werden folgende Kenngrößen verwendet:
• Tmin , Tmax : Minimale/maximale Dauer zwischen elektrischen Potentialwechseln in
Einheiten der Bitperiode des Quellkodes. Tmin ist gleichzeitig ein Maß für die Mindestanzahl der pro Potentialwechsel übertragbaren Datenrate (Density Ratio, DR)
und damit für die Kodeeffizienz.
• Window Margin Tw : Minimale Differenz der Zeitdauer zwischen zwei Potentialwechseln bei zu unterschiedlichen Datenfolgen gehörenden Signalverläufen. Tw ist
somit ein Maß für die Robustheit des Kodes gegenüber Interface-Jitter, d.h. einer
Verschiebung der Signalflanken und daraus resultierender, falscher Dekodierung.
• Figure of Merit, F oM = DR · Tw : Produkt aus Kodeeffizienz und Robustheit gegenüber Jitter als Maß für die Leistungsfähigkeit des Kodes.
4.2.1
Einfache Kodes
Einfache Kodes bilden eine logische 0“ und 1“ auf einen zugehörigen Signalverlauf ab.
”
”
Im Fall eines return to zero Kodes (RZ) wird nur für jede logische 1“ ein Puls erzeugt,
”
für eine 0“ bleibt das Signal auf dem low“-Potential. Ein nonreturn to zero (NRZ) Kode
”
”
bildet eine 1“ und eine 0“ direkt als hohes oder niedriges Potential ab, ohne dazwischen
”
”
auf ein niedriges Potential zurückzukehren. Der nonreturn to zero inverted (NRZI) Kode
bildet jede 1“ auf einen Potentialwechsel ab (egal in welche Richtung), während eine
”
0“ keinen Potentialwechsel auslöst. Der Biphase Mark Kode (auch: Frequenzy Modula”
tion, FM) bildet jede 0“ auf einen Potentialwechsel ab und erzeugt für jede 1“ einen
”
”
zusätzlichen Potentialwechsel in der Mitte der Bitperiode. Der Manchester Kode (auch
Phase Encoding, PE) bildet jede 1“ auf einen Potentialwechsel in positive Richtung, jede
”
0“ auf einen Potentialwechsel in negative Richtung ab, sodass aufeinanderfolgende 1en
”
oder 0en einen zusätzlichen Potentialwechsel erforderlich machen.
44
KAPITEL 4. KODIERUNG
Abbildung 4.1: Einfache Kanalkodes
4.2.2
Gruppenkodes
Durch Gruppenkodes lässt sich Effizienz und Robustheit der Kanalkodierung gegenüber
einfachen Kodes erhöhen. Dabei werden Gruppen von m Quellbits durch eine Zuweisungstabelle auf jeweils n Kanalbits abgebildet, wobei n > m. Dadurch erhöht sich die
Kanalbitrate gegenüber dem Quellkode um den Faktor n/m. Die höhere Effizienz wird
dadurch erzielt, dass von den 2n Kanalkodewörtern nur diejenigen 2m Wörter ausgewählt
werden, die mindestens d und höchstens k 0en zwischen zwei 1en aufweisen, wodurch
die für die Übertragung notwendige Bandbreite reduziert bzw. vorhandene Bandbreiten
durch eine höhere Anzahl verschiedener Kodewörter gefüllt“ werden können. Solche
”
Kodes werden auch als (d,k) Run-Length-limited (RLL) Kodes bezeichnet.
Beispiel ist der 4/5 Modified NRZI (MNRZI) Kode (auch Group Coded Recording Kode,
GCR), der Blöcke von 4 Quellbits auf jeweils 5 Kanalbits abbildet. Benachbarte 1en sind
erlaubt, aber maximal 2 0en zwischen zwei 1en, sodass sich eine (0,2) RLL Kodierung
ergibt. Tab. 4.1 zeigt das zugehörige Abbildungsschema. Der GCR Kode wird z.B. bei der
MADI-Schnittstelle für digitale, mehrkanalige Audiosignale eingesetzt.
Quellbits
0000
0001
0010
0011
0100
0101
0110
0111
Kanalbits
11001
11011
10010
10011
11101
10101
10110
10111
Quellbits
1000
1001
1010
1011
1100
1101
1110
1111
Kanalbits
11010
01001
01010
01011
11110
01101
01110
01111
Tabelle 4.1: Abbildungstabelle für den GCR (4/5 MNRZI) Kode
Weitere Kodevarianten im Audiobereich zeigt Tab. 4.2
45
4.3. FEHLERERKENNUNG - FEHLERKORREKTUR
Kode
GCR (Group Coded Recording)
8/10 Kode
EFM (Eight-to-fourteen modulation)
EFMPlus
m
4
8
8
8
n
5
10
14 (+3)
16
d
0
0
2
2
k
2
3
10
10
Anwendung
MADI Interface
DAT
CD
DVD
Tabelle 4.2: Verschiedene Gruppenkodes im Audiobereich
Der bei der CD eingesetzte EFM-Kode (Eight-to-fourteen modulation) bildet 8 Quellbits auf 14 Kanalbits und fügt am Ende jedes Kanlkodeworts 3 zusätzliche Merging Bits
hinzu, um einen gleichspannungsfreien Signalverlauf herzustellen. Bei der DVD kommt
ein modifizierter Kode (EFMPlus) zum Einsatz, der auf Merging Bits verzichtet, bei der
Abbildung von 8 auf 16 Kanalbits jedoch eine von 4 Zuweisungstabellen so auswählt,
dass sich ein gleichspannungsfreies Signal ergibt. Im Anschluss an die Kanalkodierung
wird das Signal in eine NRZI-kodierte Abfolge von pits und lands, d.h. Vertiefungen und
Erhöhungen auf der Oberfläche der CD umgesetzt.
Bezogen auf die Quellbitrate ergibt sich für Gruppenkodes ein Window Margin von Tw =
m
, eine Density Ratio von DR = Tmin = (d + 1) m
und eine Figure of Merit von F oM =
n
n
2
(d + 1) m
.
Tab.
4.3
zeigt
die
Kennzahlen
gängiger
einfacher Kodes und Gruppenkodes
n
im Vergleich.
gleichspannungsfrei
selbsttaktend
Tmin
Tmax
DR
Tw
F oM
RZ
nein
nein
0.5
∞
0.5
1
0.5
NRZ
nein
nein
1
∞
1
1
1
NRZI
nein
nein
1
∞
1
1
1
FM
ja
ja
0.5
1
0.5
0.5
0.25
PE
ja
ja
0.5
1
0.5
0.5
0.25
GCR
nein
ja
0.8
2.4
0.8
0.8
0.64
EFM
ja
ja
1.41
5.18
1.41
0.471
0.66
EFMPlus
ja
ja
1.5
5.5
1.5
0.5
0.75
Tabelle 4.3: Kennzahlen verschiedener einfacher Kodes und Gruppenkodes im Audiobereich
4.3
Fehlererkennung - Fehlerkorrektur
Im Gegensatz zur analogen Audioübertragung kann bereits ein geringfügiger
Übertragungsfehler eine große Signalverzerrung bewirken. Bereits ein einzelnes falsch
übertragenes bit kann eine im 2er-Komplement dargestellte Amplitude um den Betrag der
Spitzenspannung Us verändern, wenn das MSB davon betroffen ist. Fehlerquellen einer
gestörten Übertragung können sein
• Bandfehler durch Bandabrieb, Selbstentmagnetisierung oder Staubpartikel auf magnetischen Speichermedien
46
KAPITEL 4. KODIERUNG
• Staub, Kratzer und Verzerrungen der Bitgeometrie (Länge, Breite, Tiefe der Pits
und Lands) auf optischen Medien
• elektromagnetische
Übertragung.
Einstreuungen,
Übersprechen,
Jitter
bei
elektrischer
Hinsichtlich der Verteilung von Fehlern auf dem Kanal/auf dem Medium unterscheidet
man
• Einzelfehler (random errors) und
• Bündelfehler (burst errors)
wobei das Design einer Fehlererkennung meist auf die Fehlerstatistik des Kanals zugeschnitten ist.
Kenngrößen für das Fehlerverhalten von Kanälen sind die
• bit error rate (BER) als Anzahl fehlerhafter bits bezogen auf die Gesamtzahl der
übertragenen bits
• block error rate (BLER) als Anzahl der pro s übertragenenen fehlerhaften Datenblöcke
Die Fehlerkorrektur optischer Speichermedien (CD, DVD) reduziert eine typische (unkorrigierte) BER von 10−5 bis 10−4 auf einen Wert von 10−12 , der Standard für Computeranwendungen ist. Gleichzeitig gilt eine BLER von 220 für die CD-Herstellung als
akzeptabel. Bei 7350 übertragenen Blöcken pro s entspricht dies einer Blockfehlerrate
von 3%.
Abbildung 4.2: Strategie der Fehlerschutz-Kodierung
Jede Fehlerschutz-Kodierung folgt der Strategie in Abb. 4.2. Zunächst wird den zu
übertragenden Quellkode zur Bildung eines Kanalkodeworts ein overhead an Redundanz
hinzugefügt. Beim Empfänger wird das empfangene Datenwort zunächst geprüft. Wird es
als fehlerhaft erkannt, kann eine neue Übertragung angefordert werden (automatic repeat
4.3. FEHLERERKENNUNG - FEHLERKORREKTUR
47
request). Dies ist insbesondere bei paketvermittelter, asynchroner Übertragung möglich.
Bei synchroner Übertragung muss das System versuchen, den Fehler mit Hilfe der redundanten Daten selbst zu korrigieren. Wenn eine Fehlerkorrektur nicht möglich ist, kann der
Fehler durch Stummschaltung (mute), durch Wiederholen des letzten Werts oder durch
Interpolation verschleiert werden.
4.3.1
Parität und Hamming-Distanz
Die Parität binärer Symbole ergibt sich aus einer Addition modulo 2:
P =A⊕B
(4.6)
mit folgender Wahrheitstafel
A
0
0
1
1
B
0
1
0
1
P
0
1
1
0
Tabelle 4.4: Wahrheitstafel für Addition modulo 2
die schaltungstechnisch durch ein XOR-Gatter realisiert wird.
Abbildung 4.3: XOR Gatter zur Addition modulo 2
Durch Reihenschaltungen von XOR-Gattern lässt sich die Parität längerer Datensymbole
bestimmen. Sie ist immer dann gleich 1, wenn eine ungerade Anzahl von 1en im Datenwort auftreten. Zur Bildung eines Paritätskodes wird ein l-stelliges Quellenkodewort
ui = (ui1 ui2 . . . uil ) durch ein Paritätsbit ui,l+1 mit
ui,l+1 =
l
X
uij mod2
(4.7)
j=1
zu einem l+1-stelligen Kanalkodewort ergänzt. Zur Fehlererkennung wird ein Prüfvektor
s0 gebildet mit
s0 =
l+1
X
j=1
uij mod2
(4.8)
48
KAPITEL 4. KODIERUNG
Für s0 = 0 liegt kein oder ein nicht detektierbarer Fehler vor. Ein einfacher Paritätscheck
kann somit eine ungerade Anzahl von Fehlern erkennen, aber nicht korrigieren.
Ein Kriterium für die Robustheit eines Kanalkodes ist die Unterschiedlichkeit der einzelnen Kodewörter, da geringfügige Verfälschungen dann mit hoher Wahrscheinlichkeit
auf Datenwörter führen, die nicht Teil des Kodealphabets sind und somit als fehlerhaft
erkannt werden. Ein Maß für die Unterschiedlichkeit zweier Kodewörter ai und aj ist die
Hamming-Distanz dij . Sie gibt die Anzahl der Stellen an, an denen sich die Kodewörter
ai und aj unterscheiden. Für binäre Kodes ergibt sich die Hamming-Distanz aus der bitweisen Modulo-2-Addition der Kodewörter ai und aj :
dij = d(ai , aj ) =
n
X
(aig ⊕ ajg )
(4.9)
g=1
Die Hamming-Distanz eines einfachen Paritätskodes beträgt dmin = 2. Er wird z.B. bei
der internen Datenübertragung in Rechnern eingesetzt oder bei der Audioübertragung
nach AES3 (AES/EBU) als Paritätsbit innerhalb eines 32-bit Subframes.
4.3.2
Blockkodes und Faltungskodes
Wenn die Kodewörter eines Kanalkodes eine feste Länge haben, bezeichnet man den Kode
als Blockkode. Wenn die Kodewörter (und die darauf angewandten Verknüpfungen) die
algebraischen Eigenschaften einer Gruppe aufweisen, spricht man von einem linearen
Blockkode oder Linearkode. Lineare Blockkodes, die zusätzlich die Eingenschaften eines
Körpers erfüllen, bezeichnet man als zyklische Kodes. Eine gute Übersicht über verschiedene Kodierungsverfahren und ihre algebraischen Grundlagen findet man bei [KPS03].
Ein einfacher Paritätskode wie in Abschnitt 4.3.1 beschrieben ist ein Beispiel für einen
Blockkode. Wesentlich leistungsfähiger sind iterierte Kodes, z.B. zweidimensionale Kodes, bei denen das Quellkodewort in Zeilen und Spalten angeordnet wird. Jede Zeile und
jede Spalte erhält ein Paritätsbit (Abb. 4.4). Einfachfehler werden mit Sicherheit erkannt
und können durch Invertierung korrigiert werden, da sich die Prüfvektoren mit s0 = 1
von Zeile und Spalte im fehlerhaften Element kreuzen. Zweifachfehler und alle ungeradzahligen Fehlerhäufigkeiten werden mit Sicherheit erkannt, auch wenn sie nicht immer
korrigiert werden können. Die minimale Hamming-Distanz eines Kodes nach Abb. 4.4 ist
dmin = 4. Iterierte Kodes können auf drei- oder mehrdimensionale Verfahren erweitert
werden.
Bei Faltungskodes (convolutional codes, blockfreie Kodes) wird die Redundanz kontinuierlich in einen Datenstrom, den der Quellkodierer abgibt, eingefügt. Für die Realisierung
genügt eine einfache Kombination von Schieberegistern und XOR-Gattern. Bei der Variante in Abb. 4.5 erzeugt ein fehlerhaft übertragenes Datensymbol eine Kodeverletzung
in zwei jeweils um drei Zeitpunkte verschobenen Kodewörtern. Auf diese Weise kann
der Fehler erkannt und korrigiert werden. Faltungskodes benötigen für die Erkennung
und Korrektur von Einzelfehlern weniger Redundanz als Blockkodes, verhalten sich bei
4.3. FEHLERERKENNUNG - FEHLERKORREKTUR
49
Abbildung 4.4: Zweidimensionaler Paritätskode
Bündelfehlern allerdings weniger robust. Sie sind geeignet für die Kodierung kontinuierlicher Datenströme (Digitaler Rundfunk) mit rauschhaften Störungen. Sie eignen sich
aufgrund ihrer blockfreien Struktur nicht für paketorientierte Übermittlung (Netzwerke,
asynchrone Übertragung) oder für Speichermedien, auf denen vorwiegend Bündelfehler
auftreten.
Abbildung 4.5: Faltungskode
Zu den zyklischen Kodes gehören auch die auf der CD und DVD eingesetzten ReedSolomon-Kodes. Sie kommen bei der CD in einem zweistufigen Prozess zur Anwendung
mit zusätzlicher Kodespreizung (Interleaving) zwischen den Kodierungsstufen (CrossInterleave Reed-Solomon Code, CIRC). In einem ersten Schritt werden jeweils 24 8-bitSymbolen 4 Paritätswörter (Q) hinzugefügt und 28-bit-Kanalkodewörter ausgegeben (C2
50
KAPITEL 4. KODIERUNG
Encoder). Die C2 Kodewörter werden anschließend auf 28 verschiedene Blöcke verteilt,
die mit einer Distanz von bis zu 109 Blöcken über die CD verteilt werden. In einem zweiten Schritt werden jeweils 28 8-bit-Symbolen weitere 4 Paritätswörter (P) hinzugefügt
und als 32-bit-Kanalkodewörter auf der CD aufgezeichnet (C1 Encoder). Die Redundanz
beträgt somit insgesamt 25%. Jede Dekodierungsstufe kann bis zu 4 fehlerhafte Symbole
korrigieren, wenn der der Fehlerort bekannt ist, und zwei Symbole, wenn der Fehlerort
nicht bekannt ist. Durch die Kodespreizung werden Bündelfehler über einen größeren
Bereich der CD verteilt, wodurch sie innerhalb jedes Blocks leichter korrigiert werden
können. Dadurch kann das Gesamtsystem bis zu 3874 aufeinanderfolgende, fehlerhafte
bits korrigieren, entsprechend einer Spurlänge von 2,5 mm auf der CD.
4.4
Interfaces
Schnittstellen (interfaces) definieren sowohl physikalische Eigenschaften (Spannung,
Impedanz, Datenrate) als auch logische Eigenschaften (Übertragungsprotokoll) der
übertragenen Daten. Genormte (standardisierte) Schnittstellen bieten durch ihre Kompatibilität den Vorteil der leichteren Systemintegration. Digitale Schnittstellen können
als klassische Punkt-zu-Punkt-Verbindungen oder als Netzwerk-Protkolle ausgelegt sein.
Während traditionelle Schnittstellen wie AES/EBU oder MADI zu ersten Gruppe gehören,
werden zunehmend auch Netzwerk-Protkolle oder Bussysteme aus dem Computerbereich
(IEEE 1394, USB, TCP/IP) für die Übertragung von Audiodaten genutzt.
4.4.1
AES 3
AES3 ist der 1985 eingeführte und 1992 und 1997 überarbeitete, wichtigste nichtproprietäre Standard für die zweikanalige, digitale Audioübertragung. Er definiert für
jeden Abtastwert im Audiosignal ein Frame, das aus zwei Subframes für Kanal 1 mit
der Präambel X und Kanal 2 mit der Präambel Y besteht. Insgesamt 192 Frames bilden
einen Block, dessen Beginn durch die Präambel Z markiert wird. Jedes Subframe besteht
aus 32 Bits, von denen 4 für die Präambel, 24 für die Audiodaten (2er-Komplement, LSB
first) und jeweils eines für Validity (Gültigkeit des Datenworts), User (vom Anwender definierbare Information), Channel Status (Informationen über den Audiodatenstrom) und
Parity (Paritätsbit zur Fehlererkennung) stehen (Abb.4.6).
Abbildung 4.6: Subframe nach AES 3 (AES/EBU)
Der Datenstrom wird mit einer Biphase-Mark-Kanalkodierung übertragen. Die
Präambeln X, Y und Z, die den Anfang eines Frames, eines Subframes und eines
51
4.4. INTERFACES
Blocks markieren, sind als kodeverletzende (im Kanalkode nicht auftretende) Signalmuster in den Datenstrom eingesetzt. Für die Bits U (User) und V (Validity) hat sich keine
einheitliche Verwendung etabliert, verschiedene Varianten der Nutzung findet man bei
[RW04]. Die 24 Byte (= 192 Bits) eines Channel Status Blocks entahlten Information
über Abtastrate und Wortbreite der Audiodaten sowie optional Information über Emphasis, Adressierung und Timecode (s. Tab. 4.5). Obligatorisch ist nur die Bereitstellung von
Daten in Byte 0, während die Nutzung der Bytes 1 bis 23 freigestellt ist.
Byte
0
1
2
3
4
5
6-9
10-13
14-17
18-21
22
23
Bedeutung
Kontrolldaten (Professional/Consumer, Abtastrate, Emphasis)
Mode, User Bit Management
Verwendung Aux Bits, Wortbreite, Alignment
Mehrkanalmodus, Kanalnummer
Abtastrate
Reserved
Quellenidentifizierung (4 Byte ASCII)
Zielidentifizierung (4 Byte ASCII)
Lokale Adressierung
Timecode
Channel status reliability flags
CRCC
Tabelle 4.5: AES 3 Channel Status Block
Die Consumer-Variante der AES3-Schnittstelle (IEC 60958 oder landläufig S/PDIF für
Sony/Philips Digital Interface) wurde bereits 1984 eingeführt und ist vermutlich die am
weitesten verbreitete digitale Audioverbindung. Sie war als Schnittstelle zur Verbindung
von CD-Playern und den ersten DAT-Recordern vorgesehen und wurde aus Gründen des
Urheberrechtsschutzes mit einem Kopierschutz ausgestattet. Bei DAT-Geräten kam das
SCMS (Serial Copy Management System) zum Einsatz, das lediglich eine bestimmte
Anzahl von Kopien zuließ und diese Informationen über das S/PDIF Interface von der
Quelle zum Aufnahmegerät weitergab.
Das Datenformat der Subframes stimmt mit AES3 überein. Unterschiede gibt es bei den
elektrischen Spezifikationen (Tab. 4.6)und bei der Verwendung der VUCP-Informationen.
Das Interface verwendet eine unsymmetrische Schnittstelle mit einer Impedanz von 75
Ohm in Leistungsanpassung. Die Quellimpedanz muss in einem Frequenzbereich von 0,1
bis 6 MHz auf ±20 Prozent genau eingehalten werden, die Impedanz des Empfängers
muss 75 Ohm mit maximalen Abweichungen von ±5 Prozent betragen. Relativ tolerant
ist man beim Wellenwiderstand des Kabels: Hier dürfen die Abweichungen in einem Bereich von ±35 Prozent liegen, was den typischen User-Gepflogenheiten, ”´irgendein“ Kabel zu verwenden, vermutlich entgegen kommt. Die Signalspannung liegt bei 0,5 Volt
(±20 Prozent), als Steckverbindung kommt eine Cinch-Buchse (RCA/Phono) zum Einsatz (Rumsey u. Watkinson 2004).
52
KAPITEL 4. KODIERUNG
4.4.2
AES 10
Zur Verbindung mehrkanaliger Signale, etwa zwischen Wandlergruppen, Mischpulten,
Aufzeichnungssystemen, kommt die MADI-Schnittstelle (für Multichannel Audio Digital
Interface) zum Einsatz. Die Kodierung eines Subframes (Abtastwert für einen Kanal)ist
aus dem AES 3 Protokoll abgeleitet. Allerdings können bis zu 64 Kanäle für ein Abtastintervall gesendet werden, mit entsprechend höherer Datenrate und Signalfrequenz. Als
Kanalkode wird eine 4/5 GCR Kodierung verwendet (s. 4.2.2). Da die Übertragung durch
eine separate Wordclockleitung synchronisiert wird, ist eine Präambel zur Synchronisation wie bei AES 3 nicht erforderlich und die 4 bits zu Beginn eines Subframes können zur
Anzeige des Kanalmodus verwendet werden (Abb. 4.7).
Abbildung 4.7: Subframe nach AES 10 (MADI)
Die elektrischen Spezifikationen der drei nichtproprietären Interfaces können Tab. 4.6
entnommen werden.
Interface
AES 3 (AES/EBU)
IEC 60958 (S/PDIF)
AES 10 (MADI)
Impedanz (in/out)
110 Ω
75 Ω
75 Ω
Signalamplitude
2-7 V (min. 200 mV)
0,5 V ± 20% (min. 200 mV)
0,3-0,7 V (min. 150 mV)
Jitter
max. 20 ns
max. 20 ns
max. 2 ns
Steckverbindung
XLR symm.
RCA phono
BNC
Tabelle 4.6: Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen
4.5
Bitratenreduktion
Die für hochqualitative Audioübertragung benötigte Bandbreite bzw. der erforderliche Speicherplatz ist für viele Anwendungsbereiche zu hoch. Aus diesem Grund ist
man bemüht, die Menge der Audiodaten bzw. deren Bitrate ohne (signifikante) Qualitätseinbußen zu reduzieren. Dies ist Aufgabe von Audiokodierungsverfahren (auch Audiokompressionsverfahren1 ), die in vielen Bereichen in zunehmenden Maße eine bedeutende Rolle spielen, auch wenn man dies dem Anwender oft nicht bewußt ist. So sind
sie nicht nur im Internet mit ihrem sehr prominenten Vertreter MP3 (MPEG-1 layer 3)
vertreten, sondern werden z.B. in der Telefonie, beim Rundfunk und im Fernsehen, im
1
Nicht zu verwechseln mit Verfahren zur Dynamikkompression!
53
4.5. BITRATENREDUKTION
Kino, auf DVDs, etc. eingesetzt. Durch die weite Verbreitung ist die Auseinandersetzung
mit Eigenschaften bzw. Stärken und Schwächen der Verfahren sinnvoll.
Der Faktor, um den die Bitrate durch ein Kodierungsverfahren verringert werden kann,
wird als Kompressionsrate bezeichnet. Je nach Verfahren oder Voreinstellung kann die
Kompressionsrate konstant oder variabel sein. Dementsprechend spricht man entweder
von konstanter Bitrate (CBR) oder variabler Bitrate (VBR).
Zur Reduzierung der Bitrate versuchen Kodierungsverfahren, redundante und irrelevante Anteile des Signals zu entfernen. Als redundant werden Anteile bezeichnet, die beim
Empfänger bzw. Dekoder fehlerfrei rekonstruiert werden können. Als irrelevant werden
hingegen Anteile bezeichnet, die für den Empfänger keine Bedeutung haben und aus diesem Grund bei der Kodierung ausgeschlossen werden können. Die Redundanzkodierung
arbeitet somit verlustlos, d.h. das dekodierte Signal entspricht in jedem Bit dem Originalsignal, während die Irrelevanzkodierung verlustbehaftet ist, so daß Eingangssignal und
dekodiertes Signal sich meßtechnisch unterscheiden, im Idealfall allerdings vom Hörer
keine Unterschiede wahrgenommen werden können.
4.5.1
Redundanzkodierung
Redundanzkodierungsverfahren arbeiten heutzutage zumeist nach dem Prinzip der linearen Prädiktion mit anschließender Entropiekodierung; aufgrund der vorhergehenden
Abtastwerte wird versucht, die kommenden Abtastwerte vorherzusagen. Der dabei gemachte Fehler wird anschließend für Übertragung oder Speicherung verlustfrei kodiert,
so daß der Bitstream im wesentlichen nur den kodierten Prädiktionsfehler und die
Prädiktorkoeffizienten enthält. Abb. 4.8 zeigt den typischen Ablauf eines prädiktionsbasierten Redundanzkodierungsverfahrens.
Eingangssignal
-
-
Entropiekodierung
-
6
-
Prädiktor
Indices
Bitstream- Formatierung
?
Koeffizientenberechnung
-
kodierter
Ausgangsbitstream
6
Prädiktionskoeffizienten
-
Abbildung 4.8: typischer Ablauf eines verlustlosen Kodierungsverfahrens, die dicken Pfeile markieren das unveränderte Audiosignal, die dünnen den Fluß der Daten
54
KAPITEL 4. KODIERUNG
Verlustlose Verfahren haben neben dem offensichtlichen Vorteil der Verlustlosigkeit zwei
wichtige Nachteile:
• die Kompressionsrate ist mit Faktor 1.5 − 3 gering im Vergleich zu verlustlosen
Verfahren
• die Ausgangsbitrate ist abhängig von den Eigenschaften des Eingangssignals und
kann prinzipbedingt nicht konstant gehalten werden
Geläufige Beispiele für verlustlose Verfahren:
• Meridian Lossless Packing (MLP): Dieses bei der DVD-A eingesetzte verlustlose
Verfahren erlaubt die Kodierung von mehrkanaligen Audiodaten mit Abtastraten
bis 192kHz [SCG+ 99].
• FLAC: Ein inzwischen vergleichsweise verbreitetes verlustloses Verfahren, dessen
Quelltexte als Open-Source zur Verfügung stehen. Das Verfahren unterstützt bis
zu acht Audiokanäle beliebiger Abtastraten bei einer Bitauflösung von 4-32 Bit im
Festkomma-Format [Coa05].
• MPEG-4 ALS (Audio Lossless) ist ein sich im Standardisierungsprozeß befindliches verlustloses Kodierungsverfahren, das im folgenden näher beschrieben wird.
Der Standard wird vermutlich im Jahr 2005 im Rahmen des MPEG-4 Audiostandards verfügbar sein [ISO01].
4.5.1.1
Lineare Prädiktion
Die Grundidee der linearen Prädiktion ist die Vorhersage der kommenden Abtastwerte
aus den vorhergehenden. Hierbei wird die Tatsache ausgenutzt, daß aufeinanderfolgende
Abtastwerte sich ähnlicher sind bzw. voneinander stärker statistisch abhängig sind als
weiter auseinander liegende. Die Prädiktion der Abtastwerte geschieht zumeist mittels
eines FIR-Filters, dessen Koeffizienten kontinuierlich an das Signal angepaßt werden. Je
höher die Ordnung des Filters ist, desto mehr in der Vergangenheit liegende Werte werden
bei der Prädiktion berücksichtigt.
Die Differenz zwischen Eingangssignal und Ausgangssignal des Filters bzw. Prädiktors
ist der Prädiktionsfehler. Der Prädiktionsfehler soll durch geschickte Wahl der Filterkoeffizienten und der Filterordnung möglichst minimiert werden. Um dabei die Zeitveränderlichkeit des Signals zu berücksichtigen, werden die optimalen Filterkoeffizienten
für jeden Signalblock neu berechnet.
Die Effizienz eines Prädiktors hängt von den statistischen Abhängigkeiten der Abtastwerte des Eingangssignals ab. Stationäre, tonale Signale können sehr gut vorhergesagt werden
und führen zu einem kleinen Prädiktionsfehlersignal, während rauschhafte Signale nicht
oder nur schlecht prädiziert werden können, da Rauschen keine statistische Bindung zwischen einzelnen Abtastwerten aufweist.
55
4.5. BITRATENREDUKTION
4.5.1.2
Entropiekodierung
Bei der Entropiekodierung werden wie auch bei der linearen Prädiktion statistische Eigenschaften des Signals ausgenutzt. Während allerdings die lineare Prädiktion statistische
Abhängigkeiten in der zeitlichen Abfolge betrachtet, wird bei der Entropiekodierung die
Auftretenswahrscheinlichkeit von Symbolen betrachtet. Im Falle eines Audiosignals kann
eine Symbol z.B. ein bestimmter Amplitudenwert oder auch eine Folge von Amplitudenwerten sein.
Die Entropie als mittlerer Informationsgehalt des Signals gibt gleichzeitig das theoretisch
erreichbare Minimum der für die Enkodierung benötigten Bits an. Ist das Auftreten aller
Symbole gleichwahrscheinlich, so nimmt die Entropie ihren Maximalwert, nämlich die
Zahl der Bits pro Symbol an. Das bedeutet, wenn die Symbole die Amplitudenwerte eines
Audiosignals sind, daß ein konstantes Signal (Gleichanteil) keinerlei Informationsgehalt
hat, während gleichverteiltes Rauschen maximalen Informationsgehalt besitzt und somit
bei der Kodierung keinerlei Bits gewonnen werden können.
Die Entropiekodierung nutzt die unterschiedlichen Auftretenswahrscheinlichkeiten der zu
kodierenden Symbole aus. Die Huffmankodierung ist eine typische Entropie-Kodierung,
bei der Symbolen mit sehr hoher Auftretenswahrscheinlichkeit kürzere Worte für die
Übertragung zugeordnet werden als Symbolen, die selten auftreten. Ein simples Beispiel
ist die Kodierung eines Signals mit 3 Symbolen A, B und C mit den jeweiligen Wahrscheinlichkeiten pA = 0.5, pB = 0.25, pC = 0.25. Die Entropie eines solchen Signals
ist 1.5, d.h. im Falle einer optimalen Kodierung werden im Schnitt 1.5 Bit pro Symbol
verwendet. Eine mögliche Huffmankodierung wäre:
Symbol
A
B
C
Bitfolge
0
10
11
Tabelle 4.7: mögliche Huffman-Kodierung eines Signals mit drei Symbolen A,B,C mit den Auftretenswahrscheinlichkeiten pA = 0.5, pB = 0.25, pC = 0.25
Ein Signal der Symbolfolge ABCA wird also mit dem theoretischen Minimum
Zahl der Bits
6Bits
= 4Symbole
= 1.5 kodiert. Ändert man die AuftretenswahrscheinlichkeiZahl der Symbole
ten der drei Symbole zu pA = 0.7, pB = 0.2, pC = 0.1, so erhält man für jedes der
Symbole die gleiche Bitfolge, aber eine Entropie H ≈ 1.11. Bei der Kodierung eines
Signals mit diesen Auftretenshäufigkeiten erhält man allerdings das Ergebnis, daß ca. 1.3
Bits pro Symbol verwendet wurden, so daß die theoretisch erreichbare Kompressionsrate nicht erreicht werden konnte. Tatsächlich kann ein Huffmankode nur dann optimal
funktionieren, wenn die Auftretenswahrscheinlichkeiten inverse Zweierpotenzen sind.
Bei der Kodierung realer Signale ist die Erstellung einer korrekten Statistik von großer Bedeutung. Oftmals verfügen Huffmankodierer aus diesem Grund über verschiedene Codebooks basierend auf unterschiedlichen Wahrscheinlichkeitsverteilungen und wählen dann
56
KAPITEL 4. KODIERUNG
das geeignete Codebook aus. In diesem Fall muß allerdings dem Dekoder mitgeteilt werden, welches Codebook verwendet wurde.
4.5.1.3
Beispiel MPEG-4 ALS
MPEG-4 ALS ist das erste von der MPEG standardisierte verlustlose Kodierungsverfahren. Es unterstützt als Eingabeformate Bitauflösungen 8-32 Bit Festkomma sowie 32
Bit Fließkomma und beliebige Abtastraten. Im Gegensatz zu verlustbehafteten Verfahren müssen für ein verlustloses Verfahren weite Teile des Enkoders standardisiert werden,
da der Dekoder das Signal bitgenau rekonstruieren muß.
Prädiktion
Aus dem aktuellen Block von Audiodaten werden die optimale Prädiktorordnung sowie
die Prädiktionskoeffizienten geschätzt. Die Koeffizienten werden quantisiert, um effizient
übertragen werden zu können.
Kodierung
Da man im allgemeinen davon ausgehen kann, daß im Prädiktionsfehler kleine Amplitudenwerte sehr viel wahrscheinlicher sind als große Amplitudenwerte, kann das Fehlersignal mittels Entropiekodierung effizient kodiert werden. Bei MPEG-4 ALS wird hierfür
ein Golomb-Rice-Codec verwendet, ein Spezialfall der Huffmankodierung mit vereinfachten Annahmen über die Wahrscheinlichkeitsverteilung des Auftretens bestimmter Symbole.
Weiterhin bietet ALS optional die Möglichkeit, für einen bestimmten Amplitudenbereich
des Prädiktionsfehlers arithmetische Codierung (in diesem Fall Block Gilbert Moore Code, BGMC) einzusetzen. Im Gegensatz zur Huffman-Codierung können arithmetische
Codierer auch beliebige Auftretenswahrscheinlichkeiten (d.h. nicht nur inverse Zweierpotenzen) gut kodieren, so daß sich die Zahl der tatsächlichen verwendeten Bits pro Symbol
dem durch die Entropie vorgegebenen theoretischen Minimum annähert.
Erweiterungen
• Blocklängen-Switching: Die Blocklänge ist nicht fix, sondern kann z.B. in
Abhängigkeit der Abtastrate gewählt werden. Jeder Block der Länge N kann wiederum in Subblöcke der Längen N/2, N/4, N/8, und N/16 aufgeteilt werden. Die Kombinationen und die Reihenfolge der verschiedenen Subblock-Längen sind beliebig,
solange die Summe der Blocklänge N entspricht. Die Aufteilung eines Blocks in
kürzere Subblöcke erlaubt die effizientere Codierung von Transienten. Die Wahl
der Subblock-Längen ist nicht durch den Standard vorgegeben, sondern hängt von
der Enkoderimplementierung ab.
• Random Access: Da jeder Block abhängig vom den Ergebnissen des vorhergehenden Blockes ist, ließe sich jeder Bitstream jeweils nur vom Anfang an dekodieren. Um diese Einschränkung zu umgehen, erlaubt ALS das Einfügen sogenannter
4.5. BITRATENREDUKTION
57
Random-Access-Frames zu deren Dekodierung kein Vorwissen aus den vorhergehenden Blöcken erforderlich ist. Auf diese Weise wird es möglich, im Bitstream zu
springen, ohne Dekodieren zu müssen.
• Inter-Channel Joint Coding: Zur Ausnutzung von Redundanzen zwischen Kanalpaaren bietet ALS einerseits die Möglichkeit, die Differenz zwischen einem
beliebigen Kanalpaar zu enkodieren. Andererseits besteht die Möglichkeit, den
Prädiktionsfehler des einen Kanals zur Schätzung des Fehlers des anderen Kanals
zu verwenden.
4.5.2
Irrelevanzkodierung
Die Verfahren der Irrelevanzkodierung versuchen, für das menschliche Gehör wichtige Signalanteile von unwichtigen Signalanteilen zu trennen, und die unwichtigen Anteile gar
nicht oder sehr verrauscht zu übertragen. Dabei sind je nach Verfahren und gewünschter
Qualität Kompressionsraten von 4/1 − 3 0/1 oder mehr erzielbar. Im Gegensatz zu verlustlosen Verfahren ist es mit verlustbehafteten Verfahren meistens auch möglich, eine feststehende Bitrate zu erzielen, was für die Echtzeitübertragung (Streaming) große Bedeutung
haben kann. Im allgemeinen hat der Dekoder keinen Einfluß auf die Qualität des enkodierten und wieder dekodierten Signals, diese wird ausschließlich von Enkoder bestimmt.
Geläufige Beispiele für verlustbehaftete Musik-Kodierungsverfahren sind:
• MPEG-1 Layer 2 (MP2), MPEG-1 Layer 3 (MP3), MPEG-2/4 AAC (MP4), hier
mit steigender Komplexität bzw. steigender Kompressionsrate genannt. MPEG-4
AAC ist das aktuellste und leistungsfähigste dieser Kodierungsverfahren [ISO01].
• Dolby AC-3 (Dolby Digital) ist ein Kodierungsverfahren für bis zu 6 Audiokanäle
bei Abtastraten zwischen 32 und 48 kHz. Der Haupteinsatzbereich ist Kino und
DVD. Das Verfahren ist standardisiert [ATS95].
• DTS
• Sony ATRAC, SDDS
Abb. 4.9 zeigt den prinzipiellen Aufbau eines typischen wahrnehmungsangepaßten Kodierungsverfahren.
Da das Kodierungsverfahren versucht, wichtige (relevante) Signalanteile von unwichtigen
zu unterscheiden, ist eine umfassende Analyse des Eingangssignals nötig. Diese geschieht
im sogenannten psychoakustischen Modell. Die Analyse sowie die spätere Kodierung werden im Frequenzbereich durchgeführt, wobei die Transformation mittels einer Filterbank
oder Frequenztransformation durchgeführt wird. Dabei werden wichtige Eigenschaften
des Gehörs wie die aus der Psychoakustik bekannten Verdeckungseffekte und die Frequenzauflösung des Gehörs modelliert. Das psychoakustische Modell teilt dann den anderen
Komponenten des Enkoders mit, welche Frequenzbänder bzw. -komponenten besonders
58
KAPITEL 4. KODIERUNG
Eingangssignal
?
?
Psychoakustisches
Modell
Filterbank
-
?
-
Spectral
Processing
?
Quantisierung
und
Noiseless Coding
-
BitstreamFormatierung
-
kodierter
Ausgangsbitstream
-
Abbildung 4.9: typischer Ablauf eines wahrnehmungsangepaßten Kodierungsverfahrens, die
dicken Pfeile markieren den Fluß der Audioinformationen, die dünnen den Fluß der Kontrolldaten
wichtig sind, und welche vernachlässigbar sind. Vor der eigentlichen Quantisierung des
Signals kommen -abhängig vom jeweils betrachteten Kodierungsverfahren- noch einige
Tools, welche die Kodierungseffizienz weiter steigern. Beispiele sind die Ausnutzung von
Redundanzen zwischen zwei Stereokanälen, die Prädiktion von Spektralwerten sowie die
Veränderung der zeitlichen Struktur des Quantisierungsrauschens.
Einer der wichtigsten Bearbeitungsschritte ist die Quantisierung. Basierend auf der Analyse des psychoakustischen Modells versucht der Quantisierer, wichtige Spektralanteile
hochauflösend zu quantisieren und unwichtigere sehr grob zu quantisieren. Die Quantisierung im Zusammenhang mit der nachgeschalteten Redundanzkodierung der quantisierten
Werte resultiert dann in dem Kodierungsgewinn.
Bei fast allen Irrelvanzkodierungsverfahren sind -wie z.B. bei den meisten MPEGEnkodern- wesentliche Bestandteile des Enkoders nicht normiert, während der Dekoder
vollständig standardisiert ist. Dies hat den Vorteil, daß die Qualität eines solchen Verfahrens nicht mit der Standardisierung unumgänglich feststeht, sondern ständig weiter optimiert werden kann, gleichzeitig jedoch die Kompatibilität mit existierenden Dekodern beibehalten kann. Andererseits hat dieses Vorgehen aber zur Folge, daß für die meisten Verfahren unterschiedlichste konkurrierende Implementierungen mit teilweise deutlich voneinander abweichender Qualität existieren; somit kann man nicht mehr von der Qualität
4.5. BITRATENREDUKTION
59
des Verfahrens selbst sprechen, sondern entweder von der Qualität einer Implementierung
oder von Qualitätspotential eines Verfahrens.
4.5.2.1
Verdeckung und Frequenzgruppen
Ein einzelner Sinuston oder ein schmalbandiges Rauschen kann auf der Frequenzachse dicht liegende Signalanteile maskieren, so dass sie nicht hörbar sind (Simultanverdeckung). Abb. 4.10 zeigt eine Verdeckungsschwelle im Falle eine sinusförmigen Maskierers für unterschiedliche Maskiererpegel. Die unter der Verdeckungsschwelle und somit
nicht hörbaren Signale werden von einem verlustbehafteten Verfahren als unwichtig bzw.
irrelevant eingeordnet.
Abbildung 4.10: Pegel eines Sinustons, der von einem 1kHz-Sinuston unterschiedlichen Pegels
maskiert wird, als Funktion der Frequenz des Testtones (aus [ZF99])
Die Höhe der Verdeckungsschwelle hängt auch von der Tonalität des Maskierers ab. So
kann die Verdeckungsschwelle von rauschhaften Maskierern um bis zu 15dB höher liegen
als bei tonalen Maskierern.
Das Gehör faßt zur spektralen Analyse Schallereignisse in Frequenzgruppen zusammen
[Fle40], [ZF67]. Dieser Effekt läßt sich beispielsweise veranschaulichen, indem man einer
Versuchperson ein Bandpaßrauschen konstanter Intensität aber variabler Bandbreite vorspielt. Die Bandbreite wird im Laufe des Versuchs langsam erhöht. Die wahrgenommene
Lautstärke bleibt bis zu einem gewissen Punkt konstant, dann steigt sie an. An dem Punkt,
wo die Bandbreite des Rauschens bei gleichbleibender Lautstärke maximal ist, können alle Frequenzen innerhalb seiner Bandbreite einer Frequenzgruppe zugeordnet werden. Ein
alternatives Experiment mißt die Verdeckungsschwelle von zwei Schmalbandrauschen
im Abstand ∆f , die einen dazwischenliegenden Sinuston maskieren. Für kleine ∆f , das
heißt innerhalb einer Frequenzgruppe, bleibt die Verdeckungsschwelle konstant, außerhalb der Frequenzgruppe fällt sie mit zunehmendem ∆f ab.
60
KAPITEL 4. KODIERUNG
Für unterschiedliche Mittenfrequenzen ergeben sich unterschiedliche Bandbreiten der Frequenzgruppen, deren Breite nichtlinear mit der Mittenfrequenz zusammenhängt. Zwicker
gab folgende Näherung für die Frequenzgruppenbreite ∆f in Abhängigkeit der Mittenfrequenz [ZF99]:
"
2 #0.69
fm
[Hz]
(4.10)
∆f = 25 + 75 1 + 1.4
1000
Die Frequenzgruppen überlappen einander; reiht man sie allerdings nicht-überlappend auf
der Frequenzskala auf, so erhält man etwa 24 Bänder, die sogenannten kritischen Bänder.
Die so entstehende Tonheitsskala kann linear von 0 bis 24 in die Pseudoeinheit [Bark]
unterteilt werden [ZF67]. Ein Modell zur Abbildung der Frequenz f auf den Barkwert z
ist nach Zwicker [ZF99] gegeben durch (vgl. Abb. 4.11):
2 !
f
0.76f
+ 3.5 · arctan
[Bark]
(4.11)
z = 13 · arctan
1000
7500
Abbildung 4.11: Bark-Werte nach Zwicker in Abhängigkeit der Frequenz
Die Bark-Skala läßt sich auch als Modell für die nichtlineare Zuordnung von Frequenz zu
Ort auf der Basilarmembran verstehen.
Neben den Verdeckungseffekten im Frequenzbereich (Simultanverdeckung) gibt es auch
zeitliche Verdeckungseffekte, die Nachverdeckung (auch Forward Masking oder Postmasking) und die Vorverdeckung auch Backward Masking oder Premasking). In Abb. 4.12
sind die Auswirkungen dieser Effekte dargestellt. Kurz nach einem lauten Maskierer lie-
4.5. BITRATENREDUKTION
61
gende Signalanteile können oft nicht wahrgenommen werden. In geringerem Maße kann
eine solche Verdeckung auch für vorangehende Signalanteile stattfinden.
Abbildung 4.12: Bereiche, in denen Pre- und Postmasking auftritt (aus [ZF99])
Die Bedeutung der Simultanverdeckung ist für verlustbehaftete Kodierungsverfahren allerdings von größerer Bedeutung als die Modellierung zeitlicher Verdeckungseffekte.
4.5.2.2
Beispiel MPEG-4 AAC
AAC steht für Advanced Audio Coding und wurde zunächst in MPEG-2 standardisiert,
dann mit leichten Erweiterungen in MPEG-4. AAC ist seinem Vorgänger MP3 vom
Grundprinzip her sehr ähnlich, erlaubt aber neben einigen systematischen Verbesserungen und Erweiterungen zur Erhöhung der Qualität bis zu 48 Kanäle und Abtastraten bis
96kHz.
Im MPEG-4-Standard sind verschiedene Profiles für AAC definiert, die für verschiedene
Anwendungsfälle optimiert sind. Das gängigste Profile ist das AAC-LC (Low Complexity). Weiterhin gibt es die Profiles AAC-Main, das sich i.a. durch höhere Qualität, aber
auch höhere Rechenlast auszeichnet, und weitere bisher kaum verbreitete Profiles wie z.B.
AAC-LTP und AAC-LD, letzteres zur Minimierung der Encoding/Decoding-Latenz.
Neuere Versionen des Standards enthalten darüberhinaus das sogenannte HE-Profile und
zusätzliche Erweiterungen zur parametrischen Audiokodierung, die wesentlich niedrigere
Bitraten bei akzeptabler Qualität ermöglichen.
Durch die offene Standardisierung des Enkoders variiert die Qualität verschiedener Enkoderimplementierungen.
Psychoakustisches Modell
Es ist Aufgabe des psychoakustischen Modells, eine Gewichtung von Signalanteilen
hinsichtlich ihrer Relevanz durchzuführen. Durch die offene Standardisierung bleibt die
praktische Umsetzung des Modells dem Entwickler überlassen. Es ist aber ein Vorschlag
im Standard enthalten, der den grundsätzlichen Ablauf eines psychoakustischen Modells
verdeutlicht und der hier kurz beschrieben werden soll.
Der eingehende Block von Audiodaten wird mittels einer FFT in den Frequenzbereich transformiert. Anschließend wird die Tonalität bzw. Rauschhaftigkeit der einzelnen Spektralwerte für die nachfolgende Bestimmung der Maskierungsschwelle bestimmt, da die Höhe der Maskierung sich für tonale und rauschhafte Maskierer unter-
62
KAPITEL 4. KODIERUNG
scheidet. Zur Bestimmung der Maskierungsschwelle wird das Spektrum anschließend
in die kritische Bänder transformiert. Da die Bänder nicht überlappend sind, ist die
tatsächliche Auflösung ungefähr 3 mal so groß wie durch die kritischen Bänder im nichtüberlappenden Fall vorgegeben. Die Maskierungsschwelle berechnet sich dann mit der sogenannten spreading function, die den Verlauf der Maskierungsschwelle eines einzelnen
Maskierers nachbildet. Die Berechnung der Maskierungsschwelle läßt sich vereinfacht
als Faltung der spreading function mit dem Bark-Spektrum vorstellen. Tatsächlich wird
allerdings die absolute Höhe der Spreading function noch mittels der zuvor berechneten
Tonalität bewertet. Zu Bestimmung der endgültigen Maskierungsschwelle wird abschließend noch die Ruhehörschwelle betrachtet.
Aus dem Verhältnis der berechneten Maskierungsschwelle und des Energiespektrums
schätzt das psychoakustische Modell die Zahl der zur Kodierung erforderlichen Bits, falls
keine Artefakte bzw. Unterschiede zum Original wahrgenommen werden sollen.
Abbildung 4.13: Energie über der Frequenz und über Bark mit berechneter Maskierungsschwelle
für einen einzelnen Block der Länge 2048 Abtastwerte
Filterbank
Während das psychoakustische Modell ausschließlich analysierende Funktion hat und
damit im einfachsten Fall eingespart werden kann, fordert AAC die Verwendung eine
Frequenztransformation mittels MDCT (Modified Discrete Cosine Transformation). Ein
zu transformierender Eingangsblock besteht hierbei im Normalfall aus 2048 mit einem
sinusförmigen Fenster gewichteten Abtastwerten, die Überlappung zwischen zwei aufeinanderfolgenden Blöcken beträgt 1024 Abtastwerte. Um die Enkodierqualität bestimmter
Signalausschnitte wie z.B. beim Auftreten starker Transienten zu verbessern, hat der En-
4.5. BITRATENREDUKTION
63
koder die Möglichkeit, statt eines Blocks der Länge 2048 acht Blöcke der Länge 256 zu
verwenden (vgl. Abb. 4.14).
Abbildung 4.14: Fensterfunktionen von aufeinanderfolgenden Blöcken bei der Enkodierung des
mittleren Blocks mit acht kurzen Blöcken
Unabhängig von der verwendeten Fensterlänge besteht zusätzlich die Möglichkeit, statt
des dargestellten sinusförmigen Fensters ein Kaiser-Bessel-Fenster zu verwenden.
Quantisierung und Noiseless Coding
Die Aufgabe des Quantisieres ist es, die Analysedaten des psychoakustischen Modells auszuwerten und entsprechend dieser Information gewisse Spektralbereiche in
Abhängigkeit ihrer Hörbarkeit“ mit unterschiedlicher Bitauflösung zu quantisieren. Das
”
Ziel dabei ist, die Leistung des eingefügten Quantisierungsrauschens kleiner als die Maskierungsschwelle zu halten. Zudem hat der Quantisierer unter Umständen ebenfalls die
Vorgabe, eine gewisse Zielbitrate erreichen zu müssen.
Die zu quantisierenden Spektralwerte werden in Bändern zusammengefaßt, denen jeweils
ein Skalierungsfaktor zugeordnet wird. Dieser Faktor wird auf alle Spektralwerte innerhalb des jeweiligen Bandes angewendet, so daß damit der Aussteuerungsbereich des Quantisierers justiert werden kann. Die einzelnen Spektralwerte werden nichtlinear quantisiert,
d.h. hohe Amplitudenwerte werden mit geringerer Auflösung quantisiert als kleine.
Zur zusätzlichen Verminderung der Ausgangsbitrate werden die Scale Factors und
die quantisierten Spektralwerte abschließend mittels verschiedener Huffman-Codebooks
komprimiert. Diese Redundanzkodierung wird im MPEG-Kontext als Noiseless Coding
bezeichnet, da kein zusätzliches Quantisierungsrauschen eingefügt wird. Die Verwendung
dieses verlustfreien Verfahrens erschwert den Quantisierungsprozeß, da die tatsächliche
Ausgangsbitrate vor der Codebook-Zuweisung schwer abzuschätzen ist.
64
KAPITEL 4. KODIERUNG
Tools
AAC erlaubt optional den Einsatz verschiedener Tools zur Verbesserung der Qualität.
Nicht jedes Tool ist in jedem Profile erlaubt. Die folgende Liste gibt eine kurze Übersicht
über die möglichen Tools.
• MS (Mid/Side Stereo) und IS (Intensity Stereo): Sowohl das MS-Tool (auch: Joint
Channel Coding) als auch das IS-Tool betrachten jeweils Kanalpaare. Das MS-Tool
versucht hierbei, Redundanzen zwischen den Kanälen auszunutzen, während das
IS-Tool versucht, Irrelevanzen im hohen Frequenzbereich zu detektieren und zu
vermeiden.
• PNS (Perceptual Noise Substitution): Rauschhafte Frequenzbänder können mit Hilfe dieses Tools durch vom Dekoder künstlich generiertes Rauschen ersetzt werden
statt quantisiert und Huffman-kodiert zu werden. Das PNS-Tool ist nur in MPEG-4
spezifiziert, soll der Bitstream kompatibel zu MPEG-2 AAC sein, so darf es nicht
aktiviert sein.
• Frequency Domain Prediction: Frequency-Domain Prediction erlaubt höhere
Kodierungs-Effizienz für tonale Signale durch eine adaptive Prädiktion im Frequenzbereich. Dieses Tools kann ausschließlich im Main Profile genutzt werden.
• TNS (Temporal Noise Shaping): Zur Kontrolle der zeitlichen Hüllkurve des Quantisierungsrauschen innerhalb jedes Fensters wird ein adaptiver Filterungsprozeß auf
die Spektralwerte angewendet. Dadurch wird die Energie im Zeitbereich hin zu Abschnitten mit hoher Signalenergie verschoben.
• LTP (Long Term Prediction): Wie die Frequency Domain Prediction ist dieses Tools
speziell für tonales Audiomaterial gedacht. Das LTP-Tool wird im allgemeinen
nicht verwendet; im Gegensatz zur Frequency Domain Prediction scheint der Gewinn des LTP-tools im Verhältnis zur erforderlichen Rechenleistung nur gering zu
sein. LTP kann nur im LD- oder LTP-Profile eingesetzt werden.
Bitstreamformatierung
Die vorliegenden Daten müssen zur Übertragung in einer standardkonformen Reihenfolge angeordnet werden und mit entsprechenden Zusatzinformationen versehen werden.
Je nach Anwendungsfall bietet MPEG-4 verschiedene Möglichkeiten, die Daten bzw. deren Zusatzinformation zu speichern:
• RAW-Format: hier werden nur die reinen Daten übertragen; Informationen über
Samplerate und Profile fehlen. Der Bitstream kann ohne Aufwand nur vom Anfang
dekodiert werden (häufig verwendete Dateinamenerweiterung: *.aac, *.raw)
• ADIF-Format: An den Anfang des RAW-Datenstroms wird ein einzelner Header mit Zusatzinformationen eingefügt (häufig verwendete Dateinamenerweiterung:
*.aac)
4.5. BITRATENREDUKTION
65
• ADTS-Format: An den Anfang jedes enkodierten Blocks des RAW-Datenstroms
wird ein Header mit Zusatzinformationen eingefügt, vergleichbar mit dem MP3Format, somit wird es möglich, im Bitstream zu springen (häufig verwendete Dateinamenerweiterung: *.aac)
• MP4-Format: Der RAW-Datenstrom wird als Track in eine Datei oder einen
Stream nach MPEG-4-Dateiformatspezifikation eingebettet. Dies ermöglicht die
synchrone Übertragung z.B. anderer Informationen wie Video, etc. (häufig verwendete Dateinamenerweiterung: *.mp4, *.m4a)
4.5.2.3
Qualität
Die Qualität von wahrnehmungsangepaßten Signalen ist ein viel diskutiertes Thema, dessen Kontrahenten sich zwischen den zwei Polen die Unterschiede sind unhörbar“ und
”
die Unterschiede sind unerträglich“ bewegen.
”
Tatsächlich ist die Qualität eines Kodierungsverfahrens nicht leicht meßbar, denn sie ist
abhängig von
• der verwendeten Enkoderimplementierung, da verschiedene Enkoder unterschiedlich exakte Modelle für die menschliche Wahrnehmung und unterschiedlich effiziente Modelle für Quantisierung und andere Tools verwenden.
• dem verwendeten Eingangssignal, da es für jedes Verfahren und jede Implementierung kritische und unkritische Testsignale gibt. Bei unkritischen Testsignalen
kann die Qualität selbst bei niedrigen Ausgangsbitraten sehr gut sein. Zur Qualitätsbeurteilung eines Verfahrens sollten jedoch möglichst kritische Testsequenzen
ausgesucht werden, damit die Stärken und Schwächen deutlich hervortreten. In vielen Fällen zeichnen sich kritische Testsequenzen durch scharfe Transienten und hohe Frequenzanteile aus.
• den verwendeten Enkodieroptionen. Mit einer Feinanpassung der Enkodieroptionen
läßt sich die Enkodierungsqualität oftmals signifikant im Hinblick auf das verwendete Eingangssignal und die angestrebte Ausgangsbitrate optimieren.
Die naheliegensten und am häufigsten benutzten Enkodieroptionen sind Bitrate
und/oder Qualitätsstufe. Je höher die Bitrate, desto besser klingt i.a. das enkodierte
Signal. Daher beeinflussen sich diese beiden Parameter oft gegenseitig. Viele Enkoder haben einen sog. VBR-Modus, für den lediglich noch die gewünschte Qualität
selektiert wird und kein direkter Einfluß mehr auf die Ausgangsbitrate genommen
werden kann.
Über die einstellbare Grenzfrequenz des Tiefpaßfilters läßt sich eine Tiefpaßfilterung vor dem eigentlichen Enkodiervorgang durchführen. Dies erlaubt dem Enkoder, die verfügbaren Bits auf die tieferen Frequenzanteile zu konzentrieren und vermeidet unter Umständen Zwitscherartefakte.
66
KAPITEL 4. KODIERUNG
Überschreitet ein Enkoder seinen optimalen Kompressionsratenbereich, wird sich
die Qualität mit sinkender Bitrate rapide verschlechtern. Durch eine Abtastratenkonvertierung des Eingangssignals hin zu niedrigen Abtastraten läßt sich die Kompressionsrate wieder etwas verringern, so daß die empfundene Qualität in vielen Fällen
steigt.
Bei sehr niedrigen Bitraten sinkt die Qualität oft so rasch, daß der Verzicht auf die
Stereo- oder Multichannelinformation sinnvoller ist als die deutlich hörbaren Kodierungsartefakte in Kauf zu nehmen. Bei einem Downmix von Stereo nach Mono
halbiert sich die Kompressionsrate, so daß der Enkoder wieder Spielraum zur Qualitätsoptimierung hat.
Typische Artefakte
Die typischen bei Irrelevanzkodierungsverfahren entstehenden Artefakte sind:
• Pre-Echo und Verschmierungen: Diese Artefakte sind auf die Blockbasiertheit der
Verfahren zurückzuführen und insbesondere bei transienten Signalanteilen wahrzunehmen. Sie treten insbesondere bei längeren Blocklängen auf. Ein Transient wird
mit dem gesamten Audioblocks quantisiert.
Dadurch kann einerseits das Problem auftreten, dass die kurzzeitig an der zeitlichen Position des transienten Signals auftretenden hohen Frequenzanteile als zu unwichtig angesehen werden und daher der wahrnehmbare Schlag zeitlich verschmiert
wird.
Bei der Kodierung von transienten Signalen vor allem nach einer stillen Passage
kann es auch zum sogenannten Pre-Echo kommen: da sich das vom Quantisierer
eingefügte Quantisierungsrauschen zeitlich gleichmäßig über den gesamten Audioblock verteilt und somit auch in der Stille vor dem transienten Signal vorhanden ist,
kann dieses Rauschen unter Umständen vom Hörer als Vorecho“ wahrgenommen
”
werden. AAC versucht diese Artefakte v.a. durch das Umschalten der Fensterlänge
und das TNS-Tool in den Griff zu bekommen.
• Bandbegrenzung und Zwitschern: um die geforderte Bitrate zu erreichen, wird
oft vor der eigentlichen Kodierung ein Tiefpaßfilter auf das Audiosignal angewendet, was auch als Teil des psychoakustischen Modells interpretiert werden
kann. Somit stehen die meisten Bits für die wichtigeren“ tieferen Frequenzen zur
”
Verfügung. Abhängig vom Signaltyp und der gewählten Frequenz kann eine solche
Tiefpaßfilterung als störend wahrgenommen werden. Bei einer zu hoch gewählten
Grenzfrequenz kann es jedoch zu störenderen Artefakten kommen: dem sogenannten Zwitschern oder Blubbern. Dieses Artefakt resultiert aus einer häufigen An/Ausschaltung der hohen Frequenzbänder (wenn noch ausreichend Bits vorhanden
sind, können die als unwichtigere Anteile gesehenen hohen Frequenzen mitkodiert
werden, andernfalls nicht).
4.5. BITRATENREDUKTION
67
• Schwankungen/Verzerrungen des Stereobildes / der Räumlichkeit: die gesonderte
Kodierung von Stereoinformationen (oder Surroundinformationen) kann zu zeitlichen Variationen des Sterobildes und der wahrnehmbaren Räumlichkeit eines Audiosignals führen. Dies trifft insbesondere auf die in Zukunft aufkommenden parametrischen Kodierungsverfahren zu.
• Rauheit/Quantisierungsrauschen: der subjektive Höreindruck der Rauheit kann
durch ein von Block zu Block stark veränderliches Quantisierungsrauschen hervorgerufen werden.
Qualitätsmessung
Ein objektiver Vergleich verschiedener Enkoder ist schwer, da die etablierten Verfahren
zur Qualitätsmessung im Zusammenhang mit Kodierungsverfahren versagen. Dies hat v.a.
drei Gründe:
• die hohe Zeitinvarianz der Kodierungsverfahren, die ca. alle 10 − 20ms ihr
Übertragungsverhalten ändern können
• die Ausgangsqualität hängt stark vom Eingangssignal ab,
• durch die intensive Ausnutzung von psychoakustischen Erkenntnissen wird bewußt
Rauschen insbesondere in verdeckten Frequenzbereichen eingeführt; wird der Pegel
dieses Rauschens mit einfachen Mitteln wie einer SNR-Messung ermittelt, so wird
die Unhörbarkeit“ dieses Rauschens nicht berücksichtigt.
”
Es existieren zwar Systeme, die versuchen, die Qualität von Kodierungsverfahren objektiv
zu messen [ITU01], diese besitzen allerdings bisher nur beschränkte Aussagekraft. Somit
bleibt als einzige und letzte Alternative zur Qualitätsbeurteilung von Kodierungsverfahren
nur die subjektive Beurteilung. Will man die Ergebnisse dieser subjektiven Beurteilung
zumindest ansatzweise objektivieren, so bleibt nur der aufwendige Hörtest.
Die Qualität des Dekoders spielt entgegen einer verbreiteten Meinung bei praktisch keinem wahrnehmungsangepaßten Verfahren eine Rolle. Die Dekoder können nach objektiven Kriterien auf ihre Standardkonformität überprüft werden. Im Falle der Standardkonformität sind die Unterschiede zwischen den Ausgangssignalen verschiedener Dekoder
vernachlässigbar.
4.5.2.4
Auswahlkriterien von Kodierungsverfahren
Es existiert kein Audiokodierungsverfahren, das in jedem Einsatzbereich uneingeschränkt
eingesetzt werden kann. Abhängig von Einsatzbereich lassen sich unterschiedliche Kriterien benennen, die im folgenden stichpunktartig dargestellt und erläutert werden sollen.
• Audioqualität: Die Qualität des kodierten und wieder dekodierten Signals ist sicherlich das wichtigste Kriterium bei der Auswahl des Kodierungsverfahren und
68
KAPITEL 4. KODIERUNG
hängt mehr oder weniger direkt mit vielen der nachfolgenden Punkte zusammen.
Die Qualität ist bei wahrnehmungsangepaßten Verfahren abhängig vom Eingangssignal, so daß die Wahl des Kodierungsverfahren vom zu kodierenden Signal
abhängen kann. Ist die Audioqualität das einzige Kriterium, so ist einem verlustlosen Verfahren der Vorzug zu geben.
Ein weiterer Aspekt ist unter Umständen auch die Verschlechterung der Qualität
nach mehrmaligem En- und Dekodieren des gleichen Signals (Tandemkodierung),
z.B. wegen dazwischenliegender Bearbeitungsschritte. Die Qualität nach mehrmaliger Tandemkodierung schwankt von Verfahren zu Verfahren. Tandemkodierung
sollte möglichst vermieden werden.
• Bitrate: Bitrate und Qualität haben direkt aufeinander Einfluß. Im allgemeinen
steigt die Qualität mit zunehmender Bitrate. Verschiedene Verfahren sind immer
auf bestimmte Kompressionsraten optimiert und erzielen bei diesen die besten Ergebnisse; bei abweichenden Kompressionsraten können sie schlechter klingen als
andere Verfahren.
Es spielt ebenfalls eine Rolle, ob ein Verfahren die Enkodierung in einer konstanten oder variablen Bitrate erlaubt. Beispielsweise sind Verfahren mit variabler Bitrate (VBR) für Streaminglösungen aufgrund der schwankenden benötigten
Übertragungsrate eher ungeeignet, für Archivierungslösungen hingegen geeignet.
• Komplexität: Die Komplexität eines Verfahrens zeigt sich in der erforderlichen Rechenleistung für eine Kodierung/Dekodierung. Je komplexer ein Verfahren ist, desto
mehr steigt die Auslastung des Rechners/Chips. Im Gegenzug steigt allerdings mit
der Komplexität meistens auch die Qualität.
Im allgemeinen sind die Dekoder wesentlich weniger aufwendig als die Enkoder.
Aus diesem Grund sind Dekoder billiger und einfacher zu realisieren (z.B. portabel), während Enkoder sowohl in Entwicklung als auch in der Umsetzung höheren
Aufwand fordern.
• Delay: In Einzelfällen, insbesondere im Falle zweiseitiger Kommunikation wie
z.B. mit dem Telefon ist auch das Enkodierungs-/Dekodierungsdelay ein wichtiges
Auswahlkriterium. Wenn dieses Delay groß ist wie z.B. bei den meisten MPEGVerfahren, leidet der Gesprächsfluß unter dieser Einschränkung. Mit steigendem
Delay steigt meistens auch die Qualität eines Verfahrens durch die umfangreichere
Möglichkeiten der Signalanalyse leicht an.
• Verbreitung: Je verbreiteter ein Verfahren ist, desto mehr Menschen können kodierte Dateien ohne große Probleme abspielen. Will man also z.B. Demodateien für
möglichst viele Hörer zugänglich machen, so ist die Wahl eines (je nach Zielmarkt
in Hardware oder Software) verbreiteten Verfahrens sinnvoll.
• Kosten: Die Kosten für die Benutzung eines Verfahrens schwanken. Teilweise
dürfen Verfahren kostenlos benutzt werden, teilweise muß man vor der Benutzung
4.5. BITRATENREDUKTION
69
eine Lizenz erwerben (meistens im Kaufpreis enthalten). Es kann sogar vorkommen,
daß pro enkodiertem Material Lizenzgebühren an den Rechteinhaber fällig werden.
Beim Hardwaredesign sind auch die Kosten von Enkoder-/Dekoderbausteinen zu
beachten.
• Zukunftssicherheit und Rechtssicherheit: Gerade bei der Anwendung von Kodierungsverfahren für Archivierungen spielt die Frage der Zukunftssicherheit eines
Verfahrens eine wichtige Rolle, denn funkionsfähige Dekoder müssen auch noch
in mehreren/vielen Jahren zur Verfügung stehen. Anhaltspunkte dafür sind zum
Beispiel, ob das Verfahren international standardisiert ist, ob es sich um einen de
facto-Standard handelt und ob Quelltexte zu dem Verfahren frei verfügbar sind.
Die meisten Verfahren berühren ein oder mehrere Patente. Es existieren nichtkommerzielle Kodierungsverfahren, die diese Patente unter Umständen verletzen,
den Anwender aber nicht darauf aufmerksam machen. Auch wenn diese Patentverletzungen im Moment nicht verfolgt werden, muß das nicht bedeuten, daß diese
Verfahren auch in Zukunft bedenkenlos benutzt werden können bzw. dürfen.
• technische Kompatibilität: selbstverständlich muß das Verfahren auf die Anforderungen hinsichtlich der zu kodierenden Eingangssignale wie Abtastrate, Zahl der
Kanäle, Art des Materials, etc. ausgelegt sein
70
KAPITEL 4. KODIERUNG
Abbildungsverzeichnis
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
13
13
14
14
15
16
16
17
17
18
19
20
21
21
22
22
2.18
2.19
2.20
2.21
2.22
2.23
2.24
Abtastung eines analogen Signals . . . . . . . . . . . . . . . . . . . . .
Abtastung mehrerer Sinusschwingungen . . . . . . . . . . . . . . . . . .
Analoger und abgetasteter Zeitverlauf mehrerer Sinusschwingungen . . .
Spektrum eines analogen und abgetasteten Signals . . . . . . . . . . . . .
Ablaufdiagramm Sampling . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungskennlinie . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungsvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungsfehler eines optimal ausgesteuerten Sinussignals . . . . . .
Amplitudendichteverteilung des Quantisierungsfehlers . . . . . . . . . .
Amplitudendichteverteilung eines Musiksignals . . . . . . . . . . . . . .
Signalrauschabstand eines Quantisierers . . . . . . . . . . . . . . . . . .
Übersteuerung eines Quantisierers . . . . . . . . . . . . . . . . . . . . .
Quantisierungsfehler bei einer 3-stufigen Quantisierung . . . . . . . . . .
Quantisierungsfehler bei einer leicht geditherten Quantisierung . . . . . .
Spektrum eines geditherten Signals . . . . . . . . . . . . . . . . . . . . .
Requantisierung, Dithering und Wortbreitenkonvention . . . . . . . . . .
Requantisierung mit Dither: Kennlinienlinearisierung und Rauschmodulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ditherformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungsfehlerleistung bei Oversampling . . . . . . . . . . . . . .
Noise-Shaping 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . .
Frequenzgang Noise-Shaping verschiedener Ordnungen . . . . . . . . . .
Delta-Sigma Modulator 1. Ordnung . . . . . . . . . . . . . . . . . . . .
SNR-Gewinn durch Oversampling . . . . . . . . . . . . . . . . . . . . .
Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung . . .
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Parallel-Wandler . . . . .
Subranging-Wandler . . .
SAR-Wandler . . . . . . .
Spannungsverlauf . . . . .
Delta-Sigma-Wandler . . .
R-2R-Wandler . . . . . . .
Delta-Sigma-DA-Wandler
33
34
34
34
35
36
36
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
25
26
27
28
28
30
31
72
ABBILDUNGSVERZEICHNIS
3.8 Abweichungen von der idealen Wandlerkennlinie . . . . . . . . . . . . .
3.9 Jitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in
Abhängigkeit von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und 18-bit Systemen . . . . . . .
37
38
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
44
46
47
49
49
50
52
53
58
59
60
61
62
63
Einfache Kanalkodes . . . . . . . . . . .
Strategie der Fehlerschutz-Kodierung . .
XOR Gatter . . . . . . . . . . . . . . . .
Zweidimensionaler Paritätskode . . . . .
Faltungskode . . . . . . . . . . . . . . .
Subframe nach AES 3 (AES/EBU) . . . .
Subframe nach AES 10 (MADI) . . . . .
Redundanzkodierung . . . . . . . . . . .
Irrelevanzkodierung . . . . . . . . . . . .
Mithörschwelle eines Sinustones . . . . .
Bark-Skala . . . . . . . . . . . . . . . .
Pre- und Postmasking . . . . . . . . . . .
Maskierungsschwelle eines Audiosignals
Window Length Switching in AAC . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
Tabellenverzeichnis
1.1
1.2
1.3
Einzug digitaler Signalverarbeitung im Tonstudiobereich . . . . . . . . .
Einführung digitaler Speichermedien . . . . . . . . . . . . . . . . . . . .
Digitale Filmton-Formate . . . . . . . . . . . . . . . . . . . . . . . . . .
6
7
7
2.1
2.2
2.3
Festkomma-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bitzuweisung in der Gleitkomma-Darstellung . . . . . . . . . . . . . . .
Gleitkomma-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
31
32
4.1
4.2
4.3
4.4
4.5
4.6
4.7
GCR Gruppenkode . . . . . . . . . . . . . . . . . . . . . . . .
Gruppenkodes . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kennzahlen von Kanalkodes . . . . . . . . . . . . . . . . . . .
Wahrheitstafel XOR . . . . . . . . . . . . . . . . . . . . . . . .
AES 3 Channel Status Block . . . . . . . . . . . . . . . . . . .
Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen .
Beispiel Huffman-Kodierung . . . . . . . . . . . . . . . . . . .
44
45
45
47
51
52
55
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
74
TABELLENVERZEICHNIS
Literaturverzeichnis
[ATS95]
ATSC. Atsc a/52, digital audio compression (ac-3). International Standard,
1995.
[Bal02]
Glen M. Ballou. Handbook for Sound Engineers. Focal Press, 3 edition, 2002.
[Coa05]
Josh Coalson. Flac - free lossless audio codec, 2005.
[Dic97]
Michael Dickreiter. Handbuch der Tonstudiotechnik. Saur, München, 6 edition, 1997.
[Fle40]
Harvey Fletcher. Auditory Patterns. In Reviews of Modern Physics, volume 12,
pages 47–65. The American Physical Society, 1940.
[ISO01]
ISO/IEC. Iso/iec 14496-3:2001, information technology - coding of audiovisual objects - part 3: Audio. International Standard, 2001.
[ITU01]
ITU. Itu-r bs.1387-1 , method for objective measurements of perceived audio
quality. International Standard, 2001.
[KPS03]
Herbert Klimant, Rudi Piotraschke, and Dagmar Schönfeld. Informationsund Kodierungstheorie. Teubner Verlag, München, 2 edition, 2003.
[Poh00]
Ken C. Pohlmann. Principles of Digital Audio. McGraw-Hill, 4 edition, 2000.
[RW04]
Francis Rumsey and John Watkinson. Digital Interface Handbook. Focal
Press, 3 edition, 2004.
[SCG+ 99] J.R. Stuart, P.G. Craven, M.A. Gerzon, M.J. Law, and R.J. Wilson. Mlp lossless compression. In Proc. of the AES 9th Regional Convention, Tokyo, June
1999.
[Wat98]
John Watkinson. The Art of Sound Reproduction. Focal Press, 1 edition, 1998.
[Wat01]
John Watkinson. The Art of Digital Audio. Focal Press, 2001.
[ZF67]
Eberhard Zwicker and Richard Feldtkeller.
empfänger. Hirzel, Stuttgart, 2 edition, 1967.
75
Das Ohr als Nachrichten-
76
LITERATURVERZEICHNIS
[ZF99]
Eberhard Zwicker and Hugo Fastl. Psychoacoustics. Facts and Models. Springer, Heidelberg, 2 edition, 1999.
[Zöl02]
Udo Zölzer, editor. DAFX. Digital Audio Effects. Wiley, 1 edition, 2002.
[Zöl05]
Udo Zölzer. Digitale Audiosignalverarbeitung. Teubner, Stuttgart, 3 edition,
2005.