Diplomarbeit Layer II + SBR für IRT

Transcription

Fachhochschule München
Fachbereich Elektrotechnik
DIPLOMARBEIT
Von
Christian Kain
Untersuchungen zur Verbesserung der
Audiocodierung bei DAB mit dem kompatiblen Verfahren der
Spectral Band Replication
Betreuer (FHM):
Betreuer (IRT):
Arbeitsbeginn:
Abgabetermin:
Laufende Nummer:
Prof. Dr.-Ing. K. Walliser
Hr. Stoll
15.04.2002
15.11.2002
1810
Diplomarbeit
Betreuer:
Diplomand:
Hr.Stoll
Christian Kain
Abgabedatum: 15.11.2002
Studiengruppe: 04 EL
Thema:
Untersuchungen zur Verbesserung der Audiocodierung bei DAB mit dem kompatiblen Verfahren der Spectral Band Replication
Kurzfassung:
Diese Arbeit beschreibt Untersuchungen zu einem parametrischen Audiocodierungsverfahren in Symbiose mit dem MPEG Layer II Audiocodierungsverfahren in DAB.
Dieses Verfahren nennt sich Spectral Band Replication (SBR) und basiert auf der
Reproduktion hoher Frequenzanteile anhand des Basisspektrums eines Audiosignals. Dabei wurden Untersuchungen zur Kompatibilität, zum Qualitätsgewinn, zum
Codiergewinn und zur Fehlersicherheit durchgeführt. Der Schwerpunkt lag in der
Durchführung diverser Hörversuche und deren Auswertung. Auf Basis dieser Ergebnisse der Hörversuche wurde der Codiergewinn ermittelt. Daraufhin konnten Aussagen getroffen werden, wie sich die Klangqualität bei gleicher Bitrate verbessert bzw.
wie viel an Bitrate eingespart werden kann um gleiche Audioqualität gewährleisten zu
können. Um die Funktionsweise dieses Codierverfahrens kennen zulernen, wird auf
die Eigenschaften und die Funktionsweise, sowohl des Standard MPEG Layer II Codecs als auch auf die Funktionsweise der Spectral Band Replication eingegangen.
Um die Fehleranfälligkeit des neuen Layer II + SBR Codierverfahrens beurteilen zu
können, wurde eine komplette DAB Übertragungsstrecke im Labor simuliert und unter definierten Störungsbedingungen betrieben. Dabei wurde das Verhalten des herkömmlichen Standard MPEG Layer II Audiocodecs mit dem neuen Layer II + SBR
Audiocodecs verglichen.
2
INHALT
1
EINLEITUNG DIGITAL AUDIO BROADCASTING (D AB).......................................7
2
AUFGABENSTELLUNG................................................................................................7
3
DEFINITION DATENRATEN KBIT/S, MBIT/S ...........................................................8
4
MPEG LAYER II ALS AUDIOCODIERVERFAHREN IN DAB................................8
4.1
MPEG Layer II als Standard für DAB ....................................................................8
4.1.1
MPEG ....................................................................................................................9
4.1.1.1
MPEG 1 .........................................................................................................9
4.1.1.2
MPEG 2 .......................................................................................................10
4.2
Arbeitweise MPEG Layer II Audiocodierung....................................................12
4.2.1
Grundprinzip datenreduzierter Audiocodierung ............................................12
4.2.1.1
Verlustlos – Verlustbehaftet.....................................................................13
4.2.1.2
Psychoakustische Effekte .........................................................................14
4.2.1.3
Veränderungen im Klangbild ....................................................................15
4.2.2
MPEG Layer II Encoder ....................................................................................16
4.3
Aufbau ISO - MPEG Layer II Datenstrom...........................................................18
4.3.1
Aufbau MPEG Layer II Audiorahmen nach ISO/IEC 11172-3....................18
4.3.1.1
Header .........................................................................................................19
4.3.1.2
CRC .............................................................................................................21
4.3.1.3
Bit Allocation...............................................................................................21
4.3.1.4
SCFSI..........................................................................................................22
4.3.1.5
Scalefactors ................................................................................................22
4.3.1.6
Subband Samples .....................................................................................22
4.3.1.7
Ancillary Data .............................................................................................22
4.4
Aufbau DAB Layer II Datenstrom ........................................................................22
4.4.1.1
4.4.1.2
4.4.1.3
4.5
SCF CRC (Skalenfaktor CRC).................................................................23
PAD (X-PAD und F-PAD).........................................................................23
Stuff..............................................................................................................23
Programme Associated Data (PAD) ...................................................................24
4.5.1
4.5.2
F-PAD..................................................................................................................25
X-PAD..................................................................................................................25
3
4.6
Half-sampling-rate (LSF) Audiocodierung........................................................27
4.6.1
4.6.2
4.7
Fehlerschutzverfahren EEP und UEP ................................................................29
4.7.1
4.7.2
4.8
5
Struktur ................................................................................................................27
Bitraten ................................................................................................................27
UEP......................................................................................................................29
EEP......................................................................................................................31
DAB Ensemble und Bitraten.................................................................................32
SPECTRAL BAND REPLICATION............................................................................33
5.1
Grundlagen Spectral Band Replication .............................................................33
5.2
Realisierung ..............................................................................................................34
5.3
Qualität und Kompatibilität...................................................................................37
5.4
MPEG 2 Layer III (MP3) + SBR..............................................................................38
5.5
Advanced Audio Coding (AAC) + SBR ..............................................................40
5.6
Anwendungsbeispiel Digital Radio Mondiale (DRM) .....................................41
6
ADAPTION VON SBR AUF MPEG LAYER II..........................................................42
6.1
Prinzipielle Funktionsweise..................................................................................43
6.2
MPEG Layer II DAB Rahmenstruktur mit SBR.................................................44
6.3
Komplexität und Aufwand.....................................................................................46
6.3.1
6.3.2
Harwareresourcen.............................................................................................46
Laufzeitmessung auf dem PC..........................................................................46
6.4
Hörversuch zur Auswahl des Basisencoders..................................................47
6.5
Verwendete Testaudiosequenzen (Items).........................................................48
6.6
Verwendete Bitraten und Audiomodi.................................................................49
6.7
Testmethode .............................................................................................................49
6.8
Vorbereitung der Versuche...................................................................................50
6.9
Durchführung ...........................................................................................................51
4
6.10
Ergebnisse aus dem Hörversuch zum Encodervergleich............................52
6.11
Kompatibilität mit dem bestehenden DAB-Standard.....................................53
7
HÖRVERSUCHE CODIERGEWINN..........................................................................54
7.1
Verwendete Testaudiosequenzen (Items).........................................................54
7.2
Verwendete Bitraten und Audiomodi.................................................................55
7.3
Testmethode .............................................................................................................57
7.4
Vorbereitung des Versuchs..................................................................................57
7.5
Durchführung ...........................................................................................................58
7.6
Auswertung und Ergebnisse................................................................................59
7.6.1
Qualitätsgewinn durch SBR .............................................................................60
7.6.1.1
Ergebnis der Beurteilung der Stereo Testsequenzen.........................61
7.6.1.2
Ergebnis der Beurteilung der Mono Testsequenzen ..........................68
7.6.2
Codiergewinn durch SBR .................................................................................74
7.6.2.1
Definition des Codiergewinns ..................................................................74
7.6.2.2
Ermittelter Codiergewinn ..........................................................................74
7.6.2.3
Unsicherheiten bezüglich Auswertung ...................................................82
8
KANALSIMULATION DAB ZUR BESTIMMUNG DER FEHLERSICHERHEIT.85
8.1
Darstellung typischer realer Übertragungsstrecken .....................................85
8.2
Ausstiegsverhalten des DAB Rundfunksystems............................................87
8.3
Kanalsimulation .......................................................................................................88
8.3.1
Beschreibung des Versuchsaufbaus ..............................................................89
8.3.1.1
Beschreibung der Komponenten.............................................................89
8.3.1.2
Beschreibung der Strecke ........................................................................91
8.3.1.3
Verwendete Ausbreitungsprofile .............................................................92
8.3.1.4
Verwendete Audiotestsequenzen ...........................................................92
8.3.1.5
Verwendete Bitraten und Audiomodi, Codierung der Testsequenzen
93
8.3.2
Versuchsdurchführung ......................................................................................93
5
8.4
Beschreibung der Versuchsmethode zur Ermittlung der Fehlersicherheit
94
8.5
Ergebnisse aus eigenen Hörversuchen ............................................................95
9
ZUSAMMENFASSUNG UND SCHLUSSFOLGERUNG........................................97
9.1
Codiergewinn gegenüber der bei DAB gebräuchlichen Bitraten ...............97
9.2
Grad der Qualitätseinbußen für bestehende DAB Empfängersysteme....97
9.3
Konsequenz für die Versorgungsgebiete .........................................................98
10
LITERATUR ...............................................................................................................99
11
ANHANG.................................................................................................................. 101
11.1
Testmethode MUSHRA........................................................................................ 101
11.2
Beschreibung der statistischen Auswertung ............................................... 102
11.3
Verwendete Testsequenzen.............................................................................. 104
11.4
Auswahl Basisencoder, sortiert nach Bitrate ............................................... 105
6
1 Einleitung Digital Audio Broadcasting (DAB)
Das Projekt EUREKA 147 beschäftigte sich Anfang der 90er Jahre, unter Mitwirkung, u.a. des Instituts für Rundfunktechnik mit der Entwicklung von DAB (Digital Audio Broadcasting). DAB stellt dabei das digitale Äquivalent zu analogen UKW Rundfunk dar. Die Vorteile von DAB gegenüber UKW liegen vor allem in der Klangqualität,
im stabilen Empfang sowie im niedrigen Frequenzbedarf. Dabei wurde MPEG Layer
II als Audiocodierungsverfahren standardisiert. In der Zwischenzeit haben sich erhebliche Fortschritte auf dem Gebiet der Audiocodierung gezeigt. Unter anderem im Bereich der parametrischen Audiocodierung. Von einer schwedisch/deutschen Firma
mit dem Namen Coding Technologies wurde ein Verfahren unter der Bezeichnung
Spectral Band Replication entwickelt, das ebenfalls auf parametrischer Audiocodierung basiert. Ein naheliegender Gedanke ist nun, beide Codierungsverfahren zu verbinden, und damit das DAB-System qualitativ effektiver zu gestalten.
2 Aufgabenstellung
Mit dieser Arbeit sollte festgestellt werden, welche Vorteile und Nachteile sich
ergeben, wenn man das bisherige Audiocodierungssystem des DABRundfunkstandards MPEG Layer II mit einem dazu kompatiblen verbesserten Codierungssystem ergänzt. Festgestellt wurden dabei folgende Punkte:
1. Es sollte zuerst auf den Codiergewinn eingegangen werden, der durch den
Zusammenhang zwischen der Klangqualität und Bitrate ermittelt wurde.
2. Betrachtet wurde die Fehleranfälligkeit beider Audiocodierungsverfahren im
Vergleich, um Aussagen hinsichtlich der bestehenden DAB Versorgungsrichtlinien machen zu können.
zu 1.:
Betrachtet wird der Codiergewinn, der sich durch die Verwendung eines neuen kompatiblen Layer II Audiocodecs mit SBR-Technik ergibt. Daraufhin können Aussagen
getroffen werden, wie sich die Klangqualität bei gleicher Bitrate verbessert bzw. wie
viel an Bitrate eingespart werden kann um gleiche Audioqualität gewährleisten zu
können. Um die Funktionsweise dieses neuen Codierverfahrens kennen zulernen,
wird auf die Eigenschaften und die Funktionsweise sowohl des Standard MPEG Layer II Codecs als auch des Layer II + SBR Codecs eingegangen.
7
zu 2.:
Um die Fehleranfälligkeit des neuen Layer II Codierverfahrens beurteilen zu können,
wurde eine komplette DAB Übertragungsstrecke im Labor simuliert und unter definierten Störungsbedingungen betrieben. Dabei wurde das Verhalten des herkömmlichen Standard MPEG Layer II Audiocodecs mit dem neuen Layer II + SBR Audiocodecs verglichen.
3 Definition Datenraten kbit/s, Mbit/s
Diese Arbeit beschäftigt sich sehr viel mit Datenraten. Die Maßangabe zur Beschreibung der Datenkapazität, die pro Zeiteinheit übertragen wird, wird in Kilobit pro
Sekunde (kbit/s) angegeben. Auf manchen Abbildungen ist auch die englische Bezeichnung kbps (kilobits per second) zu finden. Das hat damit zu tun, das der
Schrägstrich „/“ für Dateinamen nicht verwendet werden konnte und eine andere Abkürzung als ungeeignet, weil unüblich erschien. Das Kilo beschreibt dabei genau den
Faktor 1000, da dieser aus der Informationstheorie abgeleitet ist, und im direkten
Verhältnis zur Übertragungsbandbreite steht. Die Bezeichnung sollte nicht mit dem
Umrechnungsfaktor 1024 verwechselt werden, der sich als Zweierpotenz (210) aus
der Datentechnik ableitet. Ähnlich verhält es sich bei der Abkürzung Mbit/s (Megabit
pro Sekunde) hier ist ebenfalls exakt mit dem Faktor 106 umzurechnen.
4 MPEG Layer II als Audiocodierverfahren in DAB
4.1 MPEG Layer II als Standard für DAB
Da MPEG Layer II das Standard-Audiokompressionsverfahren für DAB darstellt, soll hier hauptsächlich auf DAB spezifische Eigenschaften des MPEG Standards eingegangen werden. Dazu gehört unter anderem, dass sich aus technischhistorischen Gründen die Abtastfrequenz von 48 kHz als Rundfunkstandard durchgesetzt hat. So wird im DAB-Betrieb, mit der Ausnahme der „half sampling rate“ Codierung (LFS)1, ausschließlich mit 48 kHz gearbeitet. Allerdings sollte auch der Betrieb im LSF Modus nach „außen“ nicht sichtbar werden, d.h. Audioeingangs- und
Ausgangssignale liegen immer mit der Abtastfrequenz von 48 kHz vor. (Erwähnt sei,
dass durchaus noch Probleme in der Praktischen Umsetzung auftauchen. Empfängerseitig geben manche Geräte bei der Verwendung der „half sampling rate“ Betriebsart kein gültiges Signal am digitalen Audioausgang aus.)
1
siehe Kapitel 4.6
8
4.1.1 MPEG
MPEG ist die Abkürzung für „Moving Pictures Expert Group“. Dieses stellt ein
Gremium dar, das sich auf die internationale Standardisierung von Video- und Audiokomprimierungsverfahren spezialisiert hat. Gegründet wurde dieses Gremium 1988
unter dem Namen ISO/IEC-JTC1/SC29/WG11. MPEG ist ein Teil des Joint Technical Committtee on Information Technology (JTC 1), der International Standardisation
Organisation (ISO) und der International Electrotechnical Commission (IEC) [1].
Dieser Standard steht hinter der internationalen Vereinheitlichung von Verfahren zur Codierung von bewegten Bildern und zugehörigem Ton für digitale Speichermedien bis zu Datenraten von 1,5 Mbit/s.
4.1.1.1 MPEG 1
Der MPEG 1 Audio Standard wurde 1993 unter der Bezeichnung ISO/IEC
11172-3 herausgegeben, und beschreibt ein dreistufiges, abwärts kompatibles Audiokompressionsverfahren unter der Bezeichnung MPEG 1 Layer I – III. Die mit Layer I-III bezeichneten Algorithmen arbeiten, bei steigender Komplexität mit steigender
Effizienz. Auf der Basis psychoakustischer Effekte wird dabei eine Datenreduktion
auf digitaler Ebene zur Speicherung und Übertragung eines Audiosignals vorgenommen. MPEG 1 definiert die Codierung für die Abtastfrequenzen 32 kHz, 44.1kHz
und 48kHz, wobei für DAB nur 48 kHz relevant sind. Als Eingangssignal wird ein
PCM-kompatibles ein- oder zweikanaliges Audiosignal mit bis zu 22 Bit Auflösung
verarbeitet [3].
4.1.1.1.a
Audio Modes und Bitraten in MPEG 1
Der Audiomode gibt Auskunft über Art und Anzahl der verwendeten Kanäle.
MPEG 1 definiert folgende „Audio Modes“:
single channel:
dual channel:
Einfacher monophoner Audiokanal
Zwei voneinander unabhängige Audiokanäle (z.B. bei der
stereo:
Übertragung eines Programms in zwei unterschiedliche
Sprachen)
Zwei, als Stereopaar zusammengehörige Audiokanäle
(Links-Rechts)
jointstereo2:
Stereosignal, codiert auf der Basis von Intensitätsstereophonie
2
siehe Kapitel 4.2.1.2
9
Zulässige Bitraten und mögliche Audio Modes für MPEG 1 Layer II
Audio Modes
BITRATE (KBIT/S)
32
48
56
64
80
96
112
128
160
192
224
256
320
384
single channel
single channel
single channel
alle Modi
single channel
alle Modi
alle Modi
alle Modi
alle Modi
alle Modi
stereo, jointstereo, dual channel
Tabelle 4-1
4.1.1.2 MPEG 2
MPEG 2 stellt eine Erweiterung des MPEG 1 Standards dar und wurde 1997
unter der Bezeichnung ISO/IEC 13818 eingeführt. Neben der „Multichannel“Betriebsart ist in den Audiospezifikationen die Einführung der „half sampling rate“
Betriebsart (LSF)3 die wesentlichste Neuerung für DAB, wodurch die Verarbeitung
von Audiosignalen bei halber Abtastrate möglich wird, also 16 kHz, 22.05 kHz und 24
kHz. Für DAB ist hier auch wieder ausschließlich 24 kHz relevant. Trotz der dadurch
begrenzten Audiobandbreite, wird subjektiv eine höhere Klangqualität bei niedrigen
Bitraten erreicht (siehe auch Kapitel 4.6), als bei voller Abtastrate. Zusätzlich wird in
MPEG 2 das „Multichannel“ Audioformat definiert. Dies ermöglicht die Übertragung
und Speicherung, von bis zu fünf diskreten Audiokanälen, und ergänzt damit Stereo/Jointstereo und Dual Channel aus dem MPEG 1 Standard. Dies findet unter anderem bei Surround-Vertonungen und/oder mehrsprachigem Klangmaterial Anwendung. Besonderen Wert wird auf die Vorwärts-, und auch Rückwärtskompatibilität
gelegt. Die Vorwärtskompatibilität besagt, dass ein, nach MPEG 1 codiertes Audiosignal auch mit einem, nach MPEG 2 spezifizierten Decoder verarbeitet werden
3
Lower Sampling Frequencies
10
kann, Die Rückwärtskompatibilität drückt aus, dass ein MPEG 1 Decoder in der Lage
ist, zumindest die Basis Stereoinformation aus einem MPEG 2 codierten Audiostrom
wiederzugewinnen. Auf das Thema der Mehrkanal Audiokodierung wird im Rahmen
dieser Arbeit nicht weiter eingegangen.
4.1.1.2.a
Audio Modes und Bitraten in MPEG 2
Mit dem „half sampling rate“ Mode wird MPEG Layer II Audiocodierung durch
neue, niedrigere Bitraten ergänzt. Spezifiziert sind hierbei aber nur noch die Bitraten,
nicht mehr die Audio Modes.
Zulässige Bitraten MPEG 2 Layer II:
Bitrate (kbit/s)
8
16
24
32
40
48
56
64
80
96
112
128
144
160
Tabelle 4-2
11
4.2 Arbeitweise MPEG Layer II Audiocodierung
4.2.1 Grundprinzip datenreduzierter Audiocodierung
Zum besseren Verständnis des Aufbaus und der Arbeitweise des MPEG Layer
II Codecs soll hier auf grundsätzliche Eigenschaften der digitalen Audiocodierung
eingegangen werden. Die einfachste, und die am weitest verbreitete Form der digitalen Audiocodierung nennt sich Pulscodemodulation (PCM), gewöhnlich mit linearer
Quantisierungsauflösung. Dieses Verfahren findet unter anderem bei der Übertragung von Audiosignalen über digitale Schnittstellen, wie z.B. AES/EBU, S/PDIF,
TOSLink, TDIF Verwendung, oder auch zur Speicherung von Tonsignalen auf einer
gewöhnlichen Audio-CD. Grundsätzliche Kenntnisse über digitale Audiocodierung,
wie z.B. Nyquistbedingung, oder der Zusammenhang der Sampleauflösung und verfügbare Dynamik, werden an dieser Stelle vorausgesetzt und sollen deshalb nicht
näher erklärt werden. Wesentliches Merkmal im Zusammenhang mit datenreduzierender Audiocodierung ist aber, dass bei der PCM-Codierung über das komplette
Audiospektrum mit einer einheitlichen Quantisierungsauflösung gearbeitet wird. Hier
setzen die verschiedenen Audiocodierungsverfahren an, in dem die Quantisierungsauflösung in Abhängigkeit des spektralen und zeitlichen Verlaufs des Audiosignals
variabel gestaltet wird. Dabei wird das Audiosignal spektral zerlegt, und die verschiedenen Frequenzanteile bzw. Frequenzbänder individuell quantisiert. Um die Notwendigkeit einer datenreduzierenden Audiocodierung, als Basis für die digitale Rundfunkübertragung zu verstehen, sollen hier ein paar Größenordnungen für Datenraten
unkomprimierter linearer PCM Signale vermittelt werden.
Folgende Formel berechnet die Datenrate eines linear PCM codierten Audiosignals:
Bitrate = Abtastfrequenz ⋅
Quantisier ungsbits
⋅ AnzahlKanäle
Sample
Mit dieser Formel ergibt sich für eine gewöhnliche Audio Compactdisc (Audio CD) mit
44,1 kHz Abtastrate und 16 Bit Quantisierungsauflösung, eine Datenrate von 1,4112
Mbit/s. Im professionellen Studio- und Rundfunkbereich wird aus qualitativen und
technischen Gründen sehr oft mit höheren Abtastrate von 48 kHz und 96 kHz (mittlerweile sogar 192 kHz), und einer Quantisierungsauflösung bis 24 Bit gearbeitet. Bei
48 kHz/20 Bit (entspricht dem verfügbaren Dynamikbereich von MPEG Layer II) ergibt sich so eine Datenrate von 1,920 Mbit/s für ein Stereosignal. Es ist leicht zu erkennen, und zu verstehen, dass sich die PCM Audiocodierung nicht für die Übertragung von Rundfunkprogrammen eignet, da die Datenraten viel zu hoch wären, um
12
mehrere Audioprogramme zu übertragen. Auf diese Art und Weise wäre es unmöglich, in einem digitalen Rundfunksystem das selbe Angebot an Rundfunkprogrammen
bereitzustellen, wie es bisher im analogen Rundfunknetz der Fall ist. Aus diesem
Grund ist es unbedingt notwendig datenreduzierende Audiocodierungsverfahren für
diesen Anwendungsbereich einzusetzen.
4.2.1.1 Verlustlos – Verlustbehaftet
Grundsätzlich gibt es zwei Möglichkeiten, das hohe Datenaufkommen bei digitaler Übertragung und Speicherung von Audiosignalen zu reduzieren: verlustlos und
verlustbehaftet. Die verlustlose Datenkompression beruht auf dem Prinzip der Entropiecodierung. Dabei kann, durch Verminderung der vorhandenen Redundanz im
PCM codiertem Audiosignal das Datenaufkommen, etwa auf die Hälfte gesenkt werden. Dieses Verfahren wird zwar in modernen Audiokodierungsverfahren genutzt,
wie z.B. Huffmancodierung bei MPEG Layer III, stößt aber auch auf seine Grenzen.
So kann hier nur ein mittlerer Kompressionsgrat von 2:1 erreicht werden. Bei der verlustlosen Audiokomprimierung kann das Originalsignal jedoch vollständig, fehlerfrei
rekonstruiert werden, es geht keine Klanginformation verloren.
Das Verfahren der verlustbehafteten Audiocodierung zeigt sich als weit effektiver. Grundlage dafür bildet die Psychoakustik. Die Wissenschaft der Psychoakustik
widmet sich der Fragestellung, wie welche Klanginformationen beim menschlichen
Hören ausgewertet werden. Vereinfacht ausgedrückt kann man sagen, dass das
empfundene Schallereignis nicht dem original Gehörten entsprechen muss. Unser
Gehör, bzw. unser Kopf ist in der Lage Klanginformationen zu filtern, oder zu ergänzen. Durch Versuche konnte so festgestellt werden, dass unser Gehör nicht gleichmäßig sensibel auf zeitlich eng aufeinanderfolgende, oder gleichzeitig auftretende
Schallereignisse reagiert. So verdecken dominante Schallereignisse sowohl zeitlich,
als auch spektral dicht benachbarte, weniger dominante Schallereignisse. Diese Zusammenhänge wurden ausgiebig durch Hörversuche an Testpersonen untersucht
und quantitativ festgehalten.
13
4.2.1.2 Psychoakustische Effekte
Ruhehörschwelle
Die Ruhehörschwelle ist eine frequenzabhängige Funktion, und gibt
an, ab welchem Schalldruckpegel das
Gehör ein Geräusch wahrnehmen
kann. Schallanteile, die unter diesem
Schwellwert liegen werden nicht
wahrgenommen, und müssen dadurch
nicht verarbeitet werden.
Abbildung 4-0a
Simultane Maskierung
Die simultane Maskierung beschreibt
den Effekt, dass laute Frequenzanteile, benachbarte leisere Frequenzanteile teilweise oder ganz verdecken.
Dies wird genützt um Quantisierungsrauschen zu maskieren.
Abbildung 4-0b
Temporale Maskierung
Abbildung 4-0c
Dieser Effekt führt dazu, dass ein
dominantes Schallereignis auch zeitlich benachbarte weniger dominante
Schallereignisse verdeckt. Dies ermöglicht dem Audioencoder das Signal zeitlich in kleine Ausschnitte zu
zerlegen. Allerdings ist im Gegensatz
zur Darstellung (Abbildung 4-0c) der
Verdeckungseffekt vorher kürzer als
der Verdeckungseffekt nachher.
14
Jointstereo
Jointstereo steht bei MPEG Layer II für Intensitätsstereoverfahren. Grundlage
bildet der psychoakustische Effekt, dass das Stereobild vom menschlichen Ohr nicht
in jeder Frequenzlage auf gleiche Art und Weise analysiert wird. So ergibt sich, dass
bei sehr tiefen Frequenzen (bis etwa 80/100 Hz) 4 keine Richtungsinformation wahrgenommen werden kann (z.B. Prinzip Subwoofer). Für Stereoinformationen in mittlerer Frequenzlage ist das Ohr sehr sensitiv. Hier werden Stereoinformationen auch
anhand der Feinstruktur im Audiosignal bestimmt. Dagegen werden vom Gehör, bei
Frequenzen ab etwa 2 kHz nur noch die Lautstärkedifferenzen ausgewertet. Letzterer Effekt wird bei der MPEG Layer II Jointstereo Codierung ausgenützt. Spektral
höherfrequente, als Stereopaar zusammengehörende Audioteilbänder werden beim
Codierungsprozess nicht unabhängig verarbeitet, sondern zu einem Teilband zusammengefasst, und als Mittenkanal mit zusätzlicher Stereobalanceinformation in
den Datenstrom eingebunden.
4.2.1.3 Veränderungen im Klangbild
Bei der verlustbehafteten Audiocodierung nutzt man nun diese Effekte, um
dem Audiosignal diverse Verzerrungen bzw. Quantisierungsrauschen hinzuzufügen
zu können, ohne dass der Hörer diese wahrnimmt. Zusätzlich lässt sich die Datenmenge weiter reduzieren, in dem man bei Stereosignalen durch Jointstereo Veränderungen im stereophonen Abbild zulässt. Bei hohen Kompressionsraten werden die
verschiedenen Reduktionsverfahren aber doch deutlich hörbar. So kann es im extrem Fall zu Erscheinungen kommen, wie: Verlust von Höhen- und/oder Bassanteilen, Kratzen, Rauschen metallisches Klirren, gefälschtes Stereobild etc.
Man kann grob drei Reduktionsstufen unterscheiden:
Unkritische Kompression (MPEG Layer II über 200kbit/s Stereo)
•
Quantisierungsrauschen der einzelnen Bänder bleibt verdeckt
Mittelkritische Kompression (MPEG Layer II 140kbit/s bis 200kbit/s Stereo)
•
Quantisierungsrauschen knapp über der Mithörschwelle
•
Leichte Änderungen im stereofonen Abbild
Sehr kritische Kompression (MPEG Layer II unter 140kbit/s Stereo)
•
4
weglassen relevanter Klanganteile
http://www.tecchannel.de/multimedia
15
•
hohe Quantisierungsverzerrungen
•
starke Änderung des stereofonen Abbilds
4.2.2 MPEG Layer II Encoder
Digital
Audio Signal
ft= 16.. 48 kHz
Quantization
&
Coding
Filterbank
32 Subbands
Scale Factor
Extraction
Coding of
Side
Information
Bit Stream Formatting
CRC-Check
Bei MPEG Layer II handelt es sich um einen sogenannten Subbandcodec, da
die Datenreduktion auf der spektralen Zerlegung im Zeitbereich des Audiosignals
basiert. Aufbau und Funktion des Übertragungsformats des Teilbandcodierungsverfahrens ist durch den MPEG 1 und MPEG 2 Standard definiert. Die Arbeitsweise des
Encoders lässt sich wie folgt beschreiben: das eingehende Audiosignal wird zeitlich
in kleine Ausschnitte bzw. Fenster (Frames) mit 1152 Abtastwerten pro Kanal zerlegt.
Bei der, für DAB spezifischen Abtastrate von 48 kHz ergibt sich daraus eine Fensterlänge von 24ms. Dieses Signal wird mit Hilfe einer Polyphasefilterbank in 32 spektral
gleichmäßig verteilte Teilbänder (Subbänder) von je 750 Hz Bandbreite zerlegt und
abgetastet. Dabei werden nur die unteren 27 Teilbänder codiert. Die Datenreduktion
erfolgt durch Ausnutzung, der bereits erwähnten psychoakustischen Effekte: der
temporalen bzw. simultanen Maskierung, der Ruhehörschwelle. Dazu wird, parallel
zu der Filterbank, das Eingangssignal mit Hilfe einer Fast Fourier Transformation
(FFT) spektral ausgewertet und von einem psychoakustischen Rechenmodell im Encoder bewertet. Das Psychoakustische Modell errechnet nun, aufgrund dieser Information die bestmögliche Verteilung, der für die Codierung zur Verfügung stehenden
Quantisierungsbits. Diese werden so auf die einzelnen Audiosubbänder verteilt, dass
der Fehler zwischen der errechneten optimalen Bitverteilung und der, durch die Datenrate beschränkte, real zur Verfügung stehenden Bitverteilung möglichst gering
ausfällt. Dies ist ein iterativer Prozess, der wesentlich in die notwendige Verarbeitungszeit eingeht. Ausgabeseitig erfolgt die Zusammensetzung des MPEG spezifizierten Audiorahmens.
MPEGAudio
Coded Bit
Stream
Perceptual Model
FFT
Masking
Dynamic
Bit Allocation
MPEG-1 & MPEG-2
Audio Encoder
Abbildung 4-1: Struktur MPEG 1/2 Layer II Encoder
16
Wie in der Abbildung 4-1 zu erkennen ist, besteht der MPEG Layer II Encoder aus
verschiedenen Komponenten, die hier näher beschrieben werden sollen:
Filterbank
Die Filterbank zerlegt das eingehende Audiosignal in 32, linear gleichmäßig
aufgefächerte Teilbänder mit 750 Hz Bandbreite. Dabei handelt es sich um eine Polyphase Filterbank oder einer hybrid Polyphase/ MDCT Filterbank 511-ter Ordnung
[1]. Nachbarbänder werden dabei mit mehr als 96 dB unterdrückt. [3]. Aus diesem
Vorgang ergeben sich 36 Abtastwerte pro Subband, die zur Weiterverarbeitung zur
Verfügung stehen.
Skalenfaktorextraktion (Scale Factor Extraction)
Ähnlich der Exponentialdarstellung in der Mathematik werden die Subbandssamples im MPEG Audiodatenstrom als Kombination von Skalenfaktor und aktuellen
Samplewerten beschrieben. Diese Methode dient einer effektiveren Codierung und
erhöht, durch verschiedene Schutzmaßnahmen die Fehleranfälligkeit bei der Übertragung. Die 36, in der Filterbank errechneten Audiosamples pro Frame und Subband werden in drei Blöcke à 12 Samples zerlegt. Der höchste Samplewert pro Block
bestimmt den Skalenfaktor. Dieser errechnet sich aus dem Verhältnis des höchsten
Samplewertes und der maximal zugelassenen Aussteuerung. Dies beschreibt einen
Faktor, mit dem das Sample im Decoder wieder zu multiplizieren ist, um die originale
Lautstärke wieder zu gewinnen. Da die Skalenfaktoren in einem Raster von etwa 2
dB Schritten vorgegeben sind, reduziert die Wiedergabegenauigkeit der Lautstärke
der Teilbänder auf ±1 dB (2 dB Auflösung) . Es muss allerdings nicht für jeden 12
Samples-Block ein eigener Skalenfaktor vergeben werden. Es können auch weniger
sein. Dies hängt von der Konstellation der ermittelten Skalenfaktoren ab. Nicht auf
jede Konstellation reagiert das Gehör gleich sensibel. Aus diesem Grund sind bestimmte Konstellationen als feste Muster vordefiniert, die alle drei oder weniger Skalenfaktoren repräsentieren. Dadurch, dass nur ein gewähltes Muster in die Codierung
eingeht, können die Skalenfaktoren pro Frame und Subband als ein 6 Bit-Wort ausgedrückt werden. Bei stationären Signalen wird nur ein Skalenfaktor verwendet,
während bei komplizierteren alle drei verwendet werden.
Gewährleistet wird ein theoretischer Dynamikbereich von 120 dB [3].
17
Psychoakustisches Modell (Perceptual Model)
Das Psychoakustische Model ist wohl das Herzstück des Encoders. Hier wird
das Audiosignal mittels einer Fourier Transformation spektral analysiert, und hinsichtlich der Maskierungseigenschaften bewertet. Damit ein Ton für das menschliche Gehör wahrnehmbar ist, muss seine Lautstärke über der bereits erwähnten Ruhehörschwelle liegen. Zusätzlich verändert aber auch jeder Ton, je nach Pegel und Frequenz die Wahrnehmbarkeitsschwelle für einen anderen Ton. Diese Schwelle wird
als Mithörschwelle bezeichnet, und kann additiv zur Ruhehörschwelle angegeben
werden. Ein beliebiges Tonsignal bewirkt eine entsprechend komplexe Mithörschwelle über den gesamten Frequenzbereich. Diese komplexe Mithörschwelle wird durch
eine 1024-Punkte FFT-Analyse, für ein Zeitfenster von 8 ms Dauer bestimmt. Das
ergibt 3 Zeitfenster pro Frame (analog zu den Skalenfaktoren). Aufgrund dieser Information kann nun für jedes Teilband das Signal/Maskierungsverhältnis (SMR) bestimmt werden. Danach richtet sich dann die individuelle Zuweisung der Quantisierungsauflösung pro Teilband. Die Quantisierung für den gesamten Datenrahmen wird
entsprechend der höchsten erforderlichen Teilbandauflösung in einem der drei Analysefenster gewählt.
Im Psychoakustischen Modell läuft diese Prozedur nach folgendem Schema ab [1]:
1.
2.
3.
4.
5.
6.
7.
8.
9.
Berechnung der FFT für 1024 Punkte
Bestimmung des Schalldruckpegels für jedes Audioteilband
Bestimmung des Ruheschwellwertes
Bestimmung tonaler Frequenzanteile
Reduzierung gefundener Maskierer auf ein relevantes Maß
Berechnung der individuellen Maskierungsschwellwerte
Bestimmung des allgemeinen Maskierungsschwellwertes
Festlegung der minimalen Maskierung für jedes einzelne Subband
Berechnung des Signal/Maskierungsverhältnis (SMR) für jedes Subband
4.3 Aufbau ISO - MPEG Layer II Datenstrom
4.3.1 Aufbau MPEG Layer II Audiorahmen nach ISO/IEC 11172-3
Der MPEG Layer II Audiodatenrahmen nach ISO/IEC 11172-3 teilt sich in 7 Blöcke
auf:
•
Header
•
CRC Fehlerschutz
•
Bitallokation
18
•
Skalenfaktoren
•
Scalefactor Selection Information
•
Subbandsamples
•
Zusatzdaten
Der Rahmenaufbau des MPEG Layer II Datenstromes ist nach ISO/IEC 11172-3 folgendermaßen definiert:
MPEG Audio Layer II Frame
HEADER
CRC
Bit Allocation
32 Bit
16
Bit
Low Subbands 4Bit
Mid Subbands 3Bit
High Subbands 2 Bit
SCF
SI
Scale
factors
2 Bit
6 Bit
Subband Samples
Anicillary Data
12 Blöcke mit jeweils
3 Teilbandabtastwerten
Länge ist nicht spezifiziert
Abbildung 4-2
4.3.1.1 Header
Der Header hat eine Länge von 4 Byte und beinhaltet folgendenden Komponenten
(siehe 2.4.2.3 in [1]):
Synchronisationswort (12 Bit) – zeigt durch die Bitfolge: „1111 1111 1111“ den Anfang des MPEG Audiorahmens an.
ID-Bit (1 Bit) - das Setzen dieses Bits signalisiert, dass der Datenstrom dem ISO/IEC
11172-3 Standard entspricht. Dieses darf nicht gesetzt sein, wenn man z.B. „half
sampling rate“ (MPEG 2) nutzt.
Layer (2 Bit) – gibt den verwendeten Audiolayer (I-III) an.
Protection Bit (1 Bit) - signalisiert durch den Wert „0“, dass die Audiodaten durch
das Zufügen von Redundanz durch ISO CRC fehlergeschützt sind.
19
Bitraten Index (4 Bit) - daraus lässt sich die verwendete Bitrate ableiten. Die möglichen Bitraten sind vom verwendeten Audiolayer abhängig. Dabei wird der Index einer vordefinierten Tabelle übertragen. Die Bitfolge „0000“ erlaubt davon abweichende Bitraten (2.4.2.3 in [1] und 2.4.2.3 in [3]).
Sampling Frequency (2 Bit) – beschreibt die verwendete Abtastfrequenz.
Padding Bit (1 Bit) – das Bit ist gesetzt, wenn der Datenrahmen einen zusätzlichen
Slot besitzt. (Das ist z.B. bei der Samplerate 44,1 kHz notwendig, um den Rahmen
der Bitrate anzupassen.)
Private Bit (1 Bit) – wird im ISO/IEC Standard nicht weiter genutzt.
Mode (2 Bit) – gibt eine Aussage über die Kanalzuordnung. Möglich ist „normales“
Stereo, Joint Stereo (nur Intensitätsstereo, kein MS-Stereo), 2 Kanal oder 1 Kanal
Codierung.
Mode Extension (2 Bit) – gibt an bis zu welchem Audioteilband das Intensitätsstereo
Verfahren angewandt wird. Tiefer liegende Teilbänder werden „normal“ Stereo kodiert. Vier Einstellungen sind möglich:
Subband MPEG Layer II
in Jointstereo
16 bis 31
Grenzfrequenz
bei 48 kHz Abtastrate
12 kHz
Grenzfrequenz
bei 24 kHz Abtastrate
6 kHz
12 bis 31
8 bis 31
9 kHz
6 kHz
4,5 kHz
3 kHz
4 bis 31
3 kHz
1,5 kHz
Tabelle 4-3
Copyright (1Bit) – ein gesetztes Bit signalisiert, dass das Audiomaterial Copyright
geschützt ist.
Original/Copy (1Bit) – 0 steht für eine Kopie, 1 für ein Original.
Emphasis (2 Bit) – gibt Auskunft über eine mögliche digitale Vorverzerrung des Audiosignals.
20
Der Aufbau des MPEG Layer II Audioframes, dargestellt als Tabelle:
HEADER
b0
Byte 1
b7
1
1
1
1
1
1
1
b8
Byte 2
b15
1
1
1
1
ID
L1
L0
b16
Byte 3
BR3
Mode1
ISO Prot
b23
BR2
BR1
BR0
fs. 1
fs. 2
Padding
b24
Byte 4
1
Private
b31
Mode0
ME1
ME0
Copyright
Original
EM1
EM0
Tabelle 4-4
4.3.1.2 CRC
Dieser Block dient der Fehlererkennung. Wird hier ein Übertragungsfehler erkannt, dann wird der Datenrahmen nicht weiter ausgewertet. Hierbei handelt es sich
um ein 16 Bit Paritätscheck, zur Fehlererkennung innerhalb der empfindlichsten n
Iformationen des MPEG Audiorahmens. Das beinhaltet die zweite Hälfte des Headers, die Angaben über die Bitallokation und Skalenfaktorinformationen. Das CRC
Generatorpolynom lautet:
G1 (x) = x 16 + x15 + x2 + 1
Für eine detailliertere Beschreibung der Arbeitsweise sei hier auf den technischen
Report ETS 300 401 B.1 und E [2] verwiesen.
4.3.1.3 Bit Allocation
Der Block der Bitallokation ist einer der wichtigsten Angaben bei der Übertragung des codierten Audiosignals. Hier wird die dynamisch zugewiesene Bitverteilung
der Quantisierungsbits für die einzelnen Audioteilbänder und Informationen zur
Gruppierung der Audiosamples angegeben. Aus Gründen der effizienteren Codierung stehen dabei nur eine begrenzte Anzahl von Kombinationen an Quantisierungsbitsverteilungen bezüglich der Audioteilbänder zur Verfügung. Diese sind abhängig
von Bitrate und Abtastfrequenz (Tabelle B.2 in [1]). Ein iterativer Prozess errechnet
die bestmögliche Kombination aus dem begrenzten Vorrat.
21
4.3.1.4 SCFSI
SCFSI steht für „scalefactor selection information“ und gibt Auskunft über die Verteilung der Skalenfaktoren. Das ist notwendig, da die Übertragung der Audiosamples in
drei Teile pro Audiorahmen, zu je 12 Samples pro Subband aufgeteilt ist. Es ergibt
sich dabei die Möglichkeit 3, 2 oder nur einen Skalenfaktor pro Teilband zu übertragen. (Tabelle Anhang E in [1]).
4.3.1.5 Scalefactors
Die Skalenfaktoren beschreiben die Wiedergabelautstärken der einzelnen Audiosamples, der im Encoder normierten Teilbänder. Dazu stehen 63 festgelegte Faktoren zur Verfügung, die über einen Tabellenindex angesprochen werden (Tabelle B.1
[1]).
4.3.1.6 Subband Samples
Hier sind die quantisierten Audiosamples der einzelnen Audioteilbänder enthalten.
Die Verteilung wird aus den Informationen der Bitallokation entnommen. Die, aus den
1152 Audiosamples des Ausgangssignals gewonnenen 36 Samples pro Teilband
werden jeweils in 12 Blöcke à 3 Samples gespeichert.
4.3.1.7 Ancillary Data
Der MPEG Layer II Audioframe erlaubt das Einfügen diverser Zusatzinformationen.
Über diese kann, je nach Anwendung verfügt werden. Probleme können sich ergeben, wenn ein Bitmuster gleich dem Syncwort eingefügt wird. Auch ist zu beachten,
dass Zusatzdaten die Audioqualität beeinträchtigen können, wenn die Zusatzdaten
den Platz für Audiodaten einschränken.
4.4 Aufbau DAB Layer II Datenstrom
Der Aufbau des MPEG Layer II Audiodatenrahmens wurde für die Anwendung
in DAB ISO-konform modifiziert. ISO-konform heißt, dass dieser Datenrahmen auch
von einem Standard MPEG Layer II Decoder verarbeitet werden kann. Die Modifikationen können von einem Standarddecoder jedoch nicht ausgewertet werden. Bei
einem, für DAB genützten Datenrahmen nutzt man den, im ISO-Standard festgelegten Bereich der „Ancillary Data“ um DAB spezifische Zusatzinformationen zu übertragen.
22
Der DAB MPEG Layer II Audiodatenrahmen wurde durch folgende Komponenten
ergänzt:
•
SCF CRC (Skalenfaktor CRC)
•
PAD (X-PAD und F-PAD)
•
STUFF
4.4.1.1 SCF CRC (Skalenfaktor CRC)
Da der normale ISO-CRC Fehlerschutz für die Anwendung im Rundfunkbereich nicht
genügend Sicherheit gibt, ist dem Datenrahmen ein zusätzlicher Skalenfaktor CRC
hinzugefügt. Fehler bei der Übertragung der Skalenfaktoren führen zu sehr hässlichen Erscheinungen im Klangbild des decodierten Audiosignals. Da hier die komplette Lautstärkeinformation enthalten ist, können so Pegelsprünge über den gesamten
Dynamikbereich auftreten. Um dies zu verhindern, wird der Skalenfaktor CRC ausgewertet. Darauf basierend können Fehlerverschleierungsstrategien im Decoder angewendet werden. So ist es möglich Skalenfaktoren vorangegangener Datenrahmen
wieder zu verwenden. Um möglichst kurze Verzögerungszeiten bei der Audiodecodierung zu realisieren, wird der Skalenfaktor CRC immer im vorhergehenden Rahmen übertragen. So kann der Decoder die Gültigkeit der Skalenfaktoren sofort überprüfen.
4.4.1.2 PAD (X-PAD und F-PAD)
PAD steht für „Programme Associated Data“ und dient der Überragung von programmspezifischen Zusatzdaten. Funktion und Anwendung werden im folgenden
Kapitel erklärt.
4.4.1.3 Stuff
Der Bereich des Stuffs dient zum Auffüllen unbenutzbarer Datenbereiche. Dies wird
ebenfalls im folgenden Kapitel 4.5 erläutert.
23
Detaillierter Aufbau des DAB MPEG Layer II Audiodatenrahmens:
Header
CRC
Bit Allocation
SCFSI
Scale Factors
Sub-Band Samples
first 8ms
syncword
ID
..
.
bit rate
..
.
.
M
Me
C
SB
0
L
C
..
SB
1
SB
2
samples
0,1,2
SB
n
...............
samples
3,4,5
R
SB
0
SB
1
SB
2
...............
SB
SB
0
1
2
R
X-PAD
SCF
CRC
F-PAD
first 8ms
samples
6,7,8
SB
SB
n
L
L
first 8ms
Stuff
samples
9,10,11
...............
L
SB
n
R
R
MSB..LSB
SB
0
L
SB
0
SB
1
SB
2
...............
sample 0
MSB-LSB
sample 1
MSB-LSB
sample 2
MSB-LSB
SB
n
R
SB
1
SB
2
Abbildung 4-3
4.5 Programme Associated Data (PAD)
Das “Programme Associated Data” Datenfeld (PAD) ist ein zusätzlicher, optionaler Datenkanal, der im DAB Audiodatenstrom eingebetet ist, und sich am Ende des
DAB Audiorahmens befindet (F-PAD) bzw. sich auch direkt an die Subbandsamples
oder den „Stuff“ Bereich anschließen kann. Nach ISO-MPEG-Norm ist das PAD Datenfeld Bestandteil der „Ancillary Data“. Aufgrund der Struktur, des DAB Audiorahmens ist dieses alle 24 ms bei einer 48 kHz-, und alle 48 ms bei einer 24 kHz (siehe
Kapitel 4.6) Übertragung verfügbar. Theoretisch bietet dieser Datenkanal eine maximale Datenkapazität von 196 Bytes pro Rahmen, in Absprache mit den Endgeräteherstellern hat sich allerdings eine Begrenzung der Kapazität auf 52 Bytes pro Rahmen durchgesetzt. Dadurch, dass diese Daten gleichzeitig mit den Audioinformationen übertragen werden, eignet sich dieser Datenkanal besonders für Echtzeitanwendungen im Zusammenhang mit dem gerade laufenden Audioprogramm.
Ein paar Anwendungsbeispiele, die vom DAB Standard vorgesehen sind:
•
Dynamic Range Control (DRC): Zusatzinformationen zur Nachbearbeitung
des genutzten Dynamikbereichs des Audioprogramms
•
Speech/music indication: Dient zur Unterscheidung zwischen Sprach- oder
•
Musikübertragung. Kann z.B. am Empfänger zur Lautstärkeanpassung genutzt
werden.
In-house information: Dies dient zur Übertragung spezieller Sendebetriebsinformationen.
24
•
Dynamic Label:
Programmbezogener Text. Dieser Service ist Vergleich-
bar mit RDS im analogen FM Rundfunk. Zum aktuell laufenden Radioprogramm werden Textmitteilungen übermittelt, die am Empfängergerät dargestellt werden können. Dies sind z.B. Informationen zu laufenden Musiktiteln,
Nachrichten, o.ä.
•
Spezielle Kommandos an Receiver/Decoder: Vorstellbar sind hier Kommandos, die z.B. das Anzeigen eines Bildes, das schon vorher auf den Empfänger übertragen wurde veranlassen.
•
Universal Product Code/European Article Number
Der PAD Datenraum unterteilt sich in zwei Blöcke mit unterschiedlichen Aufgaben
und unterschiedlichen Positionen im Audiorahmen.
4.5.1 F-PAD
Das F-PAD ist ein fester Bestandteil am Ende jedes Audiorahmens mit der
Länge von 2 Byte. Der Inhalt der Daten bezieht sich dabei direkt auf den Inhalt des
aktuellen Audiorahmens. Dieser dient z.B. zur Übertragung der Dynamic Range
Control (DRC), Speech/music indication, o.ä.
Zusätzlich gibt es hier die Möglichkeit, ein weiteres Datenfeld zu signalisieren (XPAD), über dessen Kapazität und Inhalt der Dienstanbieter verfügt.
4.5.2 X-PAD
Das X-PAD ist nicht zwingender Bestandteil des DAB Audiorahmens. Dieses
wird mit variabler Kapazität, abhängig von der Anwendung, zwischen die codierten
Audiosubsamples und dem SCF CRC eingefügt und im F-PAD signalisiert. Es ist zu
beachten, dass die Anordnung der Daten des X-PAD im DAB Standard so festgelegt
ist, dass 4 Bytes des X-PADs, die sich rückwärts betrachtet direkt an den SCF CRC
anschließen, das selbe Schutzniveau genießen, wie der SCF CRC selbst.
25
variable Länge
feste Länge
2 Byte
4 Byte
Audiodaten
X-PAD
SCF-CRC
F-PAD
besser geschützter Teil
Abbildung 4-4
Der Sinn erklärt sich durch die Struktur des Datenpakets. Abhängig von der zu übertragenden Datenmenge stellt der DAB Standard zwei unterschiedliche X-PAD Strukturen zur Verfügung:
•
Kurzes X-PAD (Kapazität 4 Bytes pro Frame)
•
X-PAD mit variabler Länge
Ist im F-PAD ein kurzes X-PAD definiert, so befinden sich die Zusatzdaten direkt in
den 4 höhergeschützten Bytes vor dem SCF CRC. Ist im F-PAD ein X-PAD mit variabler Größe signalisiert, dann befindet sich in den 4 höher geschützten Bytes ein
„Content Indicator“, der Informationen über die weitere Struktur des gesamten genutzten X-PAD-Feldes enthält. Aufgrund dieser Information kann das X-PAD mit variabler Größe dann spezifisch ausgewertet werden. Aufgrund des indirekten Zugriffs
auf diesen Datenblock beziehen sich diese Zusatzdaten immer auf das später folgende DAB Audioframe.
Dadurch, dass die Datenkapazität des Audiodatenstroms durch die eingestellte
Bitrate festgelegt ist, wird dem Audiocodec ein gewisser Anteil des Datenraums entzogen. Das führt zu einer effektiv geringeren Datenrate für das Audiosignal als eingestellt, was die Klangqualität negativ beeinflussen kann. Da das X-PAD vom Decoder nur Byteweise ausgelesen werden kann, aber der allokierte Datenraum für die
Subbandsamples nicht unbedingt bitgenau bis zum X-PAD passt, kann es nötig sein
den Zwischenraum mit Leerdaten aufzufüllen. Dieser Zwischenraum wird als „Stuff“
bezeichnet.
26
4.6 Half-sampling-rate (LSF) Audiocodierung
4.6.1 Struktur
Die MPEG Layer II Audiocodierung im “half sampling rate” Modus (LSF) ist
durch den MPEG 2 Standard (ISO/IEC 13818-3) definiert, und dient der Minderung
von Codierartefakten bei niedrigen Bitraten. Dabei wird das Audiosignal nicht mit der,
sonst üblichen Abtastfrequenz von 48 kHz codiert, sondern mit der halben Abtastrate
von 24 kHz. Dies erlaubt zwar eine Codierung mit nur eingeschränkter Audiobandbreite (max. 11.5 kHz [3]), liefert aber ausgeglichenere Klangergebnisse, mit weniger
Codierartefakten, als bei Codierung mit voller Abtastfrequenz. Dies hat zwei Gründe,
die eng miteinander verknüpft sind. Einerseits muss nur die halbe Bandbreite des
Audiospektrums codiert werden, was dem Encoder ermöglicht, die ihm, zur Verfügung stehenden Bits zur Quantisierung auf das schmalere Audiospektrum zu verteilen. Andererseits ergibt sich eine doppelt so feine Auflösung der zu codierenden Audioteilbänder im Encoder, da sich die Architektur der Polyphasenfilterbank nicht ändert. D.h., alle 32 Teilbänder verteilen sich gleichmäßig über 12 kHz Bandbreite. Das
wiederum ermöglicht eine bessere Ausnutzung der psychoakustischen Verdeckungseffekte. Technisch realisiert wird dieses Verfahren durch eine Abtastratenumsetzung im Encoder von 48 kHz auf 24 kHz. Die Codierung erfolgt dann nach dem
selben Schema, und nach der selben Architektur, wie bei voller Abtastrate. Es werden dabei ebenfalls 1152 Samples pro Frame in 32 Subbänder zerlegt, analysiert
und unterschiedlich quantisiert. Unterschiede ergeben sich lediglich durch die Anwendung optimierter psychoakustischer Modelle und durch die Anwendung anderer
Quantisierungsmuster. Nach außen wirksam wird eine neue MPEG Datenrahmenstruktur. Dadurch, dass ein Codierungsfenster 1152 Abtastwerte beinhaltet, diese
aber einer niedrigeren Abtastfrequenz zugewiesen sind, ergibt sich eine neue Rahmenlänge von 48 ms. D.h. der MPEG Audiodatenrahmen bei 24 kHz Abtastfrequenz
ist doppelt so lang wie bei 48 kHz Abtastrate. Deshalb erfolgt die Übertragung eines
„half sampling rate“ MPEG Rahmen in DAB in zwei Teilrahmen.
4.6.2 Bitraten
Folgende Abbildungen stammen aus Untersuchungen, die bisherige Ergebnisse von Hörversuchen zusammen gefasst haben [15]. Ohne die Testmethode und
deren Auswertung näher zu beschreiben lässt sich vereinfacht sagen, dass hier die
Audioqualität über der Bitrate aufgetragen ist. Die drei, horizontal übereinanderliegenden Punkte stellen höchste Bewertung, Mittelwert und niedrigste Bewertung dar.
27
Half-Sampling Rate Coding
(MPEG-2 Audio)
Full-Sampling Rate Coding
(MPEG-1 Audio)
1,0
Subjective Diff-Grade
0,0
-1,0
-2,0
-3,0
-4,0
0
50
100
150
250 Kbit /s 300
200
Bit-rate
Layer II Stereo
Abbildung 4-5
Man erkennt, dass durch die Verwendung der „half sampling rate“ Codierung mit 64
kbit/s Stereo eine höhere Audioqualität erzielt werden konnte, als mit 128 kbit/s Stereo bei voller Abtastrate. Der empfohlene Übergang von voller Abtastrate zu halber
Abtastrate liegt in diesem Bereich innerhalb der genannten Bitraten. Laut Abbildung
4-5 liegt die Grenze bei etwa 96 kbit/s.
Half-Sampling Rate Coding
(MPEG-2 Audio)
Full-Sampling Rate Coding
(MPEG-1 Audio)
1,0
Subjective Diff-Grade
0,0
-1,0
-2,0
-3,0
-4,0
0
10
20
30
40
50
60 Kbit/s 70
Bit-rate
Layer II Mono
Abbildung 4-6
Ähnliches gilt für den Übergang zu „half sampling rate“ bei Monosignalen. Hier liegt
die Grenze knapp unter 64 kbit/s.
28
4.7 Fehlerschutzverfahren EEP und UEP
Um die Fehlersicherheit der Audiodaten verschiedenen Übertragungsbedingungen anpassen zu können, erlaubt das DAB System die Anwendung einer speziellen Kanalcodierung mit unterschiedlichen Fehlerschutzprofilen für die einzelnen
Audiokanäle („Subchannels“). Diese Unterscheiden sich durch unterschiedliche Verhältnisse und unterschiedlicher Verteilung hinzugefügter Redundanz im Datenstrom.
Beschrieben wird das Verhältnis durch die Coderate R. Der Wert R= 1/4 drückt aus,
dass z.B. vier Bits zu Verfügung stehen, um ein Datenbit zu übertragen.
4.7.1 UEP
Da im DAB Audiodatenstrom die verschiedenen Datenblöcke für die Decodierung und der Fehlerverschleierung unterschiedlich wichtig sind, ist für die Audioübertragung ein dynamisches Fehlerschutzprofil vorgesehen, das die hinzugefügte Redundanz der Gewichtung der Datenblöcke anpasst. Dieses Fehlerschutzprofil nennt
sich UEP (Unequal Error Protection).
Rc = 8
24
Rc = 8
Rc = 8
18
Redundanz
Rc = 8
Header
BAL
SCFSI
SCF
19
14
Subband Samples, X-PAD
F-PAD
SCFCRC
4 Bytes
DAB
Audiodatenerahmen
24 ms
Abbildung 4-7
29
Wie man in der Abbildung 4-7 erkennt, sind die wichtigsten und damit am besten geschützten Datenblöcke des DAB MPEG Audiodatenstroms, der Header, die ISOCRC Fehlererkennung und der „Scale factor select information“ Block. Der Header
enthält dabei alle wichtigen Informationen, um den Decoder zu initialisieren, einschließlich des Synchronisationswortes. Der ISO-CRC zeigt an, ob der vorhandene
Datenrahmen überhaupt verwertet werden darf. Die Bitallokationstabelle beschreibt
den Datenaufbau der Audioinformationen innerhalb des Datenrahmens. Ähnliche
Aufgaben haben die „scale factor select information“ Bits. Wenn diese Datenblöcke
fehlerfrei vom Decoder empfangen werden, lässt sich die Decodierung des Audiorahmens starten. Fehler, die in anderen Datenblöcken des Audiorahmens auftreten,
können bereits jetzt durch Fehlerverschleierungstaktiken überbrückt werden. Aus
diesem Grund genießen diese Informationen den höchsten Fehlerschutz.
In der Fehlerschutzgewichtung etwas geringer eingestuft, aber immer noch wichtig,
wird der Schutz der Skalenfaktoren gewertet. Diese geben Auskunft über die spektrale Hüllkurve des vorhandenen Audioausschnitts. Im Fehlerfall ist es möglich, diese
durch vorangegangene Skalenfaktoren zu ersetzen. Um Übertragungskapazität einzusparen lässt sich hier deshalb ein geringerer Datenschutz vertreten.
Der geringste Fehlerschutz fällt auf die eigentlichen Subbandsamples, da sich hier
Fehler weniger gravierend ausdrücken. Fehlerhafte Subbandsamples äußern sich
durch verrauschte Audioteilbänder, deren korrekte Lautstärkewiedergabe durch die
Skalenfaktoren sichergestellt ist. Dadurch fallen diese Übertragungsfehler weniger
unangenehm auf. Die letzten 4 Bytes vor dem Skalenfaktor-CRC, der eigentliche
Skalenfaktor-CRC und das F-PAD werden, bei dem genannten Fehlerschutzprofil
wieder höher bewertet, da diese wieder wichtige Systeminformationen enthalten. Der
Skalenfaktor-CRC bestätigt dabei immer die Gültigkeit der Skalenfaktoren des Folgerahmens, und steuert damit ebenfalls die Fehlerverschleierungsalgorithmen. Das FPAD enthält unter anderem Informationen zum Aufbau des X-PAD. Analog dazu, aber nicht zwangsläufig vorhanden, stehen in den letzten 4 Bytes vor dem Skalenfaktor-CRC, ebenfalls wichtige Informationen über die Struktur des X-PAD Datenfeldes.
Das UEP Profil sieht fünf verschiedene „Protection Levels“ (PL) vor. PL1 ist
das sicherste Profil, PL5 das fehleranfälligste. Innerhalb dieser Profile bleiben die
Schutzverhältnisse zwischen den Datenblöcken, auch bei verschiedenen Bitraten
gleich Tabelle 4-5 gibt Aufschluss über Anwendung und Coderaten der einzelnen
Protection Levels.
30
Protection
Level
Coderate R
Coding
average
Gain
Protection Protection Protection
Application Coderate R
C/I in dB *
class 1
class 2,4
class 3
PL1
very
high
special
0,34-0,36
PL2
high
mobile
high
PL3
good
8/25-8/28 8/19-8/22
+4
0,4-0,43
8/30-8/32 8/20-8/26 8/16-8/17
+2
mobile
0,5-0,51
8/23-8/24 8/16-8/18 8/14-8/15
0
PL4 medium
mobil
weak
0,57-0,62
8/17-8/21 8/14-8/17 8/12-8/13
-1,5 to –
3,5
PL5
cable
0,72-0,75
8/13-8/16 8/11-8/14
low
8/32
8/10
-
Tabelle 4-5
* erwarteter Codiergewinn in einem Rayleigh-Übertrgungskanal mit einer Bitfehlerrate
von BER=10-3 in Bezug zu PL3 [8]
Es soll nicht unerwähnt bleiben, dass nicht jeder verfügbaren Audiobitrate jeder beliebige Protection Level zugewiesen werden kann. Für 48 kHz Samplefrequenz sind
z.B. von 70 möglichen Kombinationen nur 64 definiert. Eine Übersicht gibt Tabelle
2.4 in [3]. Insgesamt steigt natürlich bei hohem Fehlerschutz die Datenmenge, durch
die hinzugefügte Redundanz erheblich an, was dazu führt, dass weniger Audioprogramme innerhalb eines DAB-Multiplex übertragen werden können. Dies erzwingt
einen vernünftigen wirtschaftlichen Kompromiss zwischen der Anzahl der Programme, verwendeter Bitrate und damit zusammenhängender Audioqualität, und der Fehlersicherheit, die sich ebenfalls auf die Audioqualität auswirkt.
4.7.2 EEP
Zusätzlich gibt es das Fehlerschutzverfahren der Equal Error Protection
(EEP). Dieses ist vorzugsweise zur reinen Datenübertragung anzuwenden, kann
aber auch auf die Audioübertragung angewendet werden. Hier ist ein gleichmäßiger
Fehlerschutz über dem ganzen Datenrahmen gewährleistet, der auf eine Gewichtung
des Dateninhalts verzichtet. Dabei gibt es acht verschiedene Profile, die ebenfalls
abgestuft sind. Es gibt vier A-Profile, die auf Datenraten angewendet werden können,
die durch 8 kbit/s teilbar sind. Dann gibt es noch vier B-Profile, deren Anwendung
sich auf, durch 64 kbit/s teilbare Datenraten beschränken.
31
Folgende Tabelle gibt Aufschluss über die Coderaten [3]:
Protection
Level
1-A
2-A
1-B
3-A
2-B
3-B
4-A
4-B
Coderate R
1/4
3/8
4/9
1/2
4/7
4/6
3/4
4/5
Tabelle 4-6
4.8 DAB Ensemble und Bitraten
Unter dem DAB Ensemble (auch DAB Multiplex genannt) versteht man den zusammengefassten Datenstrom aller verfügbaren Dienste und Programme innerhalb
eines DAB Sendekanals. Es hat eine fixe Gesamtkapazität, die aber flexibel unter
den verschiedenen Programmen und Diensten aufgeteilt werden kann. Jedes Ensemble bzw. jeder Multiplex wird in einem bestimmten Bereich ausgestrahlt, z.B.
bayernweit. Die Anzahl der Audiodienste innerhalb des Ensembles hängt von der
Höhe des verwendeten Fehlerschutzes (Protection Level) und der verwendeten Bitrate ab. Der Main Service Channel (MSC) hat eine Übertragungskapazität von 2,304
Mbit/s (brutto). Abhängig von den verwendeten Fehlerschutzniveaus bleiben 0,6
Mbit/s bis 1,8 Mbit/s Datenrate um Nutzdaten zu übertragen. Folgende Tabellen gibt
Auskunft über die Anzahl der Audioprogramme, die auf einmal gesendet werden
können, wenn für alle Programme die gleiche Bitrate und derselbe Protection Level
gewählt wird. 32 kbit/s stehen dabei für einen Datenkanal immer zur Verfügung.
Maximale Anzahl von Audioprogrammen im DAB-Ensemble
Bitrate
MPEG Layer II
24 kbit/s
PL 5
PL 4
PL 3
PL 2
PL 1
n/a
64
48
36
24
32 kbit/s
40 kbit/s
54
n/a
41
43
36
28
29
21
24
13
48 kbit/s
36
29
24
20
16
64 kbit/s
80 kbit/s
27
21
20
16
18
14
14
12
12
10
96 kbit/s
128 kbit/s
18
13
14
10
12
9
10
7
8
6
160 kbit/s
10
8
7
6
5
192 kbit/s
224 kbit/s
9
7
7
6
6
5
5
4
4
3
256 kbit/s
6
5
4
3
3
Tabelle 4-7
32
5 Spectral Band Replication
5.1 Grundlagen Spectral Band Replication
Spectral Band Replication (SBR) ist ein, von Coding Technologies entwickeltes
Verfahren, das einem bandbegrenzten Audiosignal subjektiv bessere Klangeigenschaften durch die Restauration fehlender hoher Spektralanteile verleiht. Die
Entwicklung dieses Verfahrens begann 1997 mit dem Ziel, die Codiereffizienz
gehörangepasster Audiocodierungsverfahren bei niedrigen Bitraten zu erhöhen. Das
grundsätzliche Problem bei sehr niedrigen Bitraten besteht darin, dass unterhalb
einer bestimmten Datenrate, trotz extremster Ausnutzung aller psychoakustischen
Effekte die Codierartefakte nicht mehr zu unterdrücken sind. Die zur Verfügung
stehenden Bits reichen nicht mehr aus, um das Quantisierungsrauschen innerhalb
der Teilbänder unterhalb der Maskierschwelle zu halten. Es treten dann sehr
unangenehme, künstlich klingende Verzerrungen im Audiosignal auf. Üblicherweise
begrenzen deshalb die Codecs die Bandbreite des Audiosignals bei niedrigen
Bitraten, um die verfügbaren Bits den wesentlich wichtigeren tiefen Audiobändern
zuzuweisen. Dadurch wird das Audiosignal zwar dumpfer, aber es wirkt dennoch in
sich ausgeglichener und weist wesentlich weniger künstlich klingende Verzerrungen
auf. Noch effektiver lässt sich die Methode der Bandbegrenzung einsetzen, wenn mit
der halben Abtastfrequenz gearbeitet wird. Zwar ist durch Verwendung der halben
Abtastfrequenz nur die Hälfte der Bandbreite des Audiosignals verfügbar, allerdings
wird diese durch die Verschiebung der Filterbänder und damit zusammenhängenden
feineren Auflösung wesentlich effizienter ausgenützt (siehe „Layer II half sampling
rate“).
Abbildung 5-1
Hier setzt nun die Technologie der Spectral Band Replication (SBR) an. SBR macht
sich die Eigenschaft zu nutze, dass die Zusammensetzung der hohen Spektralanteile
mit denen der tiefen Spektralanteile bei harmonischen Vorgängen korreliert. Erklären
lässt sich das dadurch, dass z.B. die menschliche Stimme oder Musikinstrumente ein
quasistationäres Anregungssignal erzeugen, das entweder von einem oszillierenden
System ausgeht, oder aus unterschiedlichen Rauschquellen gebildet wird. Eine
33
breitbandige Anregung kann durch eine Kombination dieser Quellen erzeugt werden,
z.B. Stimmbänder, Saiten oder Klangzungen. Abhängig von der Quelle besitzen diese unterschiedliche Frequenzkomponenten. Daraufhin wird das Anregungssignal
durch Resonatoren gefiltert z.B. durch einen Gitarrenkorpus. Dies verleiht der
menschlichen Stimme oder Musikinstrumenten ihre charakteristische Klangfarbe.
Eine Bandbegrenzung, wie sie bei niedrigen Bitraten von verschiedenen Audiocodierungsverfahren angewendet wird, kann man gleichsetzen mit dem Beschneiden dieser harmonischen Struktur. Dadurch wird die Klangfarbe so verändert, dass das Audiosignal dumpf klingt. Die SBR-Technik basiert auf einem Verfahren zur Wiederherstellung der abgeschnittenen harmonischen Strukturen durch Transponierung des
tiefen Basisaudiospektrums in den abgeschnittenen Frequenzbereich. Sehr wichtig
ist dabei die spektrale Hüllkurve des Originalsignals so gut wie möglich wieder herzustellen. Dazu wird die spektrale Hüllkurve der später weggelassenen Höhenanteile
des Originalsignals vor der Codierung analysiert und Steuerdaten für den SBRDecoder daraus gewonnen, die in das codierte Audiosignal eingebunden werden. Da
zusätzlich das richtige Verhältnis zwischen harmonischen und nicht-harmonischen
Frequenzanteilen im reproduzierten, hohen Spektrum hergestellt werden muss, wird
dem Audiosignal, wenn notwendig, auch selektives Rauschen oder einzelne Sinustöne hinzugefügt, die im SBR-Decoder basierend auf die SBR-Zusatzdaten synthetisiert und dem Ausgangssignal beigemischt werden. Diese Form wird auch parametrische Codierung genannt [12]. Die Idee zur SBR-Technologie hatte Lars Liljeryd, Unternehmensgründer von der schwedischen Firma Coding Technologies. Er
beschäftigte sich zu dieser Zeit mit Sprechgeräten für Tiefseetaucher. Tiefseetauchern wird zur Atemluft Helium beigemischt, was die bekannte, über Funk schwerverständliche Mickymaus-Fistelstimme erzeugt. Liljeryd entwickelte ein Unterwassersprechfunkgerät, das mit Hilfe digitaler Technik die Stimmen der Taucher „zurechtrückte“ [13].
5.2 Realisierung
Das Konzept der SBR-Technik sieht vor, dass der SBR-Codec „huckepack“ auf
einen normalen Waveform- Audiocodec aufgesetzt wird. Der SBR-Encoder analysiert
mittels einer komplexwertigen QMF Filterbank die hohen Frequenzanteile des Eingangsspektrums und gewinnt so Steuerdaten für den SBR-Decoder. Diese enthalten
Informationen über die Hüllkurve und die spektrale Zusammensetzung des zu replizierenden Frequenzbandes. Danach wird das Audiosignal von einem konventionellen
Audioencoder mit der gewünschten Bitrate codiert. Die real verwendete Datenrate
dieses Audiocodecs verringert sich dabei um die Datenrate, die zur Einbindung der
SBR-Zusatzdaten (Payload) erforderlich ist und mindert unter Umständen die Codiereffizienz des Basiscodecs. Allerdings tritt dieses Problem erst bei sehr niedrigen
34
Bitraten zum Vorschein. Die SBR-Zusatzdatenrate liegt näherungsweise im Bereich
von 2 bis 3 kbit/s pro Audiokanal. Der „normale“ Audioencoder arbeitet dabei mit halber Abtastrate, um das Basisfrequenzband des Audiosignals mit maximaler Qualität
zu codieren, auf dessen Basis die oberen Spektralanteile repliziert werden. Die Sampleratenkonvertierung findet dabei erst im konventionellen Basisaudioencoder statt.
Ein Multiplexer setzt den Audiodatenstrom einschließlich der SBR-Zusatzdaten zusammen.
Ancillary Data
Audio
Input
Ancillary Data
normaler
Bit
Audio Mux
Encoder
SBR
Encoder
|X(f)|
Audiodaten
+ SBR-Daten
Bit
Demux
|X(f)|
normaler
Audio
Decoder
SBR
Decoder Audio
Output
|X(f)|
|X(f)|
SBR
f
0
0
f
0
f
0
f
Abbildung 5-2
Im Decoder wird der Audiodatenstrom wieder zerlegt. Dabei werden die SBRZusatzdaten herausgezogen und dem SBR-Decoder zugeführt. Im „normalen“ Audiodecoder wird das bandbegrenzte Audiosignal wiedergewonnen und zu dem SBRDecodermodul weitergeleitet. Dieser transponiert das bandbegrenzte Audiospektrum
nach oben und setzt es auf das Basisspektrum auf. Dies erfolgt durch eine QMF
Bank, die das Basissignal in 32 Subbänder zerlegt. Durch zweifaches Oversampling
und der entsprechenden Rücktransformation (64-Channel QMF Bank) wird das replizierte Spektralband gewonnen. Zusätzlich gehen die Hüllkurveninformationen aus
dem SBR-Datenstrom in diese Transformation ein. Auch selektives Rauschen und
tonale Spektralanteile werden aufgrund dieser Daten erzeugt und mit in das Signal
eingerechnet. Am Ausgang des Decoders erscheint das Audiosignal wieder in der
Originalabtastrate (48 kHz) [13].
Blockschaltbild Encoder
Control Parameter
Extraction
Envelope
Extraction
Bitstream
Multiplexer
Bitstream
Basis Encoder
Input Audio
Abbildung 5-3
35
36
Blockschaltbild Decoder
Bitstream
Bitstream Demux
Basis Decoder
Bitsream Decoding
High Frequency
Reconstruction
Additional High
Frequency
Components
Envelope
Adjustment
Output Audio
Abbildung 5-4
5.3 Qualität und Kompatibilität
Das Verfahren der SBR-Technik, so wie sie bis jetzt realisiert ist (z.B. bei mp3PRO
und aacplus), ermöglicht eine vollständige Vorwärts- und Rückwärtskompatibilität zu
den herkömmlichen, nicht SBR-fähigen Codierverfahren. So kann ein SBR-codierter
Audiodatenstrom durchaus mit einem standardisierten, passenden Audiodecoder
wiedergegeben werden. Allerdings muss dabei auf den Gewinn des replizierten Höhenanteils verzichtet werden. Die SBR-Informationen sind so in den Datenstrom eingebunden, dass ein herkömmlicher Decoder diese ignoriert und nur das Basisaudiosignal bei halber Abtastrate, und damit begrenzter Bandbreite ausgibt. Diese Beschränkung gilt allerdings nur für die derzeitigen Implementierungen. Grundsätzlich
gibt es auch die Möglichkeit SBR auf einen Waveform-Codec aufzusetzen, der mit
voller Abtastrate arbeitet. Das würde bedeuten, dass die feste Bandbegrenzung aufgrund der halben Abtastrate für das kompatible Signal wegfällt. Stattdessen würde
die Audiobandbreite wiedergegeben, die der Basisencoder aufgrund der zugewiesenen Bitrate festlegt.
Ein SBR-fähiger Audiodecoder kann ebenso Signale decodieren, die keine
SBR-Informationen enthalten, also mit einem herkömmlichen Encoder generiert wurden.
37
Zur erreichbaren Audioqualität durch SBR kann gesagt werden, dass sich ein Gewinn durch die SBR-Technologie nur in dem Bitratenbereich zeigt, in dem der zugehörige „normale“ Basiscodec das Audiosignal deutlich verfälschen würde. Durch SBR
kann das Audiosignal, auch bei noch so hoher zugewiesener Bitrate, nie hundertprozentig wieder hergestellt werden, da das originale Hochfrequenzspektrum verloren
geht und nur durch Parameterübertragung wieder angenähert werden kann. Auch bei
sehr kleinen Bitraten scheint das System in die Knie zu gehen, wenn das Basisspektrum, aus dem das hochfrequente Spektralband abgeleitet wird, durch Codierartefakte
sehr starken Schaden genommen hat. Zusätzlich besteht die Vermutung, dass SBR
gegenüber einem konventionellen Audiocodec bei sehr niedrigen Bitraten sogar an
Qualität verliert, wenn die „Payload“, also die SBR Zusatzdaten im Audiobitstrom
nicht mehr zu vernachlässigen sind. Allerdings liegen darüber noch nicht ausreichend
Erfahrungen vor. Dies müsste erst getestet werden.
Bei kleinen und mittleren Bitraten steigt die Codiereffizienz enorm an.
Kein wahrnehmbarer Unterschied zum Original
Quality
waveform codec
+SBR
waveform codec
?
Bit-rate
Abbildung 5-5
Abbildung 5-5 soll verdeutlichen, dass durch SBR im Gegensatz zu konventionellen
Audiocodecs auch bei noch so hoher Bitrate, nie die Qualität des Originalsignals erreicht werden kann. Im Gegensatz dazu kann ein konventioneller Audiocodec, bei
genügend hoher Bitrate, das Originalsignal unverfälscht wiedergeben. Deshalb sinkt
die Effizienz durch SBR bei zu hohen Bitraten.
5.4 MPEG 2 Layer III (MP3) + SBR
Es gibt bereits Audiocodierungsverfahren, die auf dieser Technik beruhen. So
hat die Firma Coding Technologies das Verfahren der Spectral Band Replication auf
38
das legendäre, von der Frauenhofer Gesellschaft - Institut für Integrierte Schaltungen (FhG/ISS) entwickelte Audiocodierungsverfahren MPEG Layer III (mp3) aufgesetzt. Unter dem Namen mp3PRO stellt sich somit ein Audiocodierungsverfahren zur
Verfügung, das dieselbe Vorwärts- und Rückwärtskompatibilität aufweist, wie es bei
MPEG Layer IISBR der Fall sein soll. Nach eigenen Angaben kann mit mp3PRO eine
Reduzierung der Bitrate um 30% bei gleicher Audioqualität erreicht werden. Analog
zu MPEG Layer IISBR kann auch mit mp3PRO keine CD-Qualität erreicht werden,
aber ein mit 64 kbit/s codiertes Audiosignal klingt qualitativ vergleichbar mit herkömmlichen MPEG Layer III bei einer Bitrate von 100 kbit/s. Dabei wird das Audiosignal mit einer Bandbreite bis 8 kHz normal MPEG Layer III codiert und mit SBR
Steuerdaten ergänzt. Im mp3PRO fähigen Decoder wird das Audiospektrum durch
SBR bis 16 kHz ergänzt 5. Hörversuche im Rahmen von Tests diverser Audiocodierungsverfahren bei niedrigen Bitraten haben diesen Qualitätssprung bestätigen können [20].
Abbildung 5-6
Die oben dargestellte Abbildung 5-6 zeigt die Gesamtergebnisse aus den erwähnten
Hörversuchen, die nach der MUSHRA Testmethode6 bei 64 kbit/s Stereo durchgeführt wurden. Die „Reference“ ist das, bei Versuchsdurchführung versteckte Originalsignal. A3,5kHz stellt ein, auf 3,5 kHz bandbegrenztes Testsignal dar, das durch die
angewendete Versuchsmethode vorgeschrieben ist. Getestet wurden folgende kommerziellen Audiocodierungsverfahren: MPEG 2/4 Advanced Audio Coding (AAC),
mp3PRO, RealNetworks RealAudio 8 (REA), RealNetworks G2 (RL_), Microsoft
Windows Media 8 (WMA) und MPEG 1/2 Layer II (MP3). Eine 100 Punkte Qualitätsskala, auf die später im Zusammenhang mit eigenen Hörversuchen genauer eingegangen wird, stellt die Qualität der getesteten Audiosignale folgendermaßen dar. Das
5
http://www.mp3-tech.org/sbr.html
6
siehe Anhang 11.1
39
obere Ende mit 100 Punkten steht für exzellente Qualität, das untere Ende mit 0
Punkten für sehr schlechte Qualität. Dargestellt sind die Mittelwerte und die dazugehörigen 95%-Vertrauensintervalle 7 der Bewertungen, die aus verschiedenen Testsignalen ermittelt wurden. Wenn man nun das Ergebnis von normalen MP3 (ganz
rechts) mit mp3PRO vergleicht, dann erkennt man, welcher Qualitätssprung sich hier
einstellt. Während MP3 bei 64 kbit/s mit einer Bewertung von etwa 50 nur mittelmäßige Qualität erreichen konnte (der Bereich zwischen 40 und 60 Punkten wird bei
Versuchsdurchführung mit dem Attribut „Fair“ gekennzeichnet), wurde mp3PRO mit
etwa 85 Punkten als fast perfekt bewertet (der Bereich zwischen 80 und 100 umschreibt die Qualitätsklasse „Excellent“). Kein anderes im Test verwendetes Codierungsverfahren konnte dieses Testergebnis erreichen.
5.5 Advanced Audio Coding (AAC) + SBR
Mindestens ebenso erfolgreich stellt sich die SBR Technik in Symbiose mit einem noch leistungsfähigeren Audiocodierungsverfahren dar. MPEG 2/4 AAC8 stellt
die Nachfolgeentwicklung der legendären MPEG Layer III (MP3) Audiocodierung dar.
Dieses, speziell für sehr niedrige Bitraten optimierte Codierungsverfahren, das ebenfalls von der FhG-IISS entwickelt wurde, zeigt sich näherungsweise als doppelt so
leistungsfähig wie MPEG 1/2 Layer II. 9 Unter dem Namen aacPLUS wurde hier von
Coding Technologies ebenfalls die Technik der Spectral Band Replication hinzugefügt. Auch hier zeichnet sich ein deutlicher Qualitätsgewinn ab.
Abbildung 5-7
7
siehe Anhang 11.2
8
Advanced Audio Coding
9
http://www.iis.fraunhofer.de/amm/techinf/aac/
40
Die Abbildung zeigt Ergebnisse, aus denselben Hörversuchen, wie bei zuvor beschriebenen mp3pro. Getestet wurde hier bei 48 kbit/s Stereo. aacPLUS ist in der
Graphik unter dem alten Namen AAC+ zu finden, herkömmliches MPEG 2/4 AAC
unter der einfachen Abkürzung AAC. Auch hier ist der Qualitätsgewinn zwischen
AAC und aacPLUS deutlich zu erkennen. So steigt hier die Bewertung im Durchschnitt von etwa 65 auf 80 der MUSHRA Qualitätsskala. Dies bedeutet, dass die
Qualität um annähernd eine Qualitätsklasse von „Good“ nach „Excellent“ steigt. Unabhängig davon durchgeführte Tests, die normal MPEG 2/4 AAC (AAC Pure),
aacPLUS (AAC SBR) und AAC SBR Core (wie aacPLUS ohne SBR) vergleichen,
zeigen weitere Ergebnisse, die bei einer Datenrate von 24 kbit/s Mono ermittelt wurden. Nur AAC Wideband wurde als Vergleich dazu mit 32 kbit/s codiert. Diese bestätigen den Qualitätsgewinn durch SBR. Die Versuche wurden von Bosch, T-Nova und
der BBC durchgeführt [21].
Abbildung 5-8
Abbildung 5-9
Abbildung 5-10
5.6 Anwendungsbeispiel Digital Radio Mondiale (DRM)
DRM ist ein internationales Projekt, das 1998 gegründet wurde und ein digitales
Rundfunksystem aufbaut, das in den AM-Frequenzbändern unterhalb 30 MHz arbeiten soll. Ähnlich wie DAB das FM-Radio ersetzen wird, stellt DRM den digitalen Er41
satz für den technologisch völlig veralteten AM-Rundfunk dar. Ziel ist es, die Vorteile
der geographischen Reichweite dieser Sendefrequenzlagen mit den Vorteilen der
Übertragung von Rundfunkprogrammen in digitaler Form zu vereinen. Die Audioqualität soll dabei annähernd FM-Qualität erreichen. Auch hier wird, ähnlich wie bei DAB,
das Konzept angewendet, das Audioprogramm mittels wahrnehmungsangepasstem
Audiocodierungsverfahren zu übertragen, um damit die Datenübertragungsraten auf
das notwendige Maß zu verringern. Da man bei DRM das bisherige Kanalraster von
9/10 kHz beibehalten will, ergeben sich sehr niedrige Datenraten zur Übertragung
der Audioprogramme. Die Datenraten für Rundfunkübertragung in Mono liegen bei
20 kbit/s bis 24 kbit/s. Um die angestrebte Übertragungsqualität erreichen zu können,
wird hier auf das bereits erwähnte Audiocodierungsverfahren aacPLUS zurückgegriffen. Es ist geplant, dass im Jahre 2003 der Regelbetrieb aufgenommen wird.
6 Adaption von SBR auf MPEG Layer II
Bei der Ausstrahlung von Radioprogrammen geht DAB zwar wesentlich sparsamer mit der Sendebandbreite um als ein herkömmliches analoges FM-Radio, trotzdem ist die Übertragungskapazität auch hier begrenzt. Der Main Service Channel
(MSC), in dem die eigentliche Nutzdatenübertragung statt findet, verfügt über eine
Übertragungskapazität von 2,304 Mbit/s brutto. Abhängig vom Fehlerschutzverfahren
kann eine Nettobitrate zwischen ungefähr 0,6 Mbit/s bis 1,8 Mbit/s erreicht werden.
Die maximale Anzahl, der Radioprogramme, die ausgestrahlt werden können, hängt
dem zufolge von der Bitrate ab, die man einem Rundfunkdienstanbieter zur Verfügung stellen möchte. Daraus ergibt sich der Konflikt zwischen der Gewährleistung
einer möglichst hohen Audioqualität bei der Rundfunkübertragung und andererseits
dem Angebot eines möglichst reichhaltigen Radioprogramms. Dies ist sicherlich auch
eine wirtschaftliche Frage. Das Interesse seitens der DAB-Betreiber liegt wohl darin,
möglichst viele Programme auszustrahlen, um das Interesse der Hörer am digitalen
Rundfunk zu steigern und die Wirtschaftlichkeit durch die Vergabe vieler Rundfunkkanäle an verschiedene Sender zu erhöhen. Potentielle Programmanbieter sind interessiert daran, sich möglichst wirtschaftlich in den digitalen Rundfunk einzukaufen.
Daraus ergibt sich die Konsequenz, dass die zur Verfügung stehenden Bitraten für
die einzelnen Programmanbieter teilweise sehr knapp bemessen werden müssen,
was zu erheblichen Einbußen in der zu übertragenden Audioqualität führen kann. So
ist hier in Deutschland die Ausstrahlung eines Programms mit mehr als 192 kbit/s
(z.B. Bayer 4 Klassik) schon die Ausnahme geworden. Üblicherweise werden die
Rundfunkprogramme hier mit 160 kbit/s (z.B. Bayern Mobil) bis 128 kb/s Stereo gesendet, in England sogar ausschließlich. Spezielle Sprachdienste, wie Verkehrsmeldungen, werden teilweise sogar mit 48 kbit/s Mono im „half sampling rate“ Modus
42
ausgestrahlt. 128 kbit/s Stereo oder 48 kbit/s Mono hinterlässt mehr oder weniger
deutlich hörbare Artefakte im Audiosignal. (siehe Kapitel 4.2.1.3 Veränderungen im
Klangbild). SBR könnte diesen Konflikt zwischen kommerziellen Aspekten und Audioqualität entscheidend entschärfen.
6.1 Prinzipielle Funktionsweise
Wie bereits erläutert, ist die SBR-Technik ein Codierverfahren, das „huckepack“
auf ein beliebiges Audiocodierungsverfahren (typischerweise ein Waveform-Codec)
aufgesetzt werden kann. Nach den einer deutlichen Verbesserung der Qualität bei
mp3PRO und aacPLUS bietet es sich an, SBR auch auf MPEG Layer II, speziell für
die Anwendung im Bereich DAB, anzuwenden. Anfängliche Versuche von Coding
Technologies deuteten eine erfolgsversprechende Kombination beider Verfahren an.
Allein die Tatsache, dass das Konzept von DAB generell vorsieht, Zusatzinformationen zum laufenden Audioprogramm in den MPEG-Layer II Audiodatenstrom einzubinden, und zu übertragen führt zu Überlegungen, in diesen Datenstrom die SBRZusatzdaten hineinzupacken und dadurch, mit SBR-fähigen DAB-Empfängern, die
subjektive Audioqualität eventuell deutlich zu erhöhen.
Die Abbildung 6-1 zeigt den grundsätzlichen Aufbau eines solchen Systems.
Ancillary Data
Audio
Input
PCM 48 kHz
SBR
Encoder
MPEG
Layer II
DAB
Encoder
Ancillary Data
Bit
Mux
MPEG
Layer II
DAB Datenstrom
mit SBR-Daten
Bit
Demux
MPEG
Layer II
DAB
Decoder
SBR
Decoder Audio
Output
PCM 48 kHz
24 kHz
kompatibles
nicht-SBR
aufbereitetes
Audiosignal
24 kHz
Abbildung 6-1
Eingangsseitig wird der MPEG Layer II + SBR (MPEG Layer IISBR) Encoder mit einem in der Rundfunktechnik üblichen 48 kHz Einganssignal gespeist. Das SBREncodermodul analysiert das Signal und extrahiert daraus Steuerdaten, die zur Replizierung des hochfrequenten Audiospektralanteils notwendig sind. Das Audiosignal
wird dann auf der Basis eines DAB MPEG Layer II Standardencoders im „half
sampling rate“ Modus mit 24 kHz Abtastrate und der gewünschten Bitrate komprimiert. Danach bindet ein Multiplexer die SBR-Steuerdaten in den DAB MPEG Layer
II Audiodatenstrom ein.
43
Im DAB Audiodecoder werden zuerst die SBR-Steuerdaten aus dem MPEG
Layer II Datenstrom wieder ausgelesen. Ein Standard DAB Audiodecoder rekonstruiert nun das, mit 24 kHz Abtastrate codierte Audiosignal wieder. Die SBRSteuerdaten im MPEG Datenstrom werden dabei vom DAB Audiodecoder ignoriert
bzw. nicht erkannt.
Mit Hilfe der Encoder-seitig gewonnenen SBR-Steuerdaten ist das SBRDecodermodul nun in der Lage, das Audiosignal aufzubereiten. Mittels einer Abtastratenwandlung steht das Audiosignal am Ausgang mit voller Bandbreite und 48 kHz
Abtastrate zur Verfügung.
6.2 MPEG Layer II DAB Rahmenstruktur mit SBR
Wie bereits erklärt, müssen die SBR Steuerdaten in den MPEG Audiostrom als
Zusatzdaten eingebunden werden. Damit kann garantiert werden, dass die Information für die Decodierung von Layer II und die Zusatzinformation für SBR über die
komplette DAB Übertragungskette synchron bleiben. Dabei darf aber weder der ISOnoch der DAB Standard verletzt werden. Einerseits muss gewährleistet sein, dass
sich die Zusatzdaten im Bereich des ISO 11172-3 spezifizierten Bereich der „Ancillary Data“ befinden andererseits darf der, im DAB-Standard ETS 300 401 festgelegte
Aufbau des PAD Datenfeldes nicht verändert werden. Aus diesem Grund sitzt der
SBR Datenteil direkt hinter den Subbandsamples vor dem „Stuff“-Block, der das PAD
einleitet. Dadurch ergibt sich zwar der Nachteil, dass die SBR-Steuerdaten die Übertragungskapazität mindern, die sonst zur feineren Quantisierung der Subbandsamples genutzt werden könnte. Dies muss jedoch unabhängig vom Ort der Einfügung
der Zusatzinformation, generell in kauf genommen werden. Dieser Verlust fällt nur für
nicht SBR-kompatible DAB-Decoder ins Gewicht, da der Qualitätsgewinn durch SBR
überwiegt (siehe 6.11 Kompatibilität mit dem bestehenden DAB-Standard). Probleme
durch die SBR-Zusatzdaten entstehen ansonsten möglicherweise erst bei sehr niedrigen Bitraten, wenn das Basisaudiosignal nicht mehr mit ausreichender Qualität codiert werden kann, wobei diese sehr niedrigen Datenraten für den Einsatz im Rundfunkbereich im Prinzip nicht in Frage kommen.
44
MPEG DAB Audio Layer II + SBR Frame
HEADER
CRC
Bit Allocation
SCF
SI
Scalefactors
Subband Samples
S
B
R
S
T
U
F
F
X-PAD
SCF
CRC
FPAD
Abbildung 6-2
Abbildung 6-2 zeigt die Position des SBR-Datenpakets
Rahmen.
im DAB MPEG Layer II
Um die Kompatibilität zum ISO- als auch zum DAB-Standard zu verdeutlichen,
sind die unterschiedlichen Rahmenstrukturen der verschiedenen Standards zusätzlich noch detaillierter dargestellt. Der Aufbau des Rahmens bis zu dem Datenbereich
der Subbandsamples ist dabei identisch und ist hier somit nicht mehr weiter gekennzeichnet.
1) ISO 11172-3 Layer II codierter Audiodatenstrom
C
R
Sub-band Samples
Ancillary
Data
2) DAB codierter Audiodatenstrom
Sub-band Samples
X-PAD
Stuff
3) MPEG Layer II + SBR codierter Audiodatenstrom
C
R
Sub-band Samples
SBR-Info
DAB
Ancillary
ISO 11172-3
Ancillary Data
(5...6 kbit/s for Stereo Signal)
Abbildung 6-3
45
6.3 Komplexität und Aufwand
Die SBR-Technologie zeigt sich als ein sehr rechenintensives Verfahren. allerdings im Vergleich zu einer normalen MPEG Layer II Codierung bei voller Abtastrate
von 48 kHz würde die Erweiterung durch SBR den Rechenaufwand weniger stark
erhöhen, als man vielleicht durch die komplexen Vorgänge des SBR-Verfahrens erwarten könnte. Diese Annahme beruht auf der Tatsache, dass der Basis- MPEG
Layer II Encoder. bzw. Decoder, auf dem SBR aufgesetzt ist, im „half sampling rate“
Modus mit 24 kHz Abtastfrequenz arbeitet. Das sollte den Rechenaufwand des Basis
MPEG Layer II Codecs halbieren.
Erfahrungen anhand der mp3PRO Implementierung haben gezeigt, dass sich
Encoder-seitig der Rechenaufwand kaum steigert, da hier lediglich eine Analyse des
eingehenden Audiosignals vorgenommen wird. Sehr viel rechenintensiver zeigt sich
die Decoderseite, da hier zum einen die Replizierung des hohen Spektralanteils aus
dem vorhandenen Basisaudiospektrum vorgenommen werden muss und zum anderen künstliche Spektralanteile aufgrund der Steuerdaten synthetisiert werden müssen.10 Vereinfacht kann man das SBR-Modul als dem MPEG Layer II Decoder nachgeschaltetes weiterverarbeitendes Glied, in der Signalkette betrachten. Deshalb addieren sich die Systemanforderungen des SBR-Decoders zu denen eines Standard
MPEG-Layer II Decoders. Ähnlich wie bei dem aacPLUS oder mp3PRO.
6.3.1 Harwareresourcen
Die SBR-Codierungs-Algorithmen können auf Festkomma-DSP’s ausgeführt
werden. Die dafür vorgesehene Wortbreite sollte größer oder gleich 20 Bit sein. Die
typische Wortbreite solcher DSP's ist 24 Bit. Eine Implementierung auf einem 16 Bit
Prozessor wird dann möglich, wenn auf die notwendige Präzision bei der internen
Verarbeitung geachtet wird. Es wird die Möglichkeit angedeutet, dass im Decoder auf
einen separaten Dateneingangspuffer für den SBR-Decoder verzichtet werden kann,
da der Datenausgabepuffer des MPEG Layer II Decoders dafür wiederverwendet
werden kann [14].
Interessant ist ebenfalls, dass Coding Technologies selbst einen ebenfalls mit SBRTechnik ausgestatten DRM-Receiver vorgestellt hat, der ausschließlich mit Standardbaukomponenten ausgestattet ist.
6.3.2 Laufzeitmessung auf dem PC
SBR
II
10
Aufgrund der Erfahrungen mit mp3PRO und aacPLUS ist bei MPEG Layer
ein dreifacher Rechenaufwand zu erwarten. Um diese Abschätzung praktisch zu
http://www.intel.com/deutsch/home/howto/music/mp3/interview/kunz.htm
46
bestätigen, wurde eine Laufzeitmessung auf einem PC durchgeführt, in dem ein und
dasselbe Audiotestsignal, mit und ohne SBR-Erweiterung, zu codieren und zu decodieren war. Gemessen wurde die dafür benötigte Zeit.
Verwendet wurde dazu ein Win32-PC Pentium III mit 500 MHz. Das Testsignal bestand aus 15 Minuten rosa Rauschen, das als PCM-codiertes WAV-File vorlag. Als
Encodersoftware diente die von Coding Technologies entwickelte und noch nicht voll
optimierte Software „Layer 2 + SBR Demo Encoder V 0.7.0 (build Jul 25 2002)“ und
„MPEG-1/2 Layer 2 Demo Encoder V 1.5.0 (build Feb 26 2002)“, die unter anderem
auch für die Audioqualitätstest verwendet wurde. Decodiert wurden die entsprechenden Layer II-Dateien mit der Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build
Jul 15 2002)“ und dem Winamp der Version 2.80.
Folgende Werte wurden ermittelt:
Codierung
64 kbit/s Jointstereo
128 kbit/s
Jointstereo
128 kbit/s
Stereo
Decodierung
128 kbit/s
Jointstereo
128 kbit/s
normal stereo
Layer IISBR
Layer II
Faktor
03:16 min
01:25 min
2,31
03:14 min
01:39 min
1.96
03:12 min
01:35 min
2,02
Layer IISBR
Layer II
02:31 min
00:55 min
2,74
02:31 min
00:55 min
2,74
02:34 min
00:55 min
2,80
Tabelle 6-1
Eine Abschätzung des Rechenaufwands lässt sich so über die festgestellten Laufzeitunterschiede ermitteln. Für die Codierung ergibt sich grob ein Verhältnis um den
Faktor 2, für die Decodierung um den Faktor 3. Dies spiegelt ebenfalls wieder, dass
der Rechenaufwand im Decoder durch SBR deutlich mehr ansteigt, als im Encoder.
6.4 Hörversuch zur Auswahl des Basisencoders
Wie bereits beschrieben, muss SBR auf einen normalen Standardcodec aufgesetzt werden. Um dies für Layer II zu realisieren, musste entschieden werden, auf
47
welche MPEG Layer II Encoderimplementierung SBR angewendet werden soll. Zur
Auswahl standen zwei MPEG Layer II Softwareencoder. Zum einen die IRT eigene
Software „MPEG-1 and MPEG-2 LSF Audio Layer II Reference Encoder by Soeren
H. Nielsen, IRT, Munich, Version : 1995-04-26“ , die auf einem Silicon Graphics
Rechner zu betreiben ist, und von Soeren H. Nielsen für den „half sampling rate“ Betrieb bei niedrigen Bitraten optimiert worden ist, und zum anderen eine, von Coding
Technologies vorgeschlagene Software „MPEG-1/2 Layer 2 Demo Encoder V 1.5.0
(build Feb 26 2002)“, die als Windowsanwendung zur Verfügung stand. Um herauszufinden, welche Implementierung die qualitativ hochwertigeren Ergebnisse liefert,
wurde ein Hörversuch durchgeführt. Ziel war es, mit möglichst wenig Testsequenzen
den Charakter der beiden Implementierungen zu erfassen, und ihre Stärken bzw.
Schwächen aufzuzeigen. Dazu wurden alle festzulegenden Parameter auf beide Encoder angewendet und dann verglichen.
6.5 Verwendete Testaudiosequenzen (Items)
Für die Hörversuche wurden 6 verschiedene Audiotestsignale ausgewählt. Dabei wurde versucht ein breites Spektrum an unterschiedlichen Ausgangsquellen zu
berücksichtigen, die inhaltlich dem gängigen Rundfunkprogramm entsprechen. So
wurde darauf verzichtet, besonders kritisches Audiomaterial zu wählen, bei denen
das Audiocodierungsverfahren MPEG Layer II auch bei höheren Bitraten bekanntermaßen Schwierigkeiten aufweisen. Angestrebtes Ziel für DAB sollte in erster Linie
sein, den analogen UKW Rundfunk zu ersetzen, und dieser erhebt keinesfalls den
Anspruch, immer perfekte Qualität zu vermitteln. Wie bereits erwähnt, kann sich SBR
schon aus konzeptioneller Sicht das Originalsignal spektral nie perfekt wiedergeben,
so dass mit diesen Versuchen nicht ermittelt werden sollte, welche Fehlcodierung der
verwendeten Implementierungen schadhafter ausfällt. Lediglich eine Cembaloaufnahme als kritischstes Beispiel ist in die Versuchsreihe aufgenommen worden. Zusätzlich kamen Beispiele aus verschiedenen Sparten des Rundfunkprogramms hinzu: Ein Auszug aus einem klassischen Konzert mit Orchester, ein Ausschnitt rhythmischer Popmusik, eine solo gesungene Gesangsphrase, eine Sprachaufnahme,
und eine Sportreportage mit Stadionatmosphäre. Es handelte sich dabei immer nur
um kurze Auszüge von 10 bis 20 Sekunden Länge.
Testsequenzen im Überblick
1. Cembalo (9 sec.)
(Sequenz von Einzeltönen über 3 Oktaven)
2. klassischer Konzertausschnitt (14 sec.)
(Brahms Symphonie Nr.1 C-Moll Opus)
48
3. Popmusik (15 sec.)
(rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop)
4. Sprachsignal (19 sec.)
(männlicher Sprecher, trocken)
5. Sologesang (10 sec.)
(Gesang weiblich mit leichtem synthetischen Effektanteil)
6. Sportstadion (12 sec.)
(Kommentiertes Eishockeyspiel)
Quellenangaben zu den Testsequenzen sind im Anhang unter 11.3 zu finden.
6.6 Verwendete Bitraten und Audiomodi
Da es sich bei diesem Hörtest um einen vorbereitenden Versuch handelt, wurde entschieden, die möglichen Bitraten und Audiomodi nur grob abzustecken. Für die
Monoanwendung wurden 64 kbit/s LSF und 80 kbit/s gewählt. Für die Stereoanwendung wurden 96 kbit/s LSF, 128 kbit/s, sowohl LSF, als auch „full sampling rate“ gewählt.
Im Überblick:
64 kbit/s Mono (LSF)
80 kbit/s Mono
96 kbit/s Jointstereo (LSF)
128 kbit/s Jointstereo (LSF)
6.7 Testmethode
Die Testbedingungen entsprechen den Forderungen aus dem Dokument
„DRAFT NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ von 29. März 2001 zur
subjektiven Abschätzung von Audioqualitäten mittlerer Güte in abgewandelter Form.
Die mit MUSHRA abgekürzte Bezeichnung für die Versuchsmethode steht für „MUlti
Stimulus test with Hidden Reference and Anchor“, allerdings wurde hier auf die „Anchors“ (Ankersignale) und die „hidden reference“ verzichtet. Eine genaue Beschreibung der MUSHRA Testmethode ist im Anhang unter 11.1 zu finden. Die Versuchsdurchführung wurde vereinfacht, da es sich hier nur um einen vorbereitenden Hörversuch gehandelt hat, der lediglich die Qualitäten der beiden getesteten MPEG
Layer II Encoder vergleichen sollte. Die Ergebnisse stellen eine interne Information
49
dar, die keinem Vergleich mit extern durchgeführten Hörtests standhalten muss. Bei
dem hier durchgeführten Hörversuch bekamen die Versuchsteilnehmer das Originalsignal als bekannte Referenz. Parallel dazu lag die codierte Testsequenz in allen
Kombinationen von beiden MPEG Layer II Softwareencodern gleichzeitig vor. Unterschieden wurde lediglich zwischen Mono und Stereo Beispielen. Dieser Vergleich
wurde jeweils separat durchgeführt. Während das Signal spielt, konnten die Versuchsteilnehmer zwischen den Sequenzen hin und her schalten, und die Qualität
mittels einer Skala zwischen 0 und 100 im Vergleich zur bekannten Referenz bewerten. Auf die Skala verteilen sich gleichmäßig die Qualitätsklassen „Bad“, „Poor“,
„Fair“, „Good“ und „Excellent“. Bewertet wird jede Testsequenz mittels eines Schiebereglers entlang der 5-teiligen Skala mit etwa 10 cm Länge.
Bewertungsskala:
100
Excellent
Good
Fair
Poor
0
Bad
Abbildung 6-4
Durchgeführt wurde der Hörversuch mittels der Software CRC-SEAQ Subjective Test
Module, Version 1.18
6.8 Vorbereitung der Versuche
Um geeignete Referenzsequenzen für die Hörversuche anbieten zu können,
und geeignete Audioeingangsformate für die Codierung zu erzeugen, mussten alle
Audiobeispiele in Stereo bzw. in Mono mit Abtastraten von 48 kHz vorliegen. Außerdem war es nötig, ebenfalls 24 kHz Versionen zu erzeugen, da diese bei einigen Encodern für die „half sampling rate“ Codierung notwendig waren. Dazu wurde die
Software Samplitude Vers. 6.0 verwendet, da diese qualitativ hochwertige Samplekonvertierungsalgorithmen implementiert zu haben scheint. Um aus den vorhandenen Stereomaterialien entsprechende Monoversionen zu erzeugen, wurde je nach
Aufnahmetechnik unterschiedlich verfahren. Bei Sprache und bei Cembalo war es
sinnvoll nur den linken Stereokanal als Monosignal zu nützen, da diese Stereoaufnahmen mit einer bestimmten Aufnahmetechnik produziert worden sind, die zwei
Mikrofone mit Kugelrichtcharakteristik verwendet. Bei den restlichen komplexen Stereoproduktionen wurden beide Kanäle addiert und um 3dB gesenkt. Bei vorbereitenden Versuchen mit verschieden MPEG Layer II Software Encoder bzw. Decoder hat
50
sich gezeigt, dass die Audiobeispiele nach der Decodierung nicht mehr die Originallänge besitzen. Dass sich die Längen der Testsequenzen nach der Decodierung am
Ende verändern, war zu erwarten, da die MPEG-Codierung bekanntermaßen mit 24
ms (bei 48 kHz) bzw. 48 ms (bei 24 kHz) Rahmen arbeitet, und das letzte MPEG
Layer II Frame zur Not mit Nullen aufgefüllt werden muss. Es hat sich aber herausgestellt, dass die verwendete Software (Encoder oder Decoder) teilweise auch den
Beginn der Audiobeispiele digital durch Stille ergänzt. Da bei der Durchführung des
Hörversuchs, während der Wiedergabe zwischen verschiedenen Testsignalen hin
und hergeschaltet wurde, um vergleichend die Klangqualität beurteilen zu können,
mussten beide Testsequenzen absolut synchron zueinander abgespielt werden. Um
die Testsignale annähernd samplegenau schneiden zu können, wurde entschieden,
vor jedes Tonbeispiel einen kleinen Referenzimpuls zu setzen, der nach der Decodierung als gleich bleibender Fixpunkt zum Schneiden dient. Danach wurden alle
Testsequenzen, gemäß der gewählten Bitraten und Einstellungen mit der entsprechenden Software codiert. Um die MPEG Layer II Beispiele wieder als PCM codiertes WAV-File vorliegen zu haben, wurden alle Layer II-Dateien mit der Software
Soundapp v2.7.3 auf einem Apple Macintosh G4 decodiert. Diese Software war als
einzige in der Lage, auch die nach dem MPEG 2-Standard codierten Dateien korrekt
zu decodieren und wiederzugeben. Der MPEG-2 Standard scheint vielen Softwaredecodern noch Probleme zu bereiten. So trat vermehrt das Problem auf, dass Audiodateien mit 24kHz Abtastrate nach der Decodierung in der falschen Frequenzlage
abgespielt wurden (Mayah Communication Recorder Software 3.0.3.2, Terran Interactive Inc. Media Cleaner 5.1.2). Anhand des hinzugefügten Referenzimpulses wurden die Dateien so geschnitten, dass sie bei gleichzeitigen Abspielen absolut synchron zueinander liegen.
6.9 Durchführung
Die Hörversuche wurden mit 10 Probanden in einer ruhigen Umgebung (Studio
im IRT) durchgeführt. Dazu stellten sich Mitarbeiter des IRT zur Verfügung, die
Sachgebiets-bedingt, ein geschultes Gehör besitzen. Vor dem eigentlichen Hörversuch wurde jede Person anhand einer kurzen Einführung und einer Demonstration
mit den Testbedingungen vertraut gemacht. Aufgrund der 6 verschiedenen Kombinationen von Bitrate, Samplerate und Audiomodi mussten 6 Durchgänge mit je 12 Testsequenzen bewertet werden. Als Referenz wurde bei den Monosequenzen ebenfalls
ein Monosignal angeboten, um zu verhindern, dass das fehlende Stereobild ebenfalls
in die Bewertung eingeht (das würde nichts über die Qualität des Encoders aussagen). Bei Stereobeispielen diente natürlich das originale Stereosignal als Referenz.
Der Versuch wurde auf einem PC (Windows 2000) mit der Software CRCSEAQ Subjective Test Module, Version 1.18 durchgeführt. Abgehört wurde über
51
Stax-Kopfhörer. Die Lautstärke konnte in einer Testphase von den Teilnehmern
selbst gewählt werden, sollte dann aber während des ganzen Versuchablaufs beibehalten werden.
6.10 Ergebnisse aus dem Hörversuch zum Encodervergleich
Ausgewertet wurden die Ergebnisse anhand der Mittelwerte der Beurteilungen der
Teilnehmern zu den einzelnen Sequenzen und anhand der dazugehörigen Vertrauensbereiche 11. Abbildung 6-5 zeigt die Bewertungsergebnisse über alle getesteten
Sequenzen.
± 95% Vertrauensbereich
Mittelwerte über alle Test-Items
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
CT
64
kb
ps
Mo
no
IRT
LS
F
64
kb
ps
Mo
no
LS
F
CT
80
kb
ps
Mo
no
IRT
80
CT
kb
96
ps
kb
Mo
ps
no
Jo
ints
tere
IR
T9
oL
SF
6k
bp
sJ
oin
tste
CT
reo
12
8k
LS
bp
F
sJ
oin
IRT
tste
reo
12
8k
LS
bp
F
sJ
oin
tste
reo
LS
CT
F
12
8k
bp
sJ
oin
IR
tste
T1
reo
28
kb
ps
Jo
ints
CT
ter
eo
19
2k
bp
sJ
oin
IR
tste
T1
reo
92
kb
ps
Jo
ints
ter
eo
0,00
Abbildung 6-5
Legende:
CT Encoder Coding Technologies
IRT Encoder Institut für Rundfunktechnik
Bei Betrachtung der Mittelwerte über alle Testsequenzen erkennt man, dass sich
beide Encoder kaum voneinander unterscheiden. Alle Mittelwerte liegen ganz dicht
beieinander und die Vertrauensbereiche überlappen sich stark. Es ist eine ganz
leichte Tendenz zu erkennen, dass der von Coding Technologies bereitgestellte
MPEG Layer II Encoder leicht besser bewertet wurde. Durch eine genauere akusti11
siehe Anhang 11.2
52
sche Analyse der unterschiedlichen Testsignale konnte festgestellt werden, dass der
Encoder von Coding Technologies, zwar leicht stärkere Codierartefakte erzeugt, aber
ein breiteres Obertonspektrum besitzt. Dies schien von den Versuchsteilnehmern
bevorzugt zu werden. Aus diesem Grund wurde entschieden, den von Coding Technologies vorgeschlagenen Encoder als Basisencoder für das zukünftige Layer IISBR
zu verwenden. Das hatte den weiteren Vorteil, dass Coding Technologies mit einer
ihnen vertrauten Implementierung arbeiten konnte, was wahrscheinlich auch eine
Arbeits- und Zeitersparnis mit sich bringt. Leider war zu Beginn dieser Untersuchungen noch nicht ganz klar, auf welche Merkmale bei der Auswertung besonders zu
achten wäre, sonst hätte man gezielter die Ergebnisse der Encoder bei der „half
sampling rate“ Codierung bewertet, da der Basisencoder für SBR in dieser Betriebsart arbeitet. Bei genauer Betrachtung der einzelnen Testsequenzen, speziell bei dieser Betriebsart, kann man auch Bewertungstendenzen feststellen, die für die Verwendung des IRT-eigenen Encoders gesprochen hätten. Allerdings sind auch hier
die Unterschiede minimal. Die Bewertungsergebnisse zu den einzelnen Testsequenzen sind im Anhang zu finden.
6.11 Kompatibilität mit dem bestehenden DAB-Standard
Eine große Stärke zeigt sich in der kompatiblen Art und Weise, wie die SBRErweiterung für MPEG Layer II implementiert ist. MPEG Layer IISBR gewährleistet
volle Rückwärtskompatibilität zu bisherigen MPEG Layer II Decodern mit der Einschränkung, dass auf die SBR-Audioaufbereitung verzichtet werden muss, d.h. das
gewonnene Signal klingt dumpfer. Dadurch, dass MPEG Layer IISBR zum jetzigen
Entwicklungsstand auf ein im „half sampling rate“ Modus (24 kHz) codiertes DAB
Standard MPEG Layer II Codec aufsetzt, ist es möglich mit jedem Decoder, der den
MPEG 2 Standard unterstützt, das Basisaudiosignal zu decodieren. Dabei wird das
Basissignal mit einer Audiobandbreite von 11.5 kHz übertragen12. Das Konzept von
Layer IISBR sieht auch die Vorwärtskompatibilität vor. Ähnlich wie bei mp3PRO ist es
so möglich, einen codierten Standard MPEG Layer II Datenstrom ohne Klangeinbußen mit einem MPEG Layer IISBR -Decoder zu decodieren. (Ein vorläufiger Test zur
Vorwärtskompatibilität, bei dem ein Standard MPEG Layer II Datenstrom (128 kbit/s
48 kHz) mit der SBR-fähigen Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build
Jul 15 2002)“ decodiert wurde, hat gezeigt, dass hier in der aktuellen Version noch
Probleme auftauchen. Das Testsignal wurde mit nur 11 kHz Bandbreite wiedergegeben.) Für DAB heißt das, dass Hörer, die sich bereits zur Anschaffung eines DABEmpfängers entschlossen, auf keines der mit Layer IISBR ausgestrahlten Sendungen
12
siehe 4.6
Half-sampling-rate (LSF) Audiocodierung
53
verzichten müssten, soweit das Gerät den MPEG 2 Standard unterstützt. Die SBRZusatzdaten im DAB Audiodatenstrom werden bei diesen DAB-Empfängern nicht
erkannt, da diese nach DAB-Standard nicht zum PAD gehören, bzw. nach ISOStandard schon zum frei zur Verfügung stehenden „Ancillary Data“ Paket gehören.
Alle DAB-Empfänger ab der 5.Generation unterstützen diesen Standard.
Die Vorwärtskompatibilität ermöglicht es dem DAB-Hörer mit einem SBR-fähigen Gerät auch normal DAB MPEG Layer II codiert ausgestrahlte Sendungen zu verfolgen.
Getestet wurde die Rückwärtskompatibilität mit folgenden Geräten: IRT-DAB Scout,
Terratec DR-Box, Technics Receiver ST-GT1000.
Weiterhin bemerkenswert ist die Tatsache, dass sich eine völlige Transparenz in
der Gestaltung des DAB-Ensembles ergibt. Das DAB-Ensemble ist ein Multiplex aller, über einem Sendekanal ausgestrahlten Sendungen und Dienstleistungen. Innerhalb dieses Datencontainers ist es im Rahmen, der zur Verfügung stehenden Gesamtdatenrate möglich, normal DAB Layer II und DAB Layer IISBR codierte Sendungen zu kombinieren, sowohl gleichzeitig zwischen den ausgestrahlten Radiodiensten,
als auch zeitlich innerhalb eines Dienstes.
7 Hörversuche Codiergewinn
Um den Codiergewinn von MPEG Layer IISBR zu dem bislang existierenden
MPEG Layer II zu ermitteln, wurden verschiedene Audiotestsequenzen mit unterschiedlichen Bitraten in Stereo, Jointstereo und Mono mit entsprechender Software
codiert und wieder decodiert. Danach wurden Hörversuche mit erfahrenen Testpersonen aus der Abteilung Audiosystemtechnik (AS) am Institut für Rundfunktechnik
(IRT) durchgeführt, bei denen es die angebotenen Audiobeispiele zu vergleichen und
zu bewerten galt. Der Gewinn soll anhand folgender Fragenstellungen ermittelt werden:
Wie viel Bitrate lässt sich bei gleichbleibender Audioqualität einsparen (Codiergewinn) bzw. welcher Audioqualitätsgewinn lässt sich anhand einer vorgegebenen
Qualitätsskala subjektiv bei fester Bitrate feststellen (Qualitätsgewinn).
7.1 Verwendete Testaudiosequenzen (Items)
Für die Hörversuche wurden die selben Testsignale verwendet, wie für den
Hörversuch zur Vorauswahl des Basis MPEG Layer II Encoders. Es gab keine
Veranlassung diesen Versuch andere Sequenzen zu wählen, um den Versuch
kritischer oder weniger kritisch zu gestalten. Auch die Auswahl der Testsequenzen
hat sich auf ihre Eignung hin bestätigt. Die Länge von 10 bis 20 Sekunden wurde
ebenfalls beibehalten.
54
Verwendet wurde wieder:
1. Cembalo
(Sequenz von Einzeltönen über 3 Oktaven)
2. klassischer Konzertausschnitt
(Brahms Symphonie Nr.1 C-Moll Opus)
3. Popmusik
(rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop)
4. Sprachsignal
(männlicher Sprecher)
5. Sologesang
(Gesang weiblich mit leichtem Effektanteil)
6. Sportstadion
(Dokumentiertes Eishockeyspiel)
Quellenangaben zu den Testsequenzen sind im Anhang unter 11.3 zu finden.
7.2 Verwendete Bitraten und Audiomodi
Um die Hörversuche in einem vernünftigen, und für eine Diplomarbeit angebrachten Zeitrahmen durchführen zu können, wurde ein Grundset von Bitraten und
Kanalmodi von MPEG Layer II und MPEG Layer II + SBR zum Vergleich und zur
Bewertung angeboten. Es wurde eine Vorauswahl auf der Basis von der Erfahrung
erfahrener IRT-Mitarbeiter, vorrangig Hr. Stoll (Fachreferent der Abteilung Audiosystemtechnik) und der im praktischen Sendebetrieb real verwendeten Bitraten/Audiomodi getroffen. Ziel dieser Vorauswahl ist gewesen, ein möglichst breites
Spektrum an Bitraten abzudecken. Dabei wurde bei Layer IISBR darauf geachtet, Bitraten festzulegen, bei denen zu erwarten war, dass die codierten Ergebnisse rundfunktaugliche Klangqualität bieten. Bei den Standard MPEG Layer II Sequenzen
richtete sich die Auswahl der Bitraten danach, qualitativ ähnliche Audioqualitäten wie
bei Layer IISBR zu erhalten, damit bei der Auswertung die Bitraten anhand der Audioqualität verglichen werden kann. Bei den Experimenten im Vorfeld hat sich, wie theoretisch erwartet gezeigt, dass der Gewinn durch die Verwendung der SBRErweiterung zwei deutliche Grenzen in Abhängigkeit der Bitrate aufzeigt. So wurde
schnell klar, dass bei hohen Bitraten kein Gewinn mehr zu erwirken ist, da hier schon
MPEG Layer II in der Lage ist, das Audiosignal in hoher Qualität zu codieren. Deshalb wurde beschlossen, für SBR bei Stereobeispiele nur bis zu einer Bitrate von 128
kbit/s und bei Monobeispiele nicht über 64 kbit/s zu gehen. Eine sinnvolle untere
Grenze für die SBR erweiterte Codierung wurde bei 64 kbit/s Stereo und 48 kbit/s
Mono festgelegt. Kleinere Bitraten führen, bedingt durch das Prinzip der SBR Tech55
nologie zu Qualitäten, die für den Rundfunkbetrieb, auch aus Kompatibilitätsgründen
zu herkömmlichen DAB-Empfängern nicht mehr zumutbar wären.
Bei den MPEG Layer II codierten Audiobeispielen wurde versucht in einem äquivalenten Qualitätsbereich wie mit SBR zu arbeiten, um vergleichen zu können, bei welchen Bitraten Layer IISBR und MPEG Layer II eine ähnliche Qualitätsstufe aufweisen.
Daraus könnte man festzustellen, in weit sich bei gleich bleibender Qualität die Bitrate reduzieren lässt, woraus sich später der Codiergewinn ermitteln lässt. Für einen
direkten vergleich ist es sinnvoll, möglichst viele Testbeispiele mit und ohne SBR bei
gleicher Bitrate zu vergleichen, um Aussagen darüber treffen zu können, welcher
Qualitätsgewinn bei gleich bleibender Bitrate erwartet werden könnte.
Alle normal MPEG Layer II codierten Stereobeispiele wurden im Jointstereoverfahren
codiert, um Codierartefakte zu reduzieren und dadurch eine bestmögliche spektrale
Klangqualität zu erzielen. Änderungen im stereophonen Abbild, falls hörbar, werden
dabei in kauf genommen. Bei niedrigeren Bitraten unter einschließlich 128 kbit/s stereo und 64 kbit/s mono wurden die Audiobeispiele im „half sampling rate“ Modus,
also mit 24 kHz Abtastrate codiert. Trotz der dadurch eingeschränkten Audiobandbreite (11,5 kHz) wird bei sehr niedrigen Bitraten die Klangqualität subjektiv oft als
angenehmer empfunden [15], da so alle verfügbaren Bits zur Codierung des halben
Audiospektrums genutzt werden können. Zusätzlich ergibt sich durch die schmaleren
Teilbänder ein höherer Codiergewinn. Dies reduziert ebenfalls die hörbaren Codierartefakte. Zusammengefasst kann man sagen, das für die MPEG Layer II Audiocodierung immer versucht wurde, möglichst optimale Parametereinstellung zu gewährleisten um hörbare Codierartefakte zu minimieren.
Verwendete Bitraten zur Ermittlung des Codiergewinns
Bitrate
48
kbit/s
64
kbit/s
80
kbit/s
96
kbit/s
112
kb/s
128
kbit/s
160
kbit/s
192
kbit/s
X
X
MPEG Layer II
X
X
X
Jointstereo
(LSF)
(LSF)
(LSF)
X
X
X
X
X
X
X
X
X
X
X
X
Layer IISBR
Stereo
Layer IISBR Jointstereo
MPEG Layer II
X
X
Mono
(LSF)
(LSF)
X
X
Layer IISBR
Mono
X
Tabelle 7-1Übersicht über die verwendeten Bitraten
56
7.3 Testmethode
Die Testbedingungen entsprachen den Forderungen aus dem Dokument „DRAFT
NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ zur subjektiven Abschätzung von
Audioqualitäten mittlerer Güte und wird verkürzt MUSHRA genannt, was für „MUlti
Stimulus test with Hidden Reference and Anchor“ steht. Die exakte Beschreibung der
Methode ist im Anhang unter 11.1 zu finden. Bei der Versuchsdurchführung bekam
jeder Teilnehmer gleichzeitig mehrere unterschiedlich codierte Audiobeispiele (max.
12) gleichen Inhalts angeboten und hatte die Aufgabe, diese im Vergleich zu dem
ihm bekannten und unverfälschten Originalsignal, der Referenz, zu bewerten. Dazu
hatte er die Möglichkeit in Echtzeit zwischen den angebotenen Signalen, einschließlich der Referenz, hin und her zu schalten. Um einen absoluten Bezug der Auswertung zu gewährleisten, und um die Eignung der Testpersonen hinsichtlich der gegebenen Aufgabenstellung bei der Auswertung überprüfen zu können, war in jeder der
gebotenen Vergleichsserie (Trial) noch einmal die sogenannte „hidden reference“,
ein auf 7 kHz und ein auf 3 kHz Tiefpass begrenztes Signal versteckt. Letztere dienen als Ankerpunkte im Vergleich zu unabhängigen Hörversuchen, die nach der gleichen Methode durchgeführt werden.
Bewertet wurde jede Testsequenz mittels eines Schiebereglers entlang einer 5teiligen Skala. Die Abschnitte der Skala bezeichnen die Qualitätsklassen: „Excellent“,
„Good“, „Fair“, „Poor“ und „Bad“. Zusätzlich umfasst die Skala den Wertebereich von
0 bis 100, wobei 0 für „Bad und 100 für „Excellent“ steht.
7.4 Vorbereitung des Versuchs
Die uncodierten Originalsignale lagen bereits in allen notwendigen Formaten
aus dem Vorversuch zur Basisencoder-Wahl vor. Codiert wurden alle MPEG Layer
IISBR-Audiosignale mit einem, von Coding Technologies für diesen Audioqualitätstest
optimierte Software „Layer 2 + SBR Demo Encoder V 0.7.0 (build Jul 25 2002)“. Decodiert wurden sie mit einer Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build
Jul 15 2002)“. Die Vergleichsbeispiele auf der Basis herkömmlichen MPEG Layer II’s
wurden mit einer Software „MPEG-1/2 Layer 2 Demo Encoder V 1.5.0 (build Feb 26
2002)“ codiert. Dieser Encoder, ebenfalls von Coding Technologies zur Verfügung
gestellt, wurde deshalb als Referenz Encoder gewählt, da dieser bei dem vorbereitenden Hörversuch dem MPEG Layer II Encoder vom IRT qualitativ nicht nachstand
(siehe Kapitel 6.10).
Eine Ausnahme war notwendig. Die 48 kbit/s LSF („half sampling rate“) Monobeispiele konnten nicht mit der Software von Coding Technologies erzeugt werden,
da diese Bitrate nicht unterstützt wurde. Diese wurden mit einem Silicon Graphics
57
Rechner mit der IRT eigenen Software „MPEG-1 and MPEG-2 LSF Audio Layer II
Reference Encoder by Soeren H. Nielsen, IRT, Munich, Version : 1995-04-26“ codiert
und decodiert. Um die MPEG Layer II Beispiele wieder als PCM codierte WAV-Files
vorliegen zu haben, wurden alle nicht-SBR Layer II Files mit der Software Soundapp
v2.7.3 auf einem Apple Macintosh G4 decodiert. Die auf 7 kHz bzw. auf 3,5 kHz tiefpassbegrenzten Audiobeispiele, die als Anker dienten, wurden mit der Software Cool
Edit 2000 generiert. Die geforderte Filtercharakteristik wurde mit Rauschsignalen
kontrolliert. Nachdem alle Audiobeispiele passend geschnitten waren, wurden diese
in die Hörversuchssoftware eingebunden. Die zu bewertenden Audiobeispiele wurden dabei so verwürfelt, dass der Versuchsteilnehmer keine Systematik in der qualitativen Anordnung der Hörbeispiele erkennen konnte.
7.5 Durchführung
Der Hörversuch wurde mit 17 Probanden durchgeführt. Alle Teilnehmer entstammten dem Fachbereich Audiosystemtechnik, oder aus direkt DAB fachbezogenen Abteilungen des IRT. Die Gruppe bestand dabei etwa zu gleichen Teilen aus
Studenten und langjährig angestellten Mitarbeitern, die schon oft an solchen Versuchen teilgenommen haben und demnach ein geschultes Gehör besitzen sollten.
Durchgeführt wurde der Versuch in einer ruhigen Umgebung (Studio im IRT). Vor
dem eigentlichen Hörversuch wurde mit jeder Person eine Trainingssession durchgeführt, um sich mit den Testbedingungen vertraut zu machen. Insgesamt waren 18
Vergleichserien (Trials) zu bewerten. Diese wurden jeweils in zwei Sitzungen (Sessions) à etwa 30 min. aufgeteilt, um die Teilnehmer nicht unnötig zu ermüden. Wie bei
dem Vorversuch zur Basisencoder-Wahl wurde als Referenz bei den Monosequenzen ebenfalls ein Monosignal angeboten, um zu verhindern, dass das fehlende Stereobild in die Bewertung eingeht. Bei den Stereobeispielen diente natürlich das originale Stereosignal als Referenz.
Der Versuch wurde auf einem PC (Windows 2000) mit der Software CRCSEAQ Subjective Test Module, Version 1.18 durchgeführt. Abgehört wurde über elektrostatische Studiokopfhörer von Stax mit Diffusfeldentzerrung. Die Lautstärke
konnte von den Teilnehmern vor einer Testphase selbst gewählt werden, sollte dann
aber während des ganzen Versuchablaufs beibehalten werden. Um später auch
Aussagen über die Qualität der Stereocodierung machen zu können, wurde bei der
Einweisung der Teilnehmer verstärkt darauf hingewiesen, nicht nur spektrale Klangqualitätsunterschiede zu beurteilen, sondern auch das empfundene Stereobild in die
Bewertung mit einfließen zu lassen. Dadurch, dass die Testsequenzen qualitativ oft
sehr ähnlich erschienen, und teilweise nur sehr feine Unterschiede festzustellen waren, wurde bei Versuchsdurchführung darum gebeten, auch diese feinen Unterschiede genau abzustufen.
58
7.6 Auswertung und Ergebnisse
Die Auswertung erfolgte auf der Basis der Mittelwerte der 100 Punkte Qualitätsskala, unter Berücksichtigung des 95%-Vertrauensintervalls, der verwendeten
Bitraten und der verwendeten Codierungsverfahren. Zusätzlich diente die Testmethode nach Wilcoxon als Signifikanzanalyseverfahren, wenn Ergebnisse im Vergleich
sehr ähnlich zu sein schienen, und sich die Vertrauensintervalle überlappten13.
Ziel der Auswertung ist es, den Codiergewinn durch SBR zu berechnen. Hierbei ermittelt man bei einer gegebenen Bitrate von MPEG Layer II, die neue Bitrate von
Layer IISBR, bei gleicher Audioqualität. Der Codiergewinn kann dabei als Zahlenwert
in Abhängigkeit der Bitrate ermittelt werden. Zusätzlich wird der Qualitätsgewinn
durch SBR bei gegebener Bitrate betrachtet. Zur Auswertung wurde das Programm
EXCEL von Microsoft verwendet, unter anderem auch das Statistik Excel-Add-In
„Winstat“.
Nach Durchsicht der individuellen Ergebnisse wurde beschlossen, die Bewertungen
aller 17 Teilnehmer für die Auswertungen zu berücksichtigen. Obwohl es auch einzelne Bewertungen einiger Teilnehmer gab, die stark von der durchschnittlichen Beurteilung abweichten, wurden diese Testpersonen trotzdem berücksichtigt, da die
restlichen Bewertungen dieser Teilnehmer sehr plausibel erschienen, so dass die
Ergebnisse als sinnvolle Aussagen über die empfundene Audioqualität zu interpretieren sind. Dies trägt möglicherweise auch zu den auffallend großen Vertrauensbereichen bei, die Auskünfte über die Verteilung der Bewertungen geben. Die auffallend
großen Vertrauensbereiche hängen wahrscheinlich damit zusammen, dass die Teilnehmer angewiesen wurden die unterschiedlichen Charaktere der Codierfehler deutlich in der Qualitätsbeurteilung abzustufen, um die Unterschiede besser zum Ausdruck zu bringen. Wenn zwei Testsequenzen ungefähr gleiches Qualitätsniveau haben, aber deutlich unterschiedlichen Charakter in der Natur der Codierartefakte zeigen, sollte so ermittelt werden, wie die Teilnehmer die Natur der Artefakte einschätzen. Nicht unerwähnt soll bleiben, dass ein gewisser Unsicherheitsfaktor gegenüber
der CRC Testsoftware bei Vergabe der vollen Punktzahl festzustellen ist. Bei einigen
Testsequenzen wurde das versteckte Originalbeispiel („hidden reference“) mit „0“,
also sehr schlecht bewertet, obwohl die sonstigen Bewertungen dieser Personen in
absolut plausiblen Rahmen lagen und diese bekanntermaßen langjährige Erfahrung
im Umgang mit Hörversuchen haben. Es scheint als würde bei der Vergabe der vollen Punktzahl (100 für „Excellent“) manchmal eine „0“ als Ergebnis ausgegeben.
Dieser Fehler wurde aber toleriert, da andere Bewertungen immer korrekt ausgegeben wurden. Allerdings werden die Ergebnisse im Zusammenhang mit der Erkennung der „hidden reference“ dadurch negativ beeinflusst. D.h. die „hidden reference“
13
siehe Anhang unter 11.2
59
wurde wahrscheinlich öfters erkannt, als durch die Auswertung hervorgeht. Von einer
rückwirkenden Korrektur dieser Fehlbewertungen wurde aber dennoch abgesehen,
da bei den Bewertungen, individuell betrachtet nicht sicher nachvollzogen werden
kann, ob hier ein Softwarefehler vorgelegen hat, oder ob hier bewusst so bewertet
wurde. Vielleicht war es ja ein Versehen, des Versuchsteilnehmers, was aber nicht
zwangsläufig aussagen würde, dass er die „hidden reference“ wirklich erkannt hätte.
7.6.1 Qualitätsgewinn durch SBR
Der Qualitätsgewinn ist eine Größe, die sich nicht pauschal als Zahlenwert in
Abhängigkeit der Bitrate ausdrücken lässt. Das liegt daran, dass man nicht davon
ausgehen kann, dass die Beurteilungsskala 0 bis 100, die dem Versuch zu Grunde
liegt, ein lineares Verhalten aufweist. Das obere Ende der Skala (Wert 100) lässt sich
sehr einfach definieren. Er beschreibt den Zustand, wenn das codierte Signal nicht
vom Original zu unterscheiden ist. Das untere Ende der Skala (Wert 0) lässt sich dagegen nur sehr schwierig definieren. Er wirft die Frage auf, ab welcher Qualität ist ein
Testsignal so stark verändert, dass es nicht mehr zumutbar, also schlecht ist. Eine
andere mögliche Definition wäre, zu sagen, wenn das Signal nicht mehr zu erkennen
ist, dann vergibt man den Wert 0, aber das ist wohl eher unrealistisch, denn in einem
Qualitätsumfeld, von so stark veränderten Signalen macht es wohl wenig Sinn solche
Hörversuche durchzuführen, da sie der praktischen Anwendung nicht entsprechen.
Noch schwieriger ist die Abstufung innerhalb der Skala zu definieren. Als Orientierungshilfe ist die Skala in fünf Qualitätsklassen eingeteilt: „Excellent“, „Good“, „Fair“,
„Poor“ und „Bad“. Jeder Qualitätsklasse ist ein Wertebereich von 20 Punkten zugewiesen. Es kann aber nicht sichergestellt werden, dass sich die 20 Punkte der Qualitätsklasse „Excellent“ auf einen genau so großen Qualitätsbereich verteilen, wie z.B.
die 20 Punkte der Qualitätsklasse „Fair“. Es lässt sich leichter vorstellen, dass man
im Bereich „Excellent“ sehr viel kritischer mit der Punkteverteilung umgeht, als im
Bereich „Fair“. „Excellent“ heißt ja, dass das Testsignal schon sehr nahe an die Originalqualität heranreichen muss, aber unter „Fair“ lässt sich ein sehr breitgefächerter
Qualitätsbereich vorstellen. Dies zeigt, dass der Qualitätsgewinn nicht einfach durch
eine Zahl dargestellt werden kann. Dadurch, dass die Qualität der codierten Signale
sehr stark von deren Inhalt abhängig ist, wird auf die Sequenzen im Einzelnen eingegangen. Eine Rolle spielen physikalische Größen wie Frequenzspektrum, Verzerrungen, oder Stereophonie des Ausgangsignals. Aber auch subjektive Größen wie
die Erwartungshaltung der Versuchsteilnehmer können in die Auswertung eingehen.
Ein fehlerhaftes Stereobild bei einer Reportage wird wohl eher toleriert, als bei einem
klassischen Konzert.
60
7.6.1.1 Ergebnis der Beurteilung der Stereo Testsequenzen
7.6.1.1.a
Mittelwerte über alle Sequenzen (Stereo)
Mittelwerte über alle getesteten Stereo-Items
Jointstereo + SBR
Stereo + SBR
100,00
SBR
SBR
Excellent
SBR
SBR
Qualitätsgewinn
SBR
Good
SBR
60,00
JointSBR
Joint-
Fair
SBR
normal
Hidden
Reference !
SBR
80,00
Qualitätsgewinn
Stereo ?
stereo?
stereo
Joint-
40,00
stereo
SBR
Poor
Qualitätsgewinn
Qualitätsgewinn
20,00
Bad
64
64 kbp
kb s s
ps tere
80 joints o SB
kb
t
ps ereo R
LS
SB
F
R
80 joint
s
80 kbp tere
o
kb s s
ter
ps
eo
j
o
96
in
S
kb tster BR
ps
e
LS o SB
F
96 join R
t
96 kbps stere
o
kb
ps stere
11
o
2 k joints SB
R
te
bp
s jo reo
ints SB
R
11 tere
2
12 kbp o SB
8k
s
R
bp ster
eo
sL
SF
SB
R
12 joints
8 k tere
bp
o
s
12
8 k join
bp tste
s
re
16 stere o
0k
oS
b
16 ps jo BR
0k
bp intste
s
re
19 stere o
2k
o
bp SB
s jo R
i
hid ntste
re
de
nr o
hid ef st
ere
de
n
o
LP ref s
3.5 tere
o
k
LP Hz s
3.5 tere
kH o
z
LP ster
7k eo
H
LP zste
7 k reo
Hz
ste
reo
0,00
Abbildung 7-1
Die erste Darstellung zeigt die mittlere Beurteilung für alle Stereo-Testsequenzen
(Cembalo, Klassik, Popmusik, Sprache, Stadion und Sologesang). Gebildet wurden
die Mittelwerte aus allen Bewertungen. Das ergibt bei sechs verschiedenen Testsequenzen und 17 Teilnehmern, 102 Qualitätsbewertungen pro vorgegebenes Codierungsverfahren. Bei den Bitraten 80 kbit/s, 96 kbit/s, 128 kbit/s und 160 kbit/s lässt
sich eine Qualitätssteigerung durch die Verwendung von SBR direkt ablesen. Im Mittel wurden die Testsequenzen bei 80 kbit/s LSF Jointstereo als „Poor“ mit einem Mittelwert von 30 Punkten eingestuft. Die mit SBR Jointstereo codierten Sequenzen erhielten die Bewertung „Good“ mit einem Mittelwert von 68 Punkten. Bemerkenswert
ist dabei, dass sogar eine Klasse („Fair“) übersprungen wurde. Ähnliches gilt für die
96 kbit/s Beispiele. Hier verschiebt sich der Mittelwert im Vergleich von 32 nach 73.
Die normal Stereo codierten Layer IISBR Sequenzen liegen bei diesen Bitraten noch
deutlich unter der Klangqualität der SBR Jointstereo codierten Sequenzen. Bei 80
kbit/s liegt der Mittelwert bei 51, bei 96 kbit/s bei 65 Punkten. Auch die zwei mit 64
kbit/s codierten Layer IISBR-Sequenzen zeigen, dass bei niedrigen Bitraten mit SBR
Jointstereo bessere Ergebnisse zu erzielen sind. Bei den mit 112 kbit/s codierten
Layer IISBR-Sequenzen sieht man, dass der Unterschied zwischen Jointstereo und
normal Stereo im Mittel sehr gering ist. Dadurch, dass sich die Vertrauensbereiche
hier überlappen kann anhand der Darstellung keine eindeutige Aussage darüber ge61
troffen werden, ob sich die beiden Ergebnisse signifikant unterscheiden. Mit Hilfe des
Wilcoxon-Tests kann festgestellt werden, dass der Unterschied nicht signifikant ist.
Bei 128 kbit/s erkennt man, dass der Qualitätsgewinn deutlich schwächer ausfällt.
Hier wurde der Qualitätsgewinn von „Good“ nach „Excellent“ mit der Steigerung der
Mittelwerte von 76 nach 86 ermittelt, und das, obwohl bei SBR auf Jointstereo verzichtet wurde. Analog dazu verhält es sich auch bei den 160 kbit/s Sequenzen. Der
Qualitätsgewinn ist hier allerdings noch geringer. Der Mittelwert steigt von 89 auf 94
Punkte. Obwohl sich hier die Vertrauensbereiche überlappen, zeigt der WilcoxonTest, dass der Unterschied signifikant ist. Das Ergebnis ist erstaunlich, wenn man
bedenkt, dass die „hidden reference“ (verstecktes Original) etwa mit derselben Qualität beurteilt wurde. Bei 160 kbit/s Stereo Layer IISBR konnten die codierte Sequenz
praktisch nicht mehr vom Original unterschieden werden.
Zwischen den Bewertungen der einzelnen Testsequenzen zeigen sich dennoch große Unterschiede. Auf die Teilergebnisse, die sich stark von der allgemeinen Beurteilung unterscheiden, soll hier noch mal detailliert eingegangen werden.
7.6.1.1.b
Ergebnisse Cembalo Stereo
Mittelwerte Cembalo Stereo
SBR
100,00
Excellent
SBR
SBR
80,00
Good
SBR
SBR
SBR
QualitätsSBR
60,00
Fair
gewinn
SBR
SBR
40,00
Qualitätsgewinn
Poor
20,00
SBR
Qualitätsgewinn
Bad
64
64 kbp
kb s s
ps
ter
80 joints eo S
ter BR
kb
e
ps
LS o SB
Fj
R
80 oin
80 kbp tster
e
kb s s
ps ter o
96 join eo S
kb tste BR
ps
re
LS o S
B
Fj
96 oin R
96 kbp tster
kb s st eo
e
11 ps jo reo
S
2 k int
bp ste BR
s jo reo
in
S
11 tster BR
2
e
12 kbp o S
8k
B
bp s ste R
sL
reo
SF
SB
12 joints R
8k
ter
e
b
12 ps o
8 k join
bp tste
s
r
16 ste eo
0 k reo
b
16 ps SBR
0 k join
bp tst
e
s
19 ster reo
2k eo
bp
SB
sjo
R
hid intste
de reo
n
hid ref s
de tere
n
o
LP ref s
3.5 tere
o
LP kHz
3.5 ster
kH eo
z
LP ste
7 k reo
Hz
LP
st
7 k ereo
Hz
ste
reo
0,00
Abbildung 7-2
Das Cembalo ist wohl das kritischste Testbeispiel. Es ist bekannt, dass das hohe
Obertonspektrum und die extremen Hüllkurvenverläufe des Cembalotons vielen Audioencodecs Schwierigkeiten bereiten. Im Diagramm ist dies an der allgemein
schlechteren Beurteilung der codierten Audiosequenzen bei allen Bitraten zu erkennen. Es zeigen sich aber auch wieder die gleichen Tendenzen wie bei den Mittelwer62
ten über alle Testsequenzen. Das Cembalo konnte bei 160 kbit/s Layer IISBR deutlich
vom Original unterschieden werden. Es entspricht in etwa der Qualität von MPEG
Layer II bei 192 kbit/s Jointstereo. Die Vertrauensbereiche sind deutlich größer als in
Abbildung 7-2. Das hängt zum einen damit zusammen, dass bei den Einzellbeispielen nur 17 Beurteilungen bewertet wurden und zum anderen mit der schon beschriebenen Vermutung, dass die Aufforderung zu einer qualitativen Abstufung eine gewisse Streuung bewirkt hat.
7.6.1.1.c
Ergebnisse Klassik Stereo
Mittelwerte Klassik Stereo
SBR
SBR
100,00
SBR
SBR
SBR
Excellent
SBR
80,00
SBR
SBR
SBR
SBR
Good
Qualitätsgewinn
60,00
Fair
40,00
Poor
Qualitätsgewinn
Qualitätsgewinn
20,00
Bad
64
64 kbp
kb s s
ps ter
80 joint eo S
s
B
kb
ps tereo R
LS
S
B
F
80 join R
80 kbp tster
kb s s eo
ps tere
96 join o S
kb tste BR
ps
re
LS o S
B
Fj
96 oin R
96 kbp tste
kb s s reo
t
11 ps jo ereo
2 k int
SB
s
bp
R
t
s jo ereo
in
S
11 tste BR
re
2
12 kbp o S
8k
s s BR
bp
t
s L ereo
SF
SB
12 join R
8k tste
b
r
12 psjo eo
8 k int
bp ster
s
e
16 ste o
0 k reo
b
S
16 ps jo BR
0k
in
bp tste
re
s
19 ster o
2 k eo
S
bp
s jo BR
hid intste
de
r
n eo
hid ref s
de tere
n
o
LP ref s
3.5 tere
o
LP kHz
3.5 ste
kH reo
LP z st
7 k ereo
H
LP z st
7 k ereo
Hz
ste
reo
0,00
Abbildung 7-3
Das Klassik-Testbeispiel unterscheidet sich bezüglich der anderen Testsequenzen
sehr stark. Der Qualitätsgewinn durch SBR für die Bitraten 80 kbit/s und 96 kbit/s
übersteigt zwei Qualitätsklassen, von „Poor“ nach „Excellent“. Die Qualität wurde
auch bei 128 kbit/s Layer IISBR nicht übertroffen. Bei 160 kbit/s tritt keine nennenswerte Klangverbesserung mehr auf. Das Auffälligste ist, dass das Klassikbeispiel sehr
sensibel auf Veränderungen im Stereobild zu reagieren scheint. So konnten allgemein die besseren Ergebnisse nur mit normal Stereo codierten Sequenzen erzeugt
werden (grüne Pfeile).
63
7.6.1.1.d
Ergebnisse Popmusik Stereo
Mittelwerte Popmusik Stereo
SBR
100,00
SBR
S B R SBR
Excellent
SBR
SBR
SBR
SBR
SBR
Qualitäts-
80,00
gewinn
Good
60,00
Fair
40,00
Qualitätsgewinn
Poor
Qualitätsgewinn
20,00
SBR
Bad
64
64 kbp
kb s s
ps ter
80 join eo S
ts
B
kb
ps tere R
LS o S
Fj
BR
80 oin
80 kbp tstere
kb s s o
ps ter
96 join eo S
ts
B
kb
ps tere R
LS o S
F
B
96 join R
96 kbp tste
kb s st reo
ps ere
oS
joi
11 ntste BR
2
re
11
k
2 k bps o SB
bp
ste
R
12 s join reo
8k
tste SB
bp
R
s L reo
SF SB
R
12 join
8k tste
b
r
12 psjo eo
8 k int
bp ster
s
e
16 ste o
0 k reo
b
S
16 ps jo BR
0k
in
bp tste
re
s
19 ster o
2 k eo
S
bp
s jo BR
hid intste
de
r
n eo
hid ref s
de tere
n
o
LP ref s
3.5 tere
o
LP kHz
3.5 ste
kH reo
LP z st
7 k ereo
H
LP z st
7 k ereo
Hz
ste
reo
0,00
Abbildung 7-4
Das Ergebnis der Testsequenz Popmusik zeigt einen sehr ausgeglichenen Verlauf im
Zusammenhang mit Stereo und Jointstereo. Bei 80 kbit/s und bei 90 kbit/s zeichnet
sich nur ein geringer Unterschied zwischen normal Stereo und Jointstereo bei SBR
ab. Nur das 64 kbit/s SBR-Beispiel gewinnt sehr stark durch Jointstereo und hat damit schon eine vergleichbare Qualität wie Layer IISBR bei 80 kbit/s. Bei 128 kbit/s zeigen die Mittelwerte einen Qualitätsverbesserung zwischen MPEG Layer II Jointstereo
und Layer IISBR Stereo. Die Testmethode nach Wilcoxon sagt aber aus, dass sich die
beiden Bewertungen nicht signifikant unterscheiden. 160 kbit/s Layer IISBR wurde mit
dem gleichen Qualitätsniveau bewertet wie MPEG Layer II bei 192 kbit/s. In der Bewertung der „hidden references“ zeigen sich große Vertrauensbereiche. Man könnte
vermuten dass die Qualität der Testsequenzen im Durchschnitt so hoch war, dass
teilweise geraten wurde, welche Sequenz als besser oder schlechter einzustufen sei,
woraus man schließen könnte, dass 160 kbit/s Stereo + SBR vom Original ebenfalls
nicht mehr unterschieden werden konnte.
64
Ergebnisse Sologesang Stereo
Mittelwerte Sologesang Stereo
SBR
100,00
SBR
Excellent
SBR
SBR
SBR
SBR
80,00
SBR
Good
SBR
60,00
Fair
SBR
40,00
Qualitätsgewinn
Poor
Qualitätsgewinn
20,00
SBR
Bad
64
64 kbp
kb s s
ps
ter
80 joints eo S
ter BR
kb
e
ps
LS o SB
Fj
R
80 oin
80 kbp tster
e
kb s s
ps ter o
96 join eo S
kb tste BR
ps
r
LS eo S
Fj
B
o
96
in R
96 kbp tster
e
kb s st
e o
11 ps jo reo
2 k int
S
bp ste BR
s jo reo
in
S
11 tste BR
r
2
12 kbp eo S
8k
B
bp s ste R
sL
reo
SF
SB
12 joints R
8k
ter
e
b
12 ps o
8 k join
t
bp ste
s
r
16 ste eo
0 k reo
b
S
16 ps
BR
0 k joi
bp ntst
s s ere
te
19
o
2 k reo
S
bp
s jo BR
hid intst
de ere
o
n
hid ref s
de tere
n
o
LP ref
3.5 ste
re
LP kHz o
3.5 ster
kH eo
z
LP ste
7 k reo
H
LP z s
7 k tere
Hz o
ste
reo
0,00
Abbildung 7-5
Bei dem Sologesang handelt es sich um eine weibliche Gesangsphrase mit einem
dezenten, künstlich wirkenden Stereoraumeffekt. Da das Signal monophonen Charakter hat, lässt sich leicht erklären, dass SBR + Jointstereo hier seine Stärke aufzeigt. Bei 128 kbit/s und bei 160 kbit/s kann kein Qualitätsgewinn bestätigt werden.
Dass die Bewertungen der SBR-codierten Beispiele bei 128 kbit/s niedriger ausfallen
als bei 112 kbit/s, ist möglicherweise auf eine Schwäche des Encoders zurück zuführen.
65
7.6.1.1.e
Ergebnisse Sprache Stereo
Mittelwerte Sprache Stereo
S B R SBR
100,00
Excellent
SBR
SBR
SBR
SBR
80,00
kein
kein
Codier-
Codiergewinn
gewinn
SBR
Good
SBR
SBR
60,00
Fair
40,00
Poor
Qualitätsgewinn
Qualitätsgewinn
20,00
SBR
Bad
64
64 kbp
kb s s
ps ter
80 join eo S
ts
B
kb
ps tere R
LS o S
Fj
BR
80 oin
80 kbp tstere
kb s st o
er
ps
96 join eo S
BR
tst
kb
e
ps
LS reo S
F
BR
96 join
96 kbp tster
kb s s eo
11 ps jo tereo
2k
S
i
bp ntste BR
s jo re
o
in
S
11 tster BR
e
2
12 kbp o S
B
8k
s
bp ste R
s L reo
SF
SB
12 join R
8k tste
b
r
12 psjo eo
8 k in
bp tste
re
s
16 ste o
0 k reo
b
16 ps SBR
0 k join
bp tste
s
r
19 ster eo
2 k eo
S
bp
s jo BR
hid intste
de
reo
n
hid ref s
de tere
n
o
LP ref s
3.5 tere
o
LP kHz
3.5 ste
kH reo
LP z ste
7 k reo
H
LP z st
7 k ere
Hz o
ste
reo
0,00
Abbildung 7-6
Bei der Testsequenz mit einem männlichen Sprecher ist interessant, dass das
Sprachbeispiel bei 128 kbit/s und bei 160 kbit/s keinen Qualitätsgewinn durch SBR
aufweist. Bei 160 kbit/s lässt sich dieses Phänomen damit erklären, dass schon
MPEG Layer II nicht vom Original unterschieden werden konnte, bei 128 kbit/s ist
das aber nicht der Fall. Die statistische Testmethode nach Wilcoxon zeigt auch keine
signifikante Klangverbesserung mit SBR. Möglicherweise zeigt hier das Sprachbeispiel eine Schwäche in der Versuchdurchführung. Die Beiden 7 kHz Tiefpass gefilterten Testsequenzen zeigen beim Sprachbeispiel abweichende Ergebnisse. Ein Mittelwert liegt bei 39, der andere bei 29. Auch die anderen Ankerpunkte zeigen diese
Tendenz. Daraus kann man eine gewisse Kontextabhängigkeit der Bewertung ableiten. Es könnte sein, dass bei allen Teilnehmern die Tendenz vorhanden war, dass
bei der Verwürfelung der Testsequenzen die qualitativ schlechteren Beispiele in den
ersten Durchgang gerutscht sind und die qualitativ besseren Sequenzen in den zweiten Durchgang. Doch da dieses Phänomen nur beim Sprachsignal zu finden ist, sollten die Ergebnisse der Gesamtauswertung nicht wesentlich beeinflusst werden, aber
es könnte zum Beispiel erklären, warum bei 128 kbit/s das Layer IISBR Sprachbeispiel
im Gegensatz zu MPEG Layer II keinen Gewinn zeigt.
66
7.6.1.1.f
Ergebnisse Stadion Stereo
Mittelwerte Stadion Stereo
SBR
SBR
100,00
Excellent
QualitätsSBR
80,00
SBR
SBR
gewinn
SBR
SBR
Good
SBR
SBR
SBR
60,00
Fair
Qualitätsgewinn
40,00
Poor
Qualitätsgewinn
Qualitätsgewinn
20,00
Bad
64 64
kb kbp
ps
se
80 joints reo S
ter
kb
e BR
ps
LS o SB
Fj
R
oin
80 80 tste
r
k
e
kb
ps bpse o
96 joints reo
S
te
kb
ps reo BR
LS SB
Fj
R
oin
t
96 96 stere
kb kbp o
p
s
11 s join ereo
2k
tste SB
bp
s jo reo R
ints SB
ter R
1
12 eo S
12
B
kb
8k
bp pse R
reo
sL
SF
S
12 join BR
8 k ts
t
bp ere
s
o
12 joint
8k
ste
b
r
16 pse eo
0 k reo
bp
SB
s
R
16 join
0 k tste
b
r
e
p
19
o
s
2 k ereo
bp
S
s j BR
oin
ts
hid tere
o
de
nr
hid efere
de
o
n
LP refe
r
e
3.5 o
k
LP Hze
3.5 reo
kH
LP zere
7k o
H
LP zere
7k o
Hz
ere
o
0,00
Abbildung 7-7
Die Testsequenz „Stadion“ beinhaltet die typische Geräuschkulisse einer öffentlichen
Veranstaltung. Eine Sprecherin kommentiert eine Sportveranstaltung, während im
Hintergrund eine Menschenmenge jubelt und applaudiert. Im Diagramm erkennt
man, dass bereits 128 kbit/s Layer IISBR von den Teilnehmern nicht mehr vom Original unterschieden werden konnte. Das zeigt der Vergleich mit der „hidden reference“.
Bei 160 kbit/s Layer IISBR zeigt sich eine große Einigkeit unter den Versuchsteilnehmern, was etwas verwunderlich ist, besonders weil dadurch die Bewertung für Layer
IISBR bei 160 kbit/s besser ausfällt als für das versteckte Original. Allerdings zeigt der
Wilcoxon-Test keinen signifikanten Unterschied zwischen den Bewertungen. Trotz
des ersten Anscheins eines möglichen Fehlers in der Versuchsdurchführung hat diese statistische Signifikanzanalyse gezeigt, dass das ungewöhnliche Ergebnis auf die
Verteilung der Bewertungen zurück zuführen ist. Bezogen auf das Stereokodierungsverfahren ergibt sich, dass nur 64 kbit/s Jointstereo ein Qualitätsgewinn bringt. Bei 80
kbit/s und bei 96 kbit/s erkennt man keinen Unterschied. Auf den ersten Blick ungewöhnlich scheint, dass die Bewertungen im Mittel bei 96 kbit/s insgesamt ein bisschen niedriger ausfallen als bei 80 kbit/s. Wenn man die Bewertungen der korrespondierenden Codiereinstellungen zwischen 80 kbit/s und 90 kbit/s überprüft, fällt die
Bewertung der 96 kbit/s Testsequenzen nicht signifikant schlechter aus als die bei 80
kbit/s. Dieses Ergebnis relativiert den ersten Anschein.
67
7.6.1.2 Ergebnis der Beurteilung der Mono Testsequenzen
7.6.1.2.a
Mittelwerte über alle Sequenzen Mono
Mittelwerte über alle getesteten Mono-Items
100,00
Excellent
SBR
SBR
80,00
Good
60,00
Fair
Qualitätsgewinn
40,00
Poor
Qualitätsgewinn
20,00
Bad
kH
zm
on
o
LP
7
3.5
kH
zm
on
o
LP
hid
de
nr
ef
m
on
o
96
kb
ps
mo
no
80
kb
ps
mo
no
64
kb
ps
mo
no
SB
R
64
kbp
sL
SF
mo
no
48
kb
ps
mo
no
SB
R
48
kb
ps
LS
Fm
on
o
0,00
Abbildung 7-8
Bei den Mono-Testsequenzen wurden im Versuch weniger Signale zum Vergleich
angeboten. In der Regel dienen Monoprogramme im Radio mehr der Information als
dem Hörgenuss. Man kann davon ausgehen, dass hauptsächlich Sprachdienste wie
Verkehrsnachrichten o.ä. hierbei an der Tagesordnung stehen. Das ist auch der
Grund, warum nur bei den Bitraten 48 kbit/s und 64 kbit/s MPEG Layer II und Layer
IISBR im direkten Vergleich stehen. 80 kbit/s und 96 kbit/s stehen als zusätzliche Referenz zur Verfügung, um die Qualität mit MPEG Layer II bei höheren Bitraten vergleichen zu können. Aufgrund von älteren Untersuchungsergebnissen [15] wurde bei
48 kbit/s und bei 64 kbit/s MPEG Layer II wieder der “half sampling rate” Modus verwendet. Betrachtet werden hier die Mittelwerte der Beurteilungen über alle getesteten Sequenzen. Die SBR-Technologie zeigt sich auch hier, wie bei den Stereobeispielen, als gewinnbringend. Die Layer II LSF Sequenzen wurden im Mittel mit 28
bewertet, das in der Qualitätsklasse „Poor“ liegt. Mit SBR, bei gleicher Bitrate, liegt
der Mittelwert bei 73 (Qualitätsklasse „Good“). Damit wurde eine Klasse übersprungen. Bei 64 kbit/s zeigt sich ein ähnliches Bild. Hier steigt die Qualität von „Fair“ (Mittelwert: 47) nach „Excellent (Mittelwert: 82). Bei beiden Bitraten liegt die Qualität über
dem Ergebnis von 80 kbit/s MPEG Layer II. Der Wilcoxon-Test hat auch gezeigt,
dass Layer IISBR bei 64 kbit/s und MPEG Layer II bei 96 kbit/s qualitativ vergleichbar
sind.
68
Die Analyse der Ergebnisse der einzelnen Mono-Sequenzen soll an dieser Stelle etwas knapper ausfallen, als die Analyse der Stereo-Sequenzen, da sich im realen
Rundfunkbetrieb die Ausstrahlung von Monoprogrammen mehr auf Sprachdienste
reduziert.
7.6.1.2.b
Ergebnisse Cembalo Mono
Mittelwerte Cembalo Mono
100,00
Excellent
SBR
SBR
80,00
Good
60,00
Fair
40,00
Qualitätsgewinn
Poor
20,00
Bad
Qualitätsgewinn
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5 kHz
LP 7 kHz
Abbildung 7-9
Grundsätzlich zeigt das Cembalobeispiel dieselben Tendenzen, wie die Ergebnisse
über alle Mittelwerte. Allerdings ist der Qualitätsgewinn hier im Durchschnitt geringer.
Beide Layer IISBR Sequenzen wurden in die Qualitätsklasse „Good“ eingestuft. Bei 48
kbit/s wurden damit zwei Qualitätsklassen übersprungen. Vergleichbare Qualität liefert MPEG Layer II bei 96 kbit/s. Die schlechte Bewertung des versteckten Originals
(„hidden reference“) lässt bei der Cembalosequenz auf ein gewisses Vorurteil der
Versuchsteilnehmer schließen, was die Gesamtbeurteilung etwas verbessern würde.
Da das Cembalosignal sehr oft bei Hörversuchen eingesetzt wird und bekanntermaßen ein sehr kritisches Testsignal ist, und viele der Versuchsteilnehmer dessen Qualität bei niedrigen bis mittleren Bitraten im Ohr haben, könnte man vermuten, dass die
Bewertungen teilweise mit einer negativen Erwartungshaltung abgegeben wurden.
Das ist aber nur eine sehr vage Vermutung.
69
7.6.1.2.c
Ergebnisse Klassik Mono
Mittelwerte Klassik Mono
SBR
SBR
100,00
Excellent
80,00
Good
60,00
Fair
Qualitätsgewinn
40,00
Qualitätsgewinn
Poor
20,00
Bad
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5 kHz
LP 7 kHz
Abbildung 7-10
Ähnlich wie bei der Stereobewertung schneidet Layer IISBR bei der Klassiksequenz
sehr gut ab. Bei 48 kbit/s und bei 64 kbit/s konnte so die Qualitätsklasse „Excellent“
erreicht werden. Zwischen 64 kbit/s Layer IISBR und der „hidden reference“ zeigt sich
nicht mal ein signifikanter Unterschied.
70
7.6.1.2.d
Ergebnisse Popmusik Mono
Mittelwerte Popmusik Mono
SBR
100,00
SBR
Excellent
80,00
Good
60,00
Fair
Qualitätsgewinn
40,00
Poor
Qualitätsgewinn
20,00
Bad
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5 kHz
LP 7 kHz
Abbildung 7-11
Eine Monoübertragung von Popmusik bei so niedrigen Bitrate wie 48 kbit/s oder 64
kbit/s wird wohl seltener der Fall sein, dennoch zeigen die Ergebnisse, dass mit Layer IISBR auch hier ein deutlicher Qualitätsgewinn zu erzielen ist. Schon bei 48 kbit/s
steigt die Bewertung der Sequenz im Mittel von der Qualitätsklasse „Poor“ in den oberen Bereich der Qualitätsklasse „Good“, bei 64 kbit/s von „Fair“ nach „Excellent“.
Bei 48 kbit/s ist die erreichte Qualität vergleichbar mit der Bitrate 96 kbit/s MPEG
Layer II, bei 64 kbit/s liegt die erreichte Qualität sogar darüber. Die versteckte Referenz wurde dabei aber eindeutig von den Teilnehmern erkannt.
71
7.6.1.2.e
Ergebnisse Gesang Mono
Mittelwerte Gesang Mono
100,00
SBR
SBR
Excellent
80,00
Good
60,00
Fair
Qualitätsgewinn
40,00
Poor
20,00
Qualitätsgewinn
Bad
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5
kHz
LP 7 kHz
Abbildung 7-12
Für die Testsequenz Gesang gilt ähnliches wie für Popmusik. Der Qualitätsgewinn ist
noch ein kleines bisschen höher, zeigt jedoch die gleiche Charakteristik.
7.6.1.2.f
Ergebnisse Sprache Mono
Mittelwerte Sprache Mono
100,00
SBR
Excellent
SBR
80,00
Good
60,00
Fair
Qualitätsgewinn
40,00
Poor
20,00
Bad
Qualitätsgewinn
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5 kHz
LP 7 kHz
Abbildung 7-13
72
Die Analyse der Bewertungen des Sprachbeispiels zeigt in etwa die selben Ergebnisse, wie das Cembalo. Allerdings wurde hier die „hidden reference“ eindeutig erkannt.
7.6.1.2.g
Ergebnisse Stadion Mono
Mittelwerte Stadion Mono
100,00
Excellent
SBR
SBR
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
0,00
48 kbps
LSF
48 kbps
SBR
64 kbps
LSF
64 kbps
SBR
80 kbps
96 kbps
hidden ref
LP 3.5 kHz
LP 7 kHz
Abbildung 7-14
Die Testsequenz Stadion zeigt eine Besonderheit. Verblüffenderweise lässt sich bei
dieser Sequenz schon mit normalen Layer II eine relativ hohe Audioqualität erzielen.
Die Mittelwerte von Layer IISBR liegen nur leicht höher, aber eine Signifikanzanalyse
nach Wilcoxon zeigt, das sich sowohl bei 48 kbit/s als auch bei 64 kbit/s kein signifikanter Unterschied zwischen MPEG Layer II und Layer IISBR ergibt. Eine mögliche
Erklärung dafür wäre, dass das Originalsignal schon sehr obertonarm ist und so
durch SBR keine wichtigen Frequenzen reproduziert wurden. Eine Analyse des Originalsignals bestätigt diese Vermutung. Die durchschnittliche Bandbreite des Originalsignals entspricht etwa 9 kHz, dennoch konnte das versteckte Originalsignal eindeutig identifiziert werden.
Eine nach Bitrate sortierte Gegenüberstellung der Bewertungen der Testsequenzen
kann im Anhang unter gefunden werden.
73
7.6.2 Codiergewinn durch SBR
7.6.2.1 Definition des Codiergewinns
Im Gegensatz zum Qualitätsgewinn, der sich nur im direkten Vergleich beschreibt,
lässt sich der Codiergewinn als Zahlenwert in Abhängigkeit der Bitrate und damit
verbundenen Audioqualität darstellen. Beschrieben wird dabei, die einzusparende
Bitrate in Prozent, bei Erhalt gleicher Audioqualität. In diesem Fall berechnet sich der
Codiergewinn folgendermaßen:
B
- B Layer II SBR
Codiergewinn g =  norm.Layer II

B norm.Layer II


 ⋅ 100 % (bei gleicher Audioqualität )


mit B = Bitrate und g = Codiergewinn in %
Formel 1
Der Codiergewinn kann als Grundlage zur Abschätzung einer Einsparung durch die
Umstellung von Layer II zu Layer IISBR hergezogen werden. Theoretisch müsste man
den Codiergewinn ebenfalls in Abhängigkeit des Charakters des zu codierenden Audiosignals stellen da, wie bereits festgestellt, sehr unterschiedliche Qualitätsergebnisse ermittelt wurden. In der Praxis lässt sich jedoch eine solche Differenzierung
nicht anwenden. Aus diesem Grund wird versucht, auf der Basis der Mittelwerte aller
getesteten Testsequenzen den Codiergewinn zu ermitteln. Dabei kann es sich natürlich nur um eine Abschätzung handeln, zum einen wegen der Abhängigkeit vom Charakter des Ausgangssignals, zum anderen wegen der Streuung der Bewertungen.
7.6.2.2 Ermittelter Codiergewinn
Stereo
In folgender Graphik wurde versucht die resultierende Audioqualität als Funktion in Abhängigkeit der notwendigen Bitrate, mittels Interpolation darzustellen. Dabei
wurde zwischen vier verwendeten Codierungsverfahren unterschieden: Layer IISBR
Stereo (blau), Layer IISBR Jointstereo (violett), normal Layer II Jointstereo (hellblau)
und normal Layer II LSF (gelb). Die 95%-Vertrauensbereiche sind dabei für jeden
Messpunkt zusätzlich als Fehlerindikator dargestellt.
74
Audioqualität als Funktion über der Bitrate
(Stereo)
100,00
SBR normal Stereo
SBR Jointstereo
Excellent
normal Jointstereo LSF
normal Jointstereo
80,00
gewonnene
Bitrate : 22,4 kbit/s
Good
~ 14 % Gewinn
bei 160 kbit/s
Bitratendifferenz
bei gleicher Qualität
60,00
Fair
~ 18 % Gewinn
bei 128 kbit/s
Extrapoliert
mit Polynom
2.Grades
40,00
Poor
~ 37 % Gewinn
bei 100 kbit/s
gewonnene
Bitratendifferenz
20,00
gewonnene
Bad
Bitratendifferenz
0,00
64
80
96
112
128
144
160
176
192
Bitrate [kbit/s]
Abbildung 7-15
Auf den ersten Blick lässt sich sehr schön der Zusammenhang zwischen Bitrate und
Audioqualität erkennen. Bei der violetten, der blauen und der hellblauen Kurve sieht
man, dass bei sehr niedrigen Bitraten der Qualitätsgewinn durch Erhöhung der Bitrate sehr stark ansteigt. Bei höheren Bitraten lässt dieser Effekt dann aber nach, und
anscheinend streben die Kurven einem Grenzwert zu, der nicht unbedingt der höchsten Qualität entsprechen muss (SBR oder auch Jointstereo wird nie ein exaktes Ergebnis reproduzieren). Es lässt sich auch gut erkennen, bei welcher Bitrate es sich
empfiehlt von Layer IISBR Jointstereo auf Layer IISBR normal Stereo überzugehen. Die
violette Kurve (SBR Jointstereo) liegt etwa bis 109 kbit/s qualitativ über der blauen
(SBR normal Stereo) Kurve. Das lässt vermuten, dass es sinnvoll ist, ab einer Bitrate
von 112 kbit/s auf Layer IISBR normal Stereo überzugehen. Bei der Auswertung ein
überraschender Effekt im Zusammenhang mit der „half sampling rate“ Codierung
herausgestellt. Bei der Vorbereitung des Hörversuchs wurde versucht, sowohl für
Layer IISBR, als auch für normal Layer II solche Testsequenzen bereit zustellen, die
den gesamten Qualitätsbereich von „Poor“ bis „Excellent“ im Rahmen des realistischen Einsatzes im Rundfunkbetrieb abdecken. Aufgrund älterer Untersuchungen,
die Empfehlungen über die „half sampling rate“ Codierung aussprechen [15], wurde
vor Versuchsdurchführung beschlossen, bei 128 kbit/s auf LSF überzugehen (siehe
Kapitel 4.6). Nun hat sich aber herausgestellt, dass der hier verwendete „half
sampling rate“-Algorithmus bei 128 kbit/s qualitativ noch deutlich unter der Qualität
von „full sampling rate“ liegt, oder anders gesagt: 128 kbit/s „full sampling rate“ hat
deutlich bessere Ergebnisse gebracht als erwartet. Dafür gibt es zwei mögliche Erklärungen. Erstens sind die genannten Untersuchungen [15], auf die sich die hier
getroffene Entscheidung beruft, nicht die neuesten. Teilweise stammen die Ergebnis75
se noch aus Zeiten, in denen dieses Codierverfahren entwickelt wurde. Außerdem
stammen diese Ergebnisse aus Hörversuchen, in denen ausschließlich „half
sampling rate“ untersucht wurde. Deshalb ist es möglich, dass sich die damaligen
Testteilnehmer bei den Versuchen in die „half sampling rate“ Codierung „eingehört“
hatten, und deshalb die Ergebnisse sehr positiv ausfallen ließen. Es könnte aber
auch hinzukommen, dass die Layer II Encoder in der Zwischenzeit für „full sampling
rate“ optimiert worden sind, dass nun deutlich bessere Ergebnisse, als erwartet zu
erzielen sind. Zweitens kann man den Ergebnissen der „half sampling rate“ Sequenzen deutliche Kontextabhängigkeit unterstellen. Dadurch, dass die Gesamtqualität
der Testsequenzen insgesamt sehr hoch war (besonders durch die Anreicherung
hoher Frequenzanteile durch SBR), hatten die Versuchteilnehmer die Tendenz, die
auf 11 kHz bandbegrenzten Layer II LSF Signale grundsätzlich als sehr schlecht einzuordnen.
Das Ganze führt nun zu dem Problem, dass für mittlere Audioqualität keine
normal Layer II codierten Referenzsignale zur Verfügung stehen. Um aber den Codiergewinn auswerten zu können, ist es notwendig, die Bitraten von Layer IISBR und
normal Layer II bei gleicher Qualität gegenüberzustellen. Um den Codiergewinn dennoch abschätzen zu können, wurde eine Extrapolation von normal Layer II Jointstereo für 64 kbit/s durchgeführt. Dies geschah mittels eines Polynoms 2. Grades. Um
Kritik an dieser Vorgehensweise auszuschließen, wurde darauf geachtet, dass das
Ergebnis der Extrapolation für normal Layer II tendenziell besser ausfällt, als es in
Wirklichkeit der Fall sein dürfte. So sollte der zu ermittelnde Codiergewinn durch SBR
im Zweifelsfall zu klein, anstatt zu groß ausfallen.
In der Abbildung wurde der Codiergewinn für 3 Bitraten graphisch dargestellt. Dabei
ergeben sich im Mittel 14% Codiergewinn bei der Umstellung von normal Layer II
Jointstereo mit 160 kbit/s zu äquivalenten Layer IISBR-Betrieb, etwa 18% bei der Umstellung von 128 kbit/s normal Layer II Jointstereo und etwa 37% bei normal Layer II
Jointstereo knapp unter 100 kbit/s.
Mono
Bei der Auswertung der Monosequenzen wird ähnlich verfahren. Allerdings
fällt hier die Unterscheidung zwischen Jointstereo und Stereo weg. Außerdem wurden weniger Beispiele getestet, was dazu führt, dass weniger Messpunkte zur Verfügung stehen. Die blaue Linie zeigt Layer IISBR, die gelbe Linie zeigt normal Layer I
Mono und die violette Linie zeigt normal Layer II LSF.
76
Audioqualität über der Bitrate
(Mono)
100,00
SBR mono
Mono LSF
Extrapoliert
Excellent
Mono normal
80,00
Good
60,00
Fair
gewonnene
40,00
~ 23 % Gewinn
bei 96 kbit/s
Poor
20,00
gewonnene
~ 43 % Gewinn
bei 84 kbit/s
Bad
0,00
48
64
80
96
Bitrate [kbit/s]
Abbildung 7-16
Dadurch, dass pro Codierungsverfahren nur zwei Testsequenzen zur Verfügung
standen, wird der Verlauf linear zwischen den Messpunkten interpoliert. Im Gegensatz zur Qualitätsauswertung, bei der die normal Layer II LSF codierten Beispiele
den direkten Vergleich zu Layer IISBR ermöglichen, ist dieser, zur Ermittelung des
Codiergewinns völlig unwichtig. Für die Bitrate von 84 kbit/s normal Layer II konnte
ein Codiergewinn von etwa 43% ermittelt werden. Um den Codiergewinn in bezug
auf 96 kbit/s normal Layer II zu ermitteln, musste darauf zurückgegriffen werden, die
Kurve von Layer IISBR zu extrapolieren. Daraus ergibt sich ein Codiergewinn von ungefähr 23%.
7.6.2.2.a
Codiergewinn als Funktion über der Bitrate normal Layer II
Anhand der vorliegenden Interpolationen zwischen den Messgrößen soll der
Verlauf des Codiergewinns als Funktion der Bitrate bezogen auf normal Layer II dargestellt werden. Dies ist die übliche Darstellung des Codiergewinns. Es lässt sich
daraus leicht ableiten, wie viel Bitrate bei einer Umstellung von normalen Layer II zu
Layer IISBR maximal eingespart werden kann.
77
Stereo
Codiergewinn in [%], dargestellt als Funktion über der Bitrate normal MPEG Layer II
(Jointstereo)
40
35
Codiergewinn in [%]
30
25
20
15
10
5
0
96
112
128
144
160
Bitrate [kbit/s] normal Layer II
Abbildung 7-17
Mono
Codiergewinn in [%], dargestellt als Funktion über der Bitrate normal MPEG Layer II (Mono)
70
Codiergewinn in [%]
60
50
40
30
20
10
0
80
96
Abbildung 7-18
Gemäß Formel 1 (siehe Abschnitt 7.6.2.1) lässt sich die resultierende Bitrate von
Layer IISBR ermitteln:
 g ⋅ B norm.Layer II
B Layer II SBR = B norm.Layer II − 
100




78
Wie erwartet zeigt diese Kurve das typische Verhalten der SBR-Technologie. Man
erkennt, dass der Codiergewinn bei niedrigen bis mittleren Bitraten hoch ist, und
dann bei höheren Bitraten abfällt. Dies ist nicht verwunderlich, wenn man sich die
Arbeitsweise der Layer II Codierung vor Augen führt. Bei niedrigen Bitraten schneidet
der normal Layer II Encoder die höheren Frequenzanteile ab bzw. er lässt stärkere
Codierartefakte zu, um ein breiteres Audiospektrum codieren zu können. Layer IISBR
wirkt beiden Effekten entgegen. Das Basisspektrum wird möglichst sauber codiert
(„half sampling rate“) und die fehlenden hohen Spektralanteile werden rekonstruiert.
Bei höheren Bitraten kann auch bei normal Layer II genügend Information übertragen
werden, um das höherfrequente Originalspektrum zu erfassen, wobei Layer IISBR die
zusätzliche Bitrate nur dafür nützen kann, das Basisspektrum möglichst gut zu codieren. Der zu erwartende Abfall des Codiergewinns bei sehr niedrigen Bitraten wurde
mit dieser Untersuchung nicht erfasst. Für den Rundfunkbetrieb bei DAB ist dieser
Qualitätsbereich auch nicht relevant.
Codiergewinn als Funktion über der Bitrate Layer IISBR
7.6.2.2.b
Um auch nach einer Umstellung von MPEG Layer II zu Layer IISBR Aussagen
über den Codiergewinn machen zu können, der bei Verwendung der SBRTechnologie resultiert, veranschaulicht die folgende Graphik den Codiergewinn als
Funktion in Abhängigkeit der, für SBR resultierenden Bitrate.
Stereo
Codiergewinn [%], dargestellt als Funktion über der Bitrate von MPEG Layer II + SBR
(Stereo/Jointstereo)
40
Codiergewinn in [%]
35
30
25
20
15
10
5
0
64
80
96
112
128
144
Bitrate [kbit/s] Layer II + SBR (Stereo/Jointstereo)
Abbildung 7-19
79
Mono
Codiergewinn [%], dargestellt als Funktion über der Bitrate von MPEG Layer II + SBR (Mono)
45
40
Codiergewinn in [%]
35
30
25
20
15
10
5
0
48
64
80
Bitrate [kbit/s] Layer II + SBR (Mono)
Abbildung 7-20
Gemäß Formel 1 (siehe Abschnitt 7.6.2.1) lässt sich ebenfalls die Bitrate von MPEG
Layer II ermitteln, die notwendig wäre, um gleiche Qualität zu erhalten wie durch
Layer IISBR:
 BLayer II SBR ⋅ 100 

B norm.Layer II = −
g
100


7.6.2.2.c
Bitrate Layer IISBR als Funktion über der Bitrate normal Layer II
Anhand folgender Darstellung können die Bitraten von normal Layer II und Layer
IISBR direkt miteinander verglichen werden. Leider ist die Aussage für die Monosequenzen relativ dürftig, da sich diese nur aus zwei Messpunkten ergibt und nur einen
sehr kleinen Bitratenbereich beschreibt. Es soll hier nur der Vollständigkeit aufgeführt
werden.
80
Stereo
Bitrate von Layer II + SBR als Funktion über der Bitrate von normal Layer II
(Jointstereo)
160
Bitrate [kbit/s] Layer II +SBR
144
128
112
96
80
64
96
112
128
144
160
176
192
Abbildung 7-21
Mono
Bitrate von Layer II + SBR als Funktion über der Bitrate von normal Layer II
(Mono)
80
Bitrate [kbit/s] Layer II +SBR
76
72
68
64
60
56
52
48
80
84
88
92
96
Abbildung 7-22
81
7.6.2.3 Unsicherheiten bezüglich Auswertung
An dieser Stelle soll unbedingt darauf hingewiesen werden, dass es sich bei
der Auswertung des Codiergewinns nur um eine Abschätzung handeln kann. Alle
Berechnungen wurden auf der Basis der Mittelwerte über alle Testsequenzen durchgeführt. Allein dies führt schon zu einer Unsicherheit, da man bereits bei der Auswertung des Qualitätsgewinns anhand der einzelnen Testsequenzen die starken Unterschiede sieht. Die 6 gewählten Testsequenzen können nur einen kleinen Ausschnitt
aus dem real gesendeten Rundfunkprogramm darstellen. Dann kommt hinzu, dass
sich teilweise sehr große Vertrauensintervalle zeigen, was auf eine große Streuung
der Bewertungen hindeutet. Dies sagt aus, dass die Versuchsteilnehmer keineswegs
sehr einig waren in der Bewertung.
Anhand der Vertrauensbereiche soll für den ermittelten Codiergewinn von etwa 14%
bei 160 kbit/s Layer II Jointstereo eine „worst case“ Betrachtung herangezogen werden. Dadurch, dass hier die Kurven hier sehr steil verlaufen, kann man davon ausgehen, dass hier der größte Fehler entstehen kann. Wie man nun in der Graphik erkennt, ergibt sich anhand der Vertrauensbereiche eine obere und untere Grenze für
die Bewertungen. Wenn man nun den Codiergewinn möglichst optimistisch bestimmen will (großer roter Pfeil), kommt man auf etwa 45 kbit/s Bitratenersparnis bei gleicher Qualität, was zu einem Codiergewinn von etwa 28% führt. Bei pessimistischer
Betrachtung erhält man keinen Codiergewinn (roter Kreis) da sich hier die Vertrauensbereiche überlappen. Auf eine exakte mathematische Abhandlung der Fehlerbetrachtung soll hier ausdrücklich verzichtet werden, da schon die Auswahl der Audiotestsequenzen nicht mathematisch erfasst werden kann.
82
Abbildung
7-23
0
44,8
Ein anderer Ansatz, diese Unsicherheiten zu beschreiben, wäre eine genauere Differenzierung bei den Versuchsteilnehmern durch zuführen. Aus diesem Grund wurden
die Versuchsteilnehmer und ihre Bewertungen in zwei Kategorien eingeteilt, und ihre
Beurteilungen im Hörversuch separat dargestellt. Es wurden die zwei Kategorien
„Profihörer“ und „Laienhörer“ gebildet. Letzteres soll nicht abwertend wirken. Unter
„Profihörer“ sind alle Personen zusammengefasst, die sich schon über viele Jahre
mit der Beurteilung der Codierqualität von Audiosignalen befassen und auch schon
über Jahre an solchen Hörversuchen teilnehmen. Diese haben den Vorteil, dass ihr
Gehör auf die Erkennung von Codierartefakte trainiert ist und kleine Veränderungen
im Audiosignal deutlich wahrnehmen. Der Nachteil in dieser Personengruppe liegt
darin, dass sie dazu tendieren, überkritisch zu bewerten bzw. sogar, dass sie
manchmal meinen, Fehler wahrzunehmen, wo keine sind. Die Gruppe der „Laienhörer“ beinhaltet Personen, die sich aus starkem Interesse mit diesem Thema auseinandersetzen, aber noch nicht auf den Charakter diverser Codierartefakte sensibilisiert sind. Das waren hauptsächlich Studenten und Diplomanten aus der Abteilung
Audiosystemtechnik am IRT. Diese Personengruppe ist vergleichbar mit einem sehr
kritischen Durchschnittshörer. Die Versuchsteilnehmer verteilten sich etwa zu gleichen Teilen auf diese zwei Gruppen auf (9 Profihörer, 8 Laienhörer).
83
64
64 kbp
kb s st
ps
ere
80 join o S
kb tste BR
ps
re
LS o S
F j BR
80 oin
80 kbp tstere
o
kb s s
ps
ter
96 joint eo S
kb ste BR
ps reo
LS
SB
F
96 join R
t
96 kbp stere
o
kb s s
t
p
11 s jo ereo
2 k ints
SB
bp ter
R
s j eo
oin
SB
t
11 ste R
r
2
12 kbp eo S
8k
B
s
bp ste R
s L reo
SF SB
12 joint R
8 k ste
r
b
12 ps eo
8 k join
bp tste
s
r
16 stere eo
0k
oS
b
B
16 ps
0 k join R
bp tste
s
r
19 stere eo
2k
oS
bp
s jo BR
hid ints
de tere
nr o
hid ef s
de tere
n
o
LP ref
3.5 ster
e
o
k
LP Hz s
3.5 tere
kH o
z
LP ster
7 k eo
H
LP z ste
7 k reo
Hz
ste
reo
64
64 kbp
kb s s
ter
ps
80 join eo S
kb tste
BR
ps re
LS o S
B
F
80 join R
80 kbp tster
kb s s eo
ter
ps
96 join eo S
BR
kb tste
ps
r
LS eo S
F
B
96 join R
96 kbp tstere
kb s s o
t
11 ps jo ereo
2 k int
SB
bp ste
s j reo R
oin
S
11 tste BR
r
2
12 kbp eo S
8k
B
s
bp ste R
sL reo
SF
S
12 join BR
8 k tste
r
b
12 ps j eo
8 k oin
bp tst
e
s
16 ster reo
0 k eo
S
16 bps BR
0 k join
bp tst
e
s
19 ster reo
2 k eo
S
bp
s j BR
o
hid ints
de tere
nr o
hid ef s
de ter
eo
n
LP ref s
3.5 tere
o
LP kHz
3.5 ster
e
kH o
z
LP ste
7 k reo
H
LP z ste
7 k reo
Hz
ste
reo
60,00
SBR
Poor
Good
80,00
40,00
Mittelwerte über alle getesteten Stereo-Items (Profis)
Excellent
100,00
SBR
SBR
80,00
SBR
SBR
Good
Excellent
SBR
SBR
SBR
SBR
SBR
SBR
SBR
Fair
40,00
SBR
Bad
20,00
0,00
Abbildung 7-24
Mittelwerte über alle getesteten Stereo-Items (Laien)
100,00
SBR
SBR
SBR
SBR
Fair
60,00
SBR
Poor
Bad
20,00
0,00
Abbildung 7-25
Wenn man beide Diagramme vergleicht, erkennt man sofort die unterschiedlichen
Tendenzen in der Bewertung. Bei den Profihörern fallen die Bewertungen kritischer
aus. Auch zeigt sich bei der Erkennung der versteckten Originalsignale („hidden reference“) eine sehr hohe Treffsicherheit. Die Laienhörer waren toleranter in der
Beurteilung der Testsequenzen, haben die „hidden reference“ öfters nicht erkannt
und somit nicht mit dem Wert 100 bewertet.
84
Den nächsten Unsicherheitsfaktor stellt die Interpolation zwischen den Messergebnissen und die Extrapolation über den gemessenen Bereich hinaus dar. Während
sich die Interpolation zwischen den Messpunkten im Rahmen der Gesamtabschätzung als eine vertretbare Methode darstellt (im Verhältnis zu der Größe der Vertrauensbereiche ist anzunehmen, dass sich die Interpolation zwischen den Mittelwerten
nicht negativ auf die Ergebnisse auswirken), musste bei der Extrapolation auf Erfahrungswerte zurückgegriffen werden. Dabei wurde darauf geachtet, dass der Fehler
im Zweifelsfall zu Ungunsten des Codiergewinns ins Gewicht fällt.
8 Kanalsimulation DAB zur Bestimmung der Fehlersicherheit
In diesem Teil der Diplomarbeit soll geprüft werden, wie sich die Übertragung
von Rundfunkprogrammen im MPEG Layer IISBR Format, im praktischen Einsatz auf
Kanalstörungen auswirkt. Denn, obwohl es sich bei DAB um ein digitales Übertragungssystem handelt, kann ein störungsfreier Empfang nicht immer gewährleistet
werden. Dieses Kapitel beschäftigt sich dabei ausschließlich mit der terrestrischen
Übertragung, da sich die Übertragung per Kabel als relativ unproblematisch darstellt.
Wenn Layer IISBR nun eine andere Fehlerempfindlichkeit gegenüber Kanalstörungen
aufweist als bislang verwendetes MPEG Layer II, dann ergibt sich daraus schnell die
Konsequenz, dass trotz des festgestellten Codiergewinns und der gewährleisteten
Kompatibilität eine unproblematische Umstellung der Rundfunkausstrahlung von herkömmlichen MPEG Layer II auf MPEG Layer IISBR nicht ohne weiteres möglich ist.
8.1 Darstellung typischer realer Übertragungsstrecken
Übertragungstechnisch stellt DAB ein völlig anderes Konzept dar, als es beim
herkömmlichen analogen FM-Rundfunk der Fall ist. Ein Gleichwellennetz (SFN14)
versorgt im DAB Rundfunksystem das ganze Versorgungsgebiet auf einer definierten
Frequenz mit einem DAB Signal, in das alle verfügbaren Programme dieses Sendekanals als „Subchannels“ eingebettet sind. Der Begriff Gleichwellennetz besagt, dass
alle Sender das Signal mit der selben Frequenz in der gleichen Phasenlage ausstrahlen, um Interferenzen, die sich negativ auf die Empfangsqualität auswirken zu
minimieren. Durch ein spezielles Modulationsverfahren (COFDM15-Modulation) und
der Dimensionierung der Sendebereiche wird sogar erreicht, dass sich die Überlagerung der verschiedenen Sender verstärkend auf das Signal auswirken [18]. Dennoch
14
Single Frequency Network
15
Coded Orthogonal Frequency Division Multiplexing
85
kann die Empfangsqualität durch die Eigenschaften des Funkkanals stark beeinträchtigt werden. Dies äußert sich besonders problematisch im mobilen Rundfunkempfang, bei dem sich die Übertragungseigenschaften ständig ändern. Das Übertragungsverhalten wird dabei im wesentlichen durch Dämpfungen, Reflexionen, Verzögerungen und Frequenzverschiebungen beeinflusst [17]. Deshalb konzentrieren sich
die folgenden Betrachtungen vorrangig auf den mobilen Rundfunkempfang.
Abbildung 8-1
Abbildung 8-1 veranschaulicht die Problematik der Mehrwegeausbreitung und die
Bewegung beim mobilen Rundfunkempfang. Es werden zwei grundsätzliche Profile
unterschieden, die den Zusammenhang der geografischen Struktur des Empfangsgebietes und die Charakteristik des Übertragungskanals beschreiben: Ländliches
Gebiet und typisches Stadtgebiet.
•
Ländliches Gebiet (Rural) beschreibt die Empfangssituation in einem Fahrzeug mit relativ hoher Geschwindigkeit in hügeliger Landschaft. Gekennzeichnet ist der Übertragungskanal dabei durch starken Direktempfang. Gestört
wird dieser Kanal durch Mehrwegeausbreitungen aufgrund von Reflexionen an
Hügeln mit vorwiegend nur kurzen Verzögerungszeiten (wenig Mehrfachreflexionen und wenn dann sehr schwach), wenige Pfade und starken Dopplerverschiebungen durch die Bewegung des Fahrzeugs.
•
Stadtgebiet charakterisiert dem Empfang in einem Fahrzeug, das sich innerhalb einer stark bebauten Umgebung im typischen Stadtverkehr mit relativ
langsamer Geschwindigkeit bewegt. Geprägt ist dieses Profil durch starke
Mehrwegeausbreitung mit langen und kurzen Verzögerungszeiten (Mehrfachreflexionen an Gebäuden), schwachen Direktempfang (Abschattung) und
Dopplerverschiebungen aufgrund der Fahrzeugbewegung.
86
Hinzu kommt die Degradation des DAB-Sendesignals an Versorgungsgrenzen. Hier
sinkt die empfangene Leistung, was ebenfalls anfangs zu Störungen führt, bis der
Empfang völlig zusammenbricht.
8.2 Ausstiegsverhalten des DAB Rundfunksystems
Das Ausstiegsverhalten eines digitalen Systems zeichnet sich durch eine
sprunghafte Verschlechterung der Übertragung ab einem bestimmten Signal/Störabstands C/N (carrier-to-noise ratio) aus. Die Bezeichnung C/N wird hier entsprechend den Konventionen in der Rundfunkübertragungstechnik verwendet, damit
eine Unterscheidung gegenüber dem Signal/Störabstand SNR (signal-to-noise ratio)
für ein Tonsignal gewährleistet ist. Besonders bei hoch komplexen Fehlerschutzalgorithmen, wie sie auch für DAB verwendet werden ist der Übergang vom einwandfreien Empfang bis zum völligen Aussetzen des Systems besonders hart, dennoch gibt
es einen Übergang. Bei sehr geringen Bitfehlerraten schleichen sich zuerst nur sehr
wenig Übertragungsfehler ein, die das Gesamtsystem aufgrund gezielt hinzugefügter
Redundanz mit einer definierten Wahrscheinlichkeit korrigieren kann (Viterbi Decoder). Die nächste Stufe wäre, dass die Fehler zwar nicht korrigiert werden können,
aber trotzdem noch nicht zu einem Versagen führen. Dies kann dadurch erreicht
werden, dass Fehler erkannt werden und durch Fehlerverschleierungsmaßnahmen
praktisch unhörbar gemacht werden, oder dass bezüglich der Störwirkung nur unwichtige Bits gestört werden. Durch das ausgeklügelte Fehlerschutzverfahren in der
Kanalcodierung des MPEG Layer II Audiodatenstroms entstehen diese Übertragungsfehler zuerst in unkritischen Datenbereichen (siehe Kapitel 4.7). Im Layer II
Audiodatenstrom führt das zuerst zur fehlerhaften Übertragung einzelner Teilbandsamples. Dadurch, dass die spektrale Hüllkurve des Audiosignals, aufgrund der gut
geschützten Skalenfaktoren erhalten bleibt, und nur einzelne Teilbänder gestört sind,
verliert das Audiosignal dadurch nur leicht an Qualität. Durch CRC Fehlererkennungsverfahren ist das DAB Empfangssystem auch in der Lage Übertragungsfehler
zu erkennen, und dynamisch darauf zu reagieren. Bei erkannten Fehlern werden
dann z.B. im DAB MPEG Audiodecoder gezielte Fehlerverschleierungsstrategien
angewendet, um die Qualität des Audiosignals möglichst gut zu erhalten. Wenn die
Skalenfaktoren bei der Übertragung beschädigt wurden, und dies durch den Skalenfaktor CRC erkannt wird, dann besteht z.B. die Möglichkeit, die Skalenfaktoren des
vorhergegangenen Audiorahmens wieder zu verwenden. Aufgrund der hohen Wahrscheinlichkeit, dass sich die Skalenfaktoren benachbarter Audiorahmen sehr ähneln,
nimmt das Gehör den Unterschied kaum war. Erst wenn die Störungen so stark werden, dass komplette MPEG Audiorahmen unbrauchbar werden, und selbst durch
Wiederholung unbeschädigter Audiorahmen oder Interpolationen zwischen unbeschädigten Audiorahmen das Signal nicht mehr aufrecht erhalten werden kann,
87
schaltet der DAB-Empfänger stumm. Diese Eigenschaften führen dazu, dass auch
ein digitales Übertragungssystem, wie DAB kein hartes Ausstiegsverhalten aufweist.
8.3 Kanalsimulation
Um festzustellen, wie sich aufgrund der parametrischen Codierung der hohen
Frequenzanteile in MPEG Layer IISBR, Übertragungsfehler auf das Ausstiegsverhalten auswirken, wurde versucht, im Labor eine komplette DAB Übertragungsstrecke
zu simulieren und unter definierten Übertragungsbedingen zu betreiben. Ziel dieses
Versuchs sollte sein, die Vermutung zu bestätigen, dass MPEG Layer IISBR ein ähnliches Verhalten bei gleicher Kanalstörung zeigt, wie herkömmliches DAB MPEG Layer II. Das würde eine problemlose Umstellung von herkömmlichen MPEG Layer II auf
MPEG Layer IISBR gewährleisten, ohne dass bestehende Versorgungsrichtlinien verletzt würden.
Abbildung 8-2 zeigt den grundsätzlichen Versuchsaufbau. Um die Übertragungsstrecke zu simulieren wird zuerst ein DAB Signal erzeugt. Dieses wird dem
Kanalsimulator zugeführt, der die Empfangsbedingungen für mobilen Empfang nachgebildet. Durch Addition von Rauschen mit variabler Stärke werden verschiedene
C/N Verhältnisse realisiert, die das Degradationsverhalten an Versorgungsgrenzen
simulieren. Auswertet wird die Qualität des empfangenen Audiosignals am Empfänger in Abhängigkeit des C/N Wertes und der simulierten Umgebung.
Rauschgenerator
Simuliert
Versorgungsgrenzen
variables
Dämpfungsglied
DAB Receiver
DAB-Sender
Kanalsimulator
Technics
ST-DT-1000
Simuliert
Rayleighkanal mit
Mehrwegeausbreitung
und Dopplereffekte
Abbildung 8-2
Ähnliche Simulationen wurden schon in früheren Jahren innerhalb des Forschungsprojektes EUREKA 147 durchgeführt, um spezifische Aussagen über das Ausstiegs88
verhalten des DAB Systems im Zusammenhang mit verwendeten Bitraten, Schutzkategorien (sogenannte Protection Levels), Umgebungsprofile und Empfangbedingungen an Versorgungsgrenzen zu gewinnen [5]. Die genannten Untersuchungen dienen zum einen als Vorlage, zum anderen aber auch als Kontrolle zu den selbst
durchgeführten Untersuchungen.
8.3.1 Beschreibung des Versuchsaufbaus
Software:
FADICS v1.0
GRUNDIG
Software:
SDB GUI v3.36
R&S
Rauschgenerator
R&S
282.88.16.03
50 MHz
Bandbreite
Steuerrechner
Steuerrechner
216,928
MHz
59
MHz
35
MHz
216,928
MHz
FADICS
DABTestmodulator
Fading Channel
Simulator
GRUNDIG
R&S SDB601
ETI Signal
variables
Dämpfungsglied
Bandpassfilter
217 MHz
BW = 7 MHz
157,928
MHz
181,928
MHz
Signalgenerator
Signalgenerator
R&S
845.4002.52
R&S
845.4002.52
DAB Receiver
Dämpfungsglied
Technics
ST-DT-1000
RDI
Leistungsmessgerät
RDI
to
USB
R&S ESVB
Messung
Mittelwert
USB
Layer II + SBR
nicht decodiert
DAB Server
Laptop
Worstation DELL 433SE
mit DSP Karte PC32
Sftware:
PCR-Recorder for ETIBitstreams (c)
E. Eberlein, FhG/IIS
Erlangen
TOS Link
digital Audio Out
zur Soundkarte
Software:
RDI2USB
for DAB-Scout/M-Box
v.b11
von M.Schulze
analog
Audio Out
normal Layer II
decodiert
Software:
Wavelab v.40
Steinberg
STAX
Kopfhörerverstärker
Abbildung 8-3
8.3.1.1 Beschreibung der Komponenten
DAB Server
Der DAB Server ist eine Workstation, ausgerüstet mit einer DSP-Karte, die
mittels spezieller Software in der Lage ist, ein vollständiges DAB Ensemble im Basisband zusammenzustellen und auf einer dafür vorgesehenen 2 Mbit/s G.703 Schnittstelle als ETI16-Signal auszugeben. Die unterschiedlichen Audiosignale, die in einzelnen „Subchannels“ als verschiedene Rundfunkprogramme übertragen werden
sollen, müssen in codierter Form als DAB MPEG Layer II Dateien auf dem Rechner
vorliegen. Mit Hilfe eines Konfigurationsskripts können diese in den DAB Multiplex
eingebunden werden. Hier werden auch die unterschiedlichen Protection Levels für
die einzelnen „Subchannels“ festgelegt.
16
Ensemble Transmission Interface
89
DAB Testmodulator
Der COFDM Testmodulator von Rhode & Schwarz erzeugt das eigentliche HFSendesignal. COFDM steht dabei für „Coded Orthogonal Frequency Division Multiplexing“ und beschreibt eine Mehrträgermodulation.
In diesem Gerät findet die eigentliche Kanalcodierung (Energy Dispersal, Faltungscodierung sowie Time-Interleaving) statt. Dabei werden Informationen aus dem ETI
Eingangssignal berücksichtigt, die Auskunft geben, über Anzahl, Art und zugewiesenem Fehlerschutz der einzelnen Nutzkanäle. Auf dieser Ebene berechnen DSP Bausteine die Symbole, die den einzelnen Trägern zugeordnet werden (Frequency Interleaving), und aus denen dann ein sogenanntes Transmissionframe zusammengestellt wird. Durch eine inverse Fouriertransformation (IFFT) wird daraus das Zeitsignal gewonnen und in analoger Form dem IQ-Modulator zugeführt, der das Signal in
das entsprechende HF-Band umsetzt und ausgibt. Konfiguriert wird der Modulator
über die serielle Schnittstelle von einem Rechner.
FADICS
FADICS steht für „Fading Channel Simulator“, der im EUREKA-147 DAB Projekt von Grundig entwickelt wurde das HF Eingangssignal muss eingangsseitig auf
59 MHz umgesetzt werden. Nachdem es in einer integrierten Analogkomponente
gefiltert worden ist, wird es auf die digitale Ebene umgesetzt. Die Mehrwegeausbreitung wird auf digitaler Basis durch, unterschiedlich verzögerter Pfade nachgebildet.
Jedes verzögerte Pfadsignal wird mit einer komplexen Koeffizientenfolge bewertet,
die einer statistischen Beschreibung der lokalen Dispersion entspricht. Die, zu simulierende Fahrgeschwindigkeit bestimmt die Dopplerverschiebung. Dies wird mittels
Interpolation mit einer variablen Interpolationsrate zwischen den Bewertungskoeffizienten realisiert. Nach der Realteilbildung werden die einzelnen Pfade gewichtet
(Verzögerungsleistungsspektrum) und auf addiert. Das Lognormal-Fading wird durch
dynamische Multiplikation mit dem Summensignal erzeugt. Die entsprechenden Koeffizientensätze werden über einen Steuerrechner übertragen. Mit einer Mittenfrequenz von 35 MHz steht das HF-Signal am Ausgang des FADICS zur Verfügung.
Rauschgenerator
Der Rauschgenerator erzeugt annähernd weißes Rauschen mit einer Bandbreite von 50 MHz und kann in 1 dB Schritten gedämpft werden.
90
Leistungsmessgerät
Bei diesem Gerät handelt es sich um einen hoch-präzisen Leistungsmesser, mit einstellbarer Bandbegrenzung, innerhalb dessen die Messung bewertet wird. Da die zu
messenden Leistungspegel durch die Kanalsimulation und durch die Beschaffenheit
des DAB-Sendesignals (Transmission Frames) mehr oder weniger starken Schwankungen unterliegen, wurden mit einem zusätzlichen Rechner längere Messserien
gefahren, um daraus eine mittlere Leistung zu ermitteln.
DAB Receiver
Der verwendete DAB Receiver besitzt mehrere Schnittstellen, um das empfangene Rundfunkprogramm auszugeben. Genutzt wurden die beiden optischen,
digitalen Schnittstellen TOSLink und RDI. TOS Link ist eine Konsumerschnittstelle,
dass das Audioprogramm als PCM Signal ausgibt. Über eine Soundkarte am Rechner wurde dieses Signal aufgezeichnet. RDI ist eine Schnittstelle, die einen direkten
Zugriff auf den empfangenen DAB Multiplexdatenstrom erlaubt. Diese erlaubt eine
externe Weiterverarbeitung der empfangenen DAB Daten. Mittels spezieller Software
auf einem Rechner kann so über einen RDI2USB Konverter der unverarbeitete DAB
MPEG Layer II Datenstrom oder Teile davon ausgelesen werden. Zusätzlich besteht
die Möglichkeit die Anzahl der erkannten CRC-Fehler im Fast Information Channel
(FIC) auszulesen.
8.3.1.2 Beschreibung der Strecke
Auf dem DAB-Server wird ein kompletter DAB Multiplex mit einem „Subchannel“ erzeugt, in dem das gewünschte Layer II Testsignal eingebunden wird. Die
MPEG Layer II und MPEG Layer IISBR Testsignale liegen dabei als Dateien auf dem
Rechner vor. Der Testmodulator erzeugt das HF-Signal im Band III bei 216,928 MHz
(Kanal 11A). Für diese Frequenzlage ist der Sendebetrieb im Transmission Mode I
vorgesehen, beidem das Sendesignal mit 1,5 MHz Bandbreite auf 1536 Träger verteilt wird. Unter Verwendung eines Mischers und eines Signalgenerators wird das
Sendesignal auf 59 MHz runtergemischt. Im FADICS wird das Signal eingangsseitig
gefiltert und die Kanalsimulation, entsprechen des gewählten Umgebungsprofils angewendet. Am Ausgang steht das Signal mit einer Mittenfrequenz von 35 MHz zur
Verfügung. Hier wird das Sendesignal mit dem 50 MHz Rauschsignal überlagert. Ein
zweiter Mischer setzt das Signal wieder in die ursprüngliche Frequenzlage zurück.
Ein Bandpassfilter entfernt danach die ungewollten Mischprodukte. Ein Dämpfungsglied reduziert die Sendestärke auf ein, für die Empfindlichkeit des DAB Empfänger
ausgelegtes Maß. Die DAB MPEG Layer II Signale ohne SBR werden vom DAB
91
Empfänger decodiert, und als PCM Signal von einem Rechner, über eine Soundkarte
aufgezeichnet. Die DAB Layer IISBR Signale werden direkt über die RDI Schnittstelle
extrahiert und erst später, mit einer geeigneten SBR-Decodersoftware auf dem
Rechner zu PCM Signale decodiert.
8.3.1.3 Verwendete Ausbreitungsprofile
Der Kanalsimulator besitzt verschiedene Ausbreitungsprofile (Verzögerungsleistungsprofile) für den Mehrwegekanal. Dabei werden die Pfadverzögerungszeiten,
die Pfaddämpfungen und das Dopplerspektrum (Frequenzverschiebung) definiert.
Für diesen Versuch wurden die zwei folgenden Standardkanäle verwendet.
8.3.1.3.a
RURAL1
Der Standardkanal RURAL1 besitzt fünf Pfadverzögerungszeiten von bis zu
0,5 µs für ländliches Gebiet, und entspricht dem Rayleigh-Kanal aus COST 207 [17]:
„Rural Area, non-hilly“ in [17] Tabelle 2.4.3.1. Simuliert wurde hier eine Geschwindigkeit von 100 km/h.
8.3.1.3.b
TYPURB1
Der Standardkanal für ein typisches Stadtgebiet TYPURBAN (nach COST 207
[17]: „Typical Urban Area“, in [17] Tabelle 2.4.3.2) besitzt Pfadverzögerungszeiten
von bis zu 5 µs. Simuliert wurde hier mit 15 km/h. Der Grund, warum eine so niedrige
Geschwindigkeit gewählt wurde, liegt darin, dass vorangegangene Tests der BBC [5]
ebenfalls bei dieser Geschwindigkeit gemacht wurden, und so die Ergebnisse als
Referenz herangezogen werden können. (Allerdings zeigt sich dieser Wert zu manchen Tageszeiten im Stadtverkehr als absolut realistisch).
8.3.1.4 Verwendete Audiotestsequenzen
Um die hier ermittelten Ergebnisse mit den EUREKA147 Tests vergleichen zu können, wurden beschlossen, die selben Testsequenzen zu verwenden.
1.
2.
3.
4.
5.
Klarinette (kurze Melodie)
Glockenspiel (kurze Melodie)
Sprache weiblich
Sprache männlich
ABBA (kurzer Ausschnitt)
Quellenangaben sind im Anhang unter 11.3 zu finden.
92
8.3.1.5 Verwendete Bitraten und Audiomodi, Codierung der Testsequenzen
Für den Versuch wurden folgende Bitraten und Audiomodi gewählt:
192 kbit/s Jointstereo MPEG Layer II
128 kbit/s Jointstereo MPEG Layer IISBR
An dieser Stelle soll auf eine Besonderheit bei der Codierung der Testsequenzen
eingegangen werden. Die Kanalsimulation wird mit dem Fehlerschutzprofil UEP17
durchgeführt, das speziell auf die Übertragung von Audio ausgelegt ist. Wie bereits
erwähnt, werden dabei unterschiedliche Fehlerschutzniveaus für die verschiedenen
Datenpakete im MPEG Layer II Audiodatenrahmen angewendet. Wenn nun keine XPAD Zusatzinformationen in den MPEG Audiorahmen eingebunden werden, ergibt
sich das Phänomen, dass die letzten 4 Bytes der Subbandsamples im MPEG Audiorahmen einen höheren Fehlerschutz genießen als die restlichen Subbandsamples
(siehe Kapite4.5 und 4.7). Für die MPEG Layer IISBR Audiorahmen ergibt sich analog
die Problematik, dass ohne X-PAD die SBR-Steuerdaten in diesen Bereich mit höherem Fehlerschutz fallen (siehe Kapitel 6.2). Um die Existenz von X-PAD Daten zu
simulieren wurden die verwendeten Software Encoder von Coding Technologies so
umprogrammiert, dass in dem MPEG Layer II Audiodatenstrom 6 kbit/s an Leerdaten
in den Bereich eingefügt wurden, in dem normalerweise die Daten des X-PAD liegen.
Dieser Datenbereich wird dem Encoder zur Audiokodierung entzogen. Das macht
144 Bits pro Frame bei MPEG Layer II bei voller Abtastrate und 288 Bit pro Frame
bei MPEG Layer IISBR, da der Codec hier im „half sampling rate“ Betrieb arbeitet.
Damit ist sichergestellt, dass die eigentlichen Audiosamples, einschließlich der SBRSteuerdaten im vorgesehenen Fehlerschutzniveau liegen.
Verwendet wurde die Software „mp2plainencXPAD.exe“ zur Codierung der Standard
MPEG Layer II Signale und „Layer 2 + SBR Demo Encoder V 0.8.1 (build Aug 8
2002) (C) 2001/2002 by Coding Technologies“ zur Codierung der MPEG Layer IISBR
Signale.
8.3.2 Versuchsdurchführung
Zuerst wurde die Standard MPEG Layer II Testsequenz (192 kbit/s Jointstereo) bei gegebenen Kanalsimulationsprofil („Rural“ oder „Urban“) über die DAB Simulationsstrecke an den DAB Empfänger übertragen. Dabei wurde die Trägerleistung
gemessen (ohne additives Rauschen). Die Klangqualität wurde mittels einer hochwertigen Abhöranlage (STAX Kopfhörer) überwacht. Danach wurde die Übertragungstrecke mit Rauschen überlagert. Das Rauschsignal wurde in 1 dB Schritten so
17
siehe Kapitel 4.7
93
lange verstärkt, bis akustisch die ersten Fehler in der Testsequenz wahrnehmbar
waren. Jetzt wurde das Rauschen wieder soweit reduziert, bis die Übertragung akustisch wieder fehlerfrei erschien. Mittels des digitalen Audioausgangs des DAB Empfängers wurde die Testsequenz mit einer Soundkarte am PC aufgezeichnet. Dies
wurde mehrmals wiederholt, wobei das Rauschsignal mehr und mehr verstärkt wurde, solange bis der Empfang vollständig zusammengebrochen ist.
Innerhalb des gleichen, vorher festgestellten Rauschpegelbereichs wurde nun analog
dazu das Sendesignal, mit der MPEG Layer IISBR codierten Testsequenz mit Rauschen überlagert. Aufgezeichnet wurde dabei, der nicht decodierte MPEG Layer IISBR
Datenstrom als mp2-Datei. Dazu diente eine spezielle Software „RDI2USB“, die die
RDI Schnittstelle des DAB Empfänger anspricht. Zusätzlich wurde bei jedem Messdurchgang die Rauschleistung bei abgeschaltetem Trägersignal ermittelt. Gemessen
wurde dabei nur die Rauschleistung, die sich mit 1,5 MHz Bandbreite über das DAB
Trägersignal überlagert. Der Signal/Störabstand (C/N) konnte später durch die gemessenen DAB Trägerpegel (ohne Rauschen) und den gemessenen Rauschpegeln
(bei abgeschaltetem Sender) jeder Messabstufung zugeordnet werden. Diese Vorgehensweise wurde mit den genannten Kanalsimulationsprofilen (Rural und Urban)
für drei Protection Levels (PL1, PL3, PL5) wiederholt.
Leider mussten, aufgrund von unlösbaren Problemen (zumindest nicht lösbar
innerhalb der Diplomarbeitszeit) die ursprünglichen Ziele stark reduziert werden und
auf eine Auswertung Kanalstörung über die Bitfehlerrate verzichtet werden.
8.4 Beschreibung der Versuchsmethode zur Ermittlung der Fehlersicherheit
Um die Fehlersicherheit beider Codierungsverfahren (Standard MPEG Layer II
und MPEG Layer IISBR) vergleichen zu können, muss ein Maß für die Audioqualität in
Abhängigkeit des Träger-/Störpegels(C/N) eingeführt werden. Um den Bezug zu älteren EUREKA-147 DAB Tests nicht zu verlieren, wurden zwei Definitionen übernommen, die die Qualität des Audiosignals in Abhängigkeit der Empfangsstörung beschreiben [5] [23].
“Onset Of Impairment”
“Point Of Failure”
Der “Onset of Impairment” beschreibt den Punkt, an dem die ersten, durch die Kanalstörung verursachten Übertragungsfehler akustisch wahrnehmbar werden. Da die
Fehler aber nicht kontinuierlich auftreten, sondern durch simulationsbedingt anfangs
nur sporadisch erscheinen, muss die Definition etwas erweitert werden. Definiert wird
94
der „Onset Of Impairment“ deshalb mit 3 bis 4 wahrnehmbaren Störungen im Audiosignal innerhalb von 30 Sekunden.
Ähnlich verhält es sich beim „Point Of Failure“. Definiert wird dieser Punkt durch ein
anhaltend gestörtes Audiosignal mit 2 bis 3 Aussetzer innerhalb von 30 Sekunden.
Mittels eines Hörversuchs können diese zwei Grenzpunkte, anhand der aufgezeichneten Testsequenzen aus der Kanalsimulation ermittelt und verglichen werden.
8.5 Ergebnisse aus eigenen Hörversuchen
Aufgrund anhaltender technischer Probleme mit einigen Komponenten im Versuchsaufbau konnte ein ausgiebiger Hörversuch nicht mehr durchgeführt werden.
Die folgenden Ergebnisse wurden noch kurz vor dem Abgabetermin dieser Arbeit von
einem Zwei Mann Team (Hr. Stoll, Sachreferent der Abteilung Audiosystemtechnik
am IRT und mir, dem Verfasser dieser Arbeit) ermittelt, wobei man trotzdem von einer zuverlässigen Beurteilung ausgehen kann. Hr. Stoll ist Erfahren auf diesem Gebiet, und hat genau an einem solchen Versuch bereits teilgenommen. Ich selbst habe
mich über 3 Monate mit diesem Thema beschäftigt und dadurch ebenfalls auf diese
Art der Artefakte eingehört.
Folgende Ergebnisse konnten ermittelt werden:
Rural
MPEG Layer II
MPEG Layer IISBR
PL1
Onset Of Impairment (C/N) in dB
Point Of Failure (C/N) in dB
12
8
12
8
PL 3
18
9
16
9
PL 5
15
15
!
Tabelle 8-1
Im direkten Vergleich zwischen MPEG Layer II und MPEG Layer IISBR zeigt sich für
das Kanalprofil „Rural“ außer im „Onset Of Impairment“ bei Protection Level 3 kein
Unterschied. Der „Onset Of Impairment“ bei Protection Level 5 konnte nicht angegeben werden, da hier auch ohne hinzugefügtem Rauschen kein fehlerfreies Signal
erzeugt werden konnte. Dies ist aber nicht verwunderlich, da der Protection Level 5
praktisch nur für Kabelübertragung ausgelegt ist und deshalb schon bei Störungen,
wie sie der Kanalsimulator ohne zugefügtes Rauschen alleine erzeugt, versagt. Die
Ausnahme für den „Onset Of Impairment“ bei PL3 kann allerdings nicht erklärt wer95
den. Dies hängt möglicherweise mit einem instabilen Element im Versuchsaufbau
zusammen, das nicht näher lokalisiert werden konnte, das aber die Messungen immer wieder behindert hat. Es ist nicht anzunehmen, dass die beiden MPEG Layer II
Codierungsvarianten im Protection Level 3 wirklich ein unterschiedliches Verhalten
aufweisen. Vergleiche mit den Untersuchungen von EUREKA 147 DAB zeigen bei
Protection Level 3 den „Onset Of Impairment“ bei einem C/N von 17 dB für Musik,
und bei einem C/N von 15,5 dB für Sprache, gemessen bei 224 kbit/s Jointstereo.
Dies würde für den gemessenen Wert bei MPEG Layer IISBR von 16 dB sprechen. Bei
64 kbit/s Mono zeigt die EUREKA 147 DAB Untersuchung sogar ein C/N von 14,5 dB
für den „Onset Of Impairment“ und 10,5 dB für den „Point Of Failure“. Weitere Vergleiche der EUREKA 147 Untersuchung stehen für dieses Profil leider nicht mehr zur
Verfügung.
Leider können keine Aussagen über die Fehlersicherheit von Layer IISBR im Vergleich zu MPEG Layer II bei Anwendung des Kanalprofils „Urban“ getroffen werden.
Die ermittelten Werte weichten so stark von den zu erwartenden Ergebnissen ab,
dass hier mit Sicherheit davon ausgegangen werden musste, dass die Messungen
durch ein instabiles Element im Messaufbau verfälscht worden waren. Leider bestand zeitlich nicht mehr die Möglichkeit diese Messung zu wiederholen. Allerdings
ist kein logischer Grund erkennbar, warum Layer IISBR im Gegensatz zu MPEG Layer
II beim Kanalprofil „Urban“ empfindlicher auf Fehler reagieren sollte.
96
9 Zusammenfassung und Schlussfolgerung
9.1 Codiergewinn gegenüber der bei DAB gebräuchlichen Bitraten
Für den Einsatz im praktischen Rundfunkbetrieb soll auf den Codiergewinn für
die gängigen Bitraten im praktischen Rundfunkbetrieb eingegangen werden. Betrachtet werden, für den Stereobetrieb die Bitraten zwischen 96 kbit/s und 160 kbit/s, für
den Monobetrieb die Bitraten 80 kbit/s und 96 kbit/s.
Bitrate Layer IISBR
Codiergewinn *
40%
33%
14%
112 kbit/s Jointstereo/Stereo
160 kbit/s Stereo
17%
14 %
13%
“0%”
80 kbit/s Mono
48 kbit/s Mono
50%
40%
96 kbit/s Mono
80 kbit/s Mono
22%
17%
Bitrate MPEG Layer II
bei äquivalenter oder besserer Qualität
„realer“
Gewinn
33%
Tabelle 9-1
*Der Codiergewinn, der in den Messungen ermittelt wurde. Dieser kann nicht
immer maximal ausgenützt werden, da nur auf die standardisierten Bitraten zurückgegriffen werden kann.
Bei den Angaben in Tabelle 9-1 wird davon ausgegangen, dass die Audioqualität bei
einer Umstellung von MPEG Layer II auf Layer IISBR nicht sinken soll. Deshalb wurde
aus den für DAB standardisierten Datenraten für Layer IISBR immer die nächste höhere Bitrate gewählt, die zur Verfügung steht. (Deshalb kann bei 160 kbit/s MPEG Layer II nicht auf 144 kbit/s Layer IISBR übergegangen werden). Aus dem genannten
Grund kann der rechnerisch ermittelte Codiergewinn nicht voll ausgeschöpft werden.
In der Praxis reduziert sich der Codiergewinn auf einen „realen“ Gewinn, der sich auf
die möglichen DAB Datenraten ohne Qualitätseinbußen bezieht.
9.2 Grad der Qualitätseinbußen für bestehende DAB Empfängersysteme
In der jetzigen Version arbeitet der MPEG Layer II Basiscodec von Layer IISBR mit
halber Abtastrate, was für aktuelle DAB Hörer, ohne SBR-fähigen DAB Empfänger
97
bedeutet, dass das DAB Rundfunkprogramm mit eingeschränkter Bandbreite zu hören ist. Die Qualität des kompatiblen Layer IISBR Audiosignals lässt sich am besten an
den Ergebnissen der „half sampling rate“ Testsequenzen der Hörversuche einschätzen (siehe Abschnitt 7.6.1 und 6.10). Diese Sequenzen wurden, zumindest teilweise,
mit dem gleichen MPEG Layer II Codec erzeugt, auf dem Layer IISBR aufgesetzt ist.
Bei den Ergebnissen zeigt sich, dass zumindest bei 128 kbit/s Jointstereo die Qualität der „half sampling rate“ Sequenzen nicht an die Qualität der „full sampling rate“
Sequenzen heranreicht. Zu höheren Bitraten wird dieser Effekt sicherlich noch stärker. Allerdings bei niedrigen Bitraten, bei denen von Haus aus im „half sampling rate“
Modus codiert wird, haben die Hörer ohne SBR-fähigen Empfänger praktisch keine
Qualitätseinbußen zu erwarten.
Für Layer IISBR muss der Basisencoder aber nicht in der „half sampling rate“
Betriebsart arbeiten. Die SBR Technik könnte theoretisch auch auf die „full sampling
rate“ Betriebsart des Basisencodecs aufgesetzt werden. Dies würde eine wesentliche
Qualitätsverbesserung für das kompatible Layer IISBR Signal mit sich bringen, da die
feste Bandbegrenzung von 11,5 kHz wegfällt. Stattdessen würde die Bandbreite
selbstständig vom Basisencoder, aufgrund der zugewiesenen Bitrate festgelegt werden.
9.3 Konsequenz für die Versorgungsgebiete
Die Messungen bei der Kanalsimulation haben, zumindest für das Simulationsprofil „Rural“ gezeigt, dass sich keine wesentlichen Änderungen in der Fehlersicherheit für Layer IISBR ergeben. Für das Kanalprofil „Urban“ konnte keine bestätigende
Messung durchgeführt werden, allerdings gibt es keinen erkennbaren logischen
Grund, warum Layer IISBR im Gegensatz zu MPEG Layer II beim Kanalprofil „Urban“
empfindlicher auf Fehler reagieren sollte. Dies würde bedeuten, dass die Umstellung
von MPEG Layer II zu MPEG Layer IISBR keine Konsequenzen für das Versorgungsgebiet mit sich bringt.
98
10 Literatur
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
ISO/IEC 11172-3 (1993): „Coding of moving pictures and associated audio for
digital storage media at up to 1,5 Mbit/s – Part 3: Audio”.
ETS 300 401 (1997): “Radio broadcasting systems; Digital Audio Broadcasting
(DAB) to mobile, portable and fixed receivers”
“DIGITAL AUDIO BROADCASTING Principles and Applications” Edited by
Wolfgang Hoeg & Thomas Lauterbach
ISO/IEC 13818-3 (1997): „Information technology – Generic coding of moving
pictures and associated audio information – Part 3: Audio”.
Research and Development Report (1996/97): “EUREKA 147: Subjective assessment of the error performance of the DAB system, including tests at 24
kHz audio sampling frequency”.
ETSI TR 101 496-1 V1.1.1 (2000-11): “Digital Audio Broadcasting (DAB);
Guidelines and rules for implementation and operation; Part 1: System outline”.
Guidelines and rules for implementation and operation; Part 2: System features”.
Guidelines and rules for implementation and operation; Part 3: Broadcast network”.
Future of Broadcasting: “MPEG-2 Audio Layer II 5 +1 Digital Surround Sound”
SBR explained: White paper.
http://www.codingtechnologies.de/technology/sbr.htm
Audio Engineering Society, Convention Paper 5553 (2002): “Spectral Band
Replication, a novel approach in audio coding”
ISO/IEC JTC1/SC29/WG11 MPEG2002/M7943 (2002): “Technical Description
of Coding Technologies’ Proposal for MPEG-4 v3 General Audio Bandwidth
Extension: Spectral Bandwidth Replication (SBR)A detailed elaboration on the
fine art of high frequency reconstruction of genera audio signals with focus on
the intricate properties of transposition and envelope adjustment.
Firmenporträt CODING TECHNOLOGIES
http://www.haffapartner.de/kunden/cte/fip310702cte.htm
TG 10-2/Test Group/Paris – June 92/TMP 21: “Implementation Complexity
Report ISO/MPEG Layer II”
99
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
B/CASE 100 BMC 477: „Subjective Audio Quality Achievable at Various Bitrates for MPEG-Audio Layer II and Layer III” (Contribution from Project Group
B/CASE, March 1999)
Keller, F.: Statistik für naturwissenschaftliche Berufe. Pmi-pharm & medicalinform. Verlags GmbH Frankfurt/Main-Zürich (1982)
GRUNDIG Benutzerhandbuch für Fading Channel Simulator FADICS
Vorlesungsskript Nachrichtensysteme FH München Prof. Dr.-Ing. M. Dippold
Gerard Faria: „The Secret of a successful DAB Launch ? The Distributed Multiplexing” http://www.itis.fr
EBU-UER BPN049:”The EBU Subjective Listening Tests on Low Bitrate Audio
Codecs”, Report by the EBU Project Group B/AIM Audio in Multimedia, September 2002
DRM Source Coding Group: “Report on Subjective Listening Tests of
SBR_LC, an AAC-based Audio Bandwidth Widening Tool”, February 2001
Benutzerhandbuch “WinSTAT”
R & D Technical Note (1994): “EUREKA 147: Tests of error performance of
the DAB system”.
100
11 Anhang
11.1 Testmethode MUSHRA
Die Testbedingungen entsprechen den Forderungen aus dem Dokument
„DRAFT NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ von 29. März 2001 zur
subjektiven Abschätzung von Audioqualitäten mittlerer Güte, „Method for the subjective assessment of intermediate audio quality“. Die genaue Bezeichnung kürzt sich
mit MUSHRA ab, was für „MUlti Stimulus test with Hidden Reference and Anchor“
steht. Bei dieser Versuchsmethode bekommt der Teilnehmer gleichzeitig mehrere
Audiobeispiele unterschiedlicher Qualität angeboten und hat die Aufgabe diese, im
Vergleich zu einem, ihm bekannten, unverfälschten Originalsignal, zu bewerten. Dazu hat er die Möglichkeit, in Echtzeit zwischen den angebotenen Signalen, einschließlich der bekannten Referenz, hin und her zu schalten. Um einen absoluten
Bezug zu gewährleisten, und um die Eignung der Testperson hinsichtlich der gegebenen Aufgabenstellung bei der Auswertung überprüfen zu können, muss in jeder
gebotenen Vergleichsserie (Trial) noch einmal das Originalsignal (Referenz), ein 7
kHz bandbegrenztes Signal und ein 3 kHz bandbegrenztes Signal, an unbekannter
Position enthalten sein. Letztere dienen als Ankerpunkte. Die Filtercharakteristiken
für die bandbegrenzten Signale sind genau spezifiziert. Dies ermöglicht wiederum
auch einen Vergleich zu unabhängig durchgeführten Hörversuchen, da die spezifizierten Ankerpunkte in jedem Hörversuch in der Beurteilung etwa gleich ausfallen
sollten.
•
Für die 3,5 kHz Bandbegrenzung gilt: fc =3,5 kHz, Maximale Ripple im Durchlassbereich = ± 0,1 dB, Minimale Dämpfung bei 4 kHz = 25 dB, Minimale
Dämpfung bei 4,5 kHz = 50 dB.
•
Für die 7 kHz Bandbegrenzung gilt: fc =7 kHz, Maximale Ripple im Durchlassbereich = ± 0,1 dB, Minimale Dämpfung bei 8 kHz = 25 dB, Minimale Dämpfung bei 9 kHz = 50 dB.
Bewertet wird jede Testsequenz mittels eines Schiebereglers entlang einer 5-teiligen
Skala mit etwa 10 cm Länge. Die Abschnitte der Skala bezeichnen die Bereiche:
„Excellent“, „Good“, „Fair“, „Poor“ und „Bad“. Insgesamt umfasst der Wertebereich
der Skala den Wert 100, wobei davon ausgegangen werden muss, dass aufgrund
der zugewiesenen Eigenschaften die Bewertungen nicht linear zu interpretieren sind.
101
Abbildung 11-1 Benutzeroberfläche Software CRC-SEAQ Subjective Test Module, Version 1.18
11.2 Beschreibung der statistischen Auswertung
Mittelwert
Die statistische Auswertung erfolgt, nach der MUSHRA Standard Methode.
Die Bewertungen, die als Zahlenwert zwischen 0 und 100 für jedes Testbeispiel einzeln abgegeben wurden, werden sortiert nach Testsequenz und Teilnehmer zusammen gefasst. Danach werden die Bewertungen auf ihre Plausibilität hin überprüft.
Falls Bewertungen zu finden sind, die völlig von der allgemeinen Beurteilung abweichen, werden alle Bewertungen dieser Testpersonen aussortiert. Der erste Schritt
der Analyse ist die Berechnung der Mittelwerte u jk über alle Einzelbewertungen für
eine bestimmte Testsequenz.
u jk =
1 N
∑ u ijk
N i=1
u i = Bewertung des Versuchsteilnehmers i bei einer vorgegebenen Testbedingung j für eine gegebene Testsequenz k
N = Anzahl der Versuchsteilnehmer
102
Vertrauensbereich
Obwohl die, in dem Hörversuch erlangten Ergebnisse nur für exakt die Personengruppe gültig sind, die an dem Versuch teilgenommen haben, möchte man eine
Aussage treffen können, in wie weit die Ergebnisse für eine sehr große Zahl von Individuen gültig ist. Da es sich bei dieser Art von Hörversuchen nur um eine Stichprobe handelt, muss der festgestellte Mittelwert deshalb nicht zwangsläufig mit dem Mittelwert der Grundgesamtheit übereinstimmen. Das 95%-Vertrauensintervall gibt nun
den Bereich um den Mittelwert der Stichprobe an, in dem der Mittelwert der Grundgesamtheit (Allgemeinheit) mit einer Wahrscheinlichkeit von 95% liegt [16].
Das Vertrauensintervall wird von der Standardabweichung und vom Umfang
der Stichprobe abgeleitet. Das 95% Vertrauensintervall ist folgendermaßen definiert:
[u
jk
− δ jk , u jk + δ jk
]
mit:
δ jk = 1,96
S jk
N
Die Standardabweichung ist dabei durch folgende Formel gegeben:
S jk =
N
(u
− u ijk )2
∑ ( N − 1))
jk
i =1
Wilcoxon
Bei Überlappung der 95% Vertrauensintervalle zweier Testergebnisse dient
der Wilcoxon-Test dazu, eine zusätzliche Signifikanzanalyse zu erstellen. Mit diesem
Verfahren ist es auch bei kleinen Stichproben möglich, zwei Messreihen auf gleiche
Verteilung zu überprüfen. Dabei wird untersucht, ob abhängige Stichproben eventuell
korrelieren. Der Wilcoxon-Test arbeitet dabei unabhängig von der Verteilung der zu
testenden Datenreihen [22].
Als Resultat liefert der Wilcoxon-Test die Wahrscheinlichkeit, mit der die zwei
zu testenden Mittelwerte derselben Grundgesamtheit entstammen. In dieser Arbeit
wurde für die Auswertung eine Irrtumswahrscheinlichkeit von 0,05 zugrunde gelegt,
d. h. der Wilcoxon-Test wurde dann als signifikant angesehen, wenn sich eine Wahrscheinlichkeit kleiner 0,05 ergibt.
103
11.3 Verwendete Testsequenzen
Hörversuch zur Auswahl des MPEG Layer II Basisencoders und zur Ermittlung des
Codiergewinns bei MPEG Layer IISBR:
1. Cembalo (9 sec.)
Sequenz von Einzeltönen über 3 Oktaven, SQAM Test CD, Track 40
2. Klassischer Konzertausschnitt (14 sec.)
Brahms Symphonie Nr.1 C-Moll Opus, Quelle unbekannt
3. Popmusik (15 sec.)
rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop,
Quelle unbekannt
4. Sprachsignal (19 sec.)
männlicher Sprecher, trocken
5. Sologesang (10 sec.)
Gesang weiblich mit leichtem synthetischen Effektanteil,
Suzanne Vega, CD Solitude Standig, Track 1
6. Sportstadion (12 sec.)
Dokumentiertes Eishockeyspiel,
IRT Produktion, Demonstrationenmaterial
Hörversuch bei Kanalsimulation:
1. Klarinette
SQAM Test CD, Track 16, Index 2
2. Glockenspiel
SQAM Test CD, Track 35, Index 2
3. Sprache weiblich
SQAM Test CD, Track 53
4. Sprache männlich
5. ABBA
104
11.4 Auswahl Basisencoder, sortiert nach Bitrate
Auswahl Basisencoder bei 64 kbit/s Mono LSF,
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
IR
TS
tad
ion
CT
Ge
sa
ng
IR
TG
es
an
g
IR
TS
tad
ion
CT
Ge
sa
ng
IR
TG
es
an
g
CT
Sta
dio
n
IR
TS
pra
ch
e
CT
Sp
rac
he
IRT
Po
p
CT
Po
p
Kla
ss
ik
IR
T
CT
Kla
ss
ik
CT
Ce
m
ba
lo
IR
TC
em
ba
lo
0,00
Abbildung 11-2
Auswahl Basisencoder bei 80 kbit/s Mono,
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
CT
Sta
dio
n
IR
TS
pra
ch
e
CT
Sp
rac
he
IR
TP
op
CT
Po
p
Kla
ss
ik
IR
T
CT
Kla
ss
ik
CT
Ce
m
ba
lo
IR
TC
em
ba
lo
0,00
Abbildung 11-3
105
Basisencoder Wahl bei 96 kbit/s Jointstereo LSF,
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
CT
Ge
sa
ng
IR
TG
es
an
g
CT
Ge
sa
ng
IR
TG
es
an
g
IR
TS
tad
ion
CT
St
ad
ion
IR
TS
pra
ch
e
CT
Sp
rac
he
IR
TP
op
CT
Po
p
IR
TK
las
sik
Kl
as
sik
CT
CT
Ce
m
ba
lo
IR
TC
em
ba
lo
0,00
Abbildung 11-4
Auswahl Basisencoder bei 192 kbit/s Jointstereo,
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
IR
TS
tad
ion
CT
Sta
dio
n
IR
TS
pra
ch
e
CT
Sp
rac
he
IR
TP
op
CT
Po
p
IR
TK
las
sik
Kl
as
sik
CT
CT
Ce
m
ba
lo
IR
TC
em
ba
lo
0,00
Abbildung 11-5
106
Ergebnisse Codiergewinn, sortiert nach Bitrate
Qualitätsgewinn mit SBR bei 48 kbit/s,
Mittelwerte über alle Test-Items (Mono)
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
Ce
m
ba
lo
M
on
oL
Ce
SF
mb
alo
SB
R
Mo
no
Kla
ss
ik M
on
oL
SF
Kla
ss
ik S
BR
M
on
o
Po
pM
on
oL
SF
Po
pS
BR
Mo
Sp
no
rac
he
Mo
no
LS
Sp
F
rac
he
SB
R
Mo
no
Sta
dio
nM
on
oL
SF
Sta
dio
nS
BR
Mo
no
Ge
san
gM
on
oL
SF
Ge
sa
ng
SB
R
Mo
no
0,00
Abbildung 11-6
Mittelwerte über alle Test-Items (Mono)
100,00
Excellent
80,00
Good
60,00
Fair
40,00
Poor
20,00
Bad
Ce
m
ba
lo
M
on
oL
Ce
SF
mb
alo
SB
R
Mo
no
Kla
ss
ik M
on
oL
SF
Kla
ss
ik S
BR
Mo
no
Po
pM
on
oL
SF
Po
pS
BR
Mo
Sp
no
rac
he
Mo
no
LS
Sp
F
rac
he
SB
R
Mo
no
Sta
dio
nM
on
oL
SF
Sta
dio
nS
BR
M
on
Ge
o
sa
ng
Mo
no
LS
Ge
F
sa
ng
SB
R
Mo
no
0,00
Abbildung 11-7
107
Ce
m
ba
lo
Jo
ins
ter
Ce
eo
m
LS
ba
lo
F
SB
R
Jo
ints
Kla
ter
ssi
eo
kJ
oin
ste
reo
LS
F
Kla
ss
ik S
BR
St
ere
Po
o
pJ
oin
ste
reo
LS
Po
F
pS
BR
J
oin
Sp
tste
rac
reo
he
Jo
ins
ter
Sp
eo
rac
LS
he
F
SB
R
Jo
ints
St
ter
ad
eo
ion
Jo
ins
ter
St
eo
ad
LS
ion
F
SB
R
Jo
int
Ge
ste
sa
reo
ng
Jo
ins
ter
Ge
eo
sa
LS
ng
F
SB
R
Jo
ints
ter
eo
Jo
ins
ter
Ce
eo
m
LS
ba
F
lo
SB
R
Jo
int
Kla
ste
ss
reo
ik J
oin
ste
reo
LS
Kla
F
ss
ik
SB
R
St
ere
Po
o
pJ
oin
ste
reo
LS
Po
F
pS
BR
J
oin
Sp
tste
rac
reo
he
Jo
ins
t
ere
Sp
oL
rac
SF
he
SB
R
Jo
ints
St
ter
ad
eo
ion
Jo
ins
ter
Sta
eo
dio
LS
nS
F
BR
Jo
ints
Ge
ter
sa
eo
ng
Jo
ins
ter
Ge
eo
sa
LS
ng
F
SB
R
Jo
ints
ter
eo
Ce
mb
alo
Good
80,00
80,00
Mittelwerte über alle Test-Items (Stereo)
Excellent
100,00
Stereo !
Fair
60,00
Poor
40,00
Bad
20,00
0,00
Abbildung 11-8
Excellent
100,00
Stereo !
Good
Fair
60,00
40,00
Poor
20,00
Bad
0,00
Abbildung 11-9
108
Ce
m
ba
lo
Jo
int
ste
Ce
reo
m
ba
lo
SB
R
Ste
reo
Kla
ss
ik J
oin
tst
ere
Kla
o
ss
ik S
BR
Ste
reo
Po
pJ
oin
tste
reo
Po
pS
BR
Ste
Sp
reo
rac
he
Jo
ints
ter
Sp
eo
rac
he
SB
R
Ste
reo
St
ad
ion
Jo
ints
ter
eo
Sta
dio
nS
BR
Ste
reo
Ge
sa
ng
Jo
ints
ter
Ge
eo
sa
ng
SB
R
Ste
reo
Ce
m
ba
lo
Jo
int
ste
Ce
reo
mb
alo
SB
R
Ste
reo
Kla
ss
ik J
oin
tste
reo
Kla
ss
ik S
BR
St
ere
o
Po
pJ
oin
tste
reo
Po
pS
BR
Ste
Sp
reo
rac
he
Jo
ints
ter
Sp
eo
rac
he
SB
R
Ste
reo
St
ad
ion
Jo
ints
ter
eo
Sta
dio
nS
BR
Ste
reo
Ge
sa
ng
Jo
ints
ter
Ge
eo
sa
ng
SB
R
Ste
reo
± Standardabweichung
Excellent
100,00
Good
80,00
Fair
60,00
Poor
40,00
Bad
20,00
0,00
Abbildung 11-10
Excellent
100,00
Good
80,00
Fair
60,00
Poor
40,00
20,00
Bad
0,00
Abbildung 11-11
109
SB
R
Ste
reo
Jo
ints
ter
eo
SB
R
Jo
int
ste
reo
Sta
dio
nS
BR
St
ad
Ste
ion
reo
SB
R
Jo
int
ste
reo
Ge
sa
ng
SB
Ge
R
Ste
sa
ng
reo
SB
R
Jo
ints
ter
eo
Sp
rac
he
Sp
rac
he
St
ere
o
Po
pS
BR
Ce
m
ba
lo
SB
Ce
R
m
Ste
ba
reo
lo
SB
R
Jo
int
ste
reo
Kla
ss
ik
SB
R
Kla
St
ss
ere
ik S
o
BR
Jo
int
ste
reo
Po
pS
BR
Ste
Po
reo
pS
BR
Jo
ints
ter
Sp
eo
rac
he
SB
Sp
R
Ste
rac
he
reo
SB
R
Jo
ints
ter
eo
Sta
dio
nS
BR
Sta
Ste
dio
reo
nS
BR
Jo
ints
ter
eo
Ge
sa
ng
SB
Ge
R
Ste
sa
ng
reo
SB
R
Jo
ints
ter
eo
Po
pS
BR
Ce
m
ba
lo
SB
Ce
R
m
Ste
ba
reo
lo
SB
R
Jo
int
ste
reo
Kla
ss
ik S
BR
Kla
Ste
ss
reo
ik S
BR
Jo
ints
ter
eo
Ergebnisse Codiergewinn, sortiert nach Stereo/Jointstereo
Layer II + SBR Stereo/Jointstereo bei 64 kbit/s,
Mittelwerte über alle Test-Item
Excellent
100,00
Good
80,00
Fair
60,00
40,00
Poor
20,00
Bad
0,00
Abbildung 11-12
100,00
Excellent
80,00
Good
Fair
60,00
Poor
40,00
20,00
Bad
0,00
Abbildung 11-13
110
Ce
m
ba
lo
SB
R
Ste
Ce
reo
m
ba
ere
lo
o
SB
R
Jo
int
ste
reo
Kla
ss
ik S
BR
Kla
St
ss
ere
ik S
o
BR
Jo
int
ste
reo
Po
pS
BR
Ste
Po
reo
pS
BR
Jo
int
ste
Sp
reo
rac
he
SB
Sp
R
rac
Ste
he
reo
SB
R
Jo
ints
ter
eo
Sta
dio
nS
BR
Sta
Ste
dio
reo
nS
BR
Jo
ints
ter
eo
Ge
sa
ng
SB
Ge
R
sa
Ste
ng
reo
SB
R
Jo
ints
ter
eo
Ste
reo
Jo
ints
ste
Sp
reo
rac
he
SB
Sp
R
rac
St
he
ere
SB
o
R
Jo
ints
ste
reo
Sta
dio
nS
BR
Sta
dio
Ste
nS
reo
BR
Jo
ints
ste
reo
Ge
sa
ng
SB
Ge
R
sa
Ste
ng
reo
SB
R
Jo
int
ss
ter
eo
Po
pS
BR
Po
pS
BR
Ce
m
ba
lo
Ce
SB
m
R
ba
St
lo
ere
SB
o
R
Jo
int
ss
ter
eo
Kla
ss
ik S
BR
Kla
ss
St
ik S
ere
o
BR
Jo
ints
ste
reo
Excellent
100,00
80,00
Good
60,00
Fair
Poor
40,00
20,00
Bad
0,00
Abbildung 11-14
Excellent
100,00
Good
80,00
Fair
60,00
Poor
40,00
20,00
Bad
0,00
Abbildung 11-15
111

Diplomarbeit Layer II + SBR für IRT

Transcription

Documents pareils

Cooler Master Stacker Magic Fleece Set

Hardware Abstraction Layer - Fachhochschule Vorarlberg

Anleitung für beauftragte Haustechnik Ing. Büros - CAD

Product Data Sheet - Buffalo Technology

F L A S H C A S T

Produktblatt Nokia 6600 fold

Externes Hardware-Modem mit 56 KBit/s

Produktblatt Sony Xperia tipo dual

congstar GmbH

Anleitung Windows Media Center Dateien WTV in MPEG konvertieren