Diplomarbeit Layer II + SBR für IRT
Transcription
Diplomarbeit Layer II + SBR für IRT
Fachhochschule München Fachbereich Elektrotechnik DIPLOMARBEIT Von Christian Kain Untersuchungen zur Verbesserung der Audiocodierung bei DAB mit dem kompatiblen Verfahren der Spectral Band Replication Betreuer (FHM): Betreuer (IRT): Arbeitsbeginn: Abgabetermin: Laufende Nummer: Prof. Dr.-Ing. K. Walliser Hr. Stoll 15.04.2002 15.11.2002 1810 Diplomarbeit Betreuer: Diplomand: Hr.Stoll Christian Kain Abgabedatum: 15.11.2002 Studiengruppe: 04 EL Thema: Untersuchungen zur Verbesserung der Audiocodierung bei DAB mit dem kompatiblen Verfahren der Spectral Band Replication Kurzfassung: Diese Arbeit beschreibt Untersuchungen zu einem parametrischen Audiocodierungsverfahren in Symbiose mit dem MPEG Layer II Audiocodierungsverfahren in DAB. Dieses Verfahren nennt sich Spectral Band Replication (SBR) und basiert auf der Reproduktion hoher Frequenzanteile anhand des Basisspektrums eines Audiosignals. Dabei wurden Untersuchungen zur Kompatibilität, zum Qualitätsgewinn, zum Codiergewinn und zur Fehlersicherheit durchgeführt. Der Schwerpunkt lag in der Durchführung diverser Hörversuche und deren Auswertung. Auf Basis dieser Ergebnisse der Hörversuche wurde der Codiergewinn ermittelt. Daraufhin konnten Aussagen getroffen werden, wie sich die Klangqualität bei gleicher Bitrate verbessert bzw. wie viel an Bitrate eingespart werden kann um gleiche Audioqualität gewährleisten zu können. Um die Funktionsweise dieses Codierverfahrens kennen zulernen, wird auf die Eigenschaften und die Funktionsweise, sowohl des Standard MPEG Layer II Codecs als auch auf die Funktionsweise der Spectral Band Replication eingegangen. Um die Fehleranfälligkeit des neuen Layer II + SBR Codierverfahrens beurteilen zu können, wurde eine komplette DAB Übertragungsstrecke im Labor simuliert und unter definierten Störungsbedingungen betrieben. Dabei wurde das Verhalten des herkömmlichen Standard MPEG Layer II Audiocodecs mit dem neuen Layer II + SBR Audiocodecs verglichen. 2 INHALT 1 EINLEITUNG DIGITAL AUDIO BROADCASTING (D AB).......................................7 2 AUFGABENSTELLUNG................................................................................................7 3 DEFINITION DATENRATEN KBIT/S, MBIT/S ...........................................................8 4 MPEG LAYER II ALS AUDIOCODIERVERFAHREN IN DAB................................8 4.1 MPEG Layer II als Standard für DAB ....................................................................8 4.1.1 MPEG ....................................................................................................................9 4.1.1.1 MPEG 1 .........................................................................................................9 4.1.1.2 MPEG 2 .......................................................................................................10 4.2 Arbeitweise MPEG Layer II Audiocodierung....................................................12 4.2.1 Grundprinzip datenreduzierter Audiocodierung ............................................12 4.2.1.1 Verlustlos – Verlustbehaftet.....................................................................13 4.2.1.2 Psychoakustische Effekte .........................................................................14 4.2.1.3 Veränderungen im Klangbild ....................................................................15 4.2.2 MPEG Layer II Encoder ....................................................................................16 4.3 Aufbau ISO - MPEG Layer II Datenstrom...........................................................18 4.3.1 Aufbau MPEG Layer II Audiorahmen nach ISO/IEC 11172-3....................18 4.3.1.1 Header .........................................................................................................19 4.3.1.2 CRC .............................................................................................................21 4.3.1.3 Bit Allocation...............................................................................................21 4.3.1.4 SCFSI..........................................................................................................22 4.3.1.5 Scalefactors ................................................................................................22 4.3.1.6 Subband Samples .....................................................................................22 4.3.1.7 Ancillary Data .............................................................................................22 4.4 Aufbau DAB Layer II Datenstrom ........................................................................22 4.4.1.1 4.4.1.2 4.4.1.3 4.5 SCF CRC (Skalenfaktor CRC).................................................................23 PAD (X-PAD und F-PAD).........................................................................23 Stuff..............................................................................................................23 Programme Associated Data (PAD) ...................................................................24 4.5.1 4.5.2 F-PAD..................................................................................................................25 X-PAD..................................................................................................................25 3 4.6 Half-sampling-rate (LSF) Audiocodierung........................................................27 4.6.1 4.6.2 4.7 Fehlerschutzverfahren EEP und UEP ................................................................29 4.7.1 4.7.2 4.8 5 Struktur ................................................................................................................27 Bitraten ................................................................................................................27 UEP......................................................................................................................29 EEP......................................................................................................................31 DAB Ensemble und Bitraten.................................................................................32 SPECTRAL BAND REPLICATION............................................................................33 5.1 Grundlagen Spectral Band Replication .............................................................33 5.2 Realisierung ..............................................................................................................34 5.3 Qualität und Kompatibilität...................................................................................37 5.4 MPEG 2 Layer III (MP3) + SBR..............................................................................38 5.5 Advanced Audio Coding (AAC) + SBR ..............................................................40 5.6 Anwendungsbeispiel Digital Radio Mondiale (DRM) .....................................41 6 ADAPTION VON SBR AUF MPEG LAYER II..........................................................42 6.1 Prinzipielle Funktionsweise..................................................................................43 6.2 MPEG Layer II DAB Rahmenstruktur mit SBR.................................................44 6.3 Komplexität und Aufwand.....................................................................................46 6.3.1 6.3.2 Harwareresourcen.............................................................................................46 Laufzeitmessung auf dem PC..........................................................................46 6.4 Hörversuch zur Auswahl des Basisencoders..................................................47 6.5 Verwendete Testaudiosequenzen (Items).........................................................48 6.6 Verwendete Bitraten und Audiomodi.................................................................49 6.7 Testmethode .............................................................................................................49 6.8 Vorbereitung der Versuche...................................................................................50 6.9 Durchführung ...........................................................................................................51 4 6.10 Ergebnisse aus dem Hörversuch zum Encodervergleich............................52 6.11 Kompatibilität mit dem bestehenden DAB-Standard.....................................53 7 HÖRVERSUCHE CODIERGEWINN..........................................................................54 7.1 Verwendete Testaudiosequenzen (Items).........................................................54 7.2 Verwendete Bitraten und Audiomodi.................................................................55 7.3 Testmethode .............................................................................................................57 7.4 Vorbereitung des Versuchs..................................................................................57 7.5 Durchführung ...........................................................................................................58 7.6 Auswertung und Ergebnisse................................................................................59 7.6.1 Qualitätsgewinn durch SBR .............................................................................60 7.6.1.1 Ergebnis der Beurteilung der Stereo Testsequenzen.........................61 7.6.1.2 Ergebnis der Beurteilung der Mono Testsequenzen ..........................68 7.6.2 Codiergewinn durch SBR .................................................................................74 7.6.2.1 Definition des Codiergewinns ..................................................................74 7.6.2.2 Ermittelter Codiergewinn ..........................................................................74 7.6.2.3 Unsicherheiten bezüglich Auswertung ...................................................82 8 KANALSIMULATION DAB ZUR BESTIMMUNG DER FEHLERSICHERHEIT.85 8.1 Darstellung typischer realer Übertragungsstrecken .....................................85 8.2 Ausstiegsverhalten des DAB Rundfunksystems............................................87 8.3 Kanalsimulation .......................................................................................................88 8.3.1 Beschreibung des Versuchsaufbaus ..............................................................89 8.3.1.1 Beschreibung der Komponenten.............................................................89 8.3.1.2 Beschreibung der Strecke ........................................................................91 8.3.1.3 Verwendete Ausbreitungsprofile .............................................................92 8.3.1.4 Verwendete Audiotestsequenzen ...........................................................92 8.3.1.5 Verwendete Bitraten und Audiomodi, Codierung der Testsequenzen 93 8.3.2 Versuchsdurchführung ......................................................................................93 5 8.4 Beschreibung der Versuchsmethode zur Ermittlung der Fehlersicherheit 94 8.5 Ergebnisse aus eigenen Hörversuchen ............................................................95 9 ZUSAMMENFASSUNG UND SCHLUSSFOLGERUNG........................................97 9.1 Codiergewinn gegenüber der bei DAB gebräuchlichen Bitraten ...............97 9.2 Grad der Qualitätseinbußen für bestehende DAB Empfängersysteme....97 9.3 Konsequenz für die Versorgungsgebiete .........................................................98 10 LITERATUR ...............................................................................................................99 11 ANHANG.................................................................................................................. 101 11.1 Testmethode MUSHRA........................................................................................ 101 11.2 Beschreibung der statistischen Auswertung ............................................... 102 11.3 Verwendete Testsequenzen.............................................................................. 104 11.4 Auswahl Basisencoder, sortiert nach Bitrate ............................................... 105 6 1 Einleitung Digital Audio Broadcasting (DAB) Das Projekt EUREKA 147 beschäftigte sich Anfang der 90er Jahre, unter Mitwirkung, u.a. des Instituts für Rundfunktechnik mit der Entwicklung von DAB (Digital Audio Broadcasting). DAB stellt dabei das digitale Äquivalent zu analogen UKW Rundfunk dar. Die Vorteile von DAB gegenüber UKW liegen vor allem in der Klangqualität, im stabilen Empfang sowie im niedrigen Frequenzbedarf. Dabei wurde MPEG Layer II als Audiocodierungsverfahren standardisiert. In der Zwischenzeit haben sich erhebliche Fortschritte auf dem Gebiet der Audiocodierung gezeigt. Unter anderem im Bereich der parametrischen Audiocodierung. Von einer schwedisch/deutschen Firma mit dem Namen Coding Technologies wurde ein Verfahren unter der Bezeichnung Spectral Band Replication entwickelt, das ebenfalls auf parametrischer Audiocodierung basiert. Ein naheliegender Gedanke ist nun, beide Codierungsverfahren zu verbinden, und damit das DAB-System qualitativ effektiver zu gestalten. 2 Aufgabenstellung Mit dieser Arbeit sollte festgestellt werden, welche Vorteile und Nachteile sich ergeben, wenn man das bisherige Audiocodierungssystem des DABRundfunkstandards MPEG Layer II mit einem dazu kompatiblen verbesserten Codierungssystem ergänzt. Festgestellt wurden dabei folgende Punkte: 1. Es sollte zuerst auf den Codiergewinn eingegangen werden, der durch den Zusammenhang zwischen der Klangqualität und Bitrate ermittelt wurde. 2. Betrachtet wurde die Fehleranfälligkeit beider Audiocodierungsverfahren im Vergleich, um Aussagen hinsichtlich der bestehenden DAB Versorgungsrichtlinien machen zu können. zu 1.: Betrachtet wird der Codiergewinn, der sich durch die Verwendung eines neuen kompatiblen Layer II Audiocodecs mit SBR-Technik ergibt. Daraufhin können Aussagen getroffen werden, wie sich die Klangqualität bei gleicher Bitrate verbessert bzw. wie viel an Bitrate eingespart werden kann um gleiche Audioqualität gewährleisten zu können. Um die Funktionsweise dieses neuen Codierverfahrens kennen zulernen, wird auf die Eigenschaften und die Funktionsweise sowohl des Standard MPEG Layer II Codecs als auch des Layer II + SBR Codecs eingegangen. 7 zu 2.: Um die Fehleranfälligkeit des neuen Layer II Codierverfahrens beurteilen zu können, wurde eine komplette DAB Übertragungsstrecke im Labor simuliert und unter definierten Störungsbedingungen betrieben. Dabei wurde das Verhalten des herkömmlichen Standard MPEG Layer II Audiocodecs mit dem neuen Layer II + SBR Audiocodecs verglichen. 3 Definition Datenraten kbit/s, Mbit/s Diese Arbeit beschäftigt sich sehr viel mit Datenraten. Die Maßangabe zur Beschreibung der Datenkapazität, die pro Zeiteinheit übertragen wird, wird in Kilobit pro Sekunde (kbit/s) angegeben. Auf manchen Abbildungen ist auch die englische Bezeichnung kbps (kilobits per second) zu finden. Das hat damit zu tun, das der Schrägstrich „/“ für Dateinamen nicht verwendet werden konnte und eine andere Abkürzung als ungeeignet, weil unüblich erschien. Das Kilo beschreibt dabei genau den Faktor 1000, da dieser aus der Informationstheorie abgeleitet ist, und im direkten Verhältnis zur Übertragungsbandbreite steht. Die Bezeichnung sollte nicht mit dem Umrechnungsfaktor 1024 verwechselt werden, der sich als Zweierpotenz (210) aus der Datentechnik ableitet. Ähnlich verhält es sich bei der Abkürzung Mbit/s (Megabit pro Sekunde) hier ist ebenfalls exakt mit dem Faktor 106 umzurechnen. 4 MPEG Layer II als Audiocodierverfahren in DAB 4.1 MPEG Layer II als Standard für DAB Da MPEG Layer II das Standard-Audiokompressionsverfahren für DAB darstellt, soll hier hauptsächlich auf DAB spezifische Eigenschaften des MPEG Standards eingegangen werden. Dazu gehört unter anderem, dass sich aus technischhistorischen Gründen die Abtastfrequenz von 48 kHz als Rundfunkstandard durchgesetzt hat. So wird im DAB-Betrieb, mit der Ausnahme der „half sampling rate“ Codierung (LFS)1, ausschließlich mit 48 kHz gearbeitet. Allerdings sollte auch der Betrieb im LSF Modus nach „außen“ nicht sichtbar werden, d.h. Audioeingangs- und Ausgangssignale liegen immer mit der Abtastfrequenz von 48 kHz vor. (Erwähnt sei, dass durchaus noch Probleme in der Praktischen Umsetzung auftauchen. Empfängerseitig geben manche Geräte bei der Verwendung der „half sampling rate“ Betriebsart kein gültiges Signal am digitalen Audioausgang aus.) 1 siehe Kapitel 4.6 8 4.1.1 MPEG MPEG ist die Abkürzung für „Moving Pictures Expert Group“. Dieses stellt ein Gremium dar, das sich auf die internationale Standardisierung von Video- und Audiokomprimierungsverfahren spezialisiert hat. Gegründet wurde dieses Gremium 1988 unter dem Namen ISO/IEC-JTC1/SC29/WG11. MPEG ist ein Teil des Joint Technical Committtee on Information Technology (JTC 1), der International Standardisation Organisation (ISO) und der International Electrotechnical Commission (IEC) [1]. Dieser Standard steht hinter der internationalen Vereinheitlichung von Verfahren zur Codierung von bewegten Bildern und zugehörigem Ton für digitale Speichermedien bis zu Datenraten von 1,5 Mbit/s. 4.1.1.1 MPEG 1 Der MPEG 1 Audio Standard wurde 1993 unter der Bezeichnung ISO/IEC 11172-3 herausgegeben, und beschreibt ein dreistufiges, abwärts kompatibles Audiokompressionsverfahren unter der Bezeichnung MPEG 1 Layer I – III. Die mit Layer I-III bezeichneten Algorithmen arbeiten, bei steigender Komplexität mit steigender Effizienz. Auf der Basis psychoakustischer Effekte wird dabei eine Datenreduktion auf digitaler Ebene zur Speicherung und Übertragung eines Audiosignals vorgenommen. MPEG 1 definiert die Codierung für die Abtastfrequenzen 32 kHz, 44.1kHz und 48kHz, wobei für DAB nur 48 kHz relevant sind. Als Eingangssignal wird ein PCM-kompatibles ein- oder zweikanaliges Audiosignal mit bis zu 22 Bit Auflösung verarbeitet [3]. 4.1.1.1.a Audio Modes und Bitraten in MPEG 1 Der Audiomode gibt Auskunft über Art und Anzahl der verwendeten Kanäle. MPEG 1 definiert folgende „Audio Modes“: single channel: dual channel: Einfacher monophoner Audiokanal Zwei voneinander unabhängige Audiokanäle (z.B. bei der stereo: Übertragung eines Programms in zwei unterschiedliche Sprachen) Zwei, als Stereopaar zusammengehörige Audiokanäle (Links-Rechts) jointstereo2: Stereosignal, codiert auf der Basis von Intensitätsstereophonie 2 siehe Kapitel 4.2.1.2 9 Zulässige Bitraten und mögliche Audio Modes für MPEG 1 Layer II Audio Modes BITRATE (KBIT/S) 32 48 56 64 80 96 112 128 160 192 224 256 320 384 single channel single channel single channel alle Modi single channel alle Modi alle Modi alle Modi alle Modi alle Modi stereo, jointstereo, dual channel stereo, jointstereo, dual channel stereo, jointstereo, dual channel stereo, jointstereo, dual channel Tabelle 4-1 4.1.1.2 MPEG 2 MPEG 2 stellt eine Erweiterung des MPEG 1 Standards dar und wurde 1997 unter der Bezeichnung ISO/IEC 13818 eingeführt. Neben der „Multichannel“Betriebsart ist in den Audiospezifikationen die Einführung der „half sampling rate“ Betriebsart (LSF)3 die wesentlichste Neuerung für DAB, wodurch die Verarbeitung von Audiosignalen bei halber Abtastrate möglich wird, also 16 kHz, 22.05 kHz und 24 kHz. Für DAB ist hier auch wieder ausschließlich 24 kHz relevant. Trotz der dadurch begrenzten Audiobandbreite, wird subjektiv eine höhere Klangqualität bei niedrigen Bitraten erreicht (siehe auch Kapitel 4.6), als bei voller Abtastrate. Zusätzlich wird in MPEG 2 das „Multichannel“ Audioformat definiert. Dies ermöglicht die Übertragung und Speicherung, von bis zu fünf diskreten Audiokanälen, und ergänzt damit Stereo/Jointstereo und Dual Channel aus dem MPEG 1 Standard. Dies findet unter anderem bei Surround-Vertonungen und/oder mehrsprachigem Klangmaterial Anwendung. Besonderen Wert wird auf die Vorwärts-, und auch Rückwärtskompatibilität gelegt. Die Vorwärtskompatibilität besagt, dass ein, nach MPEG 1 codiertes Audiosignal auch mit einem, nach MPEG 2 spezifizierten Decoder verarbeitet werden 3 Lower Sampling Frequencies 10 kann, Die Rückwärtskompatibilität drückt aus, dass ein MPEG 1 Decoder in der Lage ist, zumindest die Basis Stereoinformation aus einem MPEG 2 codierten Audiostrom wiederzugewinnen. Auf das Thema der Mehrkanal Audiokodierung wird im Rahmen dieser Arbeit nicht weiter eingegangen. 4.1.1.2.a Audio Modes und Bitraten in MPEG 2 Mit dem „half sampling rate“ Mode wird MPEG Layer II Audiocodierung durch neue, niedrigere Bitraten ergänzt. Spezifiziert sind hierbei aber nur noch die Bitraten, nicht mehr die Audio Modes. Zulässige Bitraten MPEG 2 Layer II: Bitrate (kbit/s) 8 16 24 32 40 48 56 64 80 96 112 128 144 160 Tabelle 4-2 11 4.2 Arbeitweise MPEG Layer II Audiocodierung 4.2.1 Grundprinzip datenreduzierter Audiocodierung Zum besseren Verständnis des Aufbaus und der Arbeitweise des MPEG Layer II Codecs soll hier auf grundsätzliche Eigenschaften der digitalen Audiocodierung eingegangen werden. Die einfachste, und die am weitest verbreitete Form der digitalen Audiocodierung nennt sich Pulscodemodulation (PCM), gewöhnlich mit linearer Quantisierungsauflösung. Dieses Verfahren findet unter anderem bei der Übertragung von Audiosignalen über digitale Schnittstellen, wie z.B. AES/EBU, S/PDIF, TOSLink, TDIF Verwendung, oder auch zur Speicherung von Tonsignalen auf einer gewöhnlichen Audio-CD. Grundsätzliche Kenntnisse über digitale Audiocodierung, wie z.B. Nyquistbedingung, oder der Zusammenhang der Sampleauflösung und verfügbare Dynamik, werden an dieser Stelle vorausgesetzt und sollen deshalb nicht näher erklärt werden. Wesentliches Merkmal im Zusammenhang mit datenreduzierender Audiocodierung ist aber, dass bei der PCM-Codierung über das komplette Audiospektrum mit einer einheitlichen Quantisierungsauflösung gearbeitet wird. Hier setzen die verschiedenen Audiocodierungsverfahren an, in dem die Quantisierungsauflösung in Abhängigkeit des spektralen und zeitlichen Verlaufs des Audiosignals variabel gestaltet wird. Dabei wird das Audiosignal spektral zerlegt, und die verschiedenen Frequenzanteile bzw. Frequenzbänder individuell quantisiert. Um die Notwendigkeit einer datenreduzierenden Audiocodierung, als Basis für die digitale Rundfunkübertragung zu verstehen, sollen hier ein paar Größenordnungen für Datenraten unkomprimierter linearer PCM Signale vermittelt werden. Folgende Formel berechnet die Datenrate eines linear PCM codierten Audiosignals: Bitrate = Abtastfrequenz ⋅ Quantisier ungsbits ⋅ AnzahlKanäle Sample Mit dieser Formel ergibt sich für eine gewöhnliche Audio Compactdisc (Audio CD) mit 44,1 kHz Abtastrate und 16 Bit Quantisierungsauflösung, eine Datenrate von 1,4112 Mbit/s. Im professionellen Studio- und Rundfunkbereich wird aus qualitativen und technischen Gründen sehr oft mit höheren Abtastrate von 48 kHz und 96 kHz (mittlerweile sogar 192 kHz), und einer Quantisierungsauflösung bis 24 Bit gearbeitet. Bei 48 kHz/20 Bit (entspricht dem verfügbaren Dynamikbereich von MPEG Layer II) ergibt sich so eine Datenrate von 1,920 Mbit/s für ein Stereosignal. Es ist leicht zu erkennen, und zu verstehen, dass sich die PCM Audiocodierung nicht für die Übertragung von Rundfunkprogrammen eignet, da die Datenraten viel zu hoch wären, um 12 mehrere Audioprogramme zu übertragen. Auf diese Art und Weise wäre es unmöglich, in einem digitalen Rundfunksystem das selbe Angebot an Rundfunkprogrammen bereitzustellen, wie es bisher im analogen Rundfunknetz der Fall ist. Aus diesem Grund ist es unbedingt notwendig datenreduzierende Audiocodierungsverfahren für diesen Anwendungsbereich einzusetzen. 4.2.1.1 Verlustlos – Verlustbehaftet Grundsätzlich gibt es zwei Möglichkeiten, das hohe Datenaufkommen bei digitaler Übertragung und Speicherung von Audiosignalen zu reduzieren: verlustlos und verlustbehaftet. Die verlustlose Datenkompression beruht auf dem Prinzip der Entropiecodierung. Dabei kann, durch Verminderung der vorhandenen Redundanz im PCM codiertem Audiosignal das Datenaufkommen, etwa auf die Hälfte gesenkt werden. Dieses Verfahren wird zwar in modernen Audiokodierungsverfahren genutzt, wie z.B. Huffmancodierung bei MPEG Layer III, stößt aber auch auf seine Grenzen. So kann hier nur ein mittlerer Kompressionsgrat von 2:1 erreicht werden. Bei der verlustlosen Audiokomprimierung kann das Originalsignal jedoch vollständig, fehlerfrei rekonstruiert werden, es geht keine Klanginformation verloren. Das Verfahren der verlustbehafteten Audiocodierung zeigt sich als weit effektiver. Grundlage dafür bildet die Psychoakustik. Die Wissenschaft der Psychoakustik widmet sich der Fragestellung, wie welche Klanginformationen beim menschlichen Hören ausgewertet werden. Vereinfacht ausgedrückt kann man sagen, dass das empfundene Schallereignis nicht dem original Gehörten entsprechen muss. Unser Gehör, bzw. unser Kopf ist in der Lage Klanginformationen zu filtern, oder zu ergänzen. Durch Versuche konnte so festgestellt werden, dass unser Gehör nicht gleichmäßig sensibel auf zeitlich eng aufeinanderfolgende, oder gleichzeitig auftretende Schallereignisse reagiert. So verdecken dominante Schallereignisse sowohl zeitlich, als auch spektral dicht benachbarte, weniger dominante Schallereignisse. Diese Zusammenhänge wurden ausgiebig durch Hörversuche an Testpersonen untersucht und quantitativ festgehalten. 13 4.2.1.2 Psychoakustische Effekte Ruhehörschwelle Die Ruhehörschwelle ist eine frequenzabhängige Funktion, und gibt an, ab welchem Schalldruckpegel das Gehör ein Geräusch wahrnehmen kann. Schallanteile, die unter diesem Schwellwert liegen werden nicht wahrgenommen, und müssen dadurch nicht verarbeitet werden. Abbildung 4-0a Simultane Maskierung Die simultane Maskierung beschreibt den Effekt, dass laute Frequenzanteile, benachbarte leisere Frequenzanteile teilweise oder ganz verdecken. Dies wird genützt um Quantisierungsrauschen zu maskieren. Abbildung 4-0b Temporale Maskierung Abbildung 4-0c Dieser Effekt führt dazu, dass ein dominantes Schallereignis auch zeitlich benachbarte weniger dominante Schallereignisse verdeckt. Dies ermöglicht dem Audioencoder das Signal zeitlich in kleine Ausschnitte zu zerlegen. Allerdings ist im Gegensatz zur Darstellung (Abbildung 4-0c) der Verdeckungseffekt vorher kürzer als der Verdeckungseffekt nachher. 14 Jointstereo Jointstereo steht bei MPEG Layer II für Intensitätsstereoverfahren. Grundlage bildet der psychoakustische Effekt, dass das Stereobild vom menschlichen Ohr nicht in jeder Frequenzlage auf gleiche Art und Weise analysiert wird. So ergibt sich, dass bei sehr tiefen Frequenzen (bis etwa 80/100 Hz) 4 keine Richtungsinformation wahrgenommen werden kann (z.B. Prinzip Subwoofer). Für Stereoinformationen in mittlerer Frequenzlage ist das Ohr sehr sensitiv. Hier werden Stereoinformationen auch anhand der Feinstruktur im Audiosignal bestimmt. Dagegen werden vom Gehör, bei Frequenzen ab etwa 2 kHz nur noch die Lautstärkedifferenzen ausgewertet. Letzterer Effekt wird bei der MPEG Layer II Jointstereo Codierung ausgenützt. Spektral höherfrequente, als Stereopaar zusammengehörende Audioteilbänder werden beim Codierungsprozess nicht unabhängig verarbeitet, sondern zu einem Teilband zusammengefasst, und als Mittenkanal mit zusätzlicher Stereobalanceinformation in den Datenstrom eingebunden. 4.2.1.3 Veränderungen im Klangbild Bei der verlustbehafteten Audiocodierung nutzt man nun diese Effekte, um dem Audiosignal diverse Verzerrungen bzw. Quantisierungsrauschen hinzuzufügen zu können, ohne dass der Hörer diese wahrnimmt. Zusätzlich lässt sich die Datenmenge weiter reduzieren, in dem man bei Stereosignalen durch Jointstereo Veränderungen im stereophonen Abbild zulässt. Bei hohen Kompressionsraten werden die verschiedenen Reduktionsverfahren aber doch deutlich hörbar. So kann es im extrem Fall zu Erscheinungen kommen, wie: Verlust von Höhen- und/oder Bassanteilen, Kratzen, Rauschen metallisches Klirren, gefälschtes Stereobild etc. Man kann grob drei Reduktionsstufen unterscheiden: Unkritische Kompression (MPEG Layer II über 200kbit/s Stereo) • Quantisierungsrauschen der einzelnen Bänder bleibt verdeckt Mittelkritische Kompression (MPEG Layer II 140kbit/s bis 200kbit/s Stereo) • Quantisierungsrauschen knapp über der Mithörschwelle • Leichte Änderungen im stereofonen Abbild Sehr kritische Kompression (MPEG Layer II unter 140kbit/s Stereo) • 4 weglassen relevanter Klanganteile http://www.tecchannel.de/multimedia 15 • hohe Quantisierungsverzerrungen • starke Änderung des stereofonen Abbilds 4.2.2 MPEG Layer II Encoder Digital Audio Signal ft= 16.. 48 kHz Quantization & Coding Filterbank 32 Subbands Scale Factor Extraction Coding of Side Information Bit Stream Formatting CRC-Check Bei MPEG Layer II handelt es sich um einen sogenannten Subbandcodec, da die Datenreduktion auf der spektralen Zerlegung im Zeitbereich des Audiosignals basiert. Aufbau und Funktion des Übertragungsformats des Teilbandcodierungsverfahrens ist durch den MPEG 1 und MPEG 2 Standard definiert. Die Arbeitsweise des Encoders lässt sich wie folgt beschreiben: das eingehende Audiosignal wird zeitlich in kleine Ausschnitte bzw. Fenster (Frames) mit 1152 Abtastwerten pro Kanal zerlegt. Bei der, für DAB spezifischen Abtastrate von 48 kHz ergibt sich daraus eine Fensterlänge von 24ms. Dieses Signal wird mit Hilfe einer Polyphasefilterbank in 32 spektral gleichmäßig verteilte Teilbänder (Subbänder) von je 750 Hz Bandbreite zerlegt und abgetastet. Dabei werden nur die unteren 27 Teilbänder codiert. Die Datenreduktion erfolgt durch Ausnutzung, der bereits erwähnten psychoakustischen Effekte: der temporalen bzw. simultanen Maskierung, der Ruhehörschwelle. Dazu wird, parallel zu der Filterbank, das Eingangssignal mit Hilfe einer Fast Fourier Transformation (FFT) spektral ausgewertet und von einem psychoakustischen Rechenmodell im Encoder bewertet. Das Psychoakustische Modell errechnet nun, aufgrund dieser Information die bestmögliche Verteilung, der für die Codierung zur Verfügung stehenden Quantisierungsbits. Diese werden so auf die einzelnen Audiosubbänder verteilt, dass der Fehler zwischen der errechneten optimalen Bitverteilung und der, durch die Datenrate beschränkte, real zur Verfügung stehenden Bitverteilung möglichst gering ausfällt. Dies ist ein iterativer Prozess, der wesentlich in die notwendige Verarbeitungszeit eingeht. Ausgabeseitig erfolgt die Zusammensetzung des MPEG spezifizierten Audiorahmens. MPEGAudio Coded Bit Stream Perceptual Model FFT Masking Dynamic Bit Allocation MPEG-1 & MPEG-2 Audio Encoder Abbildung 4-1: Struktur MPEG 1/2 Layer II Encoder 16 Wie in der Abbildung 4-1 zu erkennen ist, besteht der MPEG Layer II Encoder aus verschiedenen Komponenten, die hier näher beschrieben werden sollen: Filterbank Die Filterbank zerlegt das eingehende Audiosignal in 32, linear gleichmäßig aufgefächerte Teilbänder mit 750 Hz Bandbreite. Dabei handelt es sich um eine Polyphase Filterbank oder einer hybrid Polyphase/ MDCT Filterbank 511-ter Ordnung [1]. Nachbarbänder werden dabei mit mehr als 96 dB unterdrückt. [3]. Aus diesem Vorgang ergeben sich 36 Abtastwerte pro Subband, die zur Weiterverarbeitung zur Verfügung stehen. Skalenfaktorextraktion (Scale Factor Extraction) Ähnlich der Exponentialdarstellung in der Mathematik werden die Subbandssamples im MPEG Audiodatenstrom als Kombination von Skalenfaktor und aktuellen Samplewerten beschrieben. Diese Methode dient einer effektiveren Codierung und erhöht, durch verschiedene Schutzmaßnahmen die Fehleranfälligkeit bei der Übertragung. Die 36, in der Filterbank errechneten Audiosamples pro Frame und Subband werden in drei Blöcke à 12 Samples zerlegt. Der höchste Samplewert pro Block bestimmt den Skalenfaktor. Dieser errechnet sich aus dem Verhältnis des höchsten Samplewertes und der maximal zugelassenen Aussteuerung. Dies beschreibt einen Faktor, mit dem das Sample im Decoder wieder zu multiplizieren ist, um die originale Lautstärke wieder zu gewinnen. Da die Skalenfaktoren in einem Raster von etwa 2 dB Schritten vorgegeben sind, reduziert die Wiedergabegenauigkeit der Lautstärke der Teilbänder auf ±1 dB (2 dB Auflösung) . Es muss allerdings nicht für jeden 12 Samples-Block ein eigener Skalenfaktor vergeben werden. Es können auch weniger sein. Dies hängt von der Konstellation der ermittelten Skalenfaktoren ab. Nicht auf jede Konstellation reagiert das Gehör gleich sensibel. Aus diesem Grund sind bestimmte Konstellationen als feste Muster vordefiniert, die alle drei oder weniger Skalenfaktoren repräsentieren. Dadurch, dass nur ein gewähltes Muster in die Codierung eingeht, können die Skalenfaktoren pro Frame und Subband als ein 6 Bit-Wort ausgedrückt werden. Bei stationären Signalen wird nur ein Skalenfaktor verwendet, während bei komplizierteren alle drei verwendet werden. Gewährleistet wird ein theoretischer Dynamikbereich von 120 dB [3]. 17 Psychoakustisches Modell (Perceptual Model) Das Psychoakustische Model ist wohl das Herzstück des Encoders. Hier wird das Audiosignal mittels einer Fourier Transformation spektral analysiert, und hinsichtlich der Maskierungseigenschaften bewertet. Damit ein Ton für das menschliche Gehör wahrnehmbar ist, muss seine Lautstärke über der bereits erwähnten Ruhehörschwelle liegen. Zusätzlich verändert aber auch jeder Ton, je nach Pegel und Frequenz die Wahrnehmbarkeitsschwelle für einen anderen Ton. Diese Schwelle wird als Mithörschwelle bezeichnet, und kann additiv zur Ruhehörschwelle angegeben werden. Ein beliebiges Tonsignal bewirkt eine entsprechend komplexe Mithörschwelle über den gesamten Frequenzbereich. Diese komplexe Mithörschwelle wird durch eine 1024-Punkte FFT-Analyse, für ein Zeitfenster von 8 ms Dauer bestimmt. Das ergibt 3 Zeitfenster pro Frame (analog zu den Skalenfaktoren). Aufgrund dieser Information kann nun für jedes Teilband das Signal/Maskierungsverhältnis (SMR) bestimmt werden. Danach richtet sich dann die individuelle Zuweisung der Quantisierungsauflösung pro Teilband. Die Quantisierung für den gesamten Datenrahmen wird entsprechend der höchsten erforderlichen Teilbandauflösung in einem der drei Analysefenster gewählt. Im Psychoakustischen Modell läuft diese Prozedur nach folgendem Schema ab [1]: 1. 2. 3. 4. 5. 6. 7. 8. 9. Berechnung der FFT für 1024 Punkte Bestimmung des Schalldruckpegels für jedes Audioteilband Bestimmung des Ruheschwellwertes Bestimmung tonaler Frequenzanteile Reduzierung gefundener Maskierer auf ein relevantes Maß Berechnung der individuellen Maskierungsschwellwerte Bestimmung des allgemeinen Maskierungsschwellwertes Festlegung der minimalen Maskierung für jedes einzelne Subband Berechnung des Signal/Maskierungsverhältnis (SMR) für jedes Subband 4.3 Aufbau ISO - MPEG Layer II Datenstrom 4.3.1 Aufbau MPEG Layer II Audiorahmen nach ISO/IEC 11172-3 Der MPEG Layer II Audiodatenrahmen nach ISO/IEC 11172-3 teilt sich in 7 Blöcke auf: • Header • CRC Fehlerschutz • Bitallokation 18 • Skalenfaktoren • Scalefactor Selection Information • Subbandsamples • Zusatzdaten Der Rahmenaufbau des MPEG Layer II Datenstromes ist nach ISO/IEC 11172-3 folgendermaßen definiert: MPEG Audio Layer II Frame HEADER CRC Bit Allocation 32 Bit 16 Bit Low Subbands 4Bit Mid Subbands 3Bit High Subbands 2 Bit SCF SI Scale factors 2 Bit 6 Bit Subband Samples Anicillary Data 12 Blöcke mit jeweils 3 Teilbandabtastwerten Länge ist nicht spezifiziert Abbildung 4-2 4.3.1.1 Header Der Header hat eine Länge von 4 Byte und beinhaltet folgendenden Komponenten (siehe 2.4.2.3 in [1]): Synchronisationswort (12 Bit) – zeigt durch die Bitfolge: „1111 1111 1111“ den Anfang des MPEG Audiorahmens an. ID-Bit (1 Bit) - das Setzen dieses Bits signalisiert, dass der Datenstrom dem ISO/IEC 11172-3 Standard entspricht. Dieses darf nicht gesetzt sein, wenn man z.B. „half sampling rate“ (MPEG 2) nutzt. Layer (2 Bit) – gibt den verwendeten Audiolayer (I-III) an. Protection Bit (1 Bit) - signalisiert durch den Wert „0“, dass die Audiodaten durch das Zufügen von Redundanz durch ISO CRC fehlergeschützt sind. 19 Bitraten Index (4 Bit) - daraus lässt sich die verwendete Bitrate ableiten. Die möglichen Bitraten sind vom verwendeten Audiolayer abhängig. Dabei wird der Index einer vordefinierten Tabelle übertragen. Die Bitfolge „0000“ erlaubt davon abweichende Bitraten (2.4.2.3 in [1] und 2.4.2.3 in [3]). Sampling Frequency (2 Bit) – beschreibt die verwendete Abtastfrequenz. Padding Bit (1 Bit) – das Bit ist gesetzt, wenn der Datenrahmen einen zusätzlichen Slot besitzt. (Das ist z.B. bei der Samplerate 44,1 kHz notwendig, um den Rahmen der Bitrate anzupassen.) Private Bit (1 Bit) – wird im ISO/IEC Standard nicht weiter genutzt. Mode (2 Bit) – gibt eine Aussage über die Kanalzuordnung. Möglich ist „normales“ Stereo, Joint Stereo (nur Intensitätsstereo, kein MS-Stereo), 2 Kanal oder 1 Kanal Codierung. Mode Extension (2 Bit) – gibt an bis zu welchem Audioteilband das Intensitätsstereo Verfahren angewandt wird. Tiefer liegende Teilbänder werden „normal“ Stereo kodiert. Vier Einstellungen sind möglich: Subband MPEG Layer II in Jointstereo 16 bis 31 Grenzfrequenz bei 48 kHz Abtastrate 12 kHz Grenzfrequenz bei 24 kHz Abtastrate 6 kHz 12 bis 31 8 bis 31 9 kHz 6 kHz 4,5 kHz 3 kHz 4 bis 31 3 kHz 1,5 kHz Tabelle 4-3 Copyright (1Bit) – ein gesetztes Bit signalisiert, dass das Audiomaterial Copyright geschützt ist. Original/Copy (1Bit) – 0 steht für eine Kopie, 1 für ein Original. Emphasis (2 Bit) – gibt Auskunft über eine mögliche digitale Vorverzerrung des Audiosignals. 20 Der Aufbau des MPEG Layer II Audioframes, dargestellt als Tabelle: HEADER b0 Byte 1 b7 1 1 1 1 1 1 1 b8 Byte 2 b15 1 1 1 1 ID L1 L0 b16 Byte 3 BR3 Mode1 ISO Prot b23 BR2 BR1 BR0 fs. 1 fs. 2 Padding b24 Byte 4 1 Private b31 Mode0 ME1 ME0 Copyright Original EM1 EM0 Tabelle 4-4 4.3.1.2 CRC Dieser Block dient der Fehlererkennung. Wird hier ein Übertragungsfehler erkannt, dann wird der Datenrahmen nicht weiter ausgewertet. Hierbei handelt es sich um ein 16 Bit Paritätscheck, zur Fehlererkennung innerhalb der empfindlichsten n Iformationen des MPEG Audiorahmens. Das beinhaltet die zweite Hälfte des Headers, die Angaben über die Bitallokation und Skalenfaktorinformationen. Das CRC Generatorpolynom lautet: G1 (x) = x 16 + x15 + x2 + 1 Für eine detailliertere Beschreibung der Arbeitsweise sei hier auf den technischen Report ETS 300 401 B.1 und E [2] verwiesen. 4.3.1.3 Bit Allocation Der Block der Bitallokation ist einer der wichtigsten Angaben bei der Übertragung des codierten Audiosignals. Hier wird die dynamisch zugewiesene Bitverteilung der Quantisierungsbits für die einzelnen Audioteilbänder und Informationen zur Gruppierung der Audiosamples angegeben. Aus Gründen der effizienteren Codierung stehen dabei nur eine begrenzte Anzahl von Kombinationen an Quantisierungsbitsverteilungen bezüglich der Audioteilbänder zur Verfügung. Diese sind abhängig von Bitrate und Abtastfrequenz (Tabelle B.2 in [1]). Ein iterativer Prozess errechnet die bestmögliche Kombination aus dem begrenzten Vorrat. 21 4.3.1.4 SCFSI SCFSI steht für „scalefactor selection information“ und gibt Auskunft über die Verteilung der Skalenfaktoren. Das ist notwendig, da die Übertragung der Audiosamples in drei Teile pro Audiorahmen, zu je 12 Samples pro Subband aufgeteilt ist. Es ergibt sich dabei die Möglichkeit 3, 2 oder nur einen Skalenfaktor pro Teilband zu übertragen. (Tabelle Anhang E in [1]). 4.3.1.5 Scalefactors Die Skalenfaktoren beschreiben die Wiedergabelautstärken der einzelnen Audiosamples, der im Encoder normierten Teilbänder. Dazu stehen 63 festgelegte Faktoren zur Verfügung, die über einen Tabellenindex angesprochen werden (Tabelle B.1 [1]). 4.3.1.6 Subband Samples Hier sind die quantisierten Audiosamples der einzelnen Audioteilbänder enthalten. Die Verteilung wird aus den Informationen der Bitallokation entnommen. Die, aus den 1152 Audiosamples des Ausgangssignals gewonnenen 36 Samples pro Teilband werden jeweils in 12 Blöcke à 3 Samples gespeichert. 4.3.1.7 Ancillary Data Der MPEG Layer II Audioframe erlaubt das Einfügen diverser Zusatzinformationen. Über diese kann, je nach Anwendung verfügt werden. Probleme können sich ergeben, wenn ein Bitmuster gleich dem Syncwort eingefügt wird. Auch ist zu beachten, dass Zusatzdaten die Audioqualität beeinträchtigen können, wenn die Zusatzdaten den Platz für Audiodaten einschränken. 4.4 Aufbau DAB Layer II Datenstrom Der Aufbau des MPEG Layer II Audiodatenrahmens wurde für die Anwendung in DAB ISO-konform modifiziert. ISO-konform heißt, dass dieser Datenrahmen auch von einem Standard MPEG Layer II Decoder verarbeitet werden kann. Die Modifikationen können von einem Standarddecoder jedoch nicht ausgewertet werden. Bei einem, für DAB genützten Datenrahmen nutzt man den, im ISO-Standard festgelegten Bereich der „Ancillary Data“ um DAB spezifische Zusatzinformationen zu übertragen. 22 Der DAB MPEG Layer II Audiodatenrahmen wurde durch folgende Komponenten ergänzt: • SCF CRC (Skalenfaktor CRC) • PAD (X-PAD und F-PAD) • STUFF 4.4.1.1 SCF CRC (Skalenfaktor CRC) Da der normale ISO-CRC Fehlerschutz für die Anwendung im Rundfunkbereich nicht genügend Sicherheit gibt, ist dem Datenrahmen ein zusätzlicher Skalenfaktor CRC hinzugefügt. Fehler bei der Übertragung der Skalenfaktoren führen zu sehr hässlichen Erscheinungen im Klangbild des decodierten Audiosignals. Da hier die komplette Lautstärkeinformation enthalten ist, können so Pegelsprünge über den gesamten Dynamikbereich auftreten. Um dies zu verhindern, wird der Skalenfaktor CRC ausgewertet. Darauf basierend können Fehlerverschleierungsstrategien im Decoder angewendet werden. So ist es möglich Skalenfaktoren vorangegangener Datenrahmen wieder zu verwenden. Um möglichst kurze Verzögerungszeiten bei der Audiodecodierung zu realisieren, wird der Skalenfaktor CRC immer im vorhergehenden Rahmen übertragen. So kann der Decoder die Gültigkeit der Skalenfaktoren sofort überprüfen. 4.4.1.2 PAD (X-PAD und F-PAD) PAD steht für „Programme Associated Data“ und dient der Überragung von programmspezifischen Zusatzdaten. Funktion und Anwendung werden im folgenden Kapitel erklärt. 4.4.1.3 Stuff Der Bereich des Stuffs dient zum Auffüllen unbenutzbarer Datenbereiche. Dies wird ebenfalls im folgenden Kapitel 4.5 erläutert. 23 Detaillierter Aufbau des DAB MPEG Layer II Audiodatenrahmens: Header CRC Bit Allocation SCFSI Scale Factors Sub-Band Samples first 8ms syncword ID .. . bit rate .. . . M Me C SB 0 L C .. SB 1 SB 2 samples 0,1,2 SB n ............... samples 3,4,5 R SB 0 SB 1 SB 2 ............... SB SB 0 1 2 R X-PAD SCF CRC F-PAD first 8ms samples 6,7,8 SB SB n L L first 8ms Stuff samples 9,10,11 ............... L SB n R R MSB..LSB SB 0 L SB 0 SB 1 SB 2 ............... sample 0 MSB-LSB sample 1 MSB-LSB sample 2 MSB-LSB SB n R SB 1 SB 2 Abbildung 4-3 4.5 Programme Associated Data (PAD) Das “Programme Associated Data” Datenfeld (PAD) ist ein zusätzlicher, optionaler Datenkanal, der im DAB Audiodatenstrom eingebetet ist, und sich am Ende des DAB Audiorahmens befindet (F-PAD) bzw. sich auch direkt an die Subbandsamples oder den „Stuff“ Bereich anschließen kann. Nach ISO-MPEG-Norm ist das PAD Datenfeld Bestandteil der „Ancillary Data“. Aufgrund der Struktur, des DAB Audiorahmens ist dieses alle 24 ms bei einer 48 kHz-, und alle 48 ms bei einer 24 kHz (siehe Kapitel 4.6) Übertragung verfügbar. Theoretisch bietet dieser Datenkanal eine maximale Datenkapazität von 196 Bytes pro Rahmen, in Absprache mit den Endgeräteherstellern hat sich allerdings eine Begrenzung der Kapazität auf 52 Bytes pro Rahmen durchgesetzt. Dadurch, dass diese Daten gleichzeitig mit den Audioinformationen übertragen werden, eignet sich dieser Datenkanal besonders für Echtzeitanwendungen im Zusammenhang mit dem gerade laufenden Audioprogramm. Ein paar Anwendungsbeispiele, die vom DAB Standard vorgesehen sind: • Dynamic Range Control (DRC): Zusatzinformationen zur Nachbearbeitung des genutzten Dynamikbereichs des Audioprogramms • Speech/music indication: Dient zur Unterscheidung zwischen Sprach- oder • Musikübertragung. Kann z.B. am Empfänger zur Lautstärkeanpassung genutzt werden. In-house information: Dies dient zur Übertragung spezieller Sendebetriebsinformationen. 24 • Dynamic Label: Programmbezogener Text. Dieser Service ist Vergleich- bar mit RDS im analogen FM Rundfunk. Zum aktuell laufenden Radioprogramm werden Textmitteilungen übermittelt, die am Empfängergerät dargestellt werden können. Dies sind z.B. Informationen zu laufenden Musiktiteln, Nachrichten, o.ä. • Spezielle Kommandos an Receiver/Decoder: Vorstellbar sind hier Kommandos, die z.B. das Anzeigen eines Bildes, das schon vorher auf den Empfänger übertragen wurde veranlassen. • Universal Product Code/European Article Number Der PAD Datenraum unterteilt sich in zwei Blöcke mit unterschiedlichen Aufgaben und unterschiedlichen Positionen im Audiorahmen. 4.5.1 F-PAD Das F-PAD ist ein fester Bestandteil am Ende jedes Audiorahmens mit der Länge von 2 Byte. Der Inhalt der Daten bezieht sich dabei direkt auf den Inhalt des aktuellen Audiorahmens. Dieser dient z.B. zur Übertragung der Dynamic Range Control (DRC), Speech/music indication, o.ä. Zusätzlich gibt es hier die Möglichkeit, ein weiteres Datenfeld zu signalisieren (XPAD), über dessen Kapazität und Inhalt der Dienstanbieter verfügt. 4.5.2 X-PAD Das X-PAD ist nicht zwingender Bestandteil des DAB Audiorahmens. Dieses wird mit variabler Kapazität, abhängig von der Anwendung, zwischen die codierten Audiosubsamples und dem SCF CRC eingefügt und im F-PAD signalisiert. Es ist zu beachten, dass die Anordnung der Daten des X-PAD im DAB Standard so festgelegt ist, dass 4 Bytes des X-PADs, die sich rückwärts betrachtet direkt an den SCF CRC anschließen, das selbe Schutzniveau genießen, wie der SCF CRC selbst. 25 variable Länge feste Länge 2 Byte 4 Byte Audiodaten X-PAD SCF-CRC F-PAD besser geschützter Teil Abbildung 4-4 Der Sinn erklärt sich durch die Struktur des Datenpakets. Abhängig von der zu übertragenden Datenmenge stellt der DAB Standard zwei unterschiedliche X-PAD Strukturen zur Verfügung: • Kurzes X-PAD (Kapazität 4 Bytes pro Frame) • X-PAD mit variabler Länge Ist im F-PAD ein kurzes X-PAD definiert, so befinden sich die Zusatzdaten direkt in den 4 höhergeschützten Bytes vor dem SCF CRC. Ist im F-PAD ein X-PAD mit variabler Größe signalisiert, dann befindet sich in den 4 höher geschützten Bytes ein „Content Indicator“, der Informationen über die weitere Struktur des gesamten genutzten X-PAD-Feldes enthält. Aufgrund dieser Information kann das X-PAD mit variabler Größe dann spezifisch ausgewertet werden. Aufgrund des indirekten Zugriffs auf diesen Datenblock beziehen sich diese Zusatzdaten immer auf das später folgende DAB Audioframe. Dadurch, dass die Datenkapazität des Audiodatenstroms durch die eingestellte Bitrate festgelegt ist, wird dem Audiocodec ein gewisser Anteil des Datenraums entzogen. Das führt zu einer effektiv geringeren Datenrate für das Audiosignal als eingestellt, was die Klangqualität negativ beeinflussen kann. Da das X-PAD vom Decoder nur Byteweise ausgelesen werden kann, aber der allokierte Datenraum für die Subbandsamples nicht unbedingt bitgenau bis zum X-PAD passt, kann es nötig sein den Zwischenraum mit Leerdaten aufzufüllen. Dieser Zwischenraum wird als „Stuff“ bezeichnet. 26 4.6 Half-sampling-rate (LSF) Audiocodierung 4.6.1 Struktur Die MPEG Layer II Audiocodierung im “half sampling rate” Modus (LSF) ist durch den MPEG 2 Standard (ISO/IEC 13818-3) definiert, und dient der Minderung von Codierartefakten bei niedrigen Bitraten. Dabei wird das Audiosignal nicht mit der, sonst üblichen Abtastfrequenz von 48 kHz codiert, sondern mit der halben Abtastrate von 24 kHz. Dies erlaubt zwar eine Codierung mit nur eingeschränkter Audiobandbreite (max. 11.5 kHz [3]), liefert aber ausgeglichenere Klangergebnisse, mit weniger Codierartefakten, als bei Codierung mit voller Abtastfrequenz. Dies hat zwei Gründe, die eng miteinander verknüpft sind. Einerseits muss nur die halbe Bandbreite des Audiospektrums codiert werden, was dem Encoder ermöglicht, die ihm, zur Verfügung stehenden Bits zur Quantisierung auf das schmalere Audiospektrum zu verteilen. Andererseits ergibt sich eine doppelt so feine Auflösung der zu codierenden Audioteilbänder im Encoder, da sich die Architektur der Polyphasenfilterbank nicht ändert. D.h., alle 32 Teilbänder verteilen sich gleichmäßig über 12 kHz Bandbreite. Das wiederum ermöglicht eine bessere Ausnutzung der psychoakustischen Verdeckungseffekte. Technisch realisiert wird dieses Verfahren durch eine Abtastratenumsetzung im Encoder von 48 kHz auf 24 kHz. Die Codierung erfolgt dann nach dem selben Schema, und nach der selben Architektur, wie bei voller Abtastrate. Es werden dabei ebenfalls 1152 Samples pro Frame in 32 Subbänder zerlegt, analysiert und unterschiedlich quantisiert. Unterschiede ergeben sich lediglich durch die Anwendung optimierter psychoakustischer Modelle und durch die Anwendung anderer Quantisierungsmuster. Nach außen wirksam wird eine neue MPEG Datenrahmenstruktur. Dadurch, dass ein Codierungsfenster 1152 Abtastwerte beinhaltet, diese aber einer niedrigeren Abtastfrequenz zugewiesen sind, ergibt sich eine neue Rahmenlänge von 48 ms. D.h. der MPEG Audiodatenrahmen bei 24 kHz Abtastfrequenz ist doppelt so lang wie bei 48 kHz Abtastrate. Deshalb erfolgt die Übertragung eines „half sampling rate“ MPEG Rahmen in DAB in zwei Teilrahmen. 4.6.2 Bitraten Folgende Abbildungen stammen aus Untersuchungen, die bisherige Ergebnisse von Hörversuchen zusammen gefasst haben [15]. Ohne die Testmethode und deren Auswertung näher zu beschreiben lässt sich vereinfacht sagen, dass hier die Audioqualität über der Bitrate aufgetragen ist. Die drei, horizontal übereinanderliegenden Punkte stellen höchste Bewertung, Mittelwert und niedrigste Bewertung dar. 27 Half-Sampling Rate Coding (MPEG-2 Audio) Full-Sampling Rate Coding (MPEG-1 Audio) 1,0 Subjective Diff-Grade 0,0 -1,0 -2,0 -3,0 -4,0 0 50 100 150 250 Kbit /s 300 200 Bit-rate Layer II Stereo Abbildung 4-5 Man erkennt, dass durch die Verwendung der „half sampling rate“ Codierung mit 64 kbit/s Stereo eine höhere Audioqualität erzielt werden konnte, als mit 128 kbit/s Stereo bei voller Abtastrate. Der empfohlene Übergang von voller Abtastrate zu halber Abtastrate liegt in diesem Bereich innerhalb der genannten Bitraten. Laut Abbildung 4-5 liegt die Grenze bei etwa 96 kbit/s. Half-Sampling Rate Coding (MPEG-2 Audio) Full-Sampling Rate Coding (MPEG-1 Audio) 1,0 Subjective Diff-Grade 0,0 -1,0 -2,0 -3,0 -4,0 0 10 20 30 40 50 60 Kbit/s 70 Bit-rate Layer II Mono Abbildung 4-6 Ähnliches gilt für den Übergang zu „half sampling rate“ bei Monosignalen. Hier liegt die Grenze knapp unter 64 kbit/s. 28 4.7 Fehlerschutzverfahren EEP und UEP Um die Fehlersicherheit der Audiodaten verschiedenen Übertragungsbedingungen anpassen zu können, erlaubt das DAB System die Anwendung einer speziellen Kanalcodierung mit unterschiedlichen Fehlerschutzprofilen für die einzelnen Audiokanäle („Subchannels“). Diese Unterscheiden sich durch unterschiedliche Verhältnisse und unterschiedlicher Verteilung hinzugefügter Redundanz im Datenstrom. Beschrieben wird das Verhältnis durch die Coderate R. Der Wert R= 1/4 drückt aus, dass z.B. vier Bits zu Verfügung stehen, um ein Datenbit zu übertragen. 4.7.1 UEP Da im DAB Audiodatenstrom die verschiedenen Datenblöcke für die Decodierung und der Fehlerverschleierung unterschiedlich wichtig sind, ist für die Audioübertragung ein dynamisches Fehlerschutzprofil vorgesehen, das die hinzugefügte Redundanz der Gewichtung der Datenblöcke anpasst. Dieses Fehlerschutzprofil nennt sich UEP (Unequal Error Protection). Rc = 8 24 Rc = 8 Rc = 8 18 Redundanz Rc = 8 Header BAL SCFSI SCF 19 14 Subband Samples, X-PAD F-PAD SCFCRC 4 Bytes DAB Audiodatenerahmen 24 ms Abbildung 4-7 29 Wie man in der Abbildung 4-7 erkennt, sind die wichtigsten und damit am besten geschützten Datenblöcke des DAB MPEG Audiodatenstroms, der Header, die ISOCRC Fehlererkennung und der „Scale factor select information“ Block. Der Header enthält dabei alle wichtigen Informationen, um den Decoder zu initialisieren, einschließlich des Synchronisationswortes. Der ISO-CRC zeigt an, ob der vorhandene Datenrahmen überhaupt verwertet werden darf. Die Bitallokationstabelle beschreibt den Datenaufbau der Audioinformationen innerhalb des Datenrahmens. Ähnliche Aufgaben haben die „scale factor select information“ Bits. Wenn diese Datenblöcke fehlerfrei vom Decoder empfangen werden, lässt sich die Decodierung des Audiorahmens starten. Fehler, die in anderen Datenblöcken des Audiorahmens auftreten, können bereits jetzt durch Fehlerverschleierungstaktiken überbrückt werden. Aus diesem Grund genießen diese Informationen den höchsten Fehlerschutz. In der Fehlerschutzgewichtung etwas geringer eingestuft, aber immer noch wichtig, wird der Schutz der Skalenfaktoren gewertet. Diese geben Auskunft über die spektrale Hüllkurve des vorhandenen Audioausschnitts. Im Fehlerfall ist es möglich, diese durch vorangegangene Skalenfaktoren zu ersetzen. Um Übertragungskapazität einzusparen lässt sich hier deshalb ein geringerer Datenschutz vertreten. Der geringste Fehlerschutz fällt auf die eigentlichen Subbandsamples, da sich hier Fehler weniger gravierend ausdrücken. Fehlerhafte Subbandsamples äußern sich durch verrauschte Audioteilbänder, deren korrekte Lautstärkewiedergabe durch die Skalenfaktoren sichergestellt ist. Dadurch fallen diese Übertragungsfehler weniger unangenehm auf. Die letzten 4 Bytes vor dem Skalenfaktor-CRC, der eigentliche Skalenfaktor-CRC und das F-PAD werden, bei dem genannten Fehlerschutzprofil wieder höher bewertet, da diese wieder wichtige Systeminformationen enthalten. Der Skalenfaktor-CRC bestätigt dabei immer die Gültigkeit der Skalenfaktoren des Folgerahmens, und steuert damit ebenfalls die Fehlerverschleierungsalgorithmen. Das FPAD enthält unter anderem Informationen zum Aufbau des X-PAD. Analog dazu, aber nicht zwangsläufig vorhanden, stehen in den letzten 4 Bytes vor dem Skalenfaktor-CRC, ebenfalls wichtige Informationen über die Struktur des X-PAD Datenfeldes. Das UEP Profil sieht fünf verschiedene „Protection Levels“ (PL) vor. PL1 ist das sicherste Profil, PL5 das fehleranfälligste. Innerhalb dieser Profile bleiben die Schutzverhältnisse zwischen den Datenblöcken, auch bei verschiedenen Bitraten gleich Tabelle 4-5 gibt Aufschluss über Anwendung und Coderaten der einzelnen Protection Levels. 30 Protection Level Coderate R Coding average Gain Protection Protection Protection Application Coderate R C/I in dB * class 1 class 2,4 class 3 PL1 very high special 0,34-0,36 PL2 high mobile high PL3 good 8/25-8/28 8/19-8/22 +4 0,4-0,43 8/30-8/32 8/20-8/26 8/16-8/17 +2 mobile 0,5-0,51 8/23-8/24 8/16-8/18 8/14-8/15 0 PL4 medium mobil weak 0,57-0,62 8/17-8/21 8/14-8/17 8/12-8/13 -1,5 to – 3,5 PL5 cable 0,72-0,75 8/13-8/16 8/11-8/14 low 8/32 8/10 - Tabelle 4-5 * erwarteter Codiergewinn in einem Rayleigh-Übertrgungskanal mit einer Bitfehlerrate von BER=10-3 in Bezug zu PL3 [8] Es soll nicht unerwähnt bleiben, dass nicht jeder verfügbaren Audiobitrate jeder beliebige Protection Level zugewiesen werden kann. Für 48 kHz Samplefrequenz sind z.B. von 70 möglichen Kombinationen nur 64 definiert. Eine Übersicht gibt Tabelle 2.4 in [3]. Insgesamt steigt natürlich bei hohem Fehlerschutz die Datenmenge, durch die hinzugefügte Redundanz erheblich an, was dazu führt, dass weniger Audioprogramme innerhalb eines DAB-Multiplex übertragen werden können. Dies erzwingt einen vernünftigen wirtschaftlichen Kompromiss zwischen der Anzahl der Programme, verwendeter Bitrate und damit zusammenhängender Audioqualität, und der Fehlersicherheit, die sich ebenfalls auf die Audioqualität auswirkt. 4.7.2 EEP Zusätzlich gibt es das Fehlerschutzverfahren der Equal Error Protection (EEP). Dieses ist vorzugsweise zur reinen Datenübertragung anzuwenden, kann aber auch auf die Audioübertragung angewendet werden. Hier ist ein gleichmäßiger Fehlerschutz über dem ganzen Datenrahmen gewährleistet, der auf eine Gewichtung des Dateninhalts verzichtet. Dabei gibt es acht verschiedene Profile, die ebenfalls abgestuft sind. Es gibt vier A-Profile, die auf Datenraten angewendet werden können, die durch 8 kbit/s teilbar sind. Dann gibt es noch vier B-Profile, deren Anwendung sich auf, durch 64 kbit/s teilbare Datenraten beschränken. 31 Folgende Tabelle gibt Aufschluss über die Coderaten [3]: Protection Level 1-A 2-A 1-B 3-A 2-B 3-B 4-A 4-B Coderate R 1/4 3/8 4/9 1/2 4/7 4/6 3/4 4/5 Tabelle 4-6 4.8 DAB Ensemble und Bitraten Unter dem DAB Ensemble (auch DAB Multiplex genannt) versteht man den zusammengefassten Datenstrom aller verfügbaren Dienste und Programme innerhalb eines DAB Sendekanals. Es hat eine fixe Gesamtkapazität, die aber flexibel unter den verschiedenen Programmen und Diensten aufgeteilt werden kann. Jedes Ensemble bzw. jeder Multiplex wird in einem bestimmten Bereich ausgestrahlt, z.B. bayernweit. Die Anzahl der Audiodienste innerhalb des Ensembles hängt von der Höhe des verwendeten Fehlerschutzes (Protection Level) und der verwendeten Bitrate ab. Der Main Service Channel (MSC) hat eine Übertragungskapazität von 2,304 Mbit/s (brutto). Abhängig von den verwendeten Fehlerschutzniveaus bleiben 0,6 Mbit/s bis 1,8 Mbit/s Datenrate um Nutzdaten zu übertragen. Folgende Tabellen gibt Auskunft über die Anzahl der Audioprogramme, die auf einmal gesendet werden können, wenn für alle Programme die gleiche Bitrate und derselbe Protection Level gewählt wird. 32 kbit/s stehen dabei für einen Datenkanal immer zur Verfügung. Maximale Anzahl von Audioprogrammen im DAB-Ensemble Bitrate MPEG Layer II 24 kbit/s PL 5 PL 4 PL 3 PL 2 PL 1 n/a 64 48 36 24 32 kbit/s 40 kbit/s 54 n/a 41 43 36 28 29 21 24 13 48 kbit/s 36 29 24 20 16 64 kbit/s 80 kbit/s 27 21 20 16 18 14 14 12 12 10 96 kbit/s 128 kbit/s 18 13 14 10 12 9 10 7 8 6 160 kbit/s 10 8 7 6 5 192 kbit/s 224 kbit/s 9 7 7 6 6 5 5 4 4 3 256 kbit/s 6 5 4 3 3 Tabelle 4-7 32 5 Spectral Band Replication 5.1 Grundlagen Spectral Band Replication Spectral Band Replication (SBR) ist ein, von Coding Technologies entwickeltes Verfahren, das einem bandbegrenzten Audiosignal subjektiv bessere Klangeigenschaften durch die Restauration fehlender hoher Spektralanteile verleiht. Die Entwicklung dieses Verfahrens begann 1997 mit dem Ziel, die Codiereffizienz gehörangepasster Audiocodierungsverfahren bei niedrigen Bitraten zu erhöhen. Das grundsätzliche Problem bei sehr niedrigen Bitraten besteht darin, dass unterhalb einer bestimmten Datenrate, trotz extremster Ausnutzung aller psychoakustischen Effekte die Codierartefakte nicht mehr zu unterdrücken sind. Die zur Verfügung stehenden Bits reichen nicht mehr aus, um das Quantisierungsrauschen innerhalb der Teilbänder unterhalb der Maskierschwelle zu halten. Es treten dann sehr unangenehme, künstlich klingende Verzerrungen im Audiosignal auf. Üblicherweise begrenzen deshalb die Codecs die Bandbreite des Audiosignals bei niedrigen Bitraten, um die verfügbaren Bits den wesentlich wichtigeren tiefen Audiobändern zuzuweisen. Dadurch wird das Audiosignal zwar dumpfer, aber es wirkt dennoch in sich ausgeglichener und weist wesentlich weniger künstlich klingende Verzerrungen auf. Noch effektiver lässt sich die Methode der Bandbegrenzung einsetzen, wenn mit der halben Abtastfrequenz gearbeitet wird. Zwar ist durch Verwendung der halben Abtastfrequenz nur die Hälfte der Bandbreite des Audiosignals verfügbar, allerdings wird diese durch die Verschiebung der Filterbänder und damit zusammenhängenden feineren Auflösung wesentlich effizienter ausgenützt (siehe „Layer II half sampling rate“). Abbildung 5-1 Hier setzt nun die Technologie der Spectral Band Replication (SBR) an. SBR macht sich die Eigenschaft zu nutze, dass die Zusammensetzung der hohen Spektralanteile mit denen der tiefen Spektralanteile bei harmonischen Vorgängen korreliert. Erklären lässt sich das dadurch, dass z.B. die menschliche Stimme oder Musikinstrumente ein quasistationäres Anregungssignal erzeugen, das entweder von einem oszillierenden System ausgeht, oder aus unterschiedlichen Rauschquellen gebildet wird. Eine 33 breitbandige Anregung kann durch eine Kombination dieser Quellen erzeugt werden, z.B. Stimmbänder, Saiten oder Klangzungen. Abhängig von der Quelle besitzen diese unterschiedliche Frequenzkomponenten. Daraufhin wird das Anregungssignal durch Resonatoren gefiltert z.B. durch einen Gitarrenkorpus. Dies verleiht der menschlichen Stimme oder Musikinstrumenten ihre charakteristische Klangfarbe. Eine Bandbegrenzung, wie sie bei niedrigen Bitraten von verschiedenen Audiocodierungsverfahren angewendet wird, kann man gleichsetzen mit dem Beschneiden dieser harmonischen Struktur. Dadurch wird die Klangfarbe so verändert, dass das Audiosignal dumpf klingt. Die SBR-Technik basiert auf einem Verfahren zur Wiederherstellung der abgeschnittenen harmonischen Strukturen durch Transponierung des tiefen Basisaudiospektrums in den abgeschnittenen Frequenzbereich. Sehr wichtig ist dabei die spektrale Hüllkurve des Originalsignals so gut wie möglich wieder herzustellen. Dazu wird die spektrale Hüllkurve der später weggelassenen Höhenanteile des Originalsignals vor der Codierung analysiert und Steuerdaten für den SBRDecoder daraus gewonnen, die in das codierte Audiosignal eingebunden werden. Da zusätzlich das richtige Verhältnis zwischen harmonischen und nicht-harmonischen Frequenzanteilen im reproduzierten, hohen Spektrum hergestellt werden muss, wird dem Audiosignal, wenn notwendig, auch selektives Rauschen oder einzelne Sinustöne hinzugefügt, die im SBR-Decoder basierend auf die SBR-Zusatzdaten synthetisiert und dem Ausgangssignal beigemischt werden. Diese Form wird auch parametrische Codierung genannt [12]. Die Idee zur SBR-Technologie hatte Lars Liljeryd, Unternehmensgründer von der schwedischen Firma Coding Technologies. Er beschäftigte sich zu dieser Zeit mit Sprechgeräten für Tiefseetaucher. Tiefseetauchern wird zur Atemluft Helium beigemischt, was die bekannte, über Funk schwerverständliche Mickymaus-Fistelstimme erzeugt. Liljeryd entwickelte ein Unterwassersprechfunkgerät, das mit Hilfe digitaler Technik die Stimmen der Taucher „zurechtrückte“ [13]. 5.2 Realisierung Das Konzept der SBR-Technik sieht vor, dass der SBR-Codec „huckepack“ auf einen normalen Waveform- Audiocodec aufgesetzt wird. Der SBR-Encoder analysiert mittels einer komplexwertigen QMF Filterbank die hohen Frequenzanteile des Eingangsspektrums und gewinnt so Steuerdaten für den SBR-Decoder. Diese enthalten Informationen über die Hüllkurve und die spektrale Zusammensetzung des zu replizierenden Frequenzbandes. Danach wird das Audiosignal von einem konventionellen Audioencoder mit der gewünschten Bitrate codiert. Die real verwendete Datenrate dieses Audiocodecs verringert sich dabei um die Datenrate, die zur Einbindung der SBR-Zusatzdaten (Payload) erforderlich ist und mindert unter Umständen die Codiereffizienz des Basiscodecs. Allerdings tritt dieses Problem erst bei sehr niedrigen 34 Bitraten zum Vorschein. Die SBR-Zusatzdatenrate liegt näherungsweise im Bereich von 2 bis 3 kbit/s pro Audiokanal. Der „normale“ Audioencoder arbeitet dabei mit halber Abtastrate, um das Basisfrequenzband des Audiosignals mit maximaler Qualität zu codieren, auf dessen Basis die oberen Spektralanteile repliziert werden. Die Sampleratenkonvertierung findet dabei erst im konventionellen Basisaudioencoder statt. Ein Multiplexer setzt den Audiodatenstrom einschließlich der SBR-Zusatzdaten zusammen. Ancillary Data Audio Input Ancillary Data normaler Bit Audio Mux Encoder SBR Encoder |X(f)| Audiodaten + SBR-Daten Bit Demux |X(f)| normaler Audio Decoder SBR Decoder Audio Output |X(f)| |X(f)| SBR f 0 0 f 0 f 0 f Abbildung 5-2 Im Decoder wird der Audiodatenstrom wieder zerlegt. Dabei werden die SBRZusatzdaten herausgezogen und dem SBR-Decoder zugeführt. Im „normalen“ Audiodecoder wird das bandbegrenzte Audiosignal wiedergewonnen und zu dem SBRDecodermodul weitergeleitet. Dieser transponiert das bandbegrenzte Audiospektrum nach oben und setzt es auf das Basisspektrum auf. Dies erfolgt durch eine QMF Bank, die das Basissignal in 32 Subbänder zerlegt. Durch zweifaches Oversampling und der entsprechenden Rücktransformation (64-Channel QMF Bank) wird das replizierte Spektralband gewonnen. Zusätzlich gehen die Hüllkurveninformationen aus dem SBR-Datenstrom in diese Transformation ein. Auch selektives Rauschen und tonale Spektralanteile werden aufgrund dieser Daten erzeugt und mit in das Signal eingerechnet. Am Ausgang des Decoders erscheint das Audiosignal wieder in der Originalabtastrate (48 kHz) [13]. Blockschaltbild Encoder Control Parameter Extraction Envelope Extraction Bitstream Multiplexer Bitstream Basis Encoder Input Audio Abbildung 5-3 35 36 Blockschaltbild Decoder Bitstream Bitstream Demux Basis Decoder Bitsream Decoding High Frequency Reconstruction Additional High Frequency Components Envelope Adjustment Output Audio Abbildung 5-4 5.3 Qualität und Kompatibilität Das Verfahren der SBR-Technik, so wie sie bis jetzt realisiert ist (z.B. bei mp3PRO und aacplus), ermöglicht eine vollständige Vorwärts- und Rückwärtskompatibilität zu den herkömmlichen, nicht SBR-fähigen Codierverfahren. So kann ein SBR-codierter Audiodatenstrom durchaus mit einem standardisierten, passenden Audiodecoder wiedergegeben werden. Allerdings muss dabei auf den Gewinn des replizierten Höhenanteils verzichtet werden. Die SBR-Informationen sind so in den Datenstrom eingebunden, dass ein herkömmlicher Decoder diese ignoriert und nur das Basisaudiosignal bei halber Abtastrate, und damit begrenzter Bandbreite ausgibt. Diese Beschränkung gilt allerdings nur für die derzeitigen Implementierungen. Grundsätzlich gibt es auch die Möglichkeit SBR auf einen Waveform-Codec aufzusetzen, der mit voller Abtastrate arbeitet. Das würde bedeuten, dass die feste Bandbegrenzung aufgrund der halben Abtastrate für das kompatible Signal wegfällt. Stattdessen würde die Audiobandbreite wiedergegeben, die der Basisencoder aufgrund der zugewiesenen Bitrate festlegt. Ein SBR-fähiger Audiodecoder kann ebenso Signale decodieren, die keine SBR-Informationen enthalten, also mit einem herkömmlichen Encoder generiert wurden. 37 Zur erreichbaren Audioqualität durch SBR kann gesagt werden, dass sich ein Gewinn durch die SBR-Technologie nur in dem Bitratenbereich zeigt, in dem der zugehörige „normale“ Basiscodec das Audiosignal deutlich verfälschen würde. Durch SBR kann das Audiosignal, auch bei noch so hoher zugewiesener Bitrate, nie hundertprozentig wieder hergestellt werden, da das originale Hochfrequenzspektrum verloren geht und nur durch Parameterübertragung wieder angenähert werden kann. Auch bei sehr kleinen Bitraten scheint das System in die Knie zu gehen, wenn das Basisspektrum, aus dem das hochfrequente Spektralband abgeleitet wird, durch Codierartefakte sehr starken Schaden genommen hat. Zusätzlich besteht die Vermutung, dass SBR gegenüber einem konventionellen Audiocodec bei sehr niedrigen Bitraten sogar an Qualität verliert, wenn die „Payload“, also die SBR Zusatzdaten im Audiobitstrom nicht mehr zu vernachlässigen sind. Allerdings liegen darüber noch nicht ausreichend Erfahrungen vor. Dies müsste erst getestet werden. Bei kleinen und mittleren Bitraten steigt die Codiereffizienz enorm an. Kein wahrnehmbarer Unterschied zum Original Quality waveform codec +SBR waveform codec ? Bit-rate Abbildung 5-5 Abbildung 5-5 soll verdeutlichen, dass durch SBR im Gegensatz zu konventionellen Audiocodecs auch bei noch so hoher Bitrate, nie die Qualität des Originalsignals erreicht werden kann. Im Gegensatz dazu kann ein konventioneller Audiocodec, bei genügend hoher Bitrate, das Originalsignal unverfälscht wiedergeben. Deshalb sinkt die Effizienz durch SBR bei zu hohen Bitraten. 5.4 MPEG 2 Layer III (MP3) + SBR Es gibt bereits Audiocodierungsverfahren, die auf dieser Technik beruhen. So hat die Firma Coding Technologies das Verfahren der Spectral Band Replication auf 38 das legendäre, von der Frauenhofer Gesellschaft - Institut für Integrierte Schaltungen (FhG/ISS) entwickelte Audiocodierungsverfahren MPEG Layer III (mp3) aufgesetzt. Unter dem Namen mp3PRO stellt sich somit ein Audiocodierungsverfahren zur Verfügung, das dieselbe Vorwärts- und Rückwärtskompatibilität aufweist, wie es bei MPEG Layer IISBR der Fall sein soll. Nach eigenen Angaben kann mit mp3PRO eine Reduzierung der Bitrate um 30% bei gleicher Audioqualität erreicht werden. Analog zu MPEG Layer IISBR kann auch mit mp3PRO keine CD-Qualität erreicht werden, aber ein mit 64 kbit/s codiertes Audiosignal klingt qualitativ vergleichbar mit herkömmlichen MPEG Layer III bei einer Bitrate von 100 kbit/s. Dabei wird das Audiosignal mit einer Bandbreite bis 8 kHz normal MPEG Layer III codiert und mit SBR Steuerdaten ergänzt. Im mp3PRO fähigen Decoder wird das Audiospektrum durch SBR bis 16 kHz ergänzt 5. Hörversuche im Rahmen von Tests diverser Audiocodierungsverfahren bei niedrigen Bitraten haben diesen Qualitätssprung bestätigen können [20]. Abbildung 5-6 Die oben dargestellte Abbildung 5-6 zeigt die Gesamtergebnisse aus den erwähnten Hörversuchen, die nach der MUSHRA Testmethode6 bei 64 kbit/s Stereo durchgeführt wurden. Die „Reference“ ist das, bei Versuchsdurchführung versteckte Originalsignal. A3,5kHz stellt ein, auf 3,5 kHz bandbegrenztes Testsignal dar, das durch die angewendete Versuchsmethode vorgeschrieben ist. Getestet wurden folgende kommerziellen Audiocodierungsverfahren: MPEG 2/4 Advanced Audio Coding (AAC), mp3PRO, RealNetworks RealAudio 8 (REA), RealNetworks G2 (RL_), Microsoft Windows Media 8 (WMA) und MPEG 1/2 Layer II (MP3). Eine 100 Punkte Qualitätsskala, auf die später im Zusammenhang mit eigenen Hörversuchen genauer eingegangen wird, stellt die Qualität der getesteten Audiosignale folgendermaßen dar. Das 5 http://www.mp3-tech.org/sbr.html 6 siehe Anhang 11.1 39 obere Ende mit 100 Punkten steht für exzellente Qualität, das untere Ende mit 0 Punkten für sehr schlechte Qualität. Dargestellt sind die Mittelwerte und die dazugehörigen 95%-Vertrauensintervalle 7 der Bewertungen, die aus verschiedenen Testsignalen ermittelt wurden. Wenn man nun das Ergebnis von normalen MP3 (ganz rechts) mit mp3PRO vergleicht, dann erkennt man, welcher Qualitätssprung sich hier einstellt. Während MP3 bei 64 kbit/s mit einer Bewertung von etwa 50 nur mittelmäßige Qualität erreichen konnte (der Bereich zwischen 40 und 60 Punkten wird bei Versuchsdurchführung mit dem Attribut „Fair“ gekennzeichnet), wurde mp3PRO mit etwa 85 Punkten als fast perfekt bewertet (der Bereich zwischen 80 und 100 umschreibt die Qualitätsklasse „Excellent“). Kein anderes im Test verwendetes Codierungsverfahren konnte dieses Testergebnis erreichen. 5.5 Advanced Audio Coding (AAC) + SBR Mindestens ebenso erfolgreich stellt sich die SBR Technik in Symbiose mit einem noch leistungsfähigeren Audiocodierungsverfahren dar. MPEG 2/4 AAC8 stellt die Nachfolgeentwicklung der legendären MPEG Layer III (MP3) Audiocodierung dar. Dieses, speziell für sehr niedrige Bitraten optimierte Codierungsverfahren, das ebenfalls von der FhG-IISS entwickelt wurde, zeigt sich näherungsweise als doppelt so leistungsfähig wie MPEG 1/2 Layer II. 9 Unter dem Namen aacPLUS wurde hier von Coding Technologies ebenfalls die Technik der Spectral Band Replication hinzugefügt. Auch hier zeichnet sich ein deutlicher Qualitätsgewinn ab. Abbildung 5-7 7 siehe Anhang 11.2 8 Advanced Audio Coding 9 http://www.iis.fraunhofer.de/amm/techinf/aac/ 40 Die Abbildung zeigt Ergebnisse, aus denselben Hörversuchen, wie bei zuvor beschriebenen mp3pro. Getestet wurde hier bei 48 kbit/s Stereo. aacPLUS ist in der Graphik unter dem alten Namen AAC+ zu finden, herkömmliches MPEG 2/4 AAC unter der einfachen Abkürzung AAC. Auch hier ist der Qualitätsgewinn zwischen AAC und aacPLUS deutlich zu erkennen. So steigt hier die Bewertung im Durchschnitt von etwa 65 auf 80 der MUSHRA Qualitätsskala. Dies bedeutet, dass die Qualität um annähernd eine Qualitätsklasse von „Good“ nach „Excellent“ steigt. Unabhängig davon durchgeführte Tests, die normal MPEG 2/4 AAC (AAC Pure), aacPLUS (AAC SBR) und AAC SBR Core (wie aacPLUS ohne SBR) vergleichen, zeigen weitere Ergebnisse, die bei einer Datenrate von 24 kbit/s Mono ermittelt wurden. Nur AAC Wideband wurde als Vergleich dazu mit 32 kbit/s codiert. Diese bestätigen den Qualitätsgewinn durch SBR. Die Versuche wurden von Bosch, T-Nova und der BBC durchgeführt [21]. Abbildung 5-8 Abbildung 5-9 Abbildung 5-10 5.6 Anwendungsbeispiel Digital Radio Mondiale (DRM) DRM ist ein internationales Projekt, das 1998 gegründet wurde und ein digitales Rundfunksystem aufbaut, das in den AM-Frequenzbändern unterhalb 30 MHz arbeiten soll. Ähnlich wie DAB das FM-Radio ersetzen wird, stellt DRM den digitalen Er41 satz für den technologisch völlig veralteten AM-Rundfunk dar. Ziel ist es, die Vorteile der geographischen Reichweite dieser Sendefrequenzlagen mit den Vorteilen der Übertragung von Rundfunkprogrammen in digitaler Form zu vereinen. Die Audioqualität soll dabei annähernd FM-Qualität erreichen. Auch hier wird, ähnlich wie bei DAB, das Konzept angewendet, das Audioprogramm mittels wahrnehmungsangepasstem Audiocodierungsverfahren zu übertragen, um damit die Datenübertragungsraten auf das notwendige Maß zu verringern. Da man bei DRM das bisherige Kanalraster von 9/10 kHz beibehalten will, ergeben sich sehr niedrige Datenraten zur Übertragung der Audioprogramme. Die Datenraten für Rundfunkübertragung in Mono liegen bei 20 kbit/s bis 24 kbit/s. Um die angestrebte Übertragungsqualität erreichen zu können, wird hier auf das bereits erwähnte Audiocodierungsverfahren aacPLUS zurückgegriffen. Es ist geplant, dass im Jahre 2003 der Regelbetrieb aufgenommen wird. 6 Adaption von SBR auf MPEG Layer II Bei der Ausstrahlung von Radioprogrammen geht DAB zwar wesentlich sparsamer mit der Sendebandbreite um als ein herkömmliches analoges FM-Radio, trotzdem ist die Übertragungskapazität auch hier begrenzt. Der Main Service Channel (MSC), in dem die eigentliche Nutzdatenübertragung statt findet, verfügt über eine Übertragungskapazität von 2,304 Mbit/s brutto. Abhängig vom Fehlerschutzverfahren kann eine Nettobitrate zwischen ungefähr 0,6 Mbit/s bis 1,8 Mbit/s erreicht werden. Die maximale Anzahl, der Radioprogramme, die ausgestrahlt werden können, hängt dem zufolge von der Bitrate ab, die man einem Rundfunkdienstanbieter zur Verfügung stellen möchte. Daraus ergibt sich der Konflikt zwischen der Gewährleistung einer möglichst hohen Audioqualität bei der Rundfunkübertragung und andererseits dem Angebot eines möglichst reichhaltigen Radioprogramms. Dies ist sicherlich auch eine wirtschaftliche Frage. Das Interesse seitens der DAB-Betreiber liegt wohl darin, möglichst viele Programme auszustrahlen, um das Interesse der Hörer am digitalen Rundfunk zu steigern und die Wirtschaftlichkeit durch die Vergabe vieler Rundfunkkanäle an verschiedene Sender zu erhöhen. Potentielle Programmanbieter sind interessiert daran, sich möglichst wirtschaftlich in den digitalen Rundfunk einzukaufen. Daraus ergibt sich die Konsequenz, dass die zur Verfügung stehenden Bitraten für die einzelnen Programmanbieter teilweise sehr knapp bemessen werden müssen, was zu erheblichen Einbußen in der zu übertragenden Audioqualität führen kann. So ist hier in Deutschland die Ausstrahlung eines Programms mit mehr als 192 kbit/s (z.B. Bayer 4 Klassik) schon die Ausnahme geworden. Üblicherweise werden die Rundfunkprogramme hier mit 160 kbit/s (z.B. Bayern Mobil) bis 128 kb/s Stereo gesendet, in England sogar ausschließlich. Spezielle Sprachdienste, wie Verkehrsmeldungen, werden teilweise sogar mit 48 kbit/s Mono im „half sampling rate“ Modus 42 ausgestrahlt. 128 kbit/s Stereo oder 48 kbit/s Mono hinterlässt mehr oder weniger deutlich hörbare Artefakte im Audiosignal. (siehe Kapitel 4.2.1.3 Veränderungen im Klangbild). SBR könnte diesen Konflikt zwischen kommerziellen Aspekten und Audioqualität entscheidend entschärfen. 6.1 Prinzipielle Funktionsweise Wie bereits erläutert, ist die SBR-Technik ein Codierverfahren, das „huckepack“ auf ein beliebiges Audiocodierungsverfahren (typischerweise ein Waveform-Codec) aufgesetzt werden kann. Nach den einer deutlichen Verbesserung der Qualität bei mp3PRO und aacPLUS bietet es sich an, SBR auch auf MPEG Layer II, speziell für die Anwendung im Bereich DAB, anzuwenden. Anfängliche Versuche von Coding Technologies deuteten eine erfolgsversprechende Kombination beider Verfahren an. Allein die Tatsache, dass das Konzept von DAB generell vorsieht, Zusatzinformationen zum laufenden Audioprogramm in den MPEG-Layer II Audiodatenstrom einzubinden, und zu übertragen führt zu Überlegungen, in diesen Datenstrom die SBRZusatzdaten hineinzupacken und dadurch, mit SBR-fähigen DAB-Empfängern, die subjektive Audioqualität eventuell deutlich zu erhöhen. Die Abbildung 6-1 zeigt den grundsätzlichen Aufbau eines solchen Systems. Ancillary Data Audio Input PCM 48 kHz SBR Encoder MPEG Layer II DAB Encoder Ancillary Data Bit Mux MPEG Layer II DAB Datenstrom mit SBR-Daten Bit Demux MPEG Layer II DAB Decoder SBR Decoder Audio Output PCM 48 kHz 24 kHz kompatibles nicht-SBR aufbereitetes Audiosignal 24 kHz Abbildung 6-1 Eingangsseitig wird der MPEG Layer II + SBR (MPEG Layer IISBR) Encoder mit einem in der Rundfunktechnik üblichen 48 kHz Einganssignal gespeist. Das SBREncodermodul analysiert das Signal und extrahiert daraus Steuerdaten, die zur Replizierung des hochfrequenten Audiospektralanteils notwendig sind. Das Audiosignal wird dann auf der Basis eines DAB MPEG Layer II Standardencoders im „half sampling rate“ Modus mit 24 kHz Abtastrate und der gewünschten Bitrate komprimiert. Danach bindet ein Multiplexer die SBR-Steuerdaten in den DAB MPEG Layer II Audiodatenstrom ein. 43 Im DAB Audiodecoder werden zuerst die SBR-Steuerdaten aus dem MPEG Layer II Datenstrom wieder ausgelesen. Ein Standard DAB Audiodecoder rekonstruiert nun das, mit 24 kHz Abtastrate codierte Audiosignal wieder. Die SBRSteuerdaten im MPEG Datenstrom werden dabei vom DAB Audiodecoder ignoriert bzw. nicht erkannt. Mit Hilfe der Encoder-seitig gewonnenen SBR-Steuerdaten ist das SBRDecodermodul nun in der Lage, das Audiosignal aufzubereiten. Mittels einer Abtastratenwandlung steht das Audiosignal am Ausgang mit voller Bandbreite und 48 kHz Abtastrate zur Verfügung. 6.2 MPEG Layer II DAB Rahmenstruktur mit SBR Wie bereits erklärt, müssen die SBR Steuerdaten in den MPEG Audiostrom als Zusatzdaten eingebunden werden. Damit kann garantiert werden, dass die Information für die Decodierung von Layer II und die Zusatzinformation für SBR über die komplette DAB Übertragungskette synchron bleiben. Dabei darf aber weder der ISOnoch der DAB Standard verletzt werden. Einerseits muss gewährleistet sein, dass sich die Zusatzdaten im Bereich des ISO 11172-3 spezifizierten Bereich der „Ancillary Data“ befinden andererseits darf der, im DAB-Standard ETS 300 401 festgelegte Aufbau des PAD Datenfeldes nicht verändert werden. Aus diesem Grund sitzt der SBR Datenteil direkt hinter den Subbandsamples vor dem „Stuff“-Block, der das PAD einleitet. Dadurch ergibt sich zwar der Nachteil, dass die SBR-Steuerdaten die Übertragungskapazität mindern, die sonst zur feineren Quantisierung der Subbandsamples genutzt werden könnte. Dies muss jedoch unabhängig vom Ort der Einfügung der Zusatzinformation, generell in kauf genommen werden. Dieser Verlust fällt nur für nicht SBR-kompatible DAB-Decoder ins Gewicht, da der Qualitätsgewinn durch SBR überwiegt (siehe 6.11 Kompatibilität mit dem bestehenden DAB-Standard). Probleme durch die SBR-Zusatzdaten entstehen ansonsten möglicherweise erst bei sehr niedrigen Bitraten, wenn das Basisaudiosignal nicht mehr mit ausreichender Qualität codiert werden kann, wobei diese sehr niedrigen Datenraten für den Einsatz im Rundfunkbereich im Prinzip nicht in Frage kommen. 44 MPEG DAB Audio Layer II + SBR Frame HEADER CRC Bit Allocation SCF SI Scalefactors Subband Samples S B R S T U F F X-PAD SCF CRC FPAD Abbildung 6-2 Abbildung 6-2 zeigt die Position des SBR-Datenpakets Rahmen. im DAB MPEG Layer II Um die Kompatibilität zum ISO- als auch zum DAB-Standard zu verdeutlichen, sind die unterschiedlichen Rahmenstrukturen der verschiedenen Standards zusätzlich noch detaillierter dargestellt. Der Aufbau des Rahmens bis zu dem Datenbereich der Subbandsamples ist dabei identisch und ist hier somit nicht mehr weiter gekennzeichnet. 1) ISO 11172-3 Layer II codierter Audiodatenstrom C R Sub-band Samples Ancillary Data 2) DAB codierter Audiodatenstrom Sub-band Samples X-PAD Stuff 3) MPEG Layer II + SBR codierter Audiodatenstrom C R Sub-band Samples SBR-Info DAB Ancillary ISO 11172-3 Ancillary Data (5...6 kbit/s for Stereo Signal) Abbildung 6-3 45 6.3 Komplexität und Aufwand Die SBR-Technologie zeigt sich als ein sehr rechenintensives Verfahren. allerdings im Vergleich zu einer normalen MPEG Layer II Codierung bei voller Abtastrate von 48 kHz würde die Erweiterung durch SBR den Rechenaufwand weniger stark erhöhen, als man vielleicht durch die komplexen Vorgänge des SBR-Verfahrens erwarten könnte. Diese Annahme beruht auf der Tatsache, dass der Basis- MPEG Layer II Encoder. bzw. Decoder, auf dem SBR aufgesetzt ist, im „half sampling rate“ Modus mit 24 kHz Abtastfrequenz arbeitet. Das sollte den Rechenaufwand des Basis MPEG Layer II Codecs halbieren. Erfahrungen anhand der mp3PRO Implementierung haben gezeigt, dass sich Encoder-seitig der Rechenaufwand kaum steigert, da hier lediglich eine Analyse des eingehenden Audiosignals vorgenommen wird. Sehr viel rechenintensiver zeigt sich die Decoderseite, da hier zum einen die Replizierung des hohen Spektralanteils aus dem vorhandenen Basisaudiospektrum vorgenommen werden muss und zum anderen künstliche Spektralanteile aufgrund der Steuerdaten synthetisiert werden müssen.10 Vereinfacht kann man das SBR-Modul als dem MPEG Layer II Decoder nachgeschaltetes weiterverarbeitendes Glied, in der Signalkette betrachten. Deshalb addieren sich die Systemanforderungen des SBR-Decoders zu denen eines Standard MPEG-Layer II Decoders. Ähnlich wie bei dem aacPLUS oder mp3PRO. 6.3.1 Harwareresourcen Die SBR-Codierungs-Algorithmen können auf Festkomma-DSP’s ausgeführt werden. Die dafür vorgesehene Wortbreite sollte größer oder gleich 20 Bit sein. Die typische Wortbreite solcher DSP's ist 24 Bit. Eine Implementierung auf einem 16 Bit Prozessor wird dann möglich, wenn auf die notwendige Präzision bei der internen Verarbeitung geachtet wird. Es wird die Möglichkeit angedeutet, dass im Decoder auf einen separaten Dateneingangspuffer für den SBR-Decoder verzichtet werden kann, da der Datenausgabepuffer des MPEG Layer II Decoders dafür wiederverwendet werden kann [14]. Interessant ist ebenfalls, dass Coding Technologies selbst einen ebenfalls mit SBRTechnik ausgestatten DRM-Receiver vorgestellt hat, der ausschließlich mit Standardbaukomponenten ausgestattet ist. 6.3.2 Laufzeitmessung auf dem PC SBR II 10 Aufgrund der Erfahrungen mit mp3PRO und aacPLUS ist bei MPEG Layer ein dreifacher Rechenaufwand zu erwarten. Um diese Abschätzung praktisch zu http://www.intel.com/deutsch/home/howto/music/mp3/interview/kunz.htm 46 bestätigen, wurde eine Laufzeitmessung auf einem PC durchgeführt, in dem ein und dasselbe Audiotestsignal, mit und ohne SBR-Erweiterung, zu codieren und zu decodieren war. Gemessen wurde die dafür benötigte Zeit. Verwendet wurde dazu ein Win32-PC Pentium III mit 500 MHz. Das Testsignal bestand aus 15 Minuten rosa Rauschen, das als PCM-codiertes WAV-File vorlag. Als Encodersoftware diente die von Coding Technologies entwickelte und noch nicht voll optimierte Software „Layer 2 + SBR Demo Encoder V 0.7.0 (build Jul 25 2002)“ und „MPEG-1/2 Layer 2 Demo Encoder V 1.5.0 (build Feb 26 2002)“, die unter anderem auch für die Audioqualitätstest verwendet wurde. Decodiert wurden die entsprechenden Layer II-Dateien mit der Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build Jul 15 2002)“ und dem Winamp der Version 2.80. Folgende Werte wurden ermittelt: Codierung 64 kbit/s Jointstereo 128 kbit/s Jointstereo 128 kbit/s Stereo Decodierung 64 kbit/s Jointstereo 128 kbit/s Jointstereo 128 kbit/s normal stereo Layer IISBR Layer II Faktor 03:16 min 01:25 min 2,31 03:14 min 01:39 min 1.96 03:12 min 01:35 min 2,02 Layer IISBR Layer II 02:31 min 00:55 min 2,74 02:31 min 00:55 min 2,74 02:34 min 00:55 min 2,80 Tabelle 6-1 Eine Abschätzung des Rechenaufwands lässt sich so über die festgestellten Laufzeitunterschiede ermitteln. Für die Codierung ergibt sich grob ein Verhältnis um den Faktor 2, für die Decodierung um den Faktor 3. Dies spiegelt ebenfalls wieder, dass der Rechenaufwand im Decoder durch SBR deutlich mehr ansteigt, als im Encoder. 6.4 Hörversuch zur Auswahl des Basisencoders Wie bereits beschrieben, muss SBR auf einen normalen Standardcodec aufgesetzt werden. Um dies für Layer II zu realisieren, musste entschieden werden, auf 47 welche MPEG Layer II Encoderimplementierung SBR angewendet werden soll. Zur Auswahl standen zwei MPEG Layer II Softwareencoder. Zum einen die IRT eigene Software „MPEG-1 and MPEG-2 LSF Audio Layer II Reference Encoder by Soeren H. Nielsen, IRT, Munich, Version : 1995-04-26“ , die auf einem Silicon Graphics Rechner zu betreiben ist, und von Soeren H. Nielsen für den „half sampling rate“ Betrieb bei niedrigen Bitraten optimiert worden ist, und zum anderen eine, von Coding Technologies vorgeschlagene Software „MPEG-1/2 Layer 2 Demo Encoder V 1.5.0 (build Feb 26 2002)“, die als Windowsanwendung zur Verfügung stand. Um herauszufinden, welche Implementierung die qualitativ hochwertigeren Ergebnisse liefert, wurde ein Hörversuch durchgeführt. Ziel war es, mit möglichst wenig Testsequenzen den Charakter der beiden Implementierungen zu erfassen, und ihre Stärken bzw. Schwächen aufzuzeigen. Dazu wurden alle festzulegenden Parameter auf beide Encoder angewendet und dann verglichen. 6.5 Verwendete Testaudiosequenzen (Items) Für die Hörversuche wurden 6 verschiedene Audiotestsignale ausgewählt. Dabei wurde versucht ein breites Spektrum an unterschiedlichen Ausgangsquellen zu berücksichtigen, die inhaltlich dem gängigen Rundfunkprogramm entsprechen. So wurde darauf verzichtet, besonders kritisches Audiomaterial zu wählen, bei denen das Audiocodierungsverfahren MPEG Layer II auch bei höheren Bitraten bekanntermaßen Schwierigkeiten aufweisen. Angestrebtes Ziel für DAB sollte in erster Linie sein, den analogen UKW Rundfunk zu ersetzen, und dieser erhebt keinesfalls den Anspruch, immer perfekte Qualität zu vermitteln. Wie bereits erwähnt, kann sich SBR schon aus konzeptioneller Sicht das Originalsignal spektral nie perfekt wiedergeben, so dass mit diesen Versuchen nicht ermittelt werden sollte, welche Fehlcodierung der verwendeten Implementierungen schadhafter ausfällt. Lediglich eine Cembaloaufnahme als kritischstes Beispiel ist in die Versuchsreihe aufgenommen worden. Zusätzlich kamen Beispiele aus verschiedenen Sparten des Rundfunkprogramms hinzu: Ein Auszug aus einem klassischen Konzert mit Orchester, ein Ausschnitt rhythmischer Popmusik, eine solo gesungene Gesangsphrase, eine Sprachaufnahme, und eine Sportreportage mit Stadionatmosphäre. Es handelte sich dabei immer nur um kurze Auszüge von 10 bis 20 Sekunden Länge. Testsequenzen im Überblick 1. Cembalo (9 sec.) (Sequenz von Einzeltönen über 3 Oktaven) 2. klassischer Konzertausschnitt (14 sec.) (Brahms Symphonie Nr.1 C-Moll Opus) 48 3. Popmusik (15 sec.) (rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop) 4. Sprachsignal (19 sec.) (männlicher Sprecher, trocken) 5. Sologesang (10 sec.) (Gesang weiblich mit leichtem synthetischen Effektanteil) 6. Sportstadion (12 sec.) (Kommentiertes Eishockeyspiel) Quellenangaben zu den Testsequenzen sind im Anhang unter 11.3 zu finden. 6.6 Verwendete Bitraten und Audiomodi Da es sich bei diesem Hörtest um einen vorbereitenden Versuch handelt, wurde entschieden, die möglichen Bitraten und Audiomodi nur grob abzustecken. Für die Monoanwendung wurden 64 kbit/s LSF und 80 kbit/s gewählt. Für die Stereoanwendung wurden 96 kbit/s LSF, 128 kbit/s, sowohl LSF, als auch „full sampling rate“ gewählt. Im Überblick: 64 kbit/s Mono (LSF) 80 kbit/s Mono 96 kbit/s Jointstereo (LSF) 128 kbit/s Jointstereo (LSF) 128 kbit/s Jointstereo 192 kbit/s Jointstereo 6.7 Testmethode Die Testbedingungen entsprechen den Forderungen aus dem Dokument „DRAFT NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ von 29. März 2001 zur subjektiven Abschätzung von Audioqualitäten mittlerer Güte in abgewandelter Form. Die mit MUSHRA abgekürzte Bezeichnung für die Versuchsmethode steht für „MUlti Stimulus test with Hidden Reference and Anchor“, allerdings wurde hier auf die „Anchors“ (Ankersignale) und die „hidden reference“ verzichtet. Eine genaue Beschreibung der MUSHRA Testmethode ist im Anhang unter 11.1 zu finden. Die Versuchsdurchführung wurde vereinfacht, da es sich hier nur um einen vorbereitenden Hörversuch gehandelt hat, der lediglich die Qualitäten der beiden getesteten MPEG Layer II Encoder vergleichen sollte. Die Ergebnisse stellen eine interne Information 49 dar, die keinem Vergleich mit extern durchgeführten Hörtests standhalten muss. Bei dem hier durchgeführten Hörversuch bekamen die Versuchsteilnehmer das Originalsignal als bekannte Referenz. Parallel dazu lag die codierte Testsequenz in allen Kombinationen von beiden MPEG Layer II Softwareencodern gleichzeitig vor. Unterschieden wurde lediglich zwischen Mono und Stereo Beispielen. Dieser Vergleich wurde jeweils separat durchgeführt. Während das Signal spielt, konnten die Versuchsteilnehmer zwischen den Sequenzen hin und her schalten, und die Qualität mittels einer Skala zwischen 0 und 100 im Vergleich zur bekannten Referenz bewerten. Auf die Skala verteilen sich gleichmäßig die Qualitätsklassen „Bad“, „Poor“, „Fair“, „Good“ und „Excellent“. Bewertet wird jede Testsequenz mittels eines Schiebereglers entlang der 5-teiligen Skala mit etwa 10 cm Länge. Bewertungsskala: 100 Excellent Good Fair Poor 0 Bad Abbildung 6-4 Durchgeführt wurde der Hörversuch mittels der Software CRC-SEAQ Subjective Test Module, Version 1.18 6.8 Vorbereitung der Versuche Um geeignete Referenzsequenzen für die Hörversuche anbieten zu können, und geeignete Audioeingangsformate für die Codierung zu erzeugen, mussten alle Audiobeispiele in Stereo bzw. in Mono mit Abtastraten von 48 kHz vorliegen. Außerdem war es nötig, ebenfalls 24 kHz Versionen zu erzeugen, da diese bei einigen Encodern für die „half sampling rate“ Codierung notwendig waren. Dazu wurde die Software Samplitude Vers. 6.0 verwendet, da diese qualitativ hochwertige Samplekonvertierungsalgorithmen implementiert zu haben scheint. Um aus den vorhandenen Stereomaterialien entsprechende Monoversionen zu erzeugen, wurde je nach Aufnahmetechnik unterschiedlich verfahren. Bei Sprache und bei Cembalo war es sinnvoll nur den linken Stereokanal als Monosignal zu nützen, da diese Stereoaufnahmen mit einer bestimmten Aufnahmetechnik produziert worden sind, die zwei Mikrofone mit Kugelrichtcharakteristik verwendet. Bei den restlichen komplexen Stereoproduktionen wurden beide Kanäle addiert und um 3dB gesenkt. Bei vorbereitenden Versuchen mit verschieden MPEG Layer II Software Encoder bzw. Decoder hat 50 sich gezeigt, dass die Audiobeispiele nach der Decodierung nicht mehr die Originallänge besitzen. Dass sich die Längen der Testsequenzen nach der Decodierung am Ende verändern, war zu erwarten, da die MPEG-Codierung bekanntermaßen mit 24 ms (bei 48 kHz) bzw. 48 ms (bei 24 kHz) Rahmen arbeitet, und das letzte MPEG Layer II Frame zur Not mit Nullen aufgefüllt werden muss. Es hat sich aber herausgestellt, dass die verwendete Software (Encoder oder Decoder) teilweise auch den Beginn der Audiobeispiele digital durch Stille ergänzt. Da bei der Durchführung des Hörversuchs, während der Wiedergabe zwischen verschiedenen Testsignalen hin und hergeschaltet wurde, um vergleichend die Klangqualität beurteilen zu können, mussten beide Testsequenzen absolut synchron zueinander abgespielt werden. Um die Testsignale annähernd samplegenau schneiden zu können, wurde entschieden, vor jedes Tonbeispiel einen kleinen Referenzimpuls zu setzen, der nach der Decodierung als gleich bleibender Fixpunkt zum Schneiden dient. Danach wurden alle Testsequenzen, gemäß der gewählten Bitraten und Einstellungen mit der entsprechenden Software codiert. Um die MPEG Layer II Beispiele wieder als PCM codiertes WAV-File vorliegen zu haben, wurden alle Layer II-Dateien mit der Software Soundapp v2.7.3 auf einem Apple Macintosh G4 decodiert. Diese Software war als einzige in der Lage, auch die nach dem MPEG 2-Standard codierten Dateien korrekt zu decodieren und wiederzugeben. Der MPEG-2 Standard scheint vielen Softwaredecodern noch Probleme zu bereiten. So trat vermehrt das Problem auf, dass Audiodateien mit 24kHz Abtastrate nach der Decodierung in der falschen Frequenzlage abgespielt wurden (Mayah Communication Recorder Software 3.0.3.2, Terran Interactive Inc. Media Cleaner 5.1.2). Anhand des hinzugefügten Referenzimpulses wurden die Dateien so geschnitten, dass sie bei gleichzeitigen Abspielen absolut synchron zueinander liegen. 6.9 Durchführung Die Hörversuche wurden mit 10 Probanden in einer ruhigen Umgebung (Studio im IRT) durchgeführt. Dazu stellten sich Mitarbeiter des IRT zur Verfügung, die Sachgebiets-bedingt, ein geschultes Gehör besitzen. Vor dem eigentlichen Hörversuch wurde jede Person anhand einer kurzen Einführung und einer Demonstration mit den Testbedingungen vertraut gemacht. Aufgrund der 6 verschiedenen Kombinationen von Bitrate, Samplerate und Audiomodi mussten 6 Durchgänge mit je 12 Testsequenzen bewertet werden. Als Referenz wurde bei den Monosequenzen ebenfalls ein Monosignal angeboten, um zu verhindern, dass das fehlende Stereobild ebenfalls in die Bewertung eingeht (das würde nichts über die Qualität des Encoders aussagen). Bei Stereobeispielen diente natürlich das originale Stereosignal als Referenz. Der Versuch wurde auf einem PC (Windows 2000) mit der Software CRCSEAQ Subjective Test Module, Version 1.18 durchgeführt. Abgehört wurde über 51 Stax-Kopfhörer. Die Lautstärke konnte in einer Testphase von den Teilnehmern selbst gewählt werden, sollte dann aber während des ganzen Versuchablaufs beibehalten werden. 6.10 Ergebnisse aus dem Hörversuch zum Encodervergleich Ausgewertet wurden die Ergebnisse anhand der Mittelwerte der Beurteilungen der Teilnehmern zu den einzelnen Sequenzen und anhand der dazugehörigen Vertrauensbereiche 11. Abbildung 6-5 zeigt die Bewertungsergebnisse über alle getesteten Sequenzen. ± 95% Vertrauensbereich Mittelwerte über alle Test-Items 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad CT 64 kb ps Mo no IRT LS F 64 kb ps Mo no LS F CT 80 kb ps Mo no IRT 80 CT kb 96 ps kb Mo ps no Jo ints tere IR T9 oL SF 6k bp sJ oin tste CT reo 12 8k LS bp F sJ oin IRT tste reo 12 8k LS bp F sJ oin tste reo LS CT F 12 8k bp sJ oin IR tste T1 reo 28 kb ps Jo ints CT ter eo 19 2k bp sJ oin IR tste T1 reo 92 kb ps Jo ints ter eo 0,00 Abbildung 6-5 Legende: CT Encoder Coding Technologies IRT Encoder Institut für Rundfunktechnik Bei Betrachtung der Mittelwerte über alle Testsequenzen erkennt man, dass sich beide Encoder kaum voneinander unterscheiden. Alle Mittelwerte liegen ganz dicht beieinander und die Vertrauensbereiche überlappen sich stark. Es ist eine ganz leichte Tendenz zu erkennen, dass der von Coding Technologies bereitgestellte MPEG Layer II Encoder leicht besser bewertet wurde. Durch eine genauere akusti11 siehe Anhang 11.2 52 sche Analyse der unterschiedlichen Testsignale konnte festgestellt werden, dass der Encoder von Coding Technologies, zwar leicht stärkere Codierartefakte erzeugt, aber ein breiteres Obertonspektrum besitzt. Dies schien von den Versuchsteilnehmern bevorzugt zu werden. Aus diesem Grund wurde entschieden, den von Coding Technologies vorgeschlagenen Encoder als Basisencoder für das zukünftige Layer IISBR zu verwenden. Das hatte den weiteren Vorteil, dass Coding Technologies mit einer ihnen vertrauten Implementierung arbeiten konnte, was wahrscheinlich auch eine Arbeits- und Zeitersparnis mit sich bringt. Leider war zu Beginn dieser Untersuchungen noch nicht ganz klar, auf welche Merkmale bei der Auswertung besonders zu achten wäre, sonst hätte man gezielter die Ergebnisse der Encoder bei der „half sampling rate“ Codierung bewertet, da der Basisencoder für SBR in dieser Betriebsart arbeitet. Bei genauer Betrachtung der einzelnen Testsequenzen, speziell bei dieser Betriebsart, kann man auch Bewertungstendenzen feststellen, die für die Verwendung des IRT-eigenen Encoders gesprochen hätten. Allerdings sind auch hier die Unterschiede minimal. Die Bewertungsergebnisse zu den einzelnen Testsequenzen sind im Anhang zu finden. 6.11 Kompatibilität mit dem bestehenden DAB-Standard Eine große Stärke zeigt sich in der kompatiblen Art und Weise, wie die SBRErweiterung für MPEG Layer II implementiert ist. MPEG Layer IISBR gewährleistet volle Rückwärtskompatibilität zu bisherigen MPEG Layer II Decodern mit der Einschränkung, dass auf die SBR-Audioaufbereitung verzichtet werden muss, d.h. das gewonnene Signal klingt dumpfer. Dadurch, dass MPEG Layer IISBR zum jetzigen Entwicklungsstand auf ein im „half sampling rate“ Modus (24 kHz) codiertes DAB Standard MPEG Layer II Codec aufsetzt, ist es möglich mit jedem Decoder, der den MPEG 2 Standard unterstützt, das Basisaudiosignal zu decodieren. Dabei wird das Basissignal mit einer Audiobandbreite von 11.5 kHz übertragen12. Das Konzept von Layer IISBR sieht auch die Vorwärtskompatibilität vor. Ähnlich wie bei mp3PRO ist es so möglich, einen codierten Standard MPEG Layer II Datenstrom ohne Klangeinbußen mit einem MPEG Layer IISBR -Decoder zu decodieren. (Ein vorläufiger Test zur Vorwärtskompatibilität, bei dem ein Standard MPEG Layer II Datenstrom (128 kbit/s 48 kHz) mit der SBR-fähigen Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build Jul 15 2002)“ decodiert wurde, hat gezeigt, dass hier in der aktuellen Version noch Probleme auftauchen. Das Testsignal wurde mit nur 11 kHz Bandbreite wiedergegeben.) Für DAB heißt das, dass Hörer, die sich bereits zur Anschaffung eines DABEmpfängers entschlossen, auf keines der mit Layer IISBR ausgestrahlten Sendungen 12 siehe 4.6 Half-sampling-rate (LSF) Audiocodierung 53 verzichten müssten, soweit das Gerät den MPEG 2 Standard unterstützt. Die SBRZusatzdaten im DAB Audiodatenstrom werden bei diesen DAB-Empfängern nicht erkannt, da diese nach DAB-Standard nicht zum PAD gehören, bzw. nach ISOStandard schon zum frei zur Verfügung stehenden „Ancillary Data“ Paket gehören. Alle DAB-Empfänger ab der 5.Generation unterstützen diesen Standard. Die Vorwärtskompatibilität ermöglicht es dem DAB-Hörer mit einem SBR-fähigen Gerät auch normal DAB MPEG Layer II codiert ausgestrahlte Sendungen zu verfolgen. Getestet wurde die Rückwärtskompatibilität mit folgenden Geräten: IRT-DAB Scout, Terratec DR-Box, Technics Receiver ST-GT1000. Weiterhin bemerkenswert ist die Tatsache, dass sich eine völlige Transparenz in der Gestaltung des DAB-Ensembles ergibt. Das DAB-Ensemble ist ein Multiplex aller, über einem Sendekanal ausgestrahlten Sendungen und Dienstleistungen. Innerhalb dieses Datencontainers ist es im Rahmen, der zur Verfügung stehenden Gesamtdatenrate möglich, normal DAB Layer II und DAB Layer IISBR codierte Sendungen zu kombinieren, sowohl gleichzeitig zwischen den ausgestrahlten Radiodiensten, als auch zeitlich innerhalb eines Dienstes. 7 Hörversuche Codiergewinn Um den Codiergewinn von MPEG Layer IISBR zu dem bislang existierenden MPEG Layer II zu ermitteln, wurden verschiedene Audiotestsequenzen mit unterschiedlichen Bitraten in Stereo, Jointstereo und Mono mit entsprechender Software codiert und wieder decodiert. Danach wurden Hörversuche mit erfahrenen Testpersonen aus der Abteilung Audiosystemtechnik (AS) am Institut für Rundfunktechnik (IRT) durchgeführt, bei denen es die angebotenen Audiobeispiele zu vergleichen und zu bewerten galt. Der Gewinn soll anhand folgender Fragenstellungen ermittelt werden: Wie viel Bitrate lässt sich bei gleichbleibender Audioqualität einsparen (Codiergewinn) bzw. welcher Audioqualitätsgewinn lässt sich anhand einer vorgegebenen Qualitätsskala subjektiv bei fester Bitrate feststellen (Qualitätsgewinn). 7.1 Verwendete Testaudiosequenzen (Items) Für die Hörversuche wurden die selben Testsignale verwendet, wie für den Hörversuch zur Vorauswahl des Basis MPEG Layer II Encoders. Es gab keine Veranlassung diesen Versuch andere Sequenzen zu wählen, um den Versuch kritischer oder weniger kritisch zu gestalten. Auch die Auswahl der Testsequenzen hat sich auf ihre Eignung hin bestätigt. Die Länge von 10 bis 20 Sekunden wurde ebenfalls beibehalten. 54 Verwendet wurde wieder: 1. Cembalo (Sequenz von Einzeltönen über 3 Oktaven) 2. klassischer Konzertausschnitt (Brahms Symphonie Nr.1 C-Moll Opus) 3. Popmusik (rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop) 4. Sprachsignal (männlicher Sprecher) 5. Sologesang (Gesang weiblich mit leichtem Effektanteil) 6. Sportstadion (Dokumentiertes Eishockeyspiel) Quellenangaben zu den Testsequenzen sind im Anhang unter 11.3 zu finden. 7.2 Verwendete Bitraten und Audiomodi Um die Hörversuche in einem vernünftigen, und für eine Diplomarbeit angebrachten Zeitrahmen durchführen zu können, wurde ein Grundset von Bitraten und Kanalmodi von MPEG Layer II und MPEG Layer II + SBR zum Vergleich und zur Bewertung angeboten. Es wurde eine Vorauswahl auf der Basis von der Erfahrung erfahrener IRT-Mitarbeiter, vorrangig Hr. Stoll (Fachreferent der Abteilung Audiosystemtechnik) und der im praktischen Sendebetrieb real verwendeten Bitraten/Audiomodi getroffen. Ziel dieser Vorauswahl ist gewesen, ein möglichst breites Spektrum an Bitraten abzudecken. Dabei wurde bei Layer IISBR darauf geachtet, Bitraten festzulegen, bei denen zu erwarten war, dass die codierten Ergebnisse rundfunktaugliche Klangqualität bieten. Bei den Standard MPEG Layer II Sequenzen richtete sich die Auswahl der Bitraten danach, qualitativ ähnliche Audioqualitäten wie bei Layer IISBR zu erhalten, damit bei der Auswertung die Bitraten anhand der Audioqualität verglichen werden kann. Bei den Experimenten im Vorfeld hat sich, wie theoretisch erwartet gezeigt, dass der Gewinn durch die Verwendung der SBRErweiterung zwei deutliche Grenzen in Abhängigkeit der Bitrate aufzeigt. So wurde schnell klar, dass bei hohen Bitraten kein Gewinn mehr zu erwirken ist, da hier schon MPEG Layer II in der Lage ist, das Audiosignal in hoher Qualität zu codieren. Deshalb wurde beschlossen, für SBR bei Stereobeispiele nur bis zu einer Bitrate von 128 kbit/s und bei Monobeispiele nicht über 64 kbit/s zu gehen. Eine sinnvolle untere Grenze für die SBR erweiterte Codierung wurde bei 64 kbit/s Stereo und 48 kbit/s Mono festgelegt. Kleinere Bitraten führen, bedingt durch das Prinzip der SBR Tech55 nologie zu Qualitäten, die für den Rundfunkbetrieb, auch aus Kompatibilitätsgründen zu herkömmlichen DAB-Empfängern nicht mehr zumutbar wären. Bei den MPEG Layer II codierten Audiobeispielen wurde versucht in einem äquivalenten Qualitätsbereich wie mit SBR zu arbeiten, um vergleichen zu können, bei welchen Bitraten Layer IISBR und MPEG Layer II eine ähnliche Qualitätsstufe aufweisen. Daraus könnte man festzustellen, in weit sich bei gleich bleibender Qualität die Bitrate reduzieren lässt, woraus sich später der Codiergewinn ermitteln lässt. Für einen direkten vergleich ist es sinnvoll, möglichst viele Testbeispiele mit und ohne SBR bei gleicher Bitrate zu vergleichen, um Aussagen darüber treffen zu können, welcher Qualitätsgewinn bei gleich bleibender Bitrate erwartet werden könnte. Alle normal MPEG Layer II codierten Stereobeispiele wurden im Jointstereoverfahren codiert, um Codierartefakte zu reduzieren und dadurch eine bestmögliche spektrale Klangqualität zu erzielen. Änderungen im stereophonen Abbild, falls hörbar, werden dabei in kauf genommen. Bei niedrigeren Bitraten unter einschließlich 128 kbit/s stereo und 64 kbit/s mono wurden die Audiobeispiele im „half sampling rate“ Modus, also mit 24 kHz Abtastrate codiert. Trotz der dadurch eingeschränkten Audiobandbreite (11,5 kHz) wird bei sehr niedrigen Bitraten die Klangqualität subjektiv oft als angenehmer empfunden [15], da so alle verfügbaren Bits zur Codierung des halben Audiospektrums genutzt werden können. Zusätzlich ergibt sich durch die schmaleren Teilbänder ein höherer Codiergewinn. Dies reduziert ebenfalls die hörbaren Codierartefakte. Zusammengefasst kann man sagen, das für die MPEG Layer II Audiocodierung immer versucht wurde, möglichst optimale Parametereinstellung zu gewährleisten um hörbare Codierartefakte zu minimieren. Verwendete Bitraten zur Ermittlung des Codiergewinns Bitrate 48 kbit/s 64 kbit/s 80 kbit/s 96 kbit/s 112 kb/s 128 kbit/s 160 kbit/s 192 kbit/s X X MPEG Layer II X X X Jointstereo (LSF) (LSF) (LSF) X X X X X X X X X X X X Layer IISBR Stereo Layer IISBR Jointstereo MPEG Layer II X X Mono (LSF) (LSF) X X Layer IISBR Mono X Tabelle 7-1Übersicht über die verwendeten Bitraten 56 7.3 Testmethode Die Testbedingungen entsprachen den Forderungen aus dem Dokument „DRAFT NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ zur subjektiven Abschätzung von Audioqualitäten mittlerer Güte und wird verkürzt MUSHRA genannt, was für „MUlti Stimulus test with Hidden Reference and Anchor“ steht. Die exakte Beschreibung der Methode ist im Anhang unter 11.1 zu finden. Bei der Versuchsdurchführung bekam jeder Teilnehmer gleichzeitig mehrere unterschiedlich codierte Audiobeispiele (max. 12) gleichen Inhalts angeboten und hatte die Aufgabe, diese im Vergleich zu dem ihm bekannten und unverfälschten Originalsignal, der Referenz, zu bewerten. Dazu hatte er die Möglichkeit in Echtzeit zwischen den angebotenen Signalen, einschließlich der Referenz, hin und her zu schalten. Um einen absoluten Bezug der Auswertung zu gewährleisten, und um die Eignung der Testpersonen hinsichtlich der gegebenen Aufgabenstellung bei der Auswertung überprüfen zu können, war in jeder der gebotenen Vergleichsserie (Trial) noch einmal die sogenannte „hidden reference“, ein auf 7 kHz und ein auf 3 kHz Tiefpass begrenztes Signal versteckt. Letztere dienen als Ankerpunkte im Vergleich zu unabhängigen Hörversuchen, die nach der gleichen Methode durchgeführt werden. Bewertet wurde jede Testsequenz mittels eines Schiebereglers entlang einer 5teiligen Skala. Die Abschnitte der Skala bezeichnen die Qualitätsklassen: „Excellent“, „Good“, „Fair“, „Poor“ und „Bad“. Zusätzlich umfasst die Skala den Wertebereich von 0 bis 100, wobei 0 für „Bad und 100 für „Excellent“ steht. 7.4 Vorbereitung des Versuchs Die uncodierten Originalsignale lagen bereits in allen notwendigen Formaten aus dem Vorversuch zur Basisencoder-Wahl vor. Codiert wurden alle MPEG Layer IISBR-Audiosignale mit einem, von Coding Technologies für diesen Audioqualitätstest optimierte Software „Layer 2 + SBR Demo Encoder V 0.7.0 (build Jul 25 2002)“. Decodiert wurden sie mit einer Software „Layer 2 + SBR Demo Decoder V 0.6.0 (build Jul 15 2002)“. Die Vergleichsbeispiele auf der Basis herkömmlichen MPEG Layer II’s wurden mit einer Software „MPEG-1/2 Layer 2 Demo Encoder V 1.5.0 (build Feb 26 2002)“ codiert. Dieser Encoder, ebenfalls von Coding Technologies zur Verfügung gestellt, wurde deshalb als Referenz Encoder gewählt, da dieser bei dem vorbereitenden Hörversuch dem MPEG Layer II Encoder vom IRT qualitativ nicht nachstand (siehe Kapitel 6.10). Eine Ausnahme war notwendig. Die 48 kbit/s LSF („half sampling rate“) Monobeispiele konnten nicht mit der Software von Coding Technologies erzeugt werden, da diese Bitrate nicht unterstützt wurde. Diese wurden mit einem Silicon Graphics 57 Rechner mit der IRT eigenen Software „MPEG-1 and MPEG-2 LSF Audio Layer II Reference Encoder by Soeren H. Nielsen, IRT, Munich, Version : 1995-04-26“ codiert und decodiert. Um die MPEG Layer II Beispiele wieder als PCM codierte WAV-Files vorliegen zu haben, wurden alle nicht-SBR Layer II Files mit der Software Soundapp v2.7.3 auf einem Apple Macintosh G4 decodiert. Die auf 7 kHz bzw. auf 3,5 kHz tiefpassbegrenzten Audiobeispiele, die als Anker dienten, wurden mit der Software Cool Edit 2000 generiert. Die geforderte Filtercharakteristik wurde mit Rauschsignalen kontrolliert. Nachdem alle Audiobeispiele passend geschnitten waren, wurden diese in die Hörversuchssoftware eingebunden. Die zu bewertenden Audiobeispiele wurden dabei so verwürfelt, dass der Versuchsteilnehmer keine Systematik in der qualitativen Anordnung der Hörbeispiele erkennen konnte. 7.5 Durchführung Der Hörversuch wurde mit 17 Probanden durchgeführt. Alle Teilnehmer entstammten dem Fachbereich Audiosystemtechnik, oder aus direkt DAB fachbezogenen Abteilungen des IRT. Die Gruppe bestand dabei etwa zu gleichen Teilen aus Studenten und langjährig angestellten Mitarbeitern, die schon oft an solchen Versuchen teilgenommen haben und demnach ein geschultes Gehör besitzen sollten. Durchgeführt wurde der Versuch in einer ruhigen Umgebung (Studio im IRT). Vor dem eigentlichen Hörversuch wurde mit jeder Person eine Trainingssession durchgeführt, um sich mit den Testbedingungen vertraut zu machen. Insgesamt waren 18 Vergleichserien (Trials) zu bewerten. Diese wurden jeweils in zwei Sitzungen (Sessions) à etwa 30 min. aufgeteilt, um die Teilnehmer nicht unnötig zu ermüden. Wie bei dem Vorversuch zur Basisencoder-Wahl wurde als Referenz bei den Monosequenzen ebenfalls ein Monosignal angeboten, um zu verhindern, dass das fehlende Stereobild in die Bewertung eingeht. Bei den Stereobeispielen diente natürlich das originale Stereosignal als Referenz. Der Versuch wurde auf einem PC (Windows 2000) mit der Software CRCSEAQ Subjective Test Module, Version 1.18 durchgeführt. Abgehört wurde über elektrostatische Studiokopfhörer von Stax mit Diffusfeldentzerrung. Die Lautstärke konnte von den Teilnehmern vor einer Testphase selbst gewählt werden, sollte dann aber während des ganzen Versuchablaufs beibehalten werden. Um später auch Aussagen über die Qualität der Stereocodierung machen zu können, wurde bei der Einweisung der Teilnehmer verstärkt darauf hingewiesen, nicht nur spektrale Klangqualitätsunterschiede zu beurteilen, sondern auch das empfundene Stereobild in die Bewertung mit einfließen zu lassen. Dadurch, dass die Testsequenzen qualitativ oft sehr ähnlich erschienen, und teilweise nur sehr feine Unterschiede festzustellen waren, wurde bei Versuchsdurchführung darum gebeten, auch diese feinen Unterschiede genau abzustufen. 58 7.6 Auswertung und Ergebnisse Die Auswertung erfolgte auf der Basis der Mittelwerte der 100 Punkte Qualitätsskala, unter Berücksichtigung des 95%-Vertrauensintervalls, der verwendeten Bitraten und der verwendeten Codierungsverfahren. Zusätzlich diente die Testmethode nach Wilcoxon als Signifikanzanalyseverfahren, wenn Ergebnisse im Vergleich sehr ähnlich zu sein schienen, und sich die Vertrauensintervalle überlappten13. Ziel der Auswertung ist es, den Codiergewinn durch SBR zu berechnen. Hierbei ermittelt man bei einer gegebenen Bitrate von MPEG Layer II, die neue Bitrate von Layer IISBR, bei gleicher Audioqualität. Der Codiergewinn kann dabei als Zahlenwert in Abhängigkeit der Bitrate ermittelt werden. Zusätzlich wird der Qualitätsgewinn durch SBR bei gegebener Bitrate betrachtet. Zur Auswertung wurde das Programm EXCEL von Microsoft verwendet, unter anderem auch das Statistik Excel-Add-In „Winstat“. Nach Durchsicht der individuellen Ergebnisse wurde beschlossen, die Bewertungen aller 17 Teilnehmer für die Auswertungen zu berücksichtigen. Obwohl es auch einzelne Bewertungen einiger Teilnehmer gab, die stark von der durchschnittlichen Beurteilung abweichten, wurden diese Testpersonen trotzdem berücksichtigt, da die restlichen Bewertungen dieser Teilnehmer sehr plausibel erschienen, so dass die Ergebnisse als sinnvolle Aussagen über die empfundene Audioqualität zu interpretieren sind. Dies trägt möglicherweise auch zu den auffallend großen Vertrauensbereichen bei, die Auskünfte über die Verteilung der Bewertungen geben. Die auffallend großen Vertrauensbereiche hängen wahrscheinlich damit zusammen, dass die Teilnehmer angewiesen wurden die unterschiedlichen Charaktere der Codierfehler deutlich in der Qualitätsbeurteilung abzustufen, um die Unterschiede besser zum Ausdruck zu bringen. Wenn zwei Testsequenzen ungefähr gleiches Qualitätsniveau haben, aber deutlich unterschiedlichen Charakter in der Natur der Codierartefakte zeigen, sollte so ermittelt werden, wie die Teilnehmer die Natur der Artefakte einschätzen. Nicht unerwähnt soll bleiben, dass ein gewisser Unsicherheitsfaktor gegenüber der CRC Testsoftware bei Vergabe der vollen Punktzahl festzustellen ist. Bei einigen Testsequenzen wurde das versteckte Originalbeispiel („hidden reference“) mit „0“, also sehr schlecht bewertet, obwohl die sonstigen Bewertungen dieser Personen in absolut plausiblen Rahmen lagen und diese bekanntermaßen langjährige Erfahrung im Umgang mit Hörversuchen haben. Es scheint als würde bei der Vergabe der vollen Punktzahl (100 für „Excellent“) manchmal eine „0“ als Ergebnis ausgegeben. Dieser Fehler wurde aber toleriert, da andere Bewertungen immer korrekt ausgegeben wurden. Allerdings werden die Ergebnisse im Zusammenhang mit der Erkennung der „hidden reference“ dadurch negativ beeinflusst. D.h. die „hidden reference“ 13 siehe Anhang unter 11.2 59 wurde wahrscheinlich öfters erkannt, als durch die Auswertung hervorgeht. Von einer rückwirkenden Korrektur dieser Fehlbewertungen wurde aber dennoch abgesehen, da bei den Bewertungen, individuell betrachtet nicht sicher nachvollzogen werden kann, ob hier ein Softwarefehler vorgelegen hat, oder ob hier bewusst so bewertet wurde. Vielleicht war es ja ein Versehen, des Versuchsteilnehmers, was aber nicht zwangsläufig aussagen würde, dass er die „hidden reference“ wirklich erkannt hätte. 7.6.1 Qualitätsgewinn durch SBR Der Qualitätsgewinn ist eine Größe, die sich nicht pauschal als Zahlenwert in Abhängigkeit der Bitrate ausdrücken lässt. Das liegt daran, dass man nicht davon ausgehen kann, dass die Beurteilungsskala 0 bis 100, die dem Versuch zu Grunde liegt, ein lineares Verhalten aufweist. Das obere Ende der Skala (Wert 100) lässt sich sehr einfach definieren. Er beschreibt den Zustand, wenn das codierte Signal nicht vom Original zu unterscheiden ist. Das untere Ende der Skala (Wert 0) lässt sich dagegen nur sehr schwierig definieren. Er wirft die Frage auf, ab welcher Qualität ist ein Testsignal so stark verändert, dass es nicht mehr zumutbar, also schlecht ist. Eine andere mögliche Definition wäre, zu sagen, wenn das Signal nicht mehr zu erkennen ist, dann vergibt man den Wert 0, aber das ist wohl eher unrealistisch, denn in einem Qualitätsumfeld, von so stark veränderten Signalen macht es wohl wenig Sinn solche Hörversuche durchzuführen, da sie der praktischen Anwendung nicht entsprechen. Noch schwieriger ist die Abstufung innerhalb der Skala zu definieren. Als Orientierungshilfe ist die Skala in fünf Qualitätsklassen eingeteilt: „Excellent“, „Good“, „Fair“, „Poor“ und „Bad“. Jeder Qualitätsklasse ist ein Wertebereich von 20 Punkten zugewiesen. Es kann aber nicht sichergestellt werden, dass sich die 20 Punkte der Qualitätsklasse „Excellent“ auf einen genau so großen Qualitätsbereich verteilen, wie z.B. die 20 Punkte der Qualitätsklasse „Fair“. Es lässt sich leichter vorstellen, dass man im Bereich „Excellent“ sehr viel kritischer mit der Punkteverteilung umgeht, als im Bereich „Fair“. „Excellent“ heißt ja, dass das Testsignal schon sehr nahe an die Originalqualität heranreichen muss, aber unter „Fair“ lässt sich ein sehr breitgefächerter Qualitätsbereich vorstellen. Dies zeigt, dass der Qualitätsgewinn nicht einfach durch eine Zahl dargestellt werden kann. Dadurch, dass die Qualität der codierten Signale sehr stark von deren Inhalt abhängig ist, wird auf die Sequenzen im Einzelnen eingegangen. Eine Rolle spielen physikalische Größen wie Frequenzspektrum, Verzerrungen, oder Stereophonie des Ausgangsignals. Aber auch subjektive Größen wie die Erwartungshaltung der Versuchsteilnehmer können in die Auswertung eingehen. Ein fehlerhaftes Stereobild bei einer Reportage wird wohl eher toleriert, als bei einem klassischen Konzert. 60 7.6.1.1 Ergebnis der Beurteilung der Stereo Testsequenzen 7.6.1.1.a Mittelwerte über alle Sequenzen (Stereo) ± 95% Vertrauensbereich Mittelwerte über alle getesteten Stereo-Items Jointstereo + SBR Stereo + SBR 100,00 SBR SBR Excellent SBR SBR Qualitätsgewinn SBR Good SBR 60,00 JointSBR Joint- Fair SBR normal Hidden Reference ! SBR 80,00 Qualitätsgewinn Stereo ? stereo? stereo Joint- 40,00 stereo SBR Poor Qualitätsgewinn Qualitätsgewinn 20,00 Bad 64 64 kbp kb s s ps tere 80 joints o SB kb t ps ereo R LS SB F R 80 joint s 80 kbp tere o kb s s ter ps eo j o 96 in S kb tster BR ps e LS o SB F 96 join R t 96 kbps stere o kb ps stere 11 o 2 k joints SB R te bp s jo reo ints SB R 11 tere 2 12 kbp o SB 8k s R bp ster eo sL SF SB R 12 joints 8 k tere bp o s 12 8 k join bp tste s re 16 stere o 0k oS b 16 ps jo BR 0k bp intste s re 19 stere o 2k o bp SB s jo R i hid ntste re de nr o hid ef st ere de n o LP ref s 3.5 tere o k LP Hz s 3.5 tere kH o z LP ster 7k eo H LP zste 7 k reo Hz ste reo 0,00 Abbildung 7-1 Die erste Darstellung zeigt die mittlere Beurteilung für alle Stereo-Testsequenzen (Cembalo, Klassik, Popmusik, Sprache, Stadion und Sologesang). Gebildet wurden die Mittelwerte aus allen Bewertungen. Das ergibt bei sechs verschiedenen Testsequenzen und 17 Teilnehmern, 102 Qualitätsbewertungen pro vorgegebenes Codierungsverfahren. Bei den Bitraten 80 kbit/s, 96 kbit/s, 128 kbit/s und 160 kbit/s lässt sich eine Qualitätssteigerung durch die Verwendung von SBR direkt ablesen. Im Mittel wurden die Testsequenzen bei 80 kbit/s LSF Jointstereo als „Poor“ mit einem Mittelwert von 30 Punkten eingestuft. Die mit SBR Jointstereo codierten Sequenzen erhielten die Bewertung „Good“ mit einem Mittelwert von 68 Punkten. Bemerkenswert ist dabei, dass sogar eine Klasse („Fair“) übersprungen wurde. Ähnliches gilt für die 96 kbit/s Beispiele. Hier verschiebt sich der Mittelwert im Vergleich von 32 nach 73. Die normal Stereo codierten Layer IISBR Sequenzen liegen bei diesen Bitraten noch deutlich unter der Klangqualität der SBR Jointstereo codierten Sequenzen. Bei 80 kbit/s liegt der Mittelwert bei 51, bei 96 kbit/s bei 65 Punkten. Auch die zwei mit 64 kbit/s codierten Layer IISBR-Sequenzen zeigen, dass bei niedrigen Bitraten mit SBR Jointstereo bessere Ergebnisse zu erzielen sind. Bei den mit 112 kbit/s codierten Layer IISBR-Sequenzen sieht man, dass der Unterschied zwischen Jointstereo und normal Stereo im Mittel sehr gering ist. Dadurch, dass sich die Vertrauensbereiche hier überlappen kann anhand der Darstellung keine eindeutige Aussage darüber ge61 troffen werden, ob sich die beiden Ergebnisse signifikant unterscheiden. Mit Hilfe des Wilcoxon-Tests kann festgestellt werden, dass der Unterschied nicht signifikant ist. Bei 128 kbit/s erkennt man, dass der Qualitätsgewinn deutlich schwächer ausfällt. Hier wurde der Qualitätsgewinn von „Good“ nach „Excellent“ mit der Steigerung der Mittelwerte von 76 nach 86 ermittelt, und das, obwohl bei SBR auf Jointstereo verzichtet wurde. Analog dazu verhält es sich auch bei den 160 kbit/s Sequenzen. Der Qualitätsgewinn ist hier allerdings noch geringer. Der Mittelwert steigt von 89 auf 94 Punkte. Obwohl sich hier die Vertrauensbereiche überlappen, zeigt der WilcoxonTest, dass der Unterschied signifikant ist. Das Ergebnis ist erstaunlich, wenn man bedenkt, dass die „hidden reference“ (verstecktes Original) etwa mit derselben Qualität beurteilt wurde. Bei 160 kbit/s Stereo Layer IISBR konnten die codierte Sequenz praktisch nicht mehr vom Original unterschieden werden. Zwischen den Bewertungen der einzelnen Testsequenzen zeigen sich dennoch große Unterschiede. Auf die Teilergebnisse, die sich stark von der allgemeinen Beurteilung unterscheiden, soll hier noch mal detailliert eingegangen werden. 7.6.1.1.b Ergebnisse Cembalo Stereo ± 95% Vertrauensbereich Mittelwerte Cembalo Stereo SBR 100,00 Excellent SBR SBR 80,00 Good SBR SBR SBR QualitätsSBR 60,00 Fair gewinn SBR SBR 40,00 Qualitätsgewinn Poor 20,00 SBR Qualitätsgewinn Bad 64 64 kbp kb s s ps ter 80 joints eo S ter BR kb e ps LS o SB Fj R 80 oin 80 kbp tster e kb s s ps ter o 96 join eo S kb tste BR ps re LS o S B Fj 96 oin R 96 kbp tster kb s st eo e 11 ps jo reo S 2 k int bp ste BR s jo reo in S 11 tster BR 2 e 12 kbp o S 8k B bp s ste R sL reo SF SB 12 joints R 8k ter e b 12 ps o 8 k join bp tste s r 16 ste eo 0 k reo b 16 ps SBR 0 k join bp tst e s 19 ster reo 2k eo bp SB sjo R hid intste de reo n hid ref s de tere n o LP ref s 3.5 tere o LP kHz 3.5 ster kH eo z LP ste 7 k reo Hz LP st 7 k ereo Hz ste reo 0,00 Abbildung 7-2 Das Cembalo ist wohl das kritischste Testbeispiel. Es ist bekannt, dass das hohe Obertonspektrum und die extremen Hüllkurvenverläufe des Cembalotons vielen Audioencodecs Schwierigkeiten bereiten. Im Diagramm ist dies an der allgemein schlechteren Beurteilung der codierten Audiosequenzen bei allen Bitraten zu erkennen. Es zeigen sich aber auch wieder die gleichen Tendenzen wie bei den Mittelwer62 ten über alle Testsequenzen. Das Cembalo konnte bei 160 kbit/s Layer IISBR deutlich vom Original unterschieden werden. Es entspricht in etwa der Qualität von MPEG Layer II bei 192 kbit/s Jointstereo. Die Vertrauensbereiche sind deutlich größer als in Abbildung 7-2. Das hängt zum einen damit zusammen, dass bei den Einzellbeispielen nur 17 Beurteilungen bewertet wurden und zum anderen mit der schon beschriebenen Vermutung, dass die Aufforderung zu einer qualitativen Abstufung eine gewisse Streuung bewirkt hat. 7.6.1.1.c Ergebnisse Klassik Stereo ± 95% Vertrauensbereich Mittelwerte Klassik Stereo SBR SBR 100,00 SBR SBR SBR Excellent SBR 80,00 SBR SBR SBR SBR Good Qualitätsgewinn 60,00 Fair 40,00 Poor Qualitätsgewinn Qualitätsgewinn 20,00 Bad 64 64 kbp kb s s ps ter 80 joint eo S s B kb ps tereo R LS S B F 80 join R 80 kbp tster kb s s eo ps tere 96 join o S kb tste BR ps re LS o S B Fj 96 oin R 96 kbp tste kb s s reo t 11 ps jo ereo 2 k int SB s bp R t s jo ereo in S 11 tste BR re 2 12 kbp o S 8k s s BR bp t s L ereo SF SB 12 join R 8k tste b r 12 psjo eo 8 k int bp ster s e 16 ste o 0 k reo b S 16 ps jo BR 0k in bp tste re s 19 ster o 2 k eo S bp s jo BR hid intste de r n eo hid ref s de tere n o LP ref s 3.5 tere o LP kHz 3.5 ste kH reo LP z st 7 k ereo H LP z st 7 k ereo Hz ste reo 0,00 Abbildung 7-3 Das Klassik-Testbeispiel unterscheidet sich bezüglich der anderen Testsequenzen sehr stark. Der Qualitätsgewinn durch SBR für die Bitraten 80 kbit/s und 96 kbit/s übersteigt zwei Qualitätsklassen, von „Poor“ nach „Excellent“. Die Qualität wurde auch bei 128 kbit/s Layer IISBR nicht übertroffen. Bei 160 kbit/s tritt keine nennenswerte Klangverbesserung mehr auf. Das Auffälligste ist, dass das Klassikbeispiel sehr sensibel auf Veränderungen im Stereobild zu reagieren scheint. So konnten allgemein die besseren Ergebnisse nur mit normal Stereo codierten Sequenzen erzeugt werden (grüne Pfeile). 63 7.6.1.1.d Ergebnisse Popmusik Stereo ± 95% Vertrauensbereich Mittelwerte Popmusik Stereo SBR 100,00 SBR S B R SBR Excellent SBR SBR SBR SBR SBR Qualitäts- 80,00 gewinn Good 60,00 Fair 40,00 Qualitätsgewinn Poor Qualitätsgewinn 20,00 SBR Bad 64 64 kbp kb s s ps ter 80 join eo S ts B kb ps tere R LS o S Fj BR 80 oin 80 kbp tstere kb s s o ps ter 96 join eo S ts B kb ps tere R LS o S F B 96 join R 96 kbp tste kb s st reo ps ere oS joi 11 ntste BR 2 re 11 k 2 k bps o SB bp ste R 12 s join reo 8k tste SB bp R s L reo SF SB R 12 join 8k tste b r 12 psjo eo 8 k int bp ster s e 16 ste o 0 k reo b S 16 ps jo BR 0k in bp tste re s 19 ster o 2 k eo S bp s jo BR hid intste de r n eo hid ref s de tere n o LP ref s 3.5 tere o LP kHz 3.5 ste kH reo LP z st 7 k ereo H LP z st 7 k ereo Hz ste reo 0,00 Abbildung 7-4 Das Ergebnis der Testsequenz Popmusik zeigt einen sehr ausgeglichenen Verlauf im Zusammenhang mit Stereo und Jointstereo. Bei 80 kbit/s und bei 90 kbit/s zeichnet sich nur ein geringer Unterschied zwischen normal Stereo und Jointstereo bei SBR ab. Nur das 64 kbit/s SBR-Beispiel gewinnt sehr stark durch Jointstereo und hat damit schon eine vergleichbare Qualität wie Layer IISBR bei 80 kbit/s. Bei 128 kbit/s zeigen die Mittelwerte einen Qualitätsverbesserung zwischen MPEG Layer II Jointstereo und Layer IISBR Stereo. Die Testmethode nach Wilcoxon sagt aber aus, dass sich die beiden Bewertungen nicht signifikant unterscheiden. 160 kbit/s Layer IISBR wurde mit dem gleichen Qualitätsniveau bewertet wie MPEG Layer II bei 192 kbit/s. In der Bewertung der „hidden references“ zeigen sich große Vertrauensbereiche. Man könnte vermuten dass die Qualität der Testsequenzen im Durchschnitt so hoch war, dass teilweise geraten wurde, welche Sequenz als besser oder schlechter einzustufen sei, woraus man schließen könnte, dass 160 kbit/s Stereo + SBR vom Original ebenfalls nicht mehr unterschieden werden konnte. 64 Ergebnisse Sologesang Stereo ± 95% Vertrauensbereich Mittelwerte Sologesang Stereo SBR 100,00 SBR Excellent SBR SBR SBR SBR 80,00 SBR Good SBR 60,00 Fair SBR 40,00 Qualitätsgewinn Poor Qualitätsgewinn 20,00 SBR Bad 64 64 kbp kb s s ps ter 80 joints eo S ter BR kb e ps LS o SB Fj R 80 oin 80 kbp tster e kb s s ps ter o 96 join eo S kb tste BR ps r LS eo S Fj B o 96 in R 96 kbp tster e kb s st e o 11 ps jo reo 2 k int S bp ste BR s jo reo in S 11 tste BR r 2 12 kbp eo S 8k B bp s ste R sL reo SF SB 12 joints R 8k ter e b 12 ps o 8 k join t bp ste s r 16 ste eo 0 k reo b S 16 ps BR 0 k joi bp ntst s s ere te 19 o 2 k reo S bp s jo BR hid intst de ere o n hid ref s de tere n o LP ref 3.5 ste re LP kHz o 3.5 ster kH eo z LP ste 7 k reo H LP z s 7 k tere Hz o ste reo 0,00 Abbildung 7-5 Bei dem Sologesang handelt es sich um eine weibliche Gesangsphrase mit einem dezenten, künstlich wirkenden Stereoraumeffekt. Da das Signal monophonen Charakter hat, lässt sich leicht erklären, dass SBR + Jointstereo hier seine Stärke aufzeigt. Bei 128 kbit/s und bei 160 kbit/s kann kein Qualitätsgewinn bestätigt werden. Dass die Bewertungen der SBR-codierten Beispiele bei 128 kbit/s niedriger ausfallen als bei 112 kbit/s, ist möglicherweise auf eine Schwäche des Encoders zurück zuführen. 65 7.6.1.1.e Ergebnisse Sprache Stereo ± 95% Vertrauensbereich Mittelwerte Sprache Stereo S B R SBR 100,00 Excellent SBR SBR SBR SBR 80,00 kein kein Codier- Codiergewinn gewinn SBR Good SBR SBR 60,00 Fair 40,00 Poor Qualitätsgewinn Qualitätsgewinn 20,00 SBR Bad 64 64 kbp kb s s ps ter 80 join eo S ts B kb ps tere R LS o S Fj BR 80 oin 80 kbp tstere kb s st o er ps 96 join eo S BR tst kb e ps LS reo S F BR 96 join 96 kbp tster kb s s eo 11 ps jo tereo 2k S i bp ntste BR s jo re o in S 11 tster BR e 2 12 kbp o S B 8k s bp ste R s L reo SF SB 12 join R 8k tste b r 12 psjo eo 8 k in bp tste re s 16 ste o 0 k reo b 16 ps SBR 0 k join bp tste s r 19 ster eo 2 k eo S bp s jo BR hid intste de reo n hid ref s de tere n o LP ref s 3.5 tere o LP kHz 3.5 ste kH reo LP z ste 7 k reo H LP z st 7 k ere Hz o ste reo 0,00 Abbildung 7-6 Bei der Testsequenz mit einem männlichen Sprecher ist interessant, dass das Sprachbeispiel bei 128 kbit/s und bei 160 kbit/s keinen Qualitätsgewinn durch SBR aufweist. Bei 160 kbit/s lässt sich dieses Phänomen damit erklären, dass schon MPEG Layer II nicht vom Original unterschieden werden konnte, bei 128 kbit/s ist das aber nicht der Fall. Die statistische Testmethode nach Wilcoxon zeigt auch keine signifikante Klangverbesserung mit SBR. Möglicherweise zeigt hier das Sprachbeispiel eine Schwäche in der Versuchdurchführung. Die Beiden 7 kHz Tiefpass gefilterten Testsequenzen zeigen beim Sprachbeispiel abweichende Ergebnisse. Ein Mittelwert liegt bei 39, der andere bei 29. Auch die anderen Ankerpunkte zeigen diese Tendenz. Daraus kann man eine gewisse Kontextabhängigkeit der Bewertung ableiten. Es könnte sein, dass bei allen Teilnehmern die Tendenz vorhanden war, dass bei der Verwürfelung der Testsequenzen die qualitativ schlechteren Beispiele in den ersten Durchgang gerutscht sind und die qualitativ besseren Sequenzen in den zweiten Durchgang. Doch da dieses Phänomen nur beim Sprachsignal zu finden ist, sollten die Ergebnisse der Gesamtauswertung nicht wesentlich beeinflusst werden, aber es könnte zum Beispiel erklären, warum bei 128 kbit/s das Layer IISBR Sprachbeispiel im Gegensatz zu MPEG Layer II keinen Gewinn zeigt. 66 7.6.1.1.f Ergebnisse Stadion Stereo ± 95% Vertrauensbereich Mittelwerte Stadion Stereo SBR SBR 100,00 Excellent QualitätsSBR 80,00 SBR SBR gewinn SBR SBR Good SBR SBR SBR 60,00 Fair Qualitätsgewinn 40,00 Poor Qualitätsgewinn Qualitätsgewinn 20,00 Bad 64 64 kb kbp ps se 80 joints reo S ter kb e BR ps LS o SB Fj R oin 80 80 tste r k e kb ps bpse o 96 joints reo S te kb ps reo BR LS SB Fj R oin t 96 96 stere kb kbp o p s 11 s join ereo 2k tste SB bp s jo reo R ints SB ter R 1 12 eo S 12 B kb 8k bp pse R reo sL SF S 12 join BR 8 k ts t bp ere s o 12 joint 8k ste b r 16 pse eo 0 k reo bp SB s R 16 join 0 k tste b r e p 19 o s 2 k ereo bp S s j BR oin ts hid tere o de nr hid efere de o n LP refe r e 3.5 o k LP Hze 3.5 reo kH LP zere 7k o H LP zere 7k o Hz ere o 0,00 Abbildung 7-7 Die Testsequenz „Stadion“ beinhaltet die typische Geräuschkulisse einer öffentlichen Veranstaltung. Eine Sprecherin kommentiert eine Sportveranstaltung, während im Hintergrund eine Menschenmenge jubelt und applaudiert. Im Diagramm erkennt man, dass bereits 128 kbit/s Layer IISBR von den Teilnehmern nicht mehr vom Original unterschieden werden konnte. Das zeigt der Vergleich mit der „hidden reference“. Bei 160 kbit/s Layer IISBR zeigt sich eine große Einigkeit unter den Versuchsteilnehmern, was etwas verwunderlich ist, besonders weil dadurch die Bewertung für Layer IISBR bei 160 kbit/s besser ausfällt als für das versteckte Original. Allerdings zeigt der Wilcoxon-Test keinen signifikanten Unterschied zwischen den Bewertungen. Trotz des ersten Anscheins eines möglichen Fehlers in der Versuchsdurchführung hat diese statistische Signifikanzanalyse gezeigt, dass das ungewöhnliche Ergebnis auf die Verteilung der Bewertungen zurück zuführen ist. Bezogen auf das Stereokodierungsverfahren ergibt sich, dass nur 64 kbit/s Jointstereo ein Qualitätsgewinn bringt. Bei 80 kbit/s und bei 96 kbit/s erkennt man keinen Unterschied. Auf den ersten Blick ungewöhnlich scheint, dass die Bewertungen im Mittel bei 96 kbit/s insgesamt ein bisschen niedriger ausfallen als bei 80 kbit/s. Wenn man die Bewertungen der korrespondierenden Codiereinstellungen zwischen 80 kbit/s und 90 kbit/s überprüft, fällt die Bewertung der 96 kbit/s Testsequenzen nicht signifikant schlechter aus als die bei 80 kbit/s. Dieses Ergebnis relativiert den ersten Anschein. 67 7.6.1.2 Ergebnis der Beurteilung der Mono Testsequenzen 7.6.1.2.a Mittelwerte über alle Sequenzen Mono ± 95% Vertrauensbereich Mittelwerte über alle getesteten Mono-Items 100,00 Excellent SBR SBR 80,00 Good 60,00 Fair Qualitätsgewinn 40,00 Poor Qualitätsgewinn 20,00 Bad kH zm on o LP 7 3.5 kH zm on o LP hid de nr ef m on o 96 kb ps mo no 80 kb ps mo no 64 kb ps mo no SB R 64 kbp sL SF mo no 48 kb ps mo no SB R 48 kb ps LS Fm on o 0,00 Abbildung 7-8 Bei den Mono-Testsequenzen wurden im Versuch weniger Signale zum Vergleich angeboten. In der Regel dienen Monoprogramme im Radio mehr der Information als dem Hörgenuss. Man kann davon ausgehen, dass hauptsächlich Sprachdienste wie Verkehrsnachrichten o.ä. hierbei an der Tagesordnung stehen. Das ist auch der Grund, warum nur bei den Bitraten 48 kbit/s und 64 kbit/s MPEG Layer II und Layer IISBR im direkten Vergleich stehen. 80 kbit/s und 96 kbit/s stehen als zusätzliche Referenz zur Verfügung, um die Qualität mit MPEG Layer II bei höheren Bitraten vergleichen zu können. Aufgrund von älteren Untersuchungsergebnissen [15] wurde bei 48 kbit/s und bei 64 kbit/s MPEG Layer II wieder der “half sampling rate” Modus verwendet. Betrachtet werden hier die Mittelwerte der Beurteilungen über alle getesteten Sequenzen. Die SBR-Technologie zeigt sich auch hier, wie bei den Stereobeispielen, als gewinnbringend. Die Layer II LSF Sequenzen wurden im Mittel mit 28 bewertet, das in der Qualitätsklasse „Poor“ liegt. Mit SBR, bei gleicher Bitrate, liegt der Mittelwert bei 73 (Qualitätsklasse „Good“). Damit wurde eine Klasse übersprungen. Bei 64 kbit/s zeigt sich ein ähnliches Bild. Hier steigt die Qualität von „Fair“ (Mittelwert: 47) nach „Excellent (Mittelwert: 82). Bei beiden Bitraten liegt die Qualität über dem Ergebnis von 80 kbit/s MPEG Layer II. Der Wilcoxon-Test hat auch gezeigt, dass Layer IISBR bei 64 kbit/s und MPEG Layer II bei 96 kbit/s qualitativ vergleichbar sind. 68 Die Analyse der Ergebnisse der einzelnen Mono-Sequenzen soll an dieser Stelle etwas knapper ausfallen, als die Analyse der Stereo-Sequenzen, da sich im realen Rundfunkbetrieb die Ausstrahlung von Monoprogrammen mehr auf Sprachdienste reduziert. 7.6.1.2.b Ergebnisse Cembalo Mono ± 95% Vertrauensbereich Mittelwerte Cembalo Mono 100,00 Excellent SBR SBR 80,00 Good 60,00 Fair 40,00 Qualitätsgewinn Poor 20,00 Bad Qualitätsgewinn 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-9 Grundsätzlich zeigt das Cembalobeispiel dieselben Tendenzen, wie die Ergebnisse über alle Mittelwerte. Allerdings ist der Qualitätsgewinn hier im Durchschnitt geringer. Beide Layer IISBR Sequenzen wurden in die Qualitätsklasse „Good“ eingestuft. Bei 48 kbit/s wurden damit zwei Qualitätsklassen übersprungen. Vergleichbare Qualität liefert MPEG Layer II bei 96 kbit/s. Die schlechte Bewertung des versteckten Originals („hidden reference“) lässt bei der Cembalosequenz auf ein gewisses Vorurteil der Versuchsteilnehmer schließen, was die Gesamtbeurteilung etwas verbessern würde. Da das Cembalosignal sehr oft bei Hörversuchen eingesetzt wird und bekanntermaßen ein sehr kritisches Testsignal ist, und viele der Versuchsteilnehmer dessen Qualität bei niedrigen bis mittleren Bitraten im Ohr haben, könnte man vermuten, dass die Bewertungen teilweise mit einer negativen Erwartungshaltung abgegeben wurden. Das ist aber nur eine sehr vage Vermutung. 69 7.6.1.2.c Ergebnisse Klassik Mono ± 95% Vertrauensbereich Mittelwerte Klassik Mono SBR SBR 100,00 Excellent 80,00 Good 60,00 Fair Qualitätsgewinn 40,00 Qualitätsgewinn Poor 20,00 Bad 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-10 Ähnlich wie bei der Stereobewertung schneidet Layer IISBR bei der Klassiksequenz sehr gut ab. Bei 48 kbit/s und bei 64 kbit/s konnte so die Qualitätsklasse „Excellent“ erreicht werden. Zwischen 64 kbit/s Layer IISBR und der „hidden reference“ zeigt sich nicht mal ein signifikanter Unterschied. 70 7.6.1.2.d Ergebnisse Popmusik Mono ± 95% Vertrauensbereich Mittelwerte Popmusik Mono SBR 100,00 SBR Excellent 80,00 Good 60,00 Fair Qualitätsgewinn 40,00 Poor Qualitätsgewinn 20,00 Bad 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-11 Eine Monoübertragung von Popmusik bei so niedrigen Bitrate wie 48 kbit/s oder 64 kbit/s wird wohl seltener der Fall sein, dennoch zeigen die Ergebnisse, dass mit Layer IISBR auch hier ein deutlicher Qualitätsgewinn zu erzielen ist. Schon bei 48 kbit/s steigt die Bewertung der Sequenz im Mittel von der Qualitätsklasse „Poor“ in den oberen Bereich der Qualitätsklasse „Good“, bei 64 kbit/s von „Fair“ nach „Excellent“. Bei 48 kbit/s ist die erreichte Qualität vergleichbar mit der Bitrate 96 kbit/s MPEG Layer II, bei 64 kbit/s liegt die erreichte Qualität sogar darüber. Die versteckte Referenz wurde dabei aber eindeutig von den Teilnehmern erkannt. 71 7.6.1.2.e Ergebnisse Gesang Mono ± 95% Vertrauensbereich Mittelwerte Gesang Mono 100,00 SBR SBR Excellent 80,00 Good 60,00 Fair Qualitätsgewinn 40,00 Poor 20,00 Qualitätsgewinn Bad 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-12 Für die Testsequenz Gesang gilt ähnliches wie für Popmusik. Der Qualitätsgewinn ist noch ein kleines bisschen höher, zeigt jedoch die gleiche Charakteristik. 7.6.1.2.f Ergebnisse Sprache Mono ± 95% Vertrauensbereich Mittelwerte Sprache Mono 100,00 SBR Excellent SBR 80,00 Good 60,00 Fair Qualitätsgewinn 40,00 Poor 20,00 Bad Qualitätsgewinn 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-13 72 Die Analyse der Bewertungen des Sprachbeispiels zeigt in etwa die selben Ergebnisse, wie das Cembalo. Allerdings wurde hier die „hidden reference“ eindeutig erkannt. 7.6.1.2.g Ergebnisse Stadion Mono ± 95% Vertrauensbereich Mittelwerte Stadion Mono 100,00 Excellent SBR SBR 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad 0,00 48 kbps LSF 48 kbps SBR 64 kbps LSF 64 kbps SBR 80 kbps 96 kbps hidden ref LP 3.5 kHz LP 7 kHz Abbildung 7-14 Die Testsequenz Stadion zeigt eine Besonderheit. Verblüffenderweise lässt sich bei dieser Sequenz schon mit normalen Layer II eine relativ hohe Audioqualität erzielen. Die Mittelwerte von Layer IISBR liegen nur leicht höher, aber eine Signifikanzanalyse nach Wilcoxon zeigt, das sich sowohl bei 48 kbit/s als auch bei 64 kbit/s kein signifikanter Unterschied zwischen MPEG Layer II und Layer IISBR ergibt. Eine mögliche Erklärung dafür wäre, dass das Originalsignal schon sehr obertonarm ist und so durch SBR keine wichtigen Frequenzen reproduziert wurden. Eine Analyse des Originalsignals bestätigt diese Vermutung. Die durchschnittliche Bandbreite des Originalsignals entspricht etwa 9 kHz, dennoch konnte das versteckte Originalsignal eindeutig identifiziert werden. Eine nach Bitrate sortierte Gegenüberstellung der Bewertungen der Testsequenzen kann im Anhang unter gefunden werden. 73 7.6.2 Codiergewinn durch SBR 7.6.2.1 Definition des Codiergewinns Im Gegensatz zum Qualitätsgewinn, der sich nur im direkten Vergleich beschreibt, lässt sich der Codiergewinn als Zahlenwert in Abhängigkeit der Bitrate und damit verbundenen Audioqualität darstellen. Beschrieben wird dabei, die einzusparende Bitrate in Prozent, bei Erhalt gleicher Audioqualität. In diesem Fall berechnet sich der Codiergewinn folgendermaßen: B - B Layer II SBR Codiergewinn g = norm.Layer II B norm.Layer II ⋅ 100 % (bei gleicher Audioqualität ) mit B = Bitrate und g = Codiergewinn in % Formel 1 Der Codiergewinn kann als Grundlage zur Abschätzung einer Einsparung durch die Umstellung von Layer II zu Layer IISBR hergezogen werden. Theoretisch müsste man den Codiergewinn ebenfalls in Abhängigkeit des Charakters des zu codierenden Audiosignals stellen da, wie bereits festgestellt, sehr unterschiedliche Qualitätsergebnisse ermittelt wurden. In der Praxis lässt sich jedoch eine solche Differenzierung nicht anwenden. Aus diesem Grund wird versucht, auf der Basis der Mittelwerte aller getesteten Testsequenzen den Codiergewinn zu ermitteln. Dabei kann es sich natürlich nur um eine Abschätzung handeln, zum einen wegen der Abhängigkeit vom Charakter des Ausgangssignals, zum anderen wegen der Streuung der Bewertungen. 7.6.2.2 Ermittelter Codiergewinn Stereo In folgender Graphik wurde versucht die resultierende Audioqualität als Funktion in Abhängigkeit der notwendigen Bitrate, mittels Interpolation darzustellen. Dabei wurde zwischen vier verwendeten Codierungsverfahren unterschieden: Layer IISBR Stereo (blau), Layer IISBR Jointstereo (violett), normal Layer II Jointstereo (hellblau) und normal Layer II LSF (gelb). Die 95%-Vertrauensbereiche sind dabei für jeden Messpunkt zusätzlich als Fehlerindikator dargestellt. 74 Audioqualität als Funktion über der Bitrate (Stereo) 100,00 SBR normal Stereo SBR Jointstereo Excellent normal Jointstereo LSF normal Jointstereo 80,00 gewonnene Bitrate : 22,4 kbit/s Good ~ 14 % Gewinn bei 160 kbit/s Bitratendifferenz bei gleicher Qualität 60,00 Fair ~ 18 % Gewinn bei 128 kbit/s Extrapoliert mit Polynom 2.Grades 40,00 Poor ~ 37 % Gewinn bei 100 kbit/s gewonnene Bitrate : 22,4 kbit/s Bitratendifferenz bei gleicher Qualität 20,00 gewonnene Bitrate : 36,8 kbit/s Bad Bitratendifferenz bei gleicher Qualität 0,00 64 80 96 112 128 144 160 176 192 Bitrate [kbit/s] Abbildung 7-15 Auf den ersten Blick lässt sich sehr schön der Zusammenhang zwischen Bitrate und Audioqualität erkennen. Bei der violetten, der blauen und der hellblauen Kurve sieht man, dass bei sehr niedrigen Bitraten der Qualitätsgewinn durch Erhöhung der Bitrate sehr stark ansteigt. Bei höheren Bitraten lässt dieser Effekt dann aber nach, und anscheinend streben die Kurven einem Grenzwert zu, der nicht unbedingt der höchsten Qualität entsprechen muss (SBR oder auch Jointstereo wird nie ein exaktes Ergebnis reproduzieren). Es lässt sich auch gut erkennen, bei welcher Bitrate es sich empfiehlt von Layer IISBR Jointstereo auf Layer IISBR normal Stereo überzugehen. Die violette Kurve (SBR Jointstereo) liegt etwa bis 109 kbit/s qualitativ über der blauen (SBR normal Stereo) Kurve. Das lässt vermuten, dass es sinnvoll ist, ab einer Bitrate von 112 kbit/s auf Layer IISBR normal Stereo überzugehen. Bei der Auswertung ein überraschender Effekt im Zusammenhang mit der „half sampling rate“ Codierung herausgestellt. Bei der Vorbereitung des Hörversuchs wurde versucht, sowohl für Layer IISBR, als auch für normal Layer II solche Testsequenzen bereit zustellen, die den gesamten Qualitätsbereich von „Poor“ bis „Excellent“ im Rahmen des realistischen Einsatzes im Rundfunkbetrieb abdecken. Aufgrund älterer Untersuchungen, die Empfehlungen über die „half sampling rate“ Codierung aussprechen [15], wurde vor Versuchsdurchführung beschlossen, bei 128 kbit/s auf LSF überzugehen (siehe Kapitel 4.6). Nun hat sich aber herausgestellt, dass der hier verwendete „half sampling rate“-Algorithmus bei 128 kbit/s qualitativ noch deutlich unter der Qualität von „full sampling rate“ liegt, oder anders gesagt: 128 kbit/s „full sampling rate“ hat deutlich bessere Ergebnisse gebracht als erwartet. Dafür gibt es zwei mögliche Erklärungen. Erstens sind die genannten Untersuchungen [15], auf die sich die hier getroffene Entscheidung beruft, nicht die neuesten. Teilweise stammen die Ergebnis75 se noch aus Zeiten, in denen dieses Codierverfahren entwickelt wurde. Außerdem stammen diese Ergebnisse aus Hörversuchen, in denen ausschließlich „half sampling rate“ untersucht wurde. Deshalb ist es möglich, dass sich die damaligen Testteilnehmer bei den Versuchen in die „half sampling rate“ Codierung „eingehört“ hatten, und deshalb die Ergebnisse sehr positiv ausfallen ließen. Es könnte aber auch hinzukommen, dass die Layer II Encoder in der Zwischenzeit für „full sampling rate“ optimiert worden sind, dass nun deutlich bessere Ergebnisse, als erwartet zu erzielen sind. Zweitens kann man den Ergebnissen der „half sampling rate“ Sequenzen deutliche Kontextabhängigkeit unterstellen. Dadurch, dass die Gesamtqualität der Testsequenzen insgesamt sehr hoch war (besonders durch die Anreicherung hoher Frequenzanteile durch SBR), hatten die Versuchteilnehmer die Tendenz, die auf 11 kHz bandbegrenzten Layer II LSF Signale grundsätzlich als sehr schlecht einzuordnen. Das Ganze führt nun zu dem Problem, dass für mittlere Audioqualität keine normal Layer II codierten Referenzsignale zur Verfügung stehen. Um aber den Codiergewinn auswerten zu können, ist es notwendig, die Bitraten von Layer IISBR und normal Layer II bei gleicher Qualität gegenüberzustellen. Um den Codiergewinn dennoch abschätzen zu können, wurde eine Extrapolation von normal Layer II Jointstereo für 64 kbit/s durchgeführt. Dies geschah mittels eines Polynoms 2. Grades. Um Kritik an dieser Vorgehensweise auszuschließen, wurde darauf geachtet, dass das Ergebnis der Extrapolation für normal Layer II tendenziell besser ausfällt, als es in Wirklichkeit der Fall sein dürfte. So sollte der zu ermittelnde Codiergewinn durch SBR im Zweifelsfall zu klein, anstatt zu groß ausfallen. In der Abbildung wurde der Codiergewinn für 3 Bitraten graphisch dargestellt. Dabei ergeben sich im Mittel 14% Codiergewinn bei der Umstellung von normal Layer II Jointstereo mit 160 kbit/s zu äquivalenten Layer IISBR-Betrieb, etwa 18% bei der Umstellung von 128 kbit/s normal Layer II Jointstereo und etwa 37% bei normal Layer II Jointstereo knapp unter 100 kbit/s. Mono Bei der Auswertung der Monosequenzen wird ähnlich verfahren. Allerdings fällt hier die Unterscheidung zwischen Jointstereo und Stereo weg. Außerdem wurden weniger Beispiele getestet, was dazu führt, dass weniger Messpunkte zur Verfügung stehen. Die blaue Linie zeigt Layer IISBR, die gelbe Linie zeigt normal Layer I Mono und die violette Linie zeigt normal Layer II LSF. 76 Audioqualität über der Bitrate (Mono) 100,00 SBR mono Mono LSF Extrapoliert Excellent Mono normal 80,00 Good 60,00 Fair gewonnene Bitrate : 22,4 kbit/s 40,00 ~ 23 % Gewinn bei 96 kbit/s Poor 20,00 gewonnene Bitrate : 36,2 kbit/s ~ 43 % Gewinn bei 84 kbit/s Bad 0,00 48 64 80 96 Bitrate [kbit/s] Abbildung 7-16 Dadurch, dass pro Codierungsverfahren nur zwei Testsequenzen zur Verfügung standen, wird der Verlauf linear zwischen den Messpunkten interpoliert. Im Gegensatz zur Qualitätsauswertung, bei der die normal Layer II LSF codierten Beispiele den direkten Vergleich zu Layer IISBR ermöglichen, ist dieser, zur Ermittelung des Codiergewinns völlig unwichtig. Für die Bitrate von 84 kbit/s normal Layer II konnte ein Codiergewinn von etwa 43% ermittelt werden. Um den Codiergewinn in bezug auf 96 kbit/s normal Layer II zu ermitteln, musste darauf zurückgegriffen werden, die Kurve von Layer IISBR zu extrapolieren. Daraus ergibt sich ein Codiergewinn von ungefähr 23%. 7.6.2.2.a Codiergewinn als Funktion über der Bitrate normal Layer II Anhand der vorliegenden Interpolationen zwischen den Messgrößen soll der Verlauf des Codiergewinns als Funktion der Bitrate bezogen auf normal Layer II dargestellt werden. Dies ist die übliche Darstellung des Codiergewinns. Es lässt sich daraus leicht ableiten, wie viel Bitrate bei einer Umstellung von normalen Layer II zu Layer IISBR maximal eingespart werden kann. 77 Stereo Codiergewinn in [%], dargestellt als Funktion über der Bitrate normal MPEG Layer II (Jointstereo) 40 35 Codiergewinn in [%] 30 25 20 15 10 5 0 96 112 128 144 160 Bitrate [kbit/s] normal Layer II Abbildung 7-17 Mono Codiergewinn in [%], dargestellt als Funktion über der Bitrate normal MPEG Layer II (Mono) 70 Codiergewinn in [%] 60 50 40 30 20 10 0 80 96 Bitrate [kbit/s] normal Layer II Abbildung 7-18 Gemäß Formel 1 (siehe Abschnitt 7.6.2.1) lässt sich die resultierende Bitrate von Layer IISBR ermitteln: g ⋅ B norm.Layer II B Layer II SBR = B norm.Layer II − 100 mit B = Bitrate und g = Codiergewinn in % 78 Wie erwartet zeigt diese Kurve das typische Verhalten der SBR-Technologie. Man erkennt, dass der Codiergewinn bei niedrigen bis mittleren Bitraten hoch ist, und dann bei höheren Bitraten abfällt. Dies ist nicht verwunderlich, wenn man sich die Arbeitsweise der Layer II Codierung vor Augen führt. Bei niedrigen Bitraten schneidet der normal Layer II Encoder die höheren Frequenzanteile ab bzw. er lässt stärkere Codierartefakte zu, um ein breiteres Audiospektrum codieren zu können. Layer IISBR wirkt beiden Effekten entgegen. Das Basisspektrum wird möglichst sauber codiert („half sampling rate“) und die fehlenden hohen Spektralanteile werden rekonstruiert. Bei höheren Bitraten kann auch bei normal Layer II genügend Information übertragen werden, um das höherfrequente Originalspektrum zu erfassen, wobei Layer IISBR die zusätzliche Bitrate nur dafür nützen kann, das Basisspektrum möglichst gut zu codieren. Der zu erwartende Abfall des Codiergewinns bei sehr niedrigen Bitraten wurde mit dieser Untersuchung nicht erfasst. Für den Rundfunkbetrieb bei DAB ist dieser Qualitätsbereich auch nicht relevant. Codiergewinn als Funktion über der Bitrate Layer IISBR 7.6.2.2.b Um auch nach einer Umstellung von MPEG Layer II zu Layer IISBR Aussagen über den Codiergewinn machen zu können, der bei Verwendung der SBRTechnologie resultiert, veranschaulicht die folgende Graphik den Codiergewinn als Funktion in Abhängigkeit der, für SBR resultierenden Bitrate. Stereo Codiergewinn [%], dargestellt als Funktion über der Bitrate von MPEG Layer II + SBR (Stereo/Jointstereo) 40 Codiergewinn in [%] 35 30 25 20 15 10 5 0 64 80 96 112 128 144 Bitrate [kbit/s] Layer II + SBR (Stereo/Jointstereo) Abbildung 7-19 79 Mono Codiergewinn [%], dargestellt als Funktion über der Bitrate von MPEG Layer II + SBR (Mono) 45 40 Codiergewinn in [%] 35 30 25 20 15 10 5 0 48 64 80 Bitrate [kbit/s] Layer II + SBR (Mono) Abbildung 7-20 Gemäß Formel 1 (siehe Abschnitt 7.6.2.1) lässt sich ebenfalls die Bitrate von MPEG Layer II ermitteln, die notwendig wäre, um gleiche Qualität zu erhalten wie durch Layer IISBR: BLayer II SBR ⋅ 100 B norm.Layer II = − g 100 mit B = Bitrate und g = Codiergewinn in % 7.6.2.2.c Bitrate Layer IISBR als Funktion über der Bitrate normal Layer II Anhand folgender Darstellung können die Bitraten von normal Layer II und Layer IISBR direkt miteinander verglichen werden. Leider ist die Aussage für die Monosequenzen relativ dürftig, da sich diese nur aus zwei Messpunkten ergibt und nur einen sehr kleinen Bitratenbereich beschreibt. Es soll hier nur der Vollständigkeit aufgeführt werden. 80 Stereo Bitrate von Layer II + SBR als Funktion über der Bitrate von normal Layer II (Jointstereo) 160 Bitrate [kbit/s] Layer II +SBR 144 128 112 96 80 64 96 112 128 144 160 176 192 Bitrate [kbit/s] normal Layer II Abbildung 7-21 Mono Bitrate von Layer II + SBR als Funktion über der Bitrate von normal Layer II (Mono) 80 Bitrate [kbit/s] Layer II +SBR 76 72 68 64 60 56 52 48 80 84 88 92 96 Bitrate [kbit/s] normal Layer II Abbildung 7-22 81 7.6.2.3 Unsicherheiten bezüglich Auswertung An dieser Stelle soll unbedingt darauf hingewiesen werden, dass es sich bei der Auswertung des Codiergewinns nur um eine Abschätzung handeln kann. Alle Berechnungen wurden auf der Basis der Mittelwerte über alle Testsequenzen durchgeführt. Allein dies führt schon zu einer Unsicherheit, da man bereits bei der Auswertung des Qualitätsgewinns anhand der einzelnen Testsequenzen die starken Unterschiede sieht. Die 6 gewählten Testsequenzen können nur einen kleinen Ausschnitt aus dem real gesendeten Rundfunkprogramm darstellen. Dann kommt hinzu, dass sich teilweise sehr große Vertrauensintervalle zeigen, was auf eine große Streuung der Bewertungen hindeutet. Dies sagt aus, dass die Versuchsteilnehmer keineswegs sehr einig waren in der Bewertung. Anhand der Vertrauensbereiche soll für den ermittelten Codiergewinn von etwa 14% bei 160 kbit/s Layer II Jointstereo eine „worst case“ Betrachtung herangezogen werden. Dadurch, dass hier die Kurven hier sehr steil verlaufen, kann man davon ausgehen, dass hier der größte Fehler entstehen kann. Wie man nun in der Graphik erkennt, ergibt sich anhand der Vertrauensbereiche eine obere und untere Grenze für die Bewertungen. Wenn man nun den Codiergewinn möglichst optimistisch bestimmen will (großer roter Pfeil), kommt man auf etwa 45 kbit/s Bitratenersparnis bei gleicher Qualität, was zu einem Codiergewinn von etwa 28% führt. Bei pessimistischer Betrachtung erhält man keinen Codiergewinn (roter Kreis) da sich hier die Vertrauensbereiche überlappen. Auf eine exakte mathematische Abhandlung der Fehlerbetrachtung soll hier ausdrücklich verzichtet werden, da schon die Auswahl der Audiotestsequenzen nicht mathematisch erfasst werden kann. 82 Abbildung 7-23 0 44,8 Ein anderer Ansatz, diese Unsicherheiten zu beschreiben, wäre eine genauere Differenzierung bei den Versuchsteilnehmern durch zuführen. Aus diesem Grund wurden die Versuchsteilnehmer und ihre Bewertungen in zwei Kategorien eingeteilt, und ihre Beurteilungen im Hörversuch separat dargestellt. Es wurden die zwei Kategorien „Profihörer“ und „Laienhörer“ gebildet. Letzteres soll nicht abwertend wirken. Unter „Profihörer“ sind alle Personen zusammengefasst, die sich schon über viele Jahre mit der Beurteilung der Codierqualität von Audiosignalen befassen und auch schon über Jahre an solchen Hörversuchen teilnehmen. Diese haben den Vorteil, dass ihr Gehör auf die Erkennung von Codierartefakte trainiert ist und kleine Veränderungen im Audiosignal deutlich wahrnehmen. Der Nachteil in dieser Personengruppe liegt darin, dass sie dazu tendieren, überkritisch zu bewerten bzw. sogar, dass sie manchmal meinen, Fehler wahrzunehmen, wo keine sind. Die Gruppe der „Laienhörer“ beinhaltet Personen, die sich aus starkem Interesse mit diesem Thema auseinandersetzen, aber noch nicht auf den Charakter diverser Codierartefakte sensibilisiert sind. Das waren hauptsächlich Studenten und Diplomanten aus der Abteilung Audiosystemtechnik am IRT. Diese Personengruppe ist vergleichbar mit einem sehr kritischen Durchschnittshörer. Die Versuchsteilnehmer verteilten sich etwa zu gleichen Teilen auf diese zwei Gruppen auf (9 Profihörer, 8 Laienhörer). 83 64 64 kbp kb s st ps ere 80 join o S kb tste BR ps re LS o S F j BR 80 oin 80 kbp tstere o kb s s ps ter 96 joint eo S kb ste BR ps reo LS SB F 96 join R t 96 kbp stere o kb s s t p 11 s jo ereo 2 k ints SB bp ter R s j eo oin SB t 11 ste R r 2 12 kbp eo S 8k B s bp ste R s L reo SF SB 12 joint R 8 k ste r b 12 ps eo 8 k join bp tste s r 16 stere eo 0k oS b B 16 ps 0 k join R bp tste s r 19 stere eo 2k oS bp s jo BR hid ints de tere nr o hid ef s de tere n o LP ref 3.5 ster e o k LP Hz s 3.5 tere kH o z LP ster 7 k eo H LP z ste 7 k reo Hz ste reo 64 64 kbp kb s s ter ps 80 join eo S kb tste BR ps re LS o S B F 80 join R 80 kbp tster kb s s eo ter ps 96 join eo S BR kb tste ps r LS eo S F B 96 join R 96 kbp tstere kb s s o t 11 ps jo ereo 2 k int SB bp ste s j reo R oin S 11 tste BR r 2 12 kbp eo S 8k B s bp ste R sL reo SF S 12 join BR 8 k tste r b 12 ps j eo 8 k oin bp tst e s 16 ster reo 0 k eo S 16 bps BR 0 k join bp tst e s 19 ster reo 2 k eo S bp s j BR o hid ints de tere nr o hid ef s de ter eo n LP ref s 3.5 tere o LP kHz 3.5 ster e kH o z LP ste 7 k reo H LP z ste 7 k reo Hz ste reo ± 95% Vertrauensbereich 60,00 SBR Poor ± 95% Vertrauensbereich Good 80,00 40,00 Mittelwerte über alle getesteten Stereo-Items (Profis) Excellent 100,00 SBR SBR 80,00 SBR SBR Good Excellent SBR SBR SBR SBR SBR SBR SBR Fair 40,00 SBR Bad 20,00 0,00 Abbildung 7-24 Mittelwerte über alle getesteten Stereo-Items (Laien) 100,00 SBR SBR SBR SBR Fair 60,00 SBR Poor Bad 20,00 0,00 Abbildung 7-25 Wenn man beide Diagramme vergleicht, erkennt man sofort die unterschiedlichen Tendenzen in der Bewertung. Bei den Profihörern fallen die Bewertungen kritischer aus. Auch zeigt sich bei der Erkennung der versteckten Originalsignale („hidden reference“) eine sehr hohe Treffsicherheit. Die Laienhörer waren toleranter in der Beurteilung der Testsequenzen, haben die „hidden reference“ öfters nicht erkannt und somit nicht mit dem Wert 100 bewertet. 84 Den nächsten Unsicherheitsfaktor stellt die Interpolation zwischen den Messergebnissen und die Extrapolation über den gemessenen Bereich hinaus dar. Während sich die Interpolation zwischen den Messpunkten im Rahmen der Gesamtabschätzung als eine vertretbare Methode darstellt (im Verhältnis zu der Größe der Vertrauensbereiche ist anzunehmen, dass sich die Interpolation zwischen den Mittelwerten nicht negativ auf die Ergebnisse auswirken), musste bei der Extrapolation auf Erfahrungswerte zurückgegriffen werden. Dabei wurde darauf geachtet, dass der Fehler im Zweifelsfall zu Ungunsten des Codiergewinns ins Gewicht fällt. 8 Kanalsimulation DAB zur Bestimmung der Fehlersicherheit In diesem Teil der Diplomarbeit soll geprüft werden, wie sich die Übertragung von Rundfunkprogrammen im MPEG Layer IISBR Format, im praktischen Einsatz auf Kanalstörungen auswirkt. Denn, obwohl es sich bei DAB um ein digitales Übertragungssystem handelt, kann ein störungsfreier Empfang nicht immer gewährleistet werden. Dieses Kapitel beschäftigt sich dabei ausschließlich mit der terrestrischen Übertragung, da sich die Übertragung per Kabel als relativ unproblematisch darstellt. Wenn Layer IISBR nun eine andere Fehlerempfindlichkeit gegenüber Kanalstörungen aufweist als bislang verwendetes MPEG Layer II, dann ergibt sich daraus schnell die Konsequenz, dass trotz des festgestellten Codiergewinns und der gewährleisteten Kompatibilität eine unproblematische Umstellung der Rundfunkausstrahlung von herkömmlichen MPEG Layer II auf MPEG Layer IISBR nicht ohne weiteres möglich ist. 8.1 Darstellung typischer realer Übertragungsstrecken Übertragungstechnisch stellt DAB ein völlig anderes Konzept dar, als es beim herkömmlichen analogen FM-Rundfunk der Fall ist. Ein Gleichwellennetz (SFN14) versorgt im DAB Rundfunksystem das ganze Versorgungsgebiet auf einer definierten Frequenz mit einem DAB Signal, in das alle verfügbaren Programme dieses Sendekanals als „Subchannels“ eingebettet sind. Der Begriff Gleichwellennetz besagt, dass alle Sender das Signal mit der selben Frequenz in der gleichen Phasenlage ausstrahlen, um Interferenzen, die sich negativ auf die Empfangsqualität auswirken zu minimieren. Durch ein spezielles Modulationsverfahren (COFDM15-Modulation) und der Dimensionierung der Sendebereiche wird sogar erreicht, dass sich die Überlagerung der verschiedenen Sender verstärkend auf das Signal auswirken [18]. Dennoch 14 Single Frequency Network 15 Coded Orthogonal Frequency Division Multiplexing 85 kann die Empfangsqualität durch die Eigenschaften des Funkkanals stark beeinträchtigt werden. Dies äußert sich besonders problematisch im mobilen Rundfunkempfang, bei dem sich die Übertragungseigenschaften ständig ändern. Das Übertragungsverhalten wird dabei im wesentlichen durch Dämpfungen, Reflexionen, Verzögerungen und Frequenzverschiebungen beeinflusst [17]. Deshalb konzentrieren sich die folgenden Betrachtungen vorrangig auf den mobilen Rundfunkempfang. Abbildung 8-1 Abbildung 8-1 veranschaulicht die Problematik der Mehrwegeausbreitung und die Bewegung beim mobilen Rundfunkempfang. Es werden zwei grundsätzliche Profile unterschieden, die den Zusammenhang der geografischen Struktur des Empfangsgebietes und die Charakteristik des Übertragungskanals beschreiben: Ländliches Gebiet und typisches Stadtgebiet. • Ländliches Gebiet (Rural) beschreibt die Empfangssituation in einem Fahrzeug mit relativ hoher Geschwindigkeit in hügeliger Landschaft. Gekennzeichnet ist der Übertragungskanal dabei durch starken Direktempfang. Gestört wird dieser Kanal durch Mehrwegeausbreitungen aufgrund von Reflexionen an Hügeln mit vorwiegend nur kurzen Verzögerungszeiten (wenig Mehrfachreflexionen und wenn dann sehr schwach), wenige Pfade und starken Dopplerverschiebungen durch die Bewegung des Fahrzeugs. • Stadtgebiet charakterisiert dem Empfang in einem Fahrzeug, das sich innerhalb einer stark bebauten Umgebung im typischen Stadtverkehr mit relativ langsamer Geschwindigkeit bewegt. Geprägt ist dieses Profil durch starke Mehrwegeausbreitung mit langen und kurzen Verzögerungszeiten (Mehrfachreflexionen an Gebäuden), schwachen Direktempfang (Abschattung) und Dopplerverschiebungen aufgrund der Fahrzeugbewegung. 86 Hinzu kommt die Degradation des DAB-Sendesignals an Versorgungsgrenzen. Hier sinkt die empfangene Leistung, was ebenfalls anfangs zu Störungen führt, bis der Empfang völlig zusammenbricht. 8.2 Ausstiegsverhalten des DAB Rundfunksystems Das Ausstiegsverhalten eines digitalen Systems zeichnet sich durch eine sprunghafte Verschlechterung der Übertragung ab einem bestimmten Signal/Störabstands C/N (carrier-to-noise ratio) aus. Die Bezeichnung C/N wird hier entsprechend den Konventionen in der Rundfunkübertragungstechnik verwendet, damit eine Unterscheidung gegenüber dem Signal/Störabstand SNR (signal-to-noise ratio) für ein Tonsignal gewährleistet ist. Besonders bei hoch komplexen Fehlerschutzalgorithmen, wie sie auch für DAB verwendet werden ist der Übergang vom einwandfreien Empfang bis zum völligen Aussetzen des Systems besonders hart, dennoch gibt es einen Übergang. Bei sehr geringen Bitfehlerraten schleichen sich zuerst nur sehr wenig Übertragungsfehler ein, die das Gesamtsystem aufgrund gezielt hinzugefügter Redundanz mit einer definierten Wahrscheinlichkeit korrigieren kann (Viterbi Decoder). Die nächste Stufe wäre, dass die Fehler zwar nicht korrigiert werden können, aber trotzdem noch nicht zu einem Versagen führen. Dies kann dadurch erreicht werden, dass Fehler erkannt werden und durch Fehlerverschleierungsmaßnahmen praktisch unhörbar gemacht werden, oder dass bezüglich der Störwirkung nur unwichtige Bits gestört werden. Durch das ausgeklügelte Fehlerschutzverfahren in der Kanalcodierung des MPEG Layer II Audiodatenstroms entstehen diese Übertragungsfehler zuerst in unkritischen Datenbereichen (siehe Kapitel 4.7). Im Layer II Audiodatenstrom führt das zuerst zur fehlerhaften Übertragung einzelner Teilbandsamples. Dadurch, dass die spektrale Hüllkurve des Audiosignals, aufgrund der gut geschützten Skalenfaktoren erhalten bleibt, und nur einzelne Teilbänder gestört sind, verliert das Audiosignal dadurch nur leicht an Qualität. Durch CRC Fehlererkennungsverfahren ist das DAB Empfangssystem auch in der Lage Übertragungsfehler zu erkennen, und dynamisch darauf zu reagieren. Bei erkannten Fehlern werden dann z.B. im DAB MPEG Audiodecoder gezielte Fehlerverschleierungsstrategien angewendet, um die Qualität des Audiosignals möglichst gut zu erhalten. Wenn die Skalenfaktoren bei der Übertragung beschädigt wurden, und dies durch den Skalenfaktor CRC erkannt wird, dann besteht z.B. die Möglichkeit, die Skalenfaktoren des vorhergegangenen Audiorahmens wieder zu verwenden. Aufgrund der hohen Wahrscheinlichkeit, dass sich die Skalenfaktoren benachbarter Audiorahmen sehr ähneln, nimmt das Gehör den Unterschied kaum war. Erst wenn die Störungen so stark werden, dass komplette MPEG Audiorahmen unbrauchbar werden, und selbst durch Wiederholung unbeschädigter Audiorahmen oder Interpolationen zwischen unbeschädigten Audiorahmen das Signal nicht mehr aufrecht erhalten werden kann, 87 schaltet der DAB-Empfänger stumm. Diese Eigenschaften führen dazu, dass auch ein digitales Übertragungssystem, wie DAB kein hartes Ausstiegsverhalten aufweist. 8.3 Kanalsimulation Um festzustellen, wie sich aufgrund der parametrischen Codierung der hohen Frequenzanteile in MPEG Layer IISBR, Übertragungsfehler auf das Ausstiegsverhalten auswirken, wurde versucht, im Labor eine komplette DAB Übertragungsstrecke zu simulieren und unter definierten Übertragungsbedingen zu betreiben. Ziel dieses Versuchs sollte sein, die Vermutung zu bestätigen, dass MPEG Layer IISBR ein ähnliches Verhalten bei gleicher Kanalstörung zeigt, wie herkömmliches DAB MPEG Layer II. Das würde eine problemlose Umstellung von herkömmlichen MPEG Layer II auf MPEG Layer IISBR gewährleisten, ohne dass bestehende Versorgungsrichtlinien verletzt würden. Abbildung 8-2 zeigt den grundsätzlichen Versuchsaufbau. Um die Übertragungsstrecke zu simulieren wird zuerst ein DAB Signal erzeugt. Dieses wird dem Kanalsimulator zugeführt, der die Empfangsbedingungen für mobilen Empfang nachgebildet. Durch Addition von Rauschen mit variabler Stärke werden verschiedene C/N Verhältnisse realisiert, die das Degradationsverhalten an Versorgungsgrenzen simulieren. Auswertet wird die Qualität des empfangenen Audiosignals am Empfänger in Abhängigkeit des C/N Wertes und der simulierten Umgebung. Rauschgenerator Simuliert Versorgungsgrenzen variables Dämpfungsglied DAB Receiver DAB-Sender Kanalsimulator Technics ST-DT-1000 Simuliert Rayleighkanal mit Mehrwegeausbreitung und Dopplereffekte Abbildung 8-2 Ähnliche Simulationen wurden schon in früheren Jahren innerhalb des Forschungsprojektes EUREKA 147 durchgeführt, um spezifische Aussagen über das Ausstiegs88 verhalten des DAB Systems im Zusammenhang mit verwendeten Bitraten, Schutzkategorien (sogenannte Protection Levels), Umgebungsprofile und Empfangbedingungen an Versorgungsgrenzen zu gewinnen [5]. Die genannten Untersuchungen dienen zum einen als Vorlage, zum anderen aber auch als Kontrolle zu den selbst durchgeführten Untersuchungen. 8.3.1 Beschreibung des Versuchsaufbaus Software: FADICS v1.0 GRUNDIG Software: SDB GUI v3.36 R&S Rauschgenerator R&S 282.88.16.03 50 MHz Bandbreite Steuerrechner Steuerrechner 216,928 MHz 59 MHz 35 MHz 216,928 MHz FADICS DABTestmodulator Fading Channel Simulator GRUNDIG R&S SDB601 ETI Signal variables Dämpfungsglied Bandpassfilter 217 MHz BW = 7 MHz 157,928 MHz 181,928 MHz Signalgenerator Signalgenerator R&S 845.4002.52 R&S 845.4002.52 DAB Receiver Dämpfungsglied Technics ST-DT-1000 RDI Leistungsmessgerät RDI to USB R&S ESVB Messung Mittelwert USB Layer II + SBR nicht decodiert DAB Server Laptop Worstation DELL 433SE mit DSP Karte PC32 Sftware: PCR-Recorder for ETIBitstreams (c) E. Eberlein, FhG/IIS Erlangen TOS Link digital Audio Out zur Soundkarte Software: RDI2USB for DAB-Scout/M-Box v.b11 von M.Schulze analog Audio Out normal Layer II decodiert Software: Wavelab v.40 Steinberg STAX Kopfhörerverstärker Abbildung 8-3 8.3.1.1 Beschreibung der Komponenten DAB Server Der DAB Server ist eine Workstation, ausgerüstet mit einer DSP-Karte, die mittels spezieller Software in der Lage ist, ein vollständiges DAB Ensemble im Basisband zusammenzustellen und auf einer dafür vorgesehenen 2 Mbit/s G.703 Schnittstelle als ETI16-Signal auszugeben. Die unterschiedlichen Audiosignale, die in einzelnen „Subchannels“ als verschiedene Rundfunkprogramme übertragen werden sollen, müssen in codierter Form als DAB MPEG Layer II Dateien auf dem Rechner vorliegen. Mit Hilfe eines Konfigurationsskripts können diese in den DAB Multiplex eingebunden werden. Hier werden auch die unterschiedlichen Protection Levels für die einzelnen „Subchannels“ festgelegt. 16 Ensemble Transmission Interface 89 DAB Testmodulator Der COFDM Testmodulator von Rhode & Schwarz erzeugt das eigentliche HFSendesignal. COFDM steht dabei für „Coded Orthogonal Frequency Division Multiplexing“ und beschreibt eine Mehrträgermodulation. In diesem Gerät findet die eigentliche Kanalcodierung (Energy Dispersal, Faltungscodierung sowie Time-Interleaving) statt. Dabei werden Informationen aus dem ETI Eingangssignal berücksichtigt, die Auskunft geben, über Anzahl, Art und zugewiesenem Fehlerschutz der einzelnen Nutzkanäle. Auf dieser Ebene berechnen DSP Bausteine die Symbole, die den einzelnen Trägern zugeordnet werden (Frequency Interleaving), und aus denen dann ein sogenanntes Transmissionframe zusammengestellt wird. Durch eine inverse Fouriertransformation (IFFT) wird daraus das Zeitsignal gewonnen und in analoger Form dem IQ-Modulator zugeführt, der das Signal in das entsprechende HF-Band umsetzt und ausgibt. Konfiguriert wird der Modulator über die serielle Schnittstelle von einem Rechner. FADICS FADICS steht für „Fading Channel Simulator“, der im EUREKA-147 DAB Projekt von Grundig entwickelt wurde das HF Eingangssignal muss eingangsseitig auf 59 MHz umgesetzt werden. Nachdem es in einer integrierten Analogkomponente gefiltert worden ist, wird es auf die digitale Ebene umgesetzt. Die Mehrwegeausbreitung wird auf digitaler Basis durch, unterschiedlich verzögerter Pfade nachgebildet. Jedes verzögerte Pfadsignal wird mit einer komplexen Koeffizientenfolge bewertet, die einer statistischen Beschreibung der lokalen Dispersion entspricht. Die, zu simulierende Fahrgeschwindigkeit bestimmt die Dopplerverschiebung. Dies wird mittels Interpolation mit einer variablen Interpolationsrate zwischen den Bewertungskoeffizienten realisiert. Nach der Realteilbildung werden die einzelnen Pfade gewichtet (Verzögerungsleistungsspektrum) und auf addiert. Das Lognormal-Fading wird durch dynamische Multiplikation mit dem Summensignal erzeugt. Die entsprechenden Koeffizientensätze werden über einen Steuerrechner übertragen. Mit einer Mittenfrequenz von 35 MHz steht das HF-Signal am Ausgang des FADICS zur Verfügung. Rauschgenerator Der Rauschgenerator erzeugt annähernd weißes Rauschen mit einer Bandbreite von 50 MHz und kann in 1 dB Schritten gedämpft werden. 90 Leistungsmessgerät Bei diesem Gerät handelt es sich um einen hoch-präzisen Leistungsmesser, mit einstellbarer Bandbegrenzung, innerhalb dessen die Messung bewertet wird. Da die zu messenden Leistungspegel durch die Kanalsimulation und durch die Beschaffenheit des DAB-Sendesignals (Transmission Frames) mehr oder weniger starken Schwankungen unterliegen, wurden mit einem zusätzlichen Rechner längere Messserien gefahren, um daraus eine mittlere Leistung zu ermitteln. DAB Receiver Der verwendete DAB Receiver besitzt mehrere Schnittstellen, um das empfangene Rundfunkprogramm auszugeben. Genutzt wurden die beiden optischen, digitalen Schnittstellen TOSLink und RDI. TOS Link ist eine Konsumerschnittstelle, dass das Audioprogramm als PCM Signal ausgibt. Über eine Soundkarte am Rechner wurde dieses Signal aufgezeichnet. RDI ist eine Schnittstelle, die einen direkten Zugriff auf den empfangenen DAB Multiplexdatenstrom erlaubt. Diese erlaubt eine externe Weiterverarbeitung der empfangenen DAB Daten. Mittels spezieller Software auf einem Rechner kann so über einen RDI2USB Konverter der unverarbeitete DAB MPEG Layer II Datenstrom oder Teile davon ausgelesen werden. Zusätzlich besteht die Möglichkeit die Anzahl der erkannten CRC-Fehler im Fast Information Channel (FIC) auszulesen. 8.3.1.2 Beschreibung der Strecke Auf dem DAB-Server wird ein kompletter DAB Multiplex mit einem „Subchannel“ erzeugt, in dem das gewünschte Layer II Testsignal eingebunden wird. Die MPEG Layer II und MPEG Layer IISBR Testsignale liegen dabei als Dateien auf dem Rechner vor. Der Testmodulator erzeugt das HF-Signal im Band III bei 216,928 MHz (Kanal 11A). Für diese Frequenzlage ist der Sendebetrieb im Transmission Mode I vorgesehen, beidem das Sendesignal mit 1,5 MHz Bandbreite auf 1536 Träger verteilt wird. Unter Verwendung eines Mischers und eines Signalgenerators wird das Sendesignal auf 59 MHz runtergemischt. Im FADICS wird das Signal eingangsseitig gefiltert und die Kanalsimulation, entsprechen des gewählten Umgebungsprofils angewendet. Am Ausgang steht das Signal mit einer Mittenfrequenz von 35 MHz zur Verfügung. Hier wird das Sendesignal mit dem 50 MHz Rauschsignal überlagert. Ein zweiter Mischer setzt das Signal wieder in die ursprüngliche Frequenzlage zurück. Ein Bandpassfilter entfernt danach die ungewollten Mischprodukte. Ein Dämpfungsglied reduziert die Sendestärke auf ein, für die Empfindlichkeit des DAB Empfänger ausgelegtes Maß. Die DAB MPEG Layer II Signale ohne SBR werden vom DAB 91 Empfänger decodiert, und als PCM Signal von einem Rechner, über eine Soundkarte aufgezeichnet. Die DAB Layer IISBR Signale werden direkt über die RDI Schnittstelle extrahiert und erst später, mit einer geeigneten SBR-Decodersoftware auf dem Rechner zu PCM Signale decodiert. 8.3.1.3 Verwendete Ausbreitungsprofile Der Kanalsimulator besitzt verschiedene Ausbreitungsprofile (Verzögerungsleistungsprofile) für den Mehrwegekanal. Dabei werden die Pfadverzögerungszeiten, die Pfaddämpfungen und das Dopplerspektrum (Frequenzverschiebung) definiert. Für diesen Versuch wurden die zwei folgenden Standardkanäle verwendet. 8.3.1.3.a RURAL1 Der Standardkanal RURAL1 besitzt fünf Pfadverzögerungszeiten von bis zu 0,5 µs für ländliches Gebiet, und entspricht dem Rayleigh-Kanal aus COST 207 [17]: „Rural Area, non-hilly“ in [17] Tabelle 2.4.3.1. Simuliert wurde hier eine Geschwindigkeit von 100 km/h. 8.3.1.3.b TYPURB1 Der Standardkanal für ein typisches Stadtgebiet TYPURBAN (nach COST 207 [17]: „Typical Urban Area“, in [17] Tabelle 2.4.3.2) besitzt Pfadverzögerungszeiten von bis zu 5 µs. Simuliert wurde hier mit 15 km/h. Der Grund, warum eine so niedrige Geschwindigkeit gewählt wurde, liegt darin, dass vorangegangene Tests der BBC [5] ebenfalls bei dieser Geschwindigkeit gemacht wurden, und so die Ergebnisse als Referenz herangezogen werden können. (Allerdings zeigt sich dieser Wert zu manchen Tageszeiten im Stadtverkehr als absolut realistisch). 8.3.1.4 Verwendete Audiotestsequenzen Um die hier ermittelten Ergebnisse mit den EUREKA147 Tests vergleichen zu können, wurden beschlossen, die selben Testsequenzen zu verwenden. 1. 2. 3. 4. 5. Klarinette (kurze Melodie) Glockenspiel (kurze Melodie) Sprache weiblich Sprache männlich ABBA (kurzer Ausschnitt) Quellenangaben sind im Anhang unter 11.3 zu finden. 92 8.3.1.5 Verwendete Bitraten und Audiomodi, Codierung der Testsequenzen Für den Versuch wurden folgende Bitraten und Audiomodi gewählt: 192 kbit/s Jointstereo MPEG Layer II 128 kbit/s Jointstereo MPEG Layer IISBR An dieser Stelle soll auf eine Besonderheit bei der Codierung der Testsequenzen eingegangen werden. Die Kanalsimulation wird mit dem Fehlerschutzprofil UEP17 durchgeführt, das speziell auf die Übertragung von Audio ausgelegt ist. Wie bereits erwähnt, werden dabei unterschiedliche Fehlerschutzniveaus für die verschiedenen Datenpakete im MPEG Layer II Audiodatenrahmen angewendet. Wenn nun keine XPAD Zusatzinformationen in den MPEG Audiorahmen eingebunden werden, ergibt sich das Phänomen, dass die letzten 4 Bytes der Subbandsamples im MPEG Audiorahmen einen höheren Fehlerschutz genießen als die restlichen Subbandsamples (siehe Kapite4.5 und 4.7). Für die MPEG Layer IISBR Audiorahmen ergibt sich analog die Problematik, dass ohne X-PAD die SBR-Steuerdaten in diesen Bereich mit höherem Fehlerschutz fallen (siehe Kapitel 6.2). Um die Existenz von X-PAD Daten zu simulieren wurden die verwendeten Software Encoder von Coding Technologies so umprogrammiert, dass in dem MPEG Layer II Audiodatenstrom 6 kbit/s an Leerdaten in den Bereich eingefügt wurden, in dem normalerweise die Daten des X-PAD liegen. Dieser Datenbereich wird dem Encoder zur Audiokodierung entzogen. Das macht 144 Bits pro Frame bei MPEG Layer II bei voller Abtastrate und 288 Bit pro Frame bei MPEG Layer IISBR, da der Codec hier im „half sampling rate“ Betrieb arbeitet. Damit ist sichergestellt, dass die eigentlichen Audiosamples, einschließlich der SBRSteuerdaten im vorgesehenen Fehlerschutzniveau liegen. Verwendet wurde die Software „mp2plainencXPAD.exe“ zur Codierung der Standard MPEG Layer II Signale und „Layer 2 + SBR Demo Encoder V 0.8.1 (build Aug 8 2002) (C) 2001/2002 by Coding Technologies“ zur Codierung der MPEG Layer IISBR Signale. 8.3.2 Versuchsdurchführung Zuerst wurde die Standard MPEG Layer II Testsequenz (192 kbit/s Jointstereo) bei gegebenen Kanalsimulationsprofil („Rural“ oder „Urban“) über die DAB Simulationsstrecke an den DAB Empfänger übertragen. Dabei wurde die Trägerleistung gemessen (ohne additives Rauschen). Die Klangqualität wurde mittels einer hochwertigen Abhöranlage (STAX Kopfhörer) überwacht. Danach wurde die Übertragungstrecke mit Rauschen überlagert. Das Rauschsignal wurde in 1 dB Schritten so 17 siehe Kapitel 4.7 93 lange verstärkt, bis akustisch die ersten Fehler in der Testsequenz wahrnehmbar waren. Jetzt wurde das Rauschen wieder soweit reduziert, bis die Übertragung akustisch wieder fehlerfrei erschien. Mittels des digitalen Audioausgangs des DAB Empfängers wurde die Testsequenz mit einer Soundkarte am PC aufgezeichnet. Dies wurde mehrmals wiederholt, wobei das Rauschsignal mehr und mehr verstärkt wurde, solange bis der Empfang vollständig zusammengebrochen ist. Innerhalb des gleichen, vorher festgestellten Rauschpegelbereichs wurde nun analog dazu das Sendesignal, mit der MPEG Layer IISBR codierten Testsequenz mit Rauschen überlagert. Aufgezeichnet wurde dabei, der nicht decodierte MPEG Layer IISBR Datenstrom als mp2-Datei. Dazu diente eine spezielle Software „RDI2USB“, die die RDI Schnittstelle des DAB Empfänger anspricht. Zusätzlich wurde bei jedem Messdurchgang die Rauschleistung bei abgeschaltetem Trägersignal ermittelt. Gemessen wurde dabei nur die Rauschleistung, die sich mit 1,5 MHz Bandbreite über das DAB Trägersignal überlagert. Der Signal/Störabstand (C/N) konnte später durch die gemessenen DAB Trägerpegel (ohne Rauschen) und den gemessenen Rauschpegeln (bei abgeschaltetem Sender) jeder Messabstufung zugeordnet werden. Diese Vorgehensweise wurde mit den genannten Kanalsimulationsprofilen (Rural und Urban) für drei Protection Levels (PL1, PL3, PL5) wiederholt. Leider mussten, aufgrund von unlösbaren Problemen (zumindest nicht lösbar innerhalb der Diplomarbeitszeit) die ursprünglichen Ziele stark reduziert werden und auf eine Auswertung Kanalstörung über die Bitfehlerrate verzichtet werden. 8.4 Beschreibung der Versuchsmethode zur Ermittlung der Fehlersicherheit Um die Fehlersicherheit beider Codierungsverfahren (Standard MPEG Layer II und MPEG Layer IISBR) vergleichen zu können, muss ein Maß für die Audioqualität in Abhängigkeit des Träger-/Störpegels(C/N) eingeführt werden. Um den Bezug zu älteren EUREKA-147 DAB Tests nicht zu verlieren, wurden zwei Definitionen übernommen, die die Qualität des Audiosignals in Abhängigkeit der Empfangsstörung beschreiben [5] [23]. “Onset Of Impairment” “Point Of Failure” Der “Onset of Impairment” beschreibt den Punkt, an dem die ersten, durch die Kanalstörung verursachten Übertragungsfehler akustisch wahrnehmbar werden. Da die Fehler aber nicht kontinuierlich auftreten, sondern durch simulationsbedingt anfangs nur sporadisch erscheinen, muss die Definition etwas erweitert werden. Definiert wird 94 der „Onset Of Impairment“ deshalb mit 3 bis 4 wahrnehmbaren Störungen im Audiosignal innerhalb von 30 Sekunden. Ähnlich verhält es sich beim „Point Of Failure“. Definiert wird dieser Punkt durch ein anhaltend gestörtes Audiosignal mit 2 bis 3 Aussetzer innerhalb von 30 Sekunden. Mittels eines Hörversuchs können diese zwei Grenzpunkte, anhand der aufgezeichneten Testsequenzen aus der Kanalsimulation ermittelt und verglichen werden. 8.5 Ergebnisse aus eigenen Hörversuchen Aufgrund anhaltender technischer Probleme mit einigen Komponenten im Versuchsaufbau konnte ein ausgiebiger Hörversuch nicht mehr durchgeführt werden. Die folgenden Ergebnisse wurden noch kurz vor dem Abgabetermin dieser Arbeit von einem Zwei Mann Team (Hr. Stoll, Sachreferent der Abteilung Audiosystemtechnik am IRT und mir, dem Verfasser dieser Arbeit) ermittelt, wobei man trotzdem von einer zuverlässigen Beurteilung ausgehen kann. Hr. Stoll ist Erfahren auf diesem Gebiet, und hat genau an einem solchen Versuch bereits teilgenommen. Ich selbst habe mich über 3 Monate mit diesem Thema beschäftigt und dadurch ebenfalls auf diese Art der Artefakte eingehört. Folgende Ergebnisse konnten ermittelt werden: Rural MPEG Layer II MPEG Layer IISBR PL1 Onset Of Impairment (C/N) in dB Point Of Failure (C/N) in dB 12 8 12 8 PL 3 Onset Of Impairment (C/N) in dB Point Of Failure (C/N) in dB 18 9 16 9 PL 5 Onset Of Impairment (C/N) in dB Point Of Failure (C/N) in dB 15 15 ! Tabelle 8-1 Im direkten Vergleich zwischen MPEG Layer II und MPEG Layer IISBR zeigt sich für das Kanalprofil „Rural“ außer im „Onset Of Impairment“ bei Protection Level 3 kein Unterschied. Der „Onset Of Impairment“ bei Protection Level 5 konnte nicht angegeben werden, da hier auch ohne hinzugefügtem Rauschen kein fehlerfreies Signal erzeugt werden konnte. Dies ist aber nicht verwunderlich, da der Protection Level 5 praktisch nur für Kabelübertragung ausgelegt ist und deshalb schon bei Störungen, wie sie der Kanalsimulator ohne zugefügtes Rauschen alleine erzeugt, versagt. Die Ausnahme für den „Onset Of Impairment“ bei PL3 kann allerdings nicht erklärt wer95 den. Dies hängt möglicherweise mit einem instabilen Element im Versuchsaufbau zusammen, das nicht näher lokalisiert werden konnte, das aber die Messungen immer wieder behindert hat. Es ist nicht anzunehmen, dass die beiden MPEG Layer II Codierungsvarianten im Protection Level 3 wirklich ein unterschiedliches Verhalten aufweisen. Vergleiche mit den Untersuchungen von EUREKA 147 DAB zeigen bei Protection Level 3 den „Onset Of Impairment“ bei einem C/N von 17 dB für Musik, und bei einem C/N von 15,5 dB für Sprache, gemessen bei 224 kbit/s Jointstereo. Dies würde für den gemessenen Wert bei MPEG Layer IISBR von 16 dB sprechen. Bei 64 kbit/s Mono zeigt die EUREKA 147 DAB Untersuchung sogar ein C/N von 14,5 dB für den „Onset Of Impairment“ und 10,5 dB für den „Point Of Failure“. Weitere Vergleiche der EUREKA 147 Untersuchung stehen für dieses Profil leider nicht mehr zur Verfügung. Leider können keine Aussagen über die Fehlersicherheit von Layer IISBR im Vergleich zu MPEG Layer II bei Anwendung des Kanalprofils „Urban“ getroffen werden. Die ermittelten Werte weichten so stark von den zu erwartenden Ergebnissen ab, dass hier mit Sicherheit davon ausgegangen werden musste, dass die Messungen durch ein instabiles Element im Messaufbau verfälscht worden waren. Leider bestand zeitlich nicht mehr die Möglichkeit diese Messung zu wiederholen. Allerdings ist kein logischer Grund erkennbar, warum Layer IISBR im Gegensatz zu MPEG Layer II beim Kanalprofil „Urban“ empfindlicher auf Fehler reagieren sollte. 96 9 Zusammenfassung und Schlussfolgerung 9.1 Codiergewinn gegenüber der bei DAB gebräuchlichen Bitraten Für den Einsatz im praktischen Rundfunkbetrieb soll auf den Codiergewinn für die gängigen Bitraten im praktischen Rundfunkbetrieb eingegangen werden. Betrachtet werden, für den Stereobetrieb die Bitraten zwischen 96 kbit/s und 160 kbit/s, für den Monobetrieb die Bitraten 80 kbit/s und 96 kbit/s. Bitrate Layer IISBR 96 kbit/s Jointstereo 64 kbit/s Jointstereo Codiergewinn * 40% 112 kbit/s Jointstereo 96 kbit/s Jointstereo 33% 14% 128 kbit/s Jointstereo 160 kbit/s Jointstereo 112 kbit/s Jointstereo/Stereo 160 kbit/s Stereo 17% 14 % 13% “0%” 80 kbit/s Mono 48 kbit/s Mono 50% 40% 96 kbit/s Mono 80 kbit/s Mono 22% 17% Bitrate MPEG Layer II bei äquivalenter oder besserer Qualität „realer“ Gewinn 33% Tabelle 9-1 *Der Codiergewinn, der in den Messungen ermittelt wurde. Dieser kann nicht immer maximal ausgenützt werden, da nur auf die standardisierten Bitraten zurückgegriffen werden kann. Bei den Angaben in Tabelle 9-1 wird davon ausgegangen, dass die Audioqualität bei einer Umstellung von MPEG Layer II auf Layer IISBR nicht sinken soll. Deshalb wurde aus den für DAB standardisierten Datenraten für Layer IISBR immer die nächste höhere Bitrate gewählt, die zur Verfügung steht. (Deshalb kann bei 160 kbit/s MPEG Layer II nicht auf 144 kbit/s Layer IISBR übergegangen werden). Aus dem genannten Grund kann der rechnerisch ermittelte Codiergewinn nicht voll ausgeschöpft werden. In der Praxis reduziert sich der Codiergewinn auf einen „realen“ Gewinn, der sich auf die möglichen DAB Datenraten ohne Qualitätseinbußen bezieht. 9.2 Grad der Qualitätseinbußen für bestehende DAB Empfängersysteme In der jetzigen Version arbeitet der MPEG Layer II Basiscodec von Layer IISBR mit halber Abtastrate, was für aktuelle DAB Hörer, ohne SBR-fähigen DAB Empfänger 97 bedeutet, dass das DAB Rundfunkprogramm mit eingeschränkter Bandbreite zu hören ist. Die Qualität des kompatiblen Layer IISBR Audiosignals lässt sich am besten an den Ergebnissen der „half sampling rate“ Testsequenzen der Hörversuche einschätzen (siehe Abschnitt 7.6.1 und 6.10). Diese Sequenzen wurden, zumindest teilweise, mit dem gleichen MPEG Layer II Codec erzeugt, auf dem Layer IISBR aufgesetzt ist. Bei den Ergebnissen zeigt sich, dass zumindest bei 128 kbit/s Jointstereo die Qualität der „half sampling rate“ Sequenzen nicht an die Qualität der „full sampling rate“ Sequenzen heranreicht. Zu höheren Bitraten wird dieser Effekt sicherlich noch stärker. Allerdings bei niedrigen Bitraten, bei denen von Haus aus im „half sampling rate“ Modus codiert wird, haben die Hörer ohne SBR-fähigen Empfänger praktisch keine Qualitätseinbußen zu erwarten. Für Layer IISBR muss der Basisencoder aber nicht in der „half sampling rate“ Betriebsart arbeiten. Die SBR Technik könnte theoretisch auch auf die „full sampling rate“ Betriebsart des Basisencodecs aufgesetzt werden. Dies würde eine wesentliche Qualitätsverbesserung für das kompatible Layer IISBR Signal mit sich bringen, da die feste Bandbegrenzung von 11,5 kHz wegfällt. Stattdessen würde die Bandbreite selbstständig vom Basisencoder, aufgrund der zugewiesenen Bitrate festgelegt werden. 9.3 Konsequenz für die Versorgungsgebiete Die Messungen bei der Kanalsimulation haben, zumindest für das Simulationsprofil „Rural“ gezeigt, dass sich keine wesentlichen Änderungen in der Fehlersicherheit für Layer IISBR ergeben. Für das Kanalprofil „Urban“ konnte keine bestätigende Messung durchgeführt werden, allerdings gibt es keinen erkennbaren logischen Grund, warum Layer IISBR im Gegensatz zu MPEG Layer II beim Kanalprofil „Urban“ empfindlicher auf Fehler reagieren sollte. Dies würde bedeuten, dass die Umstellung von MPEG Layer II zu MPEG Layer IISBR keine Konsequenzen für das Versorgungsgebiet mit sich bringt. 98 10 Literatur [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] ISO/IEC 11172-3 (1993): „Coding of moving pictures and associated audio for digital storage media at up to 1,5 Mbit/s – Part 3: Audio”. ETS 300 401 (1997): “Radio broadcasting systems; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers” “DIGITAL AUDIO BROADCASTING Principles and Applications” Edited by Wolfgang Hoeg & Thomas Lauterbach ISO/IEC 13818-3 (1997): „Information technology – Generic coding of moving pictures and associated audio information – Part 3: Audio”. Research and Development Report (1996/97): “EUREKA 147: Subjective assessment of the error performance of the DAB system, including tests at 24 kHz audio sampling frequency”. ETSI TR 101 496-1 V1.1.1 (2000-11): “Digital Audio Broadcasting (DAB); Guidelines and rules for implementation and operation; Part 1: System outline”. ETSI TR 101 496-2 V1.1.1 (2000-11): “Digital Audio Broadcasting (DAB); Guidelines and rules for implementation and operation; Part 2: System features”. ETSI TR 101 496-3 V1.1.1 (2000-11): “Digital Audio Broadcasting (DAB); Guidelines and rules for implementation and operation; Part 3: Broadcast network”. Future of Broadcasting: “MPEG-2 Audio Layer II 5 +1 Digital Surround Sound” SBR explained: White paper. http://www.codingtechnologies.de/technology/sbr.htm Audio Engineering Society, Convention Paper 5553 (2002): “Spectral Band Replication, a novel approach in audio coding” ISO/IEC JTC1/SC29/WG11 MPEG2002/M7943 (2002): “Technical Description of Coding Technologies’ Proposal for MPEG-4 v3 General Audio Bandwidth Extension: Spectral Bandwidth Replication (SBR)A detailed elaboration on the fine art of high frequency reconstruction of genera audio signals with focus on the intricate properties of transposition and envelope adjustment. Firmenporträt CODING TECHNOLOGIES http://www.haffapartner.de/kunden/cte/fip310702cte.htm TG 10-2/Test Group/Paris – June 92/TMP 21: “Implementation Complexity Report ISO/MPEG Layer II” 99 [15] [16] [17] [18] [19] [20] [21] [22] [23] B/CASE 100 BMC 477: „Subjective Audio Quality Achievable at Various Bitrates for MPEG-Audio Layer II and Layer III” (Contribution from Project Group B/CASE, March 1999) Keller, F.: Statistik für naturwissenschaftliche Berufe. Pmi-pharm & medicalinform. Verlags GmbH Frankfurt/Main-Zürich (1982) GRUNDIG Benutzerhandbuch für Fading Channel Simulator FADICS Vorlesungsskript Nachrichtensysteme FH München Prof. Dr.-Ing. M. Dippold Gerard Faria: „The Secret of a successful DAB Launch ? The Distributed Multiplexing” http://www.itis.fr EBU-UER BPN049:”The EBU Subjective Listening Tests on Low Bitrate Audio Codecs”, Report by the EBU Project Group B/AIM Audio in Multimedia, September 2002 DRM Source Coding Group: “Report on Subjective Listening Tests of SBR_LC, an AAC-based Audio Bandwidth Widening Tool”, February 2001 Benutzerhandbuch “WinSTAT” R & D Technical Note (1994): “EUREKA 147: Tests of error performance of the DAB system”. 100 11 Anhang 11.1 Testmethode MUSHRA Die Testbedingungen entsprechen den Forderungen aus dem Dokument „DRAFT NEW RECOMMENDATION ITU-R BS.[Doc. 6/106]“ von 29. März 2001 zur subjektiven Abschätzung von Audioqualitäten mittlerer Güte, „Method for the subjective assessment of intermediate audio quality“. Die genaue Bezeichnung kürzt sich mit MUSHRA ab, was für „MUlti Stimulus test with Hidden Reference and Anchor“ steht. Bei dieser Versuchsmethode bekommt der Teilnehmer gleichzeitig mehrere Audiobeispiele unterschiedlicher Qualität angeboten und hat die Aufgabe diese, im Vergleich zu einem, ihm bekannten, unverfälschten Originalsignal, zu bewerten. Dazu hat er die Möglichkeit, in Echtzeit zwischen den angebotenen Signalen, einschließlich der bekannten Referenz, hin und her zu schalten. Um einen absoluten Bezug zu gewährleisten, und um die Eignung der Testperson hinsichtlich der gegebenen Aufgabenstellung bei der Auswertung überprüfen zu können, muss in jeder gebotenen Vergleichsserie (Trial) noch einmal das Originalsignal (Referenz), ein 7 kHz bandbegrenztes Signal und ein 3 kHz bandbegrenztes Signal, an unbekannter Position enthalten sein. Letztere dienen als Ankerpunkte. Die Filtercharakteristiken für die bandbegrenzten Signale sind genau spezifiziert. Dies ermöglicht wiederum auch einen Vergleich zu unabhängig durchgeführten Hörversuchen, da die spezifizierten Ankerpunkte in jedem Hörversuch in der Beurteilung etwa gleich ausfallen sollten. • Für die 3,5 kHz Bandbegrenzung gilt: fc =3,5 kHz, Maximale Ripple im Durchlassbereich = ± 0,1 dB, Minimale Dämpfung bei 4 kHz = 25 dB, Minimale Dämpfung bei 4,5 kHz = 50 dB. • Für die 7 kHz Bandbegrenzung gilt: fc =7 kHz, Maximale Ripple im Durchlassbereich = ± 0,1 dB, Minimale Dämpfung bei 8 kHz = 25 dB, Minimale Dämpfung bei 9 kHz = 50 dB. Bewertet wird jede Testsequenz mittels eines Schiebereglers entlang einer 5-teiligen Skala mit etwa 10 cm Länge. Die Abschnitte der Skala bezeichnen die Bereiche: „Excellent“, „Good“, „Fair“, „Poor“ und „Bad“. Insgesamt umfasst der Wertebereich der Skala den Wert 100, wobei davon ausgegangen werden muss, dass aufgrund der zugewiesenen Eigenschaften die Bewertungen nicht linear zu interpretieren sind. 101 Abbildung 11-1 Benutzeroberfläche Software CRC-SEAQ Subjective Test Module, Version 1.18 11.2 Beschreibung der statistischen Auswertung Mittelwert Die statistische Auswertung erfolgt, nach der MUSHRA Standard Methode. Die Bewertungen, die als Zahlenwert zwischen 0 und 100 für jedes Testbeispiel einzeln abgegeben wurden, werden sortiert nach Testsequenz und Teilnehmer zusammen gefasst. Danach werden die Bewertungen auf ihre Plausibilität hin überprüft. Falls Bewertungen zu finden sind, die völlig von der allgemeinen Beurteilung abweichen, werden alle Bewertungen dieser Testpersonen aussortiert. Der erste Schritt der Analyse ist die Berechnung der Mittelwerte u jk über alle Einzelbewertungen für eine bestimmte Testsequenz. u jk = 1 N ∑ u ijk N i=1 u i = Bewertung des Versuchsteilnehmers i bei einer vorgegebenen Testbedingung j für eine gegebene Testsequenz k N = Anzahl der Versuchsteilnehmer 102 Vertrauensbereich Obwohl die, in dem Hörversuch erlangten Ergebnisse nur für exakt die Personengruppe gültig sind, die an dem Versuch teilgenommen haben, möchte man eine Aussage treffen können, in wie weit die Ergebnisse für eine sehr große Zahl von Individuen gültig ist. Da es sich bei dieser Art von Hörversuchen nur um eine Stichprobe handelt, muss der festgestellte Mittelwert deshalb nicht zwangsläufig mit dem Mittelwert der Grundgesamtheit übereinstimmen. Das 95%-Vertrauensintervall gibt nun den Bereich um den Mittelwert der Stichprobe an, in dem der Mittelwert der Grundgesamtheit (Allgemeinheit) mit einer Wahrscheinlichkeit von 95% liegt [16]. Das Vertrauensintervall wird von der Standardabweichung und vom Umfang der Stichprobe abgeleitet. Das 95% Vertrauensintervall ist folgendermaßen definiert: [u jk − δ jk , u jk + δ jk ] mit: δ jk = 1,96 S jk N Die Standardabweichung ist dabei durch folgende Formel gegeben: S jk = N (u − u ijk )2 ∑ ( N − 1)) jk i =1 Wilcoxon Bei Überlappung der 95% Vertrauensintervalle zweier Testergebnisse dient der Wilcoxon-Test dazu, eine zusätzliche Signifikanzanalyse zu erstellen. Mit diesem Verfahren ist es auch bei kleinen Stichproben möglich, zwei Messreihen auf gleiche Verteilung zu überprüfen. Dabei wird untersucht, ob abhängige Stichproben eventuell korrelieren. Der Wilcoxon-Test arbeitet dabei unabhängig von der Verteilung der zu testenden Datenreihen [22]. Als Resultat liefert der Wilcoxon-Test die Wahrscheinlichkeit, mit der die zwei zu testenden Mittelwerte derselben Grundgesamtheit entstammen. In dieser Arbeit wurde für die Auswertung eine Irrtumswahrscheinlichkeit von 0,05 zugrunde gelegt, d. h. der Wilcoxon-Test wurde dann als signifikant angesehen, wenn sich eine Wahrscheinlichkeit kleiner 0,05 ergibt. 103 11.3 Verwendete Testsequenzen Hörversuch zur Auswahl des MPEG Layer II Basisencoders und zur Ermittlung des Codiergewinns bei MPEG Layer IISBR: 1. Cembalo (9 sec.) Sequenz von Einzeltönen über 3 Oktaven, SQAM Test CD, Track 40 2. Klassischer Konzertausschnitt (14 sec.) Brahms Symphonie Nr.1 C-Moll Opus, Quelle unbekannt 3. Popmusik (15 sec.) rhythmische Sequenz, Keyboards, Gitarre, Schlagzeug, Drumloop, Quelle unbekannt 4. Sprachsignal (19 sec.) männlicher Sprecher, trocken 5. Sologesang (10 sec.) Gesang weiblich mit leichtem synthetischen Effektanteil, Suzanne Vega, CD Solitude Standig, Track 1 6. Sportstadion (12 sec.) Dokumentiertes Eishockeyspiel, IRT Produktion, Demonstrationenmaterial Hörversuch bei Kanalsimulation: 1. Klarinette SQAM Test CD, Track 16, Index 2 2. Glockenspiel SQAM Test CD, Track 35, Index 2 3. Sprache weiblich SQAM Test CD, Track 53 4. Sprache männlich SQAM Test CD, Track 54 5. ABBA SQAM Test CD, Track 53 104 11.4 Auswahl Basisencoder, sortiert nach Bitrate Auswahl Basisencoder bei 64 kbit/s Mono LSF, Mittelwerte über alle Test-Items ± 95% Vertrauensbereich 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad IR TS tad ion CT Ge sa ng IR TG es an g IR TS tad ion CT Ge sa ng IR TG es an g CT Sta dio n IR TS pra ch e CT Sp rac he IRT Po p CT Po p Kla ss ik IR T CT Kla ss ik CT Ce m ba lo IR TC em ba lo 0,00 Abbildung 11-2 ± 95% Vertrauensbereich Auswahl Basisencoder bei 80 kbit/s Mono, Mittelwerte über alle Test-Items 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad CT Sta dio n IR TS pra ch e CT Sp rac he IR TP op CT Po p Kla ss ik IR T CT Kla ss ik CT Ce m ba lo IR TC em ba lo 0,00 Abbildung 11-3 105 ± 95% Vertrauensbereich Basisencoder Wahl bei 96 kbit/s Jointstereo LSF, Mittelwerte über alle Test-Items 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad CT Ge sa ng IR TG es an g CT Ge sa ng IR TG es an g IR TS tad ion CT St ad ion IR TS pra ch e CT Sp rac he IR TP op CT Po p IR TK las sik Kl as sik CT CT Ce m ba lo IR TC em ba lo 0,00 Abbildung 11-4 Auswahl Basisencoder bei 192 kbit/s Jointstereo, Mittelwerte über alle Test-Items ± 95% Vertrauensbereich 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad IR TS tad ion CT Sta dio n IR TS pra ch e CT Sp rac he IR TP op CT Po p IR TK las sik Kl as sik CT CT Ce m ba lo IR TC em ba lo 0,00 Abbildung 11-5 106 Ergebnisse Codiergewinn, sortiert nach Bitrate ± 95% Vertrauensbereich Qualitätsgewinn mit SBR bei 48 kbit/s, Mittelwerte über alle Test-Items (Mono) 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad Ce m ba lo M on oL Ce SF mb alo SB R Mo no Kla ss ik M on oL SF Kla ss ik S BR M on o Po pM on oL SF Po pS BR Mo Sp no rac he Mo no LS Sp F rac he SB R Mo no Sta dio nM on oL SF Sta dio nS BR Mo no Ge san gM on oL SF Ge sa ng SB R Mo no 0,00 Abbildung 11-6 ± 95% Vertrauensbereich Qualitätsgewinn mit SBR bei 64 kbit/s, Mittelwerte über alle Test-Items (Mono) 100,00 Excellent 80,00 Good 60,00 Fair 40,00 Poor 20,00 Bad Ce m ba lo M on oL Ce SF mb alo SB R Mo no Kla ss ik M on oL SF Kla ss ik S BR Mo no Po pM on oL SF Po pS BR Mo Sp no rac he Mo no LS Sp F rac he SB R Mo no Sta dio nM on oL SF Sta dio nS BR M on Ge o sa ng Mo no LS Ge F sa ng SB R Mo no 0,00 Abbildung 11-7 107 Ce m ba lo Jo ins ter Ce eo m LS ba lo F SB R Jo ints Kla ter ssi eo kJ oin ste reo LS F Kla ss ik S BR St ere Po o pJ oin ste reo LS Po F pS BR J oin Sp tste rac reo he Jo ins ter Sp eo rac LS he F SB R Jo ints St ter ad eo ion Jo ins ter St eo ad LS ion F SB R Jo int Ge ste sa reo ng Jo ins ter Ge eo sa LS ng F SB R Jo ints ter eo Jo ins ter Ce eo m LS ba F lo SB R Jo int Kla ste ss reo ik J oin ste reo LS Kla F ss ik SB R St ere Po o pJ oin ste reo LS Po F pS BR J oin Sp tste rac reo he Jo ins t ere Sp oL rac SF he SB R Jo ints St ter ad eo ion Jo ins ter Sta eo dio LS nS F BR Jo ints Ge ter sa eo ng Jo ins ter Ge eo sa LS ng F SB R Jo ints ter eo Ce mb alo ± 95% Vertrauensbereich Good 80,00 ± 95% Vertrauensbereich 80,00 Qualitätsgewinn mit SBR bei 80 kbit/s, Mittelwerte über alle Test-Items (Stereo) Excellent 100,00 Stereo ! Fair 60,00 Poor 40,00 Bad 20,00 0,00 Abbildung 11-8 Qualitätsgewinn mit SBR bei 96 kbit/s, Mittelwerte über alle Test-Items (Stereo) Excellent 100,00 Stereo ! Good Fair 60,00 40,00 Poor 20,00 Bad 0,00 Abbildung 11-9 108 Ce m ba lo Jo int ste Ce reo m ba lo SB R Ste reo Kla ss ik J oin tst ere Kla o ss ik S BR Ste reo Po pJ oin tste reo Po pS BR Ste Sp reo rac he Jo ints ter Sp eo rac he SB R Ste reo St ad ion Jo ints ter eo Sta dio nS BR Ste reo Ge sa ng Jo ints ter Ge eo sa ng SB R Ste reo Ce m ba lo Jo int ste Ce reo mb alo SB R Ste reo Kla ss ik J oin tste reo Kla ss ik S BR St ere o Po pJ oin tste reo Po pS BR Ste Sp reo rac he Jo ints ter Sp eo rac he SB R Ste reo St ad ion Jo ints ter eo Sta dio nS BR Ste reo Ge sa ng Jo ints ter Ge eo sa ng SB R Ste reo ± Standardabweichung ± 95% Vertrauensbereich Qualitätsgewinn mit SBR bei 128 kbit/s, Mittelwerte über alle Test-Items (Stereo) Excellent 100,00 Good 80,00 Fair 60,00 Poor 40,00 Bad 20,00 0,00 Abbildung 11-10 Qualitätsgewinn mit SBR bei 160 kbit/s, Mittelwerte über alle Test-Items (Stereo) Excellent 100,00 Good 80,00 Fair 60,00 Poor 40,00 20,00 Bad 0,00 Abbildung 11-11 109 SB R Ste reo Jo ints ter eo SB R Jo int ste reo Sta dio nS BR St ad Ste ion reo SB R Jo int ste reo Ge sa ng SB Ge R Ste sa ng reo SB R Jo ints ter eo Sp rac he Sp rac he St ere o ± 95% Vertrauensbereich Po pS BR Ce m ba lo SB Ce R m Ste ba reo lo SB R Jo int ste reo Kla ss ik SB R Kla St ss ere ik S o BR Jo int ste reo Po pS BR Ste Po reo pS BR Jo ints ter Sp eo rac he SB Sp R Ste rac he reo SB R Jo ints ter eo Sta dio nS BR Sta Ste dio reo nS BR Jo ints ter eo Ge sa ng SB Ge R Ste sa ng reo SB R Jo ints ter eo ± 95% Vertrauensbereich Po pS BR Ce m ba lo SB Ce R m Ste ba reo lo SB R Jo int ste reo Kla ss ik S BR Kla Ste ss reo ik S BR Jo ints ter eo Ergebnisse Codiergewinn, sortiert nach Stereo/Jointstereo Layer II + SBR Stereo/Jointstereo bei 64 kbit/s, Mittelwerte über alle Test-Item Excellent 100,00 Good 80,00 Fair 60,00 40,00 Poor 20,00 Bad 0,00 Abbildung 11-12 Layer II + SBR Stereo/Jointstereo bei 80 kbit/s, Mittelwerte über alle Test-Item 100,00 Excellent 80,00 Good Fair 60,00 Poor 40,00 20,00 Bad 0,00 Abbildung 11-13 110 Ce m ba lo SB R Ste Ce reo m ba ere lo o SB R Jo int ste reo Kla ss ik S BR Kla St ss ere ik S o BR Jo int ste reo Po pS BR Ste Po reo pS BR Jo int ste Sp reo rac he SB Sp R rac Ste he reo SB R Jo ints ter eo Sta dio nS BR Sta Ste dio reo nS BR Jo ints ter eo Ge sa ng SB Ge R sa Ste ng reo SB R Jo ints ter eo ± 95% Vertrauensbereich Ste reo Jo ints ste Sp reo rac he SB Sp R rac St he ere SB o R Jo ints ste reo Sta dio nS BR Sta dio Ste nS reo BR Jo ints ste reo Ge sa ng SB Ge R sa Ste ng reo SB R Jo int ss ter eo Po pS BR Po pS BR Ce m ba lo Ce SB m R ba St lo ere SB o R Jo int ss ter eo Kla ss ik S BR Kla ss St ik S ere o BR Jo ints ste reo ± 95% Vertrauensbereich Layer II + SBR Stereo/Jointstereo bei 96 kbit/s, Mittelwerte über alle Test-Item Excellent 100,00 80,00 Good 60,00 Fair Poor 40,00 20,00 Bad 0,00 Abbildung 11-14 Layer II + SBR Stereo/Jointstereo bei 112 kbit/s, Mittelwerte über alle Test-Item Excellent 100,00 Good 80,00 Fair 60,00 Poor 40,00 20,00 Bad 0,00 Abbildung 11-15 111