Einspruch:
Wie die meisten verlustbehafteten Kompressionsformate für Musik nutzt MP3 psychoakustische Effekte der Wahrnehmung aus. Zum Beispiel kann der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe voneinander unterscheiden, und er kann vor und nach sehr lauten Geräuschen für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnehmen. Man braucht also nicht das Ursprungssignal exakt abzuspeichern, sondern es genügen die Signalanteile, die das menschliche Gehör auch wahrnehmen kann. Die Aufgabe des Kodierers ist es, das Signal so aufzuarbeiten, dass es weniger Speicherplatz benötigt, aber für das menschliche Gehör noch genauso klingt wie das Original.
Der Dekoder erzeugt aus diesen MP3-Daten dann ein für die überwiegende Anzahl von Hörern original klingendes Signal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in das MP3-Format Informationen entfernt wurden.
Während die Dekodierung stets einem festgelegten Algorithmus folgt, kann die Kodierung nach verschiedenen Algorithmen erfolgen (z. B. Fraunhofer-Encoder, LAME-Encoder) und liefert dementsprechend unterschiedliche akustische Ergebnisse. Die hörbaren Verluste hängen von der Qualität des Kodierers, von der Komplexität des Signals, von der Datenrate, von der verwendeten Audiotechnik (Verstärker, Verbindungskabel, Lautsprecher) und schließlich auch vom Gehör des Hörers ab. Das MP3-Format erlaubt, neben festen Datenraten von 8 kbit/s bis zu 320 kbit/s, im freeformat-Modus auch beliebige freie Datenraten bis zu 640 kbit/s (Freeform-MP3). Allerdings sind nur wenige MP3-Player-Decoder für höhere Bit-Raten als den ISO-Standard (derzeit bis 320 kbit/s) ausgelegt.
Die Qualitäts-Eindrücke sind recht subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör unterschiedlich. Die meisten Menschen können ab einer Bitrate von etwa 160 kBit/s und bei Nutzung eines ausgereiften Enkodierers auch bei konzentriertem Zuhören das kodierte Material nicht mehr vom Ausgangsmaterial unterscheiden. Bei Menschen mit „unnormalem“ Gehör (z. B. mit Hörschäden durch Knalltrauma) greifen die eingesetzten Mechanismen aber mitunter nicht wie vorgesehen, sodass ihnen Unterschiede zwischen kodiertem und Ausgangsmaterial eher auffallen (z. B. weil laute Töne, die das geschädigte Gehör schlecht hört, andere Töne nicht mehr gut verdecken können).
Neben der Kodierung mit konstanter Datenrate (und damit schwankender Qualität) ist auch eine Kodierung mit konstanter Qualität (und damit schwankender Datenrate) möglich. Man vermeidet dadurch (weitgehend) Qualitätseinbrüche an schwierig zu kodierenden Musikstellen, spart jedoch andererseits bei ruhigen oder gar völlig stillen Passagen des Audiostromes an der Datenrate und somit an der endgültigen Dateigröße. Man gibt die Qualitätsstufe[8] vor und erhält auf diese Art die dafür minimal notwendige Datei.
Datenkompression [Bearbeiten]
Mit zwei verschiedenen Bitraten komprimiertes Rechtecksignal
Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden (Mid/Side-Stereo).
Entsprechend der menschlichen Hörkurve werden Signalanteile in weniger präzise wahrnehmbaren Frequenzbereichen mit weniger Präzision dargestellt, indem das fouriertransfomierte Datenmaterial entsprechend quantisiert wird.
Sogenannte Maskierungseffekte werden ausgenutzt, um für den Höreindruck minderwichtige Signalanteile mit verringerter Präzision zu speichern. Das können etwa schwache Frequenzanteile in der Nähe von starken Obertönen sein. Ein starker Ton bei 4 kHz kann aber auch Frequenzen bis zu 11 kHz maskieren. Die größte Ersparnis bei der MP3-Enkodierung liegt daher darin, dass die Töne nur gerade so genau (mit so vielen Bits) abgespeichert werden, dass das dadurch entstehende Quantisierungsrauschen noch maskiert wird und nicht hörbar ist.
Die Daten, die in sogenannten Frames vorliegen, werden schließlich Huffman-entropiekodiert.
Bei starker Kompression werden auch hörbare Frequenzen von der Kompression erfasst, sie sind dann als Kompressionsartefakte hörbar.
Ein Designfehler ist, dass das Verfahren blockweise angewandt wird und so am Ende einer Datei Lücken entstehen können. Das stört beispielsweise bei Hörbüchern, in denen ein zusammenhängender Vortrag zum besseren Auffinden der Passagen in einzelne Tracks zerlegt wurde. Hier fallen die letzten Blöcke als störende Pausen auf. Abhilfe schafft die Verwendung des LAME-Encoders, der exakte Längeninformationen hinzufügt, in Kombination mit einem Abspielprogramm, das mit diesen umgehen kann, etwa foobar2000 oder Winamp. Einige Abspielprogramme wie Windows Media Player unterstützen Gapless Playback für MP3 immer noch nicht. Apple iTunes unterstützt es ab Version 7[9].
Kompression im Detail [Bearbeiten]
Der Vorgang wird am Beispiel eines digitalisierten monauralen Audiosignals beschrieben. Zu Beginn wird das Eingangssignal für jeden Frame mittels einer Mehrphasen-Filterbank in 32 Subbänder verschiedener Breite aufgeteilt.[10] Ein solcher Frame beinhaltet 1152 Samples und ist somit in 36 Zeiteinheiten unterteilt (1152/32 = 36). Oft kommt es vor, dass Frequenzen in mehreren (benachbarten) Bändern gespeichert werden. Diese Redundanzen werden zu einem späteren Zeitpunkt wieder herausgefiltert.
Jedes Subband wird nun separat durch eine eindimensionale Kosinustransformation (MDCT) in eine Frequenzdarstellung übertragen. Die MDCT bringt eine fünfzigprozentige Überlappung mit sich. Transformiert und rücktransformiert man einen einzelnen Frame, so hat man ein abweichendes Ergebnis. Addiert man den vorherigen und nachfolgenden Frame partiell, so kürzen sich diese Fehler weg. Aus diesem Grund kann man die 36 Zeitwerte auf 18 reduzieren. Es entstehen somit 18 Frequenzbänder pro Subband. Der gesamte Frame enthält dann ein Spektrum von 576 (32 × 18) Frequenzbändern. Die dadurch entstehende Verschlechterung der zeitlichen Auflösung kann zu Pre-Echo-Effekten führen.
Als nächstes werden nun die entstandenen Redundanzen mittels der „Butterfly“-Berechnung (im MPEG-Standard enthalten) eliminiert. Dabei werden alle Frequenzen in den Subbandrändern miteinander verrechnet.
Die Daten für das psychoakustische Modell werden mittels einer Fast-Fourier-Transformation (FFT) erzeugt. Das geschieht zeitgleich zu der Aufspaltung des Signals in Subbänder, da die Daten des psychoakustischen Modells (Maskierungskurven) helfen, den bei der MDCT auftretenden Pre-Echo-Effekt auszugleichen.
Im nächsten Schritt findet die eigentliche Kodierung statt. Als Eingangsparameter dienen hier die von der MDCT erzeugten Frequenzbänder, die Maskierungskurven aus dem psychoakustischen Modell und die vom Anwender eingestellte Bitrate. Aus der Signal to Mask Ratio (Verhältnis von Signal zu maskiertem Bereich) kann hier die notwendige Menge an Bits zur Verfügung gestellt werden, also nur so viele Bits, wie notwendig sind, um den Teil zu kodieren, der nicht maskiert wird (Mask to Noise Ratio). Die Datenrate wird für jeden Frame separat gespeichert. Das ermöglicht eine Kodierung mit variabler Datenrate. Die Frequenzbänder werden nun nicht-linear quantisiert (diskretisiert) und anschließend Huffman-kodiert (komprimiert). Hier findet also eine erhebliche Datenreduktion statt. Anhand der Maskierungskurve des psychoakustischen Modells lässt sich die Quantisierungsqualität beurteilen.
Ein fertig kodiertes MP3-Frame besteht nun aus einem 32 Bit großen Header, der zum Hin- und Herspringen in der MP3-Datei benötigt wird (also zum Vor- und Zurückspulen). Im Kapitel Spezifikation wird der Header im Detail aufgeschlüsselt. Diesem Header folgen dann die Seiteninformationen, die zur Dekomprimierung benötigt werden. Diese setzen sich aus den Huffman-Tabellen, der Quantisierungschrittgröße und den MDCT-Blockgrößen zusammen. Danach folgen die eigentlichen Audio-Daten, also die kodierten Frequenzen.
Dekompression [Bearbeiten]
Bei der Dekompression werden die Schritte der Kompression in umgekehrter Reihenfolge ausgeführt. Nach der Huffman-Dekodierung werden die Daten mittels inverser Quantisierung für die inverse modifizierte Cosinustransformation (IMCT) aufbereitet. Diese leitet ihre Daten weiter zu einer inversen Filterbank, die nun die ursprünglichen Samples berechnet (verlustbehaftet durch die Quantisierung im Kodierprozess!!!!).
Quelle: Wikipedia
Aus MP3 konvertierte Waves klingen, ich nenne es mal "blechern" Quelle: MikeBe, was sich ja auch im Einklang des Gehörempfinden des Fragestellers "ingo" befindet.