Format MP3 - informacje

Format który zmienił świat muzyki. Miliony użytkowników tego formatu błogosławią jego twórców, a przedstawiciele firm fonograficznych zgrzytają zębami ze złości.

Format MP3 - informacje, specyfikacja.
Autor: Stanisław Chrząszcz.

Wstęp. To czyste piractwo” – wołają. „Nie, to wolność wypowiedzi” twierdzą użytkownicy Internetu. Bowiem format ten popularność zdobył dzięki Internetowi. Internet w swoich początkach miał tylko pomagać w upowszechnianiu danych tekstowych. Szybko jednak wzbogacił się o obraz, początkowo nieruchomy, później ruchomy i wreszcie dźwięk. Muzyka która występuje w sieci jest dostępna wyłącznie w postaci cyfrowej. Ponieważ cyfrowy zapis dźwięku zajmuje znaczną objętość, to aby przesyłanie go nie powodowało zatkania łączy, stosuje się kompresję. Używa się do tego opracowanego w 1991 roku formatu kompresji danych, zwanego MP3. Wielką zaletą MP3 jest, w dobie popularności Internetu, jest banalnie prosty dostęp do niezliczonych pokładów muzyki. Jest ona zapisana przez entuzjastów tego formatu i dostępna w ogromnej ilości stron WWW, najczęściej prywatnych. Dostępna jest tak muzyka zapisana legalnie jak i nielegalnie. Wielu młodych muzyków, czy zespoły propaguje swoją twórczość udostępniając ją na swoich stronach, ale wielu internautów kopiuje całe płyty innych twórców i udostępnia wszystkim zainteresowanym. Napster, który dotąd umożliwiał łatwą wymianę tak legalnych jak i nielegalnych utworów zapisanych w tym formacie po wyroku sądy zmienił formułę działania. Ale to nie przeszkadza w rozwoju i upowszechnianiu się tego formatu, wystarczy bowiem wpisać do wyszukiwarki internetowej hasło MP3, by ukazała się nam lista niezliczonych stron oferujących muzykę w tym formacie. Ustalono więc, że ściągnięty utwór z Internetu można legalnie odsłuchiwać wyłącznie u siebie w domu przez 24 godziny, a następnie wykasować go z dysku. Jak wiemy jest to tylko pobożne życzenie, bowiem niewiele osób może powiedzieć, że stosuje się do tego zalecenia. Dla producentów płyt CD wolny dostęp, do praktycznie darmowych utworów jest powodem dużych strat finansowych. Dlatego firmy fonograficzne pracują nad utworzeniem skutecznego zabezpieczenia w postaci modyfikacji lub stworzenia podobnego do MP3 formatu, za pomocą którego muzyka mogłaby legalnie (i pewnie za stosowną opłatą) krążyć po sieci. odtwarzacz plików przenośnych HiFiMAN.

Kompresji dokonuje się na podstawie skomplikowanych algorytmów na komputerze o dość dużej mocy obliczeniowej. Jakość skompresowanego dźwięku jest niższa niż oryginału, ale dla większości z nas wystarczająca. Zależna jest głównie od stopnia skompresowania, który możemy dowolnie ustalać. Duża kompresja to gorszy dźwięk, ale też i mniejsza objętość pliku. Pliki MP3 możemy przechowywać na dysku twardym naszego peceta lub nagrywać na płytę CD-R, CD-RW, DVD czy MD. Nagrywając płytę CD-R np.: z dziesięciokrotną kompresją, na jednym krążku możemy zmieścić aż 10 płyt ! W komputerze odtwarzanie tak nagranej płyty nie jest problemem. Pojawiają się już obecnie stacjonarne i przenośne (np. samochodowe) odtwarzacze płyt z MP3, a funkcja ta jest dostępna w coraz większej ilości odtwarzaczy CD i DVD. Ponieważ pliki MP3 mają stosunkowo małą objętość, można je zapisać pamięci stałej. Odtwarzacze tego formatu, wyposażone w taką pamięć, są wielkości pudełka od papierosów i są zaopatrzone w słuchawki lub mały głośnik W swojej pamięci mogą zapisać od pół godziny do kilku godzin muzyki. Pamięć takiego odtwarzacza ładujemy z komputera za pomocą łącza szeregowego. Jeżeli odtwarzacz jest zaopatrzony w wymienną kartę pamięci łatwo ją wymieniamy, ładując ją za pomocą specjalnej przystawki z komputera. Odtwarzacze są trwałe ponieważ nic się tam nie kręci, nie zużywa. Przenośny odtwarzacz nie kołysze dźwiękiem, nie przerywa odtwarzania pod wpływem wstrząsów. Teraz tylko rozwój taniej pamięci o jak największej pojemności będzie stanowił o sukcesie takiego sposobu odtwarzania i być może w przyszłości zastąpi tak popularne dzisiaj walkmany.

Jak, gdzie, kiedy? W niemieckim Instytucie Frauenhofer, w Erlangen, od 1987 pracowano nad cyfrowym obrazem i dźwiękiem, a właściwie nad sposobami ich kompresji. Naukowcy opracowali różne algorytmy umożliwiające zmniejszenie objętości plików dźwiękowych i obrazu bez utraty wierności. Do najbardziej znanych należy standard oznaczony jako MPEG Audio Layer. Opracowano go w czterech odmianach: MPEG – 1 – (Kodowanie Ruchomych Obrazów i Dźwięku towarzyszącemu, przy szybkości przesyłania ponad 1,5 Mbit/s) Zawiera 5 części opisujących działanie formatu. W pierwszej opisano przełączanie i synchronizację sygnałów wideo, w drugiej opisano kompresję sygnałów wideo, w trzeciej opisano kodowanie audio. Pracę nad nim zakończono. MPEG –2 – (Powszechne kodowanie Ruchomych obrazów i towarzyszącej Informacji Dźwiękowej) – składa się z 9 części opisujących problemy związane z kodowaniem dźwięku. Przystosowany do transmisji bitowej o szybkości do 10 Mbit/s. MPEG – 3 – został połączony z MPEG-2. MPEG – 4 (Kodowanie Obiektów Audio-Wizualnych), najnowszy. W standardzie MPEG 1 w trzeciej części opisano sposób kodowania dźwięku. Został on określony przy pomocy trzech możliwych wersji rozwojowych zwanych Layer 1, 2 i 3. Ich podstawowe parametry to:

MPEG - tabela porównawcza.

Jak widać najlepszy format to właśnie Layer 3. Ten właśnie system to MP3 - MPEG-1, Layer 3. Stereofoniczny sygnał cyfrowy składa się z ciągu próbek zapisanych w przypadku płyt CD z rozdzielczością 16 bitową. Ponieważ częstotliwość próbkowania sygnału odbywa się 44100 razy na sekundę, to oznacza że urządzenia elektroniczne muszą się charakteryzować bardzo duża przepustowością danych - 1,41 Mbit/s. W przypadku Internetu taka duża przepustowość jest niemożliwa do zaakceptowania, zastosowanie kompresji było jedynym możliwym rozwiązaniem. Stosując dwunastokrotną kompresję, (co oznacza usunięcie 90-92% danych) uzyskamy przepływność rzędu 130 kbit/s przy jakości dźwięku „zbliżonym do CD”. Ponadto możliwe jest stosowanie większej lub mniejszej kompresji w zależności od potrzeb – nawet do 1 : 96. Wprawdzie duża kompresja to gorsza jakość dźwięku, lecz nie zawsze jest to istotne (np. przesyłanie mowy)

Jak to się odbywa? Kodowanie opiera się na niedoskonałości ludzkiego słuchu. Otóż jeżeli w okolicach silnego sygnału pojawią się słabe, nasze ucho ich nie słyszy - następuje maskowanie przez silne dźwięki. Jeżeli te słabe sygnały usuniemy, pozostaje mniej informacji. Kolejnym sposobem jest maskowanie szumów i informacji które są zapisane w sygnale, ale mają bardzo niski poziom. Widmo sygnału w zakresie 20 Hz – 20 kHz dzielone jest na 32 podzakresy, a każdy z nich ma inną czułość, w której ludzkie ucho nie słyszy dźwięków poniżej pewnego poziomu. Np. jeżeli w pewnym podzakresie pojawiają się dźwięki o poziomie 60 dB, a badania wykazały że dźwięki o poziomie 30 decybeli są niesłyszalne (maskowane przez silniejszy) to usuwa się je. Podobnie jest w innych podzakresach, dzięki temu ilość usuniętej informacji jest duża. Kolejnym sposobem na zmniejszenie objętości pliku muzycznego jest wykorzystanie jeszcze jednej niedoskonałości ucha ludzkiego. Człowiek nie rozróżnia słabych dźwięków jeżeli następują one przed i po silnym. Usuwa się wtedy te występujące przed, jak i po silnym sygnale. Ponadto w sygnale stereofonicznym czasami występuje w obu kanałach wspólna informacja, którą można wtedy zredukować. Do zakodowania tak odchudzonego sygnału używa się specjalnego algorytmu Huffmana który zapewnia małą wartość informacji po obróbce. Jest to proces skomplikowany i wymaga dużych mocy obliczeniowych procesora. Współczesne komputery doskonale sobie radzą z obliczeniem tak dużej ilości informacji. Produkowane są specjalizowane procesory które mogą być używane w sprzęcie powszechnego użytku.

MP3 Pro Format ten jest rozwinięciem „starszego” formatu MP3. Powstał we współpracy Instytutu Fraunhofera, Coding Technologies i Thomson Multimedia Inc. Format MP3 przy silnej kompresji ma stosunkowo niskie pasmo przenoszenia (do ok. 7 kHz) sygnału audio. By poszerzyć to pasmo, szwedzka firma Coding Technologies opracowała specjalną technikę, której zadaniem jest uzupełnienie (poprzez generowanie składowych) skomprymowanego zapisu o elementy odpowiedzialne za wysokie tony. Technikę tę nazwano techniką SBR (Spectral Band Reproduction). Podczas tworzenia nowego pliku MP3 Pro oprogramowanie dzieli nagranie audio na dwie części. Pierwsza z nich zawiera wszystkie dane niezbędne do zachowania pełnej zgodności ze starszymi odtwarzaczami które nie „umieją” jeszcze obsługiwać nowego formatu. Druga część zawiera wyłącznie dane dotyczące dużych częstotliwości, wykorzystując właśnie technikę SBR. Ponieważ nowy format jest kompatybilny „w dół” to każdy odtwarzacz MP3 będzie odtwarzał nowy format. Starsze wykorzystują tylko pierwszą część zapisu, nowsze, które obsługują MP3 Pro – obie. Zapisu można dokonać z rozdzielczością 16, 22.5, lub 34 bity i z częstotliwością próbkowania 32, 44.1 lub 48 kHz Nowy format, oprócz polepszenia jakości wysokich tonów może być zapisany jeszcze z 2-3 krotnie mniejszą objętością. Podobnie jak w przypadku „starego” MP3 tak i w przypadku MP3 Pro można dokonywać zapis z różnymi przepływnościami bitów. Niskie przepływności mają co prawda niższą jakość zapisu ale świetnie nadają się do zastosowań internetowych, natomiast wyższe – do zapisu audio. W przypadku zapisu stereofonicznego możliwe są przepływności: 32, 40, 48, 56, 64, 80, oraz 96 kbps.