Nie ulega wątpliwości, że pomimo pewnego powrotu do łask w ostatnich latach, wśród pasjonatów dobrego audio, wielu urządzeń analogowych, w tym gramofonów, płyt winylowych, czy wzmacniaczy lampowych, prym w kwestii wysokiej jakości dźwięku wiedzie i prawdopodobnie długo wieść będzie technologia cyfrowa. Choć chyba każdy kocha krążki, kolorowe pudełeczka i regały pełne rozmaitych płyt, olbrzymia ilość muzyki słuchana jest przy pomocy komputerów, często bez udziału fizycznych nośników danych, a przy pomocy serwisów takich jak Deezer, Spotify, Tidal, iTunes, czy YouTube. Wiele osób, często zamiast kolekcją płyt, w stanie jest pochwalić się pokaźną kolekcją empetrójek, czy innych FLACów na dysku.

Te, między inymi, będą właśnie bohaterami dzisiejszej części "Wademekum". Należy wiedzieć, że każdy odtwarzany przy pomocy komputera, telefonu, czy też każdego innego cyfrowego urządzenia dźwięk, przed dotarciem do naszego ucha, poprzez wprowadzenie głośnika w odpowiednie drgania, musi zostać odczytany z odpowiedniego cyfrowego pliku audio. Niezależnie, czy słuchamy muzyki przy pomocy odtwarzacza, z płyty CD umieszczonej w napędzie, czy z dowolnego serwisu muzycznego, plik ten zapisany musiał zostać wcześniej w odpowiednim formacie, posiadać właściwą specyfikacje.

Zapis cyfrowy audio

Każdy plik audio, reprezentować będzie parę wartości, będą to:

Ilość kanałów
Rozdzielczość bitowa
Częstotliwość próbkowania

Powyższa ilustracja, przedstawia wygenerowaną przy pomocy darmowego programu Audacity graficzną wizualizację pewnego pliku audio. Jak łatwo dostrzec, ukazuje ona dwa oddzielne wykresy, oznacza to, że prezentowany plik składa się w rzeczywistości z dwóch ścieżek, oddzielnej dla głośnika lewego, oddzielnej dla prawego. Utwór więc, który analizuję, został nagrany z myślą dwóch kanałach (stereo). Poza takimi nagraniami, w stanie jesteśmy spotkać się również z takimi nagranymi dla kanału jednego (mono), dla czterech (kwadro), spotkać również możemy się z dźwiękiem sześciokanałowym (5.1), czy nawet ośmiokanałowym (7.1). Trzy ostatnie jednak, w przypadku nagrań muzycznych są zdecydowanie rzadkością. Są one za to stosowane często z myślą o zestawach kina domowego i różnego rodzaju wideo. W przypadku większości płyt muzycznych standardem współcześnie jest stereo - ścieżki dwie.

Przy odpowiednio mocnym zbliżeniu na jeden z wykresów, jesteśmy w stanie uzyskać widok, zaprezentowany przez powyższą grafikę. Pierwsze, co powinno się w jej przypadku rzucić nam w oczy, to charakterystyczne punkty rozmieszczone co równą odległość na względem osi pionowej. Owe punkty prezentują przebieg sygnału w czasie. W zależności od tego, z jaką częstotliwością zmieniać będą się wartości sygnału, a więc tego, jak często zmieniać będzie się ich położenie na osi pionowej, uzyskać będziemy odpowiadające tej częstotliwości dźwięki - dla wysokich częstotliwości dźwięki wysokie, dla niskich dźwięki oczywiście niskie. Od wychylenia z kolei, zależeć będzie głośność wydobytego dźwięku. W związku z powyższym, niezwykle zróżnicowane rozmieszczenie punktów na wykresie, powinno nam sugerować, że uzyskany dźwięk będzie wysoki - właśnie taki jest, prezentowany przeze mnie mikroskopijny fragment pliku, to element wykresu dla dźwięku talerza.

Wartość tego, jak często na wykresie rozmieszczone są punkty, nazywamy właśnie częstotliwość próbkowania. Standardem dla płyt CD współcześnie jest rozmieszczenie 44100 takich punktów na jedną sekundę pliku. Oznacza to częstotliwość próbkowania równą 44,1 kHz. W przypadku studia nagraniowego, stosowanymi częstotliwościami próbkowania, są zazwyczaj wartości, będące wielokrotnościami 48 kHz. Czym częstotliwość próbkowania jest większa, tym dźwięk pozostaje bardziej naturalny i szczegółowy, warto wspomnieć również, o tzw. teorii Nyquista, wedle której, dla zachowania odpowiedniego brzmienia odpowiedniego dźwięku, częstotliwość próbkowania musi być dwukrotnie większa, niż częstotliwość właśnie tego dźwięku. Zdaje się to oczywiste - gdyby punkty na naszym wykresie występowały rzadziej, nie możliwe byłoby utworzenie zaprezentowanego na nim kształtu, a więc nie możliwe byłoby uzyskanie odpowiedniej wysokości dźwięku. Standard 44,1 kHz wyznaczono głównie w oparciu właśnie na owym twierdzeniu oraz na fakcie, że zakres słyszalnych dla człowieka częstotliwości mieści się mniej-więcej od 20 Hz do 20 kHz. Wykorzystanie wyższych częstotliwości próbkowania, umożliwia więc również uzyskanie wyższych częstotliwości sygnału.

^{Sygnał analogowy (szary) i cyfrowy (czerwony) spróbkowany ze stałą częstotliwością próbkowania
Źródło: pl.wikipedia.org}

Przejdźmy teraz do kwestii rozdzielczości bitowej. Każdy znajdujący się na wcześniej przedstawionym wykresie punkt, posiadał, jak łatwo zauważyć, swoją wartość. Zbiorem dostępnych wartości dla naszego wykresu, jak łatwo zauważyć, były liczby z zakresu od -1 do 1. Umiejscowienie każdego punktu w osi pionowej, określać musi więc konkretna wartość z przedziału. Wartość ta określana jest przy pomocy odpowiedniej liczby, ta z kolei zapisywana jest w pliku przy pomocy kombinacji zer i jedynek, gdzie jedna określa znak liczby (plus lub minus), reszta jej wartość. Ilość dostępnych do zapisu zer i jedynek, określana jest własnie przez wartość rozdzielczości bitowej pliku. Standardową dla płyt CD rozdzielczością jest tych bitów 16, co oznacza 15 cyfr do dwójkowego zapisu liczby oraz jedną określającą znak. Jak łatwo obliczyć, przy pomocy tylu cyfr, w stanie jesteśmy zapisać 2¹⁶ liczb o różnych znakach, co pozwala nam uzyskać łącznie 65 536 możliwych do uzyskania wartości dla pojedynczego sygnału. Dużo? No cóż, zdecydowanie.

Pliki dźwiękowe o niskiej rozdzielczości bitowej charakteryzować będą się niską dynamiką oraz charakterystycznym szumem. Rozdzielczość 16 bitowa sprawia, że zarówno problemy z dynamiką jak i szum stają się dla człowieka niezauważalne. Mimo to, jak już wspomniałem w poprzedniej części, w studio, dziś często spotkamy się również z nagraniami w rozdzielczości 24 bitowej. Co to oznacza? 16 777 216 możliwych do zapisania wartości! Choć dla ludzkiego ucha różnica pomiędzy tą rozdzielczością, a standardowymi szesnastoma bitami nie istnieje, to przy pracy z nagraniami, chroni ona przed zniekształceniami i niepotrzebnymi artefaktami występującymi przy obróbce.

Podsumowując. Standardowe wartości dla płyty CD, to:

Ilość kanałów - 2
Rozdzielczość bitowa - 16 bitów
Częstotliwość próbkowania - 44100 Hz

Wymnażając te dane, jesteśmy w stanie obliczyć dokładny rozmiar jednej sekundy nagranego na płytę dźwięku.

2 x 16 b x 44100 Hz = 1411200 b/s ≈ 1411 kb/s

Najpopularniejszymi formatami dla takiego typu zapisu dźwięku są:

WAV - Utworzony w 1991 przez firmę Microsoft, wciąż będący najpopularniejszym formatem niekompresowanego pliku dźwiękowego.
AIFF - Opracowany w roku 1988 przez Apple i do dziś wykorzystywany głównie na ich sprzęcie.

Kompresja

Ze względu na stosunkowo wysoki rozmiar plików WAV, także na ograniczenia łącza internetowego, ludzkość powoli szukać zaczęła rozmaitych metod na zmniejszenie rozmiarów pliku audio tak, by z jednej strony łatwo dało się go przechowywać, a z drugiej, by prezentował on przy tym rozmiarze najwyższą możliwą jakość. W ten sposób, z biegiem lat powstawały coraz to bardziej zaawansowane metody kompresji tego typu danych. Rodzaje kompresji możemy podzielić na dwa rodzaje:

Kompresję bezstratną - To jest taką, w przypadku której kompresowany plik zmniejsza swój rozmiar bez najmniejszego uszczerbku na jakości dźwięku.
Kompresję stratną - Charakteryzującą się wykorzystaniem metod kompresji typowych dla kompresji bezstratnej + dodatkowym pozbawieniem nagrania tych dźwięków, które niesłyszalne są dla ludzkiego ucha, a których pozbycie się, w stanie jest nieco odciążyć plik.

Najpopularniejszym formatem bezstratnej kompresji jest FLAC (Free Lossless Audio Codec). Zgodnie z przedstawioną wcześniej definicją, format ten wolny jest od jakichkolwiek strat w jakości, względem oryginalnego pliku dźwiękowego nie różni się niczym i może zostać w każdej chwili zostać zdekompresowany do formatu WAV lub AIFF. Jedną ze sztuczek stosowanych przy kompresji FLAC jest rezygnacja z zapisu konkretnych wartości dla sygnału audio i zastąpienie tej informacji jedynie różnicą pomiędzy konkretnymi próbkami, która to zwykle jest wartością stosunkowo niewielką.

Innym nieraz spotykanym formatem kompresji bezstratnej jest APE (Monkey’s Audio), który to choć pozwala na nieco większą kompresję niż FLAC, to kosztem niezwykle czasochłonnego procesu kodowania i dekodowania sygnału. Ostatecznie format ten stosowany jest rzadko, a najpopularniejszym pozostaje właśnie bardzo wygodny FLAC.

Innym rodzajem kompresji, jest kompresja stratna. Jak już wcześniej wspomniałem, dla jeszcze większej redukcji rozmiaru pliku, z myślą o ograniczeniu przestrzeni dyskowej, również o ograniczeniu przepustowości łącza internetowego, większość plików dźwiękowych dostępnych w sieci, umieszczonych tam zostało właśnie w formacie stratnym. Głównym zadaniem przy kodowaniu pliku audio do takiego formatu, jest pozbycie się z pliku tych elementów, które dla ludzkiego ucha, pozostaną nieuchwytne. W związku z tym, z tego typu plików dźwiękowych usuwa się zwykle skrajne częstotliwości wychodzące poza skalę ludzkiej percepcji (częstotliwośći poniżej 20 hz oraz te powyżej 20 khz). Wycinane z pliku również są dźwięki zbyt ciche lub zagłuszone poprzez inne, głośniejsze. Poziom degradacji jakości dźwięku zależna jest więc przede wszystkim od zastosowanych metod kompresji oraz jej stopnia.

Najpopularniejszymi formatami kompresji bezstratnej są:

MP3 - Opracowana w 1993 roku, dziś wciąż najpopularniejsza metoda kompresji, charakteryzująca się stałą przepływnością danych oraz pozwalająca na zapis do dwóch kanałów dźwięku. Najmniejsza dostępna przepustowość dla pliku MP3 to 8 kb/s, co stanowi o kompresji rzędu nawet 176 razy względem standardu CD-Audio. Maksymalny uzyskiwany bitrate z kolei, to 320 kb/s. Na początku pierwszej dekady XXI wieku popularny był również konkurencyjny dla MP3 format mp3PRO, pozwalający na uzyskanie nawet dwukrotnie efektywniejszej kompresji pliku przy niskich przepustowościach. Ten odtwarzany mógł być przy pomocy odpowiedniego odtwarzacza, bądź specjalnych wtyczek. Odtwarzanie przy pomocy oprogramowania pozbawionego wsparcia dla mp3PRO było możliwe, jednak plik odtwarzany był w tym przypadku z dwukrotnie niższą częstotliwością próbkowania, co prowadziło zwykle do ucięcia wysokich tonów w utworze. Format MP3 pozwala przy tym na próbkowanie 16-48 kHz oraz na zapisanie w tagach pliku specjalnej informacji pozwalającej na uzyskanie nieco uboższego względem standardowego pliku audio, zapisu dźwięku wielokanałowego 5.1.
AAC - Format opracowany w roku 1997 zaprojektowany jako następca MP3. Oferuje on zdecydowanie lepszą jakość względem MP3, przy zachowaniu tych samych przepustowości. Zakres próbkowania dla formatu ACC to 8-96 kHz, ponadto jesteśmy przy jego pomocy uzyskać dźwięk nawet do 48 kanałów (względem możliwych dwóch dla MP3, jest to dość spora zamiana). ACC charakteryzuje się przede wszystkim znacznie wyższej jakości dźwiękami dla wysokich częstotliwości.
Ogg Vorbis - Format stratnej potrafiący obsłużyć do 255 kanałów oraz częstotliwość próbkowania 6-48 kHz. Jest to format o otwartym kodzie źródłowym i wolnej licencji opracowany opracowany w roku 2000 przez Xiph.Org Foundation. Jakość OGG porównywalna jest do tej formatu AAC. Format OGG najlepiej sprawdza się dla przepustowości od 48 kb/s do 128 kb/s i najczęściej właśnie dla takich jest stosowany.

Rzecz jasna formatów jest znacznie więcej, jednak te trzy dziś pozostają najszerzej stosowane, stąd zdecydowałem z myślą o tym artykule przybliżyć tylko je. Na tym też zakończę dzisiejszą część wademekum. W następnej części postaram się przyjrzeć bliżej popularnym serwisom muzycznym oraz oferowaną przez nie jakością dźwięku. Tym czasem jednak już się żegnam i zostawiam was z losowo wybranym nagraniem z YouTube w cudownej jakości 64 kbps MP3 i częstotliwości próbkowania 22 050 Hz :)

Wademekum młodego audiofila - Część druga: Formaty plików audio

Zapis cyfrowy audio

2 x 16 b x 44100 Hz = 1411200 b/s ≈ 1411 kb/s

Kompresja