Ce parametri determină calitatea sunetului? Parametrii care afectează calitatea înregistrării audio digitale. CD-urile audio cu licență sună mai bine decât copiile lor

01.10.2021 Complicații

Dezmințirea miturilor populare despre audio digital.

2017-10-01T15:27

2017-10-01T15:27

Software pentru audiofili

Nota: Pentru o mai bună înțelegere a textului de mai jos, vă recomand cu căldură să vă familiarizați cu elementele de bază ale audio digital.

De asemenea, multe dintre punctele prezentate mai jos sunt acoperite în publicația mea „Încă o dată despre tristul adevăr: de unde vine de fapt sunetul bun?” .

Cu cât rata de biți este mai mare, cu atât calitatea piesei este mai bună.

Acesta nu este întotdeauna cazul. În primul rând, permiteți-mi să vă reamintesc ce este bitray T(bitrate, nu bitraid). Aceasta este de fapt rata de date în kilobiți pe secundă în timpul redării. Adică, dacă luăm dimensiunea unei piese în kilobiți și o împărțim la durata ei în secunde, obținem rata de biți a acesteia - așa-numita. Rata de biți bazată pe fișiere (FBR), de obicei nu este prea diferită de rata de biți a fluxului audio (motivul diferențelor este prezența metadatelor în pistă - etichete, imagini încorporate etc.).

Acum să luăm un exemplu: rata de biți a sunetului PCM necomprimat înregistrat pe un CD audio obișnuit este calculată după cum urmează: 2 (canale) × 16 (biți pe eșantion) × 44100 (mostre pe secundă) = 1411200 (bps) = 1411,2 kbps . Acum să luăm și să comprimăm piesa cu orice codec fără pierderi („fără pierderi” - „fără pierderi”, adică unul care nu duce la pierderea niciunei informații), de exemplu, codecul FLAC. Drept urmare, vom obține o rată de biți mai mică decât cea inițială, dar calitatea va rămâne neschimbată - iată prima dvs. respingere.

Mai este un lucru care merită adăugat aici. Rata de biți de ieșire cu compresie fără pierderi poate fi foarte diferită (dar, de regulă, este mai mică decât cea a audio necomprimat) - aceasta depinde de complexitatea semnalului comprimat sau, mai precis, de redundanța datelor. Astfel, semnalele mai simple vor fi comprimate mai bine (adică avem o dimensiune mai mică a fișierului pentru aceeași durată => rata de biți mai mică), iar cele mai complexe se vor comprima mai rău. Acesta este motivul pentru care muzica clasică fără pierderi are o rată de biți mai mică decât, să zicem, rock-ul. Dar trebuie subliniat că bitrate-ul de aici nu este în niciun caz un indicator al calității materialului audio.

Acum să vorbim despre compresia cu pierderi. În primul rând, trebuie să înțelegeți că există multe codificatoare și formate diferite și, chiar și în același format, calitatea de codificare a diferitelor codificatoare poate diferi (de exemplu, QuickTime AAC codifică mult mai bine decât FAAC învechit), ca să nu mai vorbim superioritatea formatelor moderne (OGG Vorbis, AAC, Opus) față de MP3. Mai simplu spus, dintre două piese identice codificate de codificatori diferiți cu același bitrate, una va suna mai bine și alta va suna mai rău.

În plus, există așa ceva ca plic. Adică poți lua o piesă în format MP3 cu un bitrate de 96 kbps și o poți converti în MP3 320 kbps. Nu numai că calitatea nu se va îmbunătăți (la urma urmei, datele pierdute în timpul codificării anterioare de 96 kbit/s nu pot fi returnate), ci se va înrăutăți chiar. Merită să subliniem aici că în fiecare etapă a codării cu pierderi (cu orice bitrate și orice codificator), o anumită cantitate de distorsiune este introdusă în audio.

Și chiar mai mult. Mai este o nuanță. Dacă, să zicem, rata de biți a unui flux audio este de 320 kbps, aceasta nu înseamnă că toți cei 320 kbps au fost cheltuiți pentru codificarea în acea secundă. Acest lucru este tipic pentru codificarea cu o rată de biți constantă și pentru acele cazuri în care o persoană, sperând să obțină o calitate maximă, forțează rata de biți constantă să fie prea mare (de exemplu, setarea CBR de 512 kbps pentru Nero AAC). După cum se știe, numărul de biți alocați unui anumit cadru este reglementat de un model psihoacustic. Dar în cazul în care suma alocată este mult mai mică decât rata de biți setată, nici măcar rezervorul de biți nu salvează (citiți despre termenii din articolul „Ce sunt CBR, ABR, VBR?”) - ca urmare, devenim inutili „zero biți” care pur și simplu „termină” » dimensiunea cadrului la dimensiunea dorită (adică, măriți dimensiunea fluxului la cea specificată). Apropo, acest lucru este ușor de verificat - comprimați fișierul rezultat cu un arhivator (de preferință 7z) și uitați-vă la raportul de compresie - cu cât este mai mare, cu atât mai mulți biți zero (deoarece duc la redundanță), cu atât mai mult spațiu irosit.

Codecurile cu pierderi (MP3 și altele) sunt capabile să facă față muzicii electronice moderne, dar nu sunt capabile de codificare de înaltă calitate a muzicii clasice (academice), live, instrumentale

„Ironia sorții” aici este că, de fapt, totul este exact invers. După cum se știe, muzica academică în marea majoritate a cazurilor urmează principii melodice și armonice, precum și compoziția instrumentală. Din punct de vedere matematic, aceasta rezultă într-o compoziție armonică relativ simplă a muzicii. Astfel, predominanța consonanțelor produce un număr mai mic de armonici laterale: de exemplu, pentru o cincime (un interval în care frecvențele fundamentale a două sunete diferă de o dată și jumătate), fiecare a doua armonică va fi comună celor două sunete. , pentru o patra, unde frecvențele diferă cu o treime - la fiecare treime și etc. În plus, prezența unor rapoarte de frecvență fixe, datorită utilizării temperamentului egal, simplifică și compoziția spectrală a muzicii clasice. Compoziția instrumentală live a clasicilor determină absența zgomotului caracteristic muzicii electronice, distorsiunea, salturile ascuțite de amplitudine, precum și absența unui exces de componente de înaltă frecvență.

Factorii enumerați mai sus duc la faptul că muzica clasică este mult mai ușor de comprimat, în primul rând, pur matematic. Dacă vă amintiți, compresia matematică funcționează prin eliminarea redundanței (descrierea unor informații similare folosind mai puțini biți) și, de asemenea, prin realizarea de predicții (alias. predictori preziceți comportamentul semnalului și apoi este codificată doar abaterea semnalului real față de cel prezis - cu cât se potrivesc mai precis, cu atât sunt necesari mai puțini biți pentru codare). În acest caz, compoziția spectrală relativ simplă și armonicitatea determină o redundanță ridicată, a cărei eliminare asigură un grad semnificativ de compresie, iar un număr mic de rafale și componente de zgomot (care sunt semnale aleatorii și imprevizibile) determină o bună predictibilitate matematică a vastei. majoritatea informatiilor. Și nici măcar nu vorbesc despre volumul mediu relativ scăzut al pieselor clasice și intervalele frecvente de tăcere, pentru care practic nu este nevoie de informații pentru a codifica. Ca rezultat, putem comprima fără pierderi, de exemplu, unele muzică instrumentală solo la rate de biți sub 320 kbps (encoderele TAK și OFR sunt destul de capabile de acest lucru).

Deci, în primul rând, faptul este că compresia matematică care stă la baza codificării fără pierderi este, de asemenea, una dintre etapele codificării cu pierderi (a se citi Înțelegerea codificării MP3). Și în al doilea rând, deoarece lossy utilizează transformata Fourier (descompunerea semnalului în armonici), simplitatea compoziției spectrale chiar face munca codificatorului de două ori mai ușoară. Ca rezultat, comparând mostrele de muzică clasică originale și codificate într-un test orb, suntem surprinși să constatăm că nu putem găsi nicio diferență, chiar și la un bitrate relativ scăzut. Și lucrul amuzant este că atunci când începem să reducem complet rata de codare, primul lucru care dezvăluie diferențele este zgomotul de fundal din înregistrare.

În ceea ce privește muzica electronică, codificatorii au o perioadă foarte dificilă cu ea: componentele de zgomot au o redundanță minimă, iar împreună cu sărituri ascuțite (un fel de impulsuri din dinți de ferăstrău) sunt semnale extrem de imprevizibile (pentru programatorii care sunt „cropit” la sunete naturale care se comportă). cu totul altfel), transformarea Fourier directă și inversă cu respingerea armonicilor individuale de către modelul psihoacustic produce inevitabil efecte pre- și post-eco, a căror audibilitate nu este întotdeauna ușor de evaluat de către codificator... Adăugați la aceasta și nivel ridicat de componente HF - și obțineți un număr mare de killer -eșantioane, cărora nici cei mai avansati encodere nu le pot face față la rate medii-scăzute, destul de ciudat, mai ales în muzică electronică.

Distractive sunt și părerile „ascultătorilor cu experiență” și ale muzicienilor care, cu o lipsă totală de înțelegere a principiilor codării cu pierderi, încep să susțină că aud cum instrumentele din muzică după codare încep să se dezacordeze, frecvențele plutesc. , etc. Acest lucru ar putea fi încă valabil pentru casetofonele antediluviane cu detonație, dar în audio digital totul este exact: componenta de frecvență fie rămâne, fie este aruncată, pur și simplu nu este nevoie să se schimbe tonalitatea. Mai mult decât atât: prezența urechii unei persoane pentru muzică nu înseamnă deloc că are un auz bun de frecvență (de exemplu, capacitatea de a percepe frecvențe >16 kHz, care dispare odată cu vârsta) și nu-i face deloc mai ușor căutați artefacte de codare cu pierderi, deoarece distorsiunea Acestea au un caracter foarte specific și necesită experiența de comparare oarbă a sunetului cu pierderi - trebuie să știți ce și unde să căutați.

DVD-Audio sună mai bine decât CD-ul audio (24 de biți față de 16, 96 kHz față de 44,1 etc.)

Din păcate, oamenii se uită de obicei doar la cifre și foarte rar se gândesc la impactul unui anumit parametru asupra calității obiective.

Să luăm în considerare mai întâi adâncimea de biți. Acest parametru nu este responsabil pentru nimic mai mult decât intervalul dinamic, adică diferența dintre cele mai silentioase și cele mai puternice sunete (în dB). În audio digital, nivelul maxim este de 0 dBFS (FS - scară completă), iar minimul este limitat de nivelul de zgomot, adică, de fapt, intervalul dinamic în valoare absolută este egal cu nivelul de zgomot. Pentru audio pe 16 biți, intervalul dinamic este calculat ca 20 × log 10 2 16, care este egal cu 96,33 vB. În același timp, intervalul dinamic al unei orchestre simfonice este de până la 75 dB (în mare parte aproximativ 40-50 dB).

Acum să ne imaginăm condiții reale. Nivelul de zgomot din cameră este de aproximativ 40 dB (nu uitați că dB este o valoare relativă. În acest caz, pragul de audibilitate este luat ca 0 dB), volumul maxim al muzicii ajunge la 110 dB (pentru a evita disconfortul) - noi obține o diferență de 70 dB. Astfel, se dovedește că un interval dinamic de peste 70 dB în acest caz este pur și simplu inutil. Adică, la o gamă mai mare, fie sunetele puternice vor atinge pragul durerii, fie sunetele liniștite vor fi absorbite de zgomotul din jur. Este foarte dificil să se atingă un nivel de zgomot ambiental mai mic de 15 dB (deoarece volumul respirației umane și al altor zgomote cauzate de fiziologia umană sunt la acest nivel), ca urmare, se dovedește un interval de 95 dB pentru ascultarea muzicii. să fie complet suficientă.

Acum despre frecvența de eșantionare (frecvența de eșantionare, rata de eșantionare). Acest parametru controlează frecvența de eșantionare în timp și afectează direct frecvența maximă a semnalului care poate fi descrisă de o anumită reprezentare audio. Conform teoremei lui Kotelnikov, este egal cu jumătate din frecvența de eșantionare. Adică, pentru frecvența obișnuită de eșantionare de 44100 Hz, frecvența maximă a componentelor semnalului este de 22050 Hz. Frecvența maximă. care este perceput de urechea umană este puțin peste 20.000 Hz (și apoi la naștere; pe măsură ce îmbătrânim, pragul scade la 16.000 Hz).

Acest subiect este tratat cel mai bine în articolul Descărcări în format 24/192 - de ce nu au sens.

Diferiți jucători software sună diferit (de exemplu, foobar2000 este mai bun decât Winamp etc.)

Pentru a înțelege de ce nu este cazul, trebuie să înțelegeți ce este un player software. În esență, acesta este un decodor, handlere (opțional), un plugin de ieșire (la una dintre interfețele: ASIO, DirectSound, WASAPI etc.) și, desigur, GUI ( GUI utilizator). Deoarece decodorul în 99,9% din cazuri funcționează conform unui algoritm standard, iar plug-in-ul de ieșire este doar o parte a programului care transmite fluxul către placa de sunet prin una dintre interfețe, singurul motiv pentru diferențe poate fi manipulatorii. Dar adevărul este că procesoarele sunt de obicei oprite în mod implicit (sau ar trebui să fie dezactivate, deoarece principalul lucru pentru un jucător bun este să poată transmite sunetul în forma sa „pură”). Ca urmare, singurul subiect de comparație aici poate fi posibilităților procesare și ieșire, care, apropo, de multe ori nu sunt deloc necesare. Dar chiar dacă există o astfel de nevoie, atunci aceasta este o comparație a procesoarelor, și nu a jucătorilor.

Diferite versiuni de drivere sună diferit

Această afirmație se bazează pe ignorarea banală a principiilor de funcționare a unei plăci de sunet. Șoferul este software, necesar pentru interacțiunea eficientă a dispozitivului cu sistem de operare, care oferă de obicei o interfață grafică cu utilizatorul pentru capacitatea de a gestiona dispozitivul, parametrii acestuia etc. Driverul plăcii de sunet asigură că placa de sunet este recunoscută ca dispozitiv de sunet Windows, informează sistemul de operare despre formatele suportate de card, și asigură că un flux PCM necomprimat (în majoritatea cazurilor) este transmis pe card și oferă, de asemenea, acces la setări. În plus, dacă există procesare software (folosind CPU), driverul poate conține diferite DSP-uri (procesoare). Prin urmare, în primul rând, cu efectele și procesarea dezactivate, dacă driverul nu oferă transmisie PCM precisă pe card, aceasta este considerată o eroare gravă, o eroare critică. Și asta se întâmplă extrem de rare. Pe de altă parte, diferențele dintre drivere pot fi în actualizarea algoritmilor de procesare (resampler, efecte), deși acest lucru nu se întâmplă des. În plus, pentru a obține cea mai înaltă calitate, efectele și orice procesare a driverului ar trebui în continuare excluse.

Astfel, actualizările driverelor sunt axate în principal pe îmbunătățirea stabilității și eliminarea erorilor de procesare. Nici unul, nici celălalt în cazul nostru nu afectează calitatea redării, prin urmare în 999 de cazuri din 1000 driverul nu are niciun efect asupra sunetului.

CD-urile audio cu licență sună mai bine decât copiile lor

Dacă nu au apărut erori (fatale) de citire/scriere în timpul copierii și unitatea optică a dispozitivului pe care va fi redat discul de copiere nu are probleme la citirea acestuia, atunci această afirmație este eronată și ușor de respins.

Modul de codare stereo oferă o calitate mai bună decât Joint Stereo

Această concepție greșită se referă în principal la LAME MP3, deoarece toate codificatoarele moderne (AAC, Vorbis, Musepack) folosesc numai Modul Stereo comun (și asta spune deja ceva)

Pentru început, merită menționat că modul Joint Stereo este utilizat cu succes cu compresie fără pierderi. Esența sa constă în faptul că, înainte de codificare, semnalul este descompus în suma canalelor dreapta și stânga (Mid) și diferența lor (Side), iar apoi are loc codificarea separată a acestor semnale. În limită (pentru aceleași informații în canalele dreapta și stânga), se obțin economii duble de date. Și deoarece în majoritatea muzicii informațiile din canalele din dreapta și din stânga sunt destul de asemănătoare, această metodă se dovedește a fi foarte eficientă și vă permite să creșteți semnificativ raportul de compresie.

În lossy principiul este același. Dar aici, în modul de bitrate constant, calitatea fragmentelor cu informații similare pe două canale va crește (în limită, dublu), iar pentru modul VBR în astfel de locuri, rata de biți va scădea pur și simplu (nu uitați că sarcina principală al modului VBR este menținerea stabilă a calității de codificare specificată, folosind cel mai mic bitrate posibil). Deoarece în timpul codificării cu pierderi, prioritatea (la distribuirea biților) este acordată sumei canalelor, pentru a evita deteriorarea panoramei stereo, comutarea dinamică între stereo mixt (Mid/Side) și stereo obișnuit (Stânga/Dreapta) bazat pe cadru. se utilizează moduri. Apropo, motivul acestei concepții greșite a fost imperfecțiunea algoritmului de comutare în versiunile mai vechi ale LAME, precum și prezența modului de îmbinare forțată, în care nu există comutare automată. ÎN ultimele versiuni Modul LAME Joint este activat implicit și nu este recomandat să îl schimbați.

Cu cât spectrul este mai larg, cu atât calitatea înregistrării este mai bună (despre spectrograme, auCDtect și interval de frecvență)

În zilele noastre, pe forumuri, din păcate, este foarte comun să se măsoare calitatea unei piese „cu o riglă folosind o spectrogramă”. Evident, datorită simplității acestei metode. Dar, după cum arată practica, în realitate totul este mult mai complicat.

Și iată chestia. Spectrograma demonstrează vizual distribuția puterii semnalului pe frecvențe, dar nu poate oferi o imagine completă a sunetului înregistrării, prezența distorsiunilor și artefactelor de compresie în ea. Adică, în esență, tot ceea ce poate fi determinat din spectrogramă este domeniul de frecvență (și parțial densitatea spectrului în regiunea HF). Adică, în cel mai bun caz, prin analiza spectrogramei este posibil să se identifice o conversie ascendentă. Compararea spectrogramelor de piste obținute prin codificare cu diverse codificatoare cu originalul este o absurditate totală. Da, puteți identifica diferențele în spectru, dar a determina dacă (și în ce măsură) vor fi percepute de urechea umană este aproape imposibil. Nu trebuie să uităm că sarcina codării cu pierderi este de a asigura un rezultat care nu se poate distinge urechea umană din original (nu cu ochii).

Același lucru este valabil și pentru evaluarea calității codificării prin analiza pieselor de ieșire cu programul auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - acestea sunt doar shell-uri pentru programul de consolă unic auCDtect). Algoritmul auCDtect analizează de fapt și intervalul de frecvență și vă permite doar să determinați (cu un anumit grad de probabilitate) dacă compresia MPEG a fost aplicată în oricare dintre etapele de codificare. Algoritmul este adaptat pentru MP3, deci este ușor să îl „înșeli” cu ajutorul codecurilor Vorbis, AAC și Musepack, deci chiar dacă programul scrie „100% CDDA”, asta nu înseamnă că audio codificat este 100% identic cu cel original.

Și revenind direct la spectre. Există, de asemenea, o dorință populară printre unii „entuziaști” de a dezactiva cu orice preț filtrul lowpass din encoderul LAME. Aici există o lipsă clară de înțelegere a principiilor de codificare și psihoacustică. În primul rând, codificatorul taie frecvențele înalte doar pentru un singur scop - pentru a salva date și a le folosi pentru a codifica cea mai audibilă gamă de frecvențe. Gama extinsă de frecvență poate avea un impact fatal asupra calității generale a sunetului și poate duce la artefacte de codare audibile. Mai mult decât atât, dezactivarea tăierii la 20 kHz este în general complet nejustificată, deoarece o persoană pur și simplu nu poate auzi frecvențe mai mari.

Există o anumită presetare a egalizatorului „magic” care poate îmbunătăți semnificativ sunetul

Acest lucru nu este în întregime adevărat, în primul rând, deoarece fiecare configurație individuală (căști, acustică, placă de sunet) are propriii parametri (în special, propriul răspuns amplitudine-frecvență). Și, prin urmare, fiecare configurație trebuie să aibă propria abordare unică. Mai simplu spus, o astfel de presetare a egalizatorului există, dar diferă pentru diferite configurații. Esența sa constă în ajustarea răspunsului în frecvență al căii, și anume în „nivelarea” scăderilor și creșterilor nedorite.

De asemenea, printre oamenii departe de a lucra direct cu sunetul, setarea unui egalizator grafic cu un „tic” este foarte populară, ceea ce reprezintă de fapt o creștere a nivelului componentelor de joasă frecvență și de înaltă frecvență, dar în același timp duce la înăbușire. de voci și instrumente, al căror spectru sonor se află în regiunea de frecvență medie.

Înainte de a converti muzica într-un alt format, ar trebui să o decomprimați în WAV

Permiteți-mi să notez imediat că WAV înseamnă date PCM (modularea codului de impulsuri) în containerul WAVE (fișier cu extensia *.wav). Aceste date nu sunt altceva decât o secvență de biți (zerouri și unu) în grupuri de 16, 24 sau 32 (în funcție de adâncimea de biți), fiecare dintre acestea reprezentând codul binar pentru amplitudinea eșantionului corespunzător (de exemplu, pentru 16 biți în notație zecimală acestea sunt valori de la -32768 la +32768).

Deci, adevărul este că orice procesor de sunet - fie că este un filtru sau un encoder - funcționează de obicei numai cu aceste valori, adică numai cu date necomprimate. Aceasta înseamnă că pentru a converti audio de la, de exemplu, FLAC în APE, pur și simplu necesar Mai întâi decodați FLAC în PCM, apoi codificați PCM în APE. Este ca și cum ați reambala fișierele din ZIP în RAR, mai întâi trebuie să despachetați fișierul ZIP.

Cu toate acestea, dacă utilizați un convertor sau doar un codificator de consolă avansat, conversia intermediară în PCM are loc din mers, uneori fără a scrie măcar într-un fișier WAV temporar. Acesta este ceea ce induce oamenii în eroare: se pare că formatele sunt convertite direct dintr-unul în altul, dar de fapt un astfel de program trebuie să aibă un decodor de format de intrare care să realizeze conversia intermediară în PCM.

Astfel, convertirea manuală în WAV nu vă va oferi absolut nimic altceva decât pierdere de timp.

Informații sonore. Sunetul este o undă care se propagă în aer, apă sau alt mediu cu o intensitate și o frecvență în continuă schimbare.

O persoană percepe undele sonore (vibrații ale aerului) cu ajutorul auzului sub formă de sunet de volume și tonuri diferite. Cu cât este mai mare intensitatea undei sonore, cu atât este mai puternică frecvența undei, cu atât tonul sunetului este mai mare (Fig. 1.1).

Orez. 1.1. Dependența volumului și înălțimii sunetului de intensitatea și frecvența undei sonore

Urechea umană percepe sunetul la frecvențe care variază de la 20 de vibrații pe secundă (zgomot scăzut) la 20.000 de vibrații pe secundă (zgomot înalt).

O persoană poate percepe sunetul într-o gamă uriașă de intensități, în care intensitatea maximă este de 1014 ori mai mare decât cea minimă (de o sută de mii de miliarde de ori). Pentru a măsura volumul sunetului, se folosește o unitate specială „decibel” (dbl) (Tabelul 5.1). O scădere sau creștere a volumului sunetului cu 10 dbl corespunde unei scăderi sau creșteri a intensității sunetului de 10 ori.

Tabelul 5.1. Volumul sunetului
Volumul sunetului în decibeli
Limita inferioară de sensibilitate a urechii umane este 0
foșnet de frunze 10
Conversația 60
Claxonul mașinii 90
Motor cu reacție 120
Pragul durerii 140
Eșantionarea sunetului în timp. Pentru ca un computer să proceseze sunetul, semnalul audio continuu trebuie convertit în formă digitală discretă folosind eșantionarea în timp. O undă sonoră continuă este împărțită în secțiuni mici temporare separate și pentru fiecare astfel de secțiune este setată o anumită valoare a intensității sunetului.

Astfel, dependența continuă a volumului sunetului de timpul A(t) este înlocuită cu o succesiune discretă de niveluri de zgomot. Pe grafic, aceasta arată ca înlocuirea unei curbe netede cu o secvență de „pași” (Fig. 1.2).

Orez. 1.2. Eșantionarea în timp a sunetului

Frecvența de eșantionare. Un microfon conectat la placa de sunet este folosit pentru a înregistra sunetul analogic și pentru a-l converti în formă digitală. Calitatea sunetului digital rezultat depinde de numărul de măsurători ale nivelului volumului sunetului pe unitatea de timp, adică de frecvența de eșantionare. Cu cât se fac mai multe măsurători pe secundă (cu cât frecvența de eșantionare este mai mare), cu atât „scara” semnalului audio digital urmează cu mai multă acuratețe curba semnalului de dialog.

Rata de eșantionare audio este numărul de măsurători ale volumului sunetului efectuate într-o secundă.

Ratele de eșantionare audio pot varia de la 8.000 la 48.000 de măsurători ale volumului audio pe secundă.

Adâncimea codării audio. Fiecărui „pas” i se atribuie un anumit nivel de volum al sunetului. Nivelurile de sunet pot fi considerate ca un set de stări posibile N, a căror codificare necesită o anumită cantitate de informație I, care se numește adâncimea de codificare a sunetului.

Adâncimea codării audio este cantitatea de informații necesară pentru a codifica niveluri discrete de volum ale sunetului digital.

Dacă se cunoaște adâncimea de codificare, atunci numărul de niveluri de volum al sunetului digital poate fi calculat folosind formula N = 2I. Lăsați adâncimea de codificare audio de 16 biți, apoi numărul de niveluri de volum audio este egal cu:

N = 2I = 216 = 65.536.

În timpul procesului de codificare, fiecărui nivel de volum al sunetului i se atribuie propriul cod binar de 16 biți;

Calitatea sunetului digitalizat. Cu cât frecvența și adâncimea de eșantionare a sunetului sunt mai mari, cu atât calitatea sunetului digitalizat este mai mare. Cea mai scăzută calitate a sunetului digitalizat, corespunzătoare calității comunicației telefonice, se obține cu o rată de eșantionare de 8000 de ori pe secundă, o adâncime de eșantionare de 8 biți și înregistrarea unei piese audio (mod mono). Audio digitizat de cea mai înaltă calitate, corespunzătoare calității CD-ului audio, se realizează cu o rată de eșantionare de 48.000 de ori pe secundă, o adâncime de eșantionare de 16 biți și înregistrarea a două piese audio (mod stereo).

Trebuie amintit că, cu cât este mai mare calitatea sunetului digital, cu atât este mai mare volumul de informații al fișierului de sunet. Puteți estima volumul de informații al unui fișier audio digital stereo cu o durată a sunetului de 1 secundă cu o calitate medie a sunetului (16 biți, 24.000 de măsurători pe secundă). Pentru a face acest lucru, adâncimea de codificare trebuie înmulțită cu numărul de măsurători într-o secundă și înmulțită cu 2 (sunet stereo):

16 biți × 24.000 × 2 = 768.000 biți = 96.000 de biți = 93,75 KB.

Editori de sunet. Editorii de sunet vă permit nu numai să înregistrați și să redați sunetul, ci și să îl editați. Sunetul digitizat este prezentat în editorii de sunet într-o formă vizuală, astfel încât operațiunile de copiere, mutare și ștergere a părților pistei audio pot fi efectuate cu ușurință folosind mouse-ul. În plus, puteți suprapune piese audio una peste alta (amesteca sunete) și aplica diverse efecte acustice (eco, redare inversă etc.).

Principalii parametri care afectează calitatea înregistrării audio digitale sunt:

§ Capacitatea de biți a ADC și DAC.

§ Rate de eșantionare ADC și DAC.

§ Jitter ADC și DAC

§ Supraeșantionarea

De asemenea, sunt importanți parametrii căii analogice a dispozitivelor digitale de înregistrare și reproducere a sunetului:

§ Raportul semnal-zgomot

§ Factor de distorsiune armonică

§ Distorsiunea intermodulatiei

§ Caracteristici neuniforme amplitudine-frecvență

§ Interpenetrarea canalelor

§ Interval dinamic

Tehnologie de înregistrare audio digitală

Înregistrarea digitală a sunetului se realizează în prezent în studiouri de înregistrare, controlate de computere personale și alte echipamente scumpe și de înaltă calitate. Conceptul de „studio acasă” este, de asemenea, destul de dezvoltat, în care se utilizează echipamente de înregistrare profesionale și semi-profesionale, care vă permit să creați înregistrări de înaltă calitate acasă.

Plăcile de sunet sunt utilizate ca parte a computerelor care efectuează procesare în ADC-urile și DAC-urile lor - cel mai adesea pe 24 de biți și 96 kHz, creșterea în continuare a ratei de biți și a frecvenței de eșantionare practic nu crește calitatea înregistrării;

Există o întreagă clasă de programe de calculator - editori de sunet care vă permit să lucrați cu sunet:

§ înregistrați fluxul audio primit

§ crea (generează) sunet

§ modificați o înregistrare existentă (adăugați mostre, schimbați timbrul, viteza sunetului, tăiați părți etc.)

§ rescrie dintr-un format în altul

§ converti convertește diferite codecuri audio

Unele programe simple vă permit doar să convertiți formate și codecuri.

Tipuri de formate audio digitale

Există diferite concepte de format de sunet.

Formatul de reprezentare a datelor audio în formă digitală depinde de metoda de cuantizare utilizată de convertorul digital-analogic (DAC). În ingineria audio, două tipuri de cuantizare sunt în prezent cele mai comune:

§ modularea codului de impuls

§ modulatie sigma-delta

Adesea, adâncimea de biți de cuantizare și frecvența de eșantionare sunt indicate pentru diferite dispozitive de înregistrare și redare audio ca format de prezentare audio digitală (24 biți/192 kHz; 16 biți/48 kHz).

Formatul fișierului determină structura și caracteristicile de prezentare ale datelor audio atunci când sunt stocate pe un dispozitiv de stocare PC. Pentru a elimina redundanța datelor audio, codecurile audio sunt folosite pentru a comprima datele audio. Există trei grupuri de formate de fișiere de sunet:

§ Formate audio necomprimate, cum ar fi WAV, AIFF

§ formate audio cu compresie fără pierderi (APE, FLAC)

§ formate audio care utilizează compresie cu pierderi (mp3, ogg)

Formatele modulare de fișiere muzicale ies în evidență. Create sintetic sau din mostre de instrumente live preînregistrate, ele servesc în principal pentru a crea muzică electronică modernă (MOD). Acesta include și formatul MIDI, care nu este o înregistrare a sunetului, dar cu ajutorul unui secvențior vă permite să înregistrați și să redați muzică folosind un set specific de comenzi sub formă de text.

Formatele media audio digitale sunt utilizate atât pentru distribuția în masă a înregistrărilor audio (CD, SACD), cât și în înregistrarea profesională a sunetului (DAT, minidisc).

Pentru sistemele de sunet surround, este, de asemenea, posibil să se distingă formatele audio, care sunt în principal acompaniamente audio multicanal pentru filme. Astfel de sisteme au familii întregi de formate de la două mari companii concurente, Digital Theatre Systems Inc. - DTS și Dolby Laboratories Inc. - Dolby Digital.

Formatul se mai numește și numărul de canale în sistemele de sunet cu mai multe canale (5.1; 7.1). Inițial, un astfel de sistem a fost dezvoltat pentru cinematografe, dar ulterior a fost extins Codec software

Codec audio la nivel de program

§ G.723.1 - unul dintre codecurile de bază pentru aplicațiile de telefonie IP

§ G.729 este un codec proprietar de bandă îngustă care este utilizat pentru reprezentarea digitală a vorbirii

§ Internet Low Bitrate Codec (iLBC) - un codec gratuit popular pentru telefonia IP (în special, pentru Skype și Google Talk)

Codec audio(engleză) Codec audio; codificator/decodor audio) - program de calculator sau hardware, conceput pentru a codifica sau decoda date audio.

Codec software

Codec audio la nivel de program este specializat program de calculator, un codec care comprimă (comprimă) sau decomprimă (decomprimă) datele audio digitale în conformitate cu un format audio de fișier sau un format audio în flux. Sarcina unui codec audio ca compresor este de a furniza un semnal audio cu o calitate/precizie specificată și cea mai mică dimensiune posibilă. Compresia reduce cantitatea de spațiu necesară pentru stocarea datelor audio și poate reduce, de asemenea, lățimea de bandă a canalului prin care sunt transmise datele audio. Majoritatea codecurilor audio sunt implementate ca biblioteci de software care interacționează cu unul sau mai multe playere audio, cum ar fi QuickTime Player, XMMS, Winamp, VLC media player, MPlayer sau Windows Media Player.

Codecuri audio software populare în funcție de aplicație:

§ MPEG-1 Layer III (MP3) - codec audio proprietar (muzică, cărți audio etc.) pentru echipamente informatice și playere digitale

§ Ogg Vorbis (OGG) - al doilea cel mai popular format, utilizat pe scară largă în jocurile pe calculator și în rețelele de partajare a fișierelor pentru transmiterea muzicii

§ GSM-FR - primul standard de codificare digitală a vorbirii folosit în telefoanele GSM

§ Adaptive multi rate (AMR) - înregistrarea vocii umane telefoane mobileși alte dispozitive mobile

Sunet– o undă cu amplitudine și frecvență în continuă schimbare. Cu cât amplitudinea este mai mare, cu atât este mai tare pentru o persoană, cu cât frecvența este mai mare, cu atât tonul este mai mare;

Audio digital este un semnal audio analogic reprezentat de valori numerice discrete ale amplitudinii sale.

În miez codificare audio Utilizarea computerelor este procesul de conversie a vibrațiilor aerului în vibrații de curent electric și eșantionarea ulterioară a semnalului electric analogic.

Codificarea și reproducerea informațiilor audio se realizează folosind programe speciale (editoare de înregistrare).

Calitatea reproducerii audio codificate depinde de frecvența de eșantionare și de rezoluția acesteia.

Digitalizare audio - (sau conversie analog-digitală) - o tehnologie pentru convertirea unui semnal audio analogic într-o formă digitală, care se realizează prin măsurarea amplitudinii semnalului cu un anumit pas de timp și apoi înregistrarea valorilor rezultate în formă numerică.

Digitalizarea audio implică două procese:

    procesul de prelevare de probe (eșantionarea semnalului în timp);

    proces de cuantizare prin amplitudine.

Procesul de eșantionare în timp - procesul de obținere a valorilor semnalului care sunt convertite cu un anumit pas de timp - etapa de eșantionare .

Se numește numărul de măsurători ale mărimii semnalului efectuate într-o secundă rata de eșantionare sau rata de eșantionare, sau rata de eșantionare(din engleză „ampling” - „sampling”).

Cu cât pasul de eșantionare este mai mic, cu atât frecvența de eșantionare este mai mare și o reprezentare mai precisă a semnalului pe care îl vom primi.

Proces cuantizarea amplitudinii - procesul de înlocuire a valorilor reale ale amplitudinii semnalului cu valori aproximate cu o oarecare precizie.

Cuantizarea– eșantionarea pe nivel.

Se presupune că erorile de cuantizare rezultate din cuantizarea pe 16 biți rămân aproape neobservate pentru ascultător.

Fiecare dintre cele 2 N niveluri posibile este numit nivelul de cuantizare, iar distanța dintre cele mai apropiate două niveluri de cuantizare se numește pas de cuantizare.

Se numește numărul N adâncimea de biți de cuantizare, iar numerele obținute ca urmare a rotunjirii valorilor de amplitudine sunt conteaza sau mostre(din engleză „eșantion” - „măsurat”).

Erorile de cuantizare rezultate din cuantizarea pe 16 biți rămân aproape invizibile pentru ascultător.

Digitalizare audio – rezumat:

Pro: puteți codifica orice sunet (inclusiv voce, fluier, foșnet, ...)

Contra: există o pierdere de informații, un volum mare de fișiere

Parametrii principali care afectează calitatea sunetului:

1. Adâncime de biți- dimensiunea (numărul de biți de informații codificați/decodați de ADC și DAC).

2. Rata de eșantionare- frecvența de eșantionare a unui semnal continuu în timp în timpul prelevării sale (ADC), măsurată în Herți.

3. Zgomot- abateri aleatorii de fază și/sau frecvență nedorite ale semnalului transmis

Formate de fișiere audio

      WAV(Formă de undă audio format), adesea fără compresie (dimensiune!)

      MP3 (MPEG-1 Audio Strat 3 , compresie ținând cont de percepția umană)

      A.A.C. (Codare audio avansată, 48 de canale, compresie)

      WMA (Windows Media Audio, streaming audio, compresie)

      OGG (Ogg Vorbis format deschis, compresie)

Sunet este o undă care se propagă cel mai adesea în aer, apă sau alt mediu cu intensitate și frecvență în continuă schimbare.

O persoană poate percepe unde sonore (vibrații ale aerului) cu ajutorul auzului sub formă de sunet, distingând între volum și ton.

Cu atât mai mult intensitate unda sonoră, cu cât sunetul este mai puternic;


Dependența volumului, precum și înălțimea sunetului, de intensitatea și frecvența undei sonore

Hertz(indicată prin Hz sau Hz) - o unitate de măsură a frecvenței proceselor periodice (de exemplu, oscilații). 1 Hz înseamnă o execuție a unui astfel de proces într-o secundă: 1 Hz = 1/s.

Dacă avem 10 Hz, atunci aceasta înseamnă că avem zece execuții ale unui astfel de proces într-o secundă.

Urechea umană poate percepe sunetul la frecvențe care variază de la 20 de vibrații pe secundă (20 Herți, sunet scăzut) la 20.000 de vibrații pe secundă (20 KHz, sunet înalt).

În plus, o persoană poate percepe sunetul într-o gamă largă de intensități, în care intensitatea maximă este de 1014 ori mai mare decât cea minimă (de o sută de mii de miliarde de ori).

Pentru a măsura volumul sunetului, a fost inventată și folosită o unitate specială " decibel" (dB)

O scădere sau creștere a volumului sunetului cu 10 dB corespunde unei scăderi sau creșteri a intensității sunetului de 10 ori.

Volumul sunetului în decibeli


Pentru ca sistemele computerizate să proceseze sunetul, semnalul audio continuu trebuie convertit într-o formă digitală, discretă, folosind eșantionarea în timp.

Pentru a face acest lucru, o undă sonoră continuă este împărțită în secțiuni temporare mici separate și pentru fiecare astfel de secțiune este setată o anumită valoare a intensității sunetului.

Astfel, dependența continuă a volumului sunetului de timpul A(t) este înlocuită cu o succesiune discretă de niveluri de zgomot. Pe grafic, aceasta arată ca înlocuirea unei curbe netede cu o secvență de „pași”.


Eșantionarea în timp a sunetului


Un microfon conectat la placa de sunet este folosit pentru a înregistra sunetul analogic și pentru a-l converti în formă digitală.

Cu cât dungile discrete sunt mai dense pe grafic, cu atât o calitate mai bună veți putea în cele din urmă să recreați sunetul original.

Calitatea sunetului digital rezultat depinde de numărul de măsurători ale nivelului volumului sunetului pe unitatea de timp, adică de frecvența de eșantionare.

Rata de eșantionare audio este numărul de măsurători ale volumului sunetului într-o secundă.

Cu cât se efectuează mai multe măsurători într-o secundă (cu cât frecvența de eșantionare este mai mare), cu atât „scara” semnalului audio digital urmează cu mai multă acuratețe curba semnalului analogic.

Fiecărui „pas” din grafic i se atribuie o valoare specifică a nivelului de volum al sunetului. Nivelurile volumului sunetului pot fi gândite ca un set de stări posibile N(gradații), pentru codificarea căreia este necesară o anumită cantitate de informații eu, care se numește adâncimea codării audio.

Adâncimea codării audio este cantitatea de informații necesară pentru a codifica niveluri discrete de volum ale sunetului digital.

Dacă adâncimea de codificare este cunoscută, atunci numărul de niveluri de volum al sunetului digital poate fi calculat folosind formula generala N=2I.

De exemplu, să fie adâncimea de codificare audio de 16 biți, caz în care numărul de niveluri de volum audio este egal cu:

N = 2 I = 2 16 = 65.536.

În timpul procesului de codificare, fiecărui nivel de volum al sunetului i se atribuie propriul cod binar de 16 biți;

Calitatea sunetului digitalizat


Deci, cu cât frecvența de eșantionare și adâncimea codificării audio sunt mai mari, cu atât calitatea sunetului digitalizat este mai mare și cu atât sunetul digitalizat poate fi adus mai aproape de sunetul original.

Cea mai scăzută calitate a sunetului digitalizat, corespunzătoare calității comunicației telefonice, se obține cu o rată de eșantionare de 8000 de ori pe secundă, o adâncime de eșantionare de 8 biți și înregistrarea unei piese audio (mod mono).

Audio digitizat de cea mai înaltă calitate, corespunzătoare calității CD-ului audio, se realizează cu o rată de eșantionare de 48.000 de ori pe secundă, o adâncime de eșantionare de 16 biți și înregistrarea a două piese audio (mod stereo).

Trebuie amintit că cu cât este mai mare calitatea sunetului digital, cu atât este mai mare volumul de informații al fișierului de sunet.

Puteți estima cu ușurință volumul de informații al unui fișier audio digital stereo cu o durată a sunetului de 1 secundă cu o calitate medie a sunetului (16 biți, 24.000 de măsurători pe secundă). Pentru a face acest lucru, adâncimea de codificare trebuie înmulțită cu numărul de măsurători pe secundă și înmulțită cu 2 canale (sunet stereo):

16 biți × 24.000 × 2 = 768.000 biți = 96.000 de biți = 93,75 KB.

Editori de sunet


Editorii de sunet vă permit nu numai să înregistrați și să redați sunetul, ci și să îl editați. Cel mai proeminent poate fi numit în siguranță, cum ar fi Sony Sound Forge, Adobe Audition, GoldWave si altele.

Sunetul digitizat este prezentat în editorii de sunet într-o formă vizuală clară, astfel încât operațiunile de copiere, mutare și ștergere a părților pistei audio pot fi efectuate cu ușurință folosind un mouse de computer.

În plus, puteți suprapune și suprapune piste audio una peste alta (amesteca sunete) și aplica diverse efecte acustice (eco, redare inversă etc.).

Editorii de sunet vă permit să modificați calitatea sunetului digital și dimensiunea fișierului de sunet final prin modificarea frecvenței de eșantionare și a adâncimii de codificare. Audio digitizat poate fi salvat necomprimat în fișiere audio în format universal WAV (format Microsoft) sau în formate comprimate OGG, MP3 (compresie cu pierderi).
Sunt disponibile și formate mai puțin obișnuite, dar demne de remarcat, cu compresie fără pierderi.

La salvarea sunetului în formate comprimate, frecvențele de sunet de intensitate scăzută care sunt inaudibile și imperceptibile („excesive”) pentru percepția umană, care coincid în timp cu frecvențele de sunet de intensitate mare, sunt eliminate. Utilizarea acestui format vă permite să comprimați fișierele de sunet de zeci de ori, dar duce la pierderea ireversibilă a informațiilor (fișierele nu pot fi restaurate la forma lor originală, originală).