Vilka parametrar avgör ljudkvaliteten? Parametrar som påverkar kvaliteten på digital ljudinspelning. Licensierade ljud-cd-skivor låter bättre än deras kopior

01.10.2021 Komplikationer

Avslöja populära myter om digitalt ljud.

2017-10-01T15:27

Audiophiles programvara

Notera: För en bättre förståelse av texten nedan rekommenderar jag starkt att du bekantar dig med grunderna för digitalt ljud.

Dessutom behandlas många av punkterna nedan i min publikation "Än en gång om den sorgliga sanningen: var kommer bra ljud egentligen ifrån?" .

Ju högre bithastighet, desto bättre kvalitet på spåret.

Detta är inte alltid fallet. Låt mig först påminna dig om vad bitray är T(bithastighet, inte bitraid). Detta är faktiskt datahastigheten i kilobits per sekund under uppspelning. Det vill säga, om vi tar storleken på ett spår i kilobitar och dividerar det med dess varaktighet i sekunder, får vi dess bithastighet - den så kallade. filbaserad bithastighet (FBR), vanligtvis är den inte alltför olik bithastigheten för ljudströmmen (orsaken till skillnaderna är närvaron av metadata i spåret - taggar, inbäddade bilder, etc.).

Låt oss nu ta ett exempel: bithastigheten för okomprimerat PCM-ljud som spelats in på en vanlig ljud-CD beräknas enligt följande: 2 (kanaler) × 16 (bitar per sampel) × 44100 (sampler per sekund) = 1411200 (bps) = 1411,2 kbps . Låt oss nu ta och komprimera spåret med valfri förlustfri codec ("förlustfri" - "förlustfri", d.v.s. en som inte leder till förlust av någon information), till exempel FLAC-codec. Som ett resultat kommer vi att få en bithastighet lägre än den ursprungliga, men kvaliteten kommer att förbli oförändrad - här är ditt första vederlag.

Det finns en sak till som är värd att lägga till här. Utmatningsbithastigheten med förlustfri komprimering kan vara mycket annorlunda (men som regel är den mindre än för okomprimerat ljud) - detta beror på komplexiteten hos den komprimerade signalen, eller mer exakt på dataredundans. Således kommer enklare signaler att komprimeras bättre (dvs. vi har en mindre filstorlek under samma varaktighet => lägre bithastighet), och mer komplexa kommer att komprimeras sämre. Det är därför förlustfri klassisk musik har en lägre bithastighet än till exempel rock. Men det måste betonas att bithastigheten här inte på något sätt är en indikator på ljudmaterialets kvalitet.

Låt oss nu prata om förlustkompression. Först och främst måste du förstå att det finns många olika kodare och format, och även inom samma format kan kodningskvaliteten för olika kodare skilja sig (till exempel QuickTime AAC kodar mycket bättre än den föråldrade FAAC), för att inte tala om överlägsen moderna format (OGG Vorbis, AAC, Opus) över MP3. Enkelt uttryckt, av två identiska spår kodade av olika kodare med samma bithastighet, kommer ett att låta bättre och ett annat låta sämre.

Dessutom finns det något sådant som upenvelope. Det vill säga, du kan ta ett spår i MP3-format med en bithastighet på 96 kbps och konvertera det till MP3 320 kbps. Inte bara kommer inte kvaliteten att förbättras (trots allt kan data som förlorats under den tidigare 96 kbit/s-kodningen inte returneras), den kommer till och med att förvärras. Det är värt att påpeka här att vid varje steg av förlustkodning (med vilken bithastighet och vilken kodare som helst), introduceras en viss mängd distorsion i ljudet.

Och ännu mer. Det finns ytterligare en nyans. Om till exempel bithastigheten för en ljudström är 320 kbps, betyder det inte att alla 320 kbps spenderades på att koda just den sekunden. Detta är typiskt för kodning med konstant bithastighet och för de fall då en person, i hopp om att få maximal kvalitet, tvingar den konstanta bithastigheten att vara för hög (till exempel inställning av 512 kbps CBR för Nero AAC). Som bekant regleras antalet bitar som allokeras till en viss ram av en psykoakustisk modell. Men i fallet när det tilldelade beloppet är mycket lägre än den inställda bithastigheten, sparar inte ens bitreservoaren (läs om villkoren i artikeln "Vad är CBR, ABR, VBR?") - som ett resultat blir vi värdelösa "noll bitar" som helt enkelt "avslutar" » ramstorlek till önskad storlek (dvs. öka flödesstorleken till den angivna). Förresten, detta är lätt att kontrollera - komprimera den resulterande filen med en arkiverare (helst 7z) och titta på komprimeringsförhållandet - ju högre det är, desto fler nollbitar (eftersom de leder till redundans), desto mer slöseri med utrymme.

Lossy codecs (MP3 och andra) klarar av modern elektronisk musik, men är inte kapabla till högkvalitativ kodning av klassisk (akademisk), live, instrumental musik

"Ödets ironi" här är att allt faktiskt är precis tvärtom. Som bekant följer akademisk musik i de allra flesta fall melodiska och harmoniska principer samt instrumental komposition. Ur en matematisk synvinkel resulterar detta i en relativt enkel harmonisk komposition av musik. Således producerar övervikten av konsonanser ett mindre antal sekundära övertoner: till exempel för en femtedel (ett intervall där grundfrekvenserna för två ljud skiljer sig med en och en halv gånger), kommer varannan överton att vara gemensam för de två ljuden , för en fjärde, där frekvenserna skiljer sig med en tredjedel - var tredje, och etc. Dessutom förenklar närvaron av fasta frekvensförhållanden, på grund av användningen av lika temperament, också den spektrala sammansättningen av klassisk musik. Klassikernas levande instrumentala sammansättning avgör frånvaron av brus som är karakteristiskt för elektronisk musik, distorsion, skarpa hopp i amplitud och frånvaron av ett överskott av högfrekventa komponenter.

Ovanstående faktorer leder till att klassisk musik är mycket lättare att komprimera, först och främst rent matematiskt. Om du kommer ihåg fungerar matematisk komprimering genom att eliminera redundans (beskriver liknande information med färre bitar) och även genom att göra förutsägelser (aka. prediktorer förutsäga signalens beteende, och sedan kodas endast avvikelsen för den verkliga signalen från den förutsagda - ju mer exakt de matchar, desto färre bitar behövs för kodning). I det här fallet leder den relativt enkla spektrala sammansättningen och harmonin till hög redundans, vars eliminering ger en betydande grad av kompression, och ett litet antal skurar och bruskomponenter (som är slumpmässiga och oförutsägbara signaler) bestämmer god matematisk förutsägbarhet av stora delar av informationen. Och jag pratar inte ens om den relativt låga genomsnittliga volymen av klassiska spår och de frekventa tystnadsintervallen, för vilka praktiskt taget ingen information krävs för att koda. Som ett resultat kan vi förlustfritt komprimera, till exempel, viss instrumental solomusik till bithastigheter under 320 kbps (TAK- och OFR-kodare klarar detta).

Så för det första är faktum att den matematiska komprimeringen som ligger bakom förlustfri kodning också är ett av stadierna av förlustkodning (läs Förstå MP3-kodning). Och för det andra, eftersom lossy använder Fourier-transformen (nedbrytning av signalen till övertoner), gör enkelheten i den spektrala sammansättningen till och med kodarens arbete dubbelt enklare. Som ett resultat av att jämföra de ursprungliga och kodade klassiska musikproverna i ett blindtest, är vi förvånade över att finna att vi inte kan hitta några skillnader, ens vid en relativt låg bithastighet. Och det roliga är att när vi börjar sänka kodningsbithastigheten helt, är det första som avslöjar skillnader bakgrundsbruset i inspelningen.

När det gäller elektronisk musik har kodare mycket svårt med det: bruskomponenter har minimal redundans, och tillsammans med skarpa hopp (någon sorts sågtandspulser) är de extremt oförutsägbara signaler (för kodare som är "skräddarsydda" för naturliga ljud som beter sig helt annars), producerar den direkta och omvända Fourier-transformen med förkastandet av individuella övertoner av den psykoakustiska modellen oundvikligen före- och efterekoeffekter, vars hörbarhet inte alltid är lätt för kodaren att bedöma... Lägg till detta hög nivå av HF-komponenter - och du får ett stort antal mördare -samplar, som inte ens de mest avancerade kodarna klarar av vid medel-låga bithastigheter, konstigt nog, särskilt bland elektronisk musik.

Roliga är också åsikterna från "erfarna lyssnare" och musiker som, med en fullständig brist på förståelse för principerna för förlustkodning, börjar hävda att de hör hur instrumenten i musik efter kodning börjar bli urstämda, frekvenserna flyter , etc. Detta kan fortfarande vara sant för antediluvianska kassettspelare med detonation, men i digitalt ljud är allt korrekt: frekvenskomponenten antingen finns kvar eller kasseras, det finns helt enkelt inget behov av att ändra tonaliteten. Dessutom: närvaron av en persons öra för musik betyder inte alls att han har en bra frekvenshörsel (till exempel förmågan att uppfatta frekvenser >16 kHz, som försvinner med åldern) och gör det inte alls lättare för honom att sök efter förlustartefakter, eftersom distorsion Dessa har en mycket specifik karaktär och kräver upplevelsen av blind jämförelse av förlustgivande ljud - du måste veta vad och var du ska leta.

DVD-ljud låter bättre än ljud-cd (24 bitar vs. 16, 96 kHz vs. 44.1, etc.)

Tyvärr tittar folk vanligtvis bara på siffror och tänker mycket sällan på vilken inverkan en viss parameter har på objektiv kvalitet.

Låt oss först överväga bitdjupet. Denna parameter är ansvarig för inget annat än det dynamiska omfånget, dvs skillnaden mellan det tystaste och högsta ljudet (i dB). I digitalt ljud är den maximala nivån 0 dBFS (FS - full skala), och den lägsta begränsas av brusnivån, det vill säga att det dynamiska området i absoluta värden är lika med brusnivån. För 16-bitars ljud beräknas det dynamiska omfånget som 20 × log 10 2 16, vilket motsvarar 96,33 vB. Samtidigt är det dynamiska omfånget för en symfoniorkester upp till 75 dB (oftast cirka 40-50 dB).

Låt oss nu föreställa oss verkliga förhållanden. Ljudnivån i rummet är cirka 40 dB (glöm inte att dB är ett relativt värde. I det här fallet tas hörbarhetströskeln till 0 dB), den maximala musikvolymen når 110 dB (för att undvika obehag) - vi få en skillnad på 70 dB. Således visar det sig att ett dynamiskt område på mer än 70 dB i det här fallet helt enkelt är värdelöst. Det vill säga, vid ett högre intervall kommer antingen höga ljud att nå smärttröskeln, eller så kommer tysta ljud att absorberas av omgivande buller. Det är mycket svårt att uppnå en omgivningsljudnivå på mindre än 15 dB (eftersom volymen av mänsklig andning och annat buller orsakat av mänsklig fysiologi är på denna nivå), som ett resultat visar sig ett intervall på 95 dB för att lyssna på musik att vara helt tillräcklig.

Nu om samplingsfrekvensen (samplingsfrekvens, samplingsfrekvens). Denna parameter styr tidssamplingsfrekvensen och påverkar direkt den maximala signalfrekvensen som kan beskrivas av en given ljudrepresentation. Enligt Kotelnikovs teorem är det lika med halva samplingsfrekvensen. Det vill säga, för den vanliga samplingsfrekvensen på 44100 Hz är den maximala frekvensen för signalkomponenterna 22050 Hz. Den maximala frekvensen. som uppfattas av det mänskliga örat är något över 20 000 Hz (och sedan vid födseln; när vi blir äldre sjunker tröskeln till 16 000 Hz).

Det här ämnet behandlas bäst i artikeln Nedladdningar i 24/192-format - varför de inte är meningsfulla.

Olika mjukvaruspelare låter olika (t.ex. foobar2000 är bättre än Winamp, etc.)

För att förstå varför detta inte är fallet måste du förstå vad en mjukvaruspelare är. I huvudsak är detta en avkodare, hanterare (valfritt), en utdataplugin (till ett av gränssnitten: ASIO, DirectSound, WASAPI, etc.), och naturligtvis GUI ( GUI användare). Eftersom avkodaren i 99,9 % av fallen fungerar enligt en standardalgoritm, och utgångsplugin-modulen bara är en del av programmet som överför strömmen till ljudkortet via ett av gränssnitten, kan den enda anledningen till skillnaderna vara hanterare. Men faktum är att processorerna vanligtvis är avstängda som standard (eller bör stängas av, eftersom det viktigaste för en bra spelare är att kunna förmedla ljud i sin "orörda" form). Som ett resultat kan det enda föremålet för jämförelse här vara möjligheter bearbetning och produktion, som för övrigt väldigt ofta inte alls är nödvändiga. Men även om det finns ett sådant behov, så är detta en jämförelse av processorer, och inte av spelare.

Olika drivrutinsversioner låter olika

Detta uttalande är baserat på banal okunnighet om principerna för driften av ett ljudkort. Föraren är programvara, nödvändig för effektiv interaktion av enheten med operativ system, som också vanligtvis tillhandahåller ett grafiskt användargränssnitt för möjligheten att hantera enheten, dess parametrar etc. Ljudkortsdrivrutinen ser till att ljudkortet känns igen som en Windows-ljudenhet, informerar operativsystemet om de format som stöds av kortet, och säkerställer att en okomprimerad PCM-ström (i de flesta fall) överförs till kortet och ger även tillgång till inställningar. Dessutom, om det finns mjukvarubehandling (med CPU-verktyg), kan drivrutinen innehålla olika DSP:er (processorer). Därför, för det första, med effekter och bearbetning inaktiverade, om drivrutinen inte tillhandahåller korrekt PCM-överföring till kortet, anses detta vara ett grovt fel, en kritisk bugg. Och detta händer sällan. Å andra sidan kan skillnader mellan drivrutiner vara i uppdatering av bearbetningsalgoritmer (omsamplare, effekter), även om detta inte heller händer ofta. Dessutom, för att uppnå högsta kvalitet, bör effekter och all drivrutinsbearbetning fortfarande uteslutas.

Således är drivrutinsuppdateringar främst inriktade på att förbättra stabiliteten och eliminera bearbetningsfel. Varken det ena eller det andra påverkar i vårt fall kvaliteten på uppspelningen, därför har drivrutinen i 999 fall av 1000 ingen effekt på ljudet.

Licensierade ljud-CD-skivor låter bättre än deras kopior

Om inga (dödliga) läs-/skrivfel inträffade under kopieringen och den optiska enheten på enheten som kopieringsskivan ska spelas på inte har några problem med att läsa den, så är detta påstående felaktigt och lätt att vederlägga.

Stereokodningsläge ger bättre kvalitet än Joint Stereo

Denna missuppfattning gäller främst LAME MP3, eftersom alla moderna kodare (AAC, Vorbis, Musepack) använder endast Gemensamt stereoläge (och detta säger redan något)

Till att börja med är det värt att nämna att Joint Stereo-läget framgångsrikt används med förlustfri komprimering. Dess väsen ligger i det faktum att signalen före kodning bryts upp i summan av höger och vänster kanal (Mid) och deras skillnad (Side), och sedan sker separat kodning av dessa signaler. I gränsen (för samma information i höger och vänster kanal) erhålls dubbla databesparingar. Och eftersom informationen i höger och vänster kanal i de flesta musik är ganska lika, visar sig denna metod vara mycket effektiv och låter dig öka komprimeringsförhållandet avsevärt.

I lossy är principen densamma. Men här, i konstant bithastighetsläge, kommer kvaliteten på fragment med liknande information i två kanaler att öka (i gränsen, dubbel), och för VBR-läget på sådana platser kommer bithastigheten helt enkelt att minska (glöm inte att huvuduppgiften i VBR-läget är att stabilt bibehålla den specificerade kodningskvaliteten, med lägsta möjliga bithastighet). Eftersom under förlustkodning ges prioritet (vid distribution av bitar) åt summan av kanalerna, för att undvika försämring av stereopanorama, dynamisk växling mellan Joint Stereo (Mid/Side) och vanlig (Vänster/Höger) rambaserad stereo lägen används. Förresten, orsaken till denna missuppfattning var ofullkomligheten i växlingsalgoritmen i äldre versioner av LAME, såväl som närvaron av Forced Joint-läget, där det inte finns någon automatisk växling. I senaste versionerna LAME Joint-läget är aktiverat som standard och det rekommenderas inte att ändra det.

Ju bredare spektrum, desto bättre kvalitet på inspelningen (om spektrogram, auCDtect och frekvensområde)

Nuförtiden, på forum, är det tyvärr mycket vanligt att mäta kvaliteten på ett spår "med en linjal som använder ett spektrogram." Uppenbarligen, på grund av enkelheten i denna metod. Men som praktiken visar är allt i verkligheten mycket mer komplicerat.

Och här är grejen. Spektrogrammet visar visuellt fördelningen av signalkraft över frekvenser, men kan inte ge en fullständig bild av ljudet från inspelningen, närvaron av distorsion och kompressionsartefakter i den. Det vill säga, i huvudsak allt som kan bestämmas från spektrogrammet är frekvensområdet (och delvis spektrumtätheten i HF-området). Det vill säga, i bästa fall, genom att analysera spektrogrammet kan en uppkonvertering identifieras. Att jämföra spektrogram av spår erhållna genom kodning med olika kodare med originalet är fullständigt absurd. Ja, du kan identifiera skillnader i spektrumet, men att avgöra om (och i vilken utsträckning) de kommer att uppfattas av det mänskliga örat är nästan omöjligt. Vi får inte glömma att uppgiften med förlustkodning är att säkerställa ett resultat som inte kan skiljas åt mänskligt öra från originalet (inte genom ögat).

Detsamma gäller för att bedöma kvaliteten på kodningen genom att analysera utgångsspåren med auCDtect-programmet (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - det här är bara skal för det unika konsolprogrammet auCDtect). Algoritmen auCDtect analyserar också faktiskt frekvensområdet och låter dig bara bestämma (med en viss grad av sannolikhet) om MPEG-komprimering tillämpades i något av kodningsstegen. Algoritmen är skräddarsydd för MP3, så det är lätt att "lura" den med hjälp av Vorbis, AAC och Musepack codecs, så även om programmet skriver "100% CDDA" betyder det inte att det kodade ljudet är 100% identisk med originalet.

Och återvänder direkt till spektra. Det finns också en populär önskan bland vissa "entusiaster" att till varje pris inaktivera lågpassfiltret i LAME-kodaren. Det finns en tydlig brist på förståelse för principerna för kodning och psykoakustik. För det första klipper kodaren höga frekvenser för endast ett syfte - att spara data och använda den för att koda det mest hörbara frekvensområdet. Utökat frekvensområde kan ha en dödlig inverkan på den övergripande ljudkvaliteten och leda till hörbara kodningsartefakter. Dessutom är det i allmänhet helt omotiverat att stänga av avstängningen vid 20 kHz, eftersom en person helt enkelt inte kan höra högre frekvenser.

Det finns en viss "magisk" equalizer-förinställning som kan förbättra ljudet avsevärt

Detta är inte helt sant, för det första eftersom varje enskild konfiguration (hörlurar, akustik, ljudkort) har sina egna parametrar (särskilt sin egen amplitud-frekvensrespons). Och därför måste varje konfiguration ha sitt eget unika tillvägagångssätt. Enkelt uttryckt finns en sådan equalizer-förinställning, men den skiljer sig för olika konfigurationer. Dess essens ligger i att justera banans frekvenssvar, nämligen att "utjämna" oönskade fall och överspänningar.

Bland människor som långt ifrån direkt arbetar med ljud är det väldigt populärt att ställa in en grafisk equalizer med en "tick", vilket faktiskt representerar en ökning av nivån av lågfrekventa och högfrekventa komponenter, men samtidigt leder till dämpning av sång och instrument, vars ljudspektrum ligger i mellanfrekvensområdet.

Innan du konverterar musik till ett annat format bör du dekomprimera den till WAV

Låt mig omedelbart notera att WAV betyder PCM-data (pulskodmodulering) i WAVE-behållaren (fil med *.wav-tillägget). Dessa data är inget annat än en sekvens av bitar (nollor och ettor) i grupper om 16, 24 eller 32 (beroende på bitdjupet), som var och en representerar den binära koden för amplituden för motsvarande sampel (till exempel för 16 bitar i decimalnotation detta är värden från -32768 till +32768).

Så, faktum är att vilken ljudprocessor som helst - vare sig det är ett filter eller en kodare - vanligtvis fungerar endast med dessa värderingar, alltså endast med okomprimerad data. Detta innebär att för att konvertera ljud från, säg, FLAC till APE, behöver du helt enkelt nödvändig Avkoda först FLAC till PCM och koda sedan PCM till APE. Det är som att packa om filer från ZIP till RAR, du måste först packa upp ZIP.

Men om du använder en omvandlare eller bara en avancerad konsolkodare, sker den mellanliggande konverteringen till PCM i farten, ibland utan att ens skriva till en tillfällig WAV-fil. Det är detta som vilseleder folk: det verkar som om formaten konverteras direkt från ett till ett annat, men i själva verket måste ett sådant program ha en indataformatavkodare som utför en mellankonvertering till PCM.

Således kommer manuell konvertering till WAV att ge dig absolut inget annat än slöseri med tid.

Ljud information. Ljud är en våg som utbreder sig i luft, vatten eller annat medium med ständigt föränderlig intensitet och frekvens.

En person uppfattar ljudvågor (luftvibrationer) med hjälp av hörseln i form av ljud av varierande volym och toner. Ju högre intensiteten på ljudvågen är, desto högre ljudet är, desto högre är ljudets ton (fig. 1.1).

Ris. 1.1. Beroende av ljudets volym och tonhöjd på ljudvågens intensitet och frekvens

Det mänskliga örat uppfattar ljud vid frekvenser från 20 vibrationer per sekund (lågt ljud) till 20 000 vibrationer per sekund (högt ljud).

En person kan uppfatta ljud i ett stort spektrum av intensiteter, där den maximala intensiteten är 1014 gånger större än minimum (hundratusen miljarder gånger). För att mäta ljudvolymen används en speciell enhet "decibel" (dbl) (tabell 5.1). En minskning eller ökning av ljudvolymen med 10 dbl motsvarar en minskning eller ökning av ljudintensiteten med 10 gånger.

Tabell 5.1. Ljudvolym
Ljudvolym i decibel
Den nedre gränsen för känslighet för det mänskliga örat är 0
sus av löv 10
Konversation 60
Bilhorn 90
Jetmotor 120
Smärtgräns 140
Tidssampling av ljud. För att en dator ska kunna bearbeta ljud måste den kontinuerliga ljudsignalen omvandlas till digital diskret form med hjälp av tidssampling. En kontinuerlig ljudvåg är uppdelad i separata små tillfälliga sektioner, och för varje sådan sektion ställs ett visst värde på ljudintensiteten.

Sålunda ersätts ljudvolymens kontinuerliga beroende av tiden A(t) av en diskret sekvens av ljudnivåer. På grafen ser detta ut som att ersätta en jämn kurva med en sekvens av "steg" (Fig. 1.2).

Ris. 1.2. Tidssampling av ljud

Samplingsfrekvens. En mikrofon ansluten till ljudkortet används för att spela in analogt ljud och konvertera det till digital form. Kvaliteten på det resulterande digitala ljudet beror på antalet mätningar av ljudvolymnivån per tidsenhet, d.v.s. samplingsfrekvensen. Ju fler mätningar som görs per sekund (ju högre samplingsfrekvens), desto mer exakt följer "stegen" för den digitala ljudsignalen kurvan för dialogsignalen.

Ljudsamplingshastigheten är antalet ljudvolymmätningar som tas under en sekund.

Ljudsamplingshastigheter kan variera från 8 000 till 48 000 ljudvolymmätningar per sekund.

Ljudkodningsdjup. Varje "steg" tilldelas en specifik ljudvolymnivå. Ljudnivåer kan betraktas som en uppsättning möjliga tillstånd N, vars kodning kräver en viss mängd information I, vilket kallas ljudkodningsdjupet.

Ljudkodningsdjup är mängden information som behövs för att koda diskreta volymnivåer för digitalt ljud.

Om kodningsdjupet är känt kan antalet digitala ljudvolymnivåer beräknas med formeln N = 2I. Låt ljudkodningsdjupet vara 16 bitar, då är antalet ljudvolymnivåer lika med:

N = 2I = 216 = 65,536.

Under kodningsprocessen tilldelas varje ljudvolymnivå sin egen 16-bitars binära kod, den lägsta ljudnivån kommer att motsvara koden 00000000000000000, och den högsta - 1111111111111111.

Digitaliserad ljudkvalitet. Ju högre frekvens och samplingsdjup ljudet har, desto högre är kvaliteten på det digitaliserade ljudet. Den lägsta kvaliteten på digitaliserat ljud, motsvarande kvaliteten på telefonkommunikation, erhålls med en samplingshastighet på 8000 gånger per sekund, ett samplingsdjup på 8 bitar och inspelning av ett ljudspår (monoläge). Digitaliserat ljud av högsta kvalitet, motsvarande ljud-CD-kvalitet, uppnås med en samplingshastighet på 48 000 gånger per sekund, ett samplingsdjup på 16 bitar och inspelning av två ljudspår (stereoläge).

Man måste komma ihåg att ju högre kvalitet på digitalt ljud är, desto större informationsvolym har ljudfilen. Du kan uppskatta informationsvolymen för en digital stereoljudfil med en ljudlängd på 1 sekund med genomsnittlig ljudkvalitet (16 bitar, 24 000 mätningar per sekund). För att göra detta måste kodningsdjupet multipliceras med antalet mätningar på 1 sekund och multipliceras med 2 (stereoljud):

16 bitar × 24 000 × 2 = 768 000 bitar = 96 000 byte = 93,75 KB.

Ljudredigerare. Med ljudredigerare kan du inte bara spela in och spela upp ljud, utan också redigera det. Digitaliserat ljud presenteras i ljudredigerare i en visuell form, så operationer att kopiera, flytta och radera delar av ljudspåret kan enkelt utföras med musen. Dessutom kan du lägga ljudspår ovanpå varandra (mixa ljud) och använda olika akustiska effekter (eko, uppspelning baklänges, etc.).

De viktigaste parametrarna som påverkar kvaliteten på digital ljudinspelning är:

§ Bitkapacitet för ADC och DAC.

§ ADC- och DAC-samplingsfrekvenser.

§ Jitter ADC och DAC

§ Översampling

Också viktiga är parametrarna för den analoga vägen för digital ljudinspelning och ljudåtergivningsenheter:

§ Signal/brusförhållande

§ Harmonisk distorsionsfaktor

§ Intermodulationsdistorsion

§ Ojämna amplitud-frekvensegenskaper

§ Interpenetration av kanaler

§ Dynamiskt omfång

Digital ljudinspelningsteknik

Digital ljudinspelning sker idag i inspelningsstudior, styrda av persondatorer och annan dyrbar och högkvalitativ utrustning. Konceptet med en "hemstudio" är också ganska brett utvecklat, där professionell och semi-professionell inspelningsutrustning används, vilket gör att du kan skapa högkvalitativa inspelningar hemma.

Ljudkort används som en del av datorer som utför bearbetning i sina ADC:er och DAC:er - oftast i 24 bitar och 96 kHz att ytterligare öka bithastigheten och samplingsfrekvensen ökar praktiskt taget inte kvaliteten på inspelningen.

Det finns en hel klass av datorprogram - ljudredigerare som låter dig arbeta med ljud:

§ spela in inkommande ljudström

§ skapa (generera) ljud

§ ändra en befintlig inspelning (lägg till samplingar, ändra klangfärg, ljudhastighet, klippa delar, etc.)

§ skriva om från ett format till ett annat

§ konvertera konvertera olika ljud-codecs

Vissa enkla program låter dig bara konvertera format och codecs.

Typer av digitala ljudformat

Det finns olika koncept för ljudformat.

Formatet för att representera ljuddata i digital form beror på kvantiseringsmetoden som används av digital-till-analog-omvandlaren (DAC). Inom ljudteknik är två typer av kvantisering för närvarande vanligast:

§ pulskodmodulering

§ sigma-delta modulering

Ofta indikeras kvantiseringsbitdjupet och samplingsfrekvensen för olika ljudinspelnings- och uppspelningsenheter som det digitala ljudpresentationsformatet (24 bitar/192 kHz; 16 bitar/48 kHz).

Filformatet bestämmer strukturen och presentationsfunktionerna för ljuddata när de lagras på en PC-lagringsenhet. För att eliminera redundans i ljuddata används ljudkodekar för att komprimera ljuddata. Det finns tre grupper av ljudfilformat:

§ Okomprimerade ljudformat som WAV, AIFF

§ ljudformat med förlustfri komprimering (APE, FLAC)

§ ljudformat med förlustkomprimering (mp3, ogg)

Modulära musikfilformat sticker ut. Skapat syntetiskt eller från prover av förinspelade liveinstrument, tjänar de främst till att skapa modern elektronisk musik (MOD). Detta inkluderar även MIDI-formatet, som inte är en ljudinspelning, men samtidigt, med hjälp av en sequencer, kan du spela in och spela musik med en specifik uppsättning kommandon i textform.

Digitala ljudmediaformat används både för massdistribution av ljudinspelningar (CD, SACD) och vid professionell ljudinspelning (DAT, minidisc).

För surroundljudsystem är det också möjligt att urskilja ljudformat, som huvudsakligen är flerkanaligt ljudackompanjemang för filmer. Sådana system har hela familjer av format från två stora konkurrerande företag, Digital Theater Systems Inc. - DTS och Dolby Laboratories Inc. - Dolby Digital.

Formatet kallas även antalet kanaler i flerkanaliga ljudsystem (5.1; 7.1). Ursprungligen utvecklades ett sådant system för biografer, men utökades sedan Software codec

Ljud-codec på programnivå

§ G.723.1 - en av de grundläggande codecs för IP-telefoniapplikationer

§ G.729 är en proprietär smalbandscodec som används för digital talrepresentation

§ Internet Low Bitrate Codec (iLBC) - en populär gratis codec för IP-telefoni (särskilt för Skype och Google Talk)

Ljud-codec(Engelsk) Ljud-codec; ljudkodare/avkodare) - datorprogram eller hårdvara, designad för att koda eller avkoda ljuddata.

Programvara codec

Ljud-codec på programnivåär specialiserad datorprogram, en codec som komprimerar (komprimerar) eller dekomprimerar (dekomprimerar) digital ljuddata enligt ett filljudformat eller strömmande ljudformat. En audio-codec jobb som en kompressor är att ge en ljudsignal med en specificerad kvalitet/noggrannhet och minsta möjliga storlek. Komprimering minskar mängden utrymme som krävs för att lagra ljuddata och kan också minska bandbredden på kanalen över vilken ljuddata sänds. De flesta ljudkodekar är implementerade som mjukvarubibliotek som interagerar med en eller flera ljudspelare, som QuickTime Player, XMMS, Winamp, VLC mediaspelare, MPlayer eller Windows Media Player.

Populära programvaruljudcodecs efter applikation:

§ MPEG-1 Layer III (MP3) - proprietär ljudcodec (musik, ljudböcker, etc.) för datorutrustning och digitala spelare

§ Ogg Vorbis (OGG) - det näst mest populära formatet, flitigt använt i datorspel och i fildelningsnätverk för att överföra musik

§ GSM-FR - den första digitala talkodningsstandarden som används i GSM-telefoner

§ Adaptiv multihastighet (AMR) - mänsklig röstinspelning mobiltelefoner och andra mobila enheter

Ljud– en våg med ständigt föränderlig amplitud och frekvens. Ju större amplitud, desto högre är den för en person, ju högre frekvens, desto högre ton.

Digitalt ljudär en analog ljudsignal representerad av diskreta numeriska värden för dess amplitud.

I kärnan ljudkodning Att använda datorer är processen att omvandla luftvibrationer till elektriska strömvibrationer och efterföljande sampling av den analoga elektriska signalen.

Kodning och återgivning av ljudinformation utförs med hjälp av speciella program (inspelningsredigerare).

Kvaliteten på kodad ljudåtergivning beror på samplingsfrekvensen och dess upplösning.

Digitalisering av ljud - (eller analog-till-digital konvertering) - en teknik för att konvertera en analog ljudsignal till en digital form, som utförs genom att mäta signalamplituden med ett visst tidssteg och sedan registrera de resulterande värdena i numerisk form.

Ljuddigitalisering involverar två processer:

provtagningsprocessen (sampling av signalen över tid);

kvantiseringsprocessen efter amplitud.

Tidsurvalsprocess - processen att erhålla signalvärden som konverteras med ett visst tidssteg - provtagningssteg .

Antalet mätningar av signalstorlek som utförs på en sekund kallas samplingshastighet eller samplingshastighet, eller samplingshastighet(från engelskan "ampling" - "sampling").

Ju mindre samplingssteget är, desto högre samplingsfrekvens och desto mer exakt representation av signalen kommer vi att få.

Bearbeta amplitudkvantisering - processen att ersätta verkliga signalamplitudvärden med värden som är ungefärliga med viss noggrannhet.

Kvantisering– provtagning efter nivå.

Det antas att kvantiseringsfel som härrör från 16-bitars kvantisering förblir nästan omärkbara för lyssnaren.

Var och en av de 2 N möjliga nivåerna kallas kvantiseringsnivå, och avståndet mellan de två närmaste kvantiseringsnivåerna kallas kvantiseringssteg.

Numret N kallas kvantiseringsbitdjup, och siffrorna som erhålls som ett resultat av avrundning av amplitudvärdena är räknas eller prover(från engelska "sample" - "measured").

Kvantiseringsfel som härrör från 16-bitars kvantisering förblir nästan osynliga för lyssnaren.

Ljuddigitalisering – sammanfattning:

Fördelar: du kan koda vilket ljud som helst (inklusive röst, visselpipa, prassling, ...)

Minus: det finns en förlust av information, en stor mängd filer

Huvudparametrar som påverkar ljudkvaliteten:

1. Bitdjup- dimension (antal informationsbitar som kodas/avkodas av ADC och DAC).

2. Samplingsfrekvens- Samplingsfrekvens för en tidskontinuerlig signal under dess sampling (ADC), mätt i Hertz.

3. Buller- oönskade fas- och/eller frekvensslumpmässiga avvikelser hos den sända signalen

Ljudfilformat

WAV(Vågform audio formatera), ofta utan kompression (storlek!)

MP3 (MPEG-1 Audio Lager 3 , komprimering med hänsyn till mänsklig perception)

A.A.C. (Avancerad ljudkodning, 48 kanaler, komprimering)

WMA (Windows Media Audio, strömmande ljud, komprimering)

OGG (Ogg Vorbis,öppet format, komprimering)

Ljudär en våg som fortplantar sig oftast i luft, vatten eller annat medium med ständigt växlande intensitet och frekvens.

En person kan uppfatta ljudvågor (luftvibrationer) med hjälp av hörsel i form av ljud, och skilja på volym och ton.

Ju mer intensitet ljudvåg, ju högre ljudet är, desto högre är ljudet.

Volymens beroende, såväl som ljudets tonhöjd, på ljudvågens intensitet och frekvens

Hertz(indikeras med Hz eller Hz) - en måttenhet för frekvensen av periodiska processer (till exempel oscillationer). 1 Hz betyder en exekvering av en sådan process på en sekund: 1 Hz = 1/s.

Om vi har 10 Hz betyder det att vi har tio exekveringar av en sådan process på en sekund.

Det mänskliga örat kan uppfatta ljud vid frekvenser som sträcker sig från 20 vibrationer per sekund (20 Hertz, lågt ljud) till 20 000 vibrationer per sekund (20 KHz, högt ljud).

Dessutom kan en person uppfatta ljud över ett brett spektrum av intensiteter, där den maximala intensiteten är 1014 gånger större än minimum (hundratusen miljarder gånger).

För att mäta ljudvolymen uppfanns och användes en speciell enhet " decibel" (dB)

En minskning eller ökning av ljudvolymen med 10 dB motsvarar en minskning eller ökning av ljudintensiteten med 10 gånger.

Ljudvolym i decibel

För att datorsystem ska kunna bearbeta ljud måste den kontinuerliga ljudsignalen omvandlas till digital, diskret form med hjälp av tidssampling.

För att göra detta delas en kontinuerlig ljudvåg upp i separata små tillfälliga sektioner, och för varje sådan sektion ställs ett visst värde på ljudintensiteten in.

Sålunda ersätts ljudvolymens kontinuerliga beroende av tiden A(t) av en diskret sekvens av ljudnivåer. På grafen ser detta ut som att ersätta en jämn kurva med en sekvens av "steg".

Tidssampling av ljud

En mikrofon ansluten till ljudkortet används för att spela in analogt ljud och konvertera det till digital form.

Ju tätare de diskreta ränderna är placerade på grafen, desto bättre kvalitet kommer originalljudet att återskapas.

Kvaliteten på det resulterande digitala ljudet beror på antalet mätningar av ljudvolymnivån per tidsenhet, d.v.s. samplingsfrekvensen.

Ljudsamplingshastighetär antalet ljudvolymmätningar på en sekund.

Ju fler mätningar som görs på en sekund (ju högre samplingsfrekvens), desto mer exakt följer "stegen" för den digitala ljudsignalen kurvan för den analoga signalen.

Varje "steg" på grafen tilldelas en specifik ljudvolymnivå. Ljudvolymnivåer kan ses som en uppsättning möjliga tillstånd N(graderingar), för kodning där en viss mängd information krävs jag, som kallas ljudkodningsdjupet.

Ljudkodningsdjupär mängden information som behövs för att koda diskreta volymnivåer för digitalt ljud.

Om kodningsdjupet är känt kan antalet digitala ljudvolymnivåer beräknas med hjälp av allmän formel N=2I.

Låt till exempel ljudkodningsdjupet vara 16 bitar, i vilket fall antalet ljudvolymnivåer är lika med:

N = 2I = 216 = 65,536.

Under kodningsprocessen tilldelas varje ljudvolymnivå sin egen 16-bitars binära kod, den lägsta ljudnivån kommer att motsvara koden 00000000000000000, och den högsta - 1111111111111111.

Digitaliserad ljudkvalitet

Så ju högre samplingsfrekvens och ljudkodningsdjup, desto högre kvalitet kommer det digitaliserade ljudet att låta och desto bättre kan du föra det digitaliserade ljudet närmare originalljudet.

Den lägsta kvaliteten på digitaliserat ljud, motsvarande kvaliteten på telefonkommunikation, erhålls med en samplingshastighet på 8000 gånger per sekund, ett samplingsdjup på 8 bitar och inspelning av ett ljudspår (monoläge).

Digitaliserat ljud av högsta kvalitet, motsvarande ljud-CD-kvalitet, uppnås med en samplingshastighet på 48 000 gånger per sekund, ett samplingsdjup på 16 bitar och inspelning av två ljudspår (stereoläge).

Det måste man komma ihåg ju högre kvalitet på digitalt ljud är, desto större informationsvolym har ljudfilen.

Du kan enkelt uppskatta informationsvolymen för en digital stereoljudfil med en ljudlängd på 1 sekund med genomsnittlig ljudkvalitet (16 bitar, 24 000 mätningar per sekund). För att göra detta måste kodningsdjupet multipliceras med antalet mätningar per sekund och multipliceras med 2 kanaler (stereoljud):

16 bitar × 24 000 × 2 = 768 000 bitar = 96 000 byte = 93,75 KB.

Ljudredigerare

Med ljudredigerare kan du inte bara spela in och spela upp ljud, utan också redigera det. Den mest framträdande kan säkert kallas, som t.ex Sony Sound Forge, Adobe Audition, GoldWave och andra.

Digitaliserat ljud presenteras i ljudredigerare i en tydlig visuell form, så att kopiera, flytta och ta bort delar av ljudspåret enkelt kan göras med en datormus.

Dessutom kan du överlappa och överlappa ljudspår ovanpå varandra (mixa ljud) och applicera olika akustiska effekter (eko, uppspelning baklänges, etc.).

Med ljudredigerare kan du ändra kvaliteten på digitalt ljud och storleken på den slutliga ljudfilen genom att ändra samplingsfrekvensen och kodningsdjupet. Digitaliserat ljud kan sparas okomprimerat i ljudfiler i det universella WAV-formatet (Microsoft-format) eller i OGG- och MP3-komprimerade format (förlustkomprimering).
Mindre vanliga men anmärkningsvärda förlustfria komprimeringsformat är också tillgängliga.

När du sparar ljud i komprimerade format, kasseras lågintensiva ljudfrekvenser som är ohörbara och omärkliga ("överdrivna") för mänsklig perception, som sammanfaller i tid med högintensiva ljudfrekvenser. Användningen av detta format låter dig komprimera ljudfiler tiotals gånger, men leder till oåterkallelig förlust av information (filer kan inte återställas till sin ursprungliga, ursprungliga form).