Den stora ljudmyten: varför du inte behöver den 32-bitars DAC

Författare: Randy Alexander
Skapelsedatum: 1 April 2021
Uppdatera Datum: 1 Juli 2024
Anonim
Den stora ljudmyten: varför du inte behöver den 32-bitars DAC - Teknik
Den stora ljudmyten: varför du inte behöver den 32-bitars DAC - Teknik

Innehåll


Som du antagligen har märkt, det finns en ny trend inom smartphonebranschen att inkludera ljudchips i ”studiokvalitet” i moderna flaggskeppssmartphones. Även om en 32-bitars DAC (digital till analog-omvandlare) med 192 kHz ljudstöd verkligen ser bra ut på specifikationen, finns det helt enkelt ingen fördel att driva upp storleken på våra ljudsamlingar.

Jag är här för att förklara varför detta bitdjup och samplingsfrekvens bara är ett annat exempel på ljudindustrin som utnyttjar bristen på konsument- och till och med audiofilkunskap om ämnet. Donera dina nerdkappar, vi går in på några allvarliga tekniska punkter för att förklara pro-ljudet. Och förhoppningsvis kommer jag också att bevisa varför du borde ignorera det mesta av marknadsföringshype.

Hör du det?

Innan vi dyker in, erbjuder detta första segment viss obligatorisk bakgrundsinformation om de två huvudbegreppen digital ljud, bitdjup och samplingsfrekvens.


Provhastighet hänvisar till hur ofta vi ska fånga in eller reproducera amplitudinformation om en signal. I huvudsak hackar vi upp en vågform i många små delar för att lära oss mer om den vid en viss tidpunkt. Nyquist teorem säger att den högsta möjliga frekvens som kan fångas eller reproduceras är exakt hälften av provhastigheten. Detta är ganska enkelt att föreställa sig, eftersom vi behöver amplituderna för vågformens topp och botten (vilket kräver två prover) för att exakt veta dess frekvens.

Att öka samplingshastigheten (överst) resulterar i ytterligare sampel per sekund, medan ett större bitdjup (botten) ger fler möjliga värden för att registrera provet vid.

För ljud handlar vi bara om vad vi kan höra och den stora majoriteten av människors hörsel svansar strax före 20 kHz. Nu när vi vet om Nyquist teorem kan vi förstå varför 44,1 kHz och 48 kHz är vanliga samplingsfrekvenser, eftersom de är drygt dubbelt så hög som den frekvens vi kan höra. Antagandet av standardkvaliteter på 96kHz och 192 kHz har ingenting att göra med att fånga in högre frekvensdata, det skulle vara meningslöst. Men vi kommer att dyka in i mer av det på en minut.


När vi tittar på amplituder över tid, hänvisar bitdjupet helt enkelt till upplösningen eller antalet tillgängliga punkter för att lagra denna amplituddata. Till exempel erbjuder 8-bitar oss 256 olika poäng att runda till, 16-bitars resultat i 65,534 poäng, och 32-bitars värde ger oss 4 294 967 294 datapunkter. Även om det uppenbart ökar storleken på alla filer.

Det kan vara lätt att omedelbart tänka på bitdjup när det gäller amplitudnoggrannhet, men de viktigare begreppen att förstå här är brus och distorsion. Med en mycket låg upplösning kommer vi troligen att gå miste om bitar med lägre amplitudinformation eller avskärma topparna på vågformer, vilket introducerar felaktighet och distorsion (kvantiseringsfel). Intressant nog låter detta ofta som ljud om du skulle spela upp en fil med låg upplösning, eftersom vi effektivt har ökat storleken på den minsta möjliga signal som kan fångas och reproduceras. Detta är exakt detsamma som att lägga till en källa för buller till vår vågform. Med andra ord, genom att sänka bitdjupet minskar också bullergolvet. Det kan också hjälpa till att tänka på detta i termer av ett binärt prov, där den minst betydande biten representerar bullergolvet.

Därför ger ett högre bitdjup oss ett större ljudgolv, men det finns en begränsad gräns för hur praktiskt detta är i den verkliga världen. Tyvärr finns det bakgrundsljud överallt, och jag menar inte att bussen går förbi på gatan. Från kablar till dina hörlurar, transistorerna i en förstärkare, och till och med öronen i huvudet, är den maximala signal / brusförhållandet i den verkliga världen cirka 124dB, vilket fungerar till ungefär 21-bitars värde.Jargon Buster:

DAC- En digital-till-analog-omvandlare tar digital ljuddata och omvandlar den till en analog signal för att skicka till hörlurar eller högtalare.

Samplingshastighet- Mätt i Hertz (Hz) är detta antalet digitala datapröv som tas varje sekund.

SNR- Signal-till-brusförhållande är skillnaden mellan den önskade signalen och bakgrundssystembruset. I ett digitalt system kopplas detta direkt till bitdjupet.

Som jämförelse erbjuder 16-bitars fångst en signal-till-brusförhållande (skillnaden mellan signal- och bakgrundsljud) på 96,33 dB, medan 24-bitars erbjuder 144,49 dB, vilket överskrider gränserna för hårdvara och mänsklig uppfattning. Så din 32-bitars DAC kommer faktiskt bara någonsin att kunna mata ut högst 21-bitars användbar data och de andra bitarna kommer att maskeras av kretsljud. Men i verkligheten toppar de mest måttliga priserna utrustningar med en SNR på 100 till 110dB, eftersom de flesta andra kretselement kommer att introducera sitt eget brus. Det är uppenbart att 32-bitars filer verkar redan ganska överflödiga.

Nu när vi har förstått grunderna för digitalt ljud, låt oss gå vidare till några av de mer tekniska punkterna.

Trappa till himlen

De flesta frågor kring förståelse och missuppfattning av ljud är relaterade till hur utbildningsresurser och företag försöker förklara fördelarna med visuella signaler. Du har förmodligen allt sett ljud representerat som en serie trappsteg för bitdjup och rektangulära linjer för samplingsfrekvensen. Det här ser verkligen inte så bra ut när du jämför den med en jämn, analog vågform, så det är lätt att skjuta ut finare, "jämnare" trappor för att representera en mer exakt utgångsvågform.

Även om det kan vara en enkel försäljning till allmänheten, är denna vanliga "trappuppgång" -analogi en enorm felkorrigering och kan inte uppskatta hur digitalt ljud faktiskt fungerar. Ignorera det.

Den visuella representationen visar emellertid felaktigt hur ljud fungerar. Även om det kan se stökigt ut, har matematiskt data under Nyquist-frekvensen, det är hälften av samplingshastigheten, fångats perfekt och kan reproduceras perfekt. Tänk på detta, även på Nyquist-frekvensen, som ofta kan representeras som en kvadratisk våg snarare än en slät sinusvåg, vi har exakta data för amplituden vid en viss tidpunkt, vilket är allt vi behöver. Vi människor tittar ofta felaktigt på utrymmet mellan proverna, men ett digitalt system fungerar inte på samma sätt.

Bitdjup är ofta kopplat till noggrannhet, men det definierar systemets brusprestanda. Med andra ord den minsta detekterbara eller reproducerbara signalen.

När det gäller uppspelning kan detta bli lite svårare, på grund av det lättförståelige konceptet med "noll-ordningshåll" DAC, som helt enkelt växlar mellan värden med en fast provhastighet, vilket ger ett trappstegsresultat. Detta är egentligen inte en rättvisande representation av hur ljud-DAC fungerar, men medan vi är här kan vi använda det här exemplet för att bevisa att du inte borde oroa dig för trapporna ändå.

Ett viktigt faktum att notera är att alla vågformer kan uttryckas som summan av flera sinusvågor, en grundfrekvens och ytterligare komponenter vid harmoniska multiplar. En triangelvåg (eller ett trappsteg) består av udda harmonier vid minskande amplituder. Så om vi har massor av mycket små steg som inträffar i vår samplingsfrekvens, kan vi säga att det tillkommer något extra harmoniskt innehåll, men det inträffar med dubbelt så mycket som vår hörbara (Nyquist) frekvens och förmodligen några harmonier utöver det, så vi vann kan inte höra dem ändå. Dessutom skulle detta vara ganska enkelt att filtrera ut med några få komponenter.

Om vi ​​separerar DAC-proverna kan vi enkelt se att vår önskade signal är perfekt representerad tillsammans med en ytterligare vågform med DAC-samplingshastigheten.

Om detta är sant, borde vi kunna observera detta med ett snabbt experiment. Låt oss ta en utgång direkt från en grundläggande nollordning-håll DAC och också mata signalen genom en mycket enkel 2nd beställa lågpassfilter inställt till halva vår samplingsfrekvens. Jag har faktiskt bara använt en 6-bitars signal här, bara så att vi faktiskt kan se utgången på ett oscilloskop. En 16-bitars eller 24-bitars ljudfil skulle ha mycket mindre brus på signalen både före och efter filtrering.

Ett ganska grovt exempel, men det bevisar att ljuddata perfekt återskapas i denna smutsiga trappa.

Och som med magi försvann trappsteget nästan fullständigt och utmatningen "utjämnas", bara med hjälp av ett lågpassfilter som inte stör vår sinusvågutgång. I verkligheten, allt vi har gjort är att filtrera bort delar av signalen som du inte skulle ha hört ändå. Det är verkligen inte ett dåligt resultat för ytterligare fyra komponenter som i princip är fria (två kondensatorer och två motstånd kostar mindre än 5 pence), men det finns faktiskt mer sofistikerade tekniker som vi kan använda för att minska detta buller ytterligare. Ännu bättre ingår dessa som standard i de flesta goda DAC: er.

Om man hanterar ett mer realistiskt exempel kommer alla DAC för användning med ljud också att ha ett interpoleringsfilter, även känt som up-sampling. Interpolering är helt enkelt ett sätt att beräkna mellanpunkter mellan två prover, så din DAC gör faktiskt mycket av denna "utjämning" på egen hand, och mycket mer än att fördubbla eller fyrdubbla provhastigheten. Ännu bättre tar det inget extra filutrymme.

Interpoleringsfilter som vanligtvis finns i ett DAC som är värt sitt salt är en mycket bättre lösning än att transportera filer med högre samplingshastigheter.

Metoderna för att göra detta kan vara ganska komplicerade, men väsentligt ändrar din DAC dess utgångsvärde mycket oftare än sampelfrekvensen för din ljudfil skulle antyda. Detta pressar de ohörliga trappstegsharmonikerna långt utanför samplingsfrekvensen, vilket möjliggör användning av långsammare, lättare uppnåliga filter som har mindre krusning, vilket bevarar de bitar som vi faktiskt vill höra.

Om du är nyfiken på varför vi vill ta bort detta innehåll som vi inte kan höra, är det enkla skälet att att reproduktion av dessa extra data längre ner i signalkedjan, säg i en förstärkare, skulle slösa energi. Beroende på andra komponenter i systemet kan dessutom detta högfrekventa "ultraljudsinnehåll" faktiskt leda till högre mängder intermodulationsförvrängning i begränsade bandbreddskomponenter. Därför skulle din 192 kHz-fil förmodligen orsaka mer skada än nytta, om det faktiskt fanns något ultraljudinnehåll i dessa filer.

Om ytterligare bevis behövdes, kommer jag också att visa en utgång från en högkvalitativ DAC med hjälp av Circus Logic CS4272 (bilden högst upp). CS4272 har en interpolationssektion och ett brant inbyggt utgångsfilter. Allt vi gör för detta test är att använda en mikrokontroller för att mata DAC: s två 16-bitars höga och låga sampel vid 48 kHz, vilket ger oss den maximala möjliga utgångsvågformen vid 24 kHz. Det finns inga andra filterkomponenter som används, denna utgång kommer direkt från DAC.

24kHz utsignal (överst) från denna studiograd DAC-komponent ser verkligen inte ut som den rektangulära vågformen som är associerad med det vanliga marknadsföringsmaterialet. Provhastigheten (Fs) visas längst ner i oscilloskopet.

Notera hur sinusvågens utgång (överst) är exakt halva frekvensklockans hastighet (botten). Det finns inga märkbara trappsteg och denna mycket högfrekventa vågform ser nästan ut som en perfekt sinusvåg, inte en blockig snygg kvadratvåg som marknadsföringsmaterialet eller till och med en tillfällig glimt på utgångsdata skulle föreslå. Detta visar att även med bara två prover fungerar Nyquist-teorin perfekt i praktiken och vi kan återskapa en ren sinusvåg, frånvarande av något ytterligare harmoniskt innehåll, utan stort bitdjup eller samplingsfrekvens.

Sanningen om 32-bitars och 192 kHz

Som med de flesta saker, finns det en viss sanning som döljer sig bakom alla jargong och 32-bitars, 192 kHz ljud är något som har praktisk användning, bara inte i handflatan. Dessa digitala attribut är faktiskt praktiska när du befinner dig i en studiomiljö, därmed påståenden om att få "studiokvalitetsljud till mobil", men dessa regler gäller helt enkelt inte när du vill sätta det färdiga spåret i fickan.

Till att börja med, låt oss börja med samplingsfrekvens. En ofta utprövad fördel med högre upplösning är lagring av ultraljudsinformation som du inte kan höra men påverkar musiken. Skräp, de flesta instrument faller av långt innan våra hörsels frekvensgränser, mikrofon som används för att fånga utrymme på högst 20kHz, och dina hörlurar som du använder säkert kommer inte att förlänga så långt heller. Även om de kunde kan dina öron helt enkelt inte upptäcka det.

Den typiska människors hörselkänslighet toppar vid 3 kHz och börjar snabbt rulla av efter 16 kHz.

Emellertid är sampling av 192 kHz ganska användbar för att minska brus (det nyckelordet ännu en gång) när samplingsdata möjliggör enklare konstruktion av viktiga inmatningsfilter och är också viktigt för höghastighets digital effekt. Översampling ovanför det hörbara spektrumet gör att vi kan genomsyra signalen för att trycka ner ljudgolvet. Du kommer att upptäcka att de flesta bra ADC: er (analoga till digitala omvandlare) i dag kommer med inbyggd 64-bitars över-sampling eller mer.

Varje ADC måste också ta bort frekvenser över sin Nyquist-gräns, eller så kommer du att hamna med hemskt ljudalias när högre frekvenser "fälls ned" i det hörbara spektrumet. Att ha ett större gap mellan vår 20 kHz filterhörnfrekvens och den maximala samplingshastigheten är mer tillmötesgående för verkliga filter som helt enkelt inte kan vara lika branta och stabila som de teoretiska filtren som krävs. Detsamma gäller vid DAC-slutet, men som vi diskuterade kan intermodulation mycket effektivt driva detta brus upp till högre frekvenser för enklare filtrering.

Ju brantare filter desto mer krusning i passbandet. Att öka samplingsfrekvensen möjliggör användning av "långsammare" filter, vilket hjälper till att bevara en platt frekvensrespons i det hörbara passbandet.

På den digitala domänen gäller liknande regler för filter som ofta används i studioblandningsprocessen. Högre samplingsfrekvens möjliggör brantare, snabbare verkande filter som kräver ytterligare data för att fungera korrekt. Inget av detta krävs när det gäller uppspelning och DAC, eftersom vi bara är intressanta vad du faktiskt kan höra.

Vidare till 32-bitars kommer alla som någonsin försökt att koda någon fjärrkomplex matematik att förstå vikten av bitdjup, både med heltal och flytande punktdata. Som vi har diskuterat, desto fler bitar desto mindre brus och detta blir viktigare när vi börjar dela eller subtrahera signaler i den digitala domänen på grund av rundningsfel och för att undvika klippfel när vi multiplicerar eller lägger till.

Ytterligare bitdjup är viktigt för att bevara signalens integritet vid utförande av matematiska operationer, till exempel inuti studioljudprogram. Men vi kan kasta bort dessa extra data när mastering är klar.

Här är ett exempel, säg att vi tar ett 4-bitarsprov och vårt aktuella prov är 13, vilket är 1101 i binär. Försök nu att dela det med fyra och vi står kvar med 0011, eller helt enkelt 3. Vi har tappat den extra 0,25 och detta kommer att representera ett fel om vi försökte göra ytterligare matematik eller vända tillbaka vår signal till en analog vågform.

Dessa avrundningsfel visar sig som mycket små mängder distorsion eller brus, som kan ackumuleras över ett stort antal matematiska funktioner. Men om vi utökade detta 4-bitarsprov med ytterligare informationsbitar som kan användas som fraktion eller decimalpunkt kan vi fortsätta att dela, lägga till och multiplicera mycket längre tack vare de extra datapunkterna. Så i den verkliga världen, sampling med 16 eller 24 bitar och sedan konvertering av dessa data till ett 32-bitarsformat för bearbetning igen hjälper till att spara på buller och distorsion. Som vi redan har sagt är 32-bitar mycket fruktansvärda.

Vad som är lika viktigt att inse är att vi inte behöver denna extra utrymme när vi kommer tillbaka till den analoga domänen. Som vi redan har diskuterat är cirka 20 bitar data (-120dB brus) det absoluta maximum som eventuellt kan upptäcka, så vi kan konvertera tillbaka till en mer rimlig filstorlek utan att påverka ljudkvaliteten, trots att "audiofiler" är förmodligen beklagar denna förlorade data.

Vi kommer emellertid oundvikligen att införa några avrundningsfel när vi flyttar till ett lägre bitdjup, så det kommer alltid att finnas en mycket liten mängd extra distorsion eftersom dessa fel inte alltid inträffar slumpmässigt. Även om detta inte är ett problem med 24-bitars ljud eftersom det redan sträcker sig långt bortom det analoga brusgolvet, löser en teknik som kallas "dithering" det här problemet för 16-bitars filer.

Ett exempel på en jämförelse av distorsionen som introducerats genom trunkering och dithering.

Detta görs genom att randomisera den minst betydande biten av ljudprovet, eliminera distorsionsfel men införa något mycket tyst slumpmässigt bakgrundsbrus som är spridd över frekvenser. Även om införande av brus kan se motverka intuitivt, minskar det faktiskt mängden hörbar distorsion på grund av slumpmässigheten. Genom att använda speciella brusformade ditheringmönster som missbrukar det mänskliga örons frekvensrespons, kan 16-bitars upplöst ljud faktiskt behålla ett upplevt brusgolv mycket nära 120dB, precis vid gränserna för vår uppfattning.

32-bitars data och 192 kHz samplingsfrekvens har betydande fördelar i studion, men samma regler gäller inte för uppspelning.

Enkelt uttryckt, låt studiorna täppa till sina hårddiskar med detta högupplösta innehåll, vi behöver helt enkelt inte all den överflödiga informationen när det gäller uppspelning av hög kvalitet.

Sammanfatta

Om du fortfarande är med mig, tolk inte den här artikeln som ett fullständigt avskedande av ansträngningarna för att förbättra ljudkomponenterna på smarttelefonen. Även om antalet anvisningar kan vara värdelösa, komponenter av högre kvalitet och bättre kretsdesign är fortfarande en utmärkt utveckling på mobilmarknaden, behöver vi bara se till att tillverkare fokuserar sin uppmärksamhet på rätt saker. 32-bitars DAC i LG V10, till exempel, låter fantastiskt, men du behöver inte bry dig med stora ljudfilstorlekar för att dra nytta av det.

Möjligheten att driva hörlurar med låg impedans, bevara ett lågt brusgolv från DAC till uttaget och erbjuda minimal distorsion är mycket viktigare egenskaper för smarttelefonljud än det teoretiskt stödda bitdjupet eller samplingshastigheten, och vi kan förhoppningsvis kunna att dyka in i dessa punkter mer detaljerat i framtiden.

Tänk på detta cenario: Alla du känner har en iPhone. Du beöker grupptrycket och köper inte bara en ny iPhone, utan å måningom en MacBook. Problemet är att du ar...

Träning är en ganka tvetydig term i Pokémon Go. Fan av franchien liknar träning med att lå och få erfarenhet för att göra Pokemon tarkare. I Pokémon Go f&#...

Fler Detaljer