L’audio digitale e perché mp3 a 128kpbs è tutto quello che vi serve per fare un podcast, spiegato lungo.

19 min readFeb 1, 2021

La diffusione dei podcast spinge sempre più persone a cimentarsi in questo mezzo di comunicazione, e capita spesso che un neo-podcaster si ponga la domanda: “In che formato esporto?”. In questo (non) breve articolo cercherò di spiegare perché la risposta a questa domanda è, nella maggior parte dei casi, una sola. Partirò da qualche concetto basilare su cos’è e come funziona un podcast, farò qualche cenno su come la gente li ascoltava prima della diffusione capillare di smartphone, reti mobili a banda larga, e di memorie a basso costo, per continuare spiegando cos’è un suono, come viene trasferito su un supporto analogico, e come possiamo farlo diventare digitale. I contenuti derivano dalla mia esperienza e dalle mie ricerche personali, potrei aver sbagliato qualcosa, potrei aver sorvolato su aspetti importanti: per queste segnalazioni c’è la sezione commenti. Cominciamo!

Un po’ di storia

Nonostante il concetto di “podcast” sia diventato noto al grande pubblico (in Italia) solo negli ultimi due anni la sua origine risale ai primi anni ’00, e in quasi vent’anni è rimasto sostanzialmente la stessa cosa: un feed RSS contente dei file audio. “Abbonarsi” ad un podcast significa dire al proprio podcatcher (cioè l’applicazione che si occupa di leggere e scaricare i feed dei podcast) di controllare periodicamente il feed in cerca di nuovi episodi, in maniera del tutto analoga agli aggregatori RSS di notizie (Google Reader). Chi ha vissuto “l’epoca d’oro” dei blog può facilmente trovare una forte analogica tra un blog e un podcast. Il podcast è come un blog ma senza blog: c’è solo il feed, su cui viene periodicamente pubblicato un nuovo episodio.

Ci ha più di 25–26 anni ricorderà sicuramente la sezione “Podcast” di iTunes, in cui era possibile scaricare e sincronizzare sul proprio iPod gli ultimi episodi dei podcast ai quali ci si era abbonati. In origine lo streaming era quasi totalmente inesistente: le connessioni erano nel migliore dei casi lente ADSL, a volte tariffate a consumo, che rendevano scomoda, onerosa o del tutto impossibile la trasmissione in tempo reale di audio. Di tecnologia cellulare non ha senso parlarne fino alla diffusione degli smartphone e della connettività 3G.

Nella stessa situazione si trovava lo spazio di storage dei dispositivi elettronici portatili: ero un fiero possessore di un lettore mp3 Samsung (bellissimo) da 512MB, ed era spazioso per essere un lettore entry-level e per non costare tanto come un iPod. Nel campo dei gigabyte si avventuravano solo i costosi iPod mini e nano (dal 2004) e i “classic” (la prima generazione aveva un disco rigido da ben 5GB).

A fronte di tutto questo, quantomeno nei primissimi anni, chi si apprestava a pubblicare un podcast doveva valutare attentamente la realizzazione tecnica dei suoi file audio, in modo da riuscire a sopravvivere alla selezione fatta dagli ascoltatori potenziali che dovevano trovare connessione, tempo e spazio da dedicare ad ogni singola puntata.

La svolta mp3

Nato alla fine degli anni 90, da un team guidato dall’italiano Leonardo Chiariglione, MP3 è stato un codec audio rivoluzionario: nel giro di pochi anni permise a potenzialmente chiunque di fruire di contenuti audio digitali in mobilità senza doversi portare dietro una libreria di CD.

Non è un caso che proprio nei primi anni 2000 siano nati Napster e la pirateria: l’mp3 era il mezzo perfetto che combinava una qualità audio più che soddisfacente con una dimensione di file ridottissima, cosa che permetteva il download dalla internet. Tant’è che “scaricare gli mp3” è ancora oggi sinonimo di musica scaricata attraverso vie tutt’altro che legali.

Mp3 è un formato lossy, cioè “con perdita”. La perdita di cui si parla è quella di informazione. Senza ridurci ad un trattato di fisica/matematica, prima di parlare di encoding, lossy, mp3 e bitrate, devo spiegarvi come si arriva da un suono ad un file digitale.

Il suono analogico

Il suono è un’onda di pressione, che si propaga da un oggetto sorgente (come ad esempio una campana) attraverso un mezzo (banalmente, l’aria) nel momento in cui la sorgente viene messa in vibrazione. La campana dell’esempio quando viene colpita vibra con regolarità, ad una determinata frequenza (cioè ad un determinato numero di oscillazioni per secondo, che misuriamo in hertz, Hz). Questa vibrazione viene impressa alle molecole di aria che la circondano, che a loro volta, trasmettono questa vibrazione a quelle vicine, e così via. L’effetto finale, per capirci, è simile a quello che succede quando un sasso cade in uno stagno: un numero di onde regolari si propaga sulla superficie formando dei grandi cerchi.

Quest’onda, generata da un fenomeno fisico, è continua. Provo a spiegarvi in un paragrafo, matematici abbiate pietà, il concetto di continuità. Immaginate la manopola del volume del vostro vecchio stereo hifi: la girate in senso orario, il volume aumenta, la girate in senso antiorario, il volume diminuisce. Se la girate poco in senso orario il volume aumenta di poco, se la girate tanto il volume aumenta di tanto. Questa variazione è continua, cioè in ogni momento di voi che girate la manopola, in ogni istante della variazione, il volume ha un valore che è di poco maggiore dell’istante precedente, senza salto. I fenomeni fisici, perlomeno quelli macroscopici, sono sempre continui.

Se noi misuriamo l’onda di pressione generata dalla campana con un microfono, dispositivo in grado di percepire le variazioni di pressione dell’aria, possiamo tradurre questa onda in un segnale elettrico. Questo nuovo segnale elettrico è analogico, cioè è direttamente riconducibile ad un fenomeno fisico continuo. Se la campana sta vibrando alla frequenza di 100 oscillazioni al secondo (100Hz) anche il segnale elettrico in uscita dal microfono starà oscillando a 100Hz.

Il segnale elettrico (dopo aver passato altre fasi di elaborazione e modifica che a noi non interessano) può essere registrato su un supporto, come un disco in vinile. La registrazione su un disco in vinile è in realtà abbastanza semplice: una puntina viene collegata ad un dispositivo che la fa oscillare seguendo un segnale elettrico. Se il segnale ha una frequenza di 100Hz la puntina vibra a 100Hz, se il segnale vibra per un secondo a 100Hz e poi rallenta gradualmente nell’arco di 3 secondi fino a fermarsi a 50Hz, anche la puntina farà altrettanto. La puntina viene appoggiata su di un disco in cera rotante: viaggiando lungo il disco traccerà un solco a spirale incidendolo secondo il segnale elettrico che la muove.

Dal disco in cera viene poi creato un disco “in negativo” in metallo, che viene usato per stampare, con una pressa, i dischi in vinile. In questo modo nel prodotto finale avremo un solco del tutto identico a quello del disco di cera originale. Facendo scorrere una puntina che, invece che muoversi seguendo un segnale elettrico, genera un segnale elettrico muovendosi, otterremo una fedele riproduzione del segnale elettrico originale. Seguendo il percorso dal microfono a ritroso, collegando un altoparlante alla puntina del giradischi lo faremo oscillare (o vibrare) alla stessa frequenza con cui oscilla il segnale elettrico, creando un’onda di pressione che si propaga dalla membrana dell’altoparlante fino alle nostre orecchie, dove è percepita come suono.

In ogni passaggio, microfono → incisione → puntina → altoparlante, il segnale audio cambia forma ma rimane sempre fedele al fenomeno fisico che lo ha generato: il suono di un rintocco di campana.

Come il disco in vinile che, evoluzione del fonografo, registra il suono in un solco “fisico”, è analogica anche la musicassetta. Il questo caso il segnale elettrico viene utilizzato per far cambiare la polarità del campo magnetico di un nastro.

Dall’analogico al digitale: il campionamento (e la quantizzazione)

Abbiamo parlato di analogico e di segnali continui. Ora tocca allo step successivo: il digitale. Prima prendiamo familiarità con il concetto di segnale discreto. Come la manopola del vostro vecchio stereo hifi produce una variazione continua di volume, in alcuni modelli si possono trovare delle manopole che “scattano” da una posizione all’altra. Mentre una manopola continua vi permette di scegliere un qualsiasi valore di volume, limitati soltanto da quanto è precisa la vostra mano nel ruotarla, una manopola discreta vi permette di scegliere tra un numero predefinito di livelli: 1, 2, 3, 4, 5, etc.

Come questa antipatica manopola del volume vi costringe ad ascoltare il vostro stereo o troppo forte o troppo piano, così un segnale discreto può assumere solo un numero ben definito di livelli e solo in determinati istanti di tempo: stiamo “perdendo” qualcosa. Se prima sapevate che il volume ideale per ascoltare i vostri amati Police si otteneva ruotando la manopola di esattamente 34mm verso destra dalla posizione centrale, ora dovete scegliere tra lo “scatto” a 30mm, e quello a 40mm.

Immaginate che queste le due linee che vedete nell’immagine qui sotto siano la rappresentazione del vostro movimento che dalla posizione centrale della manopola del volume si sposta prima verso destra, aumentandolo fino al massimo, poi verso sinistra, tornando al centro per poi arrivare al minimo. Minimo = basso, massimo = alto. Mentre nel grafico in alto la curva che rappresenta il vostro movimento è continua, nel grafico in basso è discreta.

Figura 1: un segnale analogico e l’equivalente rappresentazione digitale

Prendiamo come riferimento per l’immagine superiore un massimo di +3 ed un minimo di -3. Un valore di +1,2 è raggiungibile, è sufficiente ruotare la manopola finché non si raggiunge la posizione che corrisponde a quel valore.

Lo stesso non si può dire dell’immagine in basso. Assegnamo il valore più alto a +3, e il più basso a -3. La linea assume valori di, da sinistra verso destra 0, +1, +2, +3, +2 , +1, 0, -1, -2, -3, -2, e così via. La migliore approssimazione del valore +1,2, facilmente raggiungibile nel caso analogico, è +1.

L’azione di ridurre un insieme infinito di valori continui ad un equivalente insieme finito di valori discreti è composta dal campionamento e dalla quantizzazione.

Prendiamo, per ciascun istante di tempo, un campione del segnale analogico (campioniamo) e assegniamo ad esso un equivalente valore del segnale digitale (quantizziamo). Più gli istanti di tempo a cui preleviamo il campione sono vicini, e più sono i “livelli” disponibili nel segnale discreto, più fedelmente ci è possibile riprodurre un segnale analogico con un segnale digitale.

La frequenza a cui preleviamo un campione del segnale analogico si dice frequenza di campionamento (sampling rate), il numero di livelli disponibili per rappresentare il valore del segnale analogico si dice profondità di bit (bit depth). BIT. Siamo nel dominio del digitale. Quando stiamo lavorando con un file Wav a 44,1 kHz con 8 bit di profondità vuol dire che quel file, successione di 0 e 1, è la rappresentazione di un suono analogico campionato 44 100 volte al secondo, utilizzando 256 diversi livelli di intensità. 256 perché con 8 bit, ovvero con un numero binario di 8 cifre (es. 1101 0010), è possibile rappresentare 2⁸ (=256) numeri diversi, da 0 a 255. Utilizzando 16 bit di profondità i livelli disponibili salgono a 65536, cioè 2¹⁶.

Quando riproduciamo un file wav mono 44.1 kHz a 8 bit ogni secondo vengono analizzati e tradotti in suono 44 100 campioni, ciascuno rappresentato da un “pacchetto” di 8 bit (che incidentalmente corrisponde ad 1 byte).

La domanda che vi starete facendo è: se passando dal dominio analogico a quello digitale perdo delle informazioni, la migliore fedeltà audio la ottengo riproducendo un segnale analogico, no?

Sì, avete ragione, ma in realtà no, e comunque dipende. Chiaro, no? Approfondiamo.

Nyquist, Shannon e udito umano (+bonus)

Ho risposto sì poco fa, ma vi ho ingannato. Anzi, il trucco ve lo hanno giocato due tizi chiamati Harry Nyquist e Claude Shannon. Brillante fisico il primo, geniale ingegnere e matematico il secondo, hanno dimostrato il teorema del campionamento, chiamato giustamente anche teorema di Nyquist-Shannon. Shannon è anche considerato unanimemente uno dei padri dell’informatica, è lui che ha coniato la parola bit. Nyquist, di contro, ha trovato la sua vocazione nell’infestare gli incubi di generazioni di aspiranti ingegneri.

Mi piacerebbe parlarvi più approfonditamente del teorema del campionamento ma sono convinto che 1) voi non vogliate sentire parlare più approfonditamente del teorema del campionamento, e 2) io non sia davvero in grado di parlare più approfonditamente del teorema del campionamento. Quindi veniamo al sodo. L’enunciato suona più o meno così: dato un segnale analogico, la cui banda di frequenze è limitata ad una frequenza f_max, può essere completamente ricostruito a partire dai suoi campioni, se questi sono stati presi con frequenza di campionamento almeno doppia rispetto alla f_max.

Detto in altre parole, un segnale audio analogico, se campionato a 44 100 Hz, può essere ricostruito fedelmente in tutte le frequenze inferiori a 22 050 Hz. Il teorema ci dice che le frequenze superiori a 22 050 Hz andranno perdute nel campionamento.

Quindi sì, un segnale campionato digitalmente non è esattamente esattamente fedele all’originale analogico, ma la cosa diventa totalmente irrilevante quando l’audio che stiamo convertendo deve essere ascoltato da un essere umano: l’orecchio umano, infatti, è un microfono che può percepire, alla nascita, suoni compresi tra i 20 e i 20 000 Hz. Col passare degli anni, poi, l’estensione del nostro udito si riduce velocemente e drasticamente.

Esperimento!

Utilizzando questo generatore di frequenze online potete riprodurre un onda sinusoidale di qualsiasi frequenza voi desideriate.

Aprite Youtube, o Spotify, scegliete un brano che vi piace, schiacciate play e regolate il volume del vostro dispositivo finché non è né troppo alto, né troppo basso.
Tornate sul generatore di frequenze e impostatelo a 20 000 Hz, scendete un po’ alla volta finché non trovate il punto in cui iniziate a sentire un fischio molto molto acuto.

Avete trovato la vostra frequenza massima udibile ad un livello di ascolto normale. Io, a 28,5 anni, non sento niente più o meno a16 700 Hz, e vi assicuro che è estremamente divertente infastidire le persone più giovani di voi riproducendo un tono che voi non potete sentire. Provate e fatemi sapere.

Curiosamente la perdita di udito alle alte frequenze è molto più veloce negli uomini che nelle donne, l’ipotesi diffusa è che nelle donne vi sia la necessità di essere molto sensibili agli strilli dei neonati

Fine parentesi esperimento, torniamo a noi.

Potreste starvi chiedendo perché lo standard per l’audio su compact disc è la frequenza di campionamento di 44.1 kHz e non 40 kHz. La risposta è: si usava già prima quella frequenza per altre applicazioni, erano più comodi a 44.1.

Grande attenzione: le immagini che mostrano i segnali digitali come curve spezzate a scalini sono quantomeno ingannevoli, se hanno come scopo il convincervi che l’audio analogico è migliore. Anche se è effettivamente in quel modo che il segnale è rappresentato, in un certo senso, all’interno di un file digitale, il passaggio fondamentale di decodifica da parte di un dispositivo DAC (digital-to-analog converter, fa esattamente quello che dice di fare) è proprio quello che riporta magicamente in vita da un flusso di 0 e 1 lo splendido segnale continuo che Nyquist e Shannon ci hanno dimostrato essere la copia dell’originale analogico.

Il segnale proveniente da un’azione di campionamento non è una funzione a gradino, ma un insieme di valori puntiformi, più o meno come mostrato in figura.

Figura 2: un segnale analogico (in alto) e relativo segnale campionato

Le righe verticali rappresentano la frequenza di campionamento, la sinuosa linea solida in alto il segnale analogico. Il segnale campionato è quello in basso, ovvero un insieme di valori, ciascuno con un valore di ampiezza ad un determinato istante di tempo. Come detto poco fa è compito del DAC ricostruire il segnale analogico trovando quello che passa per tutti i punti campionati. Non si tratta di unire i puntini, ecco.

Ho lasciato indietro dai capitoli precedenti sia un “dipende” sia tutto il discorso della quantizzazione. Ne parliamo adesso.

Quantizzazione, rumore di fondo e rumori molto forti

Tanto quanto il teorema del campionamento è relativamente un concetto relativamente chiaro ed amichevole, che non richiede una laurea per essere compreso efficacemente, tanto trattare in modo esteso il tema della quantizzazione del segnale campionato è un impresa degna di tomi che possiamo tranquillamente classificare come “arma da mischia”.

Lavoriamo top-down: la profondità di bit determina il rapporto tra segnale e rumore in un audio. Sappiamo che tra il campionamento di un segnale e il file digitale finale c’è un ulteriore passaggio: la quantizzazione. La quantizzazione, ricordiamo, è l’azione che consiste nel approssimare ciascun valore di ampiezza campionato dal segnale ad uno dei “livelli” digitali disponibili. Se utilizziamo una quantizzazione con una profondità di 16 bit abbiamo 65536 livelli diversi di ampiezza disponibili, da -32 767 a +32 767: un suono molto tenue oscillerà attorno allo 0 senza discostarsi di troppo, un suono molto forte invece si allontanerà fino a raggiungere i valori più alti disponibili.

Come spiegato in precedenza, con l’esempio della manopola del volume, ridurre un valore continuo ad un livello digitale ha come effetto collaterale la perdita di precisione. L’unica quantizzazione che preserva perfettamente ogni valore della forma d’onda è quella a infiniti bit, che ovviamente è impossibile da implementare. La differenza tra il valore originale del campione e il suo valore quantizzato è detta errore di quantizzazione. L’errore è naturalmente quanto più piccolo quanti più sono i bit di profondità. Non è possibile eliminare del tutto questo rumore.

Questo errore è rappresentabile come un vero e proprio segnale parallelo al nostro suono, che lo “sporca”. Questo disturbo si manifesta come un rumore di fondo, un rumore bianco, di intensità proporzionale all’errore di quantizzazione.

È istintivo pensare che si cerchi allora di utilizzare più bit possibili, in modo da minimizzare questo disturbo. E non è un ragionamento sbagliato, ma c’è un ma. Esiste una soglia di intensità al di sotto del quale il rumore è di fatto impercettibile.

L’interesse per gli ingegneri del suono riguardo alla profondità in bit (che possiamo anche chiamare risoluzione) di una registrazione è importante perché ne determina l’intervallo dinamico, cioè la differenza tra silenzio assoluto e il rumore più forte registrabile. Infatti il rumore, che come sappiamo è costante ed inevitabile, “occupa” i livelli più bassi della scala di intensità, costringendo a comprimere tutti i volumi della registrazione in uno spazio limitato.

Figura 3: spettro di una sinusoide (al centro) quantizzata a 6 bit (in alto) e a 8 bit (in basso)

Nella figura qui sopra è visualizzata un’onda sinusoidale, rappresentata dal picco al centro, quantizzata a 6 bit e a 8 bit, rispettivamente 64 e 256 livelli. La differenza tra le due profondità di bit è l’intensità del rumore di fondo, molto maggiore nel grafico in alto.

Se non dovesse essere già chiaro, provo a fare un esempio: in una stanza affollata, con molte persone che parlottano tra loro, per riuscire a comunicare in modo chiaro con un vostro amico avete bisogno di alzare la voce, per sovrastare il rumore di fondo. Il brusio di sottofondo limita la vostra capacità di espressione, non potete abbassare troppo la voce altrimenti sarà sommersa dal rumore di fondo. L’esempio estremo è la discoteca o il concerto: per ordinare un gin tonic al bancone dovete urlare, e c’è una buona probabilità che il barista riesca a capire l’ordine solo perché vi legge il labiale. Di contro a notte fonda anche il rumore più flebile risulta chiaro e comprensibile.

Siccome non abbiamo infiniti bit da dedicare alla profondità, e comunque più ne utilizziamo maggiore è lo spazio necessario ad immagazzinare le nostre registrazioni, c’è bisogno di trovare il giusto compromesso tra un buon intervallo dinamico e una dimensione di file ragionevole.

Ci viene in soccorso il limite del nostro udito: il rumore più forte percepibile dalle nostre orecchie (senza provare dolore fisico) è di circa 120 dB (decibel), ma quando oltrepassiamo i 90 dB stiamo già rischiando di riportare danni permanenti all’apparato uditivo. Inoltre il nostro orecchio non può percepire contemporaneamente un suono molto forte ed uno molto debole. Quindi, ai fini dell’ascolto, possiamo stare più che tranquilli con circa 90 dB di intervallo dinamico.

Una profondità di 16 bit ci fornisce 96 dB di intervallo dinamico teorico, contro i 48 dB degli 8 bit, i 72 dB dei 12 bit, e i 144 dB dei 24 bit. Poi, di fatto, viene applicata una tecnica chiamata dithering con noise shaping. È una cosa un po’ magica, che consiste nell’inserire nella registrazione un rumore di fondo artificiale, al fine di rendere il più uniforme possibile il rumore di quantizzazione e quindi renderlo meno evidente al nostro orecchio. Il noise shaping, cioè l’applicazione di un dither non uniforme, ci permette di concentrare il rumore nelle frequenze più alte dello spettro, dove il nostro orecchio è meno sensibile, ottenendo gli stessi benefici del dithering “classico” guadagnando ancora più intervallo dinamico.

Tra dithering e noise shaping 16 bit di profondità possono arrivare a circa 120 dB di intervallo dinamico percepito. Molto più dei 12 bit che sono generalmente accettati come più che sufficienti per l’ascolto. Gol!

Tirando le somme, un suono analogico campionato a 44100 Hz con 16 bit di profondità (che è esattamente la “qualità CD”) è probabilmente tutto quello di cui avrete bisogno, anche con una cuffia da 1000€, anche con un amplificatore da 10 000€. Gli ingegneri di Sony e Philips che hanno inventato il compact disc non erano degli sprovveduti, insomma.

Sia la musicassetta sia il disco vinile sono supporti analogici, quindi non ha senso parlare di bit, tuttavia confrontando il loro intervallo dinamico con quello di un segnale digitale si può approssimare la loro profondità di bit. Una musicassetta in ottime condizioni, registrata con tecniche professionali, può spingersi fino all’intervallo dinamico equivalente ad 8 bit di profondità. Un disco in vinile si aggira invece attorno ai 12 bit.

Encoding, mp3, lossy e psicoacustica

Come promesso chiariti concetti come la frequenza di campionamento, la profondità di bit, e il fatto che il nostro udito ha dei limiti di risoluzione, è il momento di spiegarvi come funziona l’audio mp3 e i codec lossy (cioè con perdita). Per rendere più scorrevole il testo sostituirò con l’abbreviazione “mp3@128” la definizione completa che sarebbe “audio mp3 codificato a 128 kpbs”. Salvo diversamente specificato parleremo di codec a bitrate fisso.

Lossy è l’opposto di lossless, “senza perdita”. È importante sottolineare che la perdita a cui si riferisce la dicitura è riferita all’audio prima della codifica: riversare un cd in mp3@128 implica una perdita di informazioni, è quindi una codifica lossy. Similmente convertire un mp3@128 in wav è una codifica lossless, cioè riproduce senza perdite tutte le informazioni contenute nell’mp3 originale.

Ho detto codec. Cos’è un codec? in termini generici è un algoritmo, che può essere contenuto in un software o in un chip elettronico, che si occupa della codifica e/o decodifica di un segnale, comunemente noti sono i codec audio/video.

L’audio in formato mp3 è prodotto da un codec (detto anche encoder se si occupa solo della codifica) che lavora in modo da minimizzare la dimensione del file risultante mantenendo un certo livello di qualità. I codec mp3 utilizzano come misurazione di qualità della compressione il bitrate, ovvero il numero di bit utilizzati per codificare un suono di una data dimensione. 128 kpbs (kilobit per secondo) significa che ogni secondo è codificato da 128'000 bit. L’audio a qualità CD, wav stereo 44.1kHz a 16-bit, ha un bitrate di circa 1.4 Mbps (16 bit per campione, 44 100 campioni per secondo, su due tracce stereo).

Non c’è da stupirsi quindi che convertendo un cd in mp3 (un passaggio da 1.4 Mbps a 128 kbps) si perdano informazioni(e qualità). Ma qui viene il bello della “magia” dell’mp3.

Mentre il “decoding” dei file mp3 è standardizzato ed universale, in maniera da rendere tutti i file ugualmente riproducibili da tutti i software e dispositivi che aderiscono allo standard, sull’encoding c’è un’ampia varietà di algoritmi, alcuni coperti da brevetti e licenze, altri invece no, che hanno come obbiettivo finale immagazzinare un audio di qualità nel minore spazio possibile.

È risaputo che alcuni codec, specialmente nei primi anni, fossero migliori di altri, o che altri lavorassero meglio in certe condizioni. La cosa in comune che tutti hanno è il concetto che sta alla base della codifica: la psicoacustica. Ben diversa dalla psicostoria asimoviana, la psicoacustica è la parte della psicologia che studia la percezione del suono da parte degli esseri umani.

Come possiamo risparmiare lo spazio occupato in una cornice da un ritratto fotografico ritagliando i bordi che contengono lo sfondo, così i codec mp3 sfruttano i modelli psicoacustici per rimuovere dal prodotto finale tutti i suoni che non sentiremmo, sentiremmo poco, o a cui normalmente il nostro cervello non dedica una grande importanza percettiva (naturalmente queste operazioni di taglio sono tanto più drastiche quanto maggiore è la richiesta di compressione, ed è la ragione per cui una canzone codificata in mp3@64 è facilmente distinguibile anche solo da un mp3@128).

Se pensiamo a come funziona il nostro udito non è difficile immaginare che non sia paragonabile, in termini di totalità di percezione, con un semplice microfono: il suono entra dai padiglioni auricolari, mette in vibrazione il timpano, degli ossicini minuscoli (martello, staffa e incudine) amplificano di una ventina di volte e trasferiscono le vibrazioni alla coclea, cavità ossea piena di fluido. Questo fluido trasferisce le onde di pressione alle cellule ciliate presenti sull’organo del Corti, che le trasformano in segnali neuronali. Da qui il segnale viene trasmetto, elaborato, ed elaborato e trasmesso nel tragitto che lo porta al cervello.

Ci sono moltissime cose che ci distinguono da un microfono, e la più importante di tutte è il fatto che abbiamo un cervello: il nostro sentire non è un’esperienza dovuta semplicemente alle conseguenze fisiche dell’ingresso di onde acustiche nelle nostre orecchie, ma bisogna considerare il ruolo del nostro cervello. Come esistono le illusioni ottiche, così esistono quelle acustiche. Un esempio che fece scalpore una decina di anni fa fu i-doser, programma per computer che avrebbe permesso a chi lo utilizzava di ottenere effetti simili a droghe, pesanti o leggere, attraverso l’ascolto di particolari tracce audio che generavano battiti binaurali. Non funzionavano, naturalmente, ma ovviamente non mancarono di generare un’ondata di panico genitoriale alimentato da giornali e telegiornali.

Tirando le somme

Dovreste a questo punto aver acquisito una conoscenza discreta dei fattori che influiscono sulla qualità dell’audio. I file mp3@128 sono stati per anni lo standard della condivisione audio, anche se con il passare del tempo il “bitrate consigliato” è aumentato fino a raggiungere il massimo di 320. Non sostengo che l’mp3 a 128 debba essere utilizzato per tutto, né sono convinto che tutti i podcast debbano essere necessariamente codificati così, ma ci sono buoni motivi per cui nella maggior parte dei casi 128 (o al massimo 192) è più che sufficiente:

Alcune piattaforme (Spreaker, per esempio) convertono tutto ciò che viene caricato in mp3 a 128: se il tuo file è già in questo formato la piattaforma lo utilizzerà così com’è, dandoti pieno controllo sul risultato finale e mettendoti al riparo dagli algoritmi lato server di cui non conosciamo il funzionamento o i parametri.
128 è un buon compromesso tra qualità e dimensione dei file, specialmente se la musica all’interno del file è poca: la voce umana sopporta molto meglio gli algoritmi di compressione
Per molte persone il traffico di dati generato dai podcast e/o lo spazio occupato sul proprio dispositivo non è un fattore irrilevante: puntare alla minima dimensione accettabile significa cercare di essere inclusivi
Oltre i 192 kpbs le differenze in qualità sono praticamente impercettibili, a meno di orecchie sopraffine o attrezzatura da audiofili. Se non avete un buon paio di cuffie o un impianto di media fascia potreste anche non percepire la differenza tra 128 e 192.
Se avete una connessione nella media caricare un wav può essere una faccenda che impiega molto tempo.

In chiusura, vi lascio un test online che è in grado di fare luce sui livelli di qualità di diversi codec audio. Questo confronta un audio mp3@128 con un file lossless. In questo invece il confronto è tra mp3@192 e lossless.

L’audio digitale e perché mp3 a 128kpbs è tutto quello che vi serve per fare un podcast, spiegato lungo.

Un po’ di storia

La svolta mp3

Il suono analogico

Dall’analogico al digitale: il campionamento (e la quantizzazione)

Nyquist, Shannon e udito umano (+bonus)

Esperimento!

Quantizzazione, rumore di fondo e rumori molto forti

Encoding, mp3, lossy e psicoacustica

Tirando le somme

Riferimenti e approfondimenti

Sign up to discover human stories that deepen your understanding of the world.

Free

Membership

Written by Fabrizio Mele

No responses yet