TL;DR:   -16 LUFS ± 2 LU

Neste artigo, apresentamos uma revisão de medições de volume e pico-real;  acurácia dos plugins de medição Modo EBU; plugins VST gratuitos para medições LRA, IL, TP, etc; normalização de áudio: TV vs Rádio vs Podcast;  Target Loudness; alvos LUFS recomendados por serviços de streaming; desafios da reprodução de podcasts em smart speakers (ex: Amazon Echo/Alexa).

Introdução

Essencialmente, LUFS/LKFS é uma escala logarítima usada para medir a intensidade subjetiva de áudio de  um programa, comercial, filme, música, album, vídeo, podcast, stream  (fluxo). Foi inicialmente concebida para permitir a padronização dos  níveis de áudio em transmissões da TV comercial americana.

Designa-se loudness (ou sonoridade) o componente da percepção auditiva ligado à intensidade. Essa sensação, permite-nos diferenciar um som alto de um som baixo.

A Anatel define loudness como intensidade subjetiva de áudio.
Loudness não é o mesmo que Volume. (O artigo Audio Primer: Intensidade, Potência, Nível, Volume, Som, Loudness estabelece a distinção)

Em  retrospectiva, tinha se tornado comum telespectadores reclamarem da  diferença significativa  no volume da televisão entre a programação  normal e o intervalo comercial. Contudo, nas medições objetivas de  intensidade, os anúncios estavam no mesmo nível dos programas. Medições  de impressão subjetiva – a resposta auditiva humana ao som  –   precisaram ser criadas e reguladas para TV.

A Lei H.R. 1084/S. 2847, The Commercial Advertisement Loudness Mitigation Act (CALM Act, EUA, 2010),   encarregou a FCC regular o volume das transmissões de TV, em especial,  os comerciais não poderiam soar mais alto do que os programas.

Para cumprir a lei CALM, foi desenvolvido um conjunto de algoritmos descritos no ITU-R BS.1770 (Algorithms to measure audio programme loudness and true-peak audio level).  O método para medir o nível de áudio com base no volume utilizou  pesquisas substanciais de audição realizadas por organizações  independentes, como o Communications Research Center (CRC) e a McGill  University no Canadá: uma chamada curva de filtro ponderada K (baseada  nos resultados das pesquisas) é aplicada a cada canal de áudio, que  basicamente constrói uma ponte entre a impressão subjetiva e a medição  objetiva. O padrão True-Peak (AES SC-02-01) foi especificado pela associação profissional americana Audio Engineering Society.

Os padrões ATSC A/85 (EUA), EBU R128 (Europa), OP-59 (Austrália) e TR-B32 (Japão), são baseados no ITU-R BS.1770.

Com  o tempo, o padrão ITU passou a ser aplicado a praticamente todas as  transmissões de TV, e até mesmo por algumas distribuidoras de programas  via Internet, como Netflix. Contudo, não existem normas de áudio para transmissão de podcasts e serviços de streaming fazem apenas recomendações referenciadas à escala LUFS e a níveis True-Peak, ambos descritos no BS.1770.

Medidas de Loudness e True-Peak

LKFS é uma abreviação de Loudness K-Weighted Full Scale.  O termo LKFS é usado nos padrões ITU BS.1770 e ATSC A/85. Outras  organizações, como a European Broadcasting Union (EBU), usam o termo LUFS, abreviação de Loudness Units Full Scale. É uma medida absoluta de volume projetada para permitir a normalização dos níveis de áudio para a transmissão de TV.

LU (Loudness Units) descreve Lk sem referência absoluta direta e, portanto, descreve diferenças de nível de intensidade subjetiva.

Apesar  dos nomes diferentes, LKFS e LUFS são medidas idênticas. Ambos os  termos descrevem o mesmo fenômeno e, assim como o LKFS, uma unidade de  LUFS é igual a um decibel. A maior parte do mundo emprega o termo LUFS,  enquanto a indústria de broadcasting dos EUA prefere LKFS.

Integrated Loudness / Program Loudness

Computado em LUFS a partir de medições realizadas do começo ao fim da peça de áudio, ou de um determinado intervalo de tempo.

Além do Program/Integrated Loudness (volume médio), a EBU recomenda que as medidas "Loudness Range" e "True  Peak Level" sejam usadas para a normalização de sinais de áudio e para  cumprir os limites técnicos da cadeia de sinal completa, bem como  necessidades artisticas de cada programa / estação dependendo do gênero e  do público-alvo.

Os parâmetros de medição para o "Modo EBU" são: 1) momentary loudness, intervalo de tempo deslizante de 0,4s, ungated; 2) short-term loudness, intervalo de tempo deslizante de 3s, ungated; 3) integrated loudness, gated.

Loudness Range (LRA)

Quantifica  em LU a amplitude da peça de áudio: da parte mais suave à parte mais  alta. Para evitar que eventos extremos comprometam o resultado, os 5%  superiores e os 10% mais baixos da faixa de intensidade total são  excluídos da medição LRA.

Gating

Na obtenção do Integrated Loudness, certos eventos - por exemplo, cenas de silêncio em um filme - afetam a medição. A função gating exclui da medição os blocos de áudio que estão abaixo de um determinado limiar.

True-peak

Como a medição de loudness utiliza um algoritmo baseado em um estudo de percepção subjetiva, em teoria, um áudio que atenda a um determinado LRA e Program Loudness de um certo padrão de broadcast pode de fato sobrecarregar se  normalizado de modo tradicional. Portanto, a normalização também faz  parte de padrões de transmissão e os radiodifusores devem usar um  medidor de pico real.

Muitos medidores de sonoridade têm um  medidor de pico real integrado, e o que diferencia o medidor de pico  real dos medidores de pico de amostra é um algoritmo que não apenas  analisa as amostras, mas também picos entre amostras, que pode revelar  picos que, de outra forma, causariam distorção. Portanto, um medidor de  pico real vai além de 0 dB. Uma leitura usando um medidor de pico de  amostra tradicional que exibe um máximo de, por exemplo, -0,2 dB, pode  alcançar +3 dB em uma leitura de medidor de pico real. Observe que isso  não indica a aceitação de exceder 0 dB em um medidor de pico real, mas  fornece uma leitura mais precisa que ajuda a normalizar o material do  programa sem comprometer a qualidade do áudio. Como exemplo, o valor  máximo do material de programa normalizado de acordo com o padrão EBU R  128 é -1 dBTP (dB True-Peak).

Acurácia dos plugins

Existe uma grande quantidade de plugins, pagos e gratuitos, mas ...

"Diferentes  medidores em diferentes DAWs fornecem leituras ligeiramente diferentes.  Audacity (Windows/Linux) tende a medir o Google TTS Loudness Reference  um pouco mais alto que outros DAWs, a -15.1 LUFS, enquanto Reaper (Mac)  dá uma leitura de -16.0 LUFS. Enquanto o seu DAW medir o volume da  referência de loudness do Google TTS em -16 +/- 2 LUFS, ele deve  funcionar bem para definir o volume do seu áudio."
https://developers.google.com/actions/tools/audio-loudness

Plugins VST gratuitos

https://www.tb-software.com/TBProAudio/dpmeter4.html

https://youlean.co/youlean-loudness-meter/

Normalização de áudio: TV vs Rádio vs Podcast

Program Loudness (ungated/gated) e LRA antes da ITU BS.1770
Program Loudness (ungated/gated) e LRA antes da ITU BS.1770

Há vários anos, a normalização do volume (a correspondência entre o  volume médio do material do programa e os comerciais para minimizar os  saltos de volume indesejados) foi bem estabelecida na transmissão  televisiva.

O volume de som para a televisão é unificado por uma  única medida (ITU-R B.S. 1770) e um valor alvo quase universal (-23 na  Europa, -24 LKFS para a maior parte do resto do mundo), levando a  diminuição das reclamações do espectador e a uma maior consistência de  volume de audição no nível da estação e até mesmo nas redes.

Uma das razões para essa diferença é que o padrão EBU R128 é "gated", o que na prática torna a maioria das medidas equivalentes a -24 LKFS/LUFS .

Seria o padrão para TV diretamente aplicável ao rádio e podcasts?

Toda a rede de rádio norueguesa implementou normalização de loudness a partir de 2013 adotando -15 LUFS.

Escreve Jon Schorah, em Loudness Normalization for Radio: Guidelines and Practice, RadioWorld ⋅ Feb 24, 2017:

Um  ponto a examinar é se o padrão de intensidade de transmissão de  televisão pode ser aplicado ao rádio. Os experimentos conduzidos  obtiveram resultados mistos. A aplicação do padrão de televisão pode ser  usado para remover saltos de volume dentro e entre programas,  permitindo que o ouvinte defina um nível de conforto e evite ter que  constantemente buscar o controle de volume. Mas a natureza do consumo de  rádio é diferente o suficiente da televisão para que uma aplicação  direta dos padrões de TV seja um ajuste desconfortável.

Em geral,  a visualização da televisão ocorre em um ambiente relativamente  controlado, geralmente em casa, com o ouvinte se engajando de maneira  focada, programa a programa. Com o rádio, o ouvinte muitas vezes está em  um ambiente complexo com outras demandas por atenção; por exemplo, o  carro, o local de trabalho ou deslocamentos no escritório. Esses  ambientes podem envolver altos níveis de ruído de fundo e interrupção, o  que aumenta dois fatores complicadores.

Primeiro, muito ruído de  fundo significa que o piso de ruído efetivo de todo o sistema pode ser  muito alto. Para uma programação altamente dinâmica, isso pode levar a  seções silenciosas nas quais a clareza é comprometida. Recentemente,  novas medidas como o PLR (Peak-to-Loudness Ratio) foram desenvolvidas  para medir objetivamente a dinâmica do áudio e indicar se outras  reduções podem ser vantajosas.

Em segundo lugar, novas formas de  distribuição de áudio estão começando a ter um impacto significativo nos  padrões de consumo. Os serviços transmitidos pela Internet são comuns,  com os ouvintes escolhendo “ouvir novamente” posteriormente por meio de  podcasts e dispositivos móveis. Muitos desses dispositivos contêm  restrições de ganho, pois são projetados para evitar níveis excessivos e  danos auditivos.

O indesejável efeito de tais limitações é que a  programação abaixo de –20 LUFS pode significar que o ganho é  insuficiente para obter clareza sonora na reprodução.

Em 2013, o site Auphonic apresentou, no artigo Loudness Targets for Mobile Audio, Podcasts, Radio and TV, o seguinte levantamento e análise:

"Observe que o volume médio de programa é -19 LUFS, 4 LUFS  mais alto do que a EBU recomenda. Além disso, o nível de pico médio real  dos podcasts analisados é de +0.5 dBTP.  O EBU R128 foi concebido para a  televisão, mas os podcasts são frequentemente consumidos em sistemas de  áudio de baixa qualidade e em ambientes mais ruidosos. Então, qual  seria o desempenho de -23 LUFS nessas circunstâncias? Conduzimos alguns  estudos informais. Fizemos o que muitas pessoas fazem: ouvimos podcasts  em laptops, alto-falantes de celular e fones de ouvido enquanto,  simultaneamente, realizavamos atividades diárias, como cozinhar ou usar o  transporte público. Para nós, o nível de -23LUFS não é suficiente  nessas circunstâncias. A inteligibilidade da fala claramente sofre nesse  nível e muitos dispositivos não fornecem ganho suficiente para tornar o  áudio alto o suficiente."

Thomas Lund, pesquisador da TC Eletronic, na época concluiu que -23 LUFS "é muito baixo para podcast/mobile" e propôs para áudio móvel o nível -16 LUFS.

Target Program Loudness

Target Program Loudness é o alvo pretendido de Integrated Loudness para um programa ou fluxo (stream).

Em 2015, a AES (Audio Engineering Society) publicou “Recommendation for Loudness of  Audio Streaming and Network File Playback”, propondo target loudness entre -20 e -16 LUFS e um pico máximo de -1 dBTP:

Cada fluxo tem um único target loudness,  com a possível exceção de fluxos multi-formatados, por ex. talk shows  de manhã e programas de música à noite. Nesses casos, recomenda-se que a  diferença máxima entre os alvos seja tão pequena quanto possível.  Para  arquivos pré-gravados a diferença situa-se em ± 0,5 LU, enquanto para  transmissões ao vivo uma tolerância maior pode ser necessária.

Um target loudness mais baixo (por exemplo, -18 LUFS) pode ser usado para melhor atender  as caracteristicas dinâmicas do programa, e ajuda a melhorar a qualidade  do som, permitindo que os programas tenham um pico mais alto.

O  limite inferior de -20 LUFS foi escolhido como o menor valor prático  atual para streaming, porque alguns dispositivos móveis atuais tem ganho  insuficiente para permitir que os alvos de produção comuns de -23 ou  -24 LUFS sejam ouvidos em um volume satisfatório mesmo com o controle de  volume estando no máximo.

Podcast + Música

Dentro  de um determinado programa, a maior diferença percebida a ser notada é  fala versus música. Fala normalizada para o mesmo loudness integrado  para um fluxo de música inevitavelmente soa muito alto. Recomenda-se  normalizar os segmentos de fala (diálogo) dentro de outros segmentos 2 a  4 LU (ou mais) abaixo do volume dos outros segmentos.

O ideal é  que os ouvintes não precisem ajustar seus controles de volume ao  alternar entre fluxos com formatos semelhantes. Embora dois fluxos de  diferentes formatos com Loudness Integrado idênticos possam não soar  igualmente altos, a diferença de volume não atinge abruptamente o  ouvinte, por isso é geralmente tolerado e aceito.

Intervalos comerciais

Para intervalos comerciais inferiores a 60 segundos, recomenda-se que o Program Loudness (PL) do intervalo não exceda o Integrated Loudness do fluxo. Além disso, recomenda-se que a sonoridade máxima de curto prazo dessas interrupções não exceda 5 LU acima do Target Loudness do fluxo.

Por  exemplo, se um fluxo for destinado a −20 LUFS Integrated Loudness, o  volume máximo de curto prazo de um comercial (ou outro segmento de curta  duração) não excederia −15 LUFS. Além disso, o PL do comercial não  excederia −20 LUFS. Se o PL do comercial é -20 LUFS, mas a sua máxima  sonoridade a curto prazo é, por exemplo, -13 LUFS, o comercial teria que  ser atenuado por 2 LU, o que reduziria seu PL para -22 LUFS. Neste  caso, o anunciante pode desejar remixar o comercial para
reduzir a diferença entre seu Loudness máximo de curto prazo e seu PL para 5 LU ou menos, para que essa atenuação não ocorra.

Peak control

Os  picos não afetam a medição de loudness, embora afetem a qualidade do  sinal percebido. Uma gravação com alta relação pico/loudness (PLR) é  percebida como mais clara e menos fatigante do que aquela que foi  excessivamente limitada no pico.

Áudio que foi atenuado para atingir o target loudness (volume alvo) terá seu nível de pico diminuído na mesma quantidade.  Áudio altamente processado onde os níveis de pico originais excedem 0 dB  TP normalmente não sobrecarregará, pois o volume terá que ser bastante  reduzido para atingir o target loudness. O áudio que tenha sido suavemente processado ou não processado raramente excederá 0 dB TP.

No  entanto, o nível de pico pode aumentar após codificação com perdas  (exemplo, MP3, AAC) por isso recomenda-se o uso de um limitador de  segurança com um limiar de -1,0 dB TP antes da codificação.

Target para serviços de streaming

Os  serviços de streaming medem o volume e o tornam mais consistente para  os assinantes,  procurando uniformizar a intensidade subjetiva de  músicas de diferentes épocas e estilos.

Os ouvintes perceberam  que a normalização do volume é uma realidade. Sabem que as músicas altas  são abaixadas pelos serviços de reprodução para impedir que os usuários  sejam atingidos por mudanças repentinas no volume.  Contudo, nem todos  os serviços de streaming elevam o volume de músicas baixas.

Tidal é  o único serviço que usa LUFS para sua normalização de volume. Portanto,  mesmo que você queira otimizar o volume do seu áudio para um  determinado serviço de streaming, o Tidal é o único lugar onde você  obterá resultados confiáveis.

A Apple usa seu algoritmo proprietário Sound Check, a Spotify usa o Replay Gain, e os outros não informam.

O  Sound Check analisa o volume das músicas adicionadas recentemente e  armazena as medições em uma tag ou no banco de dados da biblioteca de  músicas do iTunes. O player usa esses dados para compensar as diferenças  de volume entre diferentes faixas durante a reprodução. Segundo o  pesquisador Thomas Lund, o volume médio corresponde a cerca de -16,3 LUFS quando a função Sound Check está ativada.

No  Spotify, o algoritmo do Replay Gain ajusta a média do volume de  reproduções (de 30 minutos ou mais) a um nível que corresponderia  próximo a -14 LUFS. Mas é apenas uma média - as músicas podem variar  para cima ou para baixo em vários dB.

O mesmo se aplica ao YouTube, Pandora. Usar LUFS como target desses serviços não funciona de maneira confiável.

"Targeting a specific integrated loudness is a red herring." Ian Shepherd

Não  há sentido em tentar otimizar o volume para cada serviço de streaming,  mas pode haver uma vantagem em manter em mente os níveis de reprodução  dessas empresas quando otimizando peças de áudio para streaming em  geral. Por exemplo, o site Loudness Penalty informa com exatidão como o volume da parte de áudio será afetada  quando for reproduzida online. No Spotify, YouTube, TIDAL e Pandora. E  também fornece uma estimativa decente para o Apple Sound Check. O  serviço é gratuito e permite visualizar o resultado ao vivo. Existe  também um plugin pago.

Quantas LU o seu podcast ou vídeo deve ter?

YouTube,  Spotify e TIDAL agora usam níveis de referência de reprodução dentro de  1 dB um do outro, enquanto Apple Sound Check e Pandora são 2 dB mais  baixos, correspondendo às recomendações da Audio Engineering Society  para streaming.

A Apple pede que o volume médio (integrated/program loudness) de um podcast seja de -16 LUFS (±1 LU), efetivamente aceitando áudio entre -15 LUFS e -17 LUFS, e pede que o True Peak não exceda -1.0 dBFS.

Os produtos da TB Pro Audio definem metas de -15 LUFS e True Peak máximo de  -1.0 dBFS no preset de fábrica para podcasts.

A Spotify utiliza Replay Gain.  O áudio original é reproduzido, a menos que o ouvinte ative  normalização (metas equivalentes em LUFS: Normal -14, Quiet -22, Loud  -11).

O Youtube utiliza -13 LUFS.

Google Assistant e Google Podcast: áudio estéreo -16 LUFS; áudio mono, -19 LUFS.

A conversão de mono para estéreo resulta em aumento de energia de 3 LU

Estudos do site Podnews tem mostrado certa preferência por -16 LUFS.

Most popular LUFS e bitrates for mp3 (Podnews, 2019)
Most popular LUFS e bitrates for mp3 (Podnews, 2019)

Smart speakers

A reprodução no Amazon Echo na prática requer -14 LUFS.

Podcasts normalizados em -16 LUFS soam bem abaixo da voz da Alexa (a Siri da Amazon) em alto-falantes Amazon Echo e nos Amazon Fire tablets.

Dado  o contexto em que  alto-falantes inteligentes estão sendo instalados,  você pode ter ruído de fundo acontecendo na sala. Você também pode ter o  ouvinte sentado do outro lado da sala -- à medida que as ondas sonoras  se afastam de sua fonte, a intensidade sonora é menor. Então é natural  pedir um arquivo com áudio original mais alto para que seja mais fácil  ouvir nesses dispositivos. Elevando a intensidade subjetiva para -14  LUFS, a voz humana é capaz de compensar melhor o ruído externo e as  distâncias entre fonte e ouvintes.

Segundo a Consumer Intelligence Research Partners,  o Echo/Alexa da Amazon possui participação de 70% e o Google Home detém  24% da base instalada americana de 66 milhões de alto-falantes  inteligentes.  Estes dispositivos estão conectados a Internet e  habilitados para reproduzir podcasts por meio de comandos de voz.
Com  6% de participação, o HomePod (US$ 350) custa até 18x mais e a Siri só  aceita comandos para tocar músicas do serviço de streaming da Apple.

Material consultado

ITU-R BS.1770 Revisited, Thomas Lund,  TC Eletronic A/S

AES – TD1004.1.15-10 (10/2015), Recommendation for Loudness of Audio Streaming and Network File Playback

Portaria MC nº 354, de 11 julho 2012,   regulamenta a padronização do volume de áudio nos intervalos   comerciais da programação dos Serviços de Radiodifusão Sonora e de Sons  e  Imagens.

Loudness Normalization In The Age Of Portable Media Players, 128th AES Convention, by Wolters, Mundt, and Riedmiller

Difference between the EBU R-128 Meter Recommendation and Human Subjective Loudness Perception, 131st AES Convention, by Begnert, Ekman, and Berg.

ITU-R BS.1770-4, Algorithms to measure audio programme loudness and true-peak audio level

EBU R 128 (06/2014), Loudness normalisation and permitted maximum level of audio signals

EBU – TECH 3341 (01/2016), Loudness Metering: ‘EBU Mode’ metering to supplement EBU R 128 loudness normalisation

EBU – TECH 3342 (01/2016), Loudness Range: A measure to supplement EBU R 128 loudness normalisation

AES – TD1006.1.17-10 (10/2017), Loudness Guidelines for OTT and OVD Content

Palavras-chave

LUFS, LKFS, LU, Loudness, Integrated  Loudness, IL, Program Loudness, PL, Loudness Range, LRA, Short-term  Loudness, MaxS, Momentary Loudness, gating, True-Peak, dBTP, Target Loudness, Podcast, stream, H.R. 1084/S. 2847, CALM, CALM Act, Amazon, Echo, Alexa, ATSC  A/85, EBU R 128, OP-59, TR-B32, ITU-R BS.1770, plugin, VST, VST2, VST3,  intensidade, volume, volume médio, pico, pico real, streaming, video,  filme, normalização, medição, alvo, meta,  Loudness K-Weighted Full Scale, Loudness Units Full Scale, Loudness Units, PLR,  Peak-to-Loudness Ratio, Communications Research Center (CRC), McGill  University, Google TTS Loudness Reference, Audacity, Reaper, TBProAudio,  Auphonic, Thomas Lund, pressão sonora, SPL, Sound Pressure Level, DAW, psicoacustica, Curvas de Fletcher-Munson, intervalo comercial, advertisement.