2020年12月15日火曜日

菅野よう子「星と翼のパラドクス」マスタリング音質比較と音圧戦争の誤解について

星と翼のパラドクスを主題歌が配信された時に1消費者として購入した。配信版を聞いても自分は音質に不満はなく、むしろ同系統の曲に比べてRMSなどが低く、もっと潰して持ち上げられる派手系の曲なのに、そこをムキにならず冷静にマスタリングされてる、それを実現したPやマスタリングエンジニアえらいとまで思っていた。そして、その認識は今も変わっていない。

しかし、この歌手の声を聴き慣れた人からは、少しこもって聞こえるという感想が見られて、自分は不満は無いが、マスタリングの担当者は誰か、また楽曲の参加者を知ったり、具体的にCDと違う程度を知りたくなって、今回CDを購入した。

そして比較した結果が以下である。

確認した項目

  • 波形の比較
  • Peak,RMS,LUFSで音量と音圧、体感音量の比較。
  • 配信とCDの各音域の音量差をMatch EQで比較

波形の比較

ぱっと見の違いは無い。間奏やエンドのピーク0dBFSに届かない場所で、多少の大きさが違う。つまり、微妙にCDのほうが音量が大きい。そして、それは配信よりCDのほうが音域(周波数帯)が広い、または音量変化の解像度が細かいので、当然の結果。ただ、そこを感知して気になる人がどの程度いるかは不明。特にパソコンやiPhoneで5000円くらいのイヤフォンやスピーカーで聴いてたら、聴覚とは別の機材の性能の問題で感知できないだろう微差。

Peak,RMS,LUFS

結論を先に言うと、音量差は1dB。これは1割弱CDのほうが大きいという意味。

*3dB=25% 6dB=50% 9dB=75% 12dB=100%

よく勘違いされるのは、音圧(体感音量)をPeakで見てRMS(0.3秒間の平均音量)やLUFS(人間の聴覚を加味した音量)を無視する人がいる。Peakはデジタルデータとしての限界値であり、これは音質や容量の絶対値を問わず相対値のデシベル(dBFS)で必ず一致する。というより、させている。そして波形の大きさも絶対量であり、もともとの音源の加工加減や、人間が大きくまたは小さく感じる音程(周波数)を全く加味していないグラフなので、これで音圧はわからない。音圧戦争の話題は今でもちらほら見かけるが、当時LUFSは無かったがRMSは業界や分野では標準的だった。それを無視して半端に波形とPeakだけで音圧を語る人間が増えたのは、分野や業界の人達からすればいい迷惑だったろう。機材と知識の限界が異なる職業とオタクの差がそこにあると感じた。

話を、星と翼のパラドクスに戻す。

配信のPeakは0dBFSでCDは-0.3dBFS。仮にPeakを音量の全てだとしたらCDのほうが小さく聞こえなくてはならないが、物理的にも認知的にも結果は逆である。

まず、CDのPeakが-0.3dBFSなのは、再生する機材やエンコードする機材の性格や誤差で0dBFSギリギリで出力すると音源が音量的に壊れる(音が悪くなる)可能性があるので微妙に小さくしている。これは流儀で-0.1から-0.3と幅があり、-0.3は慣例的にもかなり余裕をもった安全策。

逆に、配信が0dBFSギリギリなのは、もともと配信よりも高音質から変換してるので、その誤差の結果そうなってしまった。

次にRMS。音響のプロは長らく、この値を基準にしてきた。厳密な定義は違うがVUメーターなど0.3秒間(300ms)の時間が人間が充分に音量を感じられる時間であり、またアナログの機材の時代は、瞬間的に音量が増大しても、それくらいの時間なら機材が壊れずに対応できる時間だった。デジタル録音が主流となり限界値が明確となったのでPeakも前提の1つになった。

基本的に、ポップスで違和感を抱くほど小さいと感じない音量、またはこれくらいあれば中央値的に聞こえる音量はPeak 0dBFS に対してRMS -10dB。

エレキギターやシンセ音源などホワイトノイズと同じ原理で内包する周波数帯が多いとRMSを大きくする要因になるので、派手かつ意図して大きく加工するとRMS -7dBから-5dBの曲もある。

問題なのは、RMS -7dBだから音圧戦争による無頓着で不要な音量増大だと勘違いする人が多い事。

先に書いたとおり、まず根本的に楽器や音それ自体で周波数と時間で最適なPeakもRMSも異なる。値を絶対視しても音圧の是非は語れない。

人間の可聴域の全てを含むホワイトノイズは、Peak 0dBFSにしたらRMSはだいたい5dBになる。じゃあホワイトノイズは音圧戦争の結果として音質を犠牲にしたのかと言えば全くそんな事はない。ホワイトノイズは無加工でその音量と音圧なのだ。

さて、星と翼のパラドクスのRMSはどうだろうか?

派手な音色が多用される同系統の曲と比べたら3dB(25%)ほど小さい。しかし、ポップスとしては配信もCDも標準的である。

また、楽器演奏の強弱変化も感知できる。これも勘違いされてる事だが、なぜ音圧戦争が悪いのかと言えば、本来演奏で存在した強弱の抑揚や表情を音量差を無くすことで消し去ってしまうからだ(ダイナミクスレンジとも言われるが、基準にはなるが厳密には強弱の表情と意味は違う)。その楽器演奏や編曲が意図しただろう強弱の表情が残っているのならRMSは幾つだろうと構わない。結果的にRMS -10dBがそれを失わずに聴きやすい体感音量だという慣例に過ぎない。

例えば、標準的なEQとコンプとリヴァーブでミックスした曲は、RMS -15dB程度と市販の音楽より体感音量が5dB(4割程度)も小さくなる。問題は、この5dBを稼ぐための調整の度合いであり、あるいは不要な5dB超過を求める、実行する事である。

音圧戦争の愚行は、原曲や原音や演奏や編曲の意図を全く無視して体感音量のためだけに音量(音圧)をあげた事。この値だから有罪無罪というものではない。

つまり、楽器や原音を知り、録音をして、加工をして、それらの変化の度合いを既知または予想できる人間にしか、音圧戦争の悪行と結果はわからない。ただ自分が聞いて大きく感じたとか、ある絶対値だけを見て音圧の是非は判断できない。

だからこそ、精密な高級機材と熟練の職人が存在する。

LUFS

次はLUFSの値。

LUFSはPeakやRMSの客観的な絶対値ではなく等ラウドネス曲線に基づいて、人間が聞こえやすい音と聞こえにくい音を加味した上での音量値である。

更にLUFSにも種類があり、0.4秒間の音量M、3秒間の音量S、最初から最後までの音量Iがあり、Youtubeやニコニコ動画など有名な配信サイトなどは、Iに準拠している。

ちなみに、この記事を書いてる時点ではYoutubeはLUFS-Iで-14dB。ニコニコ動画は-15dBに自動で調整するようになっている。

配信もCDに動画配信サイト基準で見ると大きい。しかし、音楽単体の商品として見たら、別段大きい類ではない。

自分の場合は、曲の音量判断はLUFS-S(3秒間)を基準にしている。そこで基本的に調整した上で、媒体にあわせた調整をする。

LUFS-SはおおよそRMSと結果が近い。ベースと歌がある標準的な曲で-10dB。今回の星と翼のパラドクスはCDが-8dB程度、配信が-9dB程度と、短時間なら標準的で、全体では少し小さめという加減になってる。

Match EQ

音量はどのように決まるのか。それは発音されてる音程(周波数)と発音時間の集合の結果。楽器や和音が少なくてもPeakとRMSが大きく体感でも大きく聞こえる音もあれば、楽器や和音が多いのにPeakとRMSと体感が小さい場合もある。その内訳を確認するには、音量表示(Peak,RMS)では不充分であり、その曲が内包する周波数帯(全ての音程)を確認する必要がある。

例えば、ベースや歌がなく、高音楽器だけでまとまった曲の場合、RMSやLUFS-Sが-15dB程度でも、ポップスの-10dBと比較しても充分な体感音量(音圧)を感じられる場合もある。

今回の曲の場合は、上記の画像が基本的な周波数の分布となる。音程は左が低く右が高い。

ちなみに、特にポップスに限れば基本的には右肩さがりになるのが標準的である。それは人間が高音ほど大きく聞こえる性質があり、逆の調整をしている。50年以上のキャリアがある内沼英二は著書の中で、判断基準を以下のように記している。

低音から高音までの比率は、5:3:2。

5=20hzから800hz。3=800hzから4000hz。2=4000hzから20000hz以上。

これは基本的なポップス編成の話で絶対ではないが、どんな楽曲にも応用なのうな基本的な考えである。実際に、この比率を意識して上記のEQ画像を見ると、おおよそ共通してるのがわかる。

また、こういったグラフで線の頂上が水平線に形が近くなると、それだけコンプなどで加工してる度合いが強く、不要な音圧の犠牲になってる指標にもなる。

さて、上記画像はCDを基準に配信と比較したグラフで、中央の水平線から下にある黄色線がCDを基準にして配信に欠けてる周波数と音量、つまり音質である。基本的に0.5dBから最大で2dB程度が不足してるのがわかる。この集積として体感音量(RMSやLUFS)が不足して、かつ楽器の音色や演奏の強弱が聞き取りにくく、つまり音質が悪くなっている。

ただし、これは相対的な問題で、破綻せずに繰り返し聞ける範囲の中で、媒体(フォーマット)によって優劣がある、というだけの話。

自分は、最初に書いた通り配信の音質に不満はなかった。もちろん最高の音質だとは思わなかったが、音色や演奏の種類や加減を感知できるし、極端に高音と低音があるドンシャリ音楽なのに耳を痛めない程度に配慮されたEQや音量で、ただ派手や大きさを求めたわけではない、加減の本質を知ってるプロの仕事だと、自分は配信だけで充分に感動できた。

その上で、改めてCDと比較すると、CDのほうがチェロがはっきり聞こえたりハイハットの伸び違ったり、当然仕様の優劣がそのまま反映されてるのはわかる。ただ、それで配信はゴミだと言うほどの品質だとは全く思わない。

今回は仕様の数字と体感の違いや、どこまでが自分と業界の許容範囲なのかなど確認できて面白かった。

逆に、たかが1曲の音量や音圧や音質を語るには、これだけの計測や勉強が必要という事。しかも、この記事でも充分とは言えない。

お願いだから、波形とPeakだけ見て音量や音圧や音質を語るのはやめて頂きたい。

ちなみに、自分が最高の音質だと参考にしてる音源は主にヒックとドラゴン1映画シカゴのサントラ。前者は編成の暴力とも言える曲調と演奏の大小と強弱をありえないほど綺麗にまとめてる。しかも数値でも管弦楽でRMS-5dBいってる箇所があるのに破綻もしていない(1箇所びびってる所はある)。自分には意味がわからない。

シカゴは音圧戦争には参加せず、小中編成の生楽器の限界に挑んでるような音質。自分は後年に知ったのだが、当時マスタリング関連で何やら受賞して、そらそうだあんなん10年に1本も出来ない仕事だと納得したものだ。