January 14, 2012

第74回 サラウンド寺子屋 「良い音と正確な音」を科学する Science of accurate sound

By.Mick Sawaguchi サラウンド寺子屋塾 主宰

日時:2011年11月1日
場所:タックシステム株式会社
講師:小脇 宏 (富士通テン株式会社)
テーマ:インパルス応答特性に注目した「良い音と正確な音」を科学する
 

沢口:2011年11月の寺子屋は、いつもと趣向をかえてアカデミックに、いい音とは何かというテーマで、富士通テンの小脇さんにお願いしました。後半では、その考えを具現化したスピーカによるデモも予定していますのでお楽しみに。


またいつも会場を提供していただいていますTACシステムズ山本さんそしてスタッフの皆さんにもお礼申し上げます。それではよろしくお願いします。

小脇:こんにちは。神戸からやって参りました富士通テンの小脇と申します。元々は、デジタルコンソールの中のDSPの信号処理をやって参りました。そういった中で、普通の人と違って、音を波形デーダを見て、音を聞いて捉えていました。本日の内容は、

● いい音と正確な音の違い
● 正確な音をどうやって評価するか
● 音が変化して行くメカニズム
● 圧縮やイコライザーで音がどのくらい劣化しているか
● タイムドメイン理論をスピーカーでどうやって実現しているか をご紹介します。



イントロダクション
私自身は、DSPだけではなく、デジタルプリアンプのハードウエア、それを制御するシステムを開発していました。90年ごろには、ヨーロッパのコンサートホールを借り切って、インパルス応答の計測などもやりました。これは、自動車メーカT社の高級車に搭載したDSPのサウンドプロセッサーで、CDを再生して、ホールのリバーブを作ろうと、いろいろなホールで計測しました。車室内の音響を自動的に周波数特性をフラットにする、信号処理なども開発しました。この頃に、神戸大学の森本教授から、空間音響学、心理音響学を教えて頂き、スピーカーの開発にも役に立ちました。車の中で、周波数をフラットにすれば、いい音になるだろうと言うのが、第一ステップでした。しかし周波数特性をフラットにしてもいい音になりませんでした。当時は、位相に原因があると思い、位相をなんとかフラットにしようと、ミシガン州立大学や富士通研究所の強力を得て、FIRフィルターで位相特性も含めてフラットにできる逆フィルターの開発をしました。これでいい音になると思ったのですが、やっぱり、いい音になりませんでした。この頃にちょうど、奈良のタイムドメインと言う会社と知り合う機会がありまして、富士通のパソコン用のスピーカーにタイムドメイン理論でスピーカーを作って見ました。そのとき初めて、自分が目指していた楽器らしい音がちゃんと出始めるようになってきました。

1 いい音と正確な音の違いとは?

まずは、いい音と正確な音の違いを深く認識して頂きたいと思います。例えば、テレビを買いに、家電量販店に行きました。何色のテレビがいいかなと、みなさん、私を含めて見るんですが、その色は自分が気に入った色であって、それが正確な色か、なかなか判らないですね。音も同じように、店頭で聞いてい、この音がいいなぁと、また、店員さんの言うがままに買ってしまいます。そのときに聞こえた音が、本当にいい音なのか、非常に判断が難しいです。例えば、ベートーヴェンの第九を一枚とっても、録音パターンが数千種類あります。どのディスクも、マイク、セットアップが全部違い、バイオリンの音を一つにしても、みんな違う音に録音されているはずなんです。それをスピーカーで聞いたときに、どれが本当の音なの基本に判るわけがないですね。これも、生の楽器を演奏して正確にマイクを立てて、その場で聞き比べれば、どっちが生に近いのか判断出来る思います。そう言う意味で、正確な音と、いい音は違うと言う観点に立った上で、みなさんが、お仕事でよく使っているオーディオ機器、入力から出力まで、マイク、マイクアンプ、ADコンバーター、コンソール機器を、通っていったときに、理想的な音響システムはどんな特性かを考えてみます。これは、音源が写真だとして、それぞれの機器が多少、色付けがあります。そうすると、コンソールで何をしなくても、出力は多少変わってきます。そういう意味で、理想的な音響システムは、レンズに例えると透明であれば理想的で、コンソールであれば、いじった分だけ変化して欲しいと思います。これを音響特性ではどうなるか、とかく周波数特性がフラットであればいいだろうと思いがちですが、フラットでも全然違う場合が圧倒的です。それを実際に体験して頂こうと思います。まず同じ信号を、2つの特性の異なるインパル応答を通したものを聞いて頂こうを思います。


[ 視聴 ]

一つは、インパル応答はフラットです。もう一つは、オールパス・フィルターですべての帯域を通します。これは、電子リバーブを設定するときの基本パターンとしてよく使われます。比較してみると、周波数特性は同じですが、声で比較すると、違って聞こえます。理想的な音響システムとは、それぞれの機器のインパルス応答が、インパスに限りなく正確に反応していることだといえます。

2 インパルス応答とは?

それでは、インパルス応答について説明します。ほとんど全ての情報が、インパルス応答に含まれています。ここから、我々が1990年にヨーロッパのコンサートホールで収録したものをお聞き頂きます。高級カーオーディオに載せるDSPプロセッサーのホールの響きの違いを持ち帰って、後でシュミレートできるように録音をしてきました。ホールで実際に聞いた音を再生するために、楽器を無響室で録音したものを、ホールで再生してそれを録音しました。場所は、ベルリン・フィルの本拠地のベルリン・ニューハーモニー・ホールで録音しました。残響時間は1.6秒くらいです。もう一つは、ウイン・フィルの本拠地のムジーク・フェラインザール学友教会ホールです。通常の残響時間は2秒くらいですが、夜中に貸しきって録音しお客さんはいないため、残響時間が3秒くらいです。


[ 視聴 ]

今ので、ホールの響きの違いがお判り頂けたと思いますが、インパルスを再生すると、もっと違いが分かると思います。

[ 視聴 ]

これが、インパルス応答です。皆さんもお仕事柄、録音スタジオやホールに行くと、手を叩くと思います。手を叩くことがインパルス入力信号で、帰ってくる音がインパルス応答です。この反射音に、伝達関数が含まれています。

ホールにインパルス応答があるように、スピーカーにもインパルス応答があります。今日、聞いて頂いているスピーカーは、タイムドメイン理論を応用しインパルスに忠実な再現が可能な設計にしています。通常の3ウエイスピーカーのインパルス応答を測定すると、最初にツイターの音、次にミッドレンジの音、最後にウーファーの音が遅れて出てきます。加えてそれぞれの音に共振が乗ります。


タイムドメイン理論と、これまでの従来オーディオ理論の一番大きな違いは、人は空気の動きで音を感じてますが、従来オーディオ理論は、周波数特性と位相周波数特性を中心にしています。先ほどのデモように、周波数特性の違いが無いのに再生音は、違って聞こえる場合があります。正確なインパルス応答とは、元の波形をちゃんと作る理論です。


もう少し掘り下げて、周波数特性に何が足りないのか、少しお話ししたいと思います。これは先程の、残響時間2秒のホールのインパルス応答です。これをFFT(フーリエ変換)してみるとします。通常、低域の分解能をちゃんと出そうとすると、ある特定の区間の計算が必要になります。例えば、FFTのときにポイントが選べます。数百ポイント、数十ポイントとありますが、20ヘルツ付近をきちんと分解能を取ると、32,768ポイントとなります。CDのサンプリング周波数が44.1kHzとすると、だいたい0.7秒くらいの区間がないと、周波数特性が出ません。逆にいうと、このくらの区間の平均値を出してるようなものです。実は、先程がら問題にしている時間の波形は、ここの先のほんの一瞬10万分の1、100万分の1波形を正確に出せるかを、タイムドメイン理論は問題にしています。周波数特性のような長い時間の平均値にすると、小さい部分は平均値化されわからなくなります。なので、周波数特性だけでは、デーダー量としては不充分であると考えます。



3 音の畳み込みと音の変化要因
それでは、インパルス応答が正確であればいいのかは、音の変化するメカニズムを理解する必要があります。いわゆる、コンボリューション(畳み込み演算)、音の変化するメカニズムがここに隠されています。
次に、EQで波形の変化を見てみます。Qを変える、、、周波数を変える、といったことで実は、音の立ち上がりや立下りが鈍る原因となっています。
次は、圧縮音源とリニア音源の違いをみてみましょう。192kHz24BitとMP3の比較視聴をしてみます。ブラインドテストでも、違いが分からない場合が多いです。2つの差分波形を取ってみました。



4 インパルス応答とスピーカ再生波形
上が、今日聞いて頂いている、Eclipseのインパルス応答で、下が3ウエイのスピーカのインパルス応答です。それぞれを、先ほどの音楽を出力したときにどういう波形になるか見て頂きます。3ウエイのスピーカの場合は、特に終わりのあたりのピークが変わっています。それに比べ、Eclipseの場合は、波形が重なるようになっています。さらに、パルスが正確になると、波形がどんどん重なるようになっていきます。オーディオでは、スピーカの再生が、圧倒的なボトルネックになっていることが、データーで感じて頂けたと思います。


再生機器の中でいえば、プレイヤーのインパルス応答は、5〜10マイクロセコンドに、全部が収まるくらいです。アンプの場合は、出力が大きいので余分なノイズが残るので10〜20マイクロセコンドです。それに対してスピーカは、小さいもので100マイクロセコンドに収まらずに、0・何秒の残響が残ってしまう程応答がよくありません。
例えば、大型スピーカーで、ものすごく波形が崩れているものがあります。あらゆるオーディオ機器やコンサートホールは、インパルス応答で表現できると、覚えて頂ければと思います。もう一度、各機器の正確性に戻りますと、色付けがされている中で、みなさん音を聞きながら、制作をしています。CDはコンソールから、出力されたものから、CDとして出来てきます。違いのあるスピーカーで聞いたものと、できたCDは全く別の音になっています。さらに、家庭で違ったスピーカーで聞くことになります。作ったときに聞く音、家庭で聞く音が全部違うことになります。我々が皆さんにお知らせしたいことは、正確なレベルに近づけましょう、ということです。そうすることで、制作でも家庭でもより、制作時に近い音が楽しんで頂けるようになると思います。

5 スピーカにおける正確さを再現する技術
では、これまでのスピーカーはどこで、波形が崩れていたのか。

● スピーカーの箱鳴りです。スピーカーの持っている箱鳴りが加わります。スピーカー(ユニット)が3個あれば波が3つあり、一つには戻らないこと。
● ツイターやウーファーのトライバーユニットが、固有の共振を持っていること。
● ネットワーク回路は、通しただけで、波形が崩れてしまいます。
以上が、主な原因です。これを改善するために

● 波を一個だけしか出さないために、小口径のドライバーユニット1つ。
● 小型・軽量化し磁気回路を強化したドライバーユニット



● 反作用吸収アンカー。これだけ高速でドライバーユニットが動くと、反作用で押し戻されてしまいます。これを抑制するために4kgのアンカーがついています。



● 不要輻射を低減した筐体デザイン。定在波が出にくく、音が広がって行ったときに、角から回折波が少なくなります。スタンドも、空気の流れを崩さない形になっています。だんだん、 流体力学的な飛行機の形にだんだん近づいてしまいました。



● ダイレクト接続ユニット。普通ドライバーユニットは、箱にネジ止めします。そうすると、箱に振動が伝わって共鳴音が出てします。箱の共鳴音を出さないために、ドライバーニュニットを足に直結しています。それに対して、エンクロージャーをフェルトやクッションを使い、直接振動が伝わらないようにフローティングしています。ドライバーユニットが、箱を伝わってどの位不要音が出るかやってみます。

[ オルゴールを使って箱なりによる音をデモ ]

通常、録音されている音源に、箱鳴りの音をたっぷりかけて聞いていることになります。なので、箱の音をできるだけ無くする考え方です。今日は、サブウーファーも持って来ました。これも特殊なテクノロジーを使ってまして、ドライバーユニットを2個使っています。小口径ですけれども、外側に同相駆動します。後ろにシャフトがあり、そのドライバーの反作用を吸収します。サブウーファーも、通常のものより小型のものを使っているので、スピードもずいぶん早いです。しかも、これもフローティングしていますので、後でぜひサブウーファーを触ってみてください。全然振動していません。箱自体が振動していないでの、置き方には影響されません。


6 タイムドメイン理論の限界
タイムドメイン理論に都合の良いような話ばかりさせていただきましたけれども、実はこの理論が必ずしも完璧という訳ではありません。こういう正確な音を、今度はハイパワー・ワイドレンジということと両立させようということは非常に難しいんですね。

じゃあどうするかというともう二者択一で、それこそ時間波形を正確にしながらある程度パワーとレンジを維持して我慢するか、あるいは完全にレンジをフラットにとって時間波形が崩れている状態にするか、もうどちらかしかないんですね。これまでのオーディオというのは後者のほうが多かったわけです。時間波形は崩れてもしようがないとして、ワイドレンジ・ハイパワーでいこうという形になっていました。なので我々は、とにかく周波数特性というのは人間ある程度慣れて補正するものなんだから周波数特性のレンジよりは時間特性の正確さというところをちゃんとしたほうがより現実的なのではないかということでタイムドメインを重視しているということです。

例えばギタリストが音色がちょっと違うと思った時、もちろん低域が、高域が、という周波数の感覚で言われているケースももちろんあるんですけれども、音色が違うっていうときに音の時間波形が崩れていることを感じ取られているケースが非常に多いんです。

いまLinn Recordsで売っておられます加藤訓子さんの「kuniko plays reich」。先日もヨーロッパツアーにお手伝いに行ってきました。スピーカー10本ほど使ってスティーブ・ライヒの曲を演奏されたりされています。スティーブ・ライヒのマリンバの六重奏というのがあって、マリンバの五重奏分を事前にプリ・レコーディングしたものをスピーカーから再生して、加藤さんがもう一人分のマリンバを演奏するというようなコンサートです。なので現場で生のマリンバと録音されたマリンバ、スピーカーから出てくるマリンバがどれだけ音色が近いかというところがひとつのポイントになるというところでEclipseのスピーカーを選んでいただくことができました。

7 デモタイム
これから視聴して頂きますが、聞いてほしいポイントは、

● 明瞭性
● ハイスピード
● 音の立ち上がり立下り
● 空間再現力

また、普通のスピーカーより、スピーカーが鳴っている感じが極めて少ないと思います。それは、インパスが正確に再生できるスピーカーは、その交点でシャープな音象を結びます。いわゆる、カメラのピントが合っているのと同じです。ところが、通常のスピーカーは波がいっぱい出るので交点がたくさんあり焦点がぼやけがちです。もう一つは、スピーカーは鳴るものだと、音がスピーカーに張り付く、これが非常に少ない。先程、実験したように、これまでは箱の音をたっぷり聞いていました。箱がなっている、だからスピーカーが鳴っている感じでした。その箱鳴りを取ってしまうと、もともとマイクを置いた時に、ここにギーターがあったとかの相対的な位置情報は波形に記録されて、それがそのまま空間に出てきます。波形が崩れたスピーカーでは奥行きが出ません。ぜひ今日は、奥行き感を聞いて頂ければと思います。


音の評価が非常に難しい原因としてみんなの聞き所がバラバラであるというのがひとつ大きくあります。音の評価は難しいのですが、聞き所を合わせると意外と評価はわかれません。なので1つずつ聞き所を決めて聞いていただきたいなと思います。最初に、先ほど説明した3つのポイントの1つ、「声の明瞭性」。ホールで録ったような響きが加わった声など録音の違いによる声の違いがすごくよく出てきます。なのでいくつかのボーカルで録音の違いによる声の明瞭性の違いを聞いていただきます。まずはスタジオ録音のジャズです。

[ 視聴 ]

次はホールでのワンポイント録音のソプラノで「声の明瞭性」というポイントです。

[ 視聴 ]

次に「音の立ち上がり立ち下がり」のキレの部分を聞いていただきます。そのあたりはいつも使用しているソフトが沢口塾長の作品です。音のタッチとか太鼓をトンと叩くところ、そういったところを聞いてください。

[ 視聴 ]

次にエリオット・シャイナーによるミックスの「ドナルド・フェイゲン/モーフ・ザ・キャット」を5.1chで聞いていただきます。これはLFEチャンネルによく入っていてサブウーファーがよく鳴っていますからぜひ前にきてサブウーファーを触ってみてください。今日はサブウーファーは(メインチャンネルと)面合わせでならべているのですが、LFEチャンネルに対しメインチャンネルの遅延時間をざっくり1メートル程度遅らせています。どういうことかというと、インパルス応答の図を見ていただくといいのですが3ウェイスピーカーの場合ウーファーの出てくるタイミングがものすごい遅れるんです。これはウーファー自体のスピーカー駆動力が遅いがために遅れているだけでなく低音には必ずローパスフィルターをいれるんですね。二次のローパスフィルターを入れるとそれだけでトータルの時間差で80センチくらい波の出るタイミングが遅れてしまうのです。なのでその部分、いわゆる3ウェイで縦に一列に並んでいるスピーカーだときっちりウーファーからツイーターまで同じタイミングで音を出すのは不可能なんですね。なのでこういうふうにサブウーファーを分けた場合はサブウーファーだけ早く出してやることでタイミングを合わせることが有効になってきます。


[ 視聴 ]

次は空間再現について。最初はステレオで聞いていただいて、あとでサラウンドの作品を聞いていただきます。まずステレオは小澤征爾指揮のサイトウ・キネン・オーケストラの松本市での収録で、天井に吊ったたしか3本の指向性の狭いマイクと聞いたんですがそれで収録したらしいので、スピーカーから離れてわりと空間が奥に出てくるのを感じていただけるんじゃないかと思います。後ろの席の方はもしかしたら立って聞かれるくらいのほうがわかりやすいかもしれません。

[ 視聴 ]

では次は5.1chサラウンド録音の作品で、これはパリのノートルダム寺院でパイプオルガンを収録した作品です。私は商売柄いろいろな作品を、どれが録音がいいのかを聞いている度合いは結構多いんじゃないかと思います。なぜならお客さんに聞いていただく時に、Eclipseのスピーカーは録音の素性が悪いと、録音が悪いのかスピーカーが悪いのかもうわからないような状況で、ストレートに出してしまいますから。それが正確なスピーカーの残念な所ではあるのですが(笑い)、そうでなくてはいけないので。それでいろいろな作品を聞いている中でワンオブザベストじゃないかと思うような作品です。曲はラフマニノフの「鐘」です。

[ 視聴 ]

ではサラウンド寺子屋のみなさんにはお馴染みの冨田勲さんの新作を聞いてみましょう。今度はサブウーファーはなしの4.0ch,センタースピーカーもなしです。シンセサイザーで作り込んでいるのでスピーカーに張り付いて作られている音も結構あるのですが宇宙空間などがスピーカーから外れたところによくできていて、そういったところからロケットの発射音などを注目して聞いてみてください。

[ 視聴 ]

最後に映画を1作ご覧いただきます。バットマンの「ダークナイト」でアカデミー賞の音響編集賞を受賞しています。ハリウッドの作品もEclipseのスピーカーで再生するとスピーカーに張り付いた作品が圧倒的に多く空間があまりでない作品が多いんです。この「ダークナイト」は、そういった意味でスピーカーに張り付くことが少ない、ちゃんと360度空間を再現しながら奥行きも出しています。そういったところを聞いていただきたいのと、もうひとつはショットガンを撃つ音や車が衝突する音などがあるのですが、ああいう音は(手を叩いて)これと同じ空気がぐしゃっと圧縮されている音が多いんです。空気がそれだけ潰れている音は、スピーカーもそれだけ高速に駆動して空気を潰してやらないとその音源の音はでません。

[ 視聴 ]

ここでみなさんに質問があります。わりと大きい音でかけていましたが、そんなに耳が思ったほど疲れていないと思いませんか?これはインパルス応答でいうと、パルスがパチっと1つ出た時、耳の鼓膜が一度押されて戻るだけなんです。ところが従来のスピーカーは共振があって特にツイーターの共振が聞き取りやすくコーン!と残響が起こるんですね。これは鼓膜が1回だけの振動のはずが揺すられているんです。揺すられているスピードでいうと共振周波数はだいたい3kHzや10kHzというところなので1秒間に3千回とか1万回とかいうスピードで長い間鼓膜が揺らされるわけです。だから耳が疲れるんだと思うんです。ナチュラルな音はそんなに疲れないですよね。ということでスピーカーが波形に正確になってくればなるほど耳の余分な疲れも少なくなる傾向にあると思います。

今日は長い時間どうもありがとうございました。

沢口:小脇さん、わざわざ神戸から機材一式持参いただいての講演どうもありがとうございました。(一同拍手)

[関連リンク]
タイムドメインの技術と理論
ECLIPSE TDシリーズスピーカーのコンセプトを実現する
タイムドメイン理論

サラウンド寺子屋に参加するには?
「実践5.1ch サラウンド番組制作」
「Let's Surround(基礎知識や全体像が理解できる資料)」
「サラウンド入門」は実践的な解説書です
「サラウンド寺子屋報告」Index にもどる

下書き担当サラウンド寺子屋サポーター:tomomiMUSHnemoto and NSSJP