June 19, 2018

第99回 次世代D-TV規格MPG-H音声サービスについて - サラウンド寺子屋塾レポート

by Mick Sawaguchi サラウンド寺子屋塾主宰

テーマ:次世代D-TV規格MPG-H音声サービスについて
期日:2018-01-18(水) 15:00−17:00
会場:mExLounge東京都港区赤坂2-22-21 5F




沢口:今回のテーマは、次世代TV放送の規格として検討されています方式の中からドイツのフランホーファが提案していますオブジェクト・ベースで高効率かつImmersive Surroundにも対応したMPEG-Hの音声についてフランホーファIIS日本代表ナワビ・ファヒムさんから紹介していただきます。

みなさんこんにちは、ナワビと申します。本題に入る前に、私たちフランホーファの紹介をさせていただきます。フランホーファは、ドイツを拠点とし国内40ヶ所に69の研究機関があり年間の研究費は、3000億です。その1/3がドイツ政府からの支出で残りの2/3は世界中の企業などからの受託研究となっています。69の機関の中でIISと呼ぶ部門が音響専門研究機関で現在200人の研究者が従事しており、おそらく音響研究の規模で言えば世界でも有数の研究機関であると思います。

では、最初にMPEG-H音声サービスの概要を30分ほどで紹介し残りの90分は主にインタラクティブとImmersive Surroundについてデモを中心に紹介したいと思います。

MPEG-H3つの音声サービス
1−1ユーザー・フレンドリーなインタラクティブ音声サービス
これは、ユーザーの視聴環境に応じてユーザー自身が最適化な音声サービスを享受できることを目的とし、基本音声をチャンネル・ベースとしながら付加サービスをオブジェクト・ベースとシーン・ベース(HOA高次AMBISONIC)とした構成になっています。後ほどいろいろな番組をデモで紹介し機能を体験していただきたいと思います。

1−2 没入感サラウンド(Immersive Audio
音声は、通常の2CHステレオから5・1CHサラウンドそして7・1CH+4CHImmersive surroundサービスが非常に低ビットレートで伝送可能です。
我々の評価試験結果から現在提案しているのはImmersive Surround384kbpsで十分は品質が維持できその倍の768kbpsであればオリジナルの48k16bit品質とほぼ同等の品質を維持しています。これも後ほどデモ再生します。

1−3 ワンストリームで完結するマルチユース音声サービス
MPEG-H LCプロファイル3を適応し16音声が用意されておりこれをどう使うか選択することができます。またVR音声やバイノーラル・レンダリングしたヘッドフォンリスニングも可能です。

これらの多種多様なサービスをチャンネル・ベースのみで行おうとした場合には、伝送容量と再生機器に大きな負荷がかかりますが、1ストリームデータ+メタデータというMPEG-Hの方式は、大変ユーザーフレンドリーだと思います。こうしたメタデータでセリフ・BGM・解説・背景音・他言語・高齢者/難聴者それぞれに最適なサービスをシンプルなGUI-コントロールで実現しています。

2 インタラクティブ放送のデモ
BBCが制作したウインブルドン・テニスの放送を用いて視聴者の音声嗜好を調査しました。その結果以下に示すような傾向がわかりました。

     放送側が提供する完結した音声MIXバランスだけでは視聴者は満足しない。
    コメントレベルは、ユーザーの視聴環境により自分でコントロールしたい。


こうしたことに対応したサービスとしてインターラクティブコントロールが可能です。音の要素は、マトリックスの組み合わせで放送し、TV画面下に表示されるメニューから選択するか、ADVANCEメニューによりさらに追い込むといったコントロールができます。まだ全ての項目でメニューが動作するところまで完成していませんがいろいろな番組でデモしたいと思います。本日使用しているのはこの小さなBOXタイプのVIDEO PLAYERで中身はアンドロイドOSMPEG-Hデコーダーが入っています。ここからHDMI出力をTV画面へ接続するだけです。

VIDEO PLAYERには以下のようないろいろな番組が入っていますのでここから選択して再生しながらインタラクティブ・メニューを選択して再生します。



ベルリンを紹介するドキュメンタリー番組でのセリフの音量コントロール例です。番組のセリフレベルのみを増減でき設定範囲は送り出し側で設定します。


このメニューではセリフや解説音声をON-OFFした例です。ここでは街のアンビエンス音だけが再生されますし、スポーツなどで競技音声だけを聞きたい時に有効です。

これは、他言語選択メニュー例です。ナレーションの言語を選択することができ現在はドイツ語・英語・日本語・ロシア語・中国語などが選択できます。


これはDRCコントロールメニューの設定から深夜視聴を選択した例です。
DRCプロファイルはノーマルTV視聴・騒音の多い環境・ホームシアター視聴深夜視聴などでそれぞれ最適なバランスの再生を提供する機能です。



3 Immersive Surround 伝送品質デモ
MPEG-Hでは以下のような評価テスト行いながら規格を検討しています。

AUDIO
5.1 CH
5.1+4 CH
96-24 PCM
13824Kbps
23040Kbps
48-16 PCM
4608Kbps
7680Kbps
MPEG-H


Acceptable
96Kbps
192Kbps
Recommend
192Kbps
384Kbps
Transparent
320Kbps
768Kbps

では音楽素材を使っていくつかデモします。オリジナルは48KHz-16bit
でそれを3タイプの伝送品質ごとに再生しますので比較してください。


いかがでしたでしょうか。ここからは、みなさんとフリー・ディスカションにしたいと思いますので質問やコメントなどを是非お願いします。

参加者:
     TV視聴という環境を考えれば384kbpsでオリジナルの1/20圧縮 768kbps1/10圧縮という効率の良さで11.1CHサラウンドが伝送できることに実用性を感じた。
     192kbpsはさすがに音質劣化がわかるがそれ以外は十分実用的と感じた
     アンサンブル音楽では差があまりないがアタックの強いピアノソロでは音の劣化がよく分かる
NAWABI:ドイツでの評価テストでは若い世代は、差をよく聞き分けられましたが、大人の人は差がわからないという結果でした。
     インタラクティブのメニュー表示などは今後使いやすくデザインする必要がある
NAWABI:フランフォッハーは、主に基礎技術を研究開発していますので今後実機レベルの製品になればそれぞれのメーカーが対応できると思います。現状は、動作確認といったレベルですのでまだスマートな表示とは言えないと私も感じています


     デモをたくさん用意していただき、理論だけでなく実際に経験することで
MPG-Hの中身がよく理解できた。
     MPEG-Hのコーディングが不得意な音はありますか?
NAWABI: MPEG-Hは、AACを基本にしていますのでAACが不得意な音は同様な現象となります。現在さらにバージョンアップしているところです。
     3段階のコーディングでは、周波数特性にどれくらいの差がありますか?
NAWABI:これも現在バージョンアップを進めているところですが、基本20KHZまでの平坦な特性を目標にしています。
     メニューを切り替えてもリップシンクは同期しているのですか?
NAWABI:同期しています。
     多くのサービスを制作側が用意しなければなりませんが工程やコストはどれくらい増えると予想していますか?
NAWABI:生放送番組では、10%程度の増加を予想しています。
     放送波以外のIP伝送にも対応しているのですか?
NAWABI:IPは今後の重要なメディア技術ですので当然対応しています。

今年のNHK技術研究所の公開で22.2CH音声を現状のAAC1.2MbpsMPEG-H768kbpsでコーディングして評価実験を行った結果が公開されていました。まだサンプル集は少ないですがMPEG-Hの品質が優位という結果でした。韓国は、UHD-TV4Kベースで推進しその結果MPG-Hを採用していますが日本は地上波8K UHD-TVを進めていますので伝送容量20Mbps以内という制約がありますので音声に割り当てられる帯域は、1Mbps以内で検討しなければなりません。

沢口:ナワビさん、本日は、たくさんのデモ素材と音源を用意していただき、大変ありがとうございました。(拍手)

No comments:

Post a Comment