前回はNVIDIAのGPUに搭載された、AI画像処理技術「DLSS」の歴史と正体について取り上げました。DLSSはゲーム映像をリアルタイムで高画質化する技術で、3月16日には「DLSS 5」が登場。カプコンの『バイオハザード レクイエム』を用いたデモンストレーションは物議を醸しています。
DLSS 5の騒動を見ていて、改めて考えさせられることがあります。映像の「ディテールを勝手につくる」技術は、実はDLSS 5が初めてではありません。テレビの世界には同分野の長い前史があります。
テレビの倍速補間技術にトム・クルーズも声をあげた
まず、日本の地上波デジタル放送の話をさせてください。地デジは2001年に規格策定された技術で(※1)、実に25年前の技術基盤で動いています。解像度は主流が1440x1080iで、フルHDの1920×1080にすら達していません。
映像部分のビットレートは平均9〜13.5Mbps(※2)。同じビットレートでも、YouTubeやVimeoが採用しているH.264コーデックならはるかに綺麗なフルHD映像を配信できます。MPEG-2という古いコーデックで帯域を食っていることもあり、地デジの画質はそもそもが汚い。これは2026年の現在から見ると、技術的な負債と言っていいでしょう。
この負債に正面から取り組んでいるのが、民生テレビの超解像技術です。2008年10月、東芝がREGZA ZシリーズにXDE(eXtended Detail Enhancement)を搭載しました(※3)。地デジの1440×1080をフルHDの1920×1080にアップスケールする、日本初の超解像テレビです。
その後、各メーカーが独自の超解像技術を投入していきます。2021年に登場したソニーのCognitive Processor XRは、画面を数百のゾーンに分割し、顔、葉、空、テキストなどの意味的オブジェクトを認識して、クラスごとに異なるアルゴリズムを適用します(※4)。
個人的な感覚としては、テレビの超解像に対してはそこまで強い抵抗感はありません。もちろん「ないディテールを推論で補完する」という意味ではDLSS 5と同じ方向にある技術です。
しかし超解像がやっていたのは、人間の肌や髪の毛のようなパターンの注入であり、映像制作者の意図した画を大きく逸脱しない、忠実性の高いアップスケールだったと思います。そもそもの問題が地デジの技術的負債にある以上、テレビメーカーが受信側で補正をかけるのは正当な対処だったと言えます(※5)。
問題は、倍速液晶という文脈です。液晶パネルはCRTと異なり、次のフレームが書き込まれるまで同じ画を表示し続けます(ホールド型表示)。人間の目が動く被写体を追従する際、この「静止したまま残る画」が残像として知覚されてしまう。この残像感を解消するために、リフレッシュレートを60Hzから120Hzに引き上げる倍速駆動技術が開発されました(※6)。
初期のアプローチは、コマとコマの間に黒い画面を挿入してCRTのインパルス型表示を擬似的に再現する方法や、720pの限られた解像度で水平方向の動きだけを検出する単純な補間でした。しかし2007年以降、専用チップの進化とフルHD対応によって、本格的なモーション推定に基づくフレーム補間が主流になっていきます(※7)。
テレビメーカーはそれぞれLGのTruMotion、ソニーのMotionFlow、SamsungのAuto Motion Plusといった名前で、フレーム間の動きを推定して中間フレームを生成し、動きを滑らかにする機能を搭載してきました。
映画やドラマは24fps、CMは30fpsで撮影・制作されています。それを60fps、場合によっては120fpsに「勝手に」変換する。結果として発生するのがSoap Opera Effect(ソープオペラ効果)です(※8)。ドラマや映画の映像が、昼ドラのビデオ撮りのように見えてしまう。映像制作者にとって、フレームレートは意図的な演出選択です。24fpsのシネマティックなリズムには理由があるのです。
2018年、トム・クルーズ氏と、『ミッション:インポッシブル』シリーズのクリストファー・マッカリー監督がこれらのMotion Smoothing技術に反対する啓発動画を公開しました。『スター・ウォーズ/最後のジェダイ』のライアン・ジョンソン監督もこれを支持しています。
I’m taking a quick break from filming to tell you the best way to watch Mission: Impossible Fallout (or any movie you love) at home. pic.twitter.com/oW2eTm1IUA
— Tom Cruise (@TomCruise) 2018年12月4日
2019年にはUHD Allianceが「Filmmaker Mode」を提唱し、LG、Vizio、Panasonicが対応。翌年にはSamsungも加わりました(※9)。リモコンにボタンを設けて、ワンタッチで倍速補間をオフにできるようにする取り組みです。映画監督たちが声を上げて、業界標準として対処した例です。
DLSS 3.0のFrame Generationも、概念的には倍速補間と同じ「存在しないフレームを生成する」技術です。ただしゲームエンジンが各ピクセルの動きや奥行きを「知っている」状態で補間するため精度は高く、そしてゲームの文脈に限定されていたため、映画監督たちのような強い反発は起きませんでした。
では、DLSS 5のNeural Renderingはどちらに近いのか。超解像のように「忠実な補正」なのか、倍速補間のように「意図の書き換え」なのか。95%のピクセルが置換され、Grace Ashcroftの顔が変わるのを見る限り、後者に近い気がしています。
ここで面白いのは、フレームレートと画像の書き換えに対する反応の違いです。テレビの超解像は、地デジの技術的負債を補うための「正当な」対処として、ある程度の受容がありました。対して倍速補間は、映画監督たちが「意図の書き換え」として強く反発し、業界全体で対処するに至りました。
他方、DLSSにおいては、ゲーム文脈の中ではフレームレートの向上は「正義」とされてきましたが、DLSS 5の画像の書き換えには強い反発が起きています。この捉え方の逆転も掘れば深いテーマですが、それはまた別の機会に(※10)。
※1: ARIB STD-B31(地上デジタルテレビジョン放送の伝送方式)の初版策定日は2001年5月31日。それに先立ち、1998年10月に郵政省の地上デジタル放送懇談会が報告書を提出し、デジタル化の方針が固まった。2003年12月1日に三大都市圏で放送開始。
※2: 日本の地上デジタルテレビ放送の仕様。映像部分の平均ビットレートは9〜13.5Mbps、可変最大で約17Mbps。コーデックはMPEG-2。1440x1080iが主流で、一部放送局のみ1920x1080i。
※3: Impress(2008年)東芝REGZA XDE搭載レビュー。
※4: ソニーCognitive Processor XR。画面を数百ゾーンに分割し、意味的オブジェクト認識で最適化するプロセッサ。
※5: とはいえ、テレビCMや映画などポストプロダクション工程ではフル画質のマスターで制作を行っています。プロのカラリストやオンライン編集者にとって、民生テレビの超解像・高画質化処理はすべてOFFにするのが前提でした。受信側の補正を「正当」と言えるのは、あくまで地デジの帯域制約で劣化した映像を視聴する一般家庭の文脈です。
※6: 2005年12月に日本ビクター(現JVCケンウッド)が世界初の120Hz液晶テレビを発売(Clear Motion Drive搭載)。ただし初代は720pパネルで、水平方向の動きしか検出しない極めてプリミティブな補間でした。
※7: 2007年にJVCがフルHD対応のClear Motion Drive IIを投入。8000以上の周辺画素から動きを推定し200万ピクセルに処理する方式で、本格的なモーション推定の始まりです。同時期にTrident、Micronas、GenesisなどのMEMC(Motion Estimation / Motion Compensation)専用チップが登場し、各テレビメーカーのフレーム補間技術の基盤となりました。2008年にはソニーBRAVIAで4倍速(240Hz)が実現。
※8: Soap Opera Effect(ソープオペラ効果)は、映画やドラマのフィルム感が失われ、安っぽいビデオ撮影のように見える現象。フレーム補間によるモーションブラーの消失が主因。
※9: UHD Allianceが2019年8月にFilmmaker Modeを発表。LG、Vizio、Panasonicが初期対応し、2020年にSamsungも参加。テレビの映像処理を最小限に抑えるモードで、リモコンのボタンから切り替え可能。
※10: 正直なところ、本稿を書きながら気づいたテーマです。映像とゲームで「許容される改変」と「許容されない改変」が逆転している構造は、どこかで本腰を入れて掘ってみたい。先行研究があれば知りたいところです。
