SPECIALIST

多様な専門性を持つNRIデジタル社員のコラム、インタビューやインサイトをご紹介します。

BACK

3Dガウス・スプラッティングによる自由視点画像生成技術の紹介

こんにちは、NRIデジタルの日影です。

3Dガウス・スプラッティング(3D GS)という新しい自由視点画像生成技術について紹介します。

概要

限られた視点の画像データをもとに3D映像を構築し、新しい視点への画像を生成するレンダリング技術はCGやVR、ロボティクスなどさまざまな分野で非常に注目されています。3D GSは入力画像データをもとに数百万のガウス分布(広がりを持った楕円体形状)の重ね合わせで3D映像を表現する手法で、リアルタイムで高品質な3D映像のレンダリングすることを可能にした革新的な技術です1)“3D Gaussian Splatting for Real-Time Radiance Field Rendering” B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis, ACM Tran. Graphics, vol. 42, no. 4, 2023 (arXiv:2308.04079)。CGに関する世界最大規模の国際カンファレンス「SIGGRAPH 2023」で発表されて以降、さまざまな派生研究が行われており、幅広い分野への応用が期待されています。

背景

2020年に登場したNeRF (Neural Radiance field)技術は、3D映像の再構築や自由視点画像生成技術の分野で大きな進歩をもたらしました2)“NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, R. Ng, Proc. Eur. Conf. Comput. Vis. Springer, 2020, pp. 405-421 (arXiv:2003.08934)。NeRFは深層学習モデルを使って3D映像を連続的な放射場(Radiance field)として表現する技術です。ニューラルネットワークには3D空間の座標と視点方向が入力され、対応する位置の色と透明度を出力します。放射場をもとにレンダリングした画像と入力画像との違いが小さくなるようにニューラルネットを学習することで、高品質な新しい視点の画像を生成することが可能となりました(図1参照)。

図1: NeRFによるドラムの新視点画像生成の例。100方向の視点からの画像を入力とし、NeRFを最適化することで3Dの映像を構築し、それをもとに新しい視点にレンダリングした画像が生成されます。 出典: “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, R. Ng, ECCV 2020。

NeRF(Neural Radiance Field)技術は大きな注目を集めましたが、学習や推論の処理速度に課題があり、高解像度の画像をリアルタイムにレンダリングすることは困難でした。特にボリュームレンダリングに必要なレイトレーシングの計算が重いため、高速なパフォーマンスを達成することが困難でした。またNeRFは映像の3次元構造を直接データ形式で格納するのではなく、ニューラルネットワークによって間接的に表現します。こうした暗黙的な表現形式は、映像の編集や特定のオブジェクトの制御を困難にしていました。

3D GSの登場

上記の課題を解決するため、3D GSは明示的な表現手法として登場しました。3D GSは、3Dガウス分布を用いて映像を表現し、リアルタイムでのレンダリングや高度な映像編集を実現します。3D GSは複数のステップから成り立っています。

  1. 初期位置の設定:3Dガウスの初期位置として「Structure from Motion(SfM)」という技術によって3D映像を表現した点群を用います。SfMは、複数の画像から特徴点を検出し、これらの点を複数の画像間でマッチングすることで、映像の3D構造やカメラの位置・姿勢を推定します。
  2. 3Dガウスの最適化:SfMの点群をもとに配置したガウス分布を実際の映像に適合するように最適化します。具体的には逆伝搬アルゴリズムを用いて、レンダリング画像と元の画像との違いが最小になるように、ガウス分布の位置や形状、色、透明度などのパラメータを調整します。ガウス分布による映像の表現は微分可能なレンダリングであるため、効率的な逆伝搬の計算が可能です。単一のガウス分布では表現できない場合には新しいガウスを追加し、逆に既存のガウスを分裂させることで、映像の詳細をより正確に捉えられるよう密度化を進めます(図2参照)。詳細な表現が必要な領域を多数のガウス分布を使い、不要な領域ではガウス分布を削除することで、従来の座標ベースのモデルに比べて効率よく映像を表現することができます。
    図2: 3D GSのガウス密度化のスキーム。単一のガウスによる再構築が不十分な場合はガウスを複製(Clone)し、逆にガウスによる再構築が過剰な場合は分裂(Split)することで実際の形状に合うように最適化を進めます。出典: “3D Gaussian Splatting for Real-Time Radiance Field Rendering” B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis, ACM Tran. Graphics, vol. 42 (4), 2023。
  3. タイルベースのラスタライザー: 3D GSではタイルベースのラスタライザーを用いて効率的なレンダリングを実現します。まず画像を小さなタイルに分割し、各タイルを独立に並列処理します。CUDAによる高速なGPUソートアルゴリズムで3Dガウスを可視性の順で並び替えることでレンダリングプロセスが大幅に向上します。

結果

図3は3D GSと他のNeRFベースの手法(Mip-NeRF, InstantNGP, Plenoxels)によって生成された画像を実画像とともに比較した結果です。3D GSでは他のモデルでは描写できない複雑なテクスチャやシャープなエッジまで詳細に描写することができます。また他のモデルの画像に見られるアーチファクト(画像の乱れや不自然な部分)が3D GSには見られません。

図3: 実際の画像(Ground Truth)、3D GSによる生成画像(Ours)、他のモデル(Mip-NeRF, InstantNGP, Plenoxels)による生成画像の比較。Mip-NeRF360のデータセットから抽出した自転車、庭、切り株、カウンターの画像を示しています。3D GSでは、自転車の車輪、背景の建物の窓など、他のモデルでは再現できなかった細部まで再現できています。また他のモデルではアーチファクト(画像の乱れや不自然な部分)が現れていますが、3D GSにはそれが見られません。出典: “3D Gaussian Splatting for Real-Time Radiance Field Rendering” B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis, ACM Tran. Graphics, vol. 42 (4), 2023。

表1は、複数の画質指標を用いて、3D GSと他のモデルとの比較を示しています。7,000回の試行(イテレーション)で既に3D GSは高い画質精度を実現しており、30,000回のイテレーション時点でほとんどの指標においてMip-NeRFを上回る最高レベルの画質を達成しています。

さらに、性能面でも3D GSは優れており、秒間に生成されるフレーム数(FPS)が100以上で、リアルタイムレンダリングが可能です。これは、同等の画質を持つMip-NeRFのFPSが約0.1であることと比較すると、約1000倍の性能差があります。加えて、3D GSの学習時間は、7,000回のイテレーションでわずか5分、30,000回で40分と、Mip-NeRFが要する48時間に比べて大幅に短縮されています。

一方で、レンダリングプロセスでは数百万の3Dガウスを高速で処理するために、大容量のVRAMを搭載したGPUが必要です。しかしながら画質と性能の両面で3D GSは他のモデルを凌駕しており、高速なレンダリングと短時間での学習が可能な点で大きな進歩を遂げています。

表1: さまざまなデータセットで3D GSと他のモデルの画質を定量的に比較した結果。SSIM(structural similarity)は構造的な類似性を比較する指標で1に近いほど実際の画像に近いことを示します。PSNR(peak signal-to-noise ratio)は信号の最大値とノイズ(生成画像と実際の画像の差)の比率であり値が大きいほど実際の画像に近いことを示します。LPIPS(learned perceptual image path similarity)は学習済み画像分類ネットワークの畳み込み層が出力する特徴量をもとに算出した評価指標で値が小さいほど実際の画像に近いことを示します。ほぼ全てのケースで3D GSの再現性が最もよい結果を出しています。出典: “3D Gaussian Splatting for Real-Time Radiance Field Rendering” B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis, ACM Tran. Graphics, vol. 42 (4), 2023

まとめ

3D GSは、3Dガウス分布を使って3D映像を描写することで、高品質な画像をリアルタイムにレンダリングすることを可能にする技術です。従来の座標ベースで3D映像を表現するモデルに比べて効率の良いレンダリングが可能となり、視覚表現の領域において画期的な変化をもたらしています。

3D GSの登場以降さまざまな応用研究が行われています。例えば、3D GSを時間次元に拡張した4D GSでは、リアルタイムな4D映像を自由な視点にレンダリングすることが可能です3)“4D Gaussian Splatting for Real-Time Dynamic Scene Rendering” G. Wu, T. Yi, J. Fang, L. Xie, X. Zhang, W. Wei, W. Liu, Q. Tian, X. Wang, arXiv:2310.08528。コンテンツ生成にも応用することができテキストから4D映像を生成する技術も開発されています4)“Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models” H. Ling, S. W. Kim, A. Torralba, S. Fidler, K. Kreis, arXiv:2312.13763。こうした技術はVRやAR、映画やアニメーションの制作、ゲーム開発、医療、建築、工学分野での教育トレーニングなどさまざまな分野へ応用できます。自動運転、ドローン、ロボットなどで利用されるSLAM(自己位置推定と環境地図作製を同時に行う技術)にも3D GSを応用する研究が進められており、リアルタイムでの処理能力や映像の正確な表現において優れた性能を示しています5)“SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM” N. Keetha, J. Karhade, K. M. Jatavallabhula, G. Yang, S. Scherer, D. Ramanan, J. Luiten, arXiv:2312.02126。このように3D GSは多様な分野への応用や発展に大きく貢献することが期待できます6)“A Survey on 3D Gaussian Splatting” G. Chen, W. Wang, arXiv:2401.03890

References   [ + ]

1. “3D Gaussian Splatting for Real-Time Radiance Field Rendering” B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis, ACM Tran. Graphics, vol. 42, no. 4, 2023 (arXiv:2308.04079)
2. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, R. Ng, Proc. Eur. Conf. Comput. Vis. Springer, 2020, pp. 405-421 (arXiv:2003.08934)
3. “4D Gaussian Splatting for Real-Time Dynamic Scene Rendering” G. Wu, T. Yi, J. Fang, L. Xie, X. Zhang, W. Wei, W. Liu, Q. Tian, X. Wang, arXiv:2310.08528
4. “Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models” H. Ling, S. W. Kim, A. Torralba, S. Fidler, K. Kreis, arXiv:2312.13763
5. “SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM” N. Keetha, J. Karhade, K. M. Jatavallabhula, G. Yang, S. Scherer, D. Ramanan, J. Luiten, arXiv:2312.02126
6. “A Survey on 3D Gaussian Splatting” G. Chen, W. Wang, arXiv:2401.03890