単眼深度推定技術「Marigold」について | cloud.config Tech Blog

はじめに

こんにちは！株式会社FIXER、2025新入社員の高井良です。

メタバースやVR分野に興味があり、2Dから3Dのモデリングをできる技術の存在を知ってその技術に関連したものを卒業論文のテーマにしました。
今回は、卒業論文の関連技術として興味を持った、単眼深度推定技術の「Marigold」についてご紹介します！

単眼深度推定とは

単眼深度推定とは単一のカメラ画像から各ピクセルの深度値を推定するタスクです。複数枚の画像から深度を推定することは想像できますが、1枚の画像から推定可能という点が非常に興味深い点だと思います。

応用分野

自動運転
拡張現実（AR）
ロボティクス　など

このタスクは深層学習の発達によって大幅に精度が向上しており、その中でも紹介したいのがMarigoldという技術です！

Marigoldについて

MarigoldはStable Diffusionベースの単眼深度推定技術です。

Stable Diffusionのモデルを深度推定に特化するようにファインチューニングしています。
Marigold以前の単眼深度推定技術と比較して、非常に高い精度を誇っており論文にてそれが証明されています。さらに3次元モデルの生成にもつながる技術となっており、さらに多くの分野への応用が期待されます。

その他の技術

卒業論文で関連技術を調べている際に知った、単眼深度推定以外に3Dモデリングをする技術も紹介します。

NeRF
Gaussian Splatting

これらの技術は複数画像からシーン表現を生成し、任意の視点からの画像を生成できる技術です。それぞれの特徴について詳しく紹介します。

NeRFは数十枚から数百枚の画像を入力し、そこから新しい視点からのシーンを生成することができます。当時の関連技術と比較して非常に高精度な画像を生成することができたため注目されました。

Gaussian SplattingはNeRFのあとに開発された技術で、3Dガウスと呼ばれる楕円形状の分布を重ね合わせることで3次元空間を構成します。

この3Dガウスは、

位置
ばらつき
透明度
色

のパラメータで構成されていて、楕円が採用されたのは円や球状のものとひかくしたところ最も精度が高く描画ができたからであると、論文で述べられています。

＜メリット＞
短時間で画像生成が可能
NeRFと同等レベルの精度で描画できる

＜デメリット＞
データ容量とメモリが重い
複雑な空間の撮影が難しい

おわりに

私が卒業論文に取り組んでいた当初、VRの分野に興味があり、生成AIによって無数のVRコンテンツが生み出せるような技術に関して調べていました。そこで発見した技術がこのMarigoldというものです。
単一のカメラ画像には情報がない部分（風景の裏側）などを生成AIによって補完することができるようになれば、1枚のイメージ画像をもとに1つの仮想空間を生成することが可能になるのではないでしょうか。