3D 模型生成

3D 生成

3D 生成，顾名思义是根据文本提示词或参考图像制作 3D 模型的任务。

如果能像 text2image 那样，单纯地从噪点中出现模型就好了，但正如视频在时间轴方向上多了一个维度一样，3D 生成在空间方向上增加了维度，因此无法简单实现。

先说明一下，3D 生成还没有达到专业使用的性能。但是，从图像中创造模型，甚至创造可以四处走动的世界的技术正在稳步成长。

让我们稍微追踪一下这项正处于发展中的技术的潮流。

※ 无论是时间顺序还是技术关联都相当随意。请随意看看。

3D 生成

多视角生成

原本就存在 NeRF 这种从图像制作 3D 空间・模型的技术。但是，要用 NeRF 构建 3D，需要从各种视角观察同一对象的图像。

出于这个观点诞生的就是多视角生成。

Zero-1-to-3

Zero-1-to-3: Zero-shot One Image to 3D Object

基于扩散模型的最初期的多视角生成，生成改变了输入图像相机构图的新视角的图像。

当时觉得无论是否用于 3D 生成都很方便，但要求规格太高没能用上。现在，用基于指令的图像编辑可以很容易地做类似的事情呢。

Zero123++

Zero-1-to-3 是“制作一张输入图像的别角度图像 → 改变角度多次旋转”的用法，但 Zero123++ 是同时生成多个视角。

众所周知，扩散模型如果批量生成多张（cf. Batch・视频），生成的图像之间在某种程度上具有一致性。

3D 生成从一开始就需要全方位的多张图像。 Zero123++ 可以说是利用了这个性质，朝着“一次生成，尽可能汇总制作一致的多视角”方向发展的模型。

视频生成模型的登场

稍微晚一点，能够生成视频的模型开始登场。

在这里，出现了能不能不把多视角生成作为“图像编辑的一种”来处理，

绕着对象物体转一圈拍摄的视频＝被切分得非常细的多视角

而是作为这样来处理呢？的想法。

Stable Video 3D

Introducing Stable Video 3D

基于 Stable Video Diffusion 的 image2model。

SV3D.json

{
  "last_node_id": 17,
  "last_link_id": 21,
  "nodes": [
    {
      "id": 15,
      "type": "CLIPVisionLoader",
      "pos": [
        90,
        350
      ],
      "size": {
        "0": 315,
        "1": 58
      },
      "flags": {},
      "order": 0,
      "mode": 0,
      "outputs": [
        {
          "name": "CLIP_VISION",
          "type": "CLIP_VISION",
          "links": [
            18
          ],
          "shape": 3
        }
      ],
      "properties": {
        "Node name for S&R": "CLIPVisionLoader"
      },
      "widgets_values": [
        "OpenCLIP-ViT-H-14.safetensors"
      ],
      "color": "#232",
      "bgcolor": "#353"
    },
    {
      "id": 10,
      "type": "SV3D_Conditioning",
      "pos": [
        490,
        240
      ],
      "size": {
        "0": 315,
        "1": 170
      },
      "flags": {},
      "order": 5,
      "mode": 0,
      "inputs": [
        {
          "name": "clip_vision",
          "type": "CLIP_VISION",
          "link": 18,
          "slot_index": 0
        },
        {
          "name": "init_image",
          "type": "IMAGE",
          "link": 20,
          "slot_index": 1
        },
        {
          "name": "vae",
          "type": "VAE",
          "link": 16,
          "slot_index": 2
        }
      ],
      "outputs": [
        {
          "name": "positive",
          "type": "CONDITIONING",
          "links": [
            11
          ],
          "shape": 3,
          "slot_index": 0
        },
        {
          "name": "negative",
          "type": "CONDITIONING",
          "links": [
            12
          ],
          "shape": 3,
          "slot_index": 1
        },
        {
          "name": "latent",
          "type": "LATENT",
          "links": [
            13
          ],
          "shape": 3,
          "slot_index": 2
        }
      ],
      "properties": {
        "Node name for S&R": "SV3D_Conditioning"
      },
      "widgets_values": [
        576,
        576,
        21,
        0
      ],
      "color": "#232",
      "bgcolor": "#353"
    },
    {
      "id": 14,
      "type": "VAELoader",
      "pos": [
        500,
        470
      ],
      "size": {
        "0": 315,
        "1": 58
      },
      "flags": {
        "collapsed": true
      },
      "order": 1,
      "mode": 0,
      "outputs": [
        {
          "name": "VAE",
          "type": "VAE",
          "links": [
            16,
            17
          ],
          "shape": 3,
          "slot_index": 0
        }
      ],
      "properties": {
        "Node name for S&R": "VAELoader"
      },
      "widgets_values": [
        "vae-ft-mse-840000-ema-pruned.safetensors"
      ]
    },
    {
      "id": 4,
      "type": "CheckpointLoaderSimple",
      "pos": [
        90,
        180
      ],
      "size": {
        "0": 315,
        "1": 98
      },
      "flags": {},
      "order": 2,
      "mode": 0,
      "outputs": [
        {
          "name": "MODEL",
          "type": "MODEL",
          "links": [
            19
          ],
          "slot_index": 0
        },
        {
          "name": "CLIP",
          "type": "CLIP",
          "links": [],
          "slot_index": 1
        },
        {
          "name": "VAE",
          "type": "VAE",
          "links": [],
          "slot_index": 2
        }
      ],
      "properties": {
        "Node name for S&R": "CheckpointLoaderSimple"
      },
      "widgets_values": [
        "SV3D\\sv3d_p.safetensors"
      ],
      "color": "#232",
      "bgcolor": "#353"
    },
    {
      "id": 16,
      "type": "LoadImage",
      "pos": [
        83,
        485
      ],
      "size": [
        352.31848818847664,
        437.0448823632812
      ],
      "flags": {},
      "order": 3,
      "mode": 0,
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            20
          ],
          "shape": 3
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null,
          "shape": 3
        }
      ],
      "properties": {
        "Node name for S&R": "LoadImage"
      },
      "widgets_values": [
        "ComfyUI_01605_.png",
        "image"
      ]
    },
    {
      "id": 8,
      "type": "VAEDecode",
      "pos": [
        1200,
        220
      ],
      "size": [
        162.6986083984375,
        46
      ],
      "flags": {},
      "order": 7,
      "mode": 0,
      "inputs": [
        {
          "name": "samples",
          "type": "LATENT",
          "link": 7
        },
        {
          "name": "vae",
          "type": "VAE",
          "link": 17
        }
      ],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            21
          ],
          "slot_index": 0
        }
      ],
      "properties": {
        "Node name for S&R": "VAEDecode"
      }
    },
    {
      "id": 17,
      "type": "VHS_VideoCombine",
      "pos": [
        1394,
        225
      ],
      "size": [
        492.2207889102224,
        704.2207889102224
      ],
      "flags": {},
      "order": 8,
      "mode": 0,
      "inputs": [
        {
          "name": "images",
          "type": "IMAGE",
          "link": 21
        },
        {
          "name": "audio",
          "type": "VHS_AUDIO",
          "link": null
        },
        {
          "name": "batch_manager",
          "type": "VHS_BatchManager",
          "link": null
        }
      ],
      "outputs": [
        {
          "name": "Filenames",
          "type": "VHS_FILENAMES",
          "links": null,
          "shape": 3
        }
      ],
      "properties": {
        "Node name for S&R": "VHS_VideoCombine"
      },
      "widgets_values": {
        "frame_rate": 8,
        "loop_count": 0,
        "filename_prefix": "AnimateDiff",
        "format": "image/gif",
        "pingpong": false,
        "save_output": false,
        "videopreview": {
          "hidden": false,
          "paused": false,
          "params": {
            "filename": "AnimateDiff_00014.gif",
            "subfolder": "",
            "type": "temp",
            "format": "image/gif"
          }
        }
      }
    },
    {
      "id": 3,
      "type": "KSampler",
      "pos": [
        855,
        220
      ],
      "size": {
        "0": 315,
        "1": 262
      },
      "flags": {},
      "order": 6,
      "mode": 0,
      "inputs": [
        {
          "name": "model",
          "type": "MODEL",
          "link": 14
        },
        {
          "name": "positive",
          "type": "CONDITIONING",
          "link": 11
        },
        {
          "name": "negative",
          "type": "CONDITIONING",
          "link": 12
        },
        {
          "name": "latent_image",
          "type": "LATENT",
          "link": 13
        }
      ],
      "outputs": [
        {
          "name": "LATENT",
          "type": "LATENT",
          "links": [
            7
          ],
          "slot_index": 0
        }
      ],
      "properties": {
        "Node name for S&R": "KSampler"
      },
      "widgets_values": [
        12345,
        "fixed",
        20,
        8,
        "dpmpp_2m",
        "karras",
        1
      ]
    },
    {
      "id": 11,
      "type": "VideoTriangleCFGGuidance",
      "pos": [
        526,
        126
      ],
      "size": [
        238,
        58
      ],
      "flags": {},
      "order": 4,
      "mode": 0,
      "inputs": [
        {
          "name": "model",
          "type": "MODEL",
          "link": 19
        }
      ],
      "outputs": [
        {
          "name": "MODEL",
          "type": "MODEL",
          "links": [
            14
          ],
          "shape": 3,
          "slot_index": 0
        }
      ],
      "properties": {
        "Node name for S&R": "VideoTriangleCFGGuidance"
      },
      "widgets_values": [
        1
      ],
      "color": "#232",
      "bgcolor": "#353"
    }
  ],
  "links": [
    [
      7,
      3,
      0,
      8,
      0,
      "LATENT"
    ],
    [
      11,
      10,
      0,
      3,
      1,
      "CONDITIONING"
    ],
    [
      12,
      10,
      1,
      3,
      2,
      "CONDITIONING"
    ],
    [
      13,
      10,
      2,
      3,
      3,
      "LATENT"
    ],
    [
      14,
      11,
      0,
      3,
      0,
      "MODEL"
    ],
    [
      16,
      14,
      0,
      10,
      2,
      "VAE"
    ],
    [
      17,
      14,
      0,
      8,
      1,
      "VAE"
    ],
    [
      18,
      15,
      0,
      10,
      0,
      "CLIP_VISION"
    ],
    [
      19,
      4,
      0,
      11,
      0,
      "MODEL"
    ],
    [
      20,
      16,
      0,
      10,
      1,
      "IMAGE"
    ],
    [
      21,
      8,
      0,
      17,
      0,
      "IMAGE"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "0246.VERSION": [
      0,
      0,
      4
    ]
  },
  "version": 0.4
}

输入一张静止画
生成该物体旋转一圈的 360 度视频
将视频的各帧作为别视角的图像处理，从中恢复 3D

将视频生成模型应用于 3D 模型生成这一潮流本身现在也在持续。

现在的视频生成模型比那时性能高得多，所以即使不进行专用的微调，也能生成高精细的 360 度旋转视频呢。

直接瞄准 image→3D 模型的模型

到现在为止，前提是

首先收集多视角（或者旋转视频）
用别的机制把它变成 3D

这样的“两段构成”。

从那里更进一步，

输入是图像（或文本），输出直接是 3D 模型

正面瞄准这种形式的模型已经出现了。

Hunyuan3D-2.1

Hunyuan3D-2.1 是用于从图像或文本制作 3D 资产的大规模模型。

首先是只输出“形状”部分的阶段（粗略的 3D 形状）
之后是贴上包含 PBR 纹理的高分辨率外观的阶段

是这样的两段构成。

SAM 3D Objects

SAM 3D Objects 是从一张实景图像恢复 3D 对象的模型。

2D 侧使用 SAM 系的分割，好好地切出对象物体
以切出的区域为线索，一边补充隐藏的部分一边推断 3D 形状和纹理

是这样的流程。

虽然技术上的内容完全是两码事，但两者都是试图从正面解开“image → 3D 模型”的东西。

World 模型

到此为止，都是关于将单一对象 3D 模型化的故事。另一方面，从照片创造整个世界的尝试也在进行中。

这里说的“World 模型”，比起世界模型（物理预测），更多的是 构建 3D 世界（场景）的模型 的意思。

360 度全景生成

起步是 360 度全景生成。

Latent Labs 的工具，或 HunyuanWorld-1.0 等相当于此。

将输入图像贴在全景球面上
用 outpainting 补充没有拍到的方向

通过这种简单的想法，制作“通过 360 度填补的外观”。

在这个阶段还不能说是 3D，但试图通过组合深度图或网格恢复，来构建有进深的 3D 空间。

HunyuanWorld-Mirror

到了 HunyuanWorld-Mirror，就更接近于本质上制作可以走动的世界了。

由以图像（或视频）为输入，汇总推断相机信息、深度、3D 表现（3D Gaussian 等）的组件构成。

3D 模型生成

3D 生成

3D 生成

多视角生成

Zero-1-to-3

Zero123++

视频生成模型的登场

Stable Video 3D

直接瞄准 image→3D 模型的模型

Hunyuan3D-2.1

SAM 3D Objects

World 模型

360 度全景生成

HunyuanWorld-Mirror

什么是 JSON 复制按钮？

这个页面有问题！

请补充讲解！

感想 / 其他

感谢！