Cointime

扫码下载App
iOS & Android

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

今天,OpenAI悄悄的发布了文字生成3D的模型Shap.E,并且在Github上开源的模型。

OpenAI总裁发推:

文字生成3D一直Generative AI领域的下一个明珠,就在最近Midjourney也被报道正在进行相关研究,OpenAI和各家大厂也进行过类似的研究。

text to 3d是一种将文本描述转换为三维模型的技术,近年来有很多研究机构和公司在这方面进行了探索和创新:

  • Magic3D:这是NVIDIA研究院的一个新的text to 3d内容创作工具,它可以创建高质量的三维网格模型,并且支持图像条件生成和基于提示的编辑。它利用了低分辨率和高分辨率的扩散模型,以及一个高效的可微渲染器,来优化神经辐射场(NeRF),从而实现了比DreamFusion更快更清晰的text to 3d合成效果。
  • Point-E:这是OpenAI发布的一个text to 3d生成器,它可以从文本输入生成点云模型,而不是网格或表面模型。它的优点是生成速度快,计算资源少,只需要一块GPU就可以在几分钟内完成text to 3d转换。它还可以与OpenAI的点云到网格模型结合,从而得到更完整的三维模型。
  • Imagen:这是Google开发的一个神经网络,它可以从文本描述生成三维模型,并且不需要人工标注数据。它基于一个预训练的图像生成模型,通过自注意力机制和对抗学习,来学习文本和图像之间的对应关系,并且能够处理复杂和抽象的文本输入。

OpenAI公布了详细的论文,以及在Github上公布了模型。

https://github.com/openai/shap-e

根据论文的内容:

作者们提出了一种名为Shap·E的3D生成模型。Shap·E与其他3D生成模型的不同之处在于,它可以同时生成两种类型的3D表示:纹理网格(textured meshes)和神经辐射场(neural radiance fields)。这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序。

为了实现这一目标,作者们分两个阶段训练Shap·E模型。首先,他们训练一个编码器,将3D资源确定性地映射到隐含函数的参数。其次,他们在编码器的输出上训练一个条件扩散模型。在大量成对的3D和文本数据集上训练后,Shap·E能够在短短几秒钟内生成复杂且多样化的3D资源。

与最近提出的基于点云的显式3D生成模型Point·E相比,Shap·E收敛得更快,并在相同的模型架构、数据集和条件机制下实现了可比较甚至更好的样本质量。有趣的是,Shap·E和Point·E在图像条件下的成功和失败案例相似,这表明不同的输出表示方式可能会导致类似的模型行为。然而,在直接使用文本描述进行条件化时,两者之间还是存在一些质量上的差异。

尽管Shap·E模型在文本条件下的3D生成样本质量仍不如基于优化的方法,但其推理时间比这些方法快得多,从而可能实现更优的性能权衡。作者在https://github.com/openai/shap-e上发布了模型、推理代码和样本。

作者将Shap·E与其他3D生成技术进行了比较,使用了CLIP R-Precision指标(见表2)。正如Nichol等人所做的那样,他们在这个表格中包括了采样延迟,以强调基于优化的方法在生成质量上的优越性是以显著的推理成本为代价的。

值得注意的是,Shap·E的推理速度比Point·E更快,因为Shap·E不需要额外的上采样扩散模型。

作者也提到了模型目前的缺陷包括:

首先,虽然基于文本的模型可以理解许多具有简单属性的单个物体,但它在组合概念方面的能力有限。例如,该模型在处理需要计数和属性绑定的提示时可能会遇到困难。这些问题可能是由于有限的成对训练数据所导致的,通过收集或生成更大的带注释的3D数据集可能有助于解决这些问题。

其次,尽管Shap·E通常可以生成可识别的3D资产,但生成的样本通常看起来粗糙或缺乏细节。例如,编码器有时会丢失详细的纹理(如仙人掌上的条纹),这表明改进的编码器可能有助于恢复一些丢失的生成质量。

文字生成3D的研究虽然还不如图片成熟,但是这是一个非常重要的方向因为:

  • 它可以提高三维内容创作的效率和质量:text to 3d可以让用户通过简单的文本描述来生成高质量的三维模型,而不需要复杂的建模软件或专业的设计技能。text to 3d还可以结合图像条件生成和基于提示的编辑,让用户更好地控制三维合成的过程和结果。text to 3d可以为各种领域提供更快速、更便捷、更创新的三维内容创作工具。
  • 它可以拓展三维内容的应用场景和价值:text to 3d可以将文本转换为不同格式的三维模型,如网格、点云、神经辐射场等,适合用于不同的应用场景,如游戏、动画、教育、娱乐等。text to 3d还可以与其他技术结合,如虚拟现实、增强现实、3D打印等,为用户提供更丰富和更沉浸的三维体验。
  • 它可以促进三维内容的共享和交流:text to 3d可以将文本作为一种通用和易于理解的媒介,来表达和传递三维内容。text to 3d可以让用户通过文本来搜索、浏览、评论、修改或生成三维内容,而不需要下载或安装任何软件或数据。text to 3d可以为用户提供更方便和更友好的三维内容共享和交流平台
评论

所有评论

推荐阅读

  • 美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

    据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

  • Erik Voorhees再次增持1.44万枚ETH,总持仓量突破11.7万枚

    3 月 21 日,据 AI 姨监测,ShapeShift 创始人、比特币早期支持者 Erik Voorhees 关联地址,过去 11 小时买入 14,424.53 ETH,总持仓突破 11.7 万枚,持仓均价 2,160.24 美元,当前浮亏 114.5 万美元。

  • 消息人士:特朗普政府正制定方案以夺取伊朗核材料储备

    Cointime 报道,3月21日消息,据美国哥伦比亚广播公司(CBS)报道,多位知情人士透露,特朗普政府一直在谋划获取或转移伊朗核材料的方法和选项。此时,由美国和以色列领导的针对伊朗的军事行动正进入一个更加不确定的阶段。 关于特朗普是否会下令实施此类行动,目前时机尚不明确。一位消息人士表示,他尚未做出任何决定。但两位消息人士表示,相关规划的核心是可能部署来自联合特种作战司令部的部队,该部队是精英军事单位,常负责最敏感的防扩散任务。(金十)

  • GameFi板块市值暂报45.15亿美元,FLOKI排名第一

    3 月 21 日,据 Coingecko 数据,GameFi 板块市值暂报 45.15 亿美元,FLOKI 以 2.86 亿美元市值排名第一,排在第二第三位的分别为:The Sandbox(2.18 亿美元)、Undeads Games(2.11 亿美元)。此前 Solana 基金会主席 Lily Liu 表示,区块链游戏「不会再回归」。她认为,尽管行业曾寄望通过链上资产与开放世界推动 Web3 与元宇宙发展,但实际表现远未达预期。市场观点称链游长期依赖「Play-to-Earn」等代币激励模式,却缺乏真正吸引核心玩家的游戏性与内容构建能力,导致用户留存与生态可持续性不足。包括 Andreessen Horowitz(a16z)、Framework Ventures、Animoca Brands 在内的机构曾向该领域投入数十亿美元,但回报表现不佳。

  • Karpathy:大多数App不该存在,3个提示词让AI接管整个智能家居

    据 1M AI News 监测,Andrej Karpathy 在 No Priors 播客中称,应用商店里的大多数智能家居 App「根本不该存在,一切都该是 API 端点,Agent 才是智能粘合层」。他分享了今年 1 月构建的家庭 Agent「Dobby the elf claw」:只用三个提示词,Agent 自行扫描局域网发现了 Sonos 音响,逆向工程其协议后接管播放控制。如今 Dobby 通过 WhatsApp 对话统一控制灯光、空调、窗帘、泳池、安防系统,取代了此前六个独立 App。他还接入了视觉模型监控安防摄像头,有人到访时自动推送图片消息到 WhatsApp。「这在一两年内应该是免费的,不涉及任何 vibe coding,这是基本功,」Karpathy 说,「客户不再是人类了,而是代替人类行事的 Agent。这场重构的规模将相当可观。」

  • OpenAI创始成员:12月以来没写过一行代码,Agent用不好?「那是你菜」

    据 1M AI News 监测,「vibe coding」概念提出者、OpenAI 创始成员 Andrej Karpathy 在 No Priors 播客中透露,去年 12 月是他工作方式的分水岭。此前他自己写代码与委托 Agent 的比例约为 80:20,12 月之后反转为 20:80,「到现在可能已经不止了」,「我大概从 12 月起就没打过一行代码」。他将这种状态称为「AI 精神病」(AI psychosis):Agent 的能力边界尚未被充分探索,「一切皆有可能,而一切失败归根结底都是技能问题(skill issue)」。他开始像 PhD 时期看 GPU 利用率一样关注 Token 吞吐量,「订阅额度没用完就意味着你没有最大化产出」。他还描述了 Agent 的「锯齿感」:「我同时感觉在和一个极其聪明的、做了一辈子系统编程的博士生对话,又在和一个十岁小孩对话。」

  • 日媒:伊朗准备允许日本船只通过霍尔木兹海峡

    3 月 21 日,据日本共同社报道,伊朗外长阿巴斯·阿拉格奇表示,经两国官员协商,伊朗已准备好允许与日本相关的船舶通过霍尔木兹海峡。日本石油进口严重依赖中东地区。伊朗战争促使日本本月动用石油储备。日本一直面临特朗普要求其协助保卫该海峡的压力。本周早些时候,日本首相高市早苗在华盛顿与特朗普当面会晤时,向其说明了日本参与此类行动在法律上的限制。同时,她也强调了双方共识领域,包括承诺增加从美国进口石油以及就导弹研发开展合作。(金十)

  • Solana基金会主席:链游已「死亡」,行业数十亿美元投入或成最差赌注之一

    3 月 21 日,Solana 基金会主席 Lily Liu 表示,区块链游戏「不会再回归」。她认为,尽管行业曾寄望通过链上资产与开放世界推动 Web3 与元宇宙发展,但实际表现远未达预期。Solana 曾被视为最有潜力支撑大规模链游的公链之一,凭借高性能和低成本支持实时交互。然而,包括 Star Atlas、Stepn 等项目虽一度获得关注,但整体 GameFi 赛道自 2021 年高峰后持续下滑。市场观点指出,链游长期依赖「Play-to-Earn」等代币激励模式,却缺乏真正吸引核心玩家的游戏性与内容构建能力,导致用户留存与生态可持续性不足。包括 Andreessen Horowitz(a16z)、Framework Ventures、Animoca Brands 在内的机构曾向该领域投入数十亿美元,但回报表现不佳。不过,部分公司仍在探索转型路径,例如 Mythical Games 与 Gunzilla Games,逐步弱化区块链要素,将其作为可选功能而非核心机制,以提升用户体验与市场接受度。

  • 现货黄金失守4500美元关口,现货白银日内跌近7%

    3 月 21 日,据 Bitget 行情数据,现货黄金失守 4500 美元/盎司关口,日内跌超 3%;现货白银日内跌近 7%,现报 67.845 美元/盎司。消息面上,受美元走强影响,以及有报导称美国已为在伊部署地面部队做好详细准备,加剧了市场对油价上涨、通胀以及随之而来的利率上升的担忧。独立贵金属交易员 Tai Wong 表示:「随着市场的担忧在周末前走高,金银价格正被拖累走低。在经历了本周因加息担忧引发的剧烈回调后,贵金属走势尤为震荡。价格应会很快进行盘整,但过程将充满波折。」全球主要券商认为,欧洲央行和英国央行加息的可能性正在增加,最早可能在 4 月。美联储周三维持利率不变,并预测通胀将走高,而主席鲍威尔表示,由于战争的影响,未来的政策路径面临异常高的不确定性。

  • 智谱预告GLM-5.1将开源

    据 1M AI News 监测,智谱 Z.ai 全球负责人李子玄在 X 上发文:「Don't panic. GLM-5.1 will be open source.」(别慌,GLM-5.1 将会开源。)未透露发布时间及模型细节。