基于全新技术框架与生成算法AI初创公司解锁工业级3D AIGC

时间: 2025-01-14 18:21:32 |   作者: 爱游戏ayx下载

  提起虚拟世界,你也许马上会联想到电影《黑客帝国》、《头号玩家》以及开放世界游戏《荒野大镖客》、《GTA》等娱乐消费级场景。构建这些虚拟世界背后的 3D 资产,已形成了数百亿美元的巨大市场。

  但实际上,3D 虚拟世界在工业设计、标注数据生成、算法训练等诸多工业场景下,都具有巨大的需求潜力。

  从文字、音频(1D)到图片、视频(2D),AI 技术的快速的提升引发了内容生产方式的革命性变化,在巨大的市场驱动下,3D 正慢慢的变成为人工智能生成内容(AIGC,Artificial Intelligence Generated Content)的下一个“战场”。

  今年 9 月,美国国家工程院院士、美国斯坦福大学教授李飞飞以打造大世界模型为目标,宣布成立美国 AI 初创公司 WorldLabs,并提出“空间智能”的概念。

  在国内,一家名为 Intime AI(虚时科技)的初创公司聚焦高保线D 场景的自动生成领域,在行业内逐渐崭露头角。

  值得关注的是,该公司从筹备至今历时仅半年时间,已经在技术上取得突破,并在某 S 级影视剧的绿幕背景合成环节实现商业落地。

  据悉,目前 Intime AI 自研的 Aether 模型能够基于提示词在数小时内生成达到影视级标准的高保线D 场景,与传统方式相比,效率提升了数十倍。

  从文字、音频到图片、视频,AIGC 的发展路径与人类对内容的主流消费模式是高度关联的,人类总是倾向于消费单位时间内信息密度更高的内容形式。

  在此过程中,形成了众多耳熟能详的 AIGC 大模型。例如,以 GPT-4 为代表的自然语言处理模型,以 Midjourney 为代表的图片生成模型,以 Sora、Runway 和可灵 AI 为代表的视频生成模型。

  但是,既然人类并不能直接感知、消费 3D 内容,为什么 3D 还能成为 AIGC 的一个重要的发展领域?为什么前些年提出的元宇宙、XR 等 3D 消费场景能够一度激发如此大的市场热情?

  终其原因,物理世界本质是三维的,3D 是现实世界的表示形式与信息的终极载体。因此,3D 表现形式独有的空间感知能力,能够为内容增添沉浸感和真实感,并真实无损地传递信息。

  而降维储存信息的方式,无论文字、图片还是音视频,都可能会导致信息损失,在“所想”与“所见”之间割裂出一道鸿沟。

  从 AIGC 的角度来看,3D 内容的终极目标,即大世界模型,不仅有望突破现有需求的极限,在娱乐、教育、科研、设计和制造等多个领域激发新的需求,提供全新的使用者真实的体验,其本身对于 AI 的演进和智能的进一步涌现,也具有决定性意义。

  然而,想要真正的完成虚拟世界的实时生成能力,3D AIGC 仍面临诸多挑战。首当其冲的问题是 3D 数据集的极度稀疏,由于 3D 数据的应用领域繁多、各领域对 3D 数据的表达差异显著,数据收集与标注的难度极大。

  同时,与 2D 数据相比,3D 数据复杂度高,并缺乏通用性表达,即使获得了足够的数据,能否无损地输入模型进行训练也是一个不小的挑战。

  另外,AIGC 目前普遍面临可控性差的问题,使其难以嵌入专业的生产管线,这在图片、视频等领域均有体现。但对于专业门槛更高、分工更加精细的 3D 领域,无法渗透到传统的工作流意味着产品从根本上“不可用”,这将导致该领域的商业化落地显得困难重重。

  为应对上述挑战,Intime AI 突破现有主流方案,提出了一种颠覆性的自研技术框架,并在此框架下开发出一整套原创算法,通过把 3D 数据降维进行通用表达,不仅大幅度降低了训练数据量级,同时还将真实物理世界的参数引入模型,明显提升了模型的生成质量。

  此外,模型生成内容还具备完全的可编辑性,使其能够很好地嵌入下游需求方的生产管线D 场景模型目前被命名为“Aether”,名称缘起于漫威宇宙中的现实宝石,象征着团队希望能够通过这项技术实现随意创造并改造数字世界的能力。

  Intime AI 创始人兼 CEO 王德駪博士说道:“3D AIGC 面临的数据集稀疏、商业化落地难等痛点是客观事实,但机遇和挑战永远是一体两面的,目前的各种难题使得行业在短期内难以出现一个通用性的解决方案,这也给了我们这样的初创公司进入行业和加快速度进行发展的机会。”

  对于解决 3D 领域挑战的核心,王德駪认为终究是需要着眼于算法。“数据量、可控性、可编辑等问题对于 DiT(Diffusion Transformer)架构来说是极难解决的。实际上对于 AI 本身来说,Transformer 架构的潜力也已经接近瓶颈,我们想要在 3D 这条路上走下去、走得远,就必须在技术框架和算法层面进行革新。”

  通过一系列的大胆尝试和技术革新,Aether 模型目前已经取得了一定的技术优势,主要体现为:

  传统方法制作大型世界场景需要数周甚至数月的时间,而该模型能在几小时内完成同等规模场景的生成,小规模场景可在不到 1 小时内完成。

  值得关注的是,Aether 模型的核心算法由团队自研,不同于传统的 DiT 架构,该算法通过引入物理参数和对人工建模过程的模拟,使得模型的生成质量得到大幅度的提高,尤其在保真度和几何结构、拓扑布线等方面,质量已接近人工建模的水平。

  在精度方面,模型生成的单一场景包含超过 2000 万个平面多边形,超高的细腻度使生成场景的呈现效果更真实和自然。

  基于 DiT 架构生成的内容普遍面临可控性差的问题,使其难以嵌入传统的专业生产管线D 领域显得很突出。

  Aether 模型的优势之一在于,其生成场景及其中的所有资产均支持用户二次编辑,并能输出适配主流 3D 引擎的各种文件格式,这对于快速实现商业化具备极其重大意义。

  王德駪在 AI 领域深耕十余年,于美国特拉华大学获得博士学位,期间主要研究方向为机器学习算法和优化。

  毕业后曾在美国科技公司亚马逊长期担任 Alexa 语音助手项目语音识别技术(ASR,Automatic Speech Recognition)的负责人,带领团队落地了基于 Transformer 架构的语音识别模型。

  在美国学习和工作的十余年时间中,他的工作和研究覆盖了 AI 算法的多个方向和数据结构,并拥有多项语音算法专利。

  见证了 AI 技术从机器学习到深度学习算法,再到基于 Transformer 架构的大模型,技术的持续爆发和应用场景的不断演变让他深刻感受到,3D 将是 AIGC 的下一个涌现。

  Intime AI 的创始团队汇集了海内外知名互联网巨头的技术骨干,以及工业 3D 设计、金融投资等领域的行业专家,能够助力公司在发展的策略、产品适配、商业路径规划等方面合理规划。

  王德駪表示:“除了在技术层面的革新,我们在产品定位和商业化方面做了大量思考与行业调研,对于现阶段的技术能力来说,我认为 3D AIGC 应该先做到‘能用‘、‘垂直领域商业化’,再向‘好用’和‘多领域全面商业化’去发展。

  “无论在影视还是游戏中,‘对象’给到用户的第一需求场景就是道具、角色形象,但这些基本都是以近景、特写的形式呈现的,这就对模型的质量提出了很高的要求,而质量不够高、可控性差又恰恰是目前 AIGC 的难点,这就导致了商业落地难的问题。”

  他指出,相反,“场景”往往是以中远景去进行视觉呈现,这天然给 AI 生成内容提供了一定的包容度。因此 Intime AI 认为,从“场景”出发是更好的切入点,产品落地的可能性更高。

  目前 Intime AI 已经与行业内头部影视制作公司达成合作,通过高效生成 3D 场景帮助用户进行影视素材的背景合成和虚拟拍摄等工作。

  当前,公司以场景生成为切口,通过嵌入影视行业传统工作流,在拓展 B 端业务的同时积累高质量数据、推动模型基础能力的持续提升。

  未来一至两年内,公司计划将模型 SaaS 化,打造面向 3D 专业创作者的高效智能工具,通过数据飞轮大幅度的提高模型的泛化能力,提供 3D 资产生成的通用性解决方案,并将公司经营事物的规模重点拓展至游戏与空间智能领域。

  “我们计划在未来一年内推出面向 C 端的 AI 3D 智能引擎,这将为专业创作者提供颠覆性的使用体验,并在游戏制作、空间智能等消费级与工业级场景打开广阔的市场空间,通过商业和技术的循环迭代打造强劲的竞争优势。”王德駪说。

  此外,他们以实现 4D 大世界模型的生成能力为远期目标,计划进一步在模型中融入多种动态感知技术,如数字人与场景的互动、高质量物理模拟等。

  随着 3D AIGC 领域技术的累积和发展,未来相关领域的传统生产方式是否会被完全替代呢?

  王德駪认为,由于 3D 本身就是一个专业门槛很高的内容形式,且不同于图片或视频,3D 资产并没有很直接的 C 端消费场景,因此 3D AIGC 几乎只能作为传统创作者的辅助工具,嵌入专业生产管线中,而非彻底颠覆现有的内容生产方式和流程。

  “面对诸多挑战,3D AIGC 应遵循‘渐进’、‘可行’的发展路径,这其中最关键的还是算法的突破和数据的积累。”他说。

  尽管 AI 技术在 3D 领域仍面临许多未知和挑战,但正是这些未知因素,为技术发展和 3D AIGC 赛道的创业带来了无限的可能性。

  哈登26+5+11无缘今日最佳球员!因为杰伦-格林42+3+4生涯最佳一战

  聚焦中学英语读写素养提升,中国教师报课改中国行(英语)公益教研会在广州落幕

  妈妈发现宝宝一个眼大一个眼小。一看爸爸全明白了,原来是复制粘贴~以后你俩去割双眼皮能不能收一份钱。

  妈妈查看萌娃的手 萌娃一直盯着妈妈,温温柔柔的小眼神把人都给萌化了。“他的眼里都是你,他最爱的妈妈”



上一篇:东方财富财经早餐 12月13日周五 下一篇:泸州造!四川省首台金属3D打印工业母机下线露脸

    关于我们

    爱游戏平台网址