NVIDIA анонсирует новую технологию, которая позволяет создавать 3D модели из 2D изображений силами ИИ. Новый движок дает нам возможность с помощью искусственного интеллекта оживить культовый автомобиль Knight Rider, в NVIDIA Omniverse.
Приложение GANverse3D, разработанное исследовательской лабораторией NVIDIA AI Research Lab в Торонто, может создавать 3D-модели на основе фотографий, полученные модели можно визуализировать и контролировать в виртуальных средах.
Эта технология открывает широкие возможности для архитекторов, разработчиков игр и дизайнеров, давая им возможность легко добавлять новые объекты в свои макеты, при этом не требуя опыта в 3D-моделировании или большого бюджета на расходы на визуализацию.
Например, имею всего одну фотографию автомобиля, вы можете превратить ее в 3D-модель, которая будет иметь реалистичные фары, задние фонари и поворотники.
Для создания набора обучения, исследователи прибегли к использованию генеративной состязательной сети или GAN, для синтезирования изображений, представляющих собой один и тот же объект с разных точек зрения. Например, фотограф, который ходит вокруг припаркованного автомобиля, делая снимки с разных ракурсов. Все эти изображения, с разными ракурсами, были включены в структуру рендеринга для инверсной графики - процесс вывода 3D сетки модели из 2D изображений.
После обучения на изображениях с разных ракурсов GANverse3D достаточно одного 2D изображения для построения 3D объекта. Данная модель может использоваться с нейронным 3D рендером, который даёт разработчикам контроль над настройкой объектов и сменой фонов.
При импорте в виде расширения на платформу NVIDIA Omniverce и запуске на графических процессорах NVIDIA RTX - GANverse3D можно использовать для воссоздания любого 2D изображения в 3D формате - как, например, любимый автомобиль для борьбы с преступностью KITT из популярного телешоу 1980 годов "Рыцарь Дорог".
В предыдущих моделях инверсной графики, в качестве обучения, были использованы трёхмерные данные. Сейчас, по словам Ваньчжэн Чен — научного сотрудник NVIDIA и ведущего автор проекта — вместо 3D ресурсов, модель GAN выступает в роли очень эффективного генератора данных, для создания 3D объектов из любого 2D изображения в Интернете.
"Поскольку мы тренировались на реальных изображениях, вместо типичного пайплайна, который основан на синтетических данных, модель ИИ лучше обобщается на реальные приложения", - сказал исследователь NVIDIA Джун Гао, автор проекта.
Исследования GANverse3D будут представлены на двух предстоящих конференциях: Международная конференция по обучающим представительствам, в мае и Конференция по Компьютерному зрению и распознаванию образов, в июне.
От Flat Tire до Racing KITT.
Разработчики игр, архитекторы и дизайнеры полагаются на виртуальные среды, такие ка NVIDIA Omniverse - платформы для моделирования и совместной работы для проверки новых идей и визуализации прототипов перед созданием своих конечных продуктов. С Omniverse Connectors разработчики могут использовать предпочтительные для себя 3D приложения в Omniverse для моделирования сложных виртуальных миров при помощи рейтрейсинга в реальном времени.
Однако не каждый разработчик располагает временем и ресурсами для создания 3D моделей каждого объекта, для которого были созданы скетчи. Стоимость захвата большого количества изображений с разными ракурсами, необходимых для рендеринга массы автомобилей в выставочном зале или зданий на улице, может быть слишком высока.
Как раз в такой ситуации приложение GANverse3D можно использовать для преобразования стандартных изображений автомобиля, здания или даже площади в трёхмерную модель, которую впоследствии можно настроить и анимировать в Omniverse.
Для воссоздания KITT, исследователи просто "скармливали" обученной системе изображения автомобиля, позволяя GANverse3D "предсказывать" соответствующую трёхмерную текстурированную сетку, а также различные части автомобиля, например фары или колёса. После чего они использовали NVIDIA Omniverse Kit и инструменты NVIDIA PhysX для преобразования предсказанной текстуры в высококачественные материалы, которые придают KITT более реалистичный вид и помещают его в динамичную среду рядом с другими автомобилями.
"Omniverse позволяет предлагать захватывающие, передовые исследования непосредственно разработчикам и конечным пользователям", - говорит Жан Франсуа Лафлеш - инженер по глубокому обучению NVIDIA. "GANverse3D как расширение в Omniverse поможет художниками создавать более богатые виртуальные миры при разработке игры, планировать городскую среду или даже обучать новым моделям машинного обучения."
GAN - сила масштабного изменения.
Поскольку реальные наборы данных, которые фиксируют один и тот же объект под разными углами, редки, большинство инструментов ИИ, которые конвертируют изображения из 2D в 3D, обучаются с использованием синтетических наборов 3D данных, таких как ShapeNet.
Вместо получения изображений с разным ракурсом из реальных данных, например, изображений автомобилей, общедоступных в интернете, исследователи NVIDIA обратились к модели GAN - манипулируя с её слоями нейронной сети, дабы получить генератор данных.
Команда обнаружила, что открытие первых четырёх слоёв нейронной сети и замораживание оставшихся двенадцати заставили GAN визуализировать изображения одного и того же объекта с разных углов обзора.
Если первые четыре слоя оставались замороженные, а двенадцать остальных - переменными - нейронная сеть создавала разные изображения с одной и той же точки зрения. Вручную назначив стандарт точки обзора, с транспортными средствами, изображёнными на определённой высоте и на определённом расстоянии от камеры, исследователи могут быстро создать данные с разных ракурсов из отдельных 2D изображений."
Финальная модель, обученная на 55000 изображениях автомобилей, созданных GAN, превзошла сеть, обученную на популярном наборе данных Pascal3D.
По ссылке, вы можете ознакомиться с полной статьёй ICLR, автором которой являются Вэньчжэн Чен, коллеги - исследователи NVIDIA Цзюн Гао и Хуан Лин, Санджа Фидлер - директор исследовательской лаборатории в Торонто, студент университета Ватерлоо Юйсюань Чжан, студент Стэнтфорда Ииан Чжан и профессор Масачусетского технологического института Антонио Торральба. Среди других соавторов статьи CVPR - Жан Франсуа Лафлеш, исследователь NVIDIA Кансюэ Инь и Андела Барриусо.
Исследовательская группа NVIDIA состоит из более чем 200 учёных со всего мира, специализирующихся на таких областях как искусственный интеллект, компьютерное зрение, беспилотные автомобили, робототехника и графика.
Больше информации о последних исследованиях компании и отраслевых достижениях генерального директора NVIDIA Дженсена Хуанга можно узнать по основному докладу на конференции GPU Technology Conference на этой неделе.
https://render.ru/ru/news/post/20923