Модели искусственного интеллекта (ИИ) добились огромных успехов в создании визуального контента, однако создание видео остается сложным и ресурсоемким процессом. Самые продвинутые модели часто требуют сотен шагов для создания качественного видео. Столкнувшись с этой проблемой, исследователи OpenAI Ченг Лу и Янг Сонг разработали революционную модель когерентности в непрерывном времени (sCM), способную создавать видео в пятьдесят раз быстрее, чем существующие модели. Их работа может проложить путь к созданию приложений генеративного ИИ в реальном времени — прорыв с многообещающими последствиями для будущего СМИ.
Диффузионные модели: основа генеративного ИИ
Чтобы понять это нововведение, полезно кратко рассмотреть, что такое диффузионная модель — один из наиболее часто используемых типов моделей в генеративном искусственном интеллекте. Эти модели, иногда называемые генеративными моделями на основе оценок, работают в три основных этапа: прямой процесс, обратный процесс и этап выборки. Модель учится генерировать визуальный контент, тренируясь на больших объемах данных, которые она анализирует и декомпозирует, чтобы воссоздать новое, последовательное и реалистичное творение.
Однако в типичной модели передачи данных процесс выборки происходит медленно, поскольку требует корректировки каждой детали генерируемого контента. Это требует сотен итераций и значительных вычислительных мощностей, поэтому в системах ИИ часто наблюдаются задержки. Этот процесс еще более сложен для видео, где последовательность от одного изображения к другому является залогом плавного рендеринга.
Революционная модель, позволяющая сократить количество этапов до двух
Главный прорыв, которого добились инженеры OpenAI, заключается в том, что им удалось свести процесс визуализации всего к двум этапам — упрощение, которое кардинально меняет скорость генерации. В то время как другим моделям требуется несколько секунд и более для создания качественного видео, модель sCM Лу и Сонга достигает этой производительности за доли секунды. Сохранив только два основных этапа, модель сохраняет качество генерируемого контента, но при этом значительно ускоряет процесс, что снижает сложность и потребность в вычислительной мощности.
Для достижения такой скорости модель sCM использует более 1,5 миллиарда параметров, которые позволяют системе анализировать и создавать видео с невероятной точностью. Более того, она может работать на стандартном промышленном оборудовании, таком как графический процессор A100, что делает ее гораздо более доступной, чем модели, требующие специализированного и дорогостоящего оборудования.
Последствия и потенциальные применения модели OpenAi
Модель OpenAI sCM открывает двери для генеративных приложений в реальном времени — области, в которой ИИ может преобразовать целые отрасли, от развлечений до цифровых коммуникаций. При создании контента эта модель может позволить создателям быстро генерировать персонализированные видеоролики, открывая возможности для маркетинга, образования и социальных сетей. Представьте себе мир, в котором создатели контента могут создавать высококачественные видеоролики за считанные секунды, не требуя при этом высоких технических навыков или дорогостоящих ИТ-ресурсов.
Более того, эта модель гораздо менее энергоемка, чем существующие системы, что является особенно ценной экономией ресурсов в то время, когда энергопотребление приложений ИИ стремительно растет. Исследователи также надеются, что эта модель будет способствовать развитию дополненной реальности (AR) и виртуальной реальности (VR), где изображения и видео в реальном времени могут быть интегрированы в виртуальные среды более плавно и реалистично.