DALL–E 2, мощная система искусственного интеллекта OpenAI для преобразования текста в изображение, может создавать фотографии в стиле карикатуристов, дагерротипов 19-го века, аниматоров с остановкой движения и многих других. Но у него есть важное искусственное ограничение: фильтр, который не позволяет ему создавать изображения, изображающие общественных деятелей, и контент, который считается слишком токсичным.
Теперь альтернатива DALL–E 2 с открытым исходным кодом находится на пороге выпуска, и у нее не будет такого фильтра.
Стартап Stability AI, базирующийся в Лондоне и Лос–Альтосе, на этой неделе объявил о выпуске системы, подобной DALL-E 2, Stable Diffusion, для чуть более тысячи исследователей в преддверии публичного запуска в ближайшие недели. В результате сотрудничества между Stability AI, медиа-компанией RunwayML, исследователями Гейдельбергского университета и исследовательскими группами EleutherAI и LAION, Stable Diffusion разработан для работы на большинстве высокопроизводительных потребительских устройств, генерируя изображения 512 × 512 пикселей всего за несколько секунд при любой текстовой подсказке.
Стабильные результаты выборки диффузии.
“Стабильное распространение позволит как исследователям, так и вскоре широкой публике использовать это при различных условиях, демократизируя создание изображений”, — написал в блоге генеральный директор и основатель Stability AI Эмад Мостак. “Мы с нетерпением ждем открытой экосистемы, которая возникнет вокруг этой и других моделей, чтобы по–настоящему исследовать границы скрытого пространства”.
Но отсутствие гарантий в Stable Diffusion по сравнению с системами, подобными DALL–E 2, ставит сложные этические вопросы перед сообществом ИИ. Даже если результаты пока не совсем убедительны, создание поддельных изображений общественных деятелей открывает большую банку с червями. А предоставление сырых компонентов системы в свободном доступе оставляет дверь открытой для плохих актеров, которые могут обучать их субъективно неприемлемому контенту, такому как порнография и графическое насилие.
Создание стабильного распространения
Стабильная диффузия – детище Mostque. Окончив Оксфорд со степенью магистра математики и компьютерных наук, Мостк работал аналитиком в различных хедж–фондах, прежде чем переключиться на более публичные работы. В 2019 году он стал соучредителем Symmitree, проекта, направленного на снижение стоимости смартфонов и доступа в Интернет для людей, живущих в бедных сообществах. А в 2020 году Мостке был главным архитектором коллективного и расширенного интеллекта против COVID-19, альянса, помогающего политикам принимать решения перед лицом пандемии, используя программное обеспечение.
Он стал соучредителем Stability AI в 2020 году, мотивированный как личным увлечением ИИ, так и тем, что он охарактеризовал как отсутствие “организации” в сообществе ИИ с открытым исходным кодом.
Образ бывшего президента Барака Обамы, созданный стабильным распространением.
“Никто не имеет права голоса, кроме наших 75 сотрудников – ни миллиардеров, ни крупных фондов, ни правительств, ни кого—либо еще, кто контролирует компанию или сообщества, которые мы поддерживаем. Мы полностью независимы «, — сказал Мостак TechCrunch в электронном письме. “Мы планируем использовать наши вычисления для ускорения фундаментального ИИ с открытым исходным кодом”.
Мостк говорит, что стабильный ИИ финансировал создание LAION 5B, 250–терабайтного набора данных с открытым исходным кодом, содержащего 5,6 миллиарда изображений, взятых из Интернета. (“LAION” означает крупномасштабную открытую сеть искусственного интеллекта, некоммерческую организацию с целью сделать ИИ, наборы данных и код доступными для общественности.) Компания также работала с LAION group над созданием подмножества LAION 5B под названием LAION–Aesthetics, которое содержит отфильтрованные ИИ изображения, оцененные тестировщиками Stable Diffusion как особенно «красивые».
Первоначальная версия Stable Diffusion была основана на LAION–400M, предшественнике LAION 5B, который, как известно, содержал изображения секса, оскорбления и вредные стереотипы. LAION–Aesthetics пытается исправить это, но пока слишком рано говорить, насколько это успешно.
Коллаж из изображений, созданный Stable Diffusion.
В любом случае, Stable Diffusion основывается на исследованиях, проводимых OpenAI, а также Runway и Google Brain, одним из подразделений Google по исследованиям и разработкам в области ИИ. Система была обучена на парах текст–изображение от LAION-Aesthetics, чтобы изучить ассоциации между написанными понятиями и изображениями, например, как слово “птица” может относиться не только к синим птицам, но и к попугаям и белоголовым орланам, а также к более абстрактным понятиям.
Во время выполнения стабильная диффузия, подобная DALL–E 2, превращает процесс генерации изображений в процесс «диффузии“. Он начинается с чистого шума и со временем уточняет изображение, постепенно приближая его к заданному текстовому описанию, пока шум не исчезнет совсем.
Борис Джонсон владеет различным оружием, созданным стабильным распространением.
Стабильный ИИ использовал кластер из 4000 графических процессоров Nvidia A1000, работающих в AWS, для обучения стабильному распространению в течение месяца. CompVis, исследовательская группа по машинному зрению и обучению в Мюнхенском университете Людвига Максимилиана, курировала обучение, в то время как стабильный ИИ предоставил вычислительную мощность.
Стабильная диффузия может работать на видеокартах с объемом видеопамяти около 5 ГБ. Это примерно столько же, сколько у карт среднего класса, таких как GTX 1660 от Nvidia, стоимостью около 230 долларов. Ведется работа по обеспечению совместимости с картами центров обработки данных AMD MI200 и даже MacBook с чипом Apple M1 (хотя в последнем случае без ускорения GPU генерация изображения займет всего несколько минут).).
“Мы оптимизировали модель, сжав знания о более чем 100 терабайтах изображений», — сказал Мечеть. «Варианты этой модели будут работать с меньшими наборами данных, особенно с учетом того, что обучение с подкреплением с обратной связью с человеком и другие методы используются для использования этих общих цифровых мозгов и делают их еще меньше и сфокусированными”.
Образцы из Stable Diffusion.
В течение последних нескольких недель стабильный ИИ позволял ограниченному числу пользователей запрашивать модель стабильной диффузии через свой сервер Discord, замедляя увеличение максимального количества запросов для стресс-тестирования системы. Стабильный ИИ говорит, что более 15 000 тестировщиков использовали Stable Diffusion для создания 2 миллионов изображений в день.
Далеко идущие последствия
Стабильный ИИ планирует использовать двойной подход, чтобы сделать стабильное распространение более доступным. Модель будет размещена в облаке, что позволит людям продолжать использовать ее для создания изображений без необходимости запускать систему самостоятельно. Кроме того, стартап выпустит то, что он называет “эталонными” моделями, под разрешительной лицензией, которую можно использовать для любых целей — коммерческих или иных — а также вычислять для обучения моделей.
Это сделает стабильный ИИ первым, кто выпустит модель генерации изображений, почти такую же точную, как DALL-E 2. В то время как другие генераторы изображений на базе ИИ были доступны в течение некоторого времени, в том числе Midjourney, NightCafe и Pixelz.ai , ни у кого нет своих фреймворков с открытым исходным кодом. Другие, такие как Google и Meta, решили держать свои технологии в тайне, позволяя только избранным пользователям использовать их для узких случаев использования.
Стабильный ИИ будет зарабатывать деньги, обучая “частные” модели для клиентов и выступая в качестве общего инфраструктурного уровня, сказал Мостке – предположительно, с деликатным отношением к интеллектуальной собственности. Компания утверждает, что в разработке находятся другие коммерциализируемые проекты, в том числе модели ИИ для создания аудио, музыки и даже видео.
Песчаные скульптуры Гарри Поттера и Хогвартса, созданные в результате стабильной диффузии.
“Мы скоро представим более подробную информацию о нашей устойчивой бизнес–модели с нашим официальным запуском, но в основном это коммерческая программа с открытым исходным кодом: сервисы и масштабируемая инфраструктура», — сказал Мостке. “Мы думаем, что ИИ пойдет по пути серверов и баз данных, с открытыми проприетарными системами, особенно учитывая страсть наших сообществ”.
С размещенной версией Stable Diffusion, доступной через сервер Discord от Stability AI, стабильный ИИ не позволяет генерировать изображения любого типа. Условия предоставления услуг стартапа запрещают некоторые непристойные или сексуальные материалы (хотя и не скудно одетые фигуры), изображения ненависти или насилия (такие как антисемитская иконография, расистские карикатуры, женоненавистническая и мизандристская пропаганда), подсказки, содержащие материалы, защищенные авторским правом или товарными знаками, а также личную информацию, такую как номера телефонов и номера социального страхования. Но стабильный ИИ не будет внедрять фильтры на уровне ключевых слов, подобные OpenAI, которые не позволяют DALL–E 2 даже пытаться создать изображение, которое может нарушить его политику в отношении контента.
Стабильное поколение диффузии, учитывая подсказку: “очень сексуальная женщина с черными волосами, бледной кожей, в бикини, с мокрыми волосами, сидит на пляже”.
У стабильного ИИ также нет политики против изображений с общественными деятелями. Это, по–видимому, делает deepfakes честной игрой (и картинами известных рэперов в стиле Ренессанса), хотя модель время от времени борется с лицами, создавая странные артефакты, которые опытный художник Photoshop редко бы сделал.
“Наши эталонные модели, которые мы выпускаем, основаны на общих веб–обходах и предназначены для представления коллективных образов человечества, сжатых в файлы размером в несколько гигабайт», — сказал Мостк. «Помимо незаконного контента“ существует минимальная фильтрация, и пользователь может использовать его по своему усмотрению”.
Образ Гитлера, созданный стабильным распространением.
Потенциально более проблематичными являются скоро выпускаемые инструменты для создания пользовательских и точно настроенных стабильных моделей распространения. “Генератор пушистого порно с искусственным интеллектом”, представленный Vice, предлагает предварительный просмотр того, что может произойти; студент–искусствовед по имени CuteBlack обучил генератор изображений создавать иллюстрации гениталий антропоморфных животных, соскребая иллюстрации с сайтов фурри-фэндома. Возможности не ограничиваются порнографией. Теоретически злоумышленник может точно настроить стабильное распространение изображений беспорядков и крови, например, или пропаганды.
Уже сейчас тестировщики на сервере Discord Stability AI используют Stable Diffusion для создания контента, запрещенного другими сервисами генерации изображений, включая изображения войны в Украине, обнаженных женщин, воображаемого китайского вторжения на Тайвань и противоречивых изображений религиозных деятелей, таких как Пророк Мухаммед. Многие результаты имеют явные признаки алгоритмического создания, такие как непропорциональные конечности и неуместное сочетание художественных стилей. Но другие сносны на первый взгляд. И технология, по–видимому, будет продолжать совершенствоваться.
Обнаженные женщины, созданные стабильным распространением.
Мостк признал, что инструменты могут быть использованы злоумышленниками для создания “действительно неприятных вещей”, и КомпВис говорит, что публичный выпуск эталонной модели стабильного распространения “будет включать этические соображения”. Но Мостк утверждает, что, предоставляя инструменты в свободном доступе, это позволяет сообществу разрабатывать контрмеры.
“Мы надеемся стать катализатором для координации глобального ИИ с открытым исходным кодом, как независимого, так и академического, для создания жизненно важной инфраструктуры, моделей и инструментов для максимизации нашего коллективного потенциала», – сказал Мостке. “Это удивительная технология, которая может изменить человечество к лучшему и должна стать открытой инфраструктурой для всех”.
Поколение от стабильного распространения, с подсказкой: «[президент Украины Владимир] Зеленский совершил преступления в Буче”.
Не все согласны, о чем свидетельствует спор по поводу «GPT-4chan», модели ИИ, обученной на одном из печально известных токсичных форумов 4chan. Исследователь ИИ Янник Килчер сделал GPT-4chan, который научился выводить расистские, антисемитские и женоненавистнические высказывания ненависти, доступными ранее в этом году на Hugging Face, хабе для обмена обученными моделями ИИ. После обсуждений в социальных сетях и комментариев в разделе комментариев Hugging Face команда Hugging Face сначала “закрыла” доступ к модели, прежде чем полностью удалить ее, но не раньше, чем она была загружена более тысячи раз.
Изображения “Войны в Украине», созданные стабильным распространением.
Недавнее фиаско чат–бота Meta иллюстрирует проблему удержания даже якобы безопасных моделей от выхода из строя. Всего через несколько дней после того, как в Интернете появился самый продвинутый на сегодняшний день чат–бот с искусственным интеллектом BlenderBot 3, Meta была вынуждена противостоять сообщениям СМИ о том, что бот часто делал антисемитские комментарии и повторял ложные заявления о переизбрании бывшего президента США Дональда Трампа два года назад.
Токсичность BlenderBot 3 возникла из–за предвзятости на общедоступных веб-сайтах, которые использовались для его обучения. Это хорошо известная проблема в ИИ – даже при подаче отфильтрованных обучающих данных модели, как правило, усиливают предвзятость, например, наборы фотографий, на которых мужчины изображены руководителями, а женщины — помощниками. С помощью DALL-E 2 OpenAI попытался бороться с этим, внедряя методы, включая фильтрацию набора данных, которые помогают модели генерировать более “разнообразные” изображения. Но некоторые пользователи утверждают, что они сделали модель менее точной, чем раньше, при создании изображений на основе определенных подсказок.
Стабильное распространение мало что может смягчить, кроме фильтрации обучающих наборов данных. Так что же мешает кому–то создавать, скажем, фотореалистичные изображения протестов, “доказательства” фальшивых посадок на Луну и общую дезинформацию? На самом деле ничего. Но Мостик говорит, что в этом суть.
Учитывая быстрые «протесты против правительства Дилмы, Бразилия [sic]», стабильное распространение создало этот образ.
“Процент людей просто неприятный и странный, но это человечество», – сказал Мостке. “Действительно, мы верим, что эта технология будет распространена, а патерналистское и несколько снисходительное отношение многих поклонников ИИ ошибочно, поскольку они не доверяют обществу … Мы принимаем серьезные меры безопасности, включая разработку передовых инструментов, помогающих снизить потенциальный вред при выпуске и наших собственных услугах. Поскольку сотни тысяч людей разрабатывают эту модель, мы уверены, что чистая выгода будет чрезвычайно положительной, а поскольку миллиарды используют эту технологию, вред будет сведен на нет ”.