Ровно два года назад Сбер впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединённая команда исследователей и инженеров из Sber AI и SberDevices при поддержке учёных из Института AIRI.
Kandinsky стал продолжением нейросети ruDALL-E, представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбер дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
На текущий момент линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Также нами было разработано семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту.
При создании моделей Kandinsky были реализованы и исследованы новые подходы, улучшающие качество генерируемых изображений и видео, в том числе с учётом культурно-исторического контекста. Так, модель отлично понимает отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели Kandinsky обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).
Модель Kandinsky 2.1 стала одним из самых быстрорастущих сервисов в мире — так, всего за 4 дня после её релиза 4 апреля 2023 года аудитория нейросети превысила 1 млн уникальных пользователей. Кроме того, в прошлом году модель Kandinsky 2.2 заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии AI-ресурса Hugging Face, где собраны лучшие open source решения. Также Kandinsky стала одной из самых упоминаемых в социальных медиа российских нейросетей в 2023−2024 годах согласно исследованию Brand Analytics.
Как отметил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев, нейросеть Kandinsky - это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное. За два года удалось сократить время одной генерации почти в 10 раз, значительно повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — всё это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее.
Kandinsky помогает сохранять и популяризировать культурное наследие страны. Так, с помощью нейросети Kandinsky 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky 2.2, украсили девять школ в Волгограде в рамках проекта «Уроки истории». В феврале 2024 года Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбера.
Мультимедийный контент от нейросети используется на главных мероприятиях страны, таких как международная выставка-форум «Россия», Всемирный фестиваль молодёжи, «Игры будущего», Петербургский международный экономический форум и другие.