Пример работы
Для запуска возьмем изображение жизнерадостного щеночка (рисунок 3) и закинем его в код инференса нашей модели, заранее определив набор классов для zero-shot классификации.
Рисунок 3 — Веселый щеночек
В результате получили, что с близкой к наибольшей вероятностью изображение было отнесено к классу “собачка”, что не может не радовать. Дальше мы покажем результаты работы нашей самой большой доступной модели ruCLIP Large на данных из разных доменов и продемонстрируем ее жизнеспособность в задачах zero-shot и few-shot классификации.
В случае, если захочется воспользоваться эксклюзивными версиями модели ruCLIP из DataHub SberCloud ML Space, то с инструкциями можно ознакомиться по ссылкам ruCLIP Base exclusive и ruCLIP Large exclusive.
Методы ранжирования
Всего выделяют три подхода к решению задачи ранжирования: поточечный (англ. pointwise), попарный (англ. pairwise), списочный (англ. listwise). Выбор метода зависит от качества ранжирования данных. Теоретически, списочный подход считается наилучшим, однако, на практике, например в Яндексе, лучше всего работает попарный подход.
Поточечный подход
Самый простой подход — это поточечный. В нём игнорируется тот факт, что целевая переменная задаётся на парах объектов, и оценка релевантности считается для каждого объекта.
Если речь идёт о задаче ранжирования поисковой выдачи, то пусть асессор поставил какую-то оценку каждой паре (запрос, документ). Эта оценка и будет предсказываться. При этом никак не учитывается, что нужно предсказать порядок объектов, а не оценки. Этот подход является простым в том смысле, что в нём
используются уже известные методы. Например, можно предсказывать оценки с использованием линейной
регрессии и квадратичной ошибки:
Известно, как решать такую задачу, и таким образом будет получена релевантность. Далее по выходам модели
можно ранжировать объекты.
Попарный подход
В попарном подходе используются знания об устройстве целевой переменной. Модель строится сведением к минимуму количества дефектных пар, то есть таких, в которых моделью был предсказан неправильный порядок:
К сожалению, этот функционал дискретный (в него входят индикаторы), поэтому невозможно его минимизировать. Однако можно действовать так же, как и с классификаторами: оценить функционал
сверху.
Можно считать, что разница между объектами — это отступ , и задать некоторую гладкую
функцию :
Если использовать функцию как в логистической регрессии , то полученный метод называется RankNet. Затем можно решать задачу, например, с помощью стохастического градиентного спуска.
Списочный подход
В методе RankNet шаг стохастического градиентного спуска для линейной модели выглядит следующим
образом:
Заметим, что данная формула зависит от одной пары объектов, а также не учитываются зависимости между различными парами. Возникает вопрос, можно ли модифицировать данный метод (а именно формулу шага) так, чтобы минимизировался не исходный функционал, оценивающий долю дефектных пар, а DCG.
Действительно, можно домножить градиент исходного функционала на то, насколько изменится nDCG, если поменять местами и :
Данный метод называется LambdaRank.
Оказывается, что при выполнении градиентного спуска с помощью данных шагов оптимизируется nDCG. Существуют и другие подходы к оптимизации nDCG, однако в них предпринимается попытка работы с
функционалом, что гораздо сложнее.
Dalle Mini (Dalle Mani) – ИИ с открытым исходным кодом
Dall-E mini — это программа искусственного интеллекта для преобразования текста в изображение, которая получила свое название от оригинального Dall-E. Команда энтузиастов-разработчиков этой мини-версии пытается воспроизвести результаты OpenAI с помощью модели с открытым исходным кодом.
Помните, в начале статьи я упомянул, что некоторые ожидали от DALL-E 2 очень многого (судя по картинкам, выдаваемым разработчиками), а по факту немного разочаровались в нейросети? Так вот это благодаря тому, что оригинального DALL·E 2 нет в открытом доступе, а Dall-E mini выдаёт, честно говоря, весьма посредственные результаты.
Общий смысл нейросеть безусловно угадывает, но реализация… Впрочем, будем надеяться, что это всё поправимо в будущем.
Поэтому и вы не ждите от DALL-E mini чего-то сверхъестественного. Вот пример того, на что способен его искусственный интеллект:
Запрос для генерации картинки надо вводить на английском языке, время создания изображения может занимать до 5 минут.
Подробно о технологии DALL·E mini и её сравнении с Dall-E 2: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained—Vmlldzo4NjIxODA
Данные
Как мы уже упоминали ранее, для обучения ruCLIP использовался датасет, состоящий из 240М пар “текстовое описание-изображение” и представляющий из себя расширенную версию обучающего датасета ruDALL-E. Следует отметить, что наш датасет является одним из самых больших русскоязычных датасетов, содержащих пары “текстовое описание-изображение”, но на фоне существующих англоязычных конкурентов наш сет далек по объёму от лидеров списка, что можно видеть в таблице 1.
Таблица 1 — Сравнение объемов обучающих выборок для различных моделей
Модель |
ruCLIP Small |
ruCLIP |
CLIP |
ALIGN |
BASIC |
Количество пар |
3M |
240M |
400M |
1.8B |
6.6B |
Лидерство по объемам данных принадлежит Google с их моделями ALIGN и BASIC. В первой из них данные собраны на основе Conceptual Captions с упрощённой фильтрацией данных. Во второй модели набор данных для ALIGN дополняется приватным датасетом JFT-3B.
Изучите требования поисковых систем
У Яндекса есть инструмент для SEO-оптимизации сайта — «Вебмастер». А у Google подобный сервис называется «Google Search Console». Мы рекомендуем пользоваться обоими, если вы планируете продвижение в двух популярных поисковиках.
В Яндекс и Google различные алгоритмы проверки сайтов, поэтому изучите инструкции и следуйте советам этих систем. Вполне возможно, что вы найдете для себя что-то новое в каждом сервисе.
Например, в данной инструкции Google рекомендует использовать новые форматы изображений — AVIF и WebP. Нет, JPEG/PNG/GIF по-прежнему актуальны. Но новый формат позволит пользователям потреблять меньше мобильного трафика. А вашему сайту — загружаться быстрее.
В этой инструкции Яндекс рекомендует использовать картинки максимально осмысленно. Иллюстрация должна соответствовать контексту. Поэтому размещайте ее именно в том месте текста, где пишете о связанной теме.
Алгоритмы ранжирования поисковых систем постоянно меняются. Следите за обновлениями правил и будьте всегда в тренде последних новостей из мира SEO-оптимизации.
Скоринговые модели оценки платежеспособности предприятия
Пройдите наш авторский курс по выбору акций на фондовом рынке → обучающий курс
Бесплатный Экспресс-курс «Оценка инвестиционных проектов с нуля в Excel» от Ждановых. Получить доступ
Пройдите наш авторский курс по выбору акций на фондовом рынке → обучающий курс
Бесплатный Экспресс-курс «Оценка инвестиционных проектов с нуля в Excel» от Ждановых. Получить доступ
Рассмотрим отечественные скоринговые модели оценки платежеспособности предприятия. Проанализируем две отечественные скоринговые модели Донцовой-Никифоровой и Савицкой. Данные модели предназначены для оценки риска банкротства отечественных предприятий. Итак, начнем.
Данные
Как мы уже упоминали ранее, для обучения ruCLIP использовался датасет, состоящий из 240М пар “текстовое описание-изображение” и представляющий из себя расширенную версию обучающего датасета ruDALL-E. Следует отметить, что наш датасет является одним из самых больших русскоязычных датасетов, содержащих пары “текстовое описание-изображение”, но на фоне существующих англоязычных конкурентов наш сет далек по объёму от лидеров списка, что можно видеть в таблице 1.
Таблица 1 — Сравнение объемов обучающих выборок для различных моделей
Модель |
ruCLIP |
||||
Количество пар |
3M |
240M |
400M |
1.8B |
6.6B |
Лидерство по объемам данных принадлежит Google с их моделями ALIGN и BASIC. В первой из них данные собраны на основе Conceptual Captions с упрощённой фильтрацией данных. Во второй модели набор данных для ALIGN дополняется приватным датасетом JFT-3B.
CLIP для русского языка
Изучив оригинальную работу CLIP, мы решили, что хотим создать аналогичную модель для русского языка. Это помогло бы не только нам, но и русскоязычному сообществу в решении задач, связанных с рассматриваемой темой.
Чтобы не начинать работу с нуля, мы решили взять выложенную OpenAI модель CLIP и дообучить её для русского языка. В качестве Image Encoder мы взяли ViT-32 (самая большая модель из выложенных), а в качестве Text Encoder – ранее выложенную нами модель RuGPT3Small. После чего заморозили веса Image Encoder, добавили 2 линейных слоя после энкодеров. Остальное осталось как и прежде. Наша архитектура представлена на Рисунке 3.
Рисунок 3 — ruCLIP
Дообучение модели для русского языка происходило на собранных нами датасетах. Вот некоторые из них:
-
ImageNet — переведённый на русский язык;
-
Flickr — картинки с русскими описаниями с фотостока;
-
Ru-wiki — часть картинок из русской Википедии с описаниями.
Всего около 3 млн уникальных пар «картинка-текст». Модель ruCLIP доступна для использования в нашем репозитории. Она обучалась около 5 дней на 16 Tesla GPU V100 с размером batch-а 16 и длиной последовательности 128 для RuGPT3Small Text Encoder на ML Space.
Чем отличается нейросеть DALL-E 2 от DALLE?
Среди преимуществ DALL-E 2 над первой версией нейронки можно выделить следующие:
- DALL-E 2 создает гораздо более реалистичные изображения, с лучшим качеством. Финальный результат выдается оператору быстрее.
- Может выполнять различные процессы редактирования фотографий на изображении. Например, DALL·E 2 можно использовать для добавления объектов в определенную область изображения с тенями, отражениями и текстурами, уже учтенными искусственным интеллектом.
- Лучше понимает глобальные сцены, а также лучше распознает объекты на изображении и их взаимосвязь.
- Способна воспроизводить изображения в разных стилях, создавая качественно различные вариации одной и той же картинки.
- DALL-E 2 позволяет добавить еще одно изображение к оригиналу, а нейросеть объединит изображения и сгенерирует из них новую вариацию.
Интуиция
В типичном сценарии классификации есть набор примеров, связанных с набором заранее определённых категорий. В таком наборе количество категорий фиксировано. Если вы обучаете модель различать кошек и собак, а затем решите добавить новый класс «медведь», вам придётся добавить примеры изображений с медведями и обучить новую сеть! Конечно, такие сети обучаются не с нуля, а дотюниваются – отрезается последний полносвязный слой (или несколько слоёв) и добавляется новый, соответствующий новому набору категорий; затем такая модифицированная сеть дообучается классифицировать новые объекты. Тем не менее, и сбор фотографий нового класса, и дообучение сети часто оказываются дорогостоящими операциями (и по времени, и по ресурсам), поэтому являются своего рода узким горлышком для масштабирования такого подхода.
Однако, если удастся создать нейронную сеть, которая будет обучена измерять схожесть произвольного изображения и произвольного текста, то её можно будет использовать с любым набором новых классов без дообучения. Действительно, для заданного изображения будет достаточно просто предоставить текстовое описание классов, посчитать близость каждого описания к изображению, а затем выбрать наиболее близкое описание (класс). Конечно, чтобы это работало успешно, сеть должна научиться хорошим визуальным представлениям и хорошим связям между визуальными образами и текстом.
Открытые модели
Сейчас у разработчиков готовы две модели разного размера, которые получили имена двух известных российских художников-абстракционистов – Василия Кандинского и Казимира Малевича:
- ruDALL-E Kandinsky (XXL), содержащая 12 миллиардов параметров;
- ruDALL-E Malevich (XL) с 1,3 миллиардов параметров.
Модель XL уже можно бесплатно скачать с Github и использовать. Также в open source «Сбер» выложил еще несколько своих разработок, связанных с генерацией изображений:
- Sber VQ-GAN;
- ruCLIP Small;
- Super Resolution (Real ESRGAN).
Также команда разработчиков рассказала о масштабах проделанной работы. Модель ruDALL-E Kandinsky прошла обучение в 37 дней на базе оборудования с 512 GPU TESLA V100, а после дообучалась 11 дней на 128 GPU TESLA V100. Всего подготовка модели заняла 20 352 GPU-дней. Для подготовки ruDALL-E Malevich потребовалось 8 дней и устройства с 128 GPU TESLA V100, а потом еще 15 дней на 192 GPU TESLA V100, что в сумме составило 3 904 GPU-дня.
Подробности разработки
В разработке ruDALL-E принимали участие команды SberDevices, Sber AI и SberCloud. Разработчики на базе публикации OpenAI воспроизвели код и смогли запустить обучение нейросети на платформе ML Space, которая работает на мощностях суперкомпьютера «Кристофари».
В итоге проект «Сбера» стал самой большой моделью такого рода в мире, которая способна работать с русскими описаниями. Процесс обучения занял 24 тысячи GPU-часов, за это время программа обработала массив данных из 120 миллионов пар «текст-изображение».
По словам Давида Рафаловского, исполнительного вице-президента «Сбербанка» и руководителя блока «Технологии», проект ruDALL-E – настоящий прорыв для русскоязычной индустрии. Еще два года назад постановку подобной задачи было невозможно вообразить.
Результат генерации по запросу «1С программист»
Как Яндекс и Google индексируют картинки?
Изображение в HTML-коде любого документа выглядит подобным образом:
<img src="https://naked-seo.ru/wp-content/uploads/2018/09/images-seo-optimization.jpg" alt="SEO-оптимизация изображений" title="SEO-оптимизация изображений и картинок для сайта">
Технологии поисковых систем еще не настолько развиты, чтобы считывать образы с самих изображений, поэтому основой поиска изображений остается текст. Изначально текстовая информация на странице и в атрибутах изображения передает поисковикам данные о содержимом той или иной картинки на сайте. Поисковой робот создает миниатюру данного изображения и сравнивает ее со схожими изображениями для определения дубликатов. Склейка дубликатов делается для того, чтобы выдача была максимально разнообразной, качественной и репрезентативной запросам пользователей.
Не так важна техническая составляющая и методология определения дублирующихся изображений, как результат который вебмастеры и пользователи получают на выходе. Давайте остановимся на самых интересных моментах алгоритма с точки зрения простого оптимизатора:
- Текст. Самым значимым сигналом для определения содержимого изображения является текст. Описание изображения и атрибуты очень важны, так как на основании их и ближайшего текста около картинки, микроразметки поисковый алгоритм понимает суть контента, и использует эти данные в дальнейшем для определения уникальности изображения и необходимости добавления его в выдачу.
- Искажения. Поисковые системы давно научились определять разного рода кропы, ресайзы, вращения, искажения и модификации изображений. Данные манипуляции не помогут Вам повысить уникальность картинок, поэтому следует использовать данные приемы только в целях дизайна.
- Пользовательская составляющая. При ранжировании изображений в выдаче учитываются пользовательские запросы и опыт взаимодействия с картинками. Алгоритм является самообучаемым и учитывает интерес пользователей, количество кликов и их поведение в отношении тех или иных документов. Другими словами, чем популярнее изображение, чем больше пользователей в сети им делятся и проявляют к нему интерес, тем выше вероятность что изображение не только попадет в выдачу, но и займет там более высокие позиции по соответствующим запросам.
- Время. Время обнаружения изображения поисковым роботом не является решающим сигналом в определении оригинальности. Данный показатель учитывается, но является гораздо более слабым по отношению к тексту и пользовательским интересам.
- Соответствие текста и изображения. Поисковые системы определяют содержание изображения на основе текста, далее сравнивают текст вашего изображения с текстом всех дублирующихся изображений в сети до определенной степени схожести. Далее на основе всех текстовых данных всех дубликатов определяются наиболее релевантные слова для конкретного изображения, и опираясь на наибольшее текстовое соответствие выборке определяется релевантный вариант ключевого запроса, наиболее часто встречающийся во всех дубликатах. Наибольшее соответствие этому запросу повышает вероятность попадания именно вашего изображения в выдачу.
- Качество, размер. Вполне логично, что поисковые системы добавляют в выдачу наиболее качественные изображения с наибольшим размером. Однако, чтобы не создавать избыточной потери трафика для пользователей учитываются изображения в среднем до 4-6 мб.
- Водяной знак. Наличие water mark не влияет на оценку изображения. Поисковые системы с высокой степенью точности умеют определять дубликаты даже при наличии водяных знаков.
Стоит отметить, что современные алгоритмы не совершенны, и порой в выдачу попадает дублирующийся, либо скопированный графический контент. Кроме того, существуют проблемы с индексированием изображений и определением ближайшего текста у молодых сайтов. Зачастую Яндекс использует текст около изображений в категориях, рубриках, а не в самой статье или странице, где расположен оригинал изображения. Вследствие этого в выдачу попадают изображения, но с нерелевантными описаниями и ссылочными анкорами. У Google в этом плане алгоритм работает лучше, и допускает меньше ошибок.
Если вам интересно подробнее узнать о алгоритме работы поискового робота картинок Яндекс, советуем вам посмотреть данное видео:
Что касается юридической стороны вопроса использования изображений, то она требует отдельной статьи с множеством тонкостей и нюансов, но сейчас не об этом. Данная статья посвящена SEO-оптимизации изображений, и опускает вопрос авторских прав.
Соберите семантическое ядро
Если вы уже какое-то время занимаетесь оптимизацией ресурса, то семантическое ядро наверняка у вас есть. Это список ключевых фраз, по которым планируется продвижение сайта.
Ниже мы будем подробнее разбирать действия, которые относятся к SEO-оптимизации изображений:
- заполнение тегов Alt и Title;
- добавление подписей к картинкам;
- составление данных для поисковиков;
- подбор имени файла.
Семантическое ядро пригодится в каждом из перечисленных случаев
Важно использовать во время SEO-оптимизации релевантные фразы, которые пользуются популярностью среди ваших потенциальных клиентов. Особенно будут полезны в данном случае LSI-ключи
LSI-фразы — это слова, косвенно связанные с основным поисковым запросом. Поисковые системы сканируют страницы на предмет наличия таких фраз. И на основании их наличия или отсутствия принимают решение о релевантности ресурса.
Для работы с семантическим ядром есть множество сервисов. Например, Key Collector, Rookee и так далее. Они позволяют быстро собирать поисковые запросы и группировать их для дальнейшего использования.
LSI-фразы: чем они полезны, где используются и как их собрать
LSI — это ключевые слова, способные положительно повлиять на позицию вашего сайта в поисковых системах. Наверняка вы слышали про семантическое ядро сайта, которое собирают на …
Еще
Сбор семантического ядра — основа SEO-оптимизации всего сайта. И только когда этот фундамент поискового продвижения заложен, можно двигаться дальше. Теперь приступайте к заполнению тегов, составлению файлов, подбору изображений и прочим шагам, описанным далее.
Как работает
Нейросеть обучена одновременно на двух типах данных: иллюстрациях и текстовых материалах. Благодаря этому она способна генерировать неограниченное количество новых изображений по описанию, введенному пользователем. Опробовать результат машинного обучения можно на официальном сайте сервиса ruDALL-E.
Создание картинки проходит в три этапа. Сперва нейросеть обрабатывает введенный текст и генерирует определенное число иллюстраций. После этого алгоритм отбирает из получившихся вариантов наиболее удачные и подходящие под описание. На финальной стадии программа улучшает качество отобранного изображения, увеличивает его в размере и демонстрирует пользователю.
Примеры генерации нейросети по описанию «Ежик в тумане»
Особенности обучения
Процесс обучения был довольно интересный, и о его этапах хочется рассказать подробнее. Начнем с модели, основанной на ViT-Large. На первом этапе проводилось обучение ruCLIP Large с нуля на основе собранного датасета. Обучение этой модели выполнялось в течение 380К итераций. Далее, изменив размер входных данных и проведя обучение в течение еще 15К итераций была получена модель ruCLIP Large exclusive. Что касается ViT-Base версий модели, то они обучались путем тюнинга английской модели в течение 140К итераций. В результате были получены модели ruCLIP Base и ruCLIP Base . Изменив размер входных изображений до 384 и выполнив тюнинг в течение еще 20К итераций были получены модели ruCLIP Base и ruCLIP Base exclusive.
Наглядно процесс обучения представлен ниже на графиках изменения значений loss (рисунок 1). Также для каждого процесса обучения показана методика изменения значений learning rate.
Рисунок 1 — Графики изменения loss в процессе обучения (левый столбец) и процесс варьирования learning rate (правый столбец) для 6 реализаций модели ruCLIP
На рисунке 2 показан график изменения среднего значения accuracy для всех датасетов в процессе обучения модели ruCLIP Large .
Рисунок 2 — График изменения среднего значения accuracy для всех датасетов в процессе обучения ruCLIP Large
Технология распознавания изображений — часть Графа знаний Google?
Новый алгоритм Google — часть «машинного обучения», которое отчасти реализовано в Графе знаний. В нем находятся entities — объекты, предназначенные для замещения символов, которые не могут встречаться в «чистом» виде в HTML-тексте, например, символа «
Каждый объекты и каждый класс объектов получают уникальный код, благодаря чему животное «ягуар» никогда не перепутается с одноименной маркой автомобиля. На основе этих кодов алгоритм распознавания может пользоваться базой знаний. Фактически Google создает «умный поиск», который понимает и переводит ваши слова и изображения в реальные символьные объекты.
Пример работы
Для запуска возьмем изображение жизнерадостного щеночка (рисунок 3) и закинем его в код инференса нашей модели, заранее определив набор классов для zero-shot классификации.
Рисунок 3 — Веселый щеночек
В результате получили, что с близкой к наибольшей вероятностью изображение было отнесено к классу “собачка”, что не может не радовать. Дальше мы покажем результаты работы нашей самой большой доступной модели ruCLIP Large на данных из разных доменов и продемонстрируем ее жизнеспособность в задачах zero-shot и few-shot классификации.
В случае, если захочется воспользоваться эксклюзивными версиями модели ruCLIP из DataHub SberCloud ML Space, то с инструкциями можно ознакомиться по ссылкам ruCLIP Base exclusive и ruCLIP Large exclusive.
DALL-E 2 — эволюция искусственного интеллекта
В 2022 году разработчики из OpenAI анонсировали улучшенную нейросеть DALL-E 2, созданную на основе предшественницы. Эта нейронка способна создавать просто невероятные фотореалистичные изображения всего лишь по заданным фразам и целым предложениям. Только посмотрите на что она способна!
DALL·E 2 может работать в трех режимах:
- Генерировать картинку с нуля.
- Генерировать новые вариации имеющейся картинки.
- Дорисовывать части картинки.
Последний режим в буквально смысле ошарашивает! Только посмотрите как DALLE 2 «додумывает» недостающие фрагменты известных нам картин, создавая таким образом более целостный образ:
Если вы вдруг не поняли, то в приведенных парах сверху будет оригинал, а снизу — работа DALLE-2. Видео, где вы своими глазами увидите другие вариации приведенных выше картин, а также некоторых других:
Кстати фоновая музыка, звучащая в этом ролике, была создана мной буквально за пару минут при помощи сервиса Mubert.
Задача скорингового подхода оценки платежеспособности предприятия
Пройдите наш авторский курс по выбору акций на фондовом рынке → обучающий курс
Бесплатный Экспресс-курс «Оценка инвестиционных проектов с нуля в Excel» от Ждановых. Получить доступ
Задача скоринговой модели оценки платежеспособности предприятия заключается в классификации его по степени финансового риска. Скоринговый подход схож с рейтинговым подходом оценки предприятия, так как в нем также присутствует рейтинг (класс) у предприятия, помимо этого присутствуют балльная оценка и присвоение рейтинга финансовым показателям.
Отличие заключается в том, что в результате присваивается рейтинг и предприятие относится к классу платежеспособности, т.е. производится помимо оценки еще и классификация. Также в результате скоринга получается рейтинг у предприятия и рейтинг у финансовых коэффициентов, описывающих предприятие.
Про другие подходы к оценке финансового состояния предприятия смотрите в статье: «Оценка финансового состояния предприятия»
Подробности разработки
В разработке ruDALL-E принимали участие команды SberDevices, Sber AI и SberCloud. Разработчики на базе публикации OpenAI воспроизвели код и смогли запустить обучение нейросети на платформе ML Space, которая работает на мощностях суперкомпьютера «Кристофари».
В итоге проект «Сбера» стал самой большой моделью такого рода в мире, которая способна работать с русскими описаниями. Процесс обучения занял 24 тысячи GPU-часов, за это время программа обработала массив данных из 120 миллионов пар «текст-изображение».
По словам Давида Рафаловского, исполнительного вице-президента «Сбербанка» и руководителя блока «Технологии», проект ruDALL-E – настоящий прорыв для русскоязычной индустрии. Еще два года назад постановку подобной задачи было невозможно вообразить.
Результат генерации по запросу «1С программист»
Подробности разработки
В разработке ruDALL-E принимали участие команды SberDevices, Sber AI и SberCloud. Разработчики на базе публикации OpenAI воспроизвели код и смогли запустить обучение нейросети на платформе ML Space, которая работает на мощностях суперкомпьютера «Кристофари».
В итоге проект «Сбера» стал самой большой моделью такого рода в мире, которая способна работать с русскими описаниями. Процесс обучения занял 24 тысячи GPU-часов, за это время программа обработала массив данных из 120 миллионов пар «текст-изображение».
По словам Давида Рафаловского, исполнительного вице-президента «Сбербанка» и руководителя блока «Технологии», проект ruDALL-E – настоящий прорыв для русскоязычной индустрии. Еще два года назад постановку подобной задачи было невозможно вообразить.
Результат генерации по запросу «1С программист»
Оценка и использование ruCLIP
Пример использования и загрузки нашей модели для google-colab можно найти тут.
Мы взяли для тестирования те же картинки, что и OpenAI в своём ноутбуке, когда выкладывали модель. Вот так выглядит близость изображений и текстов, взятых из примера:
Также мы проверили на этих картинках способность модели к zero-shot-классификации (Рисунок 5). Для этого мы использовали классы из датасета CIFAR100, переведённые на русский язык.
Рисунок 5 — zero-shot классификация ruCLIP
Также мы измерили точность zero-shot-классификации на датасетах CIFAR10 и CIFAR100.
Top-1 accuracy на нашей модели ruCLIP наборе данных CIFAR100– 0.4057, top-5 accuracy – 0.6975. На Рисунке 6 представлено распределение точности для каждого класса для данного набора данных. Из него можно понять, что модель не видела довольно много изображений классов, однако есть классы, для которых точность zero-shot-классификации превышает 0.7.
Рисунок 6 — оценка точности модели ruCLIP на CIFAR100.
Для набора данных CIFAR10 top-1 accuracy – 0.7803 и top-5 accuracy – 0.9834. На Рисунке 7 представлено распределение точности для каждого класса для данного набора данных:
Рисунок 7 — оценка точности модели ruCLIP на CIFAR10
Подготовьте файлы Sitemap
Sitemap — карта на языке, который понимают поисковые системы. Она поможет алгоритмам быстрее распознать контент на сайте. Это положительно влияет и на скорость проверки ресурса, и на его индексацию. Для системы Google вы можете добавить отдельный файл Sitemap только для изображений. Также можно использовать уже имеющийся документ и добавить в него информацию.
Яндекс рекомендует добавлять запись об изображениях в уже существующий файл.
К обязательным используемым тегам в обеих поисковых системах относятся:
- image:image — это вся информация о конкретной картинке;
- image:loc — URL-адрес картинки.
Как работает
Нейросеть обучена одновременно на двух типах данных: иллюстрациях и текстовых материалах. Благодаря этому она способна генерировать неограниченное количество новых изображений по описанию, введенному пользователем. Опробовать результат машинного обучения можно на официальном сайте сервиса ruDALL-E.
Создание картинки проходит в три этапа. Сперва нейросеть обрабатывает введенный текст и генерирует определенное число иллюстраций. После этого алгоритм отбирает из получившихся вариантов наиболее удачные и подходящие под описание. На финальной стадии программа улучшает качество отобранного изображения, увеличивает его в размере и демонстрирует пользователю.
Примеры генерации нейросети по описанию «Ежик в тумане»
Заключение
Способность человека распознавать множество объектов и распределять их по категориям является одной из самых удивительных возможностей зрительного восприятия, компьютерных аналогов которой пока не придумано. Однако Google уже делает шаги вперед, например, ему уже принадлежит патент на автоматическое масштабное видеораспознавание объектов с 2012 года.
Итак, по мнению Рэзвана Гавриласа, органические результаты поиска Google в ближайшем времени подвергнутся изменению. Поисковик перейдет «от строк к вещам», фактически интегрировав в поисковый ландшафт свой Граф знаний. Изменятся и алгоритмы поиска, которые, вероятно, будут связаны с фактическими объектами в содержании и определении того, как эти объекты будут связаны друг с другом.