«Коммерсантъ Наука»: Система Brand Analytics читает тексты на картинках в социальных медиа

Ежедневно в русскоязычных соцмедиа публикуется более 25 млн изображений, а это  значит, что уже каждый третий пост содержит фото или картинку. И еще более 2,4 млн постов с видео. Нетекстовый контент – Stories, видео, картинки – стал мейнстримом в социальных медиа.

Летом 2019 года мы научили систему Brand Analytics распознавать и анализировать текст на изображениях и в видео в режиме реального времени. А в январе об этом написал журнал «Коммерсантъ Наука». Очень понятный и подробный разбор технологии и области ее применения. Почитайте, это интересно.

Brand Analytics (проект компании «Палитрумлаб» — резидента инновационного центра «Сколково») — аналитическая система, которая уже семь лет предоставляет пользователям возможность осуществлять мониторинг и анализ публикаций в социальных медиа и онлайн-изданиях. Платформа, лежащая в основе системы, обрабатывает полный поток русскоязычных сообщений в социальных сетях, а это до 3 млрд публикаций в месяц. До недавнего времени в основном анализировалась текстовая часть публикаций. И вот буквально несколько месяцев назад система научилась в режиме реального времени распознавать и анализировать текст на изображениях, в stories и видео. Поиск текста на картинках можно осуществлять на русском, казахском, украинском и белорусском языках. Но кому и зачем нужно анализировать текст на картинках?

Тотальная мобилизация дала нам возможность общаться картинками. «Сфоткал» на смартфон рекламу, ценник, рабочий документ, вывеску и т. д.— и через минуту фото уже в сети, причем зачастую без текстовой подписи. Зачем что-то писать, если и так все видно? Состав изображении с текстами многогранен — от мемов, инфографики, рекламных объявлении до чеков из магазинов и скриншотов переписки в мессенджерах. Нативная реклама, которую бренды размещают у блогеров (сегмент инфлюенс-маркетинга — это уже 7–8% всего рекламного рынка), как правило, представляет собой картинку с текстом. В бьюти-сегменте блогеры делают акцент исключительно на stories и картинки-обзоры со встроенным текстом.

С ростом в наших коммуникациях картинок и видео существенная часть инсайтов и рисков для брендов теперь содержится именно в мультимедийном контенте. В прошлом году реклама некоторых компаний в виде картинок с текстом вызвала репутационный кризис. Но если бренд оперативно отслеживает «народную» реакцию в соцсетях, у него есть возможность не ждать полномасштабного репутационного кризиса, а принимать оперативные решения по его упреждению. Благодаря аналитической системе Brand Analytics — теперь и в случае, если проблемный текст встроен в картинку.

Brand Analytics - поиск по тексту на изображениях в соцмедиа

Но помимо рекламы есть еще вбросы, непредумышленное распространение сканов конфиденциальных документов или скриншотов с экранов корпоративных компьютеров. А это уже вопрос безопасности бизнеса.

Кроме того, в наше время логотипы почти всех компаний имеют текстовое начертание. Система Brand Analytics способна найти и показать все картинки, где встречается определенный логотип. В этом случае тоже можно выявить полезные пользовательские инсайты, показывающие, в каком контексте «живет» логотип, и нежелательное использование бренда.

Изображении не просто много, а очень много — примерно 25 млн в день. 8 млн из них содержат текст. Для обработки необходимо все картинки скачать на серверы. Чтобы не скачивать лишнее, умные алгоритмы сначала отсеивают сообщения ботов и спам. Кроме того, часть сообщений содержат одинаковые изображения и текст.

Поэтому технический директор Brand Analytics Григорий Островский с командой придумали делить все картинки по принципу сходства, чтобы заниматься не отдельно каждой картинкой, а группами картинок. Если для определенных групп когда-то проводилось распознавание, им «присваивается» уже распознанный текст. Это помогает оптимизировать процесс. В результате Brand Analytics научилась распознавать текст многократно быстрее, чем имеющиеся на рынке алгоритмы, не справляющиеся с потоком в реальном времени.

Разработанное решение обязательно использует нейронные сети, однако сами по себе они задачу распознавания текста с изображений не решают. «Наша технология — комплексная,— рассказывает Григорий Островский.— В ней применяется сразу несколько нейронных сетей. Первый уровень — нейросеть, которую мы обучили определять наличие текста на изображении. Сначала мы скачиваем изображение и смотрим, есть ли там текст. Картинки, на которых нет текста, отсеиваются, что экономит значительную часть компьютерных ресурсов. И уже после отсева еще одна нейросеть занимается распознаванием текста. Все нейросети для системы Brand Analytics мы сделали сами. Готовые нам не подходят: либо у них низкое качество, либо они медленные».

Пока у технологии Brand Analytics нет прямых конкурентов: только она предлагает поиск по распознанному тексту на изображениях на полном потоке данных из соцмедиа в режиме реального времени. У сервиса Google Photo, который тоже осуществляет распознавание текста, решение работает в отложенном режиме, это не потоковые данные из соцсетей. Сначала данные загружаются, программа их индексирует, и лишь потом они становятся доступными для поиска. «Наше решение отличается тем, что меньше чем через секунду после загрузки пользователем картинки с текстом, например в Twitter, этот твит оказывается у нас. Еще через две-три секунды мы эту картинку скачиваем, а еще через две-три секунды распознаем на ней текст. То есть между моментом публикации сообщения и попаданием распознанного текста с картинки в нашу систему проходит меньше минуты. Мы не знаем ни одной системы в мире, которая могла бы решать подобные задачи в режиме реального времени на таких объемах данных из социальных медиа»,— говорит Григорий Островский.

Brand Analytics предоставляется клиентам в формате SaaS-сервиса по абонентской плате; тариф определяется объемом данных, которые необходимо проанализировать. Пользуются ею в основном корпоративные клиенты, главным образом — департаменты PR, маркетинга, службы клиентской поддержки, безопасности, HR-департамент, подразделения маркетинговых исследований и топ-менеджмент в варианте дашбордов и мобильного приложения. Помимо этого обязательно настраиваются автоматические триггерные и ИИ-оповещения на все значимые для компании события в медиаполе, что обеспечивает в том числе высокий уровень защиты от репутационных кризисов.

Елена Туева

Бесплатный демонстрационный доступ

Персональный консультант проведет демонстрацию и поможет протестировать систему с учетом ваших бизнес-задач

Запросить демо

Похожие статьи

Как автоматизировать работу клиентской службы в социальных сетях

Управление репутацией в интернете: инструменты и кейсы 2023

Управление репутацией в интернете: инструменты и кейсы 2023

Как найти блогеров для рекламы

Как найти блогеров для рекламы

Разработка коммуникационной стратегии при помощи анализа соцсетей и соцмедиа

Последние статьи

Brand Analytics Forum 2024

Brand Analytics проведет ежегодный форум по аналитике соцмедиа для решения задач государства

Интервью Brand Analytics Adindex

«В Узбекистане произойдет рост числа компаний, которые будут работать с ORM». Совместное интервью Brand Analytics и Index

Онлайн-дискуссия конкурентный анализ 29 марта

Онлайн-дискуссия 29 марта: «Конкурентный анализ»

ДЭГ

Дистанционное электронное голосование на выборах Президента РФ: анализ обсуждений пользователей в соцмедиа