Оптимизация нормализации слов в системе Brand Analytics

Мы оптимизировали нормализацию слов в системе Brand Analytics, благодаря чему повысилась точность лингвистического анализа. Теперь работать с отчетом «Популярные слова» и отслеживать с его помощью новые тренды стало намного удобнее.

Оптимизировав нормализацию, Brand Analytics выводит механизмы лингвистического анализа системы на высочайший уровень, повышает точность определения тональности сообщений и улучшает качество аналитических отчетов, в частности — рейтинга популярных слов, одного из самых востребованных маркетологами отчетов системы.

Что же такое нормализация и почему она так важна для пользователей системы? Нормализация — это приведение слова к словарной форме, например, к единственному числу именительного падежа для существительных или инфинитиву для глаголов. Эта процедура крайне необходима для синтаксического и семантического разбора текста, и особенно актуальна для языков с богатой морфологией, к которым относится и русский язык.

Повышение качества морфологического анализа, расширение словарей, снятие омонимии позволили нам существенно улучшить точность нормализации.

Омонимия — это случайное совпадение слов, семантические значения которых не связаны. Так, например, слово «выборы» — может нормализоваться в два разных существительных: «выбор» и «выборы», фамилия «Быков» — в существительное «бык», а имя уважаемого сэра Джеймса Пола Маккартни — в существительное «пол», причем как в значении «пол — настил в доме», так и в значении «пол организма».

Омонимы – очень частое явление, практически каждое слово за исключением наречий и междометий может иметь тот или иной вид омонимии. Поэтому процедура снятия омонимии – важный этап для качественной обработки и анализа текстов, а ее отсутствие может серьезно исказить результаты исследований.

Для снятия омонимии анализируется контекст и с помощью определенного алгоритма выбирается одно слово из множества предлагаемых морфословарем. Разработка алгоритмов для снятия омонимии – трудоемкий и дорогостоящий процесс, поэтому компании-разработчики редко используют ее в своих системах обработки текста и обходятся «стеммингом» — приведению слова к нормальной форме по его окончанию, а выбор из множества вариантов происходит случайным образом, что значительно снижает точность определения значения слова.

Рассмотрим плюсы нашей оптимизации на конкретном примере: отчет «Популярные слова» из темы мониторинга оператора сотовой связи Tele2. В своих сообщениях пользователи социальных медиа используют два варианта написания названия оператора: латиницей и кириллицей. Написанное кириллицей Теле2 может быть неправильно нормализовано как существительное «тело», что искажает реальную картину трендов. Благодаря снятию омонимии, Brand Analytics успешно решает эту задачу, определяя Теле2 исключительно как имя собственное.

Как это реализовано? Методы снятия омонимии различны. В нашей системе используются смешанные методы: статистические и основанные на лингвистических правилах. Благодаря этому, удалось существенно повысить качество нормализации, не принося в жертву ее скорость. Как следствие, возросла точность определения тональности сообщений, пола их авторов и привязки к географическому местонахождению. Все это предоставляет нашим клиентам уникальные возможности. Например, можно моментально отслеживать новые тренды, без необходимости дополнительно просматривать вручную тысячи сообщений, чтобы исключить негативное влияние омонимии — Brand Analytics автоматически выделит наиболее важные слова из огромного потока данных.

Бесплатный демонстрационный доступ

Персональный консультант проведет демонстрацию и поможет протестировать систему с учетом ваших бизнес-задач.
Запись опубликована в рубрике Обновления Brand Analytics. Добавьте в закладки постоянную ссылку.