Представляем новый проект аналитического центра Brand Analytics — еженедельный Рейтинг упоминаемости медийных персон в социальных медиа и раскрываем технологии его подготовки.
Хотим мы того или нет, но люди XXI века живут в океане информации: интернет, ТВ, радио, газеты, книги и журналы, окружающие люди — все вокруг напичкано названиями, именами, брендами, кличками и прочими атрибутами идентификации объектов.
Проходя через наше сознание информация внешнего мира трансформируется не только в знания и опыт, но и в эмоции, мнения, высказывания, суждения, что находит свое отражение в социальных медиа: статьи, посты, твиты, комментарии, отзывы.
Новые технологии, для которых есть специальное название — OBD&A (Online Big Data & Analytics ), — позволяют анализировать миллиарды публичных высказываний миллионов людей и выявить наиболее обсуждаемые персоны, объекты и сущности, которые наиболее сильно «зацепили» нас в окружающем информационном поле.
Используемые ранее технологии, в виду своих ограничений, не могли обработать такие огромные объемы данных, и проводили обработку, например, статей в СМИ, составляя рейтинги упоминаний топ-персон в газетах и журналах. Или же подобные рейтинги проводились путем социологических исследований — опросов сотен людей. Понятно, что подобные выборки данных или аудитории позволяют получить реальные мнения населения страны или региона с невысокой точностью.
Современные (что вдвойне приятно — российские) технологии и разработки позволяют революционно изменить подход к учету мнений населения: не спрашивать — а слушать, не выбирать узкую группу (фокус- или журналистов) — а учитывать мнения всех.
Подобный подход позволяет решать множество старых и новых задач и вызовов, среди которых есть и такая интересная тема, как выявление топовых медийных персон — своеобразный народный рейтинг политиков, звезд шоу-бизнеса, спортсменов и просто замечательных людей, которые стали героями прошедшей недели.
Анализ социальных медиа
Рейтинг Топ-50 персон в социальных медиа и СМИ, неделя первая (1-7 сентября):
По данным анализа соцмедиа |
|
По данным анализа СМИ |
||||
№ |
Персона |
Упоминания |
|
№ |
Персона |
Упоминания |
1 |
Владимир Путин |
1 121 296 |
1 |
Владимир Путин |
60 726 |
|
2 |
Петр Порошенко |
537 269 |
2 |
Петр Порошенко |
38 583 |
|
3 |
Барак Обама |
207 439 |
3 |
Дмитрий Медведев |
19 139 |
|
4 |
Игорь Стрелков |
118 176 |
4 |
Барак Обама |
15 561 |
|
5 |
Дмитрий Песков |
97 889 |
5 |
Ангела Меркель |
5 804 |
|
6 |
Дмитрий Медведев |
82 959 |
6 |
Владимир Ленин |
5 791 |
|
7 |
Сергей Лавров |
81 507 |
7 |
Андрей Лысенко |
5 686 |
|
8 |
Виктор Янукович |
78 181 |
8 |
Сергей Лавров |
5 607 |
|
9 |
Игорь Коломойский |
76 597 |
9 |
Игорь Коломойский |
5 555 |
|
10 |
Владимир Ленин |
73 816 |
10 |
Дмитрий Песков |
5 516 |
|
11 |
Андрей Макаревич |
66 090 |
11 |
Игорь Стрелков |
4 827 |
|
12 |
Адольф Гитлер |
61 122 |
12 |
Александр Лукашенко |
4 514 |
|
13 |
Ангела Меркель |
61 025 |
13 |
Виктор Янукович |
4 440 |
|
14 |
Юлия Тимошенко |
47 689 |
14 |
Франсуа Олланд |
4 318 |
|
15 |
Владимир Жириновский |
47 349 |
15 |
Александр Захарченко |
4 293 |
|
16 |
Арсен Аваков |
46 726 |
16 |
Адольф Гитлер |
4 167 |
|
17 |
Александр Лукашенко |
45 681 |
17 |
Леонид Кучма |
3 920 |
|
18 |
Иосиф Сталин |
43 590 |
18 |
Андрей Стенин |
3 677 |
|
19 |
Андрей Стенин |
43 344 |
19 |
Андрей Пургин |
3 479 |
|
20 |
Рамзан Кадыров |
38 454 |
20 |
Андрей Макаревич |
3 007 |
|
21 |
Олег Ляшко |
35 087 |
21 |
Михаил Зурабов |
2 937 |
|
22 |
Франсуа Олланд |
31 939 |
22 |
Иосиф Сталин |
2 905 |
|
23 |
Сергей Собянин |
31 422 |
23 |
Игорь Плотницкий |
2 819 |
|
24 |
Алексей Навальный |
31 264 |
24 |
Сергей Аксенов |
2 586 |
|
25 |
Руслана |
31 177 |
25 |
Сергей Собянин |
2 572 |
|
26 |
Сергей Шойгу |
30 462 |
26 |
Олег Ляшко |
2 490 |
|
27 |
Лионель Месси |
30 448 |
27 |
Нурсултан Назарбаев |
2 400 |
|
28 |
Ксения Собчак |
28 939 |
28 |
Арсен Аваков |
2 339 |
|
29 |
Леонид Кучма |
28 732 |
29 |
Владимир Жириновский |
2 297 |
|
30 |
Никита Михалков |
28 693 |
30 |
Сергей Шойгу |
2 094 |
|
31 |
Анджелина Джоли |
23 867 |
31 |
Юлия Тимошенко |
1 916 |
|
32 |
Ляпис Трубецкой |
23 365 |
32 |
Рамзан Кадыров |
1 848 |
|
33 |
Макс Корж |
22 221 |
33 |
Валерий Андреев |
1 825 |
|
34 |
Дмитрий Рогозин |
21 710 |
34 |
Дмитрий Рогозин |
1 816 |
|
35 |
Павел Губарев |
21 695 |
35 |
Хайди Тальявини |
1 748 |
|
36 |
Бьянка |
20 675 |
36 |
Дмитрий Тымчук |
1 733 |
|
37 |
Андрей Макаревич |
19 803 |
37 |
Юрий Луценко |
1 618 |
|
38 |
Владимир Ходов |
18 941 |
38 |
Виталий Кличко |
1 387 |
|
39 |
Тимати |
18 766 |
39 |
Борис Ельцин |
1 380 |
|
40 |
Андрей Леницкий |
17 992 |
40 |
Руслана |
1 363 |
|
41 |
Надежда Савченко |
17 609 |
41 |
Игорь Сечин |
1 289 |
|
42 |
Андрей Пургин |
17 457 |
42 |
Олег Иванов |
1 239 |
|
43 |
Михаил Саакашвили |
17 414 |
43 |
Дженнифер Лоуренс |
1 198 |
|
44 |
Виталий Кличко |
16 451 |
44 |
Лев Шлосберг |
1 195 |
|
45 |
Олег Царев |
16 329 |
45 |
Надежда Савченко |
1 160 |
|
46 |
Нурсултан Назарбаев |
15 855 |
46 |
Леонид Кучук |
1 121 |
|
47 |
Борис Ельцин |
15 817 |
47 |
Анджелина Джоли |
934 |
|
48 |
Рем Дигга |
15 475 |
48 |
Борис Немцов |
932 |
|
49 |
Дженнифер Лоуренс |
15 398 |
49 |
Виктор Ющенко |
875 |
|
50 |
Сергей Аксенов |
14 175 |
50 |
Михаил Горбачев |
862 |
Для расчета Рейтинга за 1-7 сентября 2014 были проанализированы 142 910 402 публичных русскоязычных сообщения пользователей социальных медиа. Источниками данных для анализа сообщений выступили популярные социальные сети и сервисы: ВКонтакте, Twitter, Одноклассники, Мой Мир, Facebook, Instagram, YouTube, G+, а также блоги, форумы, тематические сайты и группы обсуждений, онлайн СМИ и комментарии в них. Общее число выявленных объектов составило 16 198 388, из которых 2 088 558 – уникальных объектов (например, РФ, Российская Федерация и Россия – один уникальный объект). Далее было проанализировано количество упоминаний персон, в соответствии с которым выстроен рейтинг.
Система выявления сущностей (NER — Named Entities recognition) системы Brand Analytics позволяет классифицировать именованные объекты в тексте на пять классов: физические лица, юридические лица, географические объекты, названия продуктов и брендов и именованные события.
Основной особенностью разработки NER Brand Analytics является то, что в его основе не используются словари и тезаурусы, которые хорошо работают для канонических текстов СМИ и книг, но плохо применимы для пользовательских сообщений в социальных сетях и выявления новых, не существовавших ранее, объектов и именований (челябинский метеорит, ДНР, влог). Таким образом, новый NER достаточно точно может определять тип ранее не встречающегося объекта или объекта, тип которого может меняться в зависимости от контекста. Так же к плюсам данной технологии можно отнести и то, что ему не требуется никакой лингвистической предобработки текста, что значительно повышает скорость его работы и позволяет в реальном масштабе времени обрабатывать тысячи сообщений в секунду — именно такой поток «генерят» русскоязычные пользователи соцсетей.
Для специалистов и любителей лингвистики: в таблице представлена точность и полнота определения системой типа именованных сущностей:
Тип |
Точность |
Полнота |
F1 |
Физ.лица |
94.04 |
94.28 |
94.16 |
Гео.объекты |
92.19 |
91.76 |
91.97 |
Юр.лица |
85.27 |
86.52 |
85.89 |
Продукты |
79.20 |
80.03 |
79.62 |
События |
80.15 |
76.27 |
78.16 |
Среднее |
86.18 |
85.78 |
85.97 |
Brand Analytics- система мониторинга и анализа социальных медиа.