Первый выпуск еженедельного Рейтинга упоминаний персон в социальных медиа

Представляем новый проект аналитического центра Brand Analytics — еженедельный Рейтинг упоминаемости медийных персон в социальных медиа и раскрываем технологии его подготовки.

Хотим мы того или нет, но люди XXI века живут в океане информации: интернет, ТВ, радио, газеты, книги и журналы, окружающие люди — все вокруг напичкано названиями, именами, брендами, кличками и прочими атрибутами идентификации объектов.

Проходя через наше сознание информация внешнего мира трансформируется не только в знания и опыт, но и в эмоции, мнения, высказывания, суждения, что находит свое отражение в социальных медиа: статьи, посты, твиты, комментарии, отзывы.

Новые технологии, для которых есть специальное название — OBD&A (Online Big Data & Analytics ), — позволяют анализировать миллиарды публичных высказываний миллионов людей и выявить наиболее обсуждаемые персоны, объекты и сущности, которые наиболее сильно «зацепили» нас в окружающем информационном поле.

Используемые ранее технологии, в виду своих ограничений, не могли обработать такие огромные объемы данных, и проводили обработку, например, статей в СМИ, составляя рейтинги упоминаний топ-персон в газетах и журналах. Или же подобные рейтинги проводились путем социологических исследований — опросов сотен людей. Понятно, что подобные выборки данных или аудитории позволяют получить реальные мнения населения страны или региона с невысокой точностью.

Современные (что вдвойне приятно — российские) технологии и разработки позволяют революционно изменить подход к учету мнений населения: не спрашивать — а слушать, не выбирать узкую группу (фокус- или журналистов) — а учитывать мнения всех.

Подобный подход позволяет решать множество старых и новых задач и вызовов, среди которых есть и такая интересная тема, как выявление топовых медийных персон — своеобразный народный рейтинг политиков, звезд шоу-бизнеса, спортсменов и просто замечательных людей, которые стали героями прошедшей недели.

Анализ социальных медиа

Рейтинг Топ-50 персон в социальных медиа и СМИ, неделя первая (1-7 сентября):

По данным анализа соцмедиа

 

По данным анализа СМИ

Персона

Упоминания

 

Персона

Упоминания

1

Владимир Путин

1 121 296

1

Владимир Путин

60 726

2

Петр Порошенко

537 269

2

Петр Порошенко

38 583

3

Барак Обама

207 439

3

Дмитрий Медведев

19 139

4

Игорь Стрелков

118 176

4

Барак Обама

15 561

5

Дмитрий Песков

97 889

5

Ангела Меркель

5 804

6

Дмитрий Медведев

82 959

6

Владимир Ленин

5 791

7

Сергей Лавров

81 507

7

Андрей Лысенко

5 686

8

Виктор Янукович

78 181

8

Сергей Лавров

5 607

9

Игорь Коломойский

76 597

9

Игорь Коломойский

5 555

10

Владимир Ленин

73 816

10

Дмитрий Песков

5 516

11

Андрей Макаревич

66 090

11

Игорь Стрелков

4 827

12

Адольф Гитлер

61 122

12

Александр Лукашенко

4 514

13

Ангела Меркель

61 025

13

Виктор Янукович

4 440

14

Юлия Тимошенко

47 689

14

Франсуа Олланд

4 318

15

Владимир Жириновский

47 349

15

Александр Захарченко

4 293

16

Арсен Аваков

46 726

16

Адольф Гитлер

4 167

17

Александр Лукашенко

45 681

17

Леонид Кучма

3 920

18

Иосиф Сталин

43 590

18

Андрей Стенин

3 677

19

Андрей Стенин

43 344

19

Андрей Пургин

3 479

20

Рамзан Кадыров

38 454

20

Андрей Макаревич

3 007

21

Олег Ляшко

35 087

21

Михаил Зурабов

2 937

22

Франсуа Олланд

31 939

22

Иосиф Сталин

2 905

23

Сергей Собянин

31 422

23

Игорь Плотницкий

2 819

24

Алексей Навальный

31 264

24

Сергей Аксенов

2 586

25

Руслана

31 177

25

Сергей Собянин

2 572

26

Сергей Шойгу

30 462

26

Олег Ляшко

2 490

27

Лионель Месси

30 448

27

Нурсултан Назарбаев

2 400

28

Ксения Собчак

28 939

28

Арсен Аваков

2 339

29

Леонид Кучма

28 732

29

Владимир Жириновский

2 297

30

Никита Михалков

28 693

30

Сергей Шойгу

2 094

31

Анджелина Джоли

23 867

31

Юлия Тимошенко

1 916

32

Ляпис Трубецкой

23 365

32

Рамзан Кадыров

1 848

33

Макс Корж

22 221

33

Валерий Андреев

1 825

34

Дмитрий Рогозин

21 710

34

Дмитрий Рогозин

1 816

35

Павел Губарев

21 695

35

Хайди Тальявини

1 748

36

Бьянка

20 675

36

Дмитрий Тымчук

1 733

37

Андрей Макаревич

19 803

37

Юрий Луценко

1 618

38

Владимир Ходов

18 941

38

Виталий Кличко

1 387

39

Тимати

18 766

39

Борис Ельцин

1 380

40

Андрей Леницкий

17 992

40

Руслана

1 363

41

Надежда Савченко

17 609

41

Игорь Сечин

1 289

42

Андрей Пургин

17 457

42

Олег Иванов

1 239

43

Михаил Саакашвили

17 414

43

Дженнифер Лоуренс

1 198

44

Виталий Кличко

16 451

44

Лев Шлосберг

1 195

45

Олег Царев

16 329

45

Надежда Савченко

1 160

46

Нурсултан Назарбаев

15 855

46

Леонид Кучук

1 121

47

Борис Ельцин

15 817

47

Анджелина Джоли

934

48

Рем Дигга

15 475

48

Борис Немцов

932

49

Дженнифер Лоуренс

15 398

49

Виктор Ющенко

875

50

Сергей Аксенов

14 175

50

Михаил Горбачев

862

Для расчета Рейтинга за 1-7 сентября  2014 были проанализированы 142 910 402 публичных русскоязычных сообщения пользователей социальных медиа. Источниками данных для анализа сообщений выступили популярные социальные сети и сервисы: ВКонтакте, Twitter, Одноклассники, Мой Мир, Facebook, Instagram, YouTube, G+, а также блоги, форумы, тематические сайты и группы обсуждений, онлайн СМИ и комментарии в них. Общее число выявленных объектов составило 16 198 388, из которых 2 088 558 – уникальных объектов (например, РФ, Российская Федерация и Россия – один уникальный объект). Далее было проанализировано количество упоминаний персон, в соответствии с которым выстроен рейтинг.

Система выявления  сущностей (NER — Named Entities recognition) системы Brand Analytics позволяет классифицировать именованные объекты в тексте на пять классов: физические лица, юридические лица, географические объекты, названия продуктов и брендов и именованные события.

Основной особенностью разработки NER Brand Analytics является то, что в его основе не используются словари и тезаурусы, которые хорошо работают для канонических текстов СМИ и книг, но плохо применимы для пользовательских сообщений в социальных сетях и выявления новых, не существовавших ранее, объектов и именований (челябинский метеорит, ДНР, влог). Таким образом, новый NER достаточно точно может определять тип ранее не встречающегося объекта или объекта, тип которого может меняться в зависимости от контекста. Так же к плюсам данной технологии можно отнести и то, что ему не требуется никакой лингвистической предобработки текста, что значительно повышает скорость его работы и позволяет в реальном масштабе времени обрабатывать тысячи сообщений в секунду — именно такой поток «генерят»  русскоязычные пользователи соцсетей.

Для специалистов и любителей лингвистики: в таблице представлена точность и полнота определения системой типа именованных сущностей:

Тип

Точность

Полнота

F1

Физ.лица

94.04

94.28

94.16

Гео.объекты

92.19

91.76

91.97

Юр.лица

85.27

86.52

85.89

Продукты

79.20

80.03

79.62

События

80.15

76.27

78.16

Среднее

86.18

85.78

85.97

Brand Analytics- система мониторинга и анализа социальных медиа.

Бесплатный демонстрационный доступ

Персональный консультант проведет демонстрацию и поможет протестировать систему с учетом ваших бизнес-задач

Запросить демо

Похожие статьи

Названы лидеры интегрального рейтинга эффективности коммуникаций вузов

Названы лидеры интегрального рейтинга эффективности коммуникаций вузов

Топ-100 виральных русскоязычных медиаресурсов, СЕНТЯБРЬ 2022. Мобилизация медиа

После блокировок зарубежных соцсетей Telegram вырос более, чем в полтора раза

ПМЭФ-2023 в СМИ и в обсуждениях людей на публичных дашбордах Brand Analytics

Последние статьи

Программа Brand Analytics Forum 2024: представляем спикеров форума по аналитике соцмедиа для решения задач государства

Вебинар 25 апреля: Как определить целевую аудиторию

Вебинар 25 апреля: «Как определить целевую аудиторию»

BrandGPT для быстрой аналитики соцмедиа и СМИ: пользователям Brand Analytics теперь доступен умный ИИ-ассистент

Аналитика соцмедиа для государства

Аналитика соцмедиа для государства: современный инструмент сбора и анализа обратной связи от граждан для принятия эффективных решений