Выборы в США 2020 — Трамп против Байдена, как парсинг помогает проанализировать настроения в СМИ

Выборы в США 2020 - Трамп против Байдена

Парсинг новостей в интернете дает возможность увидеть интересные тенденции в освещении избирательных кампаний Дональда Трампа и Джо Байдена в 2020 году в СМИ. При помощи парсинга было собрано и проанализировано 50 000 новостей с 1500 сайтов новостных организаций США. В итоге получилось сравнить как часто и в каком контексте упоминаются имена Трампа и Байдена в преддверии президентских выборов в США 2020.

История данных

Во время президентских дебатов 29 сентября 2020 года в Кливленде, штат Огайо, Дональд Трамп сказал Джо Байдену:

«Ты получаешь хорошее освещение в прессе, а я негативное освещение.»

Как думаете, это правда? Почти что. Было обнаружено, что Трамп постоянно получает больше негативных отзывов, чем Байден, но при этом он получает в 5 раз больше упоминаний в интернете. Медиа стратегию Трампа лучше всего описывает фраза «плохой рекламы не бывает». 

Выборы в США 2020. События, события

Выборы в США 2020 - Настроения в медиа к Трампу и Байдену с сентября 2020

Настроения СМИ в отношении обоих кандидатов можно охарактеризовать как «негативно-нейтральными», они колеблются то вверх, то вниз как реакция на происходящие события. Например, президентские дебаты отрицательно сказались на отзывах об обоих кандидатов. Когда у Трампа диагностировали COVID-19, были замечены более позитивные отзывы в прессе, таким образом уровень хороших новостей о Трампе в СМИ был выше Байдена и длился достаточно долгий промежуток времени в сентябре. Но раннее возвращение Трампа в Белый дом вызвало негативную реакцию.

У Трампа больше плохих дней, чем хороших

Диапазон настроений СМИ о Трампе с сентября 2020 г.
Диапазон настроений СМИ о Байдене с сентября 2020 г.

В целом, отзывы в СМИ по отношению к Трампу хуже, чем отзывы прессы про Байдена. Кроме того, настроения СМИ к Трампу более резко колеблются в широком диапазоне, чем настроения СМИ по отношению к Байдену.  

Трамп получает гораздо больше упоминаний в СМИ, чем Байден

Выборы в США. Новости о Трампе и Байдене ил и о них вместе с сентября 2020 года

С сентября Трамп получил более чем в два раза больше упоминаний в СМИ, чем Байден. Если сравнивать публикации только о Трампе с публикациями только о Байдене, то в 5 раз больше.

Самая длинная неделя

На прошлой неделе новостное освещение выборов 2020 года выросло в 1,7 раза

Чувствовали ли вы, что за прошлую неделю было опубликовано новостей как будто за год? Оказалось, что по объему новостей о выборах это всего в 1,7 раза больше, чем в среднем за предыдущие 4 недели. Тем не менее это было очень много.  

Методика

С начала сентября осуществлялся сбор 71 252 новостных статей, упоминающих либо  Трампа, Байдена, либо об обоих сразу, новости собирались с 2 135 англоязычных источников. Каждый сайт был классифицирован в соответствии с основной страной аудитории. Статьи с сайтов, не относящихся к США и агрегаторов ссылок (например, Reddit и т.д.) были исключены, в итоге осталось 49 682 статей из 1571 источников новостей для анализа настроений и отзывов. Дублирующиеся статьи удалялись, они были идентифицированы по URL-адресу и по заголовку+сниппету.

Анализ настроений

С помощью Google’s Natural Language API был выполнен анализ настроений на уровне сущностей по заголовку+сниппет в каждой из статей. Анализ настроений на уровне сущностей сначала находит сущности в тексте, а затем присваивает им определенный балл настроения, тональности для каждой сущности.  Посредством этих баллов можно понять насколько положительно или отрицательно говорится об объекте в новости на основе анализа языка, оценки даются как десятичное число в диапазоне от +1 (положительное настроение) до -1 (отрицательное настроение). Например, заголовок и комбинация сниппетов, которые оцениваются положительно для Джо Байдена и отрицательно для Дональда Трампа:

3 сентября 2020 года: «Бывший губернатор Мичигана Рик Снайдер: Я республиканец, голосующий за Байдена. Дональд Трамп — хулиган, которому не хватает морального компаса. Джо Байден вернул бы цивилизованность. Сорок четыре года назад я отпраздновал свое 18-летие на республиканском национальном съезде 1976 года в рамках …»

https://www.usatoday.com/story/opinion/2020/09/03/rick-snyder-why-im-voting-joe-biden-even-republican-column/5696508002/
Анализ настроений на уровне организации

Как можно заметить, в этой новости были найдены и Дональд Трамп, и Джо Байден.  Сервис Google Natural Language посчитал, что настроения по отношению к Трампу были очень негативными («это хулиган, которому не хватает морального компаса«), в то время как настроения по отношению к Джо Байдену были более нейтральными позитивными («вернет цивилизованность»).  

Сервис Google Natural Language возвращает URL Википедии в виде метаданных для каждой организации, которые он положительно идентифицирует с высоким уровнем доверия. Субъекты и связанные с ними оценки настроений добавлялись в список для анализа только в том случае, если URL субъекта Википедии был либо https://en.wikipedia.org/wiki/Donald_Trump либо https://en.wikipedia.org/wiki/Joe_Biden. Это было сделано для того, чтобы исключить оценки настроения для организаций со схожими названиями, например, мы не хотели включать в выборку The Trump Organization https://en.wikipedia.org/wiki/The_Trump_Organization.

Как выбрать решение для парсинга сайтов: классификация и большой обзор программ, сервисов и фреймворков

Выбор источников

Выбор источников новостей о выборах в США 2020 был слепым, не было человека, который бы выбирал источники новостей. Такой преднамеренный выбор источников новостей неизбежно привел бы к предвзятости, которую было бы трудно контролировать. Вместо этого проводился мониторинг социальных сетей и новостных агрегаторов на предмет статей, которыми делились люди, а затем, когда появлялись новости, этот источник включался в общий каталог статей о Трампе и Байдене. Эти статьи, которые люди видят в социальных сетях, получают в виде уведомлений на телефоне, и видят на экранах телевизора — взятые в совокупности, мы считаем, что этот набор данных и рассчитанные на их основе оценки настроений и тональности представляют собой хорошую базу для определения освещения в СМИ и медиа настроений двух кандидатов, идущих на выборы в США.

Отдельные источники новостей, по всей видимости, имеют свои собственные предвзятые суждения, они отражены в подсчитанных нами баллах настроений кандидатов. Если вы ничего не знали о The New York Times, Fox News или Bloomberg, то возможно вы сможете угадать их предпочтительного кандидата, просто посмотрев баллы по настроениям кандидата.

Выборы в США. Освещение в New York Times
Выборы в США. Освещение в Fox News
Выборы в США. Освещение в Bloomberg

Набор данных

Пример окончательного анализируемого набора данных о выборах в США 2020 можно посмотреть на скриншоте ниже.

Образец новостей из набора данных
Образец новостей из набора данных

Если у вас есть задача связанная с парсингом данных, свяжитесь с нами через форму обратной связи, напишите в телеграм или позвоните по телефону.





    Давайте начнем работу

    Заполните форму заявки или напишите в свободной форме. Так же мы отвечаем на телефон и в мессенджерах.