Выборы в США 2020 – Трамп против Байдена, как парсинг помогает проанализировать настроения в СМИ

Выборы в США 2020 - Трамп против Байдена

Парсинг новостей в интернете дает возможность увидеть интересные тенденции в освещении избирательных кампаний Дональда Трампа и Джо Байдена в 2020 году в СМИ. При помощи парсинга было собрано и проанализировано 50 000 новостей с 1500 сайтов новостных организаций США. В итоге получилось сравнить как часто и в каком контексте упоминаются имена Трампа и Байдена в преддверии президентских выборов в США 2020.

История данных

Во время президентских дебатов 29 сентября 2020 года в Кливленде, штат Огайо, Дональд Трамп сказал Джо Байдену:

“Ты получаешь хорошее освещение в прессе, а я негативное освещение.”

Как думаете, это правда? Почти что. Было обнаружено, что Трамп постоянно получает больше негативных отзывов, чем Байден, но при этом он получает в 5 раз больше упоминаний в интернете. Медиа стратегию Трампа лучше всего описывает фраза “плохой рекламы не бывает”. 

Выборы в США 2020. События, события

Выборы в США 2020 - Настроения в медиа к Трампу и Байдену с сентября 2020

Настроения СМИ в отношении обоих кандидатов можно охарактеризовать как “негативно-нейтральными”, они колеблются то вверх, то вниз как реакция на происходящие события. Например, президентские дебаты отрицательно сказались на отзывах об обоих кандидатов. Когда у Трампа диагностировали COVID-19, были замечены более позитивные отзывы в прессе, таким образом уровень хороших новостей о Трампе в СМИ был выше Байдена и длился достаточно долгий промежуток времени в сентябре. Но раннее возвращение Трампа в Белый дом вызвало негативную реакцию.

У Трампа больше плохих дней, чем хороших

Диапазон настроений СМИ о Трампе с сентября 2020 г.
Диапазон настроений СМИ о Байдене с сентября 2020 г.

В целом, отзывы в СМИ по отношению к Трампу хуже, чем отзывы прессы про Байдена. Кроме того, настроения СМИ к Трампу более резко колеблются в широком диапазоне, чем настроения СМИ по отношению к Байдену.  

Трамп получает гораздо больше упоминаний в СМИ, чем Байден

Выборы в США. Новости о Трампе и Байдене ил и о них вместе с сентября 2020 года

С сентября Трамп получил более чем в два раза больше упоминаний в СМИ, чем Байден. Если сравнивать публикации только о Трампе с публикациями только о Байдене, то в 5 раз больше.

Самая длинная неделя

На прошлой неделе новостное освещение выборов 2020 года выросло в 1,7 раза

Чувствовали ли вы, что за прошлую неделю было опубликовано новостей как будто за год? Оказалось, что по объему новостей о выборах это всего в 1,7 раза больше, чем в среднем за предыдущие 4 недели. Тем не менее это было очень много.  

Методика

С начала сентября осуществлялся сбор 71 252 новостных статей, упоминающих либо  Трампа, Байдена, либо об обоих сразу, новости собирались с 2 135 англоязычных источников. Каждый сайт был классифицирован в соответствии с основной страной аудитории. Статьи с сайтов, не относящихся к США и агрегаторов ссылок (например, Reddit и т.д.) были исключены, в итоге осталось 49 682 статей из 1571 источников новостей для анализа настроений и отзывов. Дублирующиеся статьи удалялись, они были идентифицированы по URL-адресу и по заголовку+сниппету.

Анализ настроений

С помощью Google’s Natural Language API был выполнен анализ настроений на уровне сущностей по заголовку+сниппет в каждой из статей. Анализ настроений на уровне сущностей сначала находит сущности в тексте, а затем присваивает им определенный балл настроения, тональности для каждой сущности.  Посредством этих баллов можно понять насколько положительно или отрицательно говорится об объекте в новости на основе анализа языка, оценки даются как десятичное число в диапазоне от +1 (положительное настроение) до -1 (отрицательное настроение). Например, заголовок и комбинация сниппетов, которые оцениваются положительно для Джо Байдена и отрицательно для Дональда Трампа:

3 сентября 2020 года: “Бывший губернатор Мичигана Рик Снайдер: Я республиканец, голосующий за Байдена. Дональд Трамп – хулиган, которому не хватает морального компаса. Джо Байден вернул бы цивилизованность. Сорок четыре года назад я отпраздновал свое 18-летие на республиканском национальном съезде 1976 года в рамках …”

https://www.usatoday.com/story/opinion/2020/09/03/rick-snyder-why-im-voting-joe-biden-even-republican-column/5696508002/
Анализ настроений на уровне организации

Как можно заметить, в этой новости были найдены и Дональд Трамп, и Джо Байден.  Сервис Google Natural Language посчитал, что настроения по отношению к Трампу были очень негативными (“это хулиган, которому не хватает морального компаса“), в то время как настроения по отношению к Джо Байдену были более нейтральными позитивными (“вернет цивилизованность”).  

Сервис Google Natural Language возвращает URL Википедии в виде метаданных для каждой организации, которые он положительно идентифицирует с высоким уровнем доверия. Субъекты и связанные с ними оценки настроений добавлялись в список для анализа только в том случае, если URL субъекта Википедии был либо https://en.wikipedia.org/wiki/Donald_Trump либо https://en.wikipedia.org/wiki/Joe_Biden. Это было сделано для того, чтобы исключить оценки настроения для организаций со схожими названиями, например, мы не хотели включать в выборку The Trump Organization https://en.wikipedia.org/wiki/The_Trump_Organization.

Как выбрать решение для парсинга сайтов: классификация и большой обзор программ, сервисов и фреймворков

Выбор источников

Выбор источников новостей о выборах в США 2020 был слепым, не было человека, который бы выбирал источники новостей. Такой преднамеренный выбор источников новостей неизбежно привел бы к предвзятости, которую было бы трудно контролировать. Вместо этого проводился мониторинг социальных сетей и новостных агрегаторов на предмет статей, которыми делились люди, а затем, когда появлялись новости, этот источник включался в общий каталог статей о Трампе и Байдене. Эти статьи, которые люди видят в социальных сетях, получают в виде уведомлений на телефоне, и видят на экранах телевизора – взятые в совокупности, мы считаем, что этот набор данных и рассчитанные на их основе оценки настроений и тональности представляют собой хорошую базу для определения освещения в СМИ и медиа настроений двух кандидатов, идущих на выборы в США.

Отдельные источники новостей, по всей видимости, имеют свои собственные предвзятые суждения, они отражены в подсчитанных нами баллах настроений кандидатов. Если вы ничего не знали о The New York Times, Fox News или Bloomberg, то возможно вы сможете угадать их предпочтительного кандидата, просто посмотрев баллы по настроениям кандидата.

Выборы в США. Освещение в New York Times
Выборы в США. Освещение в Fox News
Выборы в США. Освещение в Bloomberg

Набор данных

Пример окончательного анализируемого набора данных о выборах в США 2020 можно посмотреть на скриншоте ниже.

Образец новостей из набора данных
Образец новостей из набора данных

Если у вас есть задача связанная с парсингом данных, свяжитесь с нами через форму обратной связи, напишите в телеграм или позвоните по телефону.





    Давайте начнем работу

    Расскажите нам коротко о Вашей задаче, если не можете сформулировать запрос все равно напишите, мы постараемся Вам помочь.





      Политика обработки персональных данных
      1. Общие положения 1.1. Сохранность и неприкосновенность персональных данных посетителей сайта idatica.com, в том числе посетителей поддоменов (доменов третьего уровня), является приоритетной для Codekid (далее – Компания). Компания считает своим долгом обеспечивать безопасность и конфиденциальность всех личных сведений, получаемых от Пользователей Сайта. 1.2. Политика обработки персональных данных (далее – Политика) объясняет, как Компания собирает, использует и защищает персональную информацию. 1.3. Настоящая Политика обработки персональных данных применяется к сайту idatica.com, в том числе поддоменам (доменом третьего уровня). 1.4. Настоящая Политика характеризуется следующими признаками: - разработана в целях реализации требований законодательства Российской Федерации в области обработки персональных данных субъектов персональных данных; - раскрывает способы и принципы обработки Компанией персональных данных, права и обязанности Компании при обработке персональных данных, а также права субъектов персональных данных; - является общедоступным документом, размещена на Сайте Компании в сети Интернет. 2. Сведения, получаемые от Пользователя Сайта 2.1. Для проведения консультаций касательно условий разработки чат ботов Компании необходимо получить персональные данные о Пользователе. Эти данные также обеспечат лучшее понимание потребностей Пользователя Сайта и позволяют Компании предоставить пользователю Сайта информацию о максимально подходящих условиях. Эти данные также будут использованы для повышения качества консультирования пользователей Сайта по всем возникающим вопросам. 2.2 Персональные данные, получаемые от Пользователя, могут включать личную информацию, которую Пользователь указывает при регистрации на Сайте, в том числе: Ваши Ф.И.О., e-mail, телефон, город проживания. 2.3. Компания может использовать персональные данные с целью: - подтвердить личность Пользователя; - оперативно консультировать об условиях сотрудничества; - информировать Пользователя о новостях Компании. 3. Обработка персональных данных 3.1. Под обработкой персональных данных подразумевается следующий перечень действий с персональными данными: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передачу (распространение, предоставление доступа), обезличивание, блокирование, удаление, уничтожение персональных данных. 3.2. Принимая условия настоящего соглашения, Пользователь Сайта соглашается с получением рекламной рассылки по телефону (в формате sms сообщений) и по электронной почте. Данное согласие на обработку персональных данных действует бессрочно, но может быть отозвано субъектом персональных данных на основании личного заявления, направленного по электронной почте Администрации Сайта. Администрация Сайта обязуется использовать персональные данные Пользователя Сайта, полученные в результате использования Сайта в соответствии с требованиями законодательства о защите персональных данных, в том числе федерального закона № 152 ФЗ от 27.07.2006 «О персональных данных» в редакции, действующей на момент обработки таких персональных данных. 4. Cookies 4.1. Cookies - небольшой фрагмент данных, отправляемый веб сервером для хранения на компьютере Пользователя в виде файла, чтобы при следующем Вашем обращении веб Сайт мог извлечь эту информацию. Этот файл каждый раз пересылается веб серверу в http/https запросе при попытке открыть страницу соответствующего Сайта. 4.2. Cookies могут использоваться на некоторых страницах нашего Сайта, чтобы предоставить Вам более быстрый и удобный доступ. 4.3. Если Вы не желаете получать Cookies, то большинство веббраузеров позволят Вам их отклонить, в то же время позволяя Вам посещать наш Сайт без каких либо ограничений. 4.4. Cookies не используются для идентификации посетителей нашего Сайта. Третьим лицам Компания не передает Вашу информацию, исключение - получения официального запроса административных и/или судебных органов. Регистрируясь и (или) заполняя заявку на Сайте, Вы подтверждаете свое согласие на использование персональных данных в соответствии с настоящей Политикой.
      Privacy Policy

      Privacy Policy

      This Privacy Policy explains the practices regarding the collection, use, and disclosure of certain information, including any personal information. This Privacy Policy applies to the website located at http://idatica.com/ (the “Website”), the tools made available through the iDatica Website (collectively the “Services”).

      When using the Website along with any other services as may be offered vide the Website (collectively the “Site”) and submitting any personal and non-personal information to us, you agree and grant us the right to use your Information in accordance with this Privacy Policy.

      What information we collect?

      Delivering of targeted and relevant content enhances your internet and mobile experience. We will collect the Personal Information that you submit to us when using the various information submission boxes and forms located within the Site.

      Personal Information is data about you that is personally identifiable such as your name, postal address, email address, telephone number, credit card number and/or any other information that might be considered private.  When you submit inquiries, request information or give us feedback on or in relation to this Site, we will ask you for the relevant personal information. We may also ask you to provide other information in connection with your request, such as your location and industry, your preferred means of communication, as well as other information.

      Non-Personal Information is data gathered by us and/or our partners, so it can be used for the purpose of online retargeting only. Such information is gathered irrespective of whether you sign up for an account or provide us with Personal Information. Non-Personal Information is completely anonymous and includes but not limited to Internet Protocol (IP) address, browser information, date and time of visit, domain type, and other related activity collected through cookies (please read the cookie policy) web beacons and similar technologies, device identifiers etc. None of this information, under any circumstances, individually or grouped together, can be traced back to a specific individual. If we combine non-personal information with personal information, the combined information will be treated by us as Personal Information as long as it is combined.

      Hereinafter both Personal Information and Non-Personal Information is collectively referred to as “Information”.

      Opt Out

      If you do not wish to permit us to collect the Information about your web or mobile activity for delivering the targeted advertising, then you may access our web-based opt out tools here. You may also opt out of receiving mobile-based advertising based on our collection of mobile identifiers (such as the IDFA or the Android Ad ID) through your device “settings.” If you opt out through your web browser, we will place an opt-out cookie on your computer. If you opt out through your mobile device, we will cease tailoring content to your mobile device based on your device’s mobile identifier or precise location coordinates.

      These opt-out tools tell us not to use your information for customizing content we serve. This may mean, for instance, that you may receive the same content multiple times rather than receiving new or targeted content. Please note that if you block cookies, our opt-out process may not function properly. Please also note that if you delete, block, or otherwise restrict cookies, clear your cookie cache, update your browser, override your device settings or switch devices or browsers, you will need to renew your opt-out choices.

      Use of the Information which we collect.

      We may use the Personal Information you voluntarily give us (i) to process your registration, your orders and your payments, and to communicate with you on these and other topics (ii) to inform or communicate with you important information regarding the Site, any policy updates and/or other administrative information (iii) To tailor the content we display to you (iv) to provide you with communications ( both commercial and non-commercial) which may be of interest to you ( v) for business purpose such as data analysis, record keeping, audit, launching new products, upgrading our Site (vi) to measure the Site performance and the effectiveness of any communications (vii) to provide /upgrade/customize our services and products to you and disclose it to third parties where such disclosure is connected with the provision of such services and products (viii) to share information you provide to us with selected third parties that provide services to us. We provide personal information to our affiliates or other trusted businesses or persons to process it for us, based on our instructions and in compliance with our Privacy Policy and any other appropriate confidentiality and security measures.

      The Non-Personal Information we obtain from your use of our Site, may be processed as follows: The IP Addresses for purposes such as calculating Site usage levels, helping diagnose server problems, and administering the Site. We may also use and disclose IP Addresses for all the purposes for which we use and disclose Personal Information and geo-location.  The browser for collecting information such as your Media Access Control (MAC) address, computer type (Windows or Macintosh), screen resolution, time stamp and user agent string, click stream information, date and time you viewed and visited websites visited prior to your visit on our Website, operating system version and Internet browser type, language and version and cookies. We may enable Publishers to use all or some of this information through the Platform for analytics purposes and we also use this information for customizing Content to you, as described below.

      Sharing of your Information

      Disclosure of your Information shall be subject to the below:

      1.      To any third-party service providers who are associated with us and who provide services such as Website hosting, data analysis, infrastructure provision, IT services, customer service, email delivery services, credit card processing, auditing services and other similar services to enable them to provide services.

      2.      To identify you to anyone to whom you send messages through the Site via message boards, chat, profile pages and blogs and other services to which you can post information and materials. Any information you post or disclose through these services will become public information, and may be available to visitors to the Site and to the public. It’s your sole responsibility to maintain abundant caution when deciding to disclose your personal information, or any other information, on the Site.

      3.      To a third party in the event of any reorganization, merger, sale, joint venture, assignment, transfer or other disposition of all or any portion of our business, assets or stock (including about any bankruptcy or similar proceedings).

      4.      As we believe to be necessary or appropriate: (a) under applicable law; (b) to comply with legal process; (c) to respond to requests from public and government authorities including public and government authorities outside your country of residence; (d) to enforce our terms and conditions; (e) to protect our operations or those of any of our affiliates/partners; (f) to protect our rights, privacy, safety or property, and/or that of our affiliates, you or others; and (g) to allow us to pursue available remedies or limit the damages that we may sustain.

      Updating and accessing your information

      If you wish to update or amend the information which we hold about you or wish us to cease using your data or you wish to access the Information we hold about you or you don’t want to receive any marketing information from us and want us to cease to use your data for such a purpose or you want to delete your account, then please contact us at hello@idatica.com.

      We may reject requests that are unreasonably repetitive, require disproportionate technical effort (for example, developing a new system or fundamentally changing an existing practice), risk the privacy of others, or would be extremely impractical (for instance, requests concerning information residing on backup systems).

      However, do remember, that even if you delete your account, we may retain information in order to comply with laws, resolve disputes, prevent fraud etc. There may also be residual information that remains within our databases, access logs, and other records.  In the event we have disclosed information as permitted under this Policy to any third party, then we shall not be responsible for update or removing such information. For email communications, you may opt out of receiving emailers, by clicking the “unsubscribe” link at the bottom of each email.

      However, do note that even if you unsubscribe or opt-out, we may still send you communications related to your use of the Service.

      Third Party Websites

      This Privacy Policy does not address, and we are not responsible for the privacy, information or other practices of any third parties, including any third party operating any site to which this Site contains a link. The inclusion of a link on the Site does not imply endorsement of the linked site by us or by our affiliates. We recommend that you always read the privacy policies or statements of other third party websites that you may visit.

      Children

      Personal Information pertaining to individuals who are under 13 years of age is not knowingly collected or maintained. Our Website and Services is not designed to attract people under the age of 13. If we become aware of any user under the age of 13 years we take appropriate steps to remove the user’s Personal Information from our database

      Security

      We use reasonable organizational, technical and administrative measures to protect Information under our control from any unauthorized access or alterations or destruction or disclosure. Unfortunately, no systems or safeguards adopted can be guaranteed to be 100% secure. If you have reason to believe that your interaction with us is no longer secure (for example, if you feel that the security of any account you might have with us has been compromised), please immediately notify us of the problem by contacting us at our Email Address provided above.

      Cross Border Transfers

      This Site is hosted in Russian Federation. Upon you accessing the Site you consent to transfer your information out of the country of your residence to the country where our Site is hosted and you acknowledge that in such jurisdiction the laws regarding processing of Information may be less stringent that in your country.

      Where the European Union’s General Data Protection Regulation or GDPR, applies, you have rights in relation to the personal information we hold about you.

      Processing of Personal Data​

      If you are a resident of the European Union (EU), when we process your personal data, we will only do so under the following circumstances:

      1.      In order to perform our responsibilities under a contract with our customers, such as by providing the​ Idatica services you requested; or

      2.      We have a legitimate interest in processing your personal data, such as to send you communications about products or services that may interest you.

      Data Protection Rights

      You have the right to require us to correct any personal information held about you that is inaccurate and have incomplete data completed.

      Where you request correction, please explain in detail why you believe the personal information we hold about you to be inaccurate or incomplete so that we can assess whether a correction is required.

      Where you have provided your consent to us processing your personal data, you can withdraw your consent at any time and you have the right to opt-out of marketing communications that we send you. Please click the "Unsubscribe" button or turn off the email notification settings in your account.

      You may request that we erase the personal information we hold about you by contacting us.

      Questions or Complaints

      If you have a concern about our processing of personal data that we are not able to resolve, you have the right to lodge a complaint with the data privacy authority where you reside.

      Policy Updates

      We may change this Privacy Policy. Any changes will become effective when we post the revised Privacy Policy on the Site. Your use of the Site following these changes means that you accept the revised Privacy Policy.

      If you have any questions about this Privacy Policy, please contact us at hello@idatica.com.

      Last Updated: September 2020