Что такое очистка данных и преобразование данных?
Что такое очистка данных и преобразование данных?
В этой статье мы рассмотрим этапы подготовки данных – профилирование данных, исследование источников данных, очистка данных, преобразование данных.
Создание и потребление данных становится образом жизни. Согласно отчету IBM в 2017 году в мире производилось примерно 2,5 квинтиллиона байт данных в день. Большая часть этих данных хранится в интернете, что делает его самой большой базой данных на земле. Google, Amazon, Microsoft и Facebook вместе взятые хранят 1200 петабайт данных (1,2 миллиона терабайт).
Но, с другой стороны, использование данных сопряжено с рисками. Руководство MIT Sloan Management review сообщает, что финансовые потери из-за неверных и некачественных данных составляют от 15% до 25% выручки компании. А согласно опросу IDC Business Analytical Solutions, проведенному в 2018 году, специалисты по обработке данных тратят 73% своего времени на подготовку данных для таких видов деятельности как аналитика и прогнозирование.
Чтобы не потерять время, долю рынка, потенциальных клиентов, компании стремятся использовать аналитику данных для роста своей прибыли и им необходимо хорошо понимать концепции очистки и преобразования данных.
Зачастую в процессе парсинга веб-страниц получается большой объем грязных и неорганизованных данных. Интеграция веб-данных (с англ. Web data integration, WDI) фокусируется на качестве и контроле за данными. Интеграция веб-данных имеет встроенные функции преобразования, похожие на Excel, которые позволяют нормализовать данные прямо в веб-приложении. Она дает возможность извлекать, подготавливать, интегрировать данные в одной и той же среде. Таким образом вы сможете использовать данные с высоким уровнем доверия и уверенности.
Что делать до очистки и преобразования данных?
Часто аналитики хотят перейти к очистке данных, не выполнив некоторые важные задачи. Этапы перечисленные ниже помогают подготовить сырые данные к преобразованию, что в свою очередь помогает аналитику идентифицировать все элементы данных (но только те элементы, с которыми он будет в дальнейшем работать):
1. Определение бизнес задач
Знание бизнес-целей — это первый шаг к правильному преобразованию данных. Хорошо проработанные бизнес задачи обеспечивают соответствие корпоративной стратегии, описывают проблемы клиентов, которые необходимо решить, включают новые или обновленные бизнес-процессы, предполагаемые затраты и прогнозируемую отдачу от инвестиций. Все эти параметры помогают определить необходимые и ненужные данные для анализа.
2. Исследование источника данных
Проработанная модель данных описывает возможные источники данных, такие как веб-сайты и веб-страницы для заполнения этой модели. В частности, тщательное изучение источников данных включает в себя:
- Определение данных, необходимых для бизнес задач
- Понимание того, будут ли эти данные интегрированы непосредственно в приложение или бизнес-процесс или будут использоваться для проведения аналитического исследования
- Определение того, что конкретно ваши коллеги ожидают увидеть при сборе веб-данных
- Каталогизация возможных источников данных и управляющих этими данными
- Понимание механизма доставки и частоты обновления данных из источника
Также ценность веб-данных со временем может увеличиваться, и впоследствии становится возможным анализировать временные ряды и тренды данных. Таким образом, процесс принятия решений улучшается, и вы получаете более глубокое понимание того, как важные события, такие как поддержка и отзывы знаменитостей или распродажа, влияют на вашу компанию.
3. Профилирование данных
Этот шаг является фактическим ознакомлением с данными перед их преобразованием. Профилирование выявляет структуру данных, нулевые записи, нежелательные данные и потенциальные проблемы с качеством. Тщательная проверка данных может помочь определить, подходит ли конкретный источник для дальнейшего преобразования, возможные проблемы с качеством данных, и количество преобразований, необходимых для аналитики.
Процесс определения бизнес задач, исследования источника данных, а также поиск и профилирование источников выполняют важную функцию отсеивания источников данных. Все эти этапы помогут организовать работу по обработке, и в последствии сделают эти данные пригодными для использования. Следующий этап – очистка данных.
Очистка Данных
Только после оценки и профилирования источников можно приступить к очистке данных. В целом, все приложения для очистки, преобразования, профилирования, обнаружения данных должны рассматриваться с точки зрения данных, которые собираются в интернете. Каждый веб-сайт должен рассматриваться как источник данных, и мы используем терминологию с этой точки зрения, мы не рассматриваем традиционный подход ETL (Extract, Transform, Load), управление корпоративными данными из традиционных источников.
Общие рекомендации по очистке данных могут включать этапы (но не ограничиваются ими):
- Определение плана по обеспечению качества данных. Исходя из бизнес задач, план обеспечения качества данных может включать в себя обсуждение с коллегами и получение ответов на вопросы – “каковы наши стандарты извлечения данных”, “какие возможности у нас есть для автоматизации конвейера данных”, “какие элементы данных являются ключевыми для последующих продуктов и процессов”, “кто отвечает за обеспечение качества данных” и “как мы определяем точность”.
- Проверка точности данных. Один из видов определения точности – это принятие мер по обеспечению правильного ввода данных в точке сбора, например, если веб-сайт изменился и он больше не несет ценности для вашего бизнеса, или если из-за промо акции цена товара доступна только тогда, когда вы помещаете товар в корзину.
- Дедупликация. Нету ни одного источника данных, который был бы идеальным, и иногда системы посылают дубликаты строк. Необходимо помнить, что у каждой записи есть свой “естественный ключ”, то есть поле или поля, которые являются идентификаторами каждой строки. Если входящий набор данных включает записи, имеющие один и тот же естественный ключ, все последующие строки могут быть удалены.
- Обработка пустых значений. Если пустые значения представлены как “N/A”, “Null”, “-1” или “TBD”, то можно выбрать и согласовать единое значение такого поля, чтобы не было путаницы у сотрудников, которые будут пользоваться данными. Более продвинутый подход – вычисление значения поля. Этот способ предполагает использование заполненных ячеек в столбце для обоснованного предположения об отсутствующих значениях, например, нахождение среднего значения для заполненных ячеек и присвоение его пустым ячейкам.
- Переформатирование значений. Если поля даты исходных данных находятся в формате YYYY/MM/DD, а вам необходимо чтобы дата была в формате MM-DD-YYYY, обновите поля исходной даты, чтобы они соответствовали вашему формату.
- Проверка порогового уровня. Это более тонкий подход к очистке данных. Он включает в себя сравнение текущего набора данных с историческими значениями и количеством записей. Допустим из источников данных мы знаем, что в мире здравоохранения разрешенная сумма общих ежемесячных заявлений составляет в среднем 2 миллионов рублей, сумма на одного человека – 100 тысяч рублей. И если из нового источника данных в выгрузке получится 10 миллионов рублей общая ежемесячная сумма и 500 тысяч рублей на одного человека, эти суммы превышают нормальный ожидаемый пороговый уровень. Соответственно эти данные должны пройти дополнительную проверку.
Предварительная очистка данных обеспечивает точность и последовательность данных для последующих процессов и аналитики, что в свою очередь повысит доверие клиентов к этим данным. Idatica по запросу клиента помогает в очистке данных, подготавливая извлеченные данные путем изучения, оценки и уточнения качества данных. Мы также занимаемся очисткой данных, нормализуем и обогащаем данные, используя более 100 функций электронных таблиц и формул.
Преобразование данных / Манипуляция данными
Преобразование данных / Манипуляция данными (c англ. “data wrangling”, “data munging”) — это практика преобразования сырых данных в регулярную модель под конкретную бизнес задачу для последующей работы над ними.
Этот процесс включает в себя два ключевых компонента процесса интеграции веб-данных – извлечение и подготовку данных. Извлечение включает в себя рендеринг CSS, обработку JavaScript, интерпретацию сетевого трафика и т. д. Подготовка в свою очередь гармонизирует данные и обеспечивает качество.
Ниже описаны успешные практики преобразования данных:
- Начните с небольшого объема данных для теста. Одной из проблем больших данных является работа с большими наборами данных, особенно на ранних этапах преобразования, когда аналитикам необходимо быстро перебирать множество различных методов исследования данных. Вместо работы с 500 миллионов строк, начните со случайной выборки данных, так вы сможете изучить их и наметить дальнейшие этапы преобразования. Этот метод значительно ускорит процесс изучения данных и подготовит почву для дальнейших манипуляций.
- Понимание столбцов и типов данных. Наличие словаря данных (документа, описывающего имена столбцов, бизнес определений и типа данных) действительно может помочь на этом этапе. Необходимо убедиться, что значения данных, фактически хранящиеся в столбце, соответствуют бизнес определению этого столбца. Например, столбец под названием “date_of_birth ” должен быть в формате DD/MM/YYYY. Сочетание этой практики с профилированием, описанным выше, должно помочь аналитику лучше изучить данные.
- Визуализация исходных данных. Использование общих графических инструментов и методов визуализации может помочь оживить текущие сырые данные. Гистограммы показывают распределение, графики рассеяния помогают найти выбросы, круговые диаграммы показывают процент к целому, а линейные диаграммы могут показать тенденции в ключевых областях с течением времени. Визуальная демонстрация данных — это отличный способ объяснить результаты исследований и необходимые преобразования сотрудникам нетехнических отделов.
- Сосредоточьтесь только на необходимых элементах данных. На этом этапе важную роль играют четко сформулированные бизнес задачи. Поскольку большинство исходных наборов данных содержат гораздо больше столбцов, чем требуется на самом деле, крайне важно работать только с теми столбцами, которые необходимы для ваших задач. Правильное применение этой практики сэкономит большое количество времени, денег и усилий.
- Превратите данные в действенные данные. Описанные выше шаги рассказывают о манипуляции, вычислениях, переформатировании исходных веб-данных в необходимый для бизнеса формат. Опытный аналитик может преобразовать данные в действенные практические данные, которые помогут бизнесу в развитии.
Большое количество данных, тип и оперативность данных доступных сегодня — это огромная возможность для бизнеса улучшить свои доходы, долю рынка, конкурентные позиции и отношения с клиентами. Однако недостаточное внимание очистке данных или качеству чревато плохими данными, неверными решениями и потерей доверия к ним. Таким образом, ценность традиционного парсинга интернета в этом отношении остается немного в стороне.
Вот тут-то и нужно использовать функционал интеграции веб-данных. Уделяя особое внимание качеству и контролю, интеграция веб-данных позволяет вам полностью реализовать потенциал данных с помощью хорошо продуманной, строгой и последовательной очистки данных и их обработки. Инвестируя в правильные инструменты, вы сможете доверять данным и сделать их доступными для нужных людей в нужное время.
Будущее больших данных. 5 прогнозов от экспертов на 2020-2025
Если у вас есть задача по парсингу в маркетинге, которую вы бы хотели обсудить, свяжитесь с нами через форму обратной связи, напишите в телеграм или позвоните по телефону.