- Большие данные (Big Data) – это структурированные, частично структурированные или неструктурированные массивы данных большого объёма, часто обновляемые и находящиеся в разных источниках.
- Главные источники больших данных:
- социальные сети и СМИ
- Интернет вещей (IoT), показания датчиков;
- данные компаний: транзакции, заказы товаров и услуг, профили клиентов.
- Этапы работы с большими данными:
- сбор данных – получение информации из различных источников (сенсоры, соцсети, базы данных, веб-сервисы);
- очистка данных – удаление дубликатов, пропусков, ошибок;
- обработка и анализ – применение алгоритмов для поиска закономерностей и зависимостей.
- хранение данных – использование распределённых систем (например, Hadoop, Spark);
- визуализация – представление результатов анализа в наглядной форме (графики, дашборды).
- В настоящее время большие данные характеризуются пятью V:
- Volume – объём обрабатываемых данных; очистка данных – удаление дубликатов, пропусков, ошибок;
- Variety – многообразие источников и форматов данных; хранение данных – использование распределённых систем (например, Hadoop, Spark);
- Velocity – скорость поступления и обработки данных;
- Value – ценность получаемой информации;
- Veracity – достоверность и качество данных.