- Большие данные (Big Data) – это структурированные, частично структурированные или неструктурированные массивы данных большого объёма, часто обновляемые и находящиеся в разных источниках.
- Главные источники больших данных:
- социальные сети и СМИ
- Интернет вещей (IoT), показания датчиков;
- данные компаний: транзакции, заказы товаров и услуг, профили клиентов.
- Этапы работы с большими данными:
- сбор данных – получение информации из различных источников (сенсоры, соцсети, базы данных, веб-сервисы);
- обработка и анализ – применение алгоритмов для поиска закономерностей и зависимостей;
- визуализация – представление результатов анализа в наглядной форме (графики, дашборды).
- В настоящее время большие данные характеризуются пятью V:
- Volume – объём обрабатываемых данных.
- Variety – многообразие источников и форматов данных.
- Velocity – скорость поступления и обработки данных.
- Value – ценность получаемой информации.
- Veracity – достоверность и качество данных.