Что такое большие данные и для чего они нужны

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали.

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Рейтинг стран по добыче газа 2021

Согласно статистическому бюллетеню ОПЕК за 2021 год, общий объем добычи природного газа в мире в 2020 году составил 3,918 млрд куб. м. Это примерно на 3,5% меньше, чем в 2019-м. Причиной снижения добычи названа пандемия коронавируса.

Страны – лидеры по производству природного газа

1Мировым лидером по добыче природного газа является США, где в 2020 году было произведено 948 423 млн куб. м. Надо отметить, что США не избежали общего тренда на снижение добычи. В 2020 году в Америке произведено на 15 174 млн куб. м. меньше, чем в 2019-м.

2На втором месте в списке находится Россия. Объемы добычи газа в нашей стране в 2020 году составили 649 144 млн куб. м. Это меньше, чем в 2019 или 2018 годах. Примерно на уровне 2017 года.

3Третью строчку рейтинг занимает Иран с показателем 253 770 млн куб. м. Любопытно, что Иран практически не снизил добычу, по сравнению с 2019 годом.

В пятерку стран – лидеров по добыче природного газа входят также Китай (187 390 млн куб. м.) и Катар (184 880 млн куб. м.).

50 стран – лидеров по добыче газа: статистика ОПЕК 2021

В бюллетене ОПЕК за 2021 год приводится следующая статистика добычи природного газа по странам.

№	Страна	Добыча газа в 2020 г., млн куб. м.
1	США	948 423
2	Россия	649 144
3	Иран	253 770
4	Китай	187 390
5	Катар	184 880
6	Канада	183 002
7	Австралия	153 014
8	Саудовская Аравия	119 000
9	Норвегия	116 208
10	Алжир	85 119

Источник данных: OPEC Annual Statistical Bulletin 2021

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Где хранят и как обрабатывают big data

Большие данные хранятся в data-центрах с мощными серверами. Современные вычислительные системы обеспечивают мгновенный доступ ко всем данным.

Для работы с big data используют распределенные системы хранения данных. Часто все данные не помещаются на одном сервере и их нужно распределить на несколько.

Распределение данных помогает быстрее обрабатывать информацию. Это возможно, потому что над каждой частью данных работает отдельный сервер и процессы обработки идут параллельно.

Есть распределенные системы вычислений, которые позволяют работать с данными размером больше одного петабайта. Например, Spark и его более старая версия — MapReduce.

Одна из самых популярных систем для сбора и хранения данных — Hadoop. На ее основе появилось целое семейство других систем хранения, которые работают «поверх» Hadoop. Они позволяют добавлять новые функциональные возможности, которые недоступны в базовой сборке Hadoop.

Экосистема Hadoop

Большие данные или Big Data

Big data — что это такое? В буквальном переводе эта фраза означает большие данные. В традиционном толковании большие данные — это набор огромных объемов информации, настолько сложной и неорганизованной, что она не поддается обработке традиционными инструментами управления базами данных. Big Data просто не вписываются в традиционную структуру из-за своей величины.

Под этим термином также понимают не саму информацию или отдельную технологию, а комбинацию современных и проверенных инструментов работы с гигантскими потоками данных, что помогает получать практическую информацию.

Если суммировать, то биг дата можно определить, как возможность управлять колоссальным объемом разрозненных данных с нужной скоростью и в нужные временные рамки, чтобы обеспечить их обработку и анализ больших данных в реальном времени.

Источники больших данных

Большие данные непрерывно поступают из разных источников. Ниже перечислены основные.

Социальные. Это данные, которые поступают из социальных сетей, веб-сайтов, мобильных приложений и сервисов, интегрированных с социальными сетями. Социальные данные содержат историю посещения социальных сетей, мессенджеров, реакции на сообщения, новости и любые другие действия пользователей.

Машинные. Данные, которые оборудование производит о самом себе. Это может быть информация о местоположении, внутреннем состоянии оборудования (например, температура) и другие показатели.

Оборудованием считаются любые носимые устройства, элементы «умного» дома, производственное оборудование на заводе.

Транзакционные. Это банковские или любые другие финансовые транзакции. С появлением необанков и fintech-стартапов количество транзакционных данных в мире резко выросло.

Характеристики больших данных

Обычно big data описывают с помощью шести характеристик.

Volume (объем). Нет четких критериев, при каком объеме данные можно назвать «большими». «Много данных» — это метрика, которая зависит от времени и мощностей. Например, 30 лет назад считалось, что на жесткий диск объемом 10 Мб помещается много данных. В 2022 году большой объем — это 100–150 Гб.

На графике ниже видна динамика увеличения средней вместительности жестких дисков, по информации производителя Seagate.

Средняя емкость HDD с 2015 по 2022 год Скриншот: statista.com

Velocity (скорость). Эта характеристика описывает скорость накопления данных. Скорость накопления определяют два фактора:

Скорость накопления от одного источника данных. Например, социальная сеть сохраняет информацию о том, сколько раз один пользователь открывал страницу у себя на компьютере или в приложении на смартфоне. Информация может сохраняться десятки раз в день.
Также могут собираться данные производственного оборудования, которое передает важные показатели о своем состоянии. Эта информация может генерироваться 10–100 раз в секунду!
Количество источников данных. Например, социальная сеть имеет миллионы пользователей по всему миру. Если собирать информацию по каждому пользователю, скорость накопления будет — миллионы записей в секунду.

При этом производственного оборудования на одном заводе может быть несколько десятков штук. А итоговая скорость накопления данных будет до тысячи записей в секунду.

Variety (разнообразие). Данные могут отличаться как по контенту, так и по типу данных: структурированные, слабоструктурированные и неструктурированные.

Чтобы построить систему управления big data и систему анализа данных, нужно понимать, какие используются типы данных:

Структурированные — это строго организованные данные. Например, в Excel все работают со структурированными данными.
Слабоструктурированные — обычно это так называемые интернет-данные. К ним относится информация, полученная из социальных сетей, или история посещения сайтов. Так, JSON и XML имеют формат слабоструктурированных данных.
JSON (англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript. Но при этом формат независим от JS и может использоваться в любом языке программирования. XML (англ. Extensible Markup Language) — расширяемый язык разметки. Также используется для хранения и передачи данных. Из-за простоты JSON используют чаще, но на базе XML можно строить более сложные структуры данных.
Неструктурированные — данные произвольной формы и не имеющие заранее определенной формы. Например, файлы, каждый из которых уникален сам по себе. При этом их хранение нужно как-то организовать.

Veracity (достоверность). Достоверность — это когда данные «правильные» и непротиворечивые. То есть им можно верить и их можно анализировать и использовать, чтобы принимать бизнес-решения.

Высокие требования к достоверности обычно предъявляют в финансовых организациях. Одно неверно записанное в базу число может привести к некорректным отчетам.

Но есть ситуации, когда достоверность не так важна. Когда скорость накопления данных больше тысячи записей в секунду, то одна или даже десять ошибочных записей не создадут проблемы. Ведь после них последуют еще 900 записей хорошего качества.

Variability (изменчивость). Потоки данных могут изменяться по разным причинам: из-за социальных явлений, сезонов, внешнего воздействия. Когда собирают данные температуры производственного оборудования или вычислительного сервера, информация постоянно изменяется, если измерять температуру достаточно точно.

Изменчивость относится и к частоте получения данных. Иногда поступает 1000 записей в секунду, иногда — 100 записей. Например, данные изменяются, когда собирают информацию о количестве активных пользователей приложения. Так получается, потому что пользователи открывают приложение не каждый день.

Value (ценность, или значимость). Ценность — это фактор, который определяет весь перечень основных характеристик, описанных выше. Она зависит от возможности самой организации извлекать из данных пользу и превращать знания в ценность для клиентов.

Как попасть в резерв и какой правовой статус у резервистов

Служба в мобилизационном людском резерве осуществляется по контракту. Основная особенность этого контракта в том, что службу в резерве допускается совмещать с работой на гражданке. Кроме того, резервист получает определенные преференции, имеет права и обязанности (льготы, права и обязанности — это содержание термина «правовой статус»).

Требование для поступления в резерв — прохождение ранее воинской службы, наличие воинского звания. У резервиста не должно быть:

неснятой или непогашенной судимости;
права на отсрочку от мобилизации или освобождение от военных сборов;
двойного гражданства, ВНЖ иностранного государства и т.п.

Кроме того, не может заключить контракт находящийся под следствием человек или отказавшийся от оформления допуска к гостайне.

Как попасть в мобилизационный резерв и что это дает — подписать контракт в военкомате, резервисты получают денежное довольствие и другие суммы, они обязаны периодически проходить военные сборы (к ним привлекаются и обычные запасники) и принимать участие в учениях.

В отличие от обычных запасников, которых нельзя привлекать на сборы чаще, чем раз в 3 года, резервистов вызывают в ВС РФ каждый год, кроме того, ежемесячным занятиям уделяется до 3 дней. На время военных сборов и занятий за резервистом сохраняется рабочее место и средний заработок. Сборы мобилизационного резерва продолжаются от 10 до 30 дней.

Кто использует большие данные

Наибольший прогресс отрасли наблюдается в США и Европе. Вот крупнейшие иностранные компании и ведомства, которые используют Big Data:

• HSBC повышает безопасность клиентов пластиковых карт. Компания утверждает, что в 10 раз улучшила распознавание мошеннических операций и в 3 раза – защиту от мошенничества в целом.

• Суперкомпьютер Watson, разработанный IBM, анализирует финансовые транзакции в режиме реального времени. Это позволяет сократить частоту ложных срабатываний системы безопасности на 50% и выявить на 15% больше мошеннических действий.

• Procter&Gamble проводит с использованием Big Data маркетинговые исследования, более точно прогнозируя желания клиентов и спрос новых продуктов.

• Министерство труда Германии добивается целевого расхода средств, анализируя большие данные при обработке заявок на пособия. Это помогает направить деньги тем, кто действительно в них нуждается (оказалось, что 20% пособий выплачивались нецелесообразно). Министерство утверждает, что инструменты Big Data сокращают затраты на €10 млрд.

Среди российских компаний стоит отметить следующие:

• Яндекс. Это корпорация, которая управляет одним из самых популярных поисковиков и делает цифровые продукты едва ли не для каждой сферы жизни. Для Яндекс Big Data – не инновация, а обязанность, продиктованная собственными нуждами. В компании работают алгоритмы таргетинга рекламы, прогноза пробок, оптимизации поисковой выдачи, музыкальных рекомендаций, фильтрации спама.

• Мегафон

Телекоммуникационный гигант обратил внимание на большие данные примерно пять лет назад. Работа над геоаналитикой привела к созданию готовых решений анализа пассажироперевозок

В этой области у Мегафон есть сотрудничество с РЖД.

• Билайн. Этот мобильный оператор анализирует массивы информации для борьбы со спамом и мошенничеством, оптимизации линейки продуктов, прогнозирования проблем у клиентов. Известно, что корпорация сотрудничает с банками – оператор помогает анонимно оценивать кредитоспособность абонентов.

• Сбербанк. В крупнейшем банке России супермассивы анализируются для оптимизации затрат, грамотного управления рисками, борьбы с мошенничеством, а также расчёта премий и бонусов для сотрудников. Похожие задачи с помощью Big Data решают конкуренты: Альфа-банк, ВТБ24, Тинькофф-банк, Газпромбанк.

И за границей, и в России организации в основном пользуются сторонними разработками, а не создают инструменты для Big Data сами. В этой сфере популярны технологии Oracle, Teradata, SAS, Impala, Apache, Zettaset, IBM, Vowpal.

Читайте: Что такое интернет вещей, как он работает и чем полезен

Технологии больших данных

Наконец, мы рассмотрим основные инструменты, которые используют современные специалисты по данным при создании решений для больших данных.

Hadoop

Hadoop — это надежная, распределенная и масштабируемая платформа распределенной обработки данных для хранения и анализа огромных объемов данных. Он позволяет объединять множество компьютеров в сеть, используемую для простого хранения и вычисления огромных наборов данных.

Соблазн Hadoop заключается в его способности работать на дешевом стандартном оборудовании, в то время как его конкурентам может потребоваться дорогое оборудование для выполнения той же работы. Это тоже с открытым исходным кодом. Он делает решения для больших данных доступными для повседневного бизнеса и делает большие данные доступными для тех, кто не работает в сфере высоких технологий.

Hadoop иногда используется как общий термин, относящийся ко всем инструментам в экосистеме науки о данных Apache.

MapReduce

MapRedu ceпредставляет собой модель программирования, используемую в кластере компьютеров для обработки и создания наборов больших данных с помощью параллельного распределенного алгоритма. Его можно реализовать на Hadoop и других подобных платформах.

Программа MapReduce содержит mapпроцедуру, которая фильтрует и сортирует данные в удобную для использования форму. После сопоставления данных они передаются в reduceпроцедуру, которая суммирует тенденции данных. Несколько компьютеров в системе могут выполнять этот процесс одновременно, чтобы быстро обрабатывать данные из озера необработанных данных и получать полезные результаты.

Модель программирования MapReduce имеет следующие характеристики:

Распределенный: MapReduce — это распределенная структура, состоящая из кластеров стандартного оборудования, которое запускается mapили reduceвыполняет задачи.
Параллельно: задачи сопоставления и сокращения всегда работают параллельно.
Отказоустойчивый: в случае сбоя какой-либо задачи она переносится на другой узел.
Масштабируемость: масштабирование можно произвольно. По мере того, как проблема становится больше, можно добавить больше машин для решения проблемы в разумные сроки; каркас можно масштабировать по горизонтали, а не по вертикали.

Класс Mapper в Java

Давайте посмотрим, как мы можем реализовать MapReduce в Java.

Сначала мы будем использовать класс Mapper, добавленный пакетом Hadoop ( org.apache.hadoop.mapreduce) для создания mapоперации. Этот класс сопоставляет входные пары ключ / значение с набором промежуточных пар ключ / значение. По сути, преобразователь выполняет синтаксический анализ, проекцию (выбор интересующих полей из входных данных) и фильтрацию (удаление неинтересных или искаженных записей).

Например, мы создадим картограф, который берет список автомобилей и возвращает марку автомобиля и итератор; список из Honda Pilot и Honda Civic будет возвращаться (Honda 1), (Honda 1).

Reducer класс в Java

Самая важная часть этого кода находится в строке 9. Здесь мы выводим пары ключ / значение, которые позже сортируются и объединяются редукторами.

Не путайте ключ и значение, которые мы пишем, с ключом и значениями, передаваемыми в map(…) method. Ключ — это название марки автомобиля. Поскольку каждое вхождение ключа обозначает один физический счетчик этой марки автомобиля, мы выводим 1 в качестве значения. Мы хотим вывести тип ключа, который может быть как сериализуемым, так и сопоставимым, но тип значения должен быть только сериализуемым.

Класс редуктора в Java

Далее мы реализуем reduceоперацию, используя Reducerкласс, добавленный Hadoop. Функция Reducerавтоматически выводит Mapperи возвращает общее количество автомобилей каждой марки.

Задача сокращения разделена между одним или несколькими узлами-редукторами для более быстрой обработки. Все задачи одного ключа (бренда) выполняются одним и тем же узлом.

Строки 8-10 повторяют каждую карту одного и того же ключа и суммируют общее количество с использованием sumпеременной.

Mapperи Reducerявляются основой многих решений Hadoop. Вы можете расширить эти базовые формы для обработки огромных объемов данных или свести к узкоспециализированным сводкам.

Проблемы больших данных

Говоря о современных больших данных, нельзя игнорировать тот факт, что с ними все еще связаны некоторые очевидные проблемы. Вот некоторые из них.

Быстрый рост данных

Данные, растущие такими быстрыми темпами, трудно затрудняют получение на их основе понимания. Каждую секунду создается все больше и больше информации, из которой необходимо извлекать действительно актуальные и полезные данные для дальнейшего анализа.

Синхронизация источников данных

Когда организации импортируют данные из разных источников, данные из одного источника могут быть устаревшими по сравнению с данными из другого.

Безопасность

Огромный объем данных может легко стать мишенью для хакеров и постоянной угрозой компьютерной безопасности. Поэтому перед компаниями, управляющими big data, стоит еще одна проблема — обеспечить безопасность своих данных с помощью надлежащей аутентификации, шифрования данных и так далее.

Ненадежные данные

В силу своих объемов и разности источников большие данные не могут быть точными на 100%. Они могут содержать избыточную или, наоборот, неполную информацию, а также противоречия.

Другие проблемы

Это некоторые другие проблемы, которые возникают при работе с большими данными. Самые известные из них — это корректная интеграция данных, наличие у персонала навыков работы с big data, затраты на профессиональные решения и обработка большого количества данных вовремя и с нужной точностью.

Страны — ведущие экспортеры природного газа

1Мировым лидером по продаже природного газа за границу является Россия. В 2020 году, по данным ОПЕК, страна отправила на экспорт 199 928 млн кубометров «голубого топлива», что на 9% меньше, чем в 2019-м.

2На втором месте в рейтинге находится США, продавшая в 2020 году 149 538 млн кубометров природного газа, что на 17 691 млн куб.м. больше, чем годом ранее.

3Третью строчку рейтинга занимает Катар с показателем 143 700 млн кубометров.

В пятерку стран — лидеров по продаже природного газа входят также Норвегия (112 951 млн куб.м в 2020 г.) и Австралия (102 562 млн куб.м.).

Куда экспортирует газ Россия?

Основным потребителем российского газа являются страны Европы. Доля «Газпрома» на европейском рынке «голубого топлива» находится примерно на уровне 33%.

Основным потребителем российского газа по итогам 2020 года в Европе является Германия (45,8 млрд куб.м.). Крупные объемы «голубого топлива» получили также такие европейские страны, как:

• Италия – 20,8 млрд куб.м.,• Турция — 16,4 млрд куб.м.,• Австрия – 13,2 млрд куб.м.,• Франция – 12,4 млрд куб.м.,• Нидерланды – 11,8 млрд куб.м.

В 2020 году поставки «голубого топлива» в Китай по газопроводу «Сила Сибири» осуществлялись с наращиванием объемов и по итогам года составили 4,1 млрд куб. м.

Кто работает с большими данными

Есть несколько профессий, в основе которых — работа с большими данными.

Data-инженер. Чтобы начать работать с большими данными, необходимо их собрать, организовать место хранения, подготовить и обработать эти данные. Всё это обеспечивает инженер, который строит процессы работы с big data.

Data-инженер — это программист, у которого есть опыт работы с различными базами данных и высоконагруженными системами обработки данных.

Data-сайентист. Это эксперт в анализе данных, математической статистике, теории вероятности. Его главная задача — построение математических моделей для прогнозирования, оптимизации и других задач. Data-сайентист в меньшей степени погружен в бизнес-процессы компании, потому что сфокусирован на техническом и математическом решении задач.

Аналитик данных. Это эксперт в анализе данных и бизнес-процессах компании, в которой он работает. Аналитик разбирается в задачах и проблемах бизнеса, знает, какие данные доступны для анализа. Он является связующим звеном между бизнесом и миром больших данных.

Что это такое

Показатель долговой нагрузки (ПДН) – это соотношение суммы ежемесячных платежей по кредитам (уже оформленным и оформляемым сейчас) к актуальному доходу семьи. Также иногда встречается обозначение этого показателя в виде аббревиатуры PTI (payment-to-income). Таким образом банк определяет, сколько свободных денег остается в распоряжении потенциального заемщика после уплаты по кредитам и хватит ли их для текущих нужд. В противном случае есть риск, что заемщик не справится с обязательствами.

Расчет кредитной нагрузки физических лиц производится с учетом взятых ранее кредитов и займов, а также с учетом запрошенной суммы. Суммы платежей по кредитам и доходы учитываются за месяц. В итоге ПДН рассчитывается по формуле:

В верхней строке формулы учитываются все обязательные выплаты по ранее взятым кредитам. В нижней строке учитываются доходы, подтвержденные документально (можно также заявить и о неофициальных доходах). Банк при необходимости может проверить движение денег по счетам – если счет в другом банке, нужно предоставить выписку по нему.

Кредит с высокой кредитной нагрузкой получить сложно. Банк либо сразу откажет, либо потребует каких-то обеспечительных мер – привести поручителя, предоставить гарантии или залог.

Предполагаемые изменения в армии России

Военная подготовка России в перспективе предусматривает ряд реформ. По сравнению с данными на 2021 год, отечественная армия увеличилась на 250 тысяч вооруженных бойцов, поэтому возник дефицит так называемых «небоевых» военных специальностей, и в дальнейшем уклон в последующих наборах будет сделан на них. Была предпринята попытка сокращения количества задействованных военнослужащих в некоторых званиях. Например, планировалась замена прапорщиков сержантами в качестве альтернативы, но такой прием потерпел фиаско, так как большая часть сержантов не стала заключать долгосрочный договор на дальнейшую службу.

Численность армии России не может не отразиться на составе боевой техники. Сюда входит создание надежных и безопасных баз хранения боеприпасов, оптимизация военного строительства, предполагается ввести новые модели танков, самолетов, зенитных пушек. Однако в настоящее время по сравнению с иностранными аналогами, вооружение российской армии требует дополнительных научно-технических разработок.

В конечном счете, численность ВС РФ за последние годы достигла тех количественных размеров, с которыми страна способна создать конкуренцию западным и восточным государствам. Суммарный объем денежных средств, отпущенных на повышение безопасности России, увеличился в течение последних пяти лет на 50%, однако этого все равно недостаточно для требуемых на сегодняшний день военных закупок. Армия России нуждается в рациональном распределении финансового фонда между своими настоящими потребностями. Это составляет один из основных недостатков современной военной подготовки страны, хотя соответствующий вопрос уже поставлен в высших инстанциях.

В целом же, военное лидерство Российской Федерации неоспоримо. Нашему государству удалось достигнуть того уровня модификаций, при котором оно имеет явные преимущества, главным образом, благодаря распоряжению мощнейшим в мире ядерным оружием. По оценке специалистов, Россия достойно обеспечивает безопасность своих граждан.

MapReduce

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи. Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce(). Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Мобилизация в Санкт-Петербурге завершена на 30%

Количественные показатели мобилизации были определены военным комиссариатом Санкт-Петербурга на 30 сентября 2022 года.

Военный комиссар города Ильфат Абзалов отказался отвечать на вопрос «ДП» о количестве человек в призывной комиссии, но предоставил дополнительную информацию.

По словам г-на Абзалова, будет призвано около 30 тысяч петербуржцев. На данный момент, по его данным, более 8 тысячам уже вручены повестки.

Комиссар подчеркнул важность создания нескольких новых воинских частей, которые будут выполнять различные функции территориальной обороны в Санкт-Петербурге. Он также признал недостатки в процессе мобилизации

Восемь человек, которые были неправильно мобилизованы, были возвращены.

Заключение

Перед тем как начать работать с большими данными, нужно определиться с целями, которые нужно достичь и в зависимости от этого определиться, какую именно информацию и в каком количестве нужно собрать. Чем глубже вы знаете область, из которой получены данные, тем точнее будет ваш прогноз и тем интереснее будут факты, которые вы найдете.

Читать ещё: «Шесть мифов о Big Data»

Недостаточно просто уметь работать с данными, нужно понимать, откуда эти данные происходят. Чем больше вы понимаете в работе бизнеса, тем весомее будет ваш вклад, и тем сильнее вы сможете повлиять на качество работы всей компании.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.