Бесплатная конференция по управлению данными и искусственному интеллекту

Из чего состоит корпоративное хранилище данных

Из каких компонентов строит корпоративное хранилище данных с технической точки зрения?


Компоненты корпоративного хранилища данных предприятия

  1. У клиента всегда имеются операционные системы – источники данных для корпоративного хранилища данных. Это, например, бухгалтерские, биллинговые, банковские и т.п. системы.
  2. Используя ETL-приложение (программное обеспечение, позволяющее извлекать, трансформировать и загружать данные), данные из систем-источников попадают в базу данных хранилища данных. В качестве ETL-средства могут использоваться: Informatica Power Center, IBM DataStage, Oracle Data Integrator, Oracle WareHouse Builder. Существуют и продукты от других вендоров, но они почти не представлены на российском рынке.
  3. Сама база данных корпоративного хранилища не является абстрактной по своей структуре (набору таблиц, полей в них и взаимосвязей между таблицами), а создана на основе модели данных. В качестве базы данных в подавляющем большинстве используется или Oracle, или Teradata.
  4. Модель данных представляет собой описание всех сущностей, объектов базы данных корпоративного хранилища данных и включает в себя: концептуальную модель данных, логическую модель данных и физическую модель базы данных.
    На уровне концептуальной модели определяются сущности и взаимосвязи между ними.
    На уровне логической модели сущности делятся на бизнес-области, им дается подробное и полное описание, прописываются взаимосвязи.
    При разработке физической модели базы данных определяется вся структура базы данных — от таблиц и полей в них, до партиций и индексов.
    Модели данных сегодня на рынок поставляют IBM, SAP и Oracle, но покупка модели данных не означает автоматическое построение верного корпоративного хранилища. Модель данных — это не коробочный продукт. Ее нужно модифицировать под нужды конкретного клиента.
  5. Далее, уже используя данные из корпоративного хранилища данных, производится настройка областей анализа, отчетности и витрин данных. В последствии пользователи вполне самостоятельно могут строить необходимую отчетность и проводить многомерный анализ. В качестве инструментов анализа в основном используются Business Objects, Oracle Discoverer, IBM AlphaBlocks и другие продукты.

Kaspersky Symphony XDR

Этот XDR-инструмент входит в комплексную линейку Kaspersky Symphony. Он служит своего рода внешней защитной оболочкой для системы, включающей также EDR, MDR и защиту рабочих мест Security. Сам разработчик называет XDR самым продвинутым решением линейки Symphony.

Kaspersky Symphony XDR защищает:

  • ПК;
  • ноутбуки;
  • серверы;
  • виртуальные машины;
  • различные операционные системы;
  • мобильные устройства.

Инструмент интегрируется с системой Threat Intelligence, которая содержит подробные сведения о ранее зарегистрированных кибератаках, ИБ-политике и процедурах с учетом региона, а также другую информацию, необходимую для корректного и быстрого реагирования на любые киберинциденты. Kaspersky Symphony XDR также можно интегрировать с ИБ-решениями, предоставленными сторонними вендорами. Это позволяет объединить весь используемый компанией инструментарий информационной безопасности в единый слаженный механизм.

В одной лицензии объединены:

  • технологии EPP и EDR;
  • шлюзы почты и интернета;
  • песочница;
  • инструменты анализа сетевого трафика;
  • аналитические данные по состоявшимся атакам и угрозам;
  • мониторинг состояния системы безопасности;
  • модуль взаимодействия с ГосСОПКА.

Kaspersky Symphony XDR также содержит специальную платформу для повышения уровня осведомленности сотрудников в сфере информационной безопасности с онлайн-тренингами по актуальным областям. Знания персонала об актуальных угрозах помогут компании успешнее противостоять им, в частности, в сфере социальной инженерии.

Преимущества Kaspersky Symphony XDR:

  • Тесная интеграция компонентов и использование актуальной статистики для повышения продуктивности ИБ-службы
  • Соответствие требованиям российского законодательства
  • Наличие модуля обучения персонала для снижения рисков социальной инженерии и других видов киберугроз.
  • Возможность интеграции с ИБ-продуктами сторонних вендоров.

DIS Group: 58% компаний внедряет Big Data, KPMG: с учётом пилотных проектов – 68%

28 мая 2019 года прошёл форум «Цифровая организация: организовать данные бизнес-процессы и себя».

В рамках форума «INFADAY 2019. Цифровая организация: организовать данные бизнес-процессы и себя» состоялась пресс-конференция, эксперты обсудили ключевые тенденции дата-центричной цифровой трансформации в России и мире, видение рынка и фокус для инвестиций.

Спикерами пресс-конференции стали Алена Дробышевская (директор группы консультирования в области ИТ KPMG в России и СНГ), Эмилио Вальдес (вице-президент Informatica по регионам: Южная Европа, Ближний Восток, Африка, Латинская Америка), Михаил Комаров (директор направления Informatica DIS Group), Александр Тарасов (управляющий партнер DIS Group).

Важной проблемой дата-центричной трансформации в российских компаниях эксперты назвали отсутствие полномасштабных стратегий. «Российские компании реализуют набор пилотных проектов вместо комплексной программы цифровой трансформации, – рассказала Алена Дробышевская, KPMG

– По данным KPMG у 63% российских компаний есть программа цифровой трансформации. Для сравнения: в мире это 70% компаний. Однако чаще всего под цифровой трансформацией понимается фактически реализуемый пакет пилотных проектов»

«Российские компании реализуют набор пилотных проектов вместо комплексной программы цифровой трансформации, – рассказала Алена Дробышевская, KPMG. – По данным KPMG у 63% российских компаний есть программа цифровой трансформации. Для сравнения: в мире это 70% компаний. Однако чаще всего под цифровой трансформацией понимается фактически реализуемый пакет пилотных проектов».

Эксперты DIS Group подчеркнули большое значение данных для эффективной цифровой трансформации.

Михаил Комаров отметил: «В 2018 году повышенным вниманием на российском рынке пользовались решения Data Governance, защиты данных и технологии Big Data». DIS Group провёл опрос среди представителей крупнейших компаний России

33% опрошенных заявили, что на той или иной стадии в их организациях внедряется Data Governance. 58% – внедряют или начинают внедрять технологии Big Data (без учёта пилотных проектов). С учётом пилотных проектов, по данным KPMG, технологии Big Data внедряют 68% крупных российских компаний.

Финансовые показатели DIS Group отражают ситуацию на рынке. По направлению Data Governance выручка компании выросла в 2 раза в 2018 году. По направлению Big Data – в 2,74 раза (по сравнению с 2017 годом).

Направления Data Governance, защиты данных, Big Data играют большое значение и для Informatica наряду c управлением клиентскими мастер-данными (решения Customer 360). Informatica, единственный лидер в области корпоративного управления данными в облаке.

«Умные данные обеспечивают нашим клиентам конкурентные преимущества: помогают создавать новые возможности, решать проблемы, ускорять внедрение инноваций, – рассказал Эмилио. – Недавно мы выпустили обновления платформы Informatica Intelligent Data Platform и решений Intelligent Big Data на основе искусственного интеллекта. Были разработаны 50 новых функциональных возможностей, которые позволяют эффективно использовать данные в больших объёмах и ускорять цифровую трансформацию».

Positive Technologies XDR

Продукт рассчитан на компании любого размера. Это коробочное решение, однако оно имеет широкие возможности для интеграции в компании с учетом уже установленного софта и необходимости расширения функционала под конкретные задачи.

Данное решение основано на других продуктах Positive Technologies и объединяет в общую систему все продукты информационной безопасности, которые использует компания. Инструмент имеет интеграцию с ГосСОПКА и Linux.

В PT XDR используются:

  1. EDR-решение компании для защиты конечных точек корпоративной сети;
  2. MaxPatrol SIEM для выявления и мониторинга событий информационной безопасности;
  3. песочница PT Sandbox для отражения целевых и массовых атак;
  4. система управления уязвимостями MaxPatrol VM;
  5. инструмент глубокого анализа сетевого трафика PT Network Attack Discovery;
  6. блокировщик веб-атак PT Application Firewall;
  7. непрерывный мониторинг защищенности сети АСУ ТП PT Industrial Security Incident Manager.

Первые три пункта списка являются базовыми компонентами Positive Technologies XDR. Остальными XDR-решение дополняется постепенно. Компания постоянно расширяет число компонентов, которые можно интегрировать в PT XDR для своей компании.

PT Application Firewall успешно справляется с блокировкой атак уровня списка OWASP Top 10 и классификации WASC, а также атаками нулевого дня. MaxPatrol VM позволяет компании выстроить полноценную систему менеджмента уязвимостей, а также сохранять контроль над ним в экстренных обстоятельствах. Эта интеграция дает возможность контролировать те, части системы, которые были недоступны для SIEM. С её помощью PT XDR использует информацию по активам в реальном времени.

Решение работает с операционными системами Windows x86 и x64, а также macOS x64. PT XDR дает возможность создать и приоритизировать очередь на анализ угроз. Желающим доступен заказ пилотного проекта Positive Technologies XDR на сайте компании.

Преимущества Positive Technologies XDR:

  • Базовая комплектация и возможность дополнять XDR-решение другими продуктами Positive Technologies.
  • Можно интегрировать с решениями сторонних вендоров и создать единую систему информационной безопасности.
  • Перспективный и активно развивающийся продукт, который в полной мере использует 20-летний опыт и наработки Positive Technologies.

SimpleOne

Интерфейс ITSM-системы SimpleOne

SimpleOne — новая российская платформа для автоматизации бизнес-процессов по модели ESM (Enterprise Service Management). Преимущество SimpleOne перед остальными участниками рейтинга в том, что она изначально создавалась как универсальная платформа для сервисного управления любым подразделением предприятия (а не как у остальных — масштабирование ITSM-подхода с IT на другие отделы). То есть SimpleOne одинаково удобна для АХО, HR, ИБ, айтишников, финслужбы, юристов. За основу взяты практики ITIL и VeriSM.

SimpleOne ориентируется на крупный бизнес и госзаказчиков, которым интересна цифровая трансформация. Платформа официально была представлена в конце прошлого года, но уже стремительно пополняет список партнёров и клиентов: «Крок», IBS, Devoteam Russia, «ИТ-Гильдия», ITGLOBAL.COM.

Год запуска — 2019. Сайт производителя.

SimpleOne — это инструменты Low и No Code, производительная архитектура, современный дизайн и интерфейс

Важно, что продукт нацелен на глобальный рынок. Если SimpleOne будет и дальше развиваться в таком ключе, то вполне может стать лучшей российской ESM/ITSM-платформой

Google Docs

Это бесплатные приложения, которые во многом копируют функционал классического пакета Microsoft Office: документы, таблицы, презентации, шаблоны для разных задач. Главный плюс — сервисами может пользоваться любой человек бесплатно в любом браузере. Можно выбрать людей, которые получат доступ к файлу, и коллективно работать над одним документом. В марте Google запретила продлевать подписку на облако Google Drive из России. В нем хранятся все документы Google Docs, и без подписки доступ к ним можно потерять.

Microsoft Office Online. Обычные приложения Microsoft Office, но в браузере. Можно работать бесплатно в рамках вашего облачного хранилища OneDrive. Изначально оно размером 5 Гб. Пока сервис работает, но продажи ПО в России Microsoft остановила.

Р7-Офис. Отечественное программное обеспечение с офисными приложениями для ПК и смартфонов. Классические сервисы — документы, презентации, таблицы. Программы совместимы с Windows, Linux, Android и iOS. Сервис можно развернуть на локальных серверах компании. Так можно работать без интернета даже при полном его отключении. Для личного пользования Р7-Офис бесплатный, для малого бизнеса — 1,5 тысячи рублей в год за лицензию на одно рабочее место с пробной версией в 30 дней.

Мойо́фис. Российский редактор текста, таблиц и презентаций. Из интересного — можно оставлять голосовые комментарии к фрагментам текста. Для копирования и вставки есть 10 буферов, то есть можно скопировать 10 кусочков и вставлять их по своему усмотрению. Для личного использования бесплатно. Цена копии для компании рассчитывается по запросу, но есть 30-дневный бесплатный период.

Amundsen

Amundsen — это типичный справочник. То есть просто хорошая штука, чтобы поискать информацию по имеющимся таблицам. Он состоит из следующих сервисов:

  • neo4j — хранилище метаданных (также может использоваться Apache Atlas);
  • elasticsearch — поисковый движок;
  • amundsensearch — сервис для поиска по данным в Elasticsearch;
  • amundsenfrontendlibrary — Web UI (написан на Flask);
  • amundsenmetadatalibrary — отвечает за работу с метаданными в Neo4j или Atlas;
  • amundsendatabuilder — библиотека для извлечения данных из различных СУБД.

Принцип работы довольно простой. ETL-процесс сбора метаданных состоит из извлечения записей из источника при помощи выполнения SQL-запросов, преобразования записей и их загрузки в хранилище метаданных. Extractor выполняет запрос к хранилищу метаданных и преобразует их в набор вершин и связей между ними. Промежуточные результаты сохраняются в локальную директорию. Transformer преобразует загруженные данные в нужную структуру. Loader подхватывает промежуточные данные и складывает их либо во временный слой, либо сразу в финальное хранилище. Publisher подхватывает промежуточные данные и отправляет в хранилище.

В целом Amundsen — хороший справочник, который может отображать текущее состояние данных, но, к сожалению, он не способен хранить историю. Мы не можем отследить, когда таблица или колонка была добавлена, удалена или модифицирована.

Во время тестирования Amundsen показался достаточно сырым — например, из коробки не было авторизации, а поиск работал только по тегам и названиям баз, таблиц и колонок, не было возможности искать по описаниям. Но он действительно хорошо работает, когда нужно посмотреть, какие данные есть у нас в схемах.

Плюсы:

  • автоматический сбор данных из разных СУБД;
  • API для добавления или редактирования данных в автоматическом режиме за счет обращения напрямую к Metastore/information_schema;
  • Web UI с полнотекстовым поиском;
  • поиск по базам, таблицам, полям и тэгам;
  • добавление кастомной информации для отображения ()
  • визуализация data profiling (например, количество записей, дата последнего обновления, исторические значения);
  • визуализация data quality (какие проверки навешаны на датасет, история результатов проверок);
  • отображение data owner.

Минусы:

  • нет трекинга изменения датасетов (хранит только актуальное состояние и работает как справочник);
  • нет data lineage (источник можно идентифицировать только в блоке с кастомной информацией);
  • не нашли SSO-аутентификацию, доступна только OIDC;
  • полнотекстовой поиск работает только для тегов, таблиц, баз и колонок (нет возможности искать по описаниям колонок).

Сопутствующее программное и аппаратное обеспечение

Прежде всего, помимо самих услуг на разработку корпоративного хранилища данных, продаются еще и лицензии как на серверное програнное обеспечение (ОС, базу данных, сервер приложений и др.), так и на клиентские места (средства антивирусной защиты и обеспечения безопасности).

Возможно, существующие сервера клиента не предназначены для развертывания хранилища данных. Необходимо выдвигать к ним требования и продавать потенциальному клиенту «железо».

Помимо самих серверов для хранения значительного объема информации необходимы дисковые массивы.

Намереваясь строить корпоративное хранилище данных, потенциальный клиент не всегда понимает как он будет обеспечивать резервирование. Зачастую существующие у клиента системы резервного копирования не способны одномоментно подключить к резервированию объемы данных от 20-30 Тб.

Как правило, специалистам и пользователям клиента требуется прохождение курсов обучения.

Изменение формы сущностных данных

После завершения работы с мастером откроется визуальный конструктор EDM в IDE-среде с одной сущностью по имени Inventory. Просмотреть композицию любой сущности в визуальном конструкторе можно в окне Model Browser (Браузер моделей), которое открывается через пункт меню View —> Other Windows (Вид —> Другие окна).

Теперь взгляните на формат концептуальной модели для таблицы базы данных Inventory, представленный в папке Entity Types (Типы сущности). В узле хранилища, имя которого совпадает с именем базы данных (AutoLotModel.Store), находится физическая модель базы данных:

По умолчанию имена сущностей будут основаны на именах исходных объектов баз данных; однако, вспомните, что имена сущностей в концептуальной модели могут быть любыми. Чтобы изменить имя сущности либо имена свойств сущности, необходимо выбрать нужный элемент в визуальном конструкторе и установить соответствующим образом свойство Name в окне свойств (Properties). Переименуйте сущность Inventory в Car и свойство PetName в CarNickname:

Теперь выберите сущность Car в визуальном конструкторе и снова загляните в окно Properties. Вы должны увидеть поле Entity Set Name (Имя набора сущностей), также переименованное из Inventories в Cars

Значение Entity Set Name важно, потому что оно соответствует имени свойства в классе контекста данных, который используется для модификации базы данных. Вспомните, что это свойство инкапсулирует переменную-член ObjectSet класса-наследника ObjectContext

Прежде чем двигаться дальше, скомпилируйте приложение; это приведет к обновлению кодовой базы и генерации файлов *.csdl, *.msl и *.ssdl на основе данных файла *.edmx.

Кейсы компаний, которые реализуют Data Driven-подход

Управление

Управление на основе данных позволило компании «Сибур» перестроить работу отделов и избавиться от принципа «глубокого колодца», когда специалисты имеют доступ только к информации, необходимой для выполнения их обязанностей. Автоматизация отделов происходила разрозненно, большой пласт информации скрывали, мотивируя это коммерческой тайной, поэтому у менеджмента разных сегментов было недостаточно данных для анализа работы предприятия.

Внедрение Data Driven-подхода позволило открыть доступ к 80% ранее скрытой информации, сотрудники начали самостоятельно проверять гипотезы на данных, составлять интерактивные дашборды. С помощью бизнес-симуляторов компания начала моделировать различные ситуации на рынке и рассчитывать целесообразность инвестиций или запуска новых продуктов.

Разработка маркетинговых продуктов

На туристическом рынке технологию Data Driven используют, чтобы продвигать путешествия на ту аудиторию, у которой есть интерес к направлению, а также отслеживать реальную эффективность рекламы. Например, если человек интересовался турами в Испанию, смотрел билеты или отели, то он обязательно увидит таргетированную рекламу.

Анализ аудитории

Сбербанк уже несколько лет использует Data Driven для анализа поведения заемщиков. Интерактивная анкета, которую использует банк для сбора информации, позволяет выявить один из важных психологических параметров — уравновешенность или импульсивность клиента

Для банка это важно, так как рассудительные люди являются более добросовестными заемщиками, чем импульсивные. Вопросы в анкете для заемщиков помогают определить уровень финансовой грамотности, их стабильность, опыт работы и трезвое восприятие своего финансового положения

Недостатки Data Driven-подхода

  1. Расходы на инфраструктуру. Чтобы собирать данные о клиентах, нужно внедрять новые инструменты. Действия в интернете, например, просмотры страниц, время на сайте, клики и переходы можно отслеживать с помощью классических сервисов Google Analytics или Яндекс.Метрика. Но иногда их функционала не хватает и приходится покупать дополнительные сервисы.
  1. Расширение штата сотрудников. Для анализа данных требуются компетентные специалисты, которые смогут не только настроить систему аналитики, но и вовлечь в процесс другие отделы. Поэтому, кроме найма новых работников, появляются затраты на обучение.
  1. Затраты ресурсов на очистку данных. Для корректных результатов данные на входе должны быть чистыми, то есть не содержать ошибочной информации, устаревшей или неактуальной для компании. Очистка данных — трудоемкий процесс, который может отнимать до 80% времени.

Как можно обеспечить защиту больших данных?

Андрей Зеренков, руководитель направления развития кибербезопасности в государственных и телекоммуникационных организациях РФ и за рубежом группы компаний Softline

  • Постоянный контроль легитимности источников информации, а также защита узлов кластера от его несанкционированного расширения (внедрения чужих) и от несанкционированных изменений на самих узлах (например, вследствие атаки вредоносного ПО или АРТ). Антивирусы здесь не помогут – нужны продукты харденинга хостов. Легитимность источников и обработчиков можно также подтвердить сертификатами.
  • Использование анализаторов кода приложений, чтобы избежать влияния через программную среду бизнес-аналитики.
  • Строгая аутентификация пользователей на основе сертификатов и управление правами доступа.
  • Наличие отчетности о соответствии требованиям, с контролем соответствия, разумеется.
  • Защита сред Big Data, реализованных в «чужих» облаках, через защиту каналов связи и дополнительную защиту данных в облаке – шифрование и/или динамическое маскирование. И, конечно, постоянный мониторинг и анализ.

Павел Луцик, руководитель проектов по информационной безопасности компании КРОК

«К обеспечению защиты больших данных стоит подходить комплексно, учитывая все возможные угрозы нарушения конфиденциальности, целостности и доступности этих данных. Так, в частности, необходимо реализовать следующий комплекс мер:

  • Использовать надежные механизмы аутентификации и разграничения прав доступа при обращении к данным.
  • Отделить персональные данные от других данных.
  • Обеспечить защиту пароли доступа с помощью механизмов шифрования или хеширования, и убедиться, что при этом используются надежные алгоритмы, такие как AES, RSA, SHA-256.
  • Обеспечить логирование всех важных событий информационной безопасности при обработке больших данных с целью дальнейшего расследования возможных инцидентов.
  • Обеспечить защиту хранилища данных и логи транзакций, в том числе с помощью механизмов шифрования.
  • Обеспечить безопасность конечных устройств, в том числе мобильных, с которых осуществляется работа с большими данными, посредством применения антивирусного ПО и систем управления мобильными устройствами класса MDM.
  • Обеспечить защиту серверных компонентов систем, участвующих в обработке больших данных (межсетевое экранирование, в том числе уровня приложений, антивирусная защита и так далее).
  • Систематически проводить тренинги для повышения осведомленности персонала при работе с большими данными».

Юрий Сергеев, заместитель начальника отдела проектирования защищенных систем Центра информационной безопасности компании «Инфосистемы Джет»

Юрий Сергеев, заместитель начальника отдела проектирования защищенных систем Центра информационной безопасности компании

«Защиту стоит начать с аудита всех настроек инфраструктуры. Затем необходимо обеспечить настройку встроенных механизмов защиты: аутентификацию, авторизацию, аудит. Интегрировать решения с существующим в организации PKI (Public Key Infrastructure – инфраструктура открытых ключей) для замены самоподписанных сертификатов, применяемых в решениях. Также можно задуматься о средствах шифрования. Например, для баз данных Hive и Hbase, работающих поверх Hadoop, можно обеспечить шифрование на уровне отдельных столбцов. Наконец, начать интеграцию с имеющимися в компаниями средствами безопасности — сканерами уязвимости, SIEM-системами и другими решениями. Для аудита доступа к BigData можно применять решения класса Database Activity Monitoring, которые уже несколько лет поддерживают все передовые продукты из этой сферы».

Михаил Комаров, директор по продажам компании DIS Group

Михаил Комаров, директор по продажам компании

«В первую очередь надо выстроить процессы управления данными (Data Governance) – это позволит четко понимать, где какая информация находится. Также есть решения, которые позволяют анализировать информацию, находящуюся на кластере, и определять, конфиденциальная она или нет. Такие решения также интегрируются с программным обеспечением по контролю доступа

Важной задачей является динамическое обезличивание данных. Такой класс решений обезличивает данные в реальном времени в зависимости от роли пользователя при этом не меняя исходные данные

То есть пользователь работает с реальными данными не видя их. Перечисленные решения позволят контролировать возникновение и распространение данных, доступ к ним и скрывать чувствительные данные от рядовых пользователей, что позволит усилить защиту Big Data в дополнении к классическим решениям по аутентификации ролевым моделям, сетевой защите и так далее».

Сколько времени нужно, чтобы построить систему управления данными?

Система постоянно растет. Появляются успешные кейсы, возникают новые задачи, вовлекаются новые подразделения. Днем рождения системы управления данными можно считать первый кейс, который стал эффективным – принес доход или сократил потери, расходы. С учетом времени на накопление исторических данных это полтора-два года.

Примерно через пять лет у компании есть уже несколько эффективных кейсов, появляются культура работы с данными и отлаженные процессы по сбору и обработке данных. Запуск новых кейсов тоже налажен. В среднем за «пятилетку» после появления первой задачи можно считать, что компания вошла в стадию цифровой трансформации.

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
Центр Начало
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: