×
Архитектура данных: уровни, элементы и этапы
Вернуться к Блогу
18.04.2024
3274

Время чтения: 12 минут

Нет времени читать?
Отправить материалы на почту

Архитектура данных: уровни, элементы и этапы

Что это такое? Архитектура данных в сфере информационных технологий представляет собой совокупность моделей, правил и стандартов. Они определяют процессы сбора, хранения и размещения, интеграции и использования информации в системах и организациях.

На что обратить внимание? Важной составляющей архитектуры данных является обеспечение безопасности. Стандарты определяют правила доступа, механизмы защиты информации и меры предотвращения несанкционированного проникновения. Они обеспечивают конфиденциальность, целостность и доступность данных, защищая информацию от утечек.



Что такое архитектура данных

Архитектура данных это описание системы, обеспечивающей работу с информацией на предприятии. Ее задача состоит в систематизации соответствующих процессов. Для реализации такой функции необходимо разработать базу данных (БД), организовать процедуру сбора требуемой информации, определить нормы ее обработки и условия хранения. Архитектура данных представляет собой набор документов, включающих правила, методы, описание терминологии, ПО и перечень специалистов, которые могут работать с информационной базой.

Возьмем для примера ситуацию с запуском маркетплейса. Для нормальной работы такого проекта необходимо наладить ряд процессов. Речь идет о сборе, хранении и обработке больших массивов информации: о продукции, поставщиках, клиентах, заявках, доставках. Организовать бесперебойное выполнение всех перечисленных операций без архитектуры данных крайне сложно.

Что такое архитектура данных

Источник: shutterstock.com

В своде профессиональных знаний по управлению данными DMBoK указывается, что рассматриваемая нами модель включает методики, правила и варианты описания, которые необходимы для разработки требований к данным, их использования и контроля согласно управленческой стратегии. Архитектура данных выступает одним из элементов структуры компании, который объединяет стратегию бизнеса и ее техническую реализацию. Другими словами, речь идет об обеспечении работы предприятия в форме, объединяющей производственные процессы и комплекс информационных технологий в виде IT-систем и приложений.

В контексте практического применения архитектура данных является системой сбора, обработки и хранения информации. Ее тип выбирают с учетом основных задач IT-системы предприятия, ее зрелости, особенностей использования, процессного уровня и доступных технологий. В сфере ПО появляются новые разработки, а у бизнеса возникают дополнительные потребности, что вызывает необходимость в развитии архитектур данных. Они постоянно совершенствуются.

Понятие «архитектура данных» имеет отношение к достаточно широкому спектру областей. Оно затрагивает все методики и процессы, относящиеся к данным в состоянии покоя или движения и их зависимости от процессов и приложений. Данное понятие объединяет первичные объекты данных, а также их типы и источники, используемые бизнесом для решения своих задач. Проектированием, разработкой, разворачиванием архитектуры данных и управлением ею, как правило, занимаются отдельные специалисты. Их называют инженеры или архитекторы данных.

Читайте также!

«Примеры маркетинговых стратегий: от Apple до Барака Обамы»
Подробнее

Уровни архитектуры данных

Архитектура данных имеет три уровня (процесса):

  1. Концептуальный уровень (бизнес-модель): включает весь перечень объектов данных и описывает их концептуальную или семантическую модель.

  2. Логический уровень (системная модель): определяет взаимосвязанность объектов данных и их логическую модель.

  3. Физический уровень (технологическая модель): определяет механизмы работы с данными в конкретных процессах и операциях (описывает метод реализации фактической архитектуры данных в основной технологической инфраструктуре).

Элементы архитектуры данных

Архитектура данных включает модели, стратегии, правила и стандарты.

В концептуальной модели раскрывается, как данные взаимосвязаны между собой и с другими областями (к примеру, бизнес-процессы и технические ресурсы, включая персонал и серверные системы).

Эту модель архитектуры баз данных иногда называют лямбда-архитектурой. Она особенно эффективна для хранения и онлайн-обработки больших массивов информации, поступающей в режиме реального времени, например, из стриминговых сервисов.

Стратегия – это основная задача, решаемая за счет создания архитектуры данных. К примеру, улучшение клиентского обслуживания или оптимизация рекомендательных систем.

Архитектура хранения данных формируется с учетом специфики области, в которой работает компания. Для разных сфер применяются различные модели. К примеру, архитектура для игрового разработчика будет отличаться от той, что требуется интернет-магазину или маркетплейсу.

Важным этапом разработки является взаимодействие с заказчиком, так как у каждого бизнеса свои уникальные требования и цели.

Правила и стандарты представляют собой комплекс принципов взаимодействия с лямбда-архитектурой, которые также могут называться политикой работы с данными. Они могут варьироваться в зависимости от выбранного для хранения типа информационной базы (простая, реляционная, NoSQL или смешанного типа).

Элементы архитектуры данных

Источник: shutterstock.com

Проектирование архитектуры не может быть выполнено по готовому шаблону или путем копирования у конкурентов. Понимание уникальных требований заказчика критично для ее создания.

Инженер может получить заказ на разработку архитектуры базы данных для хранения сведений по медицинскому обследованию или для архивации отчетов. Решение каждой задачи имеет свои особенности. В ходе курса Data Engineering учащиеся проходят обучение проектированию архитектур данных различного типа на конкретных бизнес-задачах. Студенты в команде с опытными инженерами реализуют проекты для разных областей применения.

Читайте также!

«Примеры УТП, чтобы придумать свое еще круче»
Подробнее

Этапы проектирования архитектуры данных

Процесс создания архитектуры данных разделяется на две ключевые стадии. Остановимся подробнее на каждой из них.

Подготовка

Перед тем как приступить к разработке, специалист по данным должен уяснить три основных аспекта:

  1. Какой тип информации будет храниться?

    На этом этапе определяются наилучшие способы организации потока данных, выбирается подходящий тип базы данных и система управления базами данных (СУБД). К примеру, для онлайн-магазина может быть оптимальным использование реляционной модели. В свою очередь, производитель товаров может выбрать документоориентированную базу для хранения неструктурированных данных, таких как описания и инструкции.

  2. Как будет архивироваться информация?

    На этой стадии определяются методы очистки и форма нормализации данных. К примеру, нужно определить, какие записи удалять и какими инструментами это будет реализовано (встроенными функциями, вручную или пользовательскими скриптами).

  3. Как данные будут использоваться?

    В большинстве случаев конечные пользователи (представители бизнеса) не обладают знанием языков программирования или SQL. Именно поэтому необходимо разработать графический интерфейс или дашборд для визуализации нужной информации.

    Для ответов на эти вопросы специалист по данным консультируется с заказчиками, аналитиками и специалистами в области Data Science.

Разработка архитектуры данных

При проектировании лямбда-архитектуру необходимо описать на трех уровнях:

  1. Бизнес-уровень (внешний)

    Разрабатывается система поддержки бизнеса в его работе. Этот уровень описывает, каким образом сотрудники компании будут взаимодействовать с базой данных для принятия решений. Разные отделы могут иметь различные интерфейсы и методологии. Например, отдел логистики может мониторить параметры доставки и состояние склада, в то время как маркетологи фокусируются на анализе веб-трафика и эффективности рекламных кампаний.

    На данном уровне в зависимости от задач бизнеса описываются концепция модели базы данных и методы анализа.

    Наличие в штате предприятия подготовленных специалистов является еще одним фактором, который учитывается при разработке лямбда-архитектуры. К примеру, для эффективной работы с данными компании необходим аналитик.

  2. Концептуальный уровень

    Описываются основные характеристики базы – типы данных, их атрибуты и взаимосвязи, а также методы обработки. Этот уровень представляет собой взгляд администратора базы на организацию данных.

    В рамках этого уровня также описываются:

    • методы работы с архитектурой, включая инструкции, схематичные представления или набор навыков, необходимых для обучения сотрудников;

    • требования безопасности, к примеру, какие специалисты имеют право на редактирование данных.

  3. Технический уровень (внутренний)

    Описываются параметры, связанные с физическим хранением данных (объем, локация и необходимые ресурсы). К примеру, определяется серверное оборудование и программное обеспечение, необходимые для организации оптимального хранения информации.

Кейс: VT-metall
Узнай как мы снизили стоимость привлечения заявки в 13 раз для металлообрабатывающей компании в Москве
Узнать как

Что влияет на дизайн архитектуры данных

На проектирование архитектуры влияют разнообразные ограничения и другие факторы, включая несколько аспектов.

Требования, которые выдвигает предприятие

Обычно они включает в себя экономичное и результативное масштабирование системы, допустимые показатели производительности (в частности, быстродействие системы), стабильность операций и прозрачное управление информацией. Могут также выдвигаться организационные требования по преобразованию первичных данных, например, журналов транзакций или графических файлов в более информативные модели с помощью решений, таких как хранилища данных.

Это важно, поскольку обеспечивается возможность принятия управленческих решений и оптимизации внутренних процессов. Одним из подходов к проектированию архитектуры данных является разграничение между транзакционными и основными референсными сведениями. Кроме того, возможны решения с разделением модулей сбора информации от системы ее поиска (как в случае с хранилищами данных).

Технологические факторы

Обычно они определяются после разработки структуры данных и схемы БД. Дополнительно некоторые технологические факторы формируются на основе текущих механизмов интеграции в организации установленных стандартов, экономических условий предприятия и имеющихся ресурсов (например, ранее купленные лицензии ПО). Часто для объединения нескольких устаревших систем применяются методы виртуализации данных.

Корпоративная стратегия

Бизнес-стратегии, влияющие на разработку архитектуры данных, включают в себя внутренние корпоративные директивы, нормы регулирующих структур, отраслевые стандарты и актуальные законодательные акты, которые могут отличаться в зависимости от контролирующего органа. Эти факторы определяют способ обработки информации на предприятии.

Технологические факторы

Источник: shutterstock.com

Экономика

Эти аспекты играют ключевую роль при разработке структуры данных. Некоторые решения, несмотря на их эффективность, могут быть под вопросом из-за своих финансовых последствий. Внешние обстоятельства вроде экономических циклов, уровня процентных ставок, текущей рыночной ситуации и законодательных норм часто влияют на выбор определенных подходов к архитектуре данных.

Существующие требования в области обработки данных

Сюда входят надежные и повторяемые операции с транзакциями в больших масштабах, БД для поддержки систем управленческой информации (а также возможного глубокого анализа данных), регулярные и специфические отчеты, а также поддержка разнообразных корпоративных проектов по мере их возникновения (например, планирование годового бюджета или разработка новых продуктов).

Архитектура корпоративных данных предприятия

Архитектура корпоративных данных (EDA) представляет собой комплекс ключевых проектов, целью которых является адаптация IT-приложений, программного обеспечения и информационных ресурсов к бизнес-стратегии. EDA применяется для согласования вопросов интеграции. Кроме того, это обеспечивает повышение качества и эффективности передачи информации.

EDA входит в структуру общей корпоративной архитектуры, включающей в себя множество взаимосвязанных элементов: оборудование, приложения, бизнес-процедуры, выбор технологических решений, коммуникационные сети и данные.

Модель архитектуры корпоративных данных включает в себя множество уровней, служащих надежной базой для стратегических действий, в частности:

  • стратегию обработки информации, определяющую цели предприятия по оптимизации сбора и применения данных, а также усовершенствование бизнес-операций;

  • рассмотрение возможных будущих нововведений и модернизации решений;

  • БД, проекты по их интеграции и составлению отчетов.

Читайте также!

«Фишки маркетинга: как показать, что ваш продукт – лучший»
Подробнее

EDA чаще всего представлена моделями на четырех уровнях:

  1. Модель верхнего уровня (HLDM): включает в себя набор HLDM, иллюстрирующий бизнес-данные с абстрактной точки зрения, отделенной от конкретной реализации системы. HLDM представляет собой базовую модель классов UML с описанием основных элементов данных и их связей, дополненную набором бизнес-функций, таких как семантика, общие ограничения и правила форматирования.

  2. Обзор реализации: демонстрирует связи между реальными данными ключевой важности текущих или предполагаемых систем и концептуальными блоками HLDM, демонстрируя, как концептуальные блоки превращаются в реальные.

  3. Модели источников и пользователей: показывает взаимосвязи между разными версиями одних и тех же данных, их держателями и механизмами распределения изменений по системам.

  4. Модели передачи и трансформации данных. Они описывают, как информация в реализованных системах модифицируется при транзите между различными системами. В их состав входят структурное описание атрибутов и физическая категория интерфейсов системы. Архитектура передачи данных также демонстрирует, как HLDM применяется в интерфейсных решениях, включая центральные системы или хабы интеграции корпоративных приложений (EAI).

Основные преимущества EDA:

  • улучшается понимание данных;

  • становится ключевым элементом при создании и внедрении управленческой системы, соответствующей стратегии обработки данных;

  • управляет разработкой в различных модулях, включая универсальные отчеты, интеграцию корпоративных систем (EAI) и проекты по созданию баз данных.

Кто такой архитектор данных

Архитектор данных – это инженер по разработке систем и процессов для хранения и использования информации. Его обязанности могут включать в себя создание разнообразных структур, начиная с конвейеров и БД и заканчивая хранилищами и облачными системами. В общем, главная цель такого специалиста заключается в обеспечении организации данных с учетом их доступности, безопасности и актуальности.

Архитекторы данных также обязаны осуществлять контроль создаваемых информационных систем с целью обеспечения эффективного внедрения и долгосрочной поддержки. В конечном счете функции таких инженеров во многом схожи с обязанностями традиционных архитекторов.

Архитектор данных

Источник: shutterstock.com

Оба типа таких специалистов анализируют, как используются структуры, и работают над обеспечением безопасности и инженерного сопровождения. На практике архитекторы данных заботятся о том, чтобы разные компоненты системы взаимодействовали гармонично, создавая решение, удовлетворяющее потребности конечных пользователей.

Конечно, бизнес нуждается в разных специалистах по работе с информацией, но работа архитекторов данных относится к наиболее важным функциям. Их задача заключается в обеспечении основы для остальных профессионалов, работающих в этой области, включая аналитиков, исследователей и экспертов. Отсутствие грамотно разработанной архитектуры данных может серьезно осложнить задачи других специалистов. Этим и обусловлена уникальность профессии архитектора информационных систем.

Задачи и обязанности архитектора данных

Так же, как и у традиционных архитекторов, обязанности архитекторов данных могут меняться с учетом роли специалиста.

Перечислим основные задачи сотрудников на такой должности и требования к ним:

  • Разработка логических и физических структур информационных систем (к примеру, хранилищ данных).

  • Формирование моделей данных, которые определяют нормы организации и хранения информации, а также порядок доступа к ней и обслуживания БД.

  • Умение анализировать доступные источники информации и определять их соответствие стратегии и целям компании.

  • Углубленное понимание действующих требований в сфере информационной безопасности, управления БД, качества данных. Навыки по разработке собственных стандартов, политик и нормативов в данной сфере.

  • Навыки работы с новейшими технологиями и их интеграцией в структуру архитектуры данных (к примеру, облачные вычисления, искусственный интеллект и т. д.).

    Задачи и обязанности архитектора данных

    Источник: shutterstock.com

  • Решение вопросов, связанных с информационной безопасностью, и обеспечение требований к конфиденциальности данных.

  • Поиск решений при возникновении любых проблем, имеющих отношение к данным, и управление другими сотрудниками в области оптимизации архитектуры.

  • Взаимодействие с основными заинтересованными сторонами с целью обеспечения их понимания особенностей архитектуры данных и помощь в ее эффективном применении.

  • Координация процесса создания и поддержки словарей данных и глоссариев, чтобы упростить работу с системой нетехническим пользователям.

  • Взаимодействие с инженерами данных с целью обеспечения развития и непрерывной работы информационных конвейеров и процессов (включая ETL), связанных с данными.

  • Активное участие в процедурах формирования стратегии предприятия и трансформации бизнес-целей компании в конкретные задачи, а также в разработке IT-систем.

Типы архитекторов данных

Сложно предвидеть дальнейшие направления развития архитектуры данных. На текущий момент можно выделить следующие типы архитекторов в этой области:

  • Специалисты по проектированию, разработке и обслуживанию БД, а также технологий доступа к ним (к примеру, кластеры NoSQL, SQL и др.).

  • Архитекторы хранилищ, которые работают с более масштабными системами данных. В зону их ответственности входит разработка и внедрение структур, предназначенных для хранения и управления стабильными источниками данных.

  • Архитекторы бизнес-аналитики специализируются на создании структур, упрощающих извлечение данных. Для решения таких задач необходимо хорошо разбираться в основных видах источников информации и в аналитике. Помимо этого, такому специалисту требуется углубленное понимание стратегических целей предприятия, правил формирования отчетности и технологии, которые обеспечивают представления результатов.

  • Архитекторы данных предприятия осуществляют контроль информационной структуры компаний. Чаще всего такие специалисты работают на высоких должностях, принимая участие в формировании стратегий в области работы с информацией. Кроме того, они занимаются развертыванием архитектуры данных на основании задач, которые стоят перед компанией.

  • Архитекторы больших данных занимаются системами, предназначенными для сбора, архивации, обработки и анализа больших массивов сложной, чаще всего неструктурированной информации. Их функции нередко связаны с применением методов распределенных вычислений (к примеру, Hadoop, Spark и Kafka). Для такой работы необходимы дополнительные навыки, включая разработку систем распределения данных и ПО.

    Обработка данных в Big Data

    Источник: shutterstock.com

  • Облачные архитекторы работают с данными в облачных системах. Здесь необходимо глубокое понимание технологий для удаленного управления процессами (к примеру, AWS, Azure или GCP). Кроме того, эти специалисты обладают навыками в области разработки решения с учетом требований, существующих в отношении использования таких технологий.

  • Архитекторы безопасности ориентированы на обеспечение условий для безопасной работы с определенными структурами или сервисами. В их обязанности входит ведение соответствующей документации, а также разработка методов шифрования и верификации. Архитекторы безопасности данных обеспечивают соответствие информационных систем действующим нормативным требованиям.

  • Архитекторы машинного обучения не являются новым направлением рассматриваемой специальности. Тем не менее с расширением сфер применения искусственного интеллекта они становятся все более востребованными. В их зону ответственности входит проектирование моделей и внедрение алгоритмов машинного обучения, а также подбор оптимальных методов решения таких задач.

Кто такой инженер данных и чем он отличается от архитектора

Профессия IT-специалиста, который реализует на предприятии возможности для анализа данных за счет разработки алгоритмов выявления тенденций данных и методов их интерпретации для оперативного использования, получила название «инженер по данным». Одна из его основных функций состоит в обеспечении доступа сотрудникам компании к первичной информации и ее интерпретации. Такой инженер отвечает за создание инфраструктуры управления данными, которую проектирует архитектор. В перечень его должностных функций также входит:

  • создание структур для представления больших массивов данных, которые могут использоваться для реализации задач предприятия;

  • разработка четких алгоритмов для анализа информации;

  • интеграция данных и производственных процессов к единой информационной системе;

  • поддержка и масштабирование инфраструктуры данных в рамках задач по обработке увеличивающихся объемов информации внутри предприятия;

  • делегирование рутинных процессов анализа и управления данными автоматизированным системам.

Архитекторы и инженеры данных, как правило, взаимодействуют в рамках IT-команды, но решают разные задачи. К примеру, если первые специалисты формируют концепцию информационной структуры и связанных с нею процессов, то вторые на ее основе создают физические системы. Практический опыт у архитекторов и инженеров данных также разный. Основная работа архитекторов связана с моделированием и интерпретацией информации. В свою очередь, инженеры по данным разрабатывают программное обеспечение.

Отличаются у рассматриваемых нами специалистов и навыки в области управления данными. У архитекторов данных они в основном связаны с проектированием информационных систем (включая моделирование). Инженерам же необходимы навыки в области организации и интерпретации данных. В ряде случаев функционал данных специалистов пересекается. К примеру, архитектору необходимы навыки инженера в сфере безопасности данных. Он должен разбираться в стандартах ее обеспечения. А вот инженеру по данным больше необходимы навыки по реализации процедур информационной безопасности.

Он должен знать тонкости обработки информации для очистки и оптимизации методов ее представления. Для архитектора данных такие знания тоже не будут лишними. При этом в рамках своих задач ему не нужны навыки обработки данных. Инженеру важно иметь опыт работы с облачными вычислениями. Это позволит решать проблемы, связанные с БД при использовании облачных технологий.

Роли инженера и архитектора данных имеют ряд различий, но есть у них и много общего. Такие специалисты могут взаимодействовать в процессе создания информационной системы предприятия.

Скачайте полезный документ по теме:
Чек-лист: Как добиваться своих целей в переговорах с клиентами

Часто задаваемые вопросы об архитектуре данных

Ответы на часто задаваемые вопросы по теме архитектуры данных.

Какую роль играет архитектура данных?

Архитектура данных формирует условия обеспечения операций по обработке информации. Это дает возможность создавать информационные потоки и управлять ими внутри системы.

Как используется архитектура в программировании?

Основная функция архитектуры базы данных связана с формированием логической структуры программного продукта и обеспечением взаимодействия между разработчиками. Это позволяет в будущем вносить корректировки в программу путем проработки отдельных компонентов, но без переделки всего ПО.

Кто занимается проектированием базы данных?

Проектирование БД – задача архитектора баз данных. Для ее выполнения специалист должен ознакомиться с требованиями руководства компании и персонала к будущей системе, а также изучить специфику деятельности предприятия. Это позволит эффективно адаптировать все производственные процессы в БД.

Невозможно создать идеальную систему. В процессе ее работы необходим постоянный контроль архитектуры данных. Именно поэтому архитектор продолжает свою работу и после этапа проектирования. На рынке информационных технологий появляются новые решения, а у компании в процессе работы могут возникать дополнительные запросы (связанные, к примеру, с более эффективным использованием ресурсов или повышением скорости обработки информации). В такой ситуации возникает необходимость внести изменения в существующую архитектуру данных или спроектировать новую.

Облако тегов
Понравилась статья? Поделитесь:
Забрать гарантированный подарок
Полезные
материалы
для руководителей
Скачать 3,2 MB
Елена Койгородова
Елена Койгородова печатает ...