Можно ли получить желаемый результат с помощью продуктов open source?

Читаю комментарии к постам, да и в личном общении вижу, что успех таких кейсов вызывает сомнения. Давайте разберемся.

Мы в команде BI.Qube сами с 2007 по 2022 год работали на дата-платформах Microsoft, Oracle, Qlik. Это действительно продукты, в которые вложены большие инвестиции, они обладают широким набором функциональности, у каждого вендора организовано обучение. Поэтому на рынке много квалифицированных специалистов, что позволяло относительно быстро и недорого решать вопросы по работе с данными.

Но любой коммерческий продукт — это риски доступности. Для нашей страны лицензии, обновления и поддержка по этим платформам стали недоступны в 2022 году.

Конечно, с опенсорс-продуктами для работы с данными не всё так идеально. И первая проблема — это уже не взаимосвязанные между собой инструменты и целые экосистемы. Здесь под каждую задачу необходимо подбирать компоненты, интегрировать их, разбираться с версиями, багами, безопасностью. То, что раньше работало «из коробки», теперь или нужно принимать со всеми недостатками, или дописывать функциональность своими руками. Некоторые направления вообще не закрыты продуктами open source (например, нет полного аналога табулярной модели).

Плюс для крупных корпоративных заказчиков важно, чтобы платформа данных (СУБД, инструменты ETL, data governance) имели гарантированную поддержку, а в идеале являлись программными продуктами в реестре Российского ПО.

В результате появились российские платформы со свободным ПО внутри (PostgreSQL, Greenplum, ClickHouse). Например, Arenadata для разворачивания дистрибутивов на “железках”, Yandex Cloud как управляемые сервисы в облаке. Привожу в пример именно их, потому что в процессе работы глубоко познакомились с возможностями, заключили с разработчиками партнерские соглашения и готовы строить эффективные решения. Широта и связность компонентов этих платформ решены лучше всего, хотя российских платформ сейчас намного больше. Альтернатива иностранным платформам по большей части существует, и это не только “ванильный” open source, но и продукты с документацией, обучением и поддержкой от российского вендора.

Вторая проблема, которую следует признать, — сейчас на рынке не хватает специалистов по этим платформам, миграция данных и перенос кода представляют большую трудность из-за разницы диалектов языков программирования каждой из платформ.

И третья проблема — отсутствие практики применения инструментов автоматизации (фреймворков для low-code/no-code разработки). Это тормозит или вообще делает невозможным внедрение изменений в IT-инфраструктуру, а также развитие и поддержку системы работы с данными.

Но, как говорится, если проблема решается за деньги, то это не проблема, а расходы. Будем честны, проекты на open source при аналогичной функциональности реализуются дольше и дороже. Но это не значит, что заказчики с отказом от Microsoft/Oracle/Qlik получают менее успешные решения своих задач!

С 2022 года мы реализовали много интересных проектов с крупными холдингами, а самое главное для каждой из трех вышеназванных проблем нашли решение:

  • Давние связи с профильным ВУЗом позволяют готовить специалистов нужной квалификации. Плюс у вендоров российских платформ есть обучающие курсы, поэтому специалистов можно переобучить. И «бразильскую систему» обучение сотрудников на проектах никто не отменял:)
  • Для перевода исторически накопленного кода с разных диалектов SQL мы теперь применяем технологии GPT с дообучением.
  • Для перехода от программирования “руками” к работе с интерфейсами при создании и развитии хранилищ данных мы написали собственный фреймворк BI.Qube, реализующий ETL, модели data vault, управление мастер-данными (MDM), обеспечение data quality и data lineage.

Именно поэтому заказчики получают именно тот результат, на который рассчитывали, а иногда даже мы превосходим ожидания.

А с какими трудностями сталкивались вы при миграции на независимые платформы?

Наверх