Все продукты
Все сервисы VK Cloud
Модуль 4
Тема 9

VK Data Lakehouse

VK Cloud: Sales Manager

VK Data Lakehouse

VK Data Lakehouse — это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Является частью VK Data Platform.

Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.

В отличие от конкрентов, VK Data Lakehouse представляет собой именно сервис для работы с данными в публичном облаке, а не только дистрибутив, который еще нужно самостоятельно развернуть в публичном облаке. То есть, за развертывание и обслуживание отвечает VK Cloud, вам остается только получить доступ к сервису и начать использовать его.

Детали реализации

Data Lakehouse на платформе VK Cloud реализован на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino, работающего на базе Kubernetes.

  • Экономика хранения

Использование Cloud Storage (S3) даёт возможность сократить в 10 раз стоимость хранения 1 ГБ данных в облаке.

  • Cloud Trino

Благодаря параллельному подключению к нескольким источникам, Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных и дает возможность пользователям из различных отделов компаний быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику.

  • Масштабируемость

Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса и не перезакладывать инфраструктуру для пиковых нагрузок.

Примеры использования

  • Ритейл — прогнозирование спроса

«Крупный сетевой ритейл в РФ» — торговая сеть, объединяющая 241 магазин по всей России. На базе VK Cloud компания построила решение для прогнозирования спроса, которое позволило на 2% увеличить выручку и на 5% сократить излишние запасы товаров в магазинах.

  • Промышленность — предиктивная аналитика

IoT на производственных линиях. Источники данных: станки/роботы на линии передают информацию о своем состоянии оператору. На основе этой информации можно предупредить поломку оборудования, оптимизировать линию производства, оценить загрузку каждого узла сборочной линии.