VK Data Lakehouse
VK Cloud: Sales Manager
VK Data Lakehouse
VK Data Lakehouse — это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Является частью VK Data Platform.
Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.
В отличие от конкрентов, VK Data Lakehouse представляет собой именно сервис для работы с данными в публичном облаке, а не только дистрибутив, который еще нужно самостоятельно развернуть в публичном облаке. То есть, за развертывание и обслуживание отвечает VK Cloud, вам остается только получить доступ к сервису и начать использовать его.
Детали реализации
Data Lakehouse на платформе VK Cloud реализован на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino, работающего на базе Kubernetes.
- Экономика хранения
Использование Cloud Storage (S3) даёт возможность сократить в 10 раз стоимость хранения 1 ГБ данных в облаке.
- Cloud Trino
Благодаря параллельному подключению к нескольким источникам, Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных и дает возможность пользователям из различных отделов компаний быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику.
- Масштабируемость
Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса и не перезакладывать инфраструктуру для пиковых нагрузок.
Примеры использования
- Ритейл — прогнозирование спроса
«Крупный сетевой ритейл в РФ» — торговая сеть, объединяющая 241 магазин по всей России. На базе VK Cloud компания построила решение для прогнозирования спроса, которое позволило на 2% увеличить выручку и на 5% сократить излишние запасы товаров в магазинах.
- Промышленность — предиктивная аналитика
IoT на производственных линиях. Источники данных: станки/роботы на линии передают информацию о своем состоянии оператору. На основе этой информации можно предупредить поломку оборудования, оптимизировать линию производства, оценить загрузку каждого узла сборочной линии.
