Получить консультацию

Вход Регистрация

Получить консультацию

Все продукты

Все сервисы VK Cloud

Cloud Servers
Гибкие конфигурации виртуальных машин
Cloud Servers
Managed Kubernetes
Кластеры Kubernetes в облаке
Managed Kubernetes
Cloud Big Data
Обработка больших данных в облаке
Cloud Big Data
Object Storage
S3-совместимое объектное хранилище
Object Storage
Cloud Databases
Managed-базы данных
Cloud Databases
Облако 152-ФЗ
Лицензия ФСТЭК, защита ПДн
Облако 152-ФЗ
Security Gate
ASOC-платформа для проверки безопасности кода
Security Gate
Registry
Единый центр управления жизненным циклом бинарных артефактов
Registry

Cloud Spark

Сервис для распределенной обработки данных любого объема

Участвовать в бете

Решайте задачи обработки больших массивов данных в несколько кликов с помощью удобного сервиса на основе инструментов с открытым исходным кодом

Cloud Spark – это гибко масштабируемый сервис на основе Kubernetes и Apache Spark. В несколько кликов вы можете подключить кластеры Spark в Kubernetes для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой.

Сервис обеспечивает быстрое выполнение аналитических запросов к данным любого объема благодаря кэшированию в памяти и оптимизированному исполнению запросов.

Администрирование Cloud Spark на стороне VK Cloud. Вы получаете доступ к готовым кластерам на базе Kubernetes.

Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов.

Оплата сервиса Cloud Spark по модели Pay as you go – только за потребляемые ресурсы.

Инфраструктура VK Cloud аттестована по 152-ФЗ (УЗ-1). ЦОД расположены в РФ.

Сценарии использования Cloud Spark

Распределенная потоковая и пакетная обработка данных из разных источников

За счет встроенных коннекторов Cloud Spark работает на чтение и запись с большими объемами данных из разных источников. Например, Clickhouse, Kafka и MongoDB.

SQL‑аналитика

Сервис позволяет выполнять аналитические запросы ANSI SQL в режиме, близком к реальному времени.

Машинное обучение

Поддержка масштабируемой библиотеки машинного обучения MLlib, которая включает популярные алгоритмы, средства подготовки данных к моделированию, а также алгебраические и статистические функции.

Задачи Data Science

Выполнение разведочного анализа данных (EDA) на данных петабайтного масштаба без сокращения объема анализируемых данных.

Сервис реализован на базе Managed Kubernetes от VK Cloud и Apache Spark

Apache Spark – фреймворк с открытым исходным кодом для распределенной обработки неструктурированных и слабоструктурированных данных. Проект активно разрабатывается сообществом и Apache.

Cloud Containers – сервис VK Cloud для запуска готовых кластеров Kubernetes в облаке. Сервис соответствует стандартам Cloud Native Computing Foundation (CNCF) по Certified Kubernetes Conformance Program.

Cloud Spark упрощает и ускоряет обработку данных по сравнению с традиционной инсталляцией Spark, развернутой в Hadoop

Spark в Hadoop

Масштабирование
По клику, встроенные инструменты автоматического масштабирования

Стоимость
Снижение затрат за счет возможности уйти в "сон" и автоматического масштабирования в обе стороны.

Изолируемость
Доступна по клику за счет контейнеризации и Kubernetes

Сloud Spark

Масштабирование
По клику, встроенные инструменты автоматического масштабирования

Изолируемость
Доступна по клику за счет контейнеризации и Kubernetes

Cloud Spark оптимально подходит для работы с ML за счет встроенной масштабируемой библиотеки машинного обучения MLlib

Простое использование

Библиотека адаптирована для Java, Scala, Python и R. MLlib вписывается в API-интерфейсы Spark и взаимодействует с NumPy в Python и библиотеками R.

Производительность

Алгоритмы MLlib до 100 раз быстрее, чем MapReduce. Cloud Spark on Kubernetes хорошо справляется с итеративными вычислениями, позволяя MLlib работать значительно быстрее.

Большой выбор алгоритмов и утилит

Для решения таких задач как классификация, регрессия, кластеризация.

Преимущества Cloud Spark

Преднастроенный и готовый к использованию сервис. Пользователи получают возможность быстро развернуть кластер Spark внутри Kubernetes.

Docker Registry из коробки. При этом Docker Registry содержит предсобранный образ для решения типовых задач при работе со Spark.

Автомасштабирование кластера. Можно задать время, которое кластер будет "жить" при отсутствии рабочих нагрузок. Если нагрузка не появится, для экономии ресурсов кластер перейдет в спящий режим или удалится.

Администрирование, обновление версий – на стороне провайдера.

Доступен Spark History Server, интегрированный с S3 и системой авторизации облака.

Клиентская Python библиотека для работы со Spark из любого окружения, в том числе JupyterHub, одного из компонентов <a href="/machine-learning/" style="color:#0187F6;">Cloud ML Platform</a>.

Интеграция Spark History Server с S3 для хранения и работы с логами сервиса.

Интеграция с S3 для загрузки внешних зависимостей и дополнительных файлов, необходимых для работы Spark-приложений.

Встроенный сервис идентификации и разграничения прав доступа к Cloud Spark на основе токенов.

FAQ

Нужно ли мне разбираться в Kubernetes для работы с Cloud Spark?

Мы проделали большую работу, чтобы абстрагировать от вас сложность Kubernetes, поэтому навыки работы с Kubernetes не требуются. Кроме того, мы написали удобную Python Client-библиотеку для сервиса, которая позволяет управлять Cloud Spark из любого Python окружения.

Должен ли я использовать kubectl для запуска приложений в Cloud Spark и управления кластером?

Вам не потребуется kubectl или другие инструменты для управления кластером Kubernetes. Запуск приложений и типовые сценарии покрываются Python Client-библиотекой, которую мы предоставляем вместе с сервисом <a href="https://cloud.vk.com/docs/ml/spark-to-k8s" style="color:#0187F6;">Cloud Spark</a>.

Как научиться работе с Cloud Spark?

В сервисе Cloud ML Platform в директории tutorials доступен обучающий Jupyter Notebook, который позволяет запустить свое первое приложение в Cloud Spark и научиться основам работы с  <a href="https://cloud.vk.com/app/services/ml-platform/create" style="color:#0187F6;">сервисом</a>. Также доступна публичная <a href="https://cloud.vk.com/docs/ml/spark-to-k8s" style="color:#0187F6;">документация</a>, где разбираются концепции, сценарии работы с Cloud Spark.

Чем отличается Cloud Spark от обычного Spark, например, в составе Hadoop кластера?

Cloud Spark работает в K8s, то есть вы получаете быстрое автомасштабирование кластера Spark. Можно создать кластер, скажем, из одной master node и одной worker node, а потом под нагрузкой, если вы запросите больше executors для Spark приложения, кластер автоматически масштабируется за несколько минут. При этом после завершения рабочей нагрузки, кластер вернется в изначальное состояние.

Должен ли я собрать свой Docker образ для начала работы с Cloud Spark k8s?

Cloud Spark поставляется с Docker Registry от VK Cloud, который содержит предсобранный нами образ, позволяющий решить большинство задач. Также, если необходимо, вы можете собрать свой образ, загрузить его в Docker Registry, который идет в комплекте с кластером Spark, и далее использовать свой образ для запуска приложений.

Как запустить своё первое приложение в Cloud Spark?

Для этой задачи мы предоставляем Python Client библиотеку, которая позволяет запустить приложение <a href="https://cloud.vk.com/docs/ml/spark-to-k8s" style="color:#0187F6;">несколькими способами</a>.

Документация

Здесь есть ответы на большинство вопросов по настройке сервисов

Cloud Spark

Вся документация

Не нашли ответ на свой вопрос?

Задайте его нам на портале поддержки, и мы оперативно ответим.

Задать вопрос

Наши клиенты

Читайте, как облачные технологии и сервисы VK Cloud помогают компаниям решать самые важные задачи.

Cloud Servers

Managed Kubernetes

Cloud Big Data

Object Storage

Cloud Databases

Облако 152-ФЗ

Security Gate

Registry