О сервисе

Apache Spark — сервис для распределенной обработки больших данных. Он состоит из API-интерфейсов на Java, Scala, Python и R, а также инструментов обработки Spark SQL для SQL, Pandas API, MLlib для машинного обучения, GraphX для обработки графиков и Structured Streaming для потоковой обработки. Чаще всего Spark используется в составе Hadoop-кластера.

Cloud Spark — решение на базе Apache Spark Operator и PaaS Kubernetes от VK Cloud. Оно позволяет развернуть Spark внутри Kubernetes с помощью образа из Docker Registry, без использования Hadoop-кластера.

Для каких задач подходит сервис

Распределенная обработка больших данных.
Чтение данных из объектного хранилища с их дальнейшим экспортом в БД для обработки (ClickHouse, Greenplum, PostgreSQL). Также возможна передача данных из БД в объектное хранилище.
Распределенное обучение ML-моделей с использованием больших данных.
Графовые вычисления с применением компонента GraphX.

Возможности сервиса

Развертывание кластера Spark внутри Kubernetes.
Автоматическая настройка master-узлов разворачиваемых кластеров.
Отслеживание истории выполнения заданий Spark с помощью Spark History Server.
Анализ производительности, поиск ошибок и мониторинг состояния кластера сервисами Cloud Logging, Cloud Alerting, Cloud Monitoring.
Хранение объектов в хранилище VK Object Storage с поддержкой S3.
Управление кластером, запуск и отладка приложений с помощью Python-библиотеки Cloud ML Platform .

Была ли статья полезна?

Содержание
Для каких задач подходит сервис
Возможности сервиса
Была ли статья полезна?