О сервисе
Apache Spark — сервис для распределенной обработки больших данных. Он состоит из API-интерфейсов на Java, Scala, Python и R, а также инструментов обработки Spark SQL для SQL, Pandas API, MLlib для машинного обучения, GraphX для обработки графиков и Structured Streaming для потоковой обработки. Чаще всего Spark используется в составе Hadoop-кластера.
Cloud Spark — решение на базе Apache Spark Operator и PaaS Kubernetes от VK Cloud. Оно позволяет развернуть Spark внутри Kubernetes с помощью образа из Docker Registry, без использования Hadoop-кластера.
- Распределенная обработка больших данных.
- Чтение данных из объектного хранилища с их дальнейшим экспортом в БД для обработки (ClickHouse, Greenplum, PostgreSQL). Также возможна передача данных из БД в объектное хранилище.
- Распределенное обучение ML-моделей с использованием больших данных.
- Графовые вычисления с применением компонента GraphX.
-
Развертывание кластера Spark внутри Kubernetes.
-
Автоматическая настройка master-узлов разворачиваемых кластеров.
-
Отслеживание истории выполнения заданий Spark с помощью Spark History Server.
-
Анализ производительности, поиск ошибок и мониторинг состояния кластера сервисами Cloud Logging, Cloud Alerting, Cloud Monitoring.
-
Хранение объектов в хранилище VK Object Storage с поддержкой S3.
-
Управление кластером, запуск и отладка приложений с помощью Python-библиотеки Cloud ML Platform .