Событие завершено

SPARK: Анализ данных с Apache Spark, 01 апреля 2024 в 13:00

Name: SPARK: Анализ данных с Apache Spark
Start: 2024-04-01T13:00:00+03:00
End: 2024-04-01T23:59:59+03:00

Школа Больших Данных

Данные Обучение

4-дневный практический курс для разработчиков Apache Spark

Дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Что такое Apache Spark и где это используется

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.

Спарк состоит из следующих компонентов:

Ядро (Core);
SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
Streaming – надстройка для обработки потоковых данных;
MLlib – набор библиотек машинного обучения (Machine Learning);
GraphX – модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Hadoop, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.

Кому нужны курсы по Apache Spark

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark MLLib и Spark GraphX.

Предварительный уровень подготовки:

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano);
Начальный опыт программирования (Python/Java);
Начальный опыт в экосистеме Hadoop.

Успешно окончив курсы по Spark в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.