Loading...
ended icon

Событие завершено

HDDE: Hadoop для инженеров данных, 11 марта 2024 в 13:00

Школа Больших Данных

event main image
event main image

Когда:Событие еще не началось

Начало:Понедельник 11.03, 13:00 GMT+03

Формат:

Онлайн

Тип:

Курс

Источник:

It-events

5-дневный практический тренинг по batch/streaming обработке больших данных средствами экосистемы Apache Hadoop: Airflow, Spark, Flume, Sqoop, Hive, а также Kafka для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

Что такое Data Lake и зачем это нужно бизнесу

Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает:

  • Структурированную информацию из реляционных баз данных (строки и колонки)
  • Полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC)
  • Неструктурированные данные (почтовые сообщения, документы, pdf)
  • Бинарные данные (видео, аудио, графические изображения)

Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala.

Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге «Hadoop для инженеров данных».

Кому нужно обучение по Data Lake

Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real-time процессинга больших данных с использованием компонентов экосистемы Хадуп.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт работы с SQL

Что представляют собой курсы Hadoop для инженеров данных

Продолжительность: 5 дней, 40 академических часов

Соотношение теории к практике: 40/60

Данный курс включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud (замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Успешно окончив курс Hadoop для инженеров данных в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

Онлайн

120 000 ₽

info icon

Событие завершено

Когда:Событие еще не началось

Начало:Понедельник 11.03, 13:00 GMT+03

Формат:

Онлайн

Тип:

Курс

Источник:

It-events