20775А: Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight
20775А.Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight
-
- Код курса:
- 20775А
-
- Длительность:
- 5 / 40
-
- Ближайшие даты:
-
-
- Цена, без НДС:
- Уточните
- Гаєвий Вадим МСТ
- З 2011 року тренер Microsoft - МСТ.
Викладає технології: Microsoft ASP.NET, Microsoft SQ...
Описание Курса:
Цель курса 20775А предоставить участнкам знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс 20775А готовит к экзаменам для подготовки к международным сертифициям:
MCSE: DATA MANAGEMENT AND ANALYTICS
MCSA: DATA ENGINEERING WITH AZURE
Курс готовит к успешной сдаче международных сертификационных экзаменов: Perform Data Engineering on Microsoft Azure HDInsight
MCSE: DATA MANAGEMENT AND ANALYTICS
MCSA: DATA ENGINEERING WITH AZURE
Курс готовит к успешной сдаче международных сертификационных экзаменов: Perform Data Engineering on Microsoft Azure HDInsight
Аудитория:
Курс 20775 предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.
Предварительная подготовка:
Обязательная предварительная подготовка:
- Успешное окончание курса 20774А: Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure или эквивалентная подготовка.
- Успешное окончание курса Анализ данных на языке SQL или эквивалентная подготовка.
- Английский язык. Уровень 2. Elementary, часть 2, или эквивалентная подготовка.
- Успешное окончание курса 20767А: Разработка и эксплуатация хранилищ данных на SQL Server 2016 или эквивалентная подготовка.
Приобретаемые навыки:
По окончании курса 20775 Вы будете уметь:
- описывать Hadoop, MapReduce, HDInsight;
- описывать типы кластеров HDInsight;
- описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
- описывать, как разрешать доступ пользователей к объектам;
- описывать конфигурации и архитектуру хранилища HDInsight;
- проводить мониторинг ресурсов с Operations management suite;
- выполнять запросы с Hive и Pig;
- описывать использование ETL и Spark;
- внедрять интерактивные запросы;
- выполнять интерактивную обработку данных с помощью Apache Phoenix;
- управлять задачами потоковой аналитики;
- создавать приложения для обработки структурированных потоков в Spark;
- использовать потоковые данные в Storm;
- объяснять, как работает язык R;
- преобразовывать и очищать наборы данных.
Содержание курса:
Модуль 1. Начало работы с HDInsight
Анализ журналов
- Большие данные
- Hadoop
- MapReduce
- HDInsight
- Запросы к данным с Hive
- Запросы к данным с Excel
- Типы кластеров HDInsight
- Управление кластерами HDInsight
- Управление кластерами HDInsight с помощью PowerShell
- Создание кластера Hadoop в HDInsight
- Настройка HDInsight с помощью скрипта
- Настройка HDInsight с помощью Bootstrap
- Удаление кластера HDInsight
- Недоменные кластеры
- Настройка кластера HDInsight, подключенного к домену
- Управление подключенным к домену кластером HDInsight
- Настройка кластера HDInsight, подключенного к домену
- Настроить политики Hive
- Хранилище HDInsigh
- Средства загрузки данных
- Производительность и надёжность
- Загрузка данных с помощью Sqoop
- Загрузка данных с помощью AZcopy
- Загрузка данных с помощью ADLcopy
- Использование HDInsight для сжатия данных
Анализ журналов
- Журналы YARN
- Дампы кучи (Heap)
- Operations management suite
- Анализ журналов HDInsight
- Анализ журналов YARN
- Мониторинг ресурсов с Operations management suite
- Хранилище Apache Hive
- Запросы с Hive и Pig
- Подключение HDInsight
- Загрузка данных в таблицу Hive
- Запрос данных в Hive и Pig
- Что такое Spark?
- ETL и Spark
- Производительность Spark
- Создание кластера HDInsight с доступом к хранилищу Data Lake
- Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
- Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
- Управление ресурсами кластера Apache Spark в Azure HDInsight
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Потоковая аналитика
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Обзор когнитивных служб
- DStream
- Создание приложений для обработки структурированных потоков в Spark
- Стабильность и визуализация
- Создание приложения Spark Streaming с помощью DStream API
- Создание приложения для обработки структурированных потоков в Spark
- Долгохранимые данные
- Потоковые данные в Storm
- Создание топологии Storm
- Настройка Apache Storm
- Потоковые данные в Storm
- Создание топологии Storm
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Экзамен:
Материалы и сертификаты:
Microsoft
Акцент Профи
Акцент Профи