Курс 20775А: Обработка Данных с Microsoft HDInsight [2020] [Специалист] [Федор Самородов]

Toxich · 4 июл 2020

Курс 20775А: Обработка Данных с Microsoft HDInsight [2020]
Специалист
Федор Самородов

Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.

Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Курс читается на русском языке!

1. Описывать Hadoop, MapReduce, HDInsight;
2. Описывать типы кластеров HDInsight;
3. Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
4. Описывать, как разрешать доступ пользователей к объектам;
5. Описывать конфигурации и архитектуру хранилища HDInsight;
6. Проводить мониторинг ресурсов с Operations management suite;
7. Выполнять запросы с Hive и Pig;
8. Описывать использование ETL и Spark;
9. Внедрять интерактивные запросы;
10. Выполнять интерактивную обработку данных с помощью Apache Phoenix;
11. Управлять задачами потоковой аналитики;
12. Создавать приложения для обработки структурированных потоков в Spark;
13. Использовать потоковые данные в Storm;
14. Объяснять, как работает язык R;
15. Преобразовывать и очищать наборы данных.

Модуль 1. Начало работы с HDInsight

Большие данные

Hadoop

MapReduce

HDInsight

Лабораторная работа: Запросы к большим данным

Запросы к данным с Hive

Запросы к данным с Excel

Модуль 2. Развертывание кластеров HDInsight

Типы кластеров HDInsight

Управление кластерами HDInsight

Управление кластерами HDInsight с помощью PowerShell

Лабораторная работа: Управление кластерами HDInsight в Azure

Создание кластера Hadoop в HDInsight

Настройка HDInsight с помощью скрипта

Настройка HDInsight с помощью Bootstrap

Удаление кластера HDInsight

Модуль 3. Авторизация пользователей для доступа к ресурсам

Недоменные кластеры

Настройка кластера HDInsight, подключенного к домену

Управление подключенным к домену кластером HDInsight

Лабораторная работа: Авторизация пользователей для доступа к ресурсам

Настройка кластера HDInsight, подключенного к домену

Настроить политики Hive

Модуль 4. Загрузка данных в HDInsight

Хранилище HDInsigh

Средства загрузки данных

Производительность и надёжность

Лабораторная работа: Загрузка данных в HDInsight

Загрузка данных с помощью Sqoop

Загрузка данных с помощью AZcopy

Загрузка данных с помощью ADLcopy

Использование HDInsight для сжатия данных

Модуль 5. Поиск и устранение неисправностей в HDInsight

Анализ журналов

Журналы YARN

Дампы кучи (Heap)

Operations management suite

Лабораторная работа: Поиск и устранение неисправностей в HDInsight

Анализ журналов HDInsight

Анализ журналов YARN

Мониторинг ресурсов с Operations management suite

Модуль 6. Внедрение пакетных решений

Хранилище Apache Hive

Запросы с Hive и Pig

Подключение HDInsight

Лабораторная работа: Резервное копирование баз данных SQL Server

Загрузка данных в таблицу Hive

Запрос данных в Hive и Pig

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark

Что такое Spark?

ETL и Spark

Производительность Spark

Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

Создание кластера HDInsight с доступом к хранилищу Data Lake

Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake

Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight

Управление ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8. Анализ данных со Spark SQL

Внедрение интерактивных запросов

Проведение исследовательского анализа данных

Лабораторная работа: Анализ данных со Spark SQL

Внедрение интерактивных запросов

Проведение исследовательского анализа данных

Модуль 9. Анализ данных с помощью Hive и Phoenix

Внедрение интерактивных запросов для больших данных с помощью Hive

Проведение исследовательского анализа данных с помощью Hive

Выполнение интерактивной обработки данных с помощью Apache Phoenix

Лабораторная работа: Анализ данных с помощью Hive и Phoenix

Внедрение интерактивных запросов для больших данных с помощью Hive

Проведение исследовательского анализа данных с помощью Hive

Выполнение интерактивной обработки данных с помощью Apache Phoenix

Модуль 10. Потоковая аналитика

Потоковая аналитика

Обработка потоковых данных из потоковой аналитики

Управление задачами потоковой аналитики

Лабораторная работа: Внедрение потоковой аналитики

Обработка потоковых данных из потоковой аналитики

Управление задачами потоковой аналитики

Модуль 11. Spark Streaming и DStream API

Обзор когнитивных служб

DStream

Создание приложений для обработки структурированных потоков в Spark

Стабильность и визуализация

Лабораторная работа: Использование DStream API для создания приложений Spark Streaming

Создание приложения Spark Streaming с помощью DStream API

Создание приложения для обработки структурированных потоков в Spark

Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Долгохранимые данные

Потоковые данные в Storm

Создание топологии Storm

Настройка Apache Storm

Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Потоковые данные в Storm

Создание топологии Storm

Модуль 13. Анализ данных с помощью Spark SQL

Внедрение интерактивных запросов

Проведение исследовательского анализа данных

Лабораторная работа: Использование R-сервисов машинного обучения

Внедрение интерактивных запросов

Проведение исследовательского анализа данных

Продажник

Войти или зарегистрироваться

Курс 20775А: Обработка Данных с Microsoft HDInsight [2020] [Специалист] [Федор Самородов]

Поделиться этой страницей

Войти или зарегистрироваться

Курс 20775А: Обработка Данных с Microsoft HDInsight [2020] [Специалист] [Федор Самородов]

Поделиться этой страницей

Быстрый поиск