Открыто

Data Engineering [2021] [robot dreams] [Антон Бондарь]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 12 июн 2021.

Цена: ----
Взнос: ----

Основной список: 17 участников

Резервный список: 8 участников

  1. 12 июн 2021
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Data Engineering [2021]
    robot dreams
    Антон Бондарь


    Начните путь в Data Engineering уже сейчас.

    Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.


    1. Хранить и обрабатывать огромные массивы данных.
    2. Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce.
    3. Строить собственные Data Platform, которые способны масштабироваться.
    4. Овладеть профессией, актуальной через 5-10-15 лет.
    5. Повысить свою квалификацию и уровень дохода.
    1. Data Scientist/ Data Analyst
    Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.​
    2. Software/SQL/ ETL Developer
    Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.​
    3. Data Engineer (beginner)
    Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.​
    Модуль 1 - Введение в Data Engineering
    • Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде.
    • Сравните Data Engineer vs Big Data Engineer.
    • Ознакомьтесь с технологиями, с которыми вы будете работать во время курса.
    • Поймите, какие задачи решает конкретная Big Data технология.
    Модуль 2 - Python для Data Engineering
    • Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary.
    • Начните загружать данные из внешних источников с помощью Python.
    • Узнайте специфику работы с модулями Python: import и relative import модулей.
    Модуль 3 - SQL для Data Engineering
    • Узнайте, для чего используется SQL в Big Data.
    • Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT.
    • Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции.
    • Поймите, как писать быстро-выполняющийся SQL.
    Модуль 4 - Аналитические базы данных
    • Выявите различия между OLTP и OLAP системами.
    • Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики.
    • Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
    Модуль 5 - Проектирование хранилищ данных
    • Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию.
    • Научитесь проектировать (строить) хранилища данных.
    • Освойте навык “представление данных в виде витрин”.
    • Разберите примеры существующих хранилищ данных.
    Модуль 6 - Передача данных между системами. Часть 1
    • Спроектируйте ETL решение.
    • Поймите, как передавать данные между системами.
    • Научитесь извлекать данные из внешних источников, трансформировать и очищать.
    Модуль 7 - Передача данных между системами. Часть 2
    • Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow.
    • Начните описывать ETL процессы, используя Directed Acyclic Graph.
    • Напишите свой оператор Airflow для доступа к API.
    • Подключитесь к внешним источникам данных с помощью Apache Airflow.
    Модуль 8 - Распределенные вычисления. Лекция
    • Разберитесь с понятием распределенных систем и вычислений.
    • Узнайте, какие задачи они решают и какие готовые решения уже существуют.
    • Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки.
    • Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы.
    • Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
    Модуль 9 - Экосистема Hadoop для распределенной работы с файлами
    • Научитесь пользоваться экосистемой Hadoop.
    • Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop.
    • Изучите альтернативы Hadoop.
    • Начните использовать Hadoop Distributed File System.
    Модуль 10 - Распределенная файловая система (HDFS)
    • Научитесь работать с распределенной файловой системой Hadoop.
    • Ознакомьтесь со спектром решаемых задач.
    • Изучите внутреннюю архитектуру HDFS и особенности её реализации.
    • Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
    Модуль 11 - Распределенные вычисления (MapReduce)
    • Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах.
    • Изучите задачи, которые решаются с помощью MapReduce.
    • Научитесь анализировать большие объемы данных с использованием MapReduce
    Модуль 12 - Распределенные вычисления в оперативной памяти (Apache Spark)
    • Начните обзор технологии Apache Spark, выявите её отличие от MapReduce.
    • Поймите, почему Apache Spark флагманская технология в мире BigData.
    • Узнайте, какие задачи решает Apache Spark.
    • Используйте технологию Apache Spark для организации больших данных.
    Модуль 13 - Работа со структурированными данными при помощи SparkSQL. Часть 1
    • Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark.
    • Научитесь загружать данные в Spark.
    • Изучите работу Spark со внешними источниками данных.
    • Совершите трансформации над структурированными данными при помощи SparkSQL.
    Модуль 14 - Работа со структурированными данными при помощи SparkSQL. Часть 2
    • Начните выгрузку данных из Spark.
    • Научитесь проводить аналитику на структурированных данных в Spark.
    Модуль 15 - Оптимизация выполнения задач в Apache Spark
    • Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark.
    • Научитесь выявлять основные проблемы производительности Spark, устраните их.
    • Организуйте данные в кластере Apache Spark.
    Модуль 16 - Потоки данных в Apache Spark
    • Поймите, чем отличается обработка потоковых данных от статичных.
    • Научитесь обрабатывать потоки данных с помощью Spark Streaming.
    • Разберите пример программы по анализу потоковых данных.
    Модуль 17 - Подведение итогов
    • Объедините все полученные знания.
    • Создайте data platform.
    • Сделайте обзор полного цикла подготовки и реализации проекта.
    • Начните подготовку к курсовому проекту.
    Модуль 18 - Защита курсового проекта
    • Получите тему курсового проекта.
    • Ознакомьтесь с форматом работы.
    • Выполните ряд обязательных требований для реализации проекта.
    • Успешно защитите его.

    Примечание: на момент создания темы актуальная цена не известна.

    Продажник
     
    1 человеку нравится это.
  2. Последние события

    1. prinstonsam
      prinstonsam не участвует.
      19 мар 2024
    2. Максимыч
      Максимыч не участвует.
      18 мар 2024
    3. ЛёнаК
      ЛёнаК не участвует.
      4 дек 2023
    4. Heffer7
      Heffer7 не участвует.
      20 май 2023

Поделиться этой страницей