Открыто

Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 22 июл 2022.

Цена: 136000р.
Взнос: 5908р.

Основной список: 25 участников

Резервный список: 1 участников

  1. Toxich

    Toxich ЧКЧлен клуба

    Разработчик BigData [2022]
    МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
    Олег Ивченко


    Программа профессиональной переподготовки.

    Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.

    Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.

    Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.

    Кому подойдёт профессия разработчик BigData:
    1. Разработчик
    Сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.​
    2. Аналитик
    Сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.​
    3. Data engineer
    Курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.​
    4. Data scientist
    Получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.​

    Блок 1 - Технологии программирования и операционные системы
    Модуль 1 - Семейство ОС Unix. Современные инструменты для работы в консоли
    • Семейство ОС Unix, основные дистрибутивы и их отличия.
    • Основные командные интерпретаторы, их отличия.
    • Утилита sed, язык awk.
    • Использование Python как заменителя shell.
    • Jupyter и TmpNb как его модификация.
    • Терминальные мультиплексоры, автоматизация работы с ними.
    Модуль 2 - Системы контроля версий
    • Системы контроля версий в современных проектах.
    • CVS – первая система контроля версий.
    • SVN.
    • Современные VCS – Git, Mercurial и работа с ними.
    • Работа над проектами в команде.
    • Автоматизация работы с Git.
    Модуль 3 - Виртуализация
    • Виртуализация. Её виды (контейнерная, на уровне ОС).
    • Современные платформы виртуализации и работа с ними.
    • Автоматизация работы с виртуальными окружениями.
    Модуль 4 - Непрерывная интеграция
    • Непрерывная интеграция (continuous integration) и её этапы.
    • Основные инструменты CI и их связь с VCS.
    Модуль 5 - Оркестрация контейнеров. Kubernetes
    • Компьютерные сети, модель OSI, её уровни.
    • Сетевые протоколы обмена информацией.
    Блок 2 - Хранение и обработка больших объёмов данных
    Модуль 1 - Распределённые файловые системы (GFS, HDFS)
    • Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.
    • Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.
    Модуль 2 - Парадигма MapReduce
    • Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.
    • Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.
    • API для работы с Hadoop (Native Java API vs. Streaming), примеры.
    • MapReduce, продолжение.
    • Типы Join'ов и их реализации в парадигме MR.
    • Паттерны проектирования MR (pairs, stripes, составные ключи).
    Модуль 3 - Управление ресурсами Hadoop-кластера. YARN
    • Hadoop MRv1 vs. YARN.
    • Нововведения в последних версиях Hadoop.
    • Планировщик задач в YARN. Apache Slide.
    Модуль 4 - SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive
    • SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
    • Повторение SQL.
    • HiveQL vs. SQL.
    • Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
    • Аналитические функции в Hive.
    • Расширения Hive: Streaming, User defined functions.
    • Оптимизация запросов в Hive.
    Модуль 5 - Технологии обработки данных в распределенной оперативной памяти. Apache Spark
    • Spark RDD vs Spark Dataframes
    • Spark SQL
    • Spark GraphFrames
    Модуль 6 - Обработка данных в реальном времени. Kafka, Spark Streaming
    • Обработка данных в реальном времени.
    • Spark Streaming.
    • Распределённая очередь Apache Kafka. Kafka streams.
    Модуль 7 - BigData NoSQL, Key-value базы данных
    • HBase.
    • NoSQL подходы к реализации распределенных баз данных, key-value хранилища.
    • Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.
    • Чтение, запись и хранение данных в HBase.
    • Minor- и major-компактификация.
    • Надёжность и отказоустойчивость в HBase.
    • Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
    • Примеры применения HBase и Cassandra.
    • Отличие архитектуры HBase от Сassandra.
    Блок 3 - Машинное обучение на больших объёмах данных
    Модуль 1 - Методы оптимизации и линейные модели
    • Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
    • Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
    • Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
    • Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
    • Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
    • Оптимизация и тестирование гиперпараметров. Симплекс-метод.
    Модуль 2 - Алгоритмы работы с графами большого размера
    • Графы, их виды. Стохастический граф.
    • Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
    • Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
    • Граф пользовательских предпочтений.
    • Использование подхода BigData в анализе графов
    Модуль 3 - Информационный поиск
    • Постановка ранжирования. Основные подходы к решению задачи ранжирования
    • Метрики измерения точности ранжирования. Кликовые модели.
    • Тематическое моделирование и его связь с ранжированием.
    • Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.
    Модуль 4 - Рекомендательные системы
    • Рекомендательные системы, постановка задачи предсказания / рекомендации. Классификация рекомендательных систем. Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
    • Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты. Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.
    • Латентные методы на основе матричных разложений. Методы ALS и iALS.
    • Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.

    Продажник
     
  2. Последние события

    1. drugster80

      drugster80 участвует в складчине.

      3 дек 2022
    2. tom_denisov

      tom_denisov участвует в складчине.

      7 ноя 2022
    3. Divaa

      Divaa участвует в складчине.

      7 ноя 2022
    4. androkotey

      androkotey участвует в складчине.

      3 ноя 2022
  3. Jesika

    Jesika ЧКЧлен клуба

  4. kissmyasus

    kissmyasus СкладчикСкладчик

  5. Goldsmith

    Goldsmith ОргОрганизатор

Поделиться этой страницей