Доступно

[OTUS] Pазработчик BigData. Часть 4 из 5

Тема в разделе "Курсы по программированию", создана пользователем SerfIer, 9 авг 2018.

Цена: 10500р.-98%
Взнос: 172р.
100%

Основной список: 148 участников

Резервный список: 12 участников

Статус обсуждения:
Комментирование ограничено.
  1. 9 авг 2018
    #1
    SerfIer
    SerfIer ОргОрганизатор

    [OTUS] Pазработчик BigData. Часть 4 из 5

    Разработчик BigData
    В области информационных технологий работает с 2012 года.
    Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
    Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
    В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.

    Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
    Закончила Технопарк Mail.Ru
    В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.

    Модуль 1, 2, 3, 4

    [​IMG]

    О курсе

    В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.

    Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
    Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.

    В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.

    Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.
    В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.
    В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

    Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
    Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
    ДЗ
    Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

    Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

    Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
    ДЗ

    Реализация алгоритма с использованием MapReduce.

    Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

    Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
    ДЗ

    Реализация алгоритма с использованием Hive.

    Занятие 30: Организация хранения данных для решения задач машинного обучения

    Занятие 31: Spark

    Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
    ДЗ
    Реализация алгоритма с использованием Spark.

    Занятие 32: Обзор решений для аналитики больших данных
    Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
    Агрегация, управление, эксперименты, анализ, визуализация и BI

    Продажник
     
    Последнее редактирование модератором: 26 ноя 2021
    3 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина доступна.
      26 ноя 2021
    2. skladchik.com
      MarkAurelius хранитель.
      26 ноя 2021
    3. skladchik.com
      Складчина закрыта.
      26 ноя 2021
    4. skladchik.com
      Складчина доступна.
      13 авг 2021

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      26 ноя 2021
    2. skladchik.com
      MarkAurelius хранитель.
      26 ноя 2021
    3. skladchik.com
      Складчина закрыта.
      26 ноя 2021
    4. skladchik.com
      Складчина доступна.
      13 авг 2021
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей