[OTUS] Pазработчик BigData. Часть 4 из 5

SerfIer · 9 авг 2018

[OTUS] Pазработчик BigData. Часть 4 из 5
Разработчик BigData

В области информационных технологий работает с 2012 года.
Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.

Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
Закончила Технопарк Mail.Ru
В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.

Модуль 1, 2, 3, 4

О курсе

В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.

Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.

В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.

Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.
В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.
В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
ДЗ
Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
ДЗ
Реализация алгоритма с использованием MapReduce.

Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
ДЗ
Реализация алгоритма с использованием Hive.

Занятие 30: Организация хранения данных для решения задач машинного обучения

Занятие 31: Spark
Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
ДЗ
Реализация алгоритма с использованием Spark.

Занятие 32: Обзор решений для аналитики больших данных
Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
Агрегация, управление, эксперименты, анализ, визуализация и BI

Продажник

Войти или зарегистрироваться

[OTUS] Pазработчик BigData. Часть 4 из 5

[OTUS] Pазработчик BigData. Часть 4 из 5

Поделиться этой страницей

Войти или зарегистрироваться

[OTUS] Pазработчик BigData. Часть 4 из 5

[OTUS] Pазработчик BigData. Часть 4 из 5

Поделиться этой страницей

Быстрый поиск