[Beeline] Прикладной анализ данных

Mordino · 15 сен 2017

Прикладной анализ данных

Интенсивный курс по изучению машинного обучения и анализа данных. Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.

Мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.

Количество занятий: 28 занятий
Длительность: 3,5 месяца
Формат обучения: онлайн
Преподаватели: Сергей Марин, Александр Крот и другие
Стоимость курса: 100 000 Р

Занятие - Введение в машинное обучение. Основные типы задач и методы их решения

Теория
- Введение в машинное обучение, необходимые навыки
- Задачи классификации, регрессии и кластеризации
- Извлечение, отбор и преобразование признаков
- Особенности решения задач машинного обучения
- Обзор инструментов для решения задач машинного обучения
- Обзор графовых задач
- Знания, необходимые для успешного освоения науки о данных
- Особенности обработки больших данных
- Workflow решения задач анализа данных
- Конкретные примеры решения задач анализа данных

Занятие - Библиотеки и инструменты для анализа данных. Математика в машинном обучении

Теория
Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
Работа с векторами и матрицами в библиотеке NumPy
Обзор библиотеки для научных вычислений SciPy
Визуализация данных с Matplotlib и Seaborn
Чтение и обработка данных с библиотекой Pandas

Практика
Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
Первичный анализ данных с Seaborn
Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas

Занятие - Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn.

Занятие - Обучение с учителем. Задачи классификации и регрессии

Теория
- Деревья решений
- Энтропия, прирост информации и неопределенность Джинни
- Алгоритмы ID3, C 4.5, CART
- Работа с признаками – отбор, преобразование, построение

Практика
- Применение дерева решений Scikit-learn к синтетическому набору данных и кданным соревнования Kaggle Inclass по автострахованию
- Настройка параметров дерева, кросс-валидация
- Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
- Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning fromDisaster"

Занятие - Оценка качества алгоритмов машинного обучения

Теория
- Обзор библиотеки машинного обучения Scikit-learn
- Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
- Случай несбалансированных классов
- Случай классификации на несколько классов
- Логистическая регрессия
- Метод опорных векторов (Support Vector Machine), ядра

Практика
- Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
- Примеры решения задач классификации и регрессии — наборы данных UCI

Занятие - Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации.

Занятие - Продвинутые методы классификации и регрессии. Переобучение.
Теория

Теория
- Нейронные сети, алгоритм обратного распространения ошибки
-Построение ансамблей алгоритмов
- Случайный лес (Random Forest)
- Бустинг (boosting) и бэггинг (bagging), Xgboost
- Стекинг
- Переобучение, кросс-валидация, регуляризация
- Пример регуляризации для логистической регрессии

Занятие - Продвинутые методы классификации и регрессии. Переобучение.

Практика

Теория
- Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
- Случайный лес на примере набора данных Titanic
- Случайный лес на примере набора данных по автострахованию
- Практика использования библиотек Lasagne NN и Xgboost
- Разбор решения задачи Kaggle «Otto Group Product Classification
- Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)

Занятие - Обучение без учителя

Теория
- Введение в обучение без учителя
-Задача кластеризации — алгоритм k-means
- Иерархическая кластеризация
- Спектральная кластеризация
- Плотностные методы кластеризации
- Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
- Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов

Практика
- Пример поиска аномалий в данных

Занятие - Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением.

Занятие - Анализ социальных сетей.
Теория

Теория
- Введение в теорию графов
- Классические алгоритмы на графах
- Поиск в ширину и поиск в глубину
- Алгоритм PageRank
- Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
- Кластеризация на графах/обнаружение в соц. сетях

Занятие - Анализ социальных сетей. Практика

Практика
- Применение машинного обучения в графовых задачах
- Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
- Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
- Обзор инструментов для работы с графами

Занятие - Семинар. Решение алгоритмических задач на графах.

Занятие - Обнаружение знаний в данных

Теория
- Поиск частых множеств (товаров) и ассоциативные правила
- Алгоритмы Apriori и FP-growth
- Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
- Поиск паттернов с ограничениями
- Поиск частых последовательностей
- Поиск частых подграфов

Практика
- Знакомство с инструментом SPMF
- Анализ последовательностей на примере демографических данных

Занятие - Рекомендательные системы

Теория
- Введение в коллаборативную фильтрацию
- Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
- Оценка качества рекомендательной системы
- Рекомендации на основе ассоциативных правил
- Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
-Мультимодальная кластеризация и рекомендации в фолксономиях

Практика
- Case-study: рекомендация радиостанций

Занятие - Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации.

Занятие - Обработка текстов.
Теория

Теория
- Задачи обработки естественного языка (NLP)
- Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
- Модели представления текстов: мешок слов, VSM, синтаксические деревья
- Современные методы: word2vec, topic modeling

Занятие - Обработка текстов. Практика

Практика
- Поиск ключевых слов
- Определение сходства документов
- Кластеризация текстов
- Поиск похожих слов

Занятие - Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.

Занятие - Введение в анализ больших данных и масштабируемое машинное обучение.
Теория

Теория
- Машинное обучение: подход MapReduce, онлайн-обучение
- Стохастический градиентный спуск
- Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
- Обзор инструмента Apache Spark
- Введение в функциональное программирование (map, filter, reduce, lambda-функции)
- Обзор библиотек MLlib и GraphX Apache Spark
- Коллаборативная фильтрация с Apache Spark

Занятие - Введение в анализ больших данных и масштабируемое машинное обучение. Практика
Практика
- Практика использования функций map, filter, reduce и lambda-функций
- Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
- Анализ веб-логов с Apache Spark
- Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
- Пример решения задачи классификации со Spark MLlib
- Предсказание кликов пользователей с Apache Spark

Занятие - Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit.
Теория и практика

Теория
- Что делать, если мало оперативной памяти
- Введение в онлайн обучение
- Метрики качества - progressive loss
- Выбор функции потерь
- Hashing trick
- Подбор параметров регуляризации при он-лайн-обуяении
- Дообучение алгоритмов

Практика
- Обзор инструмента vowpal wabbit
- Пример решения задачи в 2 строки с помощью vowpal wabbit
- Обзор нестандартных параметров vw

Занятие - Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными.

Занятие - Соревнования по анализу данных.
Теория

Теория
- Обзор платформы Kaggle
- Зачем нужны соревнования по анализу данных
- Особенности задач в соревнованиях по машинному обучению
- Отличия задач соревнований по анализу данных от реальных бизнес-задач
- Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя

Занятие - Соревнования по анализу данных. Практика

Практика
- Работа с категориальными признаками, различные подходы
- Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб

Занятие - Семинар. Разбор нестандартных задач с Kaggle.

Занятие - Deep Learning.

Теория и практика
- Введение в нейронные сети
- Обзор возможностей нейронных сетей
- Задачи обработки текстов
- Задачи обработки изображений и видео (Computer Vision)
- Инструменты (Theano, TensorFlow, Keras)
- Разбор классических задач Deep Learning

Занятие - Продуктовая аналитика.

Теория и практика
- Тестирование гипотез в продуктовой аналитике
- Маркетинговые метрики качества алгоритмов машинного обучения
- Оценка экономического эффекта моделей
- Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
- Модели машинного обучения в CRM

Скрытое содержимое.

Также приглашаю Вас принять участие в складчине на подготовительный курс для аналитиков от этой же конторы, он ведется для тех, кому нужно подготовиться к прохождению основного курса, на который мы собираемся здесь

Подготовительный курс Big Data для аналитиков

QashqaiBY · 10 янв 2018

Начало нового курса 15-го января...

Exitoso · 11 янв 2018

Давайте, народ! Организованней! Хорошая тема набирающая популярность

mozus · 2 апр 2018

Начало нового курса 10 апреля.

hedger · 14 окт 2018

Я смотрю, складчина умерла. Или курс есть на руках?

ProductScience · 17 май 2020

а будет сбор на курс?

Войти или зарегистрироваться

[Beeline] Прикладной анализ данных

Поделиться этой страницей

Войти или зарегистрироваться

[Beeline] Прикладной анализ данных

Поделиться этой страницей

Быстрый поиск