Открыто

[Beeline] Прикладной анализ данных

Тема в разделе "Курсы по программированию", создана пользователем Mordino, 15 сен 2017.

Цена: 100000р.
Взнос: 988р.

Основной список: 110 участников

Резервный список: 58 участников

  1. Mordino

    Mordino ЧКЧлен клуба

    Прикладной анализ данных
    [​IMG]
    Интенсивный курс по изучению машинного обучения и анализа данных. Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.

    Мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.


    Количество занятий: 28 занятий
    Длительность: 3,5 месяца
    Формат обучения: онлайн
    Преподаватели: Сергей Марин, Александр Крот и другие
    Стоимость курса: 100 000 Р

    Занятие - Введение в машинное обучение. Основные типы задач и методы их решения

    Теория
    - Введение в машинное обучение, необходимые навыки
    - Задачи классификации, регрессии и кластеризации
    - Извлечение, отбор и преобразование признаков
    - Особенности решения задач машинного обучения
    - Обзор инструментов для решения задач машинного обучения
    - Обзор графовых задач
    - Знания, необходимые для успешного освоения науки о данных
    - Особенности обработки больших данных
    - Workflow решения задач анализа данных
    - Конкретные примеры решения задач анализа данных

    Занятие - Библиотеки и инструменты для анализа данных. Математика в машинном обучении

    Теория
    Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
    Работа с векторами и матрицами в библиотеке NumPy
    Обзор библиотеки для научных вычислений SciPy
    Визуализация данных с Matplotlib и Seaborn
    Чтение и обработка данных с библиотекой Pandas

    Практика
    Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
    Первичный анализ данных с Seaborn
    Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas

    Занятие - Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn.

    Занятие - Обучение с учителем. Задачи классификации и регрессии

    Теория
    - Деревья решений
    - Энтропия, прирост информации и неопределенность Джинни
    - Алгоритмы ID3, C 4.5, CART
    - Работа с признаками – отбор, преобразование, построение

    Практика
    - Применение дерева решений Scikit-learn к синтетическому набору данных и кданным соревнования Kaggle Inclass по автострахованию
    - Настройка параметров дерева, кросс-валидация
    - Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
    - Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning fromDisaster"

    Занятие - Оценка качества алгоритмов машинного обучения

    Теория
    - Обзор библиотеки машинного обучения Scikit-learn
    - Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
    - Случай несбалансированных классов
    - Случай классификации на несколько классов
    - Логистическая регрессия
    - Метод опорных векторов (Support Vector Machine), ядра

    Практика
    - Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
    - Примеры решения задач классификации и регрессии — наборы данных UCI

    Занятие - Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации.

    Занятие - Продвинутые методы классификации и регрессии. Переобучение.
    Теория

    Теория
    - Нейронные сети, алгоритм обратного распространения ошибки
    -Построение ансамблей алгоритмов
    - Случайный лес (Random Forest)
    - Бустинг (boosting) и бэггинг (bagging), Xgboost
    - Стекинг
    - Переобучение, кросс-валидация, регуляризация
    - Пример регуляризации для логистической регрессии

    Занятие - Продвинутые методы классификации и регрессии. Переобучение.

    Практика

    Теория
    - Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
    - Случайный лес на примере набора данных Titanic
    - Случайный лес на примере набора данных по автострахованию
    - Практика использования библиотек Lasagne NN и Xgboost
    - Разбор решения задачи Kaggle «Otto Group Product Classification
    - Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)

    Занятие - Обучение без учителя

    Теория
    - Введение в обучение без учителя
    -Задача кластеризации — алгоритм k-means
    - Иерархическая кластеризация
    - Спектральная кластеризация
    - Плотностные методы кластеризации
    - Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
    - Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов

    Практика
    - Пример поиска аномалий в данных

    Занятие - Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением.

    Занятие - Анализ социальных сетей.
    Теория

    Теория
    - Введение в теорию графов
    - Классические алгоритмы на графах
    - Поиск в ширину и поиск в глубину
    - Алгоритм PageRank
    - Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
    - Кластеризация на графах/обнаружение в соц. сетях

    Занятие - Анализ социальных сетей. Практика

    Практика
    - Применение машинного обучения в графовых задачах
    - Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
    - Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
    - Обзор инструментов для работы с графами

    Занятие - Семинар. Решение алгоритмических задач на графах.

    Занятие - Обнаружение знаний в данных

    Теория
    - Поиск частых множеств (товаров) и ассоциативные правила
    - Алгоритмы Apriori и FP-growth
    - Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
    - Поиск паттернов с ограничениями
    - Поиск частых последовательностей
    - Поиск частых подграфов

    Практика
    - Знакомство с инструментом SPMF
    - Анализ последовательностей на примере демографических данных

    Занятие - Рекомендательные системы

    Теория
    - Введение в коллаборативную фильтрацию
    - Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
    - Оценка качества рекомендательной системы
    - Рекомендации на основе ассоциативных правил
    - Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
    -Мультимодальная кластеризация и рекомендации в фолксономиях

    Практика
    - Case-study: рекомендация радиостанций

    Занятие - Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации.

    Занятие - Обработка текстов.
    Теория

    Теория
    - Задачи обработки естественного языка (NLP)
    - Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
    - Модели представления текстов: мешок слов, VSM, синтаксические деревья
    - Современные методы: word2vec, topic modeling

    Занятие - Обработка текстов. Практика

    Практика
    - Поиск ключевых слов
    - Определение сходства документов
    - Кластеризация текстов
    - Поиск похожих слов

    Занятие - Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.

    Занятие - Введение в анализ больших данных и масштабируемое машинное обучение.
    Теория

    Теория
    - Машинное обучение: подход MapReduce, онлайн-обучение
    - Стохастический градиентный спуск
    - Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
    - Обзор инструмента Apache Spark
    - Введение в функциональное программирование (map, filter, reduce, lambda-функции)
    - Обзор библиотек MLlib и GraphX Apache Spark
    - Коллаборативная фильтрация с Apache Spark

    Занятие - Введение в анализ больших данных и масштабируемое машинное обучение. Практика
    Практика
    - Практика использования функций map, filter, reduce и lambda-функций
    - Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
    - Анализ веб-логов с Apache Spark
    - Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
    - Пример решения задачи классификации со Spark MLlib
    - Предсказание кликов пользователей с Apache Spark

    Занятие - Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit.
    Теория и практика

    Теория
    - Что делать, если мало оперативной памяти
    - Введение в онлайн обучение
    - Метрики качества - progressive loss
    - Выбор функции потерь
    - Hashing trick
    - Подбор параметров регуляризации при он-лайн-обуяении
    - Дообучение алгоритмов

    Практика
    - Обзор инструмента vowpal wabbit
    - Пример решения задачи в 2 строки с помощью vowpal wabbit
    - Обзор нестандартных параметров vw

    Занятие - Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными.

    Занятие - Соревнования по анализу данных.
    Теория

    Теория
    - Обзор платформы Kaggle
    - Зачем нужны соревнования по анализу данных
    - Особенности задач в соревнованиях по машинному обучению
    - Отличия задач соревнований по анализу данных от реальных бизнес-задач
    - Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя

    Занятие - Соревнования по анализу данных. Практика

    Практика
    - Работа с категориальными признаками, различные подходы
    - Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб

    Занятие - Семинар. Разбор нестандартных задач с Kaggle.

    Занятие - Deep Learning.

    Теория и практика
    - Введение в нейронные сети
    - Обзор возможностей нейронных сетей
    - Задачи обработки текстов
    - Задачи обработки изображений и видео (Computer Vision)
    - Инструменты (Theano, TensorFlow, Keras)
    - Разбор классических задач Deep Learning

    Занятие - Продуктовая аналитика.

    Теория и практика
    - Тестирование гипотез в продуктовой аналитике
    - Маркетинговые метрики качества алгоритмов машинного обучения
    - Оценка экономического эффекта моделей
    - Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
    - Модели машинного обучения в CRM


    Также приглашаю Вас принять участие в складчине на подготовительный курс для аналитиков от этой же конторы, он ведется для тех, кому нужно подготовиться к прохождению основного курса, на который мы собираемся здесь

    Подготовительный курс Big Data для аналитиков
     
    3 пользователям это понравилось.
  2. Последние события

    1. Роман1

      Роман1 участвует в складчине.

      6 дек 2018
    2. Serg-PSA13

      Serg-PSA13 участвует в складчине.

      23 ноя 2018
    3. boriz

      boriz не участвует в складчине.

      19 ноя 2018
    4. travis84

      travis84 участвует в складчине.

      18 ноя 2018
  3. Водород

    Водород ЧКЧлен клуба

    Здесь классная подборка книг по Бизнес-процессам (необходимо: IT-специалистам, студентам, управленцам (менеджерам), консультантам, ведущим специалистам в любой сфере деятельности и т.д.). Это популярная профессиональная учебная литература от издательства ЮРАЙТ. Присоединяйтесь. Записываемся смело. Старт будет когда средняя цена дойдет до 80-100 руб.
    Бизнес-процессы (подборка из 5 книг). 2017 год

    И еще две книги по бизнес-процессам, одна из которых от гуру в этой области
    Бизнес-Процессы (подборка книг). 2017 год [Пересбор]
     
  4. gillmor

    gillmor ЧКЧлен клуба

    Интересуешься машинным обучение? Хочешь уметь работать с большими данными? Тогда тебе к нам.
    Подробный курс от разработчика Mail.ru​
     
  5. Taranis

    Taranis БанЗабанен

  6. eduard1

    eduard1 ЧКЧлен клуба

     
    2 пользователям это понравилось.
  7. John Dalton

    John Dalton ЧКЧлен клуба

  8. Dimytr

    Dimytr ЧКЧлен клуба

  9. Рам

    Рам ОргОрганизатор

  10. Томас Шелби

    Томас Шелби ЧКЧлен клуба

  11. Гуськом

    Гуськом ЧКЧлен клуба

  12. mrSong

    mrSong ЧКЧлен клуба

  13. QashqaiBY

    QashqaiBY ЧКЧлен клуба

    Начало нового курса 15-го января...
     
  14. Prametei

    Prametei ОргОрганизатор

  15. Exitoso

    Exitoso ЧКЧлен клуба

    Давайте, народ! Организованней! Хорошая тема набирающая популярность
     
  16. gillmor

    gillmor ЧКЧлен клуба

  17. Mr. Tinkertrain

    Mr. Tinkertrain ОргОрганизатор

  18. bertopls

    bertopls ЧКЧлен клуба

  19. aik2001

    aik2001 ЧКЧлен клуба

  20. mozus

    mozus ЧКЧлен клуба

    Начало нового курса 10 апреля.
     
  21. eduard1

    eduard1 ЧКЧлен клуба

     

Поделиться этой страницей