Открыто

[Beeline] Прикладной анализ данных

Тема в разделе "Курсы по программированию", создана пользователем Mordino, 15 сен 2017.

Цена: 100000р.-97%
Взнос: 2598р.

Основной список: 42 участников

Резервный список: 31 участников

  1. 15 сен 2017
    #1
    Mordino
    Mordino ЧКЧлен клуба
    Прикладной анализ данных
    [​IMG]
    Интенсивный курс по изучению машинного обучения и анализа данных. Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.

    Мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.


    Количество занятий: 28 занятий
    Длительность: 3,5 месяца
    Формат обучения: онлайн
    Преподаватели: Сергей Марин, Александр Крот и другие
    Стоимость курса: 100 000 Р

    Занятие - Введение в машинное обучение. Основные типы задач и методы их решения

    Теория
    - Введение в машинное обучение, необходимые навыки
    - Задачи классификации, регрессии и кластеризации
    - Извлечение, отбор и преобразование признаков
    - Особенности решения задач машинного обучения
    - Обзор инструментов для решения задач машинного обучения
    - Обзор графовых задач
    - Знания, необходимые для успешного освоения науки о данных
    - Особенности обработки больших данных
    - Workflow решения задач анализа данных
    - Конкретные примеры решения задач анализа данных

    Занятие - Библиотеки и инструменты для анализа данных. Математика в машинном обучении

    Теория
    Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
    Работа с векторами и матрицами в библиотеке NumPy
    Обзор библиотеки для научных вычислений SciPy
    Визуализация данных с Matplotlib и Seaborn
    Чтение и обработка данных с библиотекой Pandas

    Практика
    Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
    Первичный анализ данных с Seaborn
    Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas

    Занятие - Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn.

    Занятие - Обучение с учителем. Задачи классификации и регрессии

    Теория
    - Деревья решений
    - Энтропия, прирост информации и неопределенность Джинни
    - Алгоритмы ID3, C 4.5, CART
    - Работа с признаками – отбор, преобразование, построение

    Практика
    - Применение дерева решений Scikit-learn к синтетическому набору данных и кданным соревнования Kaggle Inclass по автострахованию
    - Настройка параметров дерева, кросс-валидация
    - Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
    - Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning fromDisaster"

    Занятие - Оценка качества алгоритмов машинного обучения

    Теория
    - Обзор библиотеки машинного обучения Scikit-learn
    - Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
    - Случай несбалансированных классов
    - Случай классификации на несколько классов
    - Логистическая регрессия
    - Метод опорных векторов (Support Vector Machine), ядра

    Практика
    - Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
    - Примеры решения задач классификации и регрессии — наборы данных UCI

    Занятие - Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации.

    Занятие - Продвинутые методы классификации и регрессии. Переобучение.
    Теория

    Теория
    - Нейронные сети, алгоритм обратного распространения ошибки
    -Построение ансамблей алгоритмов
    - Случайный лес (Random Forest)
    - Бустинг (boosting) и бэггинг (bagging), Xgboost
    - Стекинг
    - Переобучение, кросс-валидация, регуляризация
    - Пример регуляризации для логистической регрессии

    Занятие - Продвинутые методы классификации и регрессии. Переобучение.

    Практика

    Теория
    - Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
    - Случайный лес на примере набора данных Titanic
    - Случайный лес на примере набора данных по автострахованию
    - Практика использования библиотек Lasagne NN и Xgboost
    - Разбор решения задачи Kaggle «Otto Group Product Classification
    - Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)

    Занятие - Обучение без учителя

    Теория
    - Введение в обучение без учителя
    -Задача кластеризации — алгоритм k-means
    - Иерархическая кластеризация
    - Спектральная кластеризация
    - Плотностные методы кластеризации
    - Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
    - Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов

    Практика
    - Пример поиска аномалий в данных

    Занятие - Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением.

    Занятие - Анализ социальных сетей.
    Теория

    Теория
    - Введение в теорию графов
    - Классические алгоритмы на графах
    - Поиск в ширину и поиск в глубину
    - Алгоритм PageRank
    - Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
    - Кластеризация на графах/обнаружение в соц. сетях

    Занятие - Анализ социальных сетей. Практика

    Практика
    - Применение машинного обучения в графовых задачах
    - Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
    - Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
    - Обзор инструментов для работы с графами

    Занятие - Семинар. Решение алгоритмических задач на графах.

    Занятие - Обнаружение знаний в данных

    Теория
    - Поиск частых множеств (товаров) и ассоциативные правила
    - Алгоритмы Apriori и FP-growth
    - Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
    - Поиск паттернов с ограничениями
    - Поиск частых последовательностей
    - Поиск частых подграфов

    Практика
    - Знакомство с инструментом SPMF
    - Анализ последовательностей на примере демографических данных

    Занятие - Рекомендательные системы

    Теория
    - Введение в коллаборативную фильтрацию
    - Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
    - Оценка качества рекомендательной системы
    - Рекомендации на основе ассоциативных правил
    - Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
    -Мультимодальная кластеризация и рекомендации в фолксономиях

    Практика
    - Case-study: рекомендация радиостанций

    Занятие - Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации.

    Занятие - Обработка текстов.
    Теория

    Теория
    - Задачи обработки естественного языка (NLP)
    - Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
    - Модели представления текстов: мешок слов, VSM, синтаксические деревья
    - Современные методы: word2vec, topic modeling

    Занятие - Обработка текстов. Практика

    Практика
    - Поиск ключевых слов
    - Определение сходства документов
    - Кластеризация текстов
    - Поиск похожих слов

    Занятие - Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.

    Занятие - Введение в анализ больших данных и масштабируемое машинное обучение.
    Теория

    Теория
    - Машинное обучение: подход MapReduce, онлайн-обучение
    - Стохастический градиентный спуск
    - Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
    - Обзор инструмента Apache Spark
    - Введение в функциональное программирование (map, filter, reduce, lambda-функции)
    - Обзор библиотек MLlib и GraphX Apache Spark
    - Коллаборативная фильтрация с Apache Spark

    Занятие - Введение в анализ больших данных и масштабируемое машинное обучение. Практика
    Практика
    - Практика использования функций map, filter, reduce и lambda-функций
    - Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
    - Анализ веб-логов с Apache Spark
    - Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
    - Пример решения задачи классификации со Spark MLlib
    - Предсказание кликов пользователей с Apache Spark

    Занятие - Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit.
    Теория и практика

    Теория
    - Что делать, если мало оперативной памяти
    - Введение в онлайн обучение
    - Метрики качества - progressive loss
    - Выбор функции потерь
    - Hashing trick
    - Подбор параметров регуляризации при он-лайн-обуяении
    - Дообучение алгоритмов

    Практика
    - Обзор инструмента vowpal wabbit
    - Пример решения задачи в 2 строки с помощью vowpal wabbit
    - Обзор нестандартных параметров vw

    Занятие - Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными.

    Занятие - Соревнования по анализу данных.
    Теория

    Теория
    - Обзор платформы Kaggle
    - Зачем нужны соревнования по анализу данных
    - Особенности задач в соревнованиях по машинному обучению
    - Отличия задач соревнований по анализу данных от реальных бизнес-задач
    - Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя

    Занятие - Соревнования по анализу данных. Практика

    Практика
    - Работа с категориальными признаками, различные подходы
    - Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб

    Занятие - Семинар. Разбор нестандартных задач с Kaggle.

    Занятие - Deep Learning.

    Теория и практика
    - Введение в нейронные сети
    - Обзор возможностей нейронных сетей
    - Задачи обработки текстов
    - Задачи обработки изображений и видео (Computer Vision)
    - Инструменты (Theano, TensorFlow, Keras)
    - Разбор классических задач Deep Learning

    Занятие - Продуктовая аналитика.

    Теория и практика
    - Тестирование гипотез в продуктовой аналитике
    - Маркетинговые метрики качества алгоритмов машинного обучения
    - Оценка экономического эффекта моделей
    - Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
    - Модели машинного обучения в CRM


    Также приглашаю Вас принять участие в складчине на подготовительный курс для аналитиков от этой же конторы, он ведется для тех, кому нужно подготовиться к прохождению основного курса, на который мы собираемся здесь

    Подготовительный курс Big Data для аналитиков
     
    6 пользователям это понравилось.
  2. Последние события

    1. Compton187
      Compton187 не участвует.
      8 янв 2024
    2. Compton187
      Compton187 участвует.
      8 янв 2024
    3. Mtv Gru
      Mtv Gru не участвует.
      30 апр 2023
    4. signor_ololoev
      signor_ololoev не участвует.
      18 фев 2023
  3. Обсуждение
  4. 10 янв 2018
    #2
    QashqaiBY
    QashqaiBY ЧКЧлен клуба
    Начало нового курса 15-го января...
     
  5. 11 янв 2018
    #3
    Exitoso
    Exitoso ЧКЧлен клуба
    Давайте, народ! Организованней! Хорошая тема набирающая популярность
     
  6. 2 апр 2018
    #4
    mozus
    mozus ЧКЧлен клуба
    Начало нового курса 10 апреля.
     
  7. 14 окт 2018
    #5
    hedger
    hedger ЧКЧлен клуба
    Я смотрю, складчина умерла. Или курс есть на руках?
     
  8. 17 май 2020
    #6
    ProductScience
    ProductScience ДолжникДолжник
    а будет сбор на курс?
     

Поделиться этой страницей