Открыто

Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]

Тема в разделе "Курсы по программированию", создана пользователем stclaus, 9 сен 2020.

Цена: 10368р.-96%
Взнос: 336р.

Основной список: 35 участников

Резервный список: 11 участников

  1. 9 сен 2020
    #1
    stclaus
    stclaus ОргОрганизатор

    Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]

    Онлайн-курс с экспертом от СберБанка
    Data Science

    upload_2020-9-9_20-32-37.png

    01.Введение в машинное обучение
    • - Что такое машинное обучение?
    • - Для чего используется машинное обучение?
    • - Какие типы задач можно решать с помощью машинного обучения?
    • - Основные проблемы машинного обучения
    • - Почему будем использовать python?
    • - Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).

    02. Основы Python
    • - типы данных
    • - ссылки на объекты
    • - коллекции данных
    • - логические операции
    • - инструкции управления потоком выполнения
    • - арифметические операторы
    • - ввод / вывод
    • - создание и вызов функций
    Практика
    • Работа с объектами в Python, написание функций для работы с данными
    03. Математика, необходимая в DS / ML
    • - функция
    • - производная, частная производная, градиент функции
    • - теория вероятности: основные определения
    • - определение вероятности, вычисление вероятностей сложных событий
    • - распределение вероятностей, независимые и зависимые переменные
    • - генеральные совокупности и выборки
    • - центральная предельная теорема
    • - меры центральной тенденции, меры разброса
    • - выбросы
    Практика
    • реализация указанных математических сущностей на Python
    04. Управление данными и их интерпретация
    • - введение в массивы библиотеки NumPy
    • - выполнение вычислений над массивами NumPy
    • - сравнения, макси и булева логика в NumPy
    • - сортировка массивов NumPy
    • - введение в библиотеку pandas
    • - операции над данными в библиотеке pandas
    • - объединение наборов данных: конкатенация, слияние и соединение
    • - агрегирование и группировка в pandas
    • - сводные таблицы в pandas
    • - векторизованные операции и методы повышения производительности pandas
    • - визуализация данных с помощью matplotlib
    • - линейные графики и диаграммы рассеяния в matplotlib
    • - графики плотности, гистограммы в matplotlib
    • - настройка легенды на графикам, тексты и поясняющие надписи
    • - множественные графики
    Практика
    • векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn
    05. Линейные модели
    • - измерение ошибки в задачах регрессии
    • - обучение линейной регрессии
    • - градиентный спуск и модификация градиентного спуска
    • - интерпретация коэффициентов линейной регрессии
    • - подготовка данных для линейной модели
    • - оценка качества моделей
    • - регуляризация линейной модели и гиперпараметры
    Практика
    • реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.
    06. Логистическая регрессия
    • - измерение ошибки в задачах бинарной классификации
    • - оценивание вероятностей
    • - переобучение, кривые обучения, кривые валидации
    • - интерпретация коэффициентов логистической регрессии
    • - границы решения
    Практика
    • реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.

    Опционально
    • самостоятельная реализация модели логистической регрессии.
    07. Решающие деревья
    • - обучение и визуализация дерева принятия решений
    • - применение дерева для получения прогнозов
    • - оценивание вероятностей классов
    • - оценивание непрерывной величины
    • - алгоритм обучения CART
    • - вычислительная сложность деревьев решений
    • - выбор критериев разбиения
    • - гиперпараметры, регуляризация, неустойчивость деревьев решений
    Практика
    • обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.

    Опционально
    • самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.
    08. Бэггинг, случайный лес
    • - разложение ошибки на смещение и дисперсию
    • - бутстрап, бэггинг, out-of-bag ошибка
    • - метод случайных подпространств
    • - случайный лес
    • - экстремально случайные деревья
    • - работа с текстовыми данными
    • - оценка важности признаков
    Практика
    • самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизоация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.

    Опциональносамостоятельная реализация модели случайного леса для задачи классификации и регрессии.
    09. Градиентный бустинг
    • - бустинг как направленная композиция алгоритмов
    • - AdaBoost
    • - XGBoost
    • - LightGBM
    • - CatBoost
    Практика
    • сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.
    10. Важность признаков и методы снижения размерности
    • - Встроенные методы оценки важности признаков, + / -
    • - Оценка важности признаков на основе перестановок
    • - SHAP для оценки важности признаков и интерпретации blackbox-моделей
    • - Проблема проклятия размерности
    • - PCA для снижения размерности
    • - Анализ главных компонент
    Практика
    • использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.
    11. Обучение без учителя (кластеризация)
    • - [опциональная лекция]
    12. Основы А-Б тестирования
    • - распределение вероятностей
    • - независимые и зависимые переменные
    • - проверка гипотез
    • - доверительные интервалы
    • - p-value, z-статистика
    • - проверка гипотез с помощью t - критерия
    • - проверка гипотез для долей
    Практика
    • моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.
    13. Полный проект машинного обучения (основные этапы + демонстрация)
    • - работа с реальными данными
    • - постановка задачи
    • - получение данных
    • - обнаружение и визуализация данных для понимания их сущности
    • - подготовка данных для алгоритмов машинного обучения
    • - выбор и обучение модели
    • - настройка гиперпараметров модели
    • - анализ ошибок / поиск возможностей для улучшения качества модели
    • - проверка модели на реальных данных
    • - запуск и сопровождение модели


    Продажник
     
  2. Последние события

    1. roberto1
      roberto1 не участвует.
      30 мар 2024
    2. Omeniks
      Omeniks не участвует.
      7 авг 2023
    3. dzumberman
      dzumberman не участвует.
      16 июл 2023
    4. karlosonchik
      karlosonchik не участвует.
      17 янв 2023
  3. Обсуждение
  4. 11 сен 2020
    #2
    stclaus
    stclaus ОргОрганизатор
    У курса рассрочка на 24 месяца - 2160 ₽/мес (хоть и написано что для первых 10, но скорее всего для всех)
     
  5. 6 ноя 2020
    #3
    stclaus
    stclaus ОргОрганизатор
    25 января начнется новый поток
     

Поделиться этой страницей