0/5, Голосов: 0
Активно

[OTUS] Pазработчик BigData. Часть 3 из 5

Тема в разделе "Курсы по программированию", создана пользователем SerfIer, 23 июн 2018.

Метки:
Цена: 10500р.
Взнос: 75р.
100%

Основной список:

  1. 1.  
  2. 2.  
  3. 3.  
  4. 4.  
  5. 5.  
  6. 6.  
  7. 7.  
  8. 8.  
  9. 9.  
  10. 10.  
  11. 11.gr00t  
  12. 12.  
  13. 13.  
  14. 14.  
  15. 15.  
  16. 16.  
  17. 17.  
  18. 18.  
  19. 19.  
  20. 20.  
  21. 21.  
  22. 22.  
  23. 23.  
  24. 24.  
  25. 25.  
  26. 26.  
  27. 27.  
  28. 28.  
  29. 29.  
  30. 30.  
  31. 31.  
  32. 32.  
  33. 33.  
  34. 34.  
  35. 35.  
  36. 36.  
  37. 37.  
  38. 38.  
  39. 39.  
  40. 40.  
  41. 41.  
  42. 42.  
  43. 43.  
  44. 44.  
  45. 45.  
  46. 46.nalectsiyu  
  47. 47.  
  48. 48.  
  49. 49.  
  50. 50.  
  51. 51.pyMan  
  52. 52.  
  53. 53.Linuxfellow  
  54. 54.  
  55. 55.  
  56. 56.  
  57. 57.  
  58. 58.  
  59. 59.  
  60. 60.  
  61. 61.  
  62. 62.  
  63. 63.  
  64. 64.  
  65. 65.  
  66. 66.  
  67. 67.  
  68. 68.  
  69. 69.  
  70. 70.  
  71. 71.  
  72. 72.  
  73. 73.  
  74. 74.  
  75. 75.  
  76. 76.  
  77. 77.  
  78. 78.altor  
  79. 79.  
  80. 80.  
  81. 81.  
  82. 82.  
  83. 83.  
  84. 84.  
  85. 85.  
  86. 86.  
  87. 87.  
  88. 88.  
  89. 89.  
  90. 90.  
  91. 91.  
  92. 92.  
  93. 93.  
  94. 94.  
  95. 95.  
  96. 96.  
  97. 97.asaba  
  98. 98.  
  99. 99.  
  100. 100.  
  101. 101.  
  102. 102.  
  103. 103.  
  104. 104.  
  105. 105.  
  106. 106.  
  107. 107.  
  108. 108.  
  109. 109.  
  110. 110.  
  111. 111.  
  112. 112.  
  113. 113.  
  114. 114.  
  115. 115.  
  116. 116.  
  117. 117.  
  118. 118.  
  119. 119.  
  120. 120.  
  121. 121.  
  122. 122.  
  123. 123.  
  124. 124.  
  125. 125.  
  126. 126.  
  127. 127.  
  128. 128.  
  129. 129.  
  130. 130.  
  131. 131.  
  132. 132.  
  133. 133.  
  134. 134.  
  135. 135.  
  136. 136.  
  137. 137.  
  138. 138.  
  139. 139.  
  140. 140.  
  141. 141.  
  142. 142.  
  143. 143.  
  144. 144.  
  145. 145.  
  146. 146.  
  147. 147.  
  148. 148.  
  149. 149.  
  150. 150.  
  151. 151.  
  152. 152.graphproject  
  153. 153.  
  154. 154.  
  155. 155.  
  156. 156.  
  157. 157.  
  158. 158.  
  159. 159.  
  160. 160.  
  161. 161.  
  162. 162.  
  163. 163.  
  164. 164.  
  165. 165.  
  166. 166.  
  167. 167.  
  168. 168.  
  169. 169.  
  170. 170.  
  171. 171.  
  172. 172.  

Резервный список:

  1. 1.  
  2. 2.kucos  
  3. 3.futures  
  4. 4.  
  5. 5.  
  6. 6.  
  7. 7.  
  8. 8.  
  9. 9.  
  10. 10.  
  11. 11.  
  12. 12.  
  13. 13.  
  14. 14.  
  15. 15.  
  16. 16.  
  17. 17.  
  18. 18.  
  19. 19.  
  20. 20.  
  21. 21.  
  22. 22.  
  23. 23.  
  24. 24.  
  25. 25.  
  26. 26.  
  27. 27.euronimus  
  28. 28.  
  29. 29.Andrei_T  
  1. SerfIer

    SerfIer SerfIer ОргОрганизатор

    Складчина только для участвовавших в предыдущих частях!
    [​IMG]

    [​IMG]
    [​IMG]

    Программа курса:
    Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python

    Занятие 1: Базовые инструменты анализа данных в Python.
    Подготовка к курсу. Git, окружение Python. Обзор курса.
    Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
    Что такое DS, ML, классы решаемых задач.
    ДЗ
    Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

    Занятие 2: Вводная в математические операции.
    Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

    Занятие 3: Визуализация
    Визуализация на matplotlib, seaborn, plotly
    ДЗ
    Построение визуализаций по данным

    Занятие 4: Линейная регрессия
    Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
    Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

    Занятие 5: Логистическая регрессия
    Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
    Теория вероятностей: условные вероятности, теорема Байеса.
    Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
    ДЗ
    Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

    Занятие 6: KNN, наивный байес
    Метрики и расстояния между объектами: евклидова и другие.
    Обучение модели kNN. Ограничения.
    Метрики качества: accuracy, precision, recall, др.
    Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

    Занятие 7: kMeans, EM
    Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
    Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
    ДЗ
    Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

    Занятие 8: Иерархическая кластеризация, DB-Scan
    Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
    От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.

    Занятие 9: Feature engineering
    Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
    ДЗ
    Преобразование набора данных и подбор фич.

    Занятие 10: Поиск выбросов в данных

    Занятие 11: Уменьшение размерности

    Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
    ДЗ
    Применение снижения размерности для использования в модели.

    Занятие 12: Методы оптимизации
    SGD, модификации SGD

    Занятие 13: Деревья решений
    Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
    ДЗ
    Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.

    Занятие 14: Ансамбли моделей
    Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.

    Занятие 15: Бустинг
    Xgboost, catboost, lightgbm, Стекинг, блендинг
    ДЗ
    Применение бустинга для построения лучшей модели.

    Занятие 16: SVM, Support vector machine
    Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
    Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

    Занятие 17: Анализ текстовых данных
    Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
    ДЗ
    Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

    Занятие 18: Анализ текстовых данных
    Выделение объектов в тексте (named entity recognition, named entity linking)
    Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
    Word2vec для извлечения похожих слов, sentiment analysis

    Занятие 19: Рекомендательные системы
    Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
    ДЗ
    Применение алгоритма рекомендаций для датасета фильмов.

    Занятие 20: Временные ряды
    Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

    Занятие 21: Latent Dirichlet Allocation
    ДЗ

    Применение LDA для категоризации текстов.

    Занятие 22: Алгоритмы на графах
    Социальные сети

    Занятие 23: Нейронные сети, обучение нейронных сетей
    Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
    ДЗ
    Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

    Занятие 24: Сверточный слои, каскады, визуализация признаков
    Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.
    Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.
    В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.
    В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

    Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
    Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
    ДЗ
    Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

    Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

    Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
    ДЗ

    Реализация алгоритма с использованием MapReduce.

    Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

    Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
    ДЗ

    Реализация алгоритма с использованием Hive.

    Занятие 30: Организация хранения данных для решения задач машинного обучения

    Занятие 31: Spark

    Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
    ДЗ
    Реализация алгоритма с использованием Spark.

    Занятие 32: Обзор решений для аналитики больших данных
    Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
    Агрегация, управление, эксперименты, анализ, визуализация и BI
    В рамках курса предусмотрена защита проекта. Проект представляет из себя программный комплекс, решающий задачу извлечения и использования знаний из реальных данных с использованием машинного обучения. Проект готовится в течение месяца и включает в себя следующие этапы:

    - Постановка задачи. Предлагается самостоятельно найти предметную область и обосновать применение в ней машинного обучения
    - Разработка данных. Одно из требований к проекту
    - Использование данных из открытых источников. Необходимо разработать процесс сбора и очистки данных
    - Поиск алгоритма и модели для решения задачи. Необходимо выполнить подготовку данных, выбрать алгоритм и подобрать параметры для построения модели
    - Использование модели для достижения поставленной цели. Необходимо реализовать применение разработанной модели
    - Построение процесса. Решение задачи необходимо оформить в единый процесс по обработке данных от источника до предсказания, не требующий участия эксперта
    - Обоснование процесса

    Длительность: 5 месяцев
    Занятия: 4 часа теория + 4 часа практика
    Складчина на 3 модуль

     
    Humpalot, Adam Russel и eduard1 нравится это.
  2. Последние события

    1. Andrei_T

      Andrei_T участвует в складчине.

      19 июл 2018 в 09:07
    2. Wanderer2006

      Wanderer2006 участвует в складчине.

      18 июл 2018 в 14:28
    3. euronimus

      euronimus участвует в складчине.

      18 июл 2018 в 08:34
    4. Darbe

      Darbe участвует в складчине.

      17 июл 2018 в 10:13

    Последние важные события

    1. skladchik.com

      Взнос в складчине составляет 75р.

      12 июл 2018
    2. skladchik.com

      Складчина активна.

      12 июл 2018
    3. skladchik.com

      Сбор взносов начинается 11.07.2018.

      8 июл 2018
    4. skladchik.com

      SerfIer организатор складчины.

      23 июн 2018
  3. Adam Russel

    Adam Russel Adam Russel СкладчикСкладчик

  4. Celentano

    Celentano Celentano МодерМодератор Команда форума

  5. Виталёк

    Виталёк Виталёк СкладчикСкладчик

    А 4 и 5 части ожидаются?
     
  6. Prametei

    Prametei Prametei ОргОрганизатор

  7. NenSemen

    NenSemen NenSemen СкладчикСкладчик

    А реквизиты то где? если сбор 11 июля
     
  8. Томас Шелби

    Томас Шелби Томас Шелби ЧКЧлен клуба

    Как кнопочка "открыто"изменится на "активно" увидишь реквизиты.
     
  9. ekgiv1

    ekgiv1 ekgiv1 ЧКЧлен клуба

Поделиться этой страницей

  1. Сбор взносов (Курсы по программированию):
  2. Нужен организатор (Курсы по программированию):