Обсуждение

Клуб: Data Science

Тема в разделе "Обсуждение инфопродуктов", создана пользователем Sl0wn, 2 мар 2017.

  1. 2 мар 2017
    #1
    Sl0wn
    Sl0wn БанЗабанен

    [​IMG]

    [​IMG]

    В данном я разделе хотел бы разместить клуб объединяющий всех заинтересованных складчиков в таких тематиках как анализ и визуализация данных, машинное обучение, вероятностное моделирование, структурирование больших объемов информации, а также всей взаимосвязанной с этим информацией.
    Данные дисциплины невозможно изучать без базовых знаний по ряду основопологающих предметов, инструментарием которых мы в дальнейшем будем пользоваться. Именно поэтому данный клуб будет накапливать разнонаправленную информацию для охвата всех необходимых компонент.

    Список тематических направлений:


    1. Анализ данных
    2. Программирование
    3. Математика
    4. Базы данных
    5. Алгоритмический трейдинг


    Данная тема преднозначена для побщения и обмена информацией между складчиками и является связующим звеном между темами, в которых будут представлены ссылки на тематические складчины, соответствующие направлению разделов.

    Правила публикации сообщений в теме:
    1) Корректно выражайте свое мнение и не злословьте
    2) Воздерживайтесь от цветных сообщений и шрифтов не соответствующих изначальным настройкам
    3) Все ссылки на складчины должны иметь HIDE идентичный с тем, что имеет складчина при переходе по данной ссылке

    Пример
    [​IMG]

    это значит что ссылка будет выглядеть таким образом (для просмотра необходимо одинаковое количество привелелегий)

     
    43 пользователям это понравилось.
  2. 2 мар 2017
    #2
    Sl0wn
    Sl0wn БанЗабанен
    Всех приветствую, сегодня была создан был клуб Data Science, прошлые темы были удалены и пересозданы с улучшенной иерархией. В данной теме мы можем свободно обсуждать все что связано с тематическими направлениями, делиться впечатлениями и планировать новые складчины.

    Виват новый клуб )
     
    4 пользователям это понравилось.
  3. 3 мар 2017
    #3
    dflas
    dflas ОргОрганизатор
    Сегодня в складке от @Im MT https://v14.skladchik.org/threads/safari-books-online-Годовая-подписка.120026/ появились 2 книги:

    [​IMG]

    [​IMG]
     
    5 пользователям это понравилось.
  4. 6 мар 2017
    #4
    Sl0wn
    Sl0wn БанЗабанен
    Всем привет, появилась возможность получить перевод книги по какой либо тематике Data Science
    Предлагайте свои варианты
     
  5. 6 мар 2017
    #5
    Sl0wn
    Sl0wn БанЗабанен
    В этой теме
     
  6. 7 мар 2017
    #6
    Krololo
    Krololo ЧКЧлен клуба
    А почему все обучение завязано на Python? Если я его незнаю, стоит ли вообще изучать Big Data and Data Science
     
  7. 7 мар 2017
    #7
    Sl0wn
    Sl0wn БанЗабанен
    Потому что питон один из самых легких языков программирования, любой язык это всего лишь инструмент для реализации алгоритма. Также питон довольно компактный языки пожтому количество кода будет очень невелико. Не говоря уже о том что он свободен от лицензий, идет в комплекте к каждой системе линукса и имеет большое количество последователей.

    Учить или не учить - это ваше решение) Анализ данных через 2-3 годы будет таким же востребованным как мобильные приложения пару лет назад.
     
    2 пользователям это понравилось.
  8. 7 мар 2017
    #8
    Krololo
    Krololo ЧКЧлен клуба
    Хм теперь понятно, он просто является некой платформой(связующим звеном). На самом деле интересуюсь темой по-скольку заканчиваю обучение в сфере финансов и необходимо анализировать большой поток информации и заниматься моделированием. Также интересны темы автоматизации и искусственного интеллекта, думаю Data Science как раз напрямую с этим связан. Учитывая также перспективы данных направлений очень бы хотелось изучить эти темы.
    [​IMG]
     
  9. 7 мар 2017
    #9
    Tzimisce
    Tzimisce ЧКЧлен клуба
    @Sl0wn может быть ты поможешь. Есть файл с набором данных. Язык русский. При конвертации в .csv получилась какая-то каша. Как правильно готовить файл для работы. Может быть есть какой-то гайд?
     
  10. 8 мар 2017
    #10
    empiric
    empiric ДолжникДолжник
    Скорее всего у тебя по умолчанию указана кодировка cp1251 (стандартная для русских версий Microsoft Windows). Попробуй явно указать параметр encoding='utf8'. Короче проблема с кодировкой Скрытая ссылка в помощь...
     
  11. 8 мар 2017
    #11
    Sl0wn
    Sl0wn БанЗабанен
    @Tzimisce не совсем понял сути вопроса, каша иногда это плохоотформатированные данные или ошибка кодировки
    как пример - сохранение пару строк в Csv
    Код:
    import csv
    with open('eggs.csv', 'w', newline='') as csvfile:
        spamwriter = csv.writer(csvfile)
        spamwriter.writerow(['Даже не знаю как тут можно напортачить']
                            + ['Но если совсем кракозябры ты стоит смотреть кодировку']*5
                           )
     
  12. 9 мар 2017
    #12
    Ianuaria
    Ianuaria ЧКЧлен клуба (П)
    Ответ на самом деле очевиден уже пару лет. И спрос на кадры превышает предложение.

    Data Scientist - самая востребованная профессия на техническом рынке в США, средняя базовая зарплата $116k в год
     
  13. 12 мар 2017
    #13
    Sl0wn
    Sl0wn БанЗабанен
    Есть ли среди складчиков те, кто занимаются профессионально машинным обучением ? Если вы таковой прошу в лс
     
  14. 13 мар 2017
    #14
    Ivan_Ivanoff
    Ivan_Ivanoff БанЗабанен
    В каждом языке программирования, со временем, из-за частого использования кода для одних и тех же задач, разработчики находят ЛУЧШИЕ РЕШЕНИЯ по структуре используемого кода для этих целей. Эти Решения помещают в Библиотеки кода.
    Так исторически сложилось, что на Питоне эти Библиотеки стали появляться раньше и их количество стало возрастать. Поэтому в разрезе Data Science, он вырвался в один из лидеров среди языков программирования по использованию в качестве инструмента по написанию программ в Big Data и Data Science. Как видно из логотипа данного Раздела ОБСУЖДЕНИЯ Клуба, в центре круга находится Data Science - Наука о Данных. С Данными, их анализом и интерпретацией, определением закономерностей "работает" такой раздел Науки как - СТАТИСТИКА. А для статистов, под их нужды был разработан язык R. Поэтому, наряду с Питоном, на "арену выходит" язык программирования R. Его также вы будете часто встречать в книгах о Data Science.
    Язык программирования - это инструмент. Чтобы вам понять - стоит ли вам "ввязываться" в Big Data and Data Science, надо познакомиться со Статистикой. На Stepic.Org есть отличные вводные курсы по "Основам статистики", Питону, R и т.д., используемых для изучения Big Data и Data Science:
    Вы можете попробовать стартануть оттуда. Легкое погружение в непростой раздел этой Науки позволит поддержать возникший интерес к этой Теме.
     
    5 пользователям это понравилось.
  15. 13 мар 2017
    #15
    Sl0wn
    Sl0wn БанЗабанен
    Знает ли кто достойную литературу по подготовки данных для дальнейшего анализа ?
    У нас уже очень много информации по моделям, все уже по полочкам разложено от начала работы модели до самой оценки. Однако недостаточно информации по подготовке данных, во многих курсах говорят о нормализации, удалению выбросов, но никто не говорит о том как отбирать параметры, как их фильтровать, как их объединять, убирать взаимосвязнность... а ведь от этого зависит степень обучаемости модели и конечный результат.
     
  16. 13 мар 2017
    #16
    eduard1
    eduard1 ЧКЧлен клуба
    Я тоже только потихоньку приступаю к этой огромной области.
    На Python и R - действительно 90% литературы/курсов/библиотек, а также большим плюсом является бесплатность большинства библиотек/инструментов .
    Поэтому учиться будет проще и нагляднее - теорию сразу можно опробовать на практике - так лучше доходит и намного интереснее. ;)
    Хотя ни Python ни R мне не интересны - но так уж сложилось.
    Возможно поэтому и не лез в эту область, а скорее всего просто не нужно было.
    Идеальных языков нет - поэтому на начальном этапе обучения думаю лучше попробовать то, что есть - причём есть очень много (сам себя тоже уговариваю постоянно :)).
    Потом или понравится или своё начнёте писать.
     
  17. 13 мар 2017
    #17
    eduard1
    eduard1 ЧКЧлен клуба
    То, что мне попадалось это книга и курс - там основы и базовые подходы ...
    Но думаю тебе нужно "помощнее что-то". :cool:
     
    1 человеку нравится это.
  18. 13 мар 2017
    #18
    Ivan_Ivanoff
    Ivan_Ivanoff БанЗабанен
    Под ваш конкретный вопрос: - Храмов Дмитрий - Сбор данных в интернете на языке R (ДМК-Пресс). Но эта книга есть(была) в электронном виде и на его сайте:

    Сейчас он, видимо, обновляет сайт и многие страницы "С Ошибками".
    А для комфортного погружения в Тему (на русском):
    1) Чарльз Уилан - Голая статистика. Самая интересная книга о самой скучной науке (2016)
    2) Тоби Сегаран - Программируем коллективный разум (2008)
    3) Билл Фрэнкс - Укрощение больших данных (2014)
    Все эти книги можно найти в паблике. Если не найдёте - пишите, я скину.
     
    4 пользователям это понравилось.
  19. 13 мар 2017
    #19
    Ivan_Ivanoff
    Ivan_Ivanoff БанЗабанен
    Извините, ввёл вас в заблуждение по вашему вопросу. Исправляюсь:
    Об очистке данных есть "Глава 7" в Книге: Митчелл Р. - Скрапинг веб-сайтов с помощью Python (2016) (книгу также можно найти в паблике. Если что - пишите, скину)
     
  20. 14 мар 2017
    #20
    empiric
    empiric ДолжникДолжник
    Интересная тема, я то же задавался подобным вопросом, хочется все это систематизировать, т.к. говорят, что именно подготовка данных занимает большую часть времени. К сожалению не находил книг, обобщающих всю эту тему, и ориентированных на практику.
    Есть академический талмуд Data Preprocessing in Data Mining by Salvador García, где довольно полно описана теоретическая часть. Книга есть в интернете.
    Что касается подготовки данных с помощью Python:
    1. Python Machine Learning by Sebastian Raschka. 4 глава "Building Good Training Sets – Data Preprocessing" частично раскрывает этот вопрос.Так же можно найти в интернете.
    2. В комплекте книг Machine Learning Mastery на которые недавно была складчина есть книга Machine Learning Mastery With Python. Там несколько глав посвящены данной теме.
     
    1 человеку нравится это.

Поделиться этой страницей