Закрыто

Создаем парсер на Python

Тема в разделе "Дизайн и креатив", создана пользователем Im MT, 24 апр 2016.

Цена: 21894р.
Взнос: 199р.
101%

Основной список: 119 участников

Резервный список: 2 участников

Статус обсуждения:
Комментирование ограничено.
  1. 24 апр 2016
    #1
    Im MT
    Im MT МодерМодератор Команда форума

    Создаем парсер на Python

    Приветствую!

    О чем эта складчина?
    В сети все больше и больше появляются сайты с курсами, презентациями и прочим обучающем и развлекающим контентом. Все это работает по системе подписки. Что порою совсем не выгодно, учитывая кол-во курсов и ограниченное время. Единственное, что остается - выкачать курсы для просмотра оффлайн. Но в 99% случаях ресурсы не дают этого сделать человеческим способом, а скачивать вручную процесс достаточно долгкий, особенно если курсы исчисляются тысячами, как на lynda.com. Поэтому необходимо автоматизировать процесс.

    В этой складчине мы рассмотрим процесс создании парсера на python. Именно такие парсеры работают на складчинах lynda.com, safari books, linuxacademy, cartoonsmart и т.д. В качестве примера рассмотрим сайт lynda.com и сделаем функциональный загрузчик курсов.

    Для кого эта складчина?
    Складчина рассчитана на людей с начальным уровнем программирования. Синтаксис питона достаточно прост, поэтому на нем внимание заострено не будет. Но подробно разберем необходимые нам библиотеки, как встроенные, так и внешние.

    Но... в интернете есть большое количество бесплатных уроков...
    Да, это так. Но, к сожалению, человеку который никогда не сталкивался с парсерами, открытые уроки мало чем помогут. В них описан процесс парсинга сферического сайта в вакууме, например, википедии, достаточно простых страниц. Этого достаточно, чтобы получить данные о курсах валют или погоду своего города, но недостаточно, чтобы выгружать курсы и проходить защиты ресурсов.

    Что полезного в этом курсе?
    • Мы построим полноценное консольное приложение от и до.
    • Научимся работать с аргументами консольного приложения и напишем различные настройки под разные случаи парсинга.
    • Рассмотрим авторизацию, и какие сюрпризы нам могут преподнести.
    • Вскроем страницы и узнаем, как достать нужную нам информацию.
    • Напишем простой, но эффективный менеджер загрузок
    • Поработаем с файловой системой
    • Изучим альтернативные способы парсинга
    • Домашнее задание с поддержкой
    • и много других мелочей

    Бонусы
    50 складчиков - загручик субтитров lynda.com
    100 складчиков - методы борьбы с drm стримингом на примере linuxacademy + использование внешних загрузчиков (аля ffmpeg)
    150 складчиков - полноценный пример парсера для linuxacademy


    Формат: текстовый
    Стоимость: 199 руб.

    Внимание! В рамках данного курса не предусмотрена поддержка по установке и настройке python.

    lynda.gif
     
    Последнее редактирование: 11 май 2016
    15 пользователям это понравилось.
  2. Последние события

    1. Растаман
      Растаман оставил отзыв "Отлично".
      29 июн 2016
    2. skladchik.com
      Складчина закрыта.
      28 июн 2016
    3. skladchik.com
      Roman_22 не участвует.
      26 июн 2016
    4. tra-der-2012
      tra-der-2012 участвует.
      22 июн 2016

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      28 июн 2016
    2. skladchik.com
      Складчина активна.
      18 июн 2016
    3. skladchik.com
      Сбор взносов начинается 18.06.2016.
      16 июн 2016
    4. skladchik.com
      Im MT организатор.
      16 июн 2016
  3. Отзывы участников

    5/5,
    • 5/5,
      Работой организатора доволен
      Действительно качественный и разжеванный материал по созданию собственного парсера на практике.
      Все базовые вещи грамотно и структурированно разобраны в методичке. Однозначно полезные знания для создания гибких самописных подручных средств.
      Спасибо за складчину, теперь есть мотивация по-глубже поковырять Python. Жду более продвинутых продолжений!
      29 июн 2016
      3 пользователям это понравилось.
    • 5/5,
      Работой организатора доволен
      Спасибо за материал!
      Особенно порадовал разбор сложных моментов авторизации. И вообще текст радует частыми разъяснениями различных аспектов парсинга/скрапинга.
      Рекомендации: если будете делать подобные примеры в будущем, пожалуйста, пишите комментарии в файле исходников.
      22 июн 2016
      2 пользователям это понравилось.
  4. Обсуждение
  5. 24 апр 2016
    #2
    Taranis
    Taranis БанЗабанен
    Какая библиотека будет рассматриваться, Grab или Scrapy?
     
  6. 24 апр 2016
    #3
    Im MT
    Im MT МодерМодератор Команда форума
    Grab, будет отдельная глава, в которой расскажу, как можно было бы переписать часть кода отвечающего за парсинг, на нем.
    Но, основная линия будет по более простым библиотекам, по той причине, что курс рассчитан на тех, кто мало знаком с python (или вообще с ним не знаком). Им разобраться с grab будет несколько тяжело.
     
    2 пользователям это понравилось.
  7. 25 апр 2016
    #4
    Милославский
    Милославский ОргОрганизатор (А)
    Im MT, проверяющие нужны? Питон на уровне (мои решения по меткам на нем)
     
    1 человеку нравится это.
  8. 25 апр 2016
    #5
    Im MT
    Im MT МодерМодератор Команда форума
    Да, нужны!
    Хорошо, как все будет готово - вышлю :)
     
    3 пользователям это понравилось.
  9. 25 апр 2016
    #6
    Taranis
    Taranis БанЗабанен
    В таком случае возникает вопрос. А для продвинутых будет продолжение по библиотекам Grab, Scrapy?
     
  10. 25 апр 2016
    #7
    Im MT
    Im MT МодерМодератор Команда форума
    Если будет интерес, то почему нет
     
    2 пользователям это понравилось.
  11. 26 апр 2016
    #8
    DragonFlame
    DragonFlame ОргОрганизатор (П)
    Проверяющая, вообще не знакомая с Python, но немного знакомая с программированием на других языках, нужна?) Заодно могу оценить доходчивость материала с женской точки зрения :)
     
    1 человеку нравится это.
  12. 26 апр 2016
    #9
    leoy89
    leoy89 ЧКЧлен клуба
    класссно скорей бы)
     
    2 пользователям это понравилось.
  13. 27 апр 2016
    #10
    analytic
    analytic ОргОрганизатор (А)
    Времени к сожалению -мало (чтобы быть проверяющим)...поэтому задам вопрос как участник -
    будет только функционал парсинга или можно будет сделать полноценного бота - авторизация, хождение по страницам, сохранение данных в файл и т.п.?
     
  14. 27 апр 2016
    #11
    Im MT
    Im MT МодерМодератор Команда форума
    Полностью, и авторизация, и брожение, и сохранение данных.
     
    3 пользователям это понравилось.
  15. 27 апр 2016
    #12
    analytic
    analytic ОргОрганизатор (А)
    Ваш прогноз - когда ориентировочно будет старт складчины?
     
  16. 29 апр 2016
    #13
    pensionary
    pensionary ОргОрганизатор (А)
    Если что - то я тоже в проверяющие

    ЗЫ обычно такие вещи делал пхп курл и все такое, поэтому интересно освоить альтернативные методы
     
    3 пользователям это понравилось.
  17. 11 май 2016
    #14
    Im MT
    Im MT МодерМодератор Команда форума
    Добавил информацию о бонусах,
    и легкий пример будущего загрузчика.

    Уже совсем скоро вышлю проверяющим экземпляры для отзыва.
     
    2 пользователям это понравилось.
  18. 11 май 2016
    #15
    Linuxfellow
    Linuxfellow ОргОрганизатор
    Интересные бонусы, добавляйте складчину в подпись :)
     
    1 человеку нравится это.
  19. 13 май 2016
    #16
    gillmor
    gillmor ДолжникДолжник
    Grab было бы очень интересно. Особенно если более глубокое повествование присутствовало, ну или складчина была бы дополнительная. А будут такие моменты рассмотрены как двухфакторная авторизация и работа с капчей?
     
    2 пользователям это понравилось.
  20. 13 май 2016
    #17
    Im MT
    Im MT МодерМодератор Команда форума
    Каптчи здесь не будет :) Она хорошо впишется в продолжение... Но рано об этом.

    А вот о двухфакторной авторизации, как таковой о ней сказано не будет или будет пару слов. В ней нет ничего не обычного или сложного.
    По свой структуре, она как обычная авторизация. Сначала делаем запрос с данными авторизации, далее в зависимости от типа второго фактора (смс/звонок/аутентификатор) вводим код и отправляем его со вторым запросом.

    В руководстве будут описаны моменты, как определить куда и какие запросы нужно отправлять и что при этом важно учитывать, поскольку курс основан на примере сайта линда, то основное будет показано на нем, но отдельно еще расскажу (без реализации) с какими необычными авторизациями можно встретиться.
     
  21. 17 май 2016
    #18
    Шанита Дэвис
    Шанита Дэвис БанЗабанен
    Можно ли попросить рассмотреть в курсе такой вопрос как создание бота
    1. Файл аккаунты, в котором несколько аккаунтов
    2. Файл с url
    Робот авторизируется по первому аккаунту и переходит по url, если находит на странице нужную строку выполняет действие, если не находит то переходит к следующему url

    И отдельно, робот прошел по страницам и сделал скриншоты экранов (это хотелось для сервиса тестирование сделать) и записл скорость загрузки страницы.


    Спасибо
     
    2 пользователям это понравилось.
  22. 18 май 2016
    #19
    Im MT
    Im MT МодерМодератор Команда форума
    По срокам так,
    в конце недели выдам на проверку материал,
    надеюсь, что за неделю материал будет проверен и в конце месяца запустимся :)
     
    3 пользователям это понравилось.
  23. 20 май 2016
    #20
    yuraB
    yuraB БанЗабанен
    не совсем понял: парсер делает клон сайта ,выкачивая все данные? Выкачивает ли парсер данные без факта платной подписки на них или нужно провести подписку? Напр.
     
    Последнее редактирование модератором: 20 май 2016
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей