5/5, Голосов: 2
Закрыто

Создаем парсер на Python

Тема в разделе "Дизайн и креатив", создана пользователем Im MT, 24 апр 2016.

Метки:
Цена: 22394р.
Взнос: 199р.
100%

Основной список: 119 участников

Резервный список: 2 участников

Статус темы:
Закрыта.
    1. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Приветствую!

      О чем эта складчина?
      В сети все больше и больше появляются сайты с курсами, презентациями и прочим обучающем и развлекающим контентом. Все это работает по системе подписки. Что порою совсем не выгодно, учитывая кол-во курсов и ограниченное время. Единственное, что остается - выкачать курсы для просмотра оффлайн. Но в 99% случаях ресурсы не дают этого сделать человеческим способом, а скачивать вручную процесс достаточно долгкий, особенно если курсы исчисляются тысячами, как на lynda.com. Поэтому необходимо автоматизировать процесс.

      В этой складчине мы рассмотрим процесс создании парсера на python. Именно такие парсеры работают на складчинах lynda.com, safari books, linuxacademy, cartoonsmart и т.д. В качестве примера рассмотрим сайт lynda.com и сделаем функциональный загрузчик курсов.

      Для кого эта складчина?
      Складчина рассчитана на людей с начальным уровнем программирования. Синтаксис питона достаточно прост, поэтому на нем внимание заострено не будет. Но подробно разберем необходимые нам библиотеки, как встроенные, так и внешние.

      Но... в интернете есть большое количество бесплатных уроков...
      Да, это так. Но, к сожалению, человеку который никогда не сталкивался с парсерами, открытые уроки мало чем помогут. В них описан процесс парсинга сферического сайта в вакууме, например, википедии, достаточно простых страниц. Этого достаточно, чтобы получить данные о курсах валют или погоду своего города, но недостаточно, чтобы выгружать курсы и проходить защиты ресурсов.

      Что полезного в этом курсе?
      • Мы построим полноценное консольное приложение от и до.
      • Научимся работать с аргументами консольного приложения и напишем различные настройки под разные случаи парсинга.
      • Рассмотрим авторизацию, и какие сюрпризы нам могут преподнести.
      • Вскроем страницы и узнаем, как достать нужную нам информацию.
      • Напишем простой, но эффективный менеджер загрузок
      • Поработаем с файловой системой
      • Изучим альтернативные способы парсинга
      • Домашнее задание с поддержкой
      • и много других мелочей

      Бонусы
      50 складчиков - загручик субтитров lynda.com
      100 складчиков - методы борьбы с drm стримингом на примере linuxacademy + использование внешних загрузчиков (аля ffmpeg)
      150 складчиков - полноценный пример парсера для linuxacademy


      Формат: текстовый
      Стоимость: 199 руб.

      Внимание! В рамках данного курса не предусмотрена поддержка по установке и настройке python.

      lynda.gif
       
      Последнее редактирование: 11 май 2016
      15 пользователям это понравилось.
    2. Последние события

      1. Растаман

        Растаман оставил отзыв "Отлично".

        29 июн 2016
      2. skladchik.com

        Складчина закрыта.

        28 июн 2016
      3. skladchik.com

        Roman_22 не участвует в складчине.

        26 июн 2016
      4. skladchik.com

        Осталось 5 дней до завершения складчины.

        23 июн 2016

      Последние важные события

      1. skladchik.com

        Складчина закрыта.

        28 июн 2016
      2. skladchik.com

        Осталось 5 дней до завершения складчины.

        23 июн 2016
      3. skladchik.com

        Складчина активна.

        18 июн 2016
      4. skladchik.com

        Сбор взносов начинается 18.06.2016.

        16 июн 2016
    3. Taranis

      Taranis Taranis БанЗабанен

      Какая библиотека будет рассматриваться, Grab или Scrapy?
       
    4. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Grab, будет отдельная глава, в которой расскажу, как можно было бы переписать часть кода отвечающего за парсинг, на нем.
      Но, основная линия будет по более простым библиотекам, по той причине, что курс рассчитан на тех, кто мало знаком с python (или вообще с ним не знаком). Им разобраться с grab будет несколько тяжело.
       
      2 пользователям это понравилось.
    5. Милославский

      Милославский Милославский ОргОрганизатор (А)

      Im MT, проверяющие нужны? Питон на уровне (мои решения по меткам на нем)
       
      1 человеку нравится это.
    6. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Да, нужны!
      Хорошо, как все будет готово - вышлю :)
       
      3 пользователям это понравилось.
    7. Taranis

      Taranis Taranis БанЗабанен

      В таком случае возникает вопрос. А для продвинутых будет продолжение по библиотекам Grab, Scrapy?
       
    8. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Если будет интерес, то почему нет
       
      2 пользователям это понравилось.
    9. DragonFlame

      DragonFlame DragonFlame ОргОрганизатор (П)

      Проверяющая, вообще не знакомая с Python, но немного знакомая с программированием на других языках, нужна?) Заодно могу оценить доходчивость материала с женской точки зрения :)
       
      1 человеку нравится это.
    10. leoy89

      leoy89 leoy89 ЧКЧлен клуба

      класссно скорей бы)
       
      2 пользователям это понравилось.
    11. Monogatari

      Monogatari Monogatari ЧКЧлен клуба

      [InfiniteSkills] Продвинутый Python: Сеть и безопасность. Часть 1 [2014]
      [InfiniteSkills] Продвинутый Python: Сеть и безопасность. Часть 2 [2014]
      [InfiniteSkills] Продвинутый Python: Сеть и безопасность. Часть 3 [2014]
      Одна из глав курса:
      5. Скрипты безопасности
      • Многопоточное тестирование сети
      • Создание альтернативных потоков данных
      • Нечеткое тестирование на Python
      • Отладка с помощью Python
      • Стеганография с Stepic (Python image steganography - python-stepic) (Стеганогра́фия — способ передачи или хранения информации с учётом сохранения в тайне самого факта такой передачи)
      • Шифрование и дешифрование данных
      • Скрытие зашифрованных данных с помощью стеганографии
      • Взаимодействие с MySQL
      • Воспроизведение сетевого трафика
       
    12. analytic

      analytic analytic ОргОрганизатор (А)

      Времени к сожалению -мало (чтобы быть проверяющим)...поэтому задам вопрос как участник -
      будет только функционал парсинга или можно будет сделать полноценного бота - авторизация, хождение по страницам, сохранение данных в файл и т.п.?
       
    13. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Полностью, и авторизация, и брожение, и сохранение данных.
       
      3 пользователям это понравилось.
    14. analytic

      analytic analytic ОргОрганизатор (А)

      Ваш прогноз - когда ориентировочно будет старт складчины?
       
    15. pensionary

      pensionary pensionary МодерМодератор Команда форума

      Если что - то я тоже в проверяющие

      ЗЫ обычно такие вещи делал пхп курл и все такое, поэтому интересно освоить альтернативные методы
       
      3 пользователям это понравилось.
    16. Caligula Rue

      Caligula Rue Caligula Rue БанЗабанен

    17. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Добавил информацию о бонусах,
      и легкий пример будущего загрузчика.

      Уже совсем скоро вышлю проверяющим экземпляры для отзыва.
       
      2 пользователям это понравилось.
    18. Linuxfellow

      Linuxfellow Linuxfellow ОргОрганизатор

      Интересные бонусы, добавляйте складчину в подпись :)
       
      1 человеку нравится это.
    19. gillmor

      gillmor gillmor ЧКЧлен клуба

      Grab было бы очень интересно. Особенно если более глубокое повествование присутствовало, ну или складчина была бы дополнительная. А будут такие моменты рассмотрены как двухфакторная авторизация и работа с капчей?
       
      2 пользователям это понравилось.
    20. Im MT

      Im MT Im MT МодерМодератор Команда форума

      Каптчи здесь не будет :) Она хорошо впишется в продолжение... Но рано об этом.

      А вот о двухфакторной авторизации, как таковой о ней сказано не будет или будет пару слов. В ней нет ничего не обычного или сложного.
      По свой структуре, она как обычная авторизация. Сначала делаем запрос с данными авторизации, далее в зависимости от типа второго фактора (смс/звонок/аутентификатор) вводим код и отправляем его со вторым запросом.

      В руководстве будут описаны моменты, как определить куда и какие запросы нужно отправлять и что при этом важно учитывать, поскольку курс основан на примере сайта линда, то основное будет показано на нем, но отдельно еще расскажу (без реализации) с какими необычными авторизациями можно встретиться.
       
    21. Шанита Дэвис

      Шанита Дэвис Шанита Дэвис БанЗабанен

      Можно ли попросить рассмотреть в курсе такой вопрос как создание бота
      1. Файл аккаунты, в котором несколько аккаунтов
      2. Файл с url
      Робот авторизируется по первому аккаунту и переходит по url, если находит на странице нужную строку выполняет действие, если не находит то переходит к следующему url

      И отдельно, робот прошел по страницам и сделал скриншоты экранов (это хотелось для сервиса тестирование сделать) и записл скорость загрузки страницы.


      Спасибо
       
      2 пользователям это понравилось.
    1. Растаман
      5/5,
      Организацией складчины доволен
      Действительно качественный и разжеванный материал по созданию собственного парсера на практике.
      Все базовые вещи грамотно и структурированно разобраны в методичке. Однозначно полезные знания для создания гибких самописных подручных средств.
      Спасибо за складчину, теперь есть мотивация по-глубже поковырять Python. Жду более продвинутых продолжений!
      3 пользователям это понравилось.
    2. OlegSPb
      5/5,
      Организацией складчины доволен
      Спасибо за материал!
      Особенно порадовал разбор сложных моментов авторизации. И вообще текст радует частыми разъяснениями различных аспектов парсинга/скрапинга.
      Рекомендации: если будете делать подобные примеры в будущем, пожалуйста, пишите комментарии в файле исходников.
      2 пользователям это понравилось.
Статус темы:
Закрыта.

Поделиться этой страницей