4.88889/5, Отзывов: 9
Закрыто

[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Тема в разделе "Программирование", создана пользователем Booba, 26 авг 2015.

Цена: 15228р.
Взнос: 167р.
107%

Основной список: 105 участников

Резервный список: 14 участников

Статус обсуждения:
Комментирование ограничено.
  1. 26 авг 2015
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    [O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

    Собираем на перевод
    [O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

    web_scrapping_python.jpg

    Перспективное направление в вебе !!!

    Авторы: O'Reilly Media
    Оригинальное название: Web Scraping with Python
    Автор: Ryan Mitchell
    Год издания: July 24, 2015
    Кол. стр.: 256
    Переводчик Gewissta

    Описание:
    Что такое веб-скрапинг?
    Автоматизированный сбор данных из Интернета существует столько же, сколько сам Интернет. Несмотря на то, что веб-скрапинг (web scraping) не является новым термином, раньше это направление было больше известно под названием анализ экранных или интерфейсных данных (screen scraping), интеллектуальный анализ данных (data mining), сбор веб-данных (web harvesting). Похоже, что на сегодняшний день общее мнение склоняется в пользу термина веб-скрапинг (web scraping), который я и буду использовать на протяжении всей книги, хотя время от времени буду называть программы веб-скрапинга роботами (bots). В теории веб-скрапинг – это сбор данных с помощью любых средств, кроме программ, использующих API (или человека, использующего веб-браузер).
    Чаще всего веб-скрапинг осуществляется с помощью программы, которая автоматически запрашивает веб-сервер, запрашивает данные (HTML и другие файлы, которые размещены на веб-страницах), а затем выполняет парсинг этих данных, чтобы извлечь необходимую информацию. На практике веб-скрапинг охватывает широкий спектр методов и технологий программирования, таких, как анализ данных и информационная безопасность. Эта книга посвящена основам веб-скрапинга и краулинга (Часть I) и раскрывает некоторые сложные темы (Часть II).
    Зачем нужен веб-скрапинг?
    Если для Вас единственным способом доступа к Интернету является браузер, Вы теряете огромный спектр возможностей. Хотя браузеры удобны для выполнения JavaScript, вывода изображений и представления объектов в более удобочитаемом формате (помимо прочего), веб-скраперы удобны для сбора и обработки больших объемов данных (помимо прочего). Вместо однократного просмотра одной страницы на дисплее монитора, Вы можете просматривать базы данных, которые уже содержат тысячи или даже миллионы страниц.
    Кроме того, веб-скраперы могут проникнуть в такие места, куда традиционные поисковые системы проникнуть не могут. Поиск Google по "cheapest flights to Boston" выдаст множество рекламных сайтов и популярных сайтов заказа авиабилетов. Google возвращает лишь то, что эти веб-сайты сообщают на своих страницах, а не точные результаты в ответ на различные запросы, введенные в системе заказа авиабилетов. Тем не менее правильно разработанный веб-скрапер может собрать данные о ценах на авиабилеты до Бостона за определенный временной интервал на различных веб-сайтах и подсказать оптимальное время для покупки авиабилета.


    Демо перевода и оформления текста
    [​IMG]
     
    Последнее редактирование модератором: 21 мар 2016
    3 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Юрий73 не участвует.
      7 июл 2017
    2. skladchik.com
      veter1206 не участвует.
      7 июл 2017
    3. skladchik.com
      Web_programmer1992 не участвует.
      7 июл 2017
    4. skladchik.com
      krakina не участвует.
      7 июл 2017

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      5 апр 2016
    2. skladchik.com
      Взнос составляет 167р.
      25 мар 2016
    3. skladchik.com
      Складчина активна.
      25 мар 2016
    4. skladchik.com
      Сбор взносов начинается 25.03.2016.
      23 мар 2016
  3. Отзывы участников

    4.88889/5,
    • 5/5,
      Работой организатора доволен
      Огромное спасибо. Переводчик справился с задачей на "отлично". Книга сама по себе очень интересная. Описывается всё самое нужное для парсинга с примерами и объяснениями. Узнала очень много нового для себя. Появилось понимание куда и как двигаться дальше в этой сфере с использованием этого языка(или др.-х).
      5 апр 2016
    • 5/5,
      Работой организатора доволен
      Спасибо, за организацию. Материал очень нужный и достойный. Переводчику огромная благодарность за работу. Форматирование, конечно, на будущее, можно и по лучше сделать. А так все отлично.
      4 апр 2016
    • 5/5,
      Работой организатора доволен
      Перевод ОТЛИЧНЫЙ!!! форматирование не совсем удачное, но это фигня не критично и не важно.
      4 апр 2016
    • 5/5,
      Работой организатора доволен
      Очень благодарен за материал и отлично проведенную складчину!
      30 мар 2016
    • 5/5,
      Работой организатора доволен
      Материал отличный, мне перевод понравился. Организатору спасибо за складчину и за дополнительный материал в виде PDF книги в оригинале.
      30 мар 2016
    • 5/5,
      Работой организатора доволен
      быстро и четко
      30 мар 2016
    • 5/5,
      Работой организатора доволен
      Долго ждал перевод. Поможет в дальнейшем понимании. В книге есть ошибки (или изменения) в коде, поэтому надо смотреть оригинал. Организация нормальная. К сожалению в книге нет оглавления как в оригинале.
      30 мар 2016
    • 4/5,
      Работой организатора доволен
      Книга полезная, перевод прекрасен, но скверное оформление перевода - шрифты, абзацы, отступы... :(
      Если можно, выложите текстовые исходники.
      30 мар 2016
    • 5/5,
      Работой организатора доволен
      Спасибо оргу за проведение. А переводчику за работу. Материал отличный, уже пробую применять.
      29 мар 2016
  4. Обсуждение
  5. 31 авг 2015
    #2
    ZopZopel
    ZopZopel ЧКЧлен клуба
    Полистайте сперва книгу. Что и зачем там переводить? Всё и так понятно же. Эта книга не заменит официальной документации или видео-уроков по теме.
    Говорю, как программист, который сделал более сотни проектов, используя grablib и scrapy.
     
  6. 31 авг 2015
    #3
    Monogatari
    Monogatari ЧКЧлен клуба
    Так можно вообще никакие инфопродукты не переводить :). Я вот для массовки записался. Пусть будет.
     
    1 человеку нравится это.
  7. 2 окт 2015
    #4
    Monogatari
    Monogatari ЧКЧлен клуба
    Предлагаю заменить название в заголовке и в первом сообщении на:
    [O'Reilly Media] Парсинг веб-сайтов, используя Python [2015]

    Также желательно перевести описание и содержание на русский язык.
     
    1 человеку нравится это.
  8. 2 окт 2015
    #5
    Argus
    Argus БанЗабанен
    Переведи и отправь админам через тикет
     
  9. 2 ноя 2015
    #6
    Gewissta
    Gewissta БанЗабанен
    Я бы перевел "Скрапинг веб-сайтов с помощью Python". В английском разница между скрапингом и парсингом довольно четкая, на русском из-за ошибок, недосмотров переводчиков как всегда разброд и шатание. Парсинг - синтаксический разбор, скрапинг - вытягивание HTML с веб-сайта и нахождение внутри него нужных кусков информации по заданным правилам.Скрапер помимо прочего включает в себя парсер HTML. То есть скрапинг - это более широкое понятие, включающее в т.ч. и парсинг.
    По Питону планируем еще перевести Python Data Science Handbook
     
  10. 3 ноя 2015
    #7
    Monogatari
    Monogatari ЧКЧлен клуба
    Как правильно и кратко перевести название складчины (Web Scraping with Python)?
    По Python Data Science Handbook будете создавать складчину?
     
  11. 3 ноя 2015
    #8
    Gewissta
    Gewissta БанЗабанен
    Так бы и перевел "Скрапинг веб-сайтов с помощью Python".
    Нет, наверное. Обе книги, независимо от того, состоится складчина или нет, будут переведены, потому что лично нашей компании это нужно. С 15 ноября начнем переводить "Скрапинг". ДМК Пресс, кстати, не планирует перевод "Скрапинг веб-сайтов с помощью Python", было общение с ними.
     
  12. 3 ноя 2015
    #9
    gillmor
    gillmor ДолжникДолжник
    А нам сюда на складчину копию закинете? Вам ведь все равно переводить, а так еще и денюшку получите.
     
    2 пользователям это понравилось.
  13. 5 ноя 2015
    #10
    Gewissta
    Gewissta БанЗабанен
    Да, разумеется.
     
    2 пользователям это понравилось.
  14. 13 ноя 2015
    #11
    Markus
    Markus ЧКЧлен клуба
    Парни, если кто собирается читать, во-первых автор женщина , а во вторых книга содержит ошибки на уровне языка питона.
     
  15. 13 ноя 2015
    #12
    mifik
    mifik ЧКЧлен клуба
    например?
     
  16. 13 ноя 2015
    #13
    gillmor
    gillmor ДолжникДолжник
    Ну то, что женщина не пугает ни капли. Есть масса примеров очень талантливых женщин программистов. А вот про ошибки, хотелось бы увидеть пример.
     
    2 пользователям это понравилось.
  17. 13 ноя 2015
    #14
    Markus
    Markus ЧКЧлен клуба
    Например, автор не знает как использовать оператор проверки NoneType (это как бы намекает о квалификации питониста)...
     
  18. 13 ноя 2015
    #15
    Monogatari
    Monogatari ЧКЧлен клуба
    Вас попросили привести пример.
     
    2 пользователям это понравилось.
  19. 27 янв 2016
    #16
    Gewissta
    Gewissta БанЗабанен
    Перевод движется. Закончил пятую главу. Идет медленнее, потому что помимо перевода еще и ошибки исправляешь. В общем, девушка либо не понимает, либо забывает, в чем разница между header и title,

    All titles (on all pages, regardless of their status as an article page, an edit history page, or any other page) have titles under h1→span tags, and these are the only h1 tags on the page...

    That is, the <h1> title tag appears on every page...

    И это самое безобидное.

    Вот как автор описывает работу интернета.
    Bob’s computer sends along a stream of 1 and 0 bits, indicated by high and low voltages on a wire. These bits form some information, containing a header and body. The header contains an immediate destination of his local router’s MAC address, with a final destination of Alice’s IP address. The body contains his request for Alice’s server application.
    В оригинале смешались в кучу кони, люди. MAC адрес и IP адрес - они вообще на разных уровнях абстракции. Про напряжение тоже лихо, в каком-нибудь WiFi или WiMax дело не просто в напряжении.
    В общем, берешь и пишешь свой совершенно новый текст и так иногда пол-страницы надо переделать.
    Запрос Боба разбит на фрагменты, к каждому фрагменту добавлен заголовок со служебной информацией (этим заведует протокол TCP). Передачей отдельных фрагментов от компьютера Боба до компьютера Алисы заведует протокол IP.


    Или еще
    POST is what you use when you fill out a form, or submit information, presumably to a backend script on the server.
    Оставил, как есть. Но про backend script (программа, которую сервер выполняет в ответ на HTTP запрос GET, POST, PUT или DELETE) - это сильно устарелая информация, сейчас это обычно не отдельная программа.

    Скорее всего, будет две версии, для издательства и внутренняя, для наших сотрудников, потому что многие вещи даются пунктирно, например, описание работы со Scrapy и работа Python в связке с MySQL.
     
    3 пользователям это понравилось.
  20. 28 янв 2016
    #17
    definet
    definet ЧКЧлен клуба
    А по-моему у автора книги всё правильно написано в этом случае. Из Я.Словари:
    title
    заглавие, название, наименование
    full title — полное название
    the title of a book — название книги
    as the title indicates /suggests/ ... — как показывает название (книги и т. п.) ...
    title of the document — название документа
    header
    информ. верхний колонтитул; заголовок; см. тж. footer
    clear header — открытый (незашифрованный) заголовок (сообщения)
    message header — заголовок сообщения
    protected header — защищенный (зашифрованный) заголовок (сообщения)
    То есть, title по смыслу имеет отношение именно к заголовку статьи/книги. А header по смыслу имеет отношение к служебной информации, разметке. Автор же имеет ввиду именно заголовок статьи, то есть title. Нужно спарсить заголовок статьи. Вот и употребляет именно это слово.
     
  21. 28 янв 2016
    #18
    definet
    definet ЧКЧлен клуба
    Почитал ещё твои комментарии к этой книге. Со следующим тоже не согласен.
    Опять же, из Я.Словари:
    from
    указывает на источник или происхождение от, из

    a quotation from Tolstoy — цитата из Толстого

    Толстой был человеком, в нём самом не было никаких цитат. Они взяты из его произведений. То есть у Толстого были произведения и из них уже взяты цитаты. Что-то вроде сокращённого варианта: "Цитаты из произведений Толстого". Так и с доменным именем.
    Оговорюсь, я не считаю себя великим знатоком английского. Однако, не в обиду, но по-моему косяки не у автора книги, а у переводчика с пониманием английского. Есть, конечно, вариант, что это у меня косяки с английским :) Но тогда интересно узнать, в чём именно я неправ.
     
  22. 28 янв 2016
    #19
    Gewissta
    Gewissta БанЗабанен
    Я привык так:
    upload_2016-1-28_12-33-47.png

    В общем, если б девушка написала
    h1 header tag

    или

    All headers (on all pages, regardless of their status as an article page, an edit history page, or any other page) have headers under h1→span tags

    мне было бы понятно, потому что h - первая буква header. Ведь речь о заголовках, предназначенных для структуризации контента на странице (headers).

    Вот здесь, например, речь как раз идет о названиях страниц (titles).
    Notice that, unlike with previous crawlers that print the title of the page, I’m not even storing the title of the page in the pages table. Why is that? Well, recording the title of the page requires that you actually visit the page to retrieve it.
     

    Вложения:

  23. 28 янв 2016
    #20
    Gewissta
    Gewissta БанЗабанен
    Много текста. По существу, ну и где в доменном имени html? :) Наверно, все-таки Retrieving HTML data from a domain.
     
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей