4.89/5, Голосов: 9
Закрыто

[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Тема в разделе "Программирование", создана пользователем Booba, 26 авг 2015.

Цена: 15228р.
Взнос: 167р.
100%

Основной список: 105 участников

Резервный список: 14 участников

Статус темы:
Закрыта.
    1. Booba

      Booba БанЗабанен

      Собираем на перевод
      [O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

      web_scrapping_python.jpg

      Перспективное направление в вебе !!!

      Авторы: O'Reilly Media
      Оригинальное название: Web Scraping with Python
      Автор: Ryan Mitchell
      Год издания: July 24, 2015
      Кол. стр.: 256
      Переводчик Gewissta

      Описание:
      Что такое веб-скрапинг?
      Автоматизированный сбор данных из Интернета существует столько же, сколько сам Интернет. Несмотря на то, что веб-скрапинг (web scraping) не является новым термином, раньше это направление было больше известно под названием анализ экранных или интерфейсных данных (screen scraping), интеллектуальный анализ данных (data mining), сбор веб-данных (web harvesting). Похоже, что на сегодняшний день общее мнение склоняется в пользу термина веб-скрапинг (web scraping), который я и буду использовать на протяжении всей книги, хотя время от времени буду называть программы веб-скрапинга роботами (bots). В теории веб-скрапинг – это сбор данных с помощью любых средств, кроме программ, использующих API (или человека, использующего веб-браузер).
      Чаще всего веб-скрапинг осуществляется с помощью программы, которая автоматически запрашивает веб-сервер, запрашивает данные (HTML и другие файлы, которые размещены на веб-страницах), а затем выполняет парсинг этих данных, чтобы извлечь необходимую информацию. На практике веб-скрапинг охватывает широкий спектр методов и технологий программирования, таких, как анализ данных и информационная безопасность. Эта книга посвящена основам веб-скрапинга и краулинга (Часть I) и раскрывает некоторые сложные темы (Часть II).
      Зачем нужен веб-скрапинг?
      Если для Вас единственным способом доступа к Интернету является браузер, Вы теряете огромный спектр возможностей. Хотя браузеры удобны для выполнения JavaScript, вывода изображений и представления объектов в более удобочитаемом формате (помимо прочего), веб-скраперы удобны для сбора и обработки больших объемов данных (помимо прочего). Вместо однократного просмотра одной страницы на дисплее монитора, Вы можете просматривать базы данных, которые уже содержат тысячи или даже миллионы страниц.
      Кроме того, веб-скраперы могут проникнуть в такие места, куда традиционные поисковые системы проникнуть не могут. Поиск Google по "cheapest flights to Boston" выдаст множество рекламных сайтов и популярных сайтов заказа авиабилетов. Google возвращает лишь то, что эти веб-сайты сообщают на своих страницах, а не точные результаты в ответ на различные запросы, введенные в системе заказа авиабилетов. Тем не менее правильно разработанный веб-скрапер может собрать данные о ценах на авиабилеты до Бостона за определенный временной интервал на различных веб-сайтах и подсказать оптимальное время для покупки авиабилета.


      Демо перевода и оформления текста
      [​IMG]
       
      Последнее редактирование модератором: 21 мар 2016
      3 пользователям это понравилось.
    2. Последние события

      1. skladchik.com

        Юрий73 не участвует в складчине.

        7 июл 2017
      2. skladchik.com

        veter1206 не участвует в складчине.

        7 июл 2017
      3. skladchik.com

        Web_programmer1992 не участвует в складчине.

        7 июл 2017
      4. skladchik.com

        krakina не участвует в складчине.

        7 июл 2017

      Последние важные события

      1. skladchik.com

        Складчина закрыта.

        5 апр 2016
      2. skladchik.com

        Осталось 5 дней до завершения складчины.

        29 мар 2016
      3. skladchik.com

        Взнос в складчине составляет 167р.

        25 мар 2016
      4. skladchik.com

        Складчина активна.

        25 мар 2016
    3. ZopZopel

      ZopZopel СкладчикСкладчик

      Полистайте сперва книгу. Что и зачем там переводить? Всё и так понятно же. Эта книга не заменит официальной документации или видео-уроков по теме.
      Говорю, как программист, который сделал более сотни проектов, используя grablib и scrapy.
       
    4. Monogatari

      Monogatari ЧКЧлен клуба

      Так можно вообще никакие инфопродукты не переводить :). Я вот для массовки записался. Пусть будет.
       
      1 человеку нравится это.
    5. Monogatari

      Monogatari ЧКЧлен клуба

      Предлагаю заменить название в заголовке и в первом сообщении на:
      [O'Reilly Media] Парсинг веб-сайтов, используя Python [2015]

      Также желательно перевести описание и содержание на русский язык.
       
      1 человеку нравится это.
    6. Argus

      Argus БанЗабанен

      Переведи и отправь админам через тикет
       
    7. Gewissta

      Gewissta БанЗабанен

      Я бы перевел "Скрапинг веб-сайтов с помощью Python". В английском разница между скрапингом и парсингом довольно четкая, на русском из-за ошибок, недосмотров переводчиков как всегда разброд и шатание. Парсинг - синтаксический разбор, скрапинг - вытягивание HTML с веб-сайта и нахождение внутри него нужных кусков информации по заданным правилам.Скрапер помимо прочего включает в себя парсер HTML. То есть скрапинг - это более широкое понятие, включающее в т.ч. и парсинг.
      По Питону планируем еще перевести Python Data Science Handbook
       
    8. Monogatari

      Monogatari ЧКЧлен клуба

      Как правильно и кратко перевести название складчины (Web Scraping with Python)?
      По Python Data Science Handbook будете создавать складчину?
       
    9. Gewissta

      Gewissta БанЗабанен

      Так бы и перевел "Скрапинг веб-сайтов с помощью Python".
      Нет, наверное. Обе книги, независимо от того, состоится складчина или нет, будут переведены, потому что лично нашей компании это нужно. С 15 ноября начнем переводить "Скрапинг". ДМК Пресс, кстати, не планирует перевод "Скрапинг веб-сайтов с помощью Python", было общение с ними.
       
    10. gillmor

      gillmor ЧКЧлен клуба

      А нам сюда на складчину копию закинете? Вам ведь все равно переводить, а так еще и денюшку получите.
       
      2 пользователям это понравилось.
    11. Gewissta

      Gewissta БанЗабанен

      Да, разумеется.
       
      2 пользователям это понравилось.
    12. Markus

      Markus ЧКЧлен клуба

      Парни, если кто собирается читать, во-первых автор женщина , а во вторых книга содержит ошибки на уровне языка питона.
       
    13. mifik

      mifik ЧКЧлен клуба

      например?
       
    14. gillmor

      gillmor ЧКЧлен клуба

      Ну то, что женщина не пугает ни капли. Есть масса примеров очень талантливых женщин программистов. А вот про ошибки, хотелось бы увидеть пример.
       
      2 пользователям это понравилось.
    15. Markus

      Markus ЧКЧлен клуба

      Например, автор не знает как использовать оператор проверки NoneType (это как бы намекает о квалификации питониста)...
       
    16. Monogatari

      Monogatari ЧКЧлен клуба

      Вас попросили привести пример.
       
      2 пользователям это понравилось.
    17. Gewissta

      Gewissta БанЗабанен

      Перевод движется. Закончил пятую главу. Идет медленнее, потому что помимо перевода еще и ошибки исправляешь. В общем, девушка либо не понимает, либо забывает, в чем разница между header и title,

      All titles (on all pages, regardless of their status as an article page, an edit history page, or any other page) have titles under h1→span tags, and these are the only h1 tags on the page...

      That is, the <h1> title tag appears on every page...

      И это самое безобидное.

      Вот как автор описывает работу интернета.
      Bob’s computer sends along a stream of 1 and 0 bits, indicated by high and low voltages on a wire. These bits form some information, containing a header and body. The header contains an immediate destination of his local router’s MAC address, with a final destination of Alice’s IP address. The body contains his request for Alice’s server application.
      В оригинале смешались в кучу кони, люди. MAC адрес и IP адрес - они вообще на разных уровнях абстракции. Про напряжение тоже лихо, в каком-нибудь WiFi или WiMax дело не просто в напряжении.
      В общем, берешь и пишешь свой совершенно новый текст и так иногда пол-страницы надо переделать.
      Запрос Боба разбит на фрагменты, к каждому фрагменту добавлен заголовок со служебной информацией (этим заведует протокол TCP). Передачей отдельных фрагментов от компьютера Боба до компьютера Алисы заведует протокол IP.


      Или еще
      POST is what you use when you fill out a form, or submit information, presumably to a backend script on the server.
      Оставил, как есть. Но про backend script (программа, которую сервер выполняет в ответ на HTTP запрос GET, POST, PUT или DELETE) - это сильно устарелая информация, сейчас это обычно не отдельная программа.

      Скорее всего, будет две версии, для издательства и внутренняя, для наших сотрудников, потому что многие вещи даются пунктирно, например, описание работы со Scrapy и работа Python в связке с MySQL.
       
      3 пользователям это понравилось.
    18. definet

      definet ЧКЧлен клуба

      А по-моему у автора книги всё правильно написано в этом случае. Из Я.Словари:
      title
      заглавие, название, наименование
      full title — полное название
      the title of a book — название книги
      as the title indicates /suggests/ ... — как показывает название (книги и т. п.) ...
      title of the document — название документа
      header
      информ. верхний колонтитул; заголовок; см. тж. footer
      clear header — открытый (незашифрованный) заголовок (сообщения)
      message header — заголовок сообщения
      protected header — защищенный (зашифрованный) заголовок (сообщения)
      То есть, title по смыслу имеет отношение именно к заголовку статьи/книги. А header по смыслу имеет отношение к служебной информации, разметке. Автор же имеет ввиду именно заголовок статьи, то есть title. Нужно спарсить заголовок статьи. Вот и употребляет именно это слово.
       
    19. definet

      definet ЧКЧлен клуба

      Почитал ещё твои комментарии к этой книге. Со следующим тоже не согласен.
      Опять же, из Я.Словари:
      from
      указывает на источник или происхождение от, из

      a quotation from Tolstoy — цитата из Толстого

      Толстой был человеком, в нём самом не было никаких цитат. Они взяты из его произведений. То есть у Толстого были произведения и из них уже взяты цитаты. Что-то вроде сокращённого варианта: "Цитаты из произведений Толстого". Так и с доменным именем.
      Оговорюсь, я не считаю себя великим знатоком английского. Однако, не в обиду, но по-моему косяки не у автора книги, а у переводчика с пониманием английского. Есть, конечно, вариант, что это у меня косяки с английским :) Но тогда интересно узнать, в чём именно я неправ.
       
    20. Gewissta

      Gewissta БанЗабанен

      Я привык так:
      upload_2016-1-28_12-33-47.png

      В общем, если б девушка написала
      h1 header tag

      или

      All headers (on all pages, regardless of their status as an article page, an edit history page, or any other page) have headers under h1→span tags

      мне было бы понятно, потому что h - первая буква header. Ведь речь о заголовках, предназначенных для структуризации контента на странице (headers).

      Вот здесь, например, речь как раз идет о названиях страниц (titles).
      Notice that, unlike with previous crawlers that print the title of the page, I’m not even storing the title of the page in the pages table. Why is that? Well, recording the title of the page requires that you actually visit the page to retrieve it.
       

      Вложения:

    21. Gewissta

      Gewissta БанЗабанен

      Много текста. По существу, ну и где в доменном имени html? :) Наверно, все-таки Retrieving HTML data from a domain.
       
    1. Narniya
      5/5,
      Организацией складчины доволен
      Огромное спасибо. Переводчик справился с задачей на "отлично". Книга сама по себе очень интересная. Описывается всё самое нужное для парсинга с примерами и объяснениями. Узнала очень много нового для себя. Появилось понимание куда и как двигаться дальше в этой сфере с использованием этого языка(или др.-х).
    2. gillmor
      5/5,
      Организацией складчины доволен
      Спасибо, за организацию. Материал очень нужный и достойный. Переводчику огромная благодарность за работу. Форматирование, конечно, на будущее, можно и по лучше сделать. А так все отлично.
    3. MalishP
      5/5,
      Организацией складчины доволен
      Перевод ОТЛИЧНЫЙ!!! форматирование не совсем удачное, но это фигня не критично и не важно.
    4. Batareikin
      5/5,
      Организацией складчины доволен
      Очень благодарен за материал и отлично проведенную складчину!
    5. Zetterberg
      5/5,
      Организацией складчины доволен
      Материал отличный, мне перевод понравился. Организатору спасибо за складчину и за дополнительный материал в виде PDF книги в оригинале.
    6. qwe123u
      5/5,
      Организацией складчины доволен
      быстро и четко
    7. Nikol_2014
      5/5,
      Организацией складчины доволен
      Долго ждал перевод. Поможет в дальнейшем понимании. В книге есть ошибки (или изменения) в коде, поэтому надо смотреть оригинал. Организация нормальная. К сожалению в книге нет оглавления как в оригинале.
    8. OlegSPb
      4/5,
      Организацией складчины доволен
      Книга полезная, перевод прекрасен, но скверное оформление перевода - шрифты, абзацы, отступы... :(
      Если можно, выложите текстовые исходники.
    9. hedger
      5/5,
      Организацией складчины доволен
      Спасибо оргу за проведение. А переводчику за работу. Материал отличный, уже пробую применять.
Статус темы:
Закрыта.

Поделиться этой страницей