Войти или зарегистрироваться

: 4.88889/5, Отзывов: 9

Закрыто

[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Тема в разделе "Программирование", создана пользователем Booba, 26 авг 2015.

Цена: 15228р.

Взнос: 167р.

107%

+ Записаться

Основной список: 105 участников

Резервный список: 14 участников

Орг:

marussia

Авторы:

Gewissta

Тип: Авторская с гарантом

Статус обсуждения:: Комментирование ограничено.

Страница 1 из 2

26 авг 2015

#1

Топикстартер Член клуба

[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Собираем на перевод
[O'Reilly Media] Парсинг (Скрапинг) веб-сайтов, используя Python [2015]

Перспективное направление в вебе !!!

Авторы: O'Reilly Media
Оригинальное название: Web Scraping with Python
Автор: Ryan Mitchell
Год издания: July 24, 2015
Кол. стр.: 256
Переводчик Gewissta

Описание:
Что такое веб-скрапинг?
Автоматизированный сбор данных из Интернета существует столько же, сколько сам Интернет. Несмотря на то, что веб-скрапинг (web scraping) не является новым термином, раньше это направление было больше известно под названием анализ экранных или интерфейсных данных (screen scraping), интеллектуальный анализ данных (data mining), сбор веб-данных (web harvesting). Похоже, что на сегодняшний день общее мнение склоняется в пользу термина веб-скрапинг (web scraping), который я и буду использовать на протяжении всей книги, хотя время от времени буду называть программы веб-скрапинга роботами (bots). В теории веб-скрапинг – это сбор данных с помощью любых средств, кроме программ, использующих API (или человека, использующего веб-браузер).
Чаще всего веб-скрапинг осуществляется с помощью программы, которая автоматически запрашивает веб-сервер, запрашивает данные (HTML и другие файлы, которые размещены на веб-страницах), а затем выполняет парсинг этих данных, чтобы извлечь необходимую информацию. На практике веб-скрапинг охватывает широкий спектр методов и технологий программирования, таких, как анализ данных и информационная безопасность. Эта книга посвящена основам веб-скрапинга и краулинга (Часть I) и раскрывает некоторые сложные темы (Часть II).
Зачем нужен веб-скрапинг?
Если для Вас единственным способом доступа к Интернету является браузер, Вы теряете огромный спектр возможностей. Хотя браузеры удобны для выполнения JavaScript, вывода изображений и представления объектов в более удобочитаемом формате (помимо прочего), веб-скраперы удобны для сбора и обработки больших объемов данных (помимо прочего). Вместо однократного просмотра одной страницы на дисплее монитора, Вы можете просматривать базы данных, которые уже содержат тысячи или даже миллионы страниц.
Кроме того, веб-скраперы могут проникнуть в такие места, куда традиционные поисковые системы проникнуть не могут. Поиск Google по "cheapest flights to Boston" выдаст множество рекламных сайтов и популярных сайтов заказа авиабилетов. Google возвращает лишь то, что эти веб-сайты сообщают на своих страницах, а не точные результаты в ответ на различные запросы, введенные в системе заказа авиабилетов. Тем не менее правильно разработанный веб-скрапер может собрать данные о ценах на авиабилеты до Бостона за определенный временной интервал на различных веб-сайтах и подсказать оптимальное время для покупки авиабилета.

Скрытое содержимое.

Демо перевода и оформления текста

Похожие складчины

Открыто - [O'Reilly] Matplotlib — Python библиотека для визуализации данных - 2D, 3D. Часть 4

Открыто - [O'Reilly] Matplotlib — Python библиотека для визуализации данных - 2D, 3D. Часть 3

Открыто - [O'Reilly] Matplotlib — Python библиотека для визуализации данных - 2D, 3D. Часть 2

Открыто - [O'Reilly] Matplotlib — Python библиотека для визуализации данных - 2D, 3D. Часть 1

Открыто - [O'Reilly] SQLAlchemy — Python библиотека для работы с Oracle, MySQL, PostgreSQL и SQLite

Последнее редактирование модератором: 21 мар 2016

3 пользователям это понравилось.
Последние события
1. Юрий73 не участвует.
  7 июл 2017
2. veter1206 не участвует.
  7 июл 2017
3. Web_programmer1992 не участвует.
  7 июл 2017
4. krakina не участвует.
  7 июл 2017
Последние важные события
1. Складчина закрыта.
  5 апр 2016
2. Взнос составляет 167р.
  25 мар 2016
3. Складчина активна.
  25 мар 2016
4. Сбор взносов начинается 25.03.2016.
  23 мар 2016
Отзывы участников

4.88889/5,
- Narniya
  
  5/5,
  
  Работой организатора доволен
  Огромное спасибо. Переводчик справился с задачей на "отлично". Книга сама по себе очень интересная. Описывается всё самое нужное для парсинга с примерами и объяснениями. Узнала очень много нового для себя. Появилось понимание куда и как двигаться дальше в этой сфере с использованием этого языка(или др.-х).
  
  5 апр 2016
- gillmor
  
  5/5,
  
  Работой организатора доволен
  Спасибо, за организацию. Материал очень нужный и достойный. Переводчику огромная благодарность за работу. Форматирование, конечно, на будущее, можно и по лучше сделать. А так все отлично.
  
  4 апр 2016
- MalishP
  
  5/5,
  
  Работой организатора доволен
  Перевод ОТЛИЧНЫЙ!!! форматирование не совсем удачное, но это фигня не критично и не важно.
  
  4 апр 2016
- Batareikin
  
  5/5,
  
  Работой организатора доволен
  Очень благодарен за материал и отлично проведенную складчину!
  
  30 мар 2016
- Zetterberg
  
  5/5,
  
  Работой организатора доволен
  Материал отличный, мне перевод понравился. Организатору спасибо за складчину и за дополнительный материал в виде PDF книги в оригинале.
  
  30 мар 2016
- qwe123u
  
  5/5,
  
  Работой организатора доволен
  быстро и четко
  
  30 мар 2016
- Nikol_2014
  
  5/5,
  
  Работой организатора доволен
  Долго ждал перевод. Поможет в дальнейшем понимании. В книге есть ошибки (или изменения) в коде, поэтому надо смотреть оригинал. Организация нормальная. К сожалению в книге нет оглавления как в оригинале.
  
  30 мар 2016
- OlegSPb
  
  4/5,
  
  Работой организатора доволен
  Книга полезная, перевод прекрасен, но скверное оформление перевода - шрифты, абзацы, отступы... :(
  Если можно, выложите текстовые исходники.
  
  30 мар 2016
- hedger
  
  5/5,
  
  Работой организатора доволен
  Спасибо оргу за проведение. А переводчику за работу. Материал отличный, уже пробую применять.
  
  29 мар 2016
Обсуждение
31 авг 2015

#2

ZopZopel Член клуба

Полистайте сперва книгу. Что и зачем там переводить? Всё и так понятно же. Эта книга не заменит официальной документации или видео-уроков по теме.
Говорю, как программист, который сделал более сотни проектов, используя grablib и scrapy.
31 авг 2015

#3

Monogatari Член клуба

ZopZopel сказал(а): ↑

Полистайте сперва книгу. Что и зачем там переводить? Всё и так понятно же. Эта книга не заменит официальной документации или видео-уроков по теме.
Говорю, как программист, который сделал более сотни проектов, используя grablib и scrapy.
Нажмите, чтобы раскрыть...

Так можно вообще никакие инфопродукты не переводить . Я вот для массовки записался. Пусть будет.

1 человеку нравится это.
2 окт 2015

#4

Monogatari Член клуба

Предлагаю заменить название в заголовке и в первом сообщении на:
[O'Reilly Media] Парсинг веб-сайтов, используя Python [2015]

Также желательно перевести описание и содержание на русский язык.

1 человеку нравится это.
2 окт 2015

#5

Argus Забанен

Monogatari сказал(а): ↑

Предлагаю заменить название в заголовке и в первом сообщении на:
[O'Reilly Media] Парсинг веб-сайтов, используя Python [2015]

Также желательно перевести описание и содержание на русский язык.
Нажмите, чтобы раскрыть...

Переведи и отправь админам через тикет
2 ноя 2015

#6

Gewissta Забанен

Я бы перевел "Скрапинг веб-сайтов с помощью Python". В английском разница между скрапингом и парсингом довольно четкая, на русском из-за ошибок, недосмотров переводчиков как всегда разброд и шатание. Парсинг - синтаксический разбор, скрапинг - вытягивание HTML с веб-сайта и нахождение внутри него нужных кусков информации по заданным правилам.Скрапер помимо прочего включает в себя парсер HTML. То есть скрапинг - это более широкое понятие, включающее в т.ч. и парсинг.
По Питону планируем еще перевести Python Data Science Handbook
3 ноя 2015

#7

Monogatari Член клуба

Gewissta сказал(а): ↑

Я бы перевел "Скрапинг веб-сайтов с помощью Python". В английском разница между скрапингом и парсингом довольно четкая, на русском из-за ошибок, недосмотров переводчиков как всегда разброд и шатание. Парсинг - синтаксический разбор, скрапинг - вытягивание HTML с веб-сайта и нахождение внутри него нужных кусков информации по заданным правилам.Скрапер помимо прочего включает в себя парсер HTML. То есть скрапинг - это более широкое понятие, включающее в т.ч. и парсинг.
По Питону планируем еще перевести Python Data Science Handbook Скрытая ссылка
Нажмите, чтобы раскрыть...

Как правильно и кратко перевести название складчины (Web Scraping with Python)?
По Python Data Science Handbook будете создавать складчину?
3 ноя 2015

#8

Gewissta Забанен

Так бы и перевел "Скрапинг веб-сайтов с помощью Python".
Нет, наверное. Обе книги, независимо от того, состоится складчина или нет, будут переведены, потому что лично нашей компании это нужно. С 15 ноября начнем переводить "Скрапинг". ДМК Пресс, кстати, не планирует перевод "Скрапинг веб-сайтов с помощью Python", было общение с ними.
3 ноя 2015

#9

gillmor Должник

Gewissta сказал(а): ↑

С 15 ноября начнем переводить "Скрапинг"
Нажмите, чтобы раскрыть...

А нам сюда на складчину копию закинете? Вам ведь все равно переводить, а так еще и денюшку получите.

2 пользователям это понравилось.
5 ноя 2015

#10

Gewissta Забанен

Да, разумеется.

2 пользователям это понравилось.
13 ноя 2015

#11

Markus Член клуба

Парни, если кто собирается читать, во-первых автор женщина , а во вторых книга содержит ошибки на уровне языка питона.
13 ноя 2015

#12

mifik Член клуба

Markus сказал(а): ↑

Парни, если кто собирается читать, во-первых автор женщина , а во вторых книга содержит ошибки на уровне языка питона.
Нажмите, чтобы раскрыть...

например?
13 ноя 2015

#13

gillmor Должник

Markus сказал(а): ↑

Парни, если кто собирается читать, во-первых автор женщина , а во вторых книга содержит ошибки на уровне языка питона.
Нажмите, чтобы раскрыть...

Ну то, что женщина не пугает ни капли. Есть масса примеров очень талантливых женщин программистов. А вот про ошибки, хотелось бы увидеть пример.

2 пользователям это понравилось.
13 ноя 2015

#14

Markus Член клуба

Например, автор не знает как использовать оператор проверки NoneType (это как бы намекает о квалификации питониста)...
13 ноя 2015

#15

Monogatari Член клуба

Markus сказал(а): ↑

Например, автор не знает как использовать оператор проверки NoneType (это как бы намекает о квалификации питониста)...
Нажмите, чтобы раскрыть...

Вас попросили привести пример.

2 пользователям это понравилось.
27 янв 2016

#16

Gewissta Забанен

Перевод движется. Закончил пятую главу. Идет медленнее, потому что помимо перевода еще и ошибки исправляешь. В общем, девушка либо не понимает, либо забывает, в чем разница между header и title,

All titles (on all pages, regardless of their status as an article page, an edit history page, or any other page) have titles under h1→span tags, and these are the only h1 tags on the page...

That is, the <h1> title tag appears on every page...

И это самое безобидное.

Вот как автор описывает работу интернета.
Bob’s computer sends along a stream of 1 and 0 bits, indicated by high and low voltages on a wire. These bits form some information, containing a header and body. The header contains an immediate destination of his local router’s MAC address, with a final destination of Alice’s IP address. The body contains his request for Alice’s server application.
В оригинале смешались в кучу кони, люди. MAC адрес и IP адрес - они вообще на разных уровнях абстракции. Про напряжение тоже лихо, в каком-нибудь WiFi или WiMax дело не просто в напряжении.
В общем, берешь и пишешь свой совершенно новый текст и так иногда пол-страницы надо переделать.
Запрос Боба разбит на фрагменты, к каждому фрагменту добавлен заголовок со служебной информацией (этим заведует протокол TCP). Передачей отдельных фрагментов от компьютера Боба до компьютера Алисы заведует протокол IP.

Или еще
POST is what you use when you fill out a form, or submit information, presumably to a backend script on the server.
Оставил, как есть. Но про backend script (программа, которую сервер выполняет в ответ на HTTP запрос GET, POST, PUT или DELETE) - это сильно устарелая информация, сейчас это обычно не отдельная программа.

Скорее всего, будет две версии, для издательства и внутренняя, для наших сотрудников, потому что многие вещи даются пунктирно, например, описание работы со Scrapy и работа Python в связке с MySQL.

3 пользователям это понравилось.
28 янв 2016

#17

definet Член клуба

Gewissta сказал(а): ↑

девушка либо не понимает, либо забывает, в чем разница между header и title
Нажмите, чтобы раскрыть...

А по-моему у автора книги всё правильно написано в этом случае. Из Я.Словари:
title
заглавие, название, наименование

full title — полное название
the title of a book — название книги
as the title indicates /suggests/ ... — как показывает название (книги и т. п.) ...
title of the document — название документа
header
информ. верхний колонтитул; заголовок; см. тж. footer

clear header — открытый (незашифрованный) заголовок (сообщения)
message header — заголовок сообщения
protected header — защищенный (зашифрованный) заголовок (сообщения)

То есть, title по смыслу имеет отношение именно к заголовку статьи/книги. А header по смыслу имеет отношение к служебной информации, разметке. Автор же имеет ввиду именно заголовок статьи, то есть title. Нужно спарсить заголовок статьи. Вот и употребляет именно это слово.
28 янв 2016

#18

definet Член клуба

Почитал ещё твои комментарии к этой книге. Со следующим тоже не согласен.

Gewissta сказал(а): ↑

Косяки есть, но не критичные.
Например, автор описывает темы, которые излагаются в первой части книги:
Retrieving HTML data from a domain name
Но в доменном имени нет никакого HTML.
Нажмите, чтобы раскрыть...

Опять же, из Я.Словари:
from
указывает на источник или происхождение от, из

a quotation from Tolstoy — цитата из Толстого

Толстой был человеком, в нём самом не было никаких цитат. Они взяты из его произведений. То есть у Толстого были произведения и из них уже взяты цитаты. Что-то вроде сокращённого варианта: "Цитаты из произведений Толстого". Так и с доменным именем.
Оговорюсь, я не считаю себя великим знатоком английского. Однако, не в обиду, но по-моему косяки не у автора книги, а у переводчика с пониманием английского. Есть, конечно, вариант, что это у меня косяки с английским Но тогда интересно узнать, в чём именно я неправ.
28 янв 2016

#19

Gewissta Забанен
Я привык так:

В общем, если б девушка написала
h1 header tag

или

All headers (on all pages, regardless of their status as an article page, an edit history page, or any other page) have headers under h1→span tags

мне было бы понятно, потому что h - первая буква header. Ведь речь о заголовках, предназначенных для структуризации контента на странице (headers).

Вот здесь, например, речь как раз идет о названиях страниц (titles).
Notice that, unlike with previous crawlers that print the title of the page, I’m not even storing the title of the page in the pages table. Why is that? Well, recording the title of the page requires that you actually visit the page to retrieve it.
Вложения:
- upload_2016-1-28_12-32-57.png
  
  Размер файла:
  
  8,5 КБ
  
  Просмотров:
  
  458
28 янв 2016

#20

Gewissta Забанен

definet сказал(а): ↑

Почитал ещё твои комментарии к этой книге. Со следующим тоже не согласен.

Опять же, из Я.Словари:
from
указывает на источник или происхождение от, из

a quotation from Tolstoy — цитата из Толстого

Толстой был человеком, в нём самом не было никаких цитат. Они взяты из его произведений. То есть у Толстого были произведения и из них уже взяты цитаты. Что-то вроде сокращённого варианта: "Цитаты из произведений Толстого". Так и с доменным именем.
Оговорюсь, я не считаю себя великим знатоком английского. Однако, не в обиду, но по-моему косяки не у автора книги, а у переводчика с пониманием английского. Есть, конечно, вариант, что это у меня косяки с английским Но тогда интересно узнать, в чём именно я неправ.
Нажмите, чтобы раскрыть...

Много текста. По существу, ну и где в доменном имени html? Наверно, все-таки Retrieving HTML data from a domain.

Страница 1 из 2

Статус обсуждения:: Комментирование ограничено.

Поделиться этой страницей

Зарегистрируйся и начни экономить!

Поиск

Искать только в заголовках

Сообщения пользователя:: Имена участников (разделяйте запятой).

Новее чем:

Искать только в этой теме
Искать только в этом разделе
- Отображать результаты в виде тем