0/5, Голосов: 0
Доступно

[ZennoPoster] Барсик - парсер Яндекс.Карт + Геокодер (многопоток, без браузера)

Тема в разделе "Бизнес и свое дело", создана пользователем orka13, 19 июн 2018.

Цена: 3900р.
Взнос: 3900р.
100%

Основной список: 1 участников

Статус темы:
Закрыта.
  1. orka13

    orka13 ЧКЧлен клуба (А)

    [​IMG]

    Технические особенности шаблона:
    1. Шаблон делался в ProjectMaker RU 5.17.1.0 (так как последняя 5.17.2.0 версия слишком сырая и с багами, не рекомендую на ней запускать). Тестировался и на старых версиях (5.10.0.1). Стоит ограничение по запуску минимум 5.9.9.1, но как поведет себя на такой старой версии – хз. Закрытого типа (только выполнение). Если у вас нет ZennoPoster, то можно выписать лицензию вместе с Zennobox (мини-версия ZennoPoster), но это стоит +10$ к цене шаблона.
    2. Шаблон работает исключительно на запросах (без запуска вкладок браузера), что позитивно отражается на использовании ресурсов ПК и позволяет неплохо поднимать быстродействие парсинга в многопотоке, ибо основана нагрузка идет только на CPU.
    3. В работе шаблона используется свой алгоритм на основе C#-библиотек HtmlAgilityPack.dll (для работы с XML-ответами сервиса) и Newtonsoft.Json.dll (для обработки JSON ответов).
    4. Ключей API или логинов Яндекса здесь НЕ надо.
    Алгоритм поиска такой: шаблон сначала берет название объекта (города\региона), в пределах которого будем искать, получает координаты его размеров (прямоугольника, или условно «квадрата», в который вписаны границы объекта), и ищет в нем нужные фразы.
    Минусы такого метода: если мы ищем в какой-то области, то в пределы ее квадрата могут попасть мелкие пограничные части соседних областей. А если эта область на границе с другой страной, то соответственно поиск затронет эту маленькую часть соседней страны. Потом ети «левые» объекты можно удалить по столбце адресов вручную, но в ~10% адресов может быть нестандартный синтаксис адреса (иногда нет указания страны, только город\область). То есть для чистоты результатов лучше все же парсить «по городам» а не «по областям». Хотя даже в ситуации с городом в квадрат поиска могут попасть пригородные поселки, но это уже не так критично.

    Чтобы спарсить почти все организации в нужном регионе хватит просто использовать для поиска разнообразные фразы-ключи, под которые наиболее логично подходит список разделов Яндекс.Справочника (~ 1200 фраз, выдается в комплекте с файлами парсера). Используя этот метод получается за пару минут собрать практически все организации любого крупного города. Например, у меня на 100 потоках такие результаты (без пост-парсинга Email):
    1. Москва: 20 минут ~ 400 000 объектов (400 000 со словом «Москва» в адресе, но 530 000 в самом квадрате вокруг города Москва).
    2. Санкт-Петербург: 10 минут ~ 228 000 объектов (233 000).
    3. Самара: 3 минуты ~ 52 000 объектов (59 000).
    4. Сочи - 2 минуты ~28 880 объектов (29 180).
    Варианты использования:
    1. Поиск конкурентов в своей нише\городе.
    2. Поиск фирм под рассылку\спам по телефону\Email.
    3. Поиск соц-страниц и сайтов организаций.
    4. Заполнение собственных сайтов\досок характеристиками объектов из Яндекс.Карт (есть же картинки-миниатюры, можно все аккуратно оформить).
    5. Заработок на указании услуг по парсингу Яндекс.Карт (создаёте темы по форумах, на Kwork).
    1. Фраза поиска
    2. Регион поиска
    3. Название
    4. Категории
    5. Адрес полностью
    6. Район области
    7. Населённый пункт
    8. Улица
    9. Отдельный дом
    10. Все услуги
    11. Время работы
    12. Телефоны (мобильные из России)
    13. Телефоны (бесплатная линия справки)
    14. Телефоны остальные (городские и нераспознанные)
    15. Главный сайт
    16. Все сайты
    17. Вконтакте
    18. Facebook
    19. Instagram
    20. Twitter
    21. Одноклассники
    22. Мой мир
    23. YouTube
    24. Все соц. и бизнес ссылки
    25. Страничка на Яндекс. Карты
    26. ID на Яндекс. Карты
    27. Координаты Широта
    28. Координаты Долгота
    29. Мини-фото из поиска
    30. Все мини-фото (макс. 3)
    31. Мини-фото из панорамы
    32. Картинка-логотип
    33. Email (собираются отдельно из страниц ячейки [16. Все сайты])

    Пример случайной выборки на 4000 строк из результатов парсинга разных фраз по нескольким городам\областям + результат работы в режиме [2. Геокодер]:
    Скачать с Яндекс.Диск (файл CSV + XLSX, последний вручную заполнил и раскрасил).
    Или посмотреть на гугл-докс:
    1. Обычный парсинг - выборка на 4000 строк.CSV
    2. Геокодер - популярные города-области Росии+СНГ

    Подсказки по работе с крупными CSV файлами ищите в теме: Справочная: выборка из файловых баз, крупные *.txt файлы, регулярки, EmEditor, *.csv.

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    Видео-инструкция с примером первого запуска шаблона:




    Я открыт к критике, и если будут актуальные пожелания в расширении функционала, то постараюсь их внедрить. Но это зависит от трудности правок и общего количества складчиков на продукт. Чем вас больше, там у меня больше мотивации возится с шаблоном :).

    Отзывы:
    Отзыв 1
    Отзыв 2
    Отзыв 3
    Отзыв 4 (неофициальный, но самый развёрнутый)
     
    Последнее редактирование модератором: 18 авг 2018
    6 пользователям это понравилось.
  2. Последние события

    1. skladchik.com

      Elliene не участвует в складчине.

      19 фев 2019
    2. Elliene

      Elliene участвует в складчине.

      18 фев 2019
    3. skladchik.com

      Осталось 5 дней до завершения складчины.

      23 авг 2018
    4. skladchik.com

      Складчина доступна.

      23 авг 2018

    Последние важные события

    1. skladchik.com

      Осталось 5 дней до завершения складчины.

      23 авг 2018
    2. skladchik.com

      Складчина доступна.

      23 авг 2018
    3. skladchik.com

      Складчина активна.

      20 авг 2018
    4. skladchik.com

      Сбор взносов начинается 20.08.2018.

      18 авг 2018
  3. orka13

    orka13 ЧКЧлен клуба (А)

    Орг: @Брат.
    Официальные проверяющие (из числа членов клуба со статусом "Модератор" или "Организатор"):
    1. @ЗиминА, так как проявляла интерес еще к старой складчине по базам Яндекс.Карт, и к шаблону по парсингу Email, наработки с которого здесь используются, значит человек «в теме».
    2. @Antwoord, так как участвовал в старой складчине по базам Яндекс.Карт.
    3. Брат.
    Официальным проверяющим выдается полноценная лицезния без ограничений по времени, как и полноценным складчикам.

    Поскольку в последней версии шаблона было очень много нововведений, то я допускаю что где-то могли скрыться мелкие баги. Но это реально мелочи, так как я уже на объёмах при парсинге крупных городов прогнал шаблон, и нигде ошибки не всплыли, что видно на видео. Но чтобы перестраховаться в этот раз решил взять еще трех дополнительных неофициальных проверяющих.
    1. @intelligent man (предложил я, а то опять нафлудит пару страниц вопросов :))
    2. @Лутесса01.
    3. @Растаман, так как участвовал в старой складчине по базам и первым отписался из того списка.
    Неофициальным проверяющим выдается Trial-версия шаблона с ограничением по запуску до 1 сентября. Если кто-то из их группы найдет баг, то продлю всем еще на месяц. Требование: статус «Член клуба» + участие в предыдущей складчине моей «База организаций России из Яндекс Карты (Яндекс Справочник)», ибо там люди точно «в теме».
    Upd 1: Я понимаю что сейчас лето, так что можно потянуть с проверкой 1-3 недели, ибо лучше не спешить и хорошо погонять шаблон.
    Upd 2: Сбор взносов где-то через 2-3 месяца.
    Upd 3: В парсере карт и Геокодере нет ограничения по региону. Но надо учитывать, что у самого сервиса Яндекс.Карт в базе нормально прописаны объекты только для России + СНГ + ближайшие соседние страны. Можете в браузере проверить поиск в городе нужной стране, чтобы убедится есть ли там много объектов.
    Upd 4: Закрыл набор проверяющих.
     
    Последнее редактирование: 26 июн 2018
  4. trampampam3

    trampampam3 ЧКЧлен клуба

    На правах рекламы, в подписи самая полная на сегодняшний день база авито, успей!
     
  5. Лутесса01

    Лутесса01 ЧКЧлен клуба

    @orka13, попрошусь проверить, хоть и не в списках. Парсинг, формирование баз данных один из видов моего заработка :cool:
    всё необходимое есть: зенка про, прокси, мощное железо, опыт парсинга, желание и время.
    Обязуюсь написать отзыв быстро, качественно и думаю, что немаловажно опишу опыт монетизации по возможности :D Это самое важное для складчиков.
     
  6. orka13

    orka13 ЧКЧлен клуба (А)

    ну ок, убедили, стучитесь в личку с ID\почтой лицензии зенки для привязки. только точно больше никого не беру, кроме тех что в списке.
     
    Последнее редактирование: 19 июн 2018
    1 человеку нравится это.
  7. orka13

    orka13 ЧКЧлен клуба (А)

    Просили добавить видео по работе с отчетами шаблона, а то людям трудно вникнуть как крупные CSV таблицы открывать. так что запостил его в Справочной.
     
  8. orka13

    orka13 ЧКЧлен клуба (А)

    Подтверждаю, что 5.17.2.0 версия не подойдет. У одного из проверяющих 5.17.2.0 нормально сработала на этапе парсинга Яндекс.Карт, но вот при последующем парсенге Email шаблон зацикливается, жрет ресурсы, и не может получить почты из сайтов. Она очень глюченая, можете конечно подправлять ее костылями как на форуме зенки рекомендуют, но гарантий стабильности это не даст, проще использовать предыдущую 5.17.1.0.
    Недавно вышедшая 5.18.0.0 как по мне тоже сыровата. Хоть по ней и нет столько негативных отзывов как по 5.17.2.0, но я не спешу с ней работать.
     
  9. Antwoord

    Antwoord ОргОрганизатор

    О Т З Ы В

    1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик
    Опытный

    2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Отличный парсер давно хотел парсер по Яндекс картам. Спарсил уже несколько десятков городов по разным запросам, все четко! Нравится быстрая скорость и то что емайлы еще собираются

    3. Отзыв на материал, связанный с заработком, трафиком и иными сферами, направленными на достижение измеримых результатов в количественном или денежном выражении, должны подтверждаться скриншотами полученных результатов.
    Результат не заявлялся.

    4. В отзыве должны быть в обязательном порядке отражены следующие аспекты:
    4.1. В каком виде предоставлен материал и насколько удобно он оформлен?

    Материал предоставлен в виде нескольких файлов куда будут загружаться данные для парсинга, видеоинструкция где все показано как пользоваться и сам шаблон

    4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Общее время заняло меньше часа.

    4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Затруднений при проверке не возникло, все легко настраивается

    4.4. Сколько времени заняло достижение заявленного автором результата?
    Результаты не заявлены.

    4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Специальные навыки и дополнительные материальные вложения не нужны .

    4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Да, автор всегда на связи.

    4.7. Каковы в целом общие впечатления о компетентности автора?
    Положительные. Автор точно знает свое дело и видно что у человека есть опыт в том что он предлагает

    5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Не требовалось.

    6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Не возникло, все ровно.

    7. В итоге считаю, что
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    1 человеку нравится это.
  10. orka13

    orka13 ЧКЧлен клуба (А)

    Яндекс на днях поменял чуть синтаксис запросов, так что парсер перестал работать. Решение проблемы найдено, шаблон обновил, и перезалил. Новая версия "1.04" должна работать.
    Ну и ждем остальных отзывов, а то что-то очень растянулась проверка.
     
    1 человеку нравится это.
  11. Лутесса01

    Лутесса01 ЧКЧлен клуба

    О Т З Ы В

     
    3 пользователям это понравилось.
  12. Брат

    Брат МодерМодератор Команда форума

    Отзыв:

    Укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Практик.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    Шаблон ZennoPoster, видеоинструкции (из стартпоста), файлы для работы шаблона. Настройки шаблона, с подробным описанием функций (скрины есть в стартпосте).

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    В течении трех часов, с подготовкой входных данных

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?

    Затруднений не возникало.

    Сколько времени заняло достижение заявленного автором результата?

    По необходимым мне регионам и ключам - парсинг (первичный, без email) занял 11 минут, в 50 потоков. На выходе 280 003 фирмы.

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Нужны доп. вложения в прокси. Использовались пакетные прокси. Требуются навыки работы с зеннопостером.

    Оказывал ли автор должную поддержку в процессе проверки?
    Поддержка не понадобилась, шаблон отработал без ошибок.

    Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен.
    Шаблон проверялся на версии ZennoPoster - 5.16.2.0, и на момент проверки - полностью работоспособный.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.

    ps
    При первичном парсинге, на стареньком ПК Core2 Duo и 4ГБ, загрузка памяти -58%, загрузка процессора -95% (в 50 потоков)
     
    Последнее редактирование: 3 авг 2018
    1 человеку нравится это.
  13. orka13

    orka13 ЧКЧлен клуба (А)

    Тут проверяющие жаловались, что нет под рукой норм прокси для полноценной проверки работы шаблона, так что вот пост по теме:

    Как показала практика, яндекс выдает капчу при частом обращении к сервису определения координат. Это происходит чаще при парсинге в режиме «геокодер» и реже при обычном парсинге карты, особенно если парсятся популярные города, ведь их координаты и так уже «вшиты» в файлы шаблона («\BARSIK_Yandex_Maps_ParserGeocoder\Input_Yandex_Maps\Популярные_RU_города_регионы.tsv»).
    На днях попался один клиент, у которого не было под рукой надежных платных прокси, и после того как Яндекс начал активно выводить капчу, работа встала. И поскольку шаблон не умеет пока распознавать капчу (не задумывался над этим, так как ротация прокси дешевле обходилась), и не умеет брать прокси с «живого списка» зенопостеровского проксичекера, то пришлось искать где бы это получить более-менее пригодные бесплатные прокси списком.
    Уточню, что нам не нужны супер-приватные дорогие прокси. Ведь даже если прокси уже «закапчен\забанен» в обычном сервисе Яндекс-Поиск, то он в 90% случаев НЕзакапчен в Яндекс-Картах (то есть подходит нам). И под такие требования сойдут бесплатные прокси, которые собирает сервис AWM: awmproxy.com/freeproxy.php - просто введите там капчу, и через 30 секунд получите обычный список прокси, которые можно скопировать в файл шаблона («\BARSIK_Yandex_Maps_ParserGeocoder\Input_Yandex_Maps\Proxy - сюда вставляем прокси.txt»). Только что проверил – Барсик нормально на них парсит как в обычном режиме поиска объектов на Яндекс-Карте, так и в режиме определения координат по списку (Геокодер). Проверка работоспособности прокси вшита в самом шаблоне, так что не страшно если в том списке будет много нерабочих прокси, Барсик их просто проигнорирует после проверки, то есть будет брать строки из списка пока не найдет рабочий прокси.
     
    Последнее редактирование: 9 авг 2018
    1 человеку нравится это.
  14. ЗиминА

    ЗиминА ОргОрганизатор

    Отзыв;
    5.1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Практик

    5.2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Отличный парсер на основе ZennoPoster
    Проверялось на редакции Lite 5.11.2.0 – всё гуд.
    Собирать емейлы – там где их не предусмотрено )) -> сначала собирает данные и сайты с ЯКарты -> потом парсер проходит по сайтам и собирает емейлы с каждого сайта.
    Это супер. С этой базой можно делать всё что угодно.
    Хоть рассылку КП по ящикам, хоть делать сайт каталог фирм.

    5.4.1. В каком виде предоставлен материал и насколько удобно он оформлен?
    2 Шаблона – первый для парсинга ЯКарт + для сбора емейлов
    Видео инструкции
    Папка для примера – вводных данных

    5.4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    В принципе 1 день хватит

    5.4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Не было

    5.4.4. Сколько времени заняло достижение заявленного автором результата?
    Не заявлено

    5.4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Нет, хватает основ знания ПК.
    Вложения – если много парсить то нужны прокси .

    5.4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Всегда на связи

    5.4.7. Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен в своём деле.

    5.5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Смотришь видео - повторяешь

    5.6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Нет не было.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    1 человеку нравится это.
  15. янтарный сад

    янтарный сад ЧКЧлен клуба

  16. veremenko

    veremenko ЧКЧлен клуба

    Добрый день,

    У карточки организации есть поля:

    Типография полиграфические услуги рекламная продукция
    О месте:

    • срочная печать, Wi-Fi
    Препресс и послепечатная обработка:

    • фальцовка, обжим, нумерация, перфорация, кругление углов, каширование, сверление отверстий, тиснение, высечка, вырубка, биговка, лакирование, переплет, вёрстка, разработка фирменного стиля, ламинирование
    Продукция:

    • брелоки, ручки, зажигалки, POS-материалы, приглашения, пакеты, открытки, наклейки, листовки, коробки, конверты для CD/DVD, конверты, календари, каталоги, журналы, ежедневники, дипломы, грамоты, воблеры, визитки, бейджи, буклеты, блокноты, самокопирующиеся бланки, бланки, блоки для записей, билеты, бирки, ярлыки, брошюры, плакаты, постеры, папки, эмблемы
    Способ печати:

    • шелкография, широкоформатная печать, цифровая печать, трафаретная печать, офсетная листовая печать, высокая печать, UV-печать
    upload_2018-8-19_18-44-39.png

    Эти данные будут спаршены?
     
    1 человеку нравится это.
  17. orka13

    orka13 ЧКЧлен клуба (А)

    Шаблон берет всю информацию из поиска, он не заходит на сами страницы-карточки организации, иначе такой скорости обработки не получилось бы добиться. А через поиск сервис выдает меньше результатов чем в карточке. Конкретно по вашему случаю не могу сказать насколько беднее будет результат.
    Чтобы зря не молоть языком предлагаю скинуть в личку или в теме ссылку на карточку нужной организации, а я попробую ее через поиск Барсиком найти и показать какой результат будет в отчете. А дальше сравните сами хватает ли его.
     
  18. veremenko

    veremenko ЧКЧлен клуба

    Боюсь адрес будет содержать контакты, что нарушит правила сообщества.
    Если не сложно - возьмите, пожалуйста, любую карточку организации типографии в Москве, с высокой вероятностью эти поля будут на ней.
    Спасибо!
     
  19. veremenko

    veremenko ЧКЧлен клуба

    По всей видимость всё парсится, внимательно посмотрел на выгрузку и карточки - совпадает.
     
  20. orka13

    orka13 ЧКЧлен клуба (А)

    Кто-то подобное уже спрашивал меня, и знаю что чего-то не хватало. Но там вроде речь шла о картинках, - у меня парсер только миниатюры собирает с поиска, а на карточке можно потом полноразмерные найти. И я просто рекомендовал найти\заказать отдельный парсер для выкачки картинок со страниц.
    Ну и я уже распарсил "Типография" в г. Москва, можете сравнить более подробно, результат в папке - yadi.sk/d/ornsr5yl3Y75U8 (последний файл).
     
Статус темы:
Закрыта.

Поделиться этой страницей