0/5, Голосов: 0
Доступно

База организаций России из Яндекс Карты (Яндекс Справочник)

Тема в разделе "Бизнес и свое дело", создана пользователем orka13, 7 мар 2018.

Цена: 10270р.
Взнос: 950р.
92%
  1. 1.  
  2. 2.  
  3. 3.Kisa2016  
  4. 4.  
  5. 5.  
  6. 6.  
  7. 7.  
  8. 8.  
  9. 9.  
  10. 10.  
  11. 11.  
  12. 12.  
  13. 13.  
  14. 14.  
  15. 15.  
Статус темы:
Закрыта.
  1. orka13

    orka13 orka13 ПартнерПартнер (А)

    [​IMG]

    Время сбора базы: 23.02.2018 по 06.03.2018.
    Используемый инструмент: собственные парсер открытый данных ЯндексКарт + парсер Email с сайтов, все на ZennoPoster.
    Регион: Россия
    Количество объектов в базе: ~4 336 000.
    Из них:
    • 2 049 000 имеют заполнено поле с сайтами (1 134 000 уникальных значений)
    • 1 382 000 имеют заполнено поле с email (1 287 000 уникальных значений)
    • 2 985 000 имеют заполнено поле с телефонами\факсами (3 378 000 уникальных значений)

    Формат файла: таблица *.CSV (обычный текстовый файл, разделитель табуляция, кодировка UTF-8), размер 2,3 ГБ, сжатая в архив *.zip размером 634 Мбайт.
    Инструмент для работы: Лично я работал с файлом через мультифункциональный текстовый редактор EmEditor («Меню > Правка > Разделенные данные > Табулятор»). в MS EXCEL лимит на 1 млн строк, так что туда можно импортировать только часть данных при желании («Данные > Из текста > Открыть файл > С разделителями, Unicode UTF-8 > Знак табуляции > Готово»). Ну и можно сделать импорт этого файла в любые редакторы, которые поддерживают быстрою выборку.
    Возможное применение: Email-рассылка, SMS-рассылка, прозвон, аналитика рынка и конкурентов.

    Колонки в базе:
    1. Название
    2. Категории
    3. Адрес
    4. Все услуги
    5. Телефоны
    6. Главный сайт
    7. Все сайты
    8. Вконтакте
    9. Facebook
    10. Instagram
    11. Twitter
    12. Одноклассники
    13. Мой мир
    14. YouTube
    15. Все соц. и бизнес ссылки
    16. Страничка на Яндекс.Карты
    17. Координаты Широта
    18. Координаты Долгота
    19. ID на Яндекс.Карты
    20. Почтовые ящики c сайтов

    Пример случайной выборки из базы на 10 000 строк:
    Такое количество данных позволит оценить нужна вам база или нет. Ну а для проверяющих задача, как по мне, состоит лишь в том, чтобы проверить отвечают ли остальные данные такому же формату.

    И в добавок вот полностью весь столбец «Адрес», чтобы вы смогли понять сколько в каком городе объектов. Сортировка здесь по алфавиту, но некоторые города могут указываться без родительских элементов (страны, области), так что проверяйте через «поиск-количество совпадений», а не просто визуально листая строки:
    Приблизительные подсчеты объектов по городам:
    • Москва: 430 000.
    • Санкт-Петербург: 230 000.
    • Самара: 48 000.
    • Сочи: 27 000.

    Об Е-mail в базе: Е-mail собирался отдельно на сайтах организаций, если такие были указаны, так как с недавнего времени Яндекс отключил показ Е-mail. Парсилась страничка, указанная в карточке организации на Яндекс картах, а также часть соседних внутренних страницы сайта, на которые вели ссылки с этой странички (приоритет отдавался «контактам», «о нас» и т.д.). Это помогло увеличить вероятность нахождения почтового адреса, даже если он не присутствовал на целевой странице, и увеличило общее количество почт. Так что если встретите в отчете большое количество ящиков на организацию, то основным ящиком можно считать первое значение, а остальные уже обычно нашлись на других страницах.

    Похожие старые складчины (НЕ авторские, так что и цены там ниже :)):
    https://skladchik.com/threads/База-организаций-России-Яндекс-Карты.152556/
    https://skladchik.com/threads/База-Яндекс-Справочника-Россия.170686/

    UPD:
    Обновление: 1 раз через 2-3 месяца после первой выдачи. Это при условии доступности парсинга.

    UPD2:
    Отзывы
    [​IMG] [​IMG] [​IMG]

    Видео из отзыва от Testimonial:

    Я открыт к конструктивной критике и пожеланиям складчиков. Это видно по последних страницах комментариев темы. Учитывая ваши замечания, я могу подправить базу под более востребованный вид. Сейчас вот сделал альтернативную версию с разделением телефонных данных на три отдельных столбца. Чтобы не уходить от изначального описания базы просто раздам 2 версии (изначальную классическую и в качестве бонуса переделанную), а там уже сами выбирайте какая удобнее.
     
    Последнее редактирование модератором: 24 мар 2018
    aleksey83, sergzerg, AVEEE и 5 другим нравится это.
  2. Последние события

    1. Valeris-IL

      Valeris-IL участвует в складчине.

      9 апр 2018
    2. sergzerg

      sergzerg не участвует в складчине.

      3 апр 2018
    3. sergzerg

      sergzerg участвует в складчине.

      3 апр 2018
    4. Niksmile

      Niksmile участвует в складчине.

      30 мар 2018

    Последние важные события

    1. skladchik.com

      Осталось 5 дней до завершения складчины.

      27 мар 2018
    2. skladchik.com

      Складчина доступна.

      27 мар 2018
    3. skladchik.com

      Складчина активна.

      27 мар 2018
    4. skladchik.com

      Сбор взносов начинается 27.03.2018.

      25 мар 2018
  3. Ragnar Lodbrok

    Ragnar Lodbrok Ragnar Lodbrok МодерМодератор Команда форума

    Обновление для участников предполагается? Если да, то сроки и периодичность.
     
    orka13 нравится это.
  4. orka13

    orka13 orka13 ПартнерПартнер (А)

    Думаю, оптимально будет сделать обновление 1 раз через 2-3 месяца после первой выдачи. Так нормально? Это при условии доступности парсинга. Я просто не могу гарантировать что Яндекс не изменит кардинально правила доступа, и у меня получится повторить проделанное. Другие парсеры постоянно перестают работать с каждой сменой алгоритма Яндекс.Карт, выживают только те, у которых автора успевают обновления выкатывать.
     
    Карлайл и Ragnar Lodbrok нравится это.
  5. Mr-Grey

    Mr-Grey Mr-Grey МодерМодератор Команда форума

    Могу проверить.
     
    orka13 нравится это.
  6. orka13

    orka13 orka13 ПартнерПартнер (А)

    Спасибо, отправил ЛС.
    Также быть вторым проверяющим вызвался @htrmaster. Орагнизатор: @Testimonial. Всем отправил файл базы.
    Просьба только не тянуть с проверкой. Там всего-то надо:
    1) проверить соответствие таблицы заявленным в стартпосте данным.
    2) ну и проверить нет ли фейков. Для этого стоит для парочки позиций зайти в браузере по сылке из колонки №16 (Страничка на Яндекс.Карты), и проверить совпадают ли денные в строке с теми, что показывает на странице организации.
    Хз что там еще можно проверять… Остальное пользователи сами могут почерпнуть из «Пример случайной выборки» в старпосте. Там кстати, для онлайн просмотра оптимально использовать Google Chrome последней версии, а то гугл-таблица может не до конца прогрузится (Mozilla Firefox у меня обрезал последние столбцы).
    Я тут новичек, так что если что то упустил, не стесняйтесь поправить.

    Также уважаемый Testimonial указал мне на невозможность проведение одновременно двух моих складчин. (Старая: https://skladchik.com/threads/База-id-mamba-ru-Мамба-5-млн-профилей-с-сайта-знакомств.184967/ )
    Позволю оправдаться: там все еще не нашелся третий проверяющий, а один из найденных все еще не проверил файлы, так что та старая складчина начнется не быстрее окончания этой. Тем более что там я все-равно обещал пересобрать данные в момент выдачи, то есть она не устареет, люди не обидятся. А вот по Яндексу устареет, поскольку повторно собрать данные здесь не получится, так как слишком затратно.
     
  7. bizzon

    bizzon bizzon ЧКЧлен клуба

    А ссылки на фото организации не парсит, чтобы импортировать в свой справочник на сайте?
     
  8. orka13

    orka13 orka13 ПартнерПартнер (А)

    Нет, по умолчанию не парсит, так как ссылок на них нет в стандартном ответе API поиска ЯндексКарт. Да и не задавался я изначально такой целью.
    Можете уже самостоятельно спарсить картинки из страницы-карточки организации (столбец «Страничка на Яндекс.Карты»).

    Если очень надо, и будет еще спрос от желающих, то попробую переделать парсер на захват полей с картинками еще на етапе сбора базы. Теоретически это возможно, если изменить формат запроса к API (такой сейчас Яндекс в браузере использует), но гарантий дать не могу, так этот метод не тестирвал, может он непригоден к массовому парсингу (больше % ошибок выдает, не дает глубоко парсить, или жестче банит IP).
    И я не в курсе временные там ссылки на картинки, или постоянные. То есть пригодны ли урлы картинок для репоста на сайте, или они через пару дней отмирают. Для эксперимента давайте оставим здесь ссылку на организации товара и на ее картинку:
    Код:
    https://yandex.ru/maps/org/sushi_bar_tokio/1005811784/
    https://avatars.mds.yandex.net/get-altay/216588/2a0000015b1ffe3fd4d9dca3b936e86ac266/M
     
  9. orka13

    orka13 orka13 ПартнерПартнер (А)

    Тут один из проверяющих задался интересным вопросом: "как в EmEditor отфильтровать строки по нужной фразе". Я ошибочно считал раньше, что удобной привычной фильтрации там нет, предполагается что для удобства можно отрывок до 1 млн строк импортировать в EXCEL (я в старпосте написал, как в нем такое проделать). А если все же охота в этом редакторе то я делал через «Поиск>Закладка» в выделенном фрагменте (выделял перед этим нужный столбец, два раза кликнув над ним в панели линейки). И потом уже строки с закладкой копировал в отдельный документ («Правка > Закладки > Документа > Копировать строки»).

    Но сегодня я поискал в сети, и открыл для себя более удобный метод. Всего 4 клика, и получаем нужную фильтрацию в пределах любого столбца:
    [​IMG]

    Кроме того, там есть поддержка регулярных выражений, так что если надо только какое-то слово искать, без родительских слов, в которые входит это слово («банк», но НЕ «банкомат»), то укажите вокруг нужного слова границы слов (символы «\b» на языке регулярок). Как на скрине:
    [​IMG]

    Оставлю этот тут, чтобы пригодилось складчикам.
    UPD 22.03.18: Заметьте что на скринах не просто идущие подряд строки с подсветкой соответствий, а реально только те строки, в которых нашлись совпадения (номера строк слева то не подряд идут!)
     
    Последнее редактирование: 23 мар 2018
    serga343, analytic, Карлайл и ещё 1-му нравится это.
  10. orka13

    orka13 orka13 ПартнерПартнер (А)

    Совсем забыл: чтобы выделит несколько значений, используйте там расширенный фильтр, или символ «или» в регулярках: «|». Пример (регистр роли не играет):
    Код:
    \b(банк|Денежные переводы|обмен валюты)\b
    Еще материал по теме (шпаргалка по регуляркам на 1 страницу): www.exlab.net/files/tools/sheets/regexp/regexp.png
     
  11. Mr-Grey

    Mr-Grey Mr-Grey МодерМодератор Команда форума

    О Т З Ы В

    1. Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик
    Опытный

    2. Отзыв излагается в собственном вольном стиле, но при этом он должен быть максимально развернутым.
    Это база данных с яндекс. Отформатированная и удобная к использованию. Разбита по категориям.

    3. Отзыв на материал, связанный с заработком, трафиком и иными сферами, направленными на достижение измеримых результатов в количественном или денежном выражении, должны подтверждаться скриншотами полученных результатов.
    Результат не заявлялся.

    4. В отзыве должны быть в обязательном порядке отражены следующие аспекты:
    4.1. В каком виде предоставлен материал и насколько удобно он оформлен?

    Материал предоставлен в формате .csv с огромным весом более 2гг. Также даны рекомендации по работе с такими файлами.

    4.2. Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Общее время заняло чуть меньше часа.

    4.3. Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Затруднений при проверке не возникло.

    4.4. Сколько времени заняло достижение заявленного автором результата?
    Результаты не заявлены.

    4.5. Нужны ли специальные навыки и дополнительные материальные вложения?
    Умение устанавливать программу на пк.

    4.6. Оказывал ли автор должную поддержку в процессе проверки?
    Всё было выдано сразу в полном объёме.

    4.7. Каковы в целом общие впечатления о компетентности автора?
    Тут база данных по сути. Компетентность как таковая не нужна.

    5. При выполнении заданий следует полностью отказаться от теоретизирования и просто шаг за шагом выполнять все указания, приведенные в инфопродукте.
    Не требовалось.

    6. Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Нет, автор помогал в вопросах. Их было всего два и по мелочам.

    7. В итоге считаю, что
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
    analytic, Гайзенберг и orka13 нравится это.
  12. htrmaster

    htrmaster htrmaster ОргОрганизатор

    Отзыв.

    Свой уровень владения информацией и навыками: в данной области вы: новичок, теоретик либо опытный практик?

    Практик.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    Материал предоставлен в виде текстового документа запакованного в архив ZIP, в распакованном виде 2,4Гб. Материал полностью соответствует описанию и примеру данных.

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Проверка заняла около 3х часов, увлекся слегка возможностями EmEditor в плане сортировки, но на моем средней мощности компьютере сортировки по 20-30 минут занимали.

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Никаких затруднений не было,

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Специальных навыков особых не нужно, как и вложений.

    Оказывал ли автор должную поддержку в процессе проверки?
    Поддержка не понадобилась.

    Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.
     
  13. intelligent man

    intelligent man intelligent man ЧКЧлен клуба

    А может ты начнешь продавать свой парсер?
    То есть, в базе будут все города России?
    https://skladchik.com/threads/База-Яндекс-Справочника-Россия.170686/ с чего ты решил, что складчина старая?
    Единственной плюс, как по мне сомнительный, так как есть ссылка выше. Если бы ты продавал парсер по подписке, вот было бы дело, подумай :)
     
    orka13 нравится это.
  14. orka13

    orka13 orka13 ПартнерПартнер (А)

    Он продается, но пока еще не на складчике, и в раннеей версии, там неудобно парсить большие регионы, а только по очереди города\области. Так что не спешу его популяризировать.
    А вот как раз на сборе этой базы я тестировал новую версию, которая еще не продается, так как надо больше тестов. Именно ее я планирую выставить вскоре на складчике с небольшой скидкой.
    Там уже можно спарсить всю страну, задав просто список областей.
    И в новой версии есть алгоритм обхода лимитов на 1 запрос. Кто парсил через другой софт или браузер ЯндексКарты, тот знает, что там лимит на максимальное количество элементов в выдаче. И если мы парсим город\область, где много нужных объектов (например по ВЧ-фразе «кафе»), то у большинства конкурентов (за всех не ручаюсь, так как вдруг кого упустил) софт выдает максимум ~200-500 результатов. Мой парсер в ранней версии смог увеличить этот показатель до ~1000-2000, в новой версии лимит снят вообще.
    Сам процесс парсинга:
    Я сначала спарсил все области\округа (91 шт) по том-ключам (2758), потом повторил подобное для топ-городов (3200). То есть "сначала с пушек", потом для страховки "с мелкокалиберного".
    Еще пару дней пошло на сбор базы почт всех сайтов с отчета отдельным парсером в БД SQLite. А потом уже офлайн-шаблоном я прогонял сайты каждой строки базы Я-Карт по базе с email, и записывал их в последний столбец при нахождении совпадений. Подумал, что это оптимальное, чем парсить каждый сайт еще на этапе парсинга Карт.
    Не просто Все города, а ВСЕ поселки, села, хутора, точки с девками на трассе :) и т.д., где есть хоть 1 объект из ЯндексКарт.
    Но не верьте мои словам, верьте фактам: скачайте из стартпоста по ссылке файл где есть весь столбец «Адрес» и проверьте его содержание.
    Например, там есть магазин здесь:
    Россия, Красноярский край, Таймырский Долгано-Ненецкий район, остров Правды
    Единственный минус – могли пропасть из базы некоторые объекты без указания страны «Россия» в адресе (косяк Яндекс карт, изредка страну в адресе не прописывают). Это из-за того что при парсинге пограничных областей захватывались организации с соседних стран, и мне пришлось возится с удалением строк без слова «Россия».
    Ну старая с отзывами, рассуждениями. Я ссылки привел, чтобы люди могли понять «Что такое базы Яндекс.Карт», сравнить с аналогами моей базы.
    Тут немного не понял к чему вы клоните. Типа моя база хуже, или сделать больше обновлений?
    Все будет со временем, упомянул об этом в начале поста.
     
    Гайзенберг и intelligent man нравится это.
  15. intelligent man

    intelligent man intelligent man ЧКЧлен клуба

    @orka13
    Уточню, у тебя как парсит шаблон, можно выбрать любые города? Можно выбрать любые рубрики? Можно спарсить по поисковым запросам, ключам?
    Сделай складчину еще на шаблон по сбору почт, только надо добавить туда хороший список минус слов (или как его правильно назвать).
     
  16. orka13

    orka13 orka13 ПартнерПартнер (А)

    города или любые гео-точки вставляем в один файл-список.Допускаются различные (народные) названия города, главное чтобы Яндекс "понял" о каком городе идет речь, и не прописал вместо нужного какой-то другой город с похожим названием.
    Можно также и другие географические точки уазывать (реки, озера...). Допускаются такие вариации:
    • Россия, Санкт-Петербург
    • Россия, Санкт-Петербург, улица Тельмана, 56
    • город Санкт-Петербург
    • Москва
    • МАсква
    • Питер
    • озеро Байкал

    По разным ключам в пределах единой рубрики парсинга нет. просто есть поиск по запросам\ключам, это и есть поиск по рубрике. То есть просто если задать в качестве ключа рубрику, то парсит всю рубрику. Например во второй файл-список вносим такие строки и вперед:
    • строительные и отделочные работы
    • автомобильные грузоперевозки
    • студия веб-дизайна
    • детские игровые залы и площадки
    • it-компания
    • строительная компания
    Вот это уже можно на днях сделать, там почти все протестировано.
     
    intelligent man нравится это.
  17. SevaMik

    SevaMik SevaMik ЧКЧлен клуба (А)

    Аллекс2014 нравится это.
  18. orka13

    orka13 orka13 ПартнерПартнер (А)

    @intelligent man
    Сделал таки складчину на тот парсер, со списком минус слов :):
    [ZennoPoster] Парсер Email с сайтов и их страниц (многопоток, Get-запросы, паук)
    И отдельно на базу, собранную с помощью этого парсера:
    База Email-адресов всех RU-сайтов: 2,3 млн. e-mail
     
    intelligent man нравится это.
  19. Testimonial

    Testimonial Testimonial ОргОрганизатор

    Официальный отзыв проверяющего:

    ВИДЕО ОТЗЫВ:


    Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Никогда не работал с базами больше чем 1000 человек. Был опыт спама по базе в 800 человек с помощью СМС.

    В каком виде предоставлен материал и насколько удобно он оформлен?
    База в формате .txt Весит 2.4гб. Легко открывается с помощью EmEditor.

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    Открытие базы - пару секунд. Проверка и сортировка - несколько часов, т.к. 4 миллиона строк сортировались по 10-40 минут.

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Усваивать его не надо. Проверяется за пару секунд вставкой названий организаций в Яндекс.Карту

    Сколько времени заняло достижение заявленного автором результата?
    Результат не заявлен. Пару часов проверял базу на соответствие.

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Понадобится подходящий редактор для работы с такими объемами данных. Автор предлагает EmEditor.

    Оказывал ли автор должную поддержку в процессе проверки?
    Автор оказал не просто поддержку - он сразу выдал всю нужную информацию не ожидая вопросов. А потом еще и предложил решение, когда я сам столкнулся с затруднением.

    Каковы в целом общие впечатления о компетентности автора?
    На мой взгляд автор собаку съел на работе с базами. На мои вопросы ответ был дан еще до того, как они возникли.

    Если в процессе проверки возникали какие-либо конфликты, недовольства либо значительные несоответствия полученных вами результатов заявленным автором в описании складчины - отразите эти моменты в своем отзыве.
    Замечаний нет.

    Вывод:
    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины



    Отсебятина:
    Если вы еще не знаете для чего вам нужна будет эта база - ее можно купить впрок и решить. Автор все равно обновит ее через пару месяцев - будет время подумать.:)
     
  20. orka13

    orka13 orka13 ПартнерПартнер (А)

    Спасибо за теплый отзыв!
    Забыл только в переписке подсказать что не обязательно искать вручную организацию на карте (хотя этот метод может даже и надежнее будет для проверки), а хватает просто в конце таблицы найти колонку «Страничка на Яндекс.Карты». Там указана страничка организации со всеми данными (у некоторых даже есть фото, отзывы..). Хотя я изредка замечал, что там может чуть по-другому информация отображаться, но различия минимальны (чуть меньше\больше деталей указано).
     
  21. yamelomanchik

    yamelomanchik yamelomanchik БанЗабанен

    Когда планируются сборы? Предлагаю уже начинать собираться потихоньку, так как взнос вырисовыется вполне адекватный.
     
Статус темы:
Закрыта.

Поделиться этой страницей

  1. Сбор взносов (Бизнес и свое дело):
  2. Нужен организатор (Бизнес и свое дело):