Закрыто

Большая база сообществ ВК с параметрами [8.7 млн. шт, собрана в январе 2019]

Тема в разделе "Бизнес и свое дело", создана пользователем WebBot, 10 янв 2019.

Цена: 12580р.
Взнос: 1500р.
58%

Основной список: 17 участников

Резервный список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 10 янв 2019
    #1
    WebBot
    WebBot ПартнерПартнер (А)

    Большая база сообществ ВК с параметрами [8.7 млн. шт, собрана в январе 2019]

    vk_groups.jpg

    Базу собираю сам для своих нужд, поэтому наиболее подходящим счел именно авторский раздел, а не раздел про базы, где все покупают в складчину чужие базы.

    Итак. База получена путем парсинга 180 000 000 сообществ ВК. На момент парсинга (начало января 2019) это все сообщества ВК созданные за все время существования соцсети...

    После удаления всех забаненнных и удаленных сообществ, а так же тех сообществ у которых количество участников меньше 100 человек, осталась база со следующими характеристиками:

    Характеристики базы:

    Всего сообществ в базе = 8 742 646

    Сообществ с кол-вом участников от 10 тыс.= 164 577
    Сообществ с кол-вом участников от 50 тыс.= 32 206
    Сообществ с кол-вом участников от 100 тыс.= 17 259
    Сообществ с кол-вом участников от 500 тыс. = 3 257
    Сообществ с кол-вом участников от 1 млн. = 1 348
    Сообществ с кол-вом участников от 3 млн. = 177
    Сообществ с кол-вом участников от 5 млн. = 44

    Сообществ типа "группа" = 5 654 808
    Сообществ типа "паблик" = 1 996 093
    Сообществ типа "мероприятие/встреча" = 1 091 745

    Верифицированных сообществ: 3 738
    Сообщества отмеченные "огоньком": 298

    Групп с открытой стеной = 3 822 464
    Групп в видеозаписи кот. можно закачать видео: 1 913 128
    Сообществ которым можно отправить сообщение: 2 363 079

    Закрытых групп = 549 300

    P.S Возможно у некоторых возник вопрос о том, почему здесь нет информации о возможности комментирования. Дело в том, что возможность комментирования НЕ является свойством сообщества (в отличие от, например, возможности делать пост на стене или закачивать видеозаписи). Возможность комментировать - это свойство стены и каждой записи на стене в отдельности. Я же парсю только сами сообщества (не касаясь стен/записей являющихся отдельной сущностью), поэтому информации о возможности комментирования здесь нет!

    Размер базы

    Размер дампа полной базы: 8.8 Gb ( 2.97 Gb в архиве ) - содержит все данные о сообществах
    Размер дампа облегченной базы: 758 Mb ( 255 Mb в архиве) - содержит только наиболее часто используемые данные

    P.S Всем покупателям будут доступны обе версии (полная и облегченная)

    Формат базы

    Все данные хранятся в БД MySQL. Соответственно все покупатели получают от меня дамп таблицы MySQL. Я понимаю что многим привычнее Excel, но такое количество данных эксель просто не потянет.

    Полная версия базы содержит следующие столбцы

    id - id сообщества
    screen_name - короткое имя сообщества
    name - название сообщества
    description - описание сообщества
    type - тип сообщества ( может иметь значения group, page или event )
    is_closed - открыто или закрыто сообщество ( 1 - закрыто, 0 - открыто )
    members_count - количество участников
    can_post - можно ли сделать пост на стену ( 1 - можно, 0 - нельзя )
    can_upload_video - можно ли добавить видео в видеозаписи ( 1 - можно, 0 - нельзя )
    can_message - можно ли отправить сообщение сообществу ( 1 - можно, 0 - нельзя )
    verified - верифицировано ли сообщество ( 1 - да, 0 - нет )
    trending - отмечено ли сообщество "огоньком" ( 1 - да, 0 - нет )
    site - сайт сообщества
    has_photo - установлено ли фото в сообществе ( 1 - да, 0 - нет )
    wall - стена ( 0 - выключена, 1 - открытая, 2 - ограниченная, 3 - закрытая )
    status - статус
    main_album_id - id основного альбома
    main_section - главная секция ( 0 - отсутствует, 1 - фотографии, 2 - обсуждения, 3 - аудио, 4 - видео, 5 - товары)
    country_id - id страны
    city_id - id города
    age_limit - возрастные ограничения ( 1 - нет, 2 - 16+, 3 - 18+ )
    public_start_date - дата основания паблика в формате YYYYMMDD
    event_start_date - дата начала встречи в формате unixtime
    event_finish_date - дата окончания встречи в формате unixtime
    photo_50 - мелкое фото
    photo_100 - среднее фото
    photo_200 - крупное фото

    Облегченная версия базы содержит следующие столбцы:

    id - id сообщества
    name - название сообщества
    type - тип сообщества ( может иметь значения group, page или event )
    is_closed - открыто или закрыто сообщество ( 1 - закрыто, 0 - открыто )
    members_count - количество участников
    can_post - можно ли сделать пост на стену ( 1 - можно, 0 - нельзя )
    can_upload_video - можно ли добавить видео в видеозаписи ( 1 - можно, 0 - нельзя )
    can_message - можно ли отправить сообщение сообществу ( 1 - можно, 0 - нельзя )
    verified - верифицировано ли сообщество ( 1 - да, 0 - нет )
    trending - отмечено ли сообщество "огоньком" ( 1 - да, 0 - нет )
    country_id - id страны
    city_id - id города

    Как видите отсюда выкинуты все данные, которые редко нужны большинству пользователей. Оставлено только все самое необходимое для подбора сообществ.

    Кому может пригодиться данная база

    - спамерам, тем кто делает посевы видео и тп
    - рекламщикам
    - пиарщикам
    - аналитикам
    - smm-сервисам и smm-специалистам

    Я никогда не имел дел с MySQL, смогу ли я разобраться?

    Для тех кто совсем далек от работы с БД MySQL я сделаю краткий мануал в котором расскажу:
    - как поставить пакет программ OpenServer ( MySQL туда уже включен )
    - как импортировать полученный дамп в БД (через консоль)
    - как подключиться к БД с помощью программы HeidiSQL (так же входит в OpenServer) и сделать нужную выборку сообществ из базы.

    В общем дам минимальный необходимый набор информации для того что бы вы могли работать с полученной базой (делать выборки по критериям).

    Отзывы:
    Hade
    Testimonial
    htrmaster
     
    Последнее редактирование модератором: 22 янв 2019
    11 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина закрыта.
      22 май 2021
    2. Kos1398
      Kos1398 участвует.
      16 авг 2020
    3. VerifiedSS
      VerifiedSS не участвует.
      1 авг 2020
    4. VerifiedSS
      VerifiedSS участвует.
      1 авг 2020

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      22 май 2021
    2. skladchik.com
      Складчина доступна.
      27 янв 2019
    3. skladchik.com
      Складчина активна.
      27 янв 2019
    4. skladchik.com
      Сбор взносов начинается 27.01.2019.
      25 янв 2019
  3. Отзывы участников

    5/5,
    • 5/5,
      Работой организатора доволен
      Отличная база для тех, кто понимает, зачем она ему нужна... Работа проделана колоссальная и заслуживает отдельной благодарности. Спасибо и автору и организатору складчины.
      1 фев 2019
      6 пользователям это понравилось.
    • 5/5,
      Работой организатора доволен
      В целом, конечно, ТС проделал большую работу. Собрать обработать 180кк групп, превратив 8.9кк, дорогого стоит. С материалом работать можно. Конечно, могут возникнуть трудности, в виде лишней возни, при обработке огромного к-ва данных. Ну кому надо справится. Мне лично, было бы достаточно урлов групп по к-ву подписчиков для поиска админов под ВП. Кому то, возможно нужно больше параметров. ОРГУ отдельное спс ;-)
      29 янв 2019
      7 пользователям это понравилось.
  4. Обсуждение
  5. 10 янв 2019
    #2
    WebBot
    WebBot ПартнерПартнер (А)
    Потенциально один проверяющий есть, поэтому нужны еще 2 официальных проверяющих, которые смогут быстро (не затягивая время) осуществить проверку. Неоф. проверяющие не требуются!
    На проверку отдам после после того как сделю мануал для тех кто никогда не работал с MySQL (думаю это займет 1-2 дня).
     
  6. 10 янв 2019
    #3
    htrmaster
    htrmaster ОргОрганизатор
    готов проверит официально:cool:
     
  7. 10 янв 2019
    #4
    Hade
    Hade ДолжникДолжник
    Насколько быстро база может потерять актуальность.
     
  8. 11 янв 2019
    #5
    ZevSua
    ZevSua ОргОрганизатор
    Я думаю если автор пообещает 1 раз в месяц на протяжении полугода давать обновы - то это будет весьма айс. Раз в месяц запустить готовый инструмент для парсинга - не думаю что будет проблемой для автора.
     
    1 человеку нравится это.
  9. 12 янв 2019
    #6
    Hade
    Hade ДолжникДолжник
    согласен , потому что добывать такую инфу даже через сервисы не комильфо
     
  10. 13 янв 2019
    #7
    Andrey67
    Andrey67 ОргОрганизатор
    Готов стать проверяющим!
     
  11. 14 янв 2019
    #8
    WebBot
    WebBot ПартнерПартнер (А)
    Сложно сказать. В целом в параметрах сообществ редко что-то кардинально меняется кроме количества участников.

    Для меня же вообще в этой базе главное не параметры, а возможность найти максимум сообществ определенной тематики. Не секрет что и VK API и веэб версия позволяют получить по ключевому слову не более 1000 результатов. Ели разбить один запрос на 3 ( отдельно для групп, отдельно для пабликов и отдельно для встреч), то допустим можно получить суммарно 3000 результатов на один запрос. И все! Из них еще какая-то часть окажется забаненой, частично это будут закрытые группы и тд ...

    Представь что ты таргетолог и собираешь активную аудиторию в тематических сообществах (например тех юзеров кто комментит посты т.к это самые активные и заинтересованные тематикой юзеры) ... и ты и твои конкуренты собираете эту активную аудиторию из одних и теж же 3000 сообществ .... но кроме этих 3000 в вашей тематике возможно есть еще куча сообществ (пусть даже небольших) и там то же обитает активная аудитория которую можно спарсить ... но ВК эти сообщества тебе не покажет! 3000 и все!

    Вот яркий тому пример: допустим мы ищем женские сообщества для сбора активной аудитории ... ищем по слову женск (корень) ... ВК нам максимум даст 3000 сообществ ...
    А вот сколько даст база

    2019-01-14_19-20-25.png

    34199 не закрытых сообщества которое в названии имеет женск. А ведь в каждом из них может быть твой клиент, который принесет тебе $$$
     
    2 пользователям это понравилось.
  12. 15 янв 2019
    #9
    Romikod
    Romikod ЧКЧлен клуба
    @WebBot в них свой сайт можно будет рекламировать, я имею ввиду где стены открыты?
     
  13. 15 янв 2019
    #10
    WebBot
    WebBot ПартнерПартнер (А)
    Тут более подходит слово спамить, а не рекламить ;) А так да, если стена открыта, то на нее может что-то запостить любой человек. Например, какую-нибудь свою рекламу ... но делать это нужно аккуратно и со знанием дела т.к спам-фильтры в ВК никто не отменял.
     
    1 человеку нравится это.
  14. 16 янв 2019
    #11
    WebBot
    WebBot ПартнерПартнер (А)
    В дополнение к ID страны и ID города в базу добавлены 2 cтолбца:
    country_name - название страны
    city_name - название города

    Так же сегодня были обновлены данные по количеству участников сообществ. В общем база самой первой свежести!
     
    2 пользователям это понравилось.
  15. 16 янв 2019
    #12
    Ragnar Lodbrok
    Ragnar Lodbrok АдминАдминистратор Команда форума
    @nick3711 @Pasha M100381
    если в теме есть реклама данного продукта, то еще одну размещать запрещено.
     
  16. 16 янв 2019
    #13
    Anyaax
    Anyaax ЧКЧлен клуба
    добавляйте все что есть, много данных не бывает! ).
    вот бы еще спарсить пользователей из этих групп, и провести параллели потом по каждому в каких группах они пересекаются. то есть делать выборки по участию сразу в нескольких группах
     
  17. 16 янв 2019
    #14
    Testimonial
    Testimonial ШтрафникШтрафник
    База в 8 миллионов строк весит 8 с лишним Гб. База на несколько миллиардов строк (как предлагаете вы) не поместилась бы на ваш винчестер ;)
     
    1 человеку нравится это.
  18. 17 янв 2019
    #15
    Anyaax
    Anyaax ЧКЧлен клуба
    та не, не все так страшно ). вы же схлопнете пользователей на повторах.
    в каталоге вконтакте 527 млн. индексов. немалая часть из них боты. плюс вы часть групп повычистили. в лучшем случае, это и будет активная половина пользователей в 250млн строк. то бишь, на моем 4Тб внешнем жестком ей места достаточно )
     
  19. 17 янв 2019
    #16
    Testimonial
    Testimonial ШтрафникШтрафник
    Я то какое отношение к этому всему имею?)
     
  20. 17 янв 2019
    #17
    Anyaax
    Anyaax ЧКЧлен клуба
    а да, промахнулась ). будем считать это был фигуральный разговор )
     
  21. 17 янв 2019
    #18
    Hade
    Hade ДолжникДолжник
    ОТЗЫВ:

    Для начала обязательно укажите свой уровень владения информацией и навыками: в данной области вы новичок, теоретик либо опытный практик?
    Практик. Занимаюсь автоматизацией на зенке , работаю с трафиком .

    В каком виде предоставлен материал и насколько удобно он оформлен?
    Подробная инструкция. 2е sql базы

    Сколько времени заняло изучение и выполнение заданий данного инфопродукта?
    где то 30-40 без спешки , проверил базу на актуальность + несколько запросов по БД

    Насколько легко усваивается материал, вызвал ли он какие-либо затруднения при проверке?
    Проблем не было

    Сколько времени заняло достижение заявленного автором результата?
    Результатов заявленно не было, формально БД содержит заявленное кол-во групп

    Нужны ли специальные навыки и дополнительные материальные вложения?
    Навыки?! Надо будет поставить софт для работы с БД. Я пользовался HeidiSQL

    Оказывал ли автор должную поддержку в процессе проверки?
    Да автор был всегда в общей переписке и оперативно отвечал

    Каковы в целом общие впечатления о компетентности автора?
    Автор компетентен, проверяю не первую его складчину. Надеюсь не последнюю.

    Материал полностью соответствует заявленному автором описанию и пригоден для проведения складчины.

    Базу проверил. С MySQL до этого не работал, но с установкой софта и импортом базы никаких проблем не возникло т.к инструкция очень подробная и с картинками. Сделал несколько выборок по интересующим меня запросам, ничего сложного нет (в инструкции автор приводит примеры различных запросов для получения результатов по различным критериям). Без проблем экспортировал результат в Excel. В целом базой остался доволен, буду пользоваться для своих тем.
     
    4 пользователям это понравилось.
  22. 17 янв 2019
    #19
    WebBot
    WebBot ПартнерПартнер (А)
    @Hade
    Спасибо за отзыв!
     
  23. 17 янв 2019
    #20
    WebBot
    WebBot ПартнерПартнер (А)
    Приветствую!
    Ради интереса посчитал суммарное количество юзеров в группах представленных в базе.
    Что бы даже просто составить таблицу из двух столбцов group_id и user_id, показывающую принадлежность юзера к той или иной группе, таблица получиться вот на сколько строк ;)
    2019-01-17_20-09-02.png
    Я честно говоря даже затрудняюсь сказать осилит ли MySQL такое количество записей ;))))
     
    Последнее редактирование модератором: 17 янв 2019
    3 пользователям это понравилось.
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей