Открыто

Content Downloader проект для парсинга с aliexpress.com

Тема в разделе "Скрипты и программы", создана пользователем Funnytattoo, 6 апр 2016.

Цена: 3500р.-75%
Взнос: 861р.

Основной список: 5 участников

Резервный список: 3 участников

  1. 6 апр 2016
    #1
    Funnytattoo
    Funnytattoo ОргОрганизатор

    Content Downloader проект для парсинга с aliexpress.com

    добрый день,

    Предлагаю скинуться на создание проекта для работы с программой Content Downloader для парсинга информации о товарах и отзывов с aliexpress.com

    всем кому интересно и нужен такой проект,
    в excel файле 1 есть 4 колоноки не относящихся к парсингу, они нужны для переноса в магазин на opencart, думаю их легко можно будет удалить из выдачи шаблона, если они вам не нужны.

    КРАТКО проект будет парсить
    excel файл 1
    ID товара на aliexpress.com, имя товара, рейтинг товара, кол-во отзывов о товаре, язык отзыва, имя покупателя, текст отзыва, рейтинг отзыва, дату и время отзыва
    +сохранять в папку все картинки из отзывав загруженные покупателями

    excel файл 2
    ID товара на aliexpress.com, имя товара, рейтинг товара, кол-во отзывов о товаре, кол-во заказов товара, стоимость, валюта стоимости, кол-во в наличии, даставка в срок (дней), время обработки заказа (дней)?, имя продавца, положительные отзыва продавца в %, рейтинг продавца, title, meta name keywords, meta name description, кол-ва добавивших товар в виш лист
    +сохранять все картинки каждого продукта

    я связалась с потенциальным исполнителем Фёдор Алексеевич info@tolkovo.by
    при ознакомлении с ТЗ получила ответ

    "За 3500 сделаю.
    Если подождете, то поработаем. Я на дня 4 набрал работы, так что сразу приступить не смогу.
    С Т.З. бегло ознакомился, но вроде как все должно получиться. Если что-то будет не получаться, то по ходу дела определимся как дальше действовать"



    предлагаю проект ТЗ ниже


    интересует стоимость проекта для content downloader, чтобы парсить отзывы о продуктах с aliexpress.com, которые вроде через javascript подгружаются


    прилагаю картинку и эксель файл со структурой данных

    в предложенном примере парсер обрабатывает отдельные ссылки на товары,

    также хотелось бы, чтобы забить слово в поиск алиэкспресс, например, стул, отсортировать по заказам и уже из этой ссылки, каталога продуктов (как бы вид как у категории, когда несколько продуктов на странице) извлекать ссылки на продукты с которыми потом проделывать все как для отдельной ссылки на продукт

    там при поиске происходит выгрузка из 12 строк в каждой по 4 продукта, потом переход на след страницу, так вот чтобы автоматически вытаскивать ссылки на продукты и переходить на след страницу, может задавать мах кол-во просматриваемых страниц, чтоб он до бесконечности не парсил


    в эксель файл 1

    ссылка на продукт из примера

    Скрытая ссылка

    в эксель файле 1 верхняя серая колонка с нумерацией колонок не нужна, она просто, чтобы более понятно было, этими номерами пронумеровала данные, которые парсить

    колонка 6 - просто последовательная нумерация отзывов
    колонка 7 - оставлять пустой
    колонка 8 - для всех, загружаемых строк значение 1
    колонка 12 - для всех, загружаемых строк значение 1
    колонка 13 - это как бы сводная колонок 14 и 15, но обязательно с форматом ячеек yyyy-mm-dd hh:mm


    необходимо в одну отдельную папку, сохранять большие фотографии, выложенные покупателями, если такие есть.

    Сделать возможность задавать 2 разных шаблона для именования выгружаемых фотографий
    1) именовать их как Product name.jpeg Product name-2.jpeg имя берется с дефисами flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker.jpeg
    flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker-2.jpeg

    2) именовать их как Product ID.jpeg Product ID-2.jpeg из примера 32249522818.jpeg и 32249522818-2.jpeg

    - возможно, у каждого отзыва есть свой ID, его тоже можно в отдельную колонку выгружать, чтобы при повторном парсинге одного продукта, уже спарсенные отзывы не выгружать, какую-то проверку для этого, если возможно

    - возможность задавать ограничение для выгружаемых отзывов на продукт, выгружать только отзывы с текстом или картинками, а в конце отзывы просто без текста их выгружать не нужно.

    или по другому, если как-то можно пропускать отзывы без текста, и избегать повторной загрузки отзывов при повторном парсинге ссылок уже пропарсенных продуктов


    в эксель файл 2, для тех же ссылок на продукты сохранять

    в эксель файле 1 верхняя серая колонка с нумерацией колонок не нужна, она просто, чтобы более понятно было, этими номерами пронумеровала данные, которые парсить

    колонка 1 - просто нумерация строк таблицы начиная со второй, те не считая строку заголовка
    колонка 9 - если можно выгружать валюту цены
    колонка 12 - время обработки заказа, уточните, если можно его сюда парсить, оно выскакивает при нажатии на кнопку купить, как видно на картинке проект файла 2.2.jpeg
    колонка 16,17,18 - берутся значения прописанные из кода страницы

    Также как и с отзывами необходимо в отдельную папку сохранять все большие фотографии со страницы продукта, т.е. в данном примере это 6 фотографий.

    Сделать возможность задавать 2 разных шаблона для именования выгружаемых фотографий

    1) именовать их как Product name.jpeg Product name-2.jpeg имя берется с дефисами flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker.jpeg
    flash-silver-gold-tattoos-glitter-metallic-body-art-tattoo-for-women-temporary-flash-tattoo-feather-choker-2.jpeg

    2) именовать их как Product ID.jpeg Product ID-2.jpeg из примера 32249522818.jpeg и 32249522818-2.jpeg


    - При возникновении какой-либо ошибки должна быть возможность запустить парсер с последнего записанного товара.

    - Должны формироваться отчеты после завершения работы парсера – какие товары/ссылки обработаны, сколько ссылок обработано.


    пожалуйста уточните стоимость и все ли можно реализовать, если что-то нельзя напишите.

    организатору нужно связаться с исполнителем и заказать проект по ТЗ выше

    excel файл 1.jpg проект файл 1.jpg excel файл 2.jpg проект файл 2.jpg проект файл 2.2.jpg проект файл 2 код страницы продукта.jpg
     
  2. Последние события

    1. skladchik.com
      В складчине участвует 5 человек(а).
      15 янв 2024
    2. Stran_nik
      Stran_nik не участвует.
      19 дек 2023
    3. skladchik.com
      В складчине участвует 5 человек(а).
      8 дек 2023
    4. skladchik.com
      В складчине участвует 5 человек(а).
      14 ноя 2022

    Последние важные события

    1. skladchik.com
      Нужен организатор складчины.
      16 янв 2017
    2. skladchik.com
      PoltavaPGS организатор.
      4 окт 2016
  3. Обсуждение
  4. 6 апр 2016
    #2
    instocky
    instocky ЧКЧлен клуба (А)
    Это шаблон для CD?
     
  5. 6 апр 2016
    #3
    SeoScope
    SeoScope ЧКЧлен клуба
    Сами не пробовали сделать? Ничего сложного в проекте не увидел..
    А если все таки будет сложно, то рекомендовал бы обратиться к одному из админов форума CD - Kagorec. Исходя из моего опыта работы с ним - весьма адекватные цены при отличном качестве и высокой скорости исполнения.
     
    2 пользователям это понравилось.
  6. 6 апр 2016
    #4
    Funnytattoo
    Funnytattoo ОргОрганизатор
    да, это шаблон или проект как его называют

    сама могу сделать половину, наверное с пасингом инфы со страницы, но вот парсинг инф-ии подгружаемой как-то (как комментариии в данном случае) не разобралась пока.
    я написала 3-м из исполнителей с сайта разработчика программы, и рекомендованный вами исполнитель вообще не отозвался(
    мне все равно кто сделает, если будет как в ТЗ, сделала пост тут тк, возможно, насобираемся раньше, чем я сама дудумаю как это сделать,
    и потом по готовому проекту также проще разобрать что и как, чтоб научится)

    P.S. если можете помочь или сказать где почитать про работу с загрузкой страницы через json вроде, для работы с подгружаемой информацией из комментариев, буду ОЧЕНЬ БЛАГОДАРНА!
     
  7. 6 апр 2016
    #5
    Accidental
    Accidental БанЗабанен
    Funnytattoo,
     
    1 человеку нравится это.
  8. 7 апр 2016
    #6
    Funnytattoo
    Funnytattoo ОргОрганизатор
    спасибо, за ответ, попробую разобраться,но все выше описанное не кажется мне очень простым, поэтому и родилась эта складчина, про json я писала тк увидела эту ветку на форуме,
    возможно, код страницы продукта был переписан

     
  9. 4 окт 2016
    #7
    PoltavaPGS
    PoltavaPGS ШтрафникШтрафник
    Вот задумался о организации данной складчины. Хотелось бы понять актуальность ТЗ и вообще актуальность складчины
     
  10. 23 май 2017
    #8
    bspektor
    bspektor ДолжникДолжник
    Интересно почему нигде не упомянули что для использования проекта надо использовать полную версию ultimate. С WbAPP. Потому как если там есть подгружаемые данные - без неё никак все равно пользоваться не получится.
     

Поделиться этой страницей