Скрипт автоматического создания новостных сайтов., Постоянный парсинг с разных источников

Тема в разделе "Обсуждение инфопродуктов", создана пользователем Old Chap, 25 фев 2013.

  1. Old Chap

    Old Chap ЧКЧлен клуба

    Загрузил скрипт и парсер на хостинг. Хочу поделиться своими впечатлениями.

    Достоинства:
    Скрипт и Парсер работают. Тянут контент с источников и отправляют на сайт по командам прописанным в Крон.
    Можно создать много сайтов с разными категориями, на разные темы, так как у нас лицензия без ограничений.

    Недостатки:
    Ошибка в коде
    Старые новости постятся на сайт хаотично, а не в соответствии с датой.
    Складчину (по ряду причин, о которых писать не буду) легко вычислили и лишили нас поддержки и обновлений.
    Всего два шаблона, т.е. два варианта дизайна.
    Один источник выдает крякозябы. И вообще источников маловато. Надо бы побольше.
    Нет уникализации контента.
    При редактировании новости (а как же без этого???) я вижу в админке, что у некоторых новостей нет титла (хотя на сайте все ок). После редактирования сохраняю новость и у меня титл на сайте пропадает. Попытка прописать титл в нужное поле ни к чему не приводит. Новость остается без титла. Скрипт сырой. Его бы нам на БЕТА-тестирование сначала нужно было дать.

    Если учесть, что еще неизвестно как его Яша будет индексировать (Гоша конечно худо-бедно будет) и будут ли принимать такие сайты в Сапу (для чего собственно он и сделан), то общее впечатление, мягко говоря, не очень.
     
  2. Stas111

    Stas111 БанЗабанен

    поживем увидим, а есть люди, заплатившие полную стоимость, так что нам можно сказать повезло
     
  3. Old Chap

    Old Chap ЧКЧлен клуба

    Да в целом ничего так. Я на самый крайний думаю его сделать под Адсенс. В принципе новости должны индексировать, так как в этом случае претензии к уникальности не такие строгие. Если посмотреть топы по новостным запросам, то там есть сайты, где новость скопирована один в один. А гиперссылки (и вообще ссылки) на источник нет. Видно РИА НОВОСТИ не особо за этим следит. Наверное забью я на эти попытки свои редактирования и уникализации. Больно муторное это дело. За сутки уже больше 1140 страниц.
     
  4. antiskladchik

    antiskladchik ЧКЧлен клуба

    Вы забываете, что новости с крупных проектов копируются молниеносно на сотни сайтов. Какие в итоге попадают в выдачу? Те, на которых постоянно тусуется народ т.е. более - менее крупные ресурсы с хорошим трастом. Если взять обычный сайт, то такое уже не прокатит т.к. ни траста, ни постоянной аудитории, ни хорошего ссылочного, ни истории домена не будет. Как итог - 80% вероятности того, что статья не попадёт даже в индекс поисковиков или вылетит оттуда за пару апдэйтов. Максимум на что стоит расчитывать - это создание сайтов под сапу и тому подобное. А под мфа это изначально неверная стратегия.
     
  5. супердоктор

    супердоктор ОргОрганизатор

    Под сапу и только под сапу. Под адсенс нужен посетитель, а он на этот сайт не пойдёт.
     
  6. Old Chap

    Old Chap ЧКЧлен клуба

    Кстати понял почему траблы с заголовками происходят. Если в новости титл вида:
    Продюсеры "Большой разницы" прочитали об уходе Гришаевой в газетах
    скрипт слово с кавычками обрезает и остается только:
    Продюсеры
    Приходится этот заголовок править вручную. Это явный баг скрипта и его автору надо устранять.
     
  7. derniere

    derniere ЧКЧлен клуба

    Сапа с яндексом хавают на ура, гугл тем более. Работает на рублевом хостинге, настраивается один раз за 5 минут. Чего еще надо ? :)

    единственный минус - мало источников, но дописать при желании не проблема.
     
  8. antiskladchik

    antiskladchik ЧКЧлен клуба

    если так, то какой тогда примерно средний возраст таких сайтов?
     
  9. Old Chap

    Old Chap ЧКЧлен клуба

    Может скинемся и оплатим на фрилансе разработку? Это проще чем самому разбираться и писать.
     
  10. Shadvolf

    Shadvolf БанЗабанен

    Уже стоит очень давно а посетителей все нет и нет....Что то тут не того....
     
  11. derniere

    derniere ЧКЧлен клуба

    естественно нулевые. главное "уникализаторами" не баловаться

    я за - надо клич в "ссылках" кинуть.
     
  12. gerov

    gerov ЧКЧлен клуба

    А на чем скрипт написан?
     
  13. Old Chap

    Old Chap ЧКЧлен клуба

    Скрипт основан на фреймворке CodeIgniter, использует шаблонизатор Smarty. Вот топик на Мауле
     
  14. astraweb

    astraweb СкладчикСкладчик

    Здравствуйте. Инсайдерская информация, тезисно

    Старые новости добавляются и ставят дату, которая есть в момент добавления
    Кракозяблы - ваши проблемы
    По поводу сырости скрипта - считайте, что это и был бета-тест. Вроде все получили актуальную версию, с исправленными ошибками.
    Парсеров уже давно больше пяти, только под новую версию
    Яша и Гоша индексируют, в сапу отлично принимают
    Люди, заплатившие полную стоимость, имеют все обновления, найденные ими баги оперативно устраняются, они имеют возможности писать шаблоны для новых доноров по упрощенной схеме и прочие плюшки.
    + у вашей версии скрипта есть существенный недостаток, но о нем вы узнаете чуть позже.

    Как-то так...
     
  15. Old Chap

    Old Chap ЧКЧлен клуба

    Я не о том. Когда парсим РИА-Новости, то там у каждой новости идет своя дата прямо в тексте новости. Если смотреть по этим датам, то получается разнобой.Ну можно на это не обращать внимание. Или вообще удалить ручками :)
    Ну я так понял, что корреспондент.нет у всех идет с крякозябами. Вряд ли это на нашей стороне. Я лично его не стал использовать.
    Ну если заработаю на Сапе на новый скрипт, то не исключаю такой возможности, что куплю лицензию.
     
  16. astraweb

    astraweb СкладчикСкладчик

    По РИА - допишите парсер, удаляйте дату из контента. Разве это проблема?
    Корреспондент у всех идет нормально, в последних версиях, это точно.
     
  17. Old Chap

    Old Chap ЧКЧлен клуба

    Подскажите как? Там надо удалять не только дату, а полностью первую фразу (иногда там еще бывает фамилия и имя корреспондента):
    ВЛАДИВОСТОК, 27 фев — РИА Новости.
     
  18. bardak

    bardak ДолжникДолжник

    кто не покупал, но хочет опробовать - такие сайты продают, уже готовые, цена дешевле...
    Какая-то часть остается в индексе, какая-то часть вылетает со свистом..
     
  19. kosstyan

    kosstyan ЧКЧлен клуба

    А можно ссылку где их продают?
     
  20. Dredd

    Dredd ЧКЧлен клуба

    Запустил для пробы новостник на этом скрипте, примерно полтора месяца назад, итог: >2к страниц и в яндексе и в гугле, примерно 20 человек посещалка. Сайт никак не продвигался. Единственно сам дописал 4 доп источника.
     

Поделиться этой страницей