Скрипт автоматического создания новостных сайтов., Постоянный парсинг с разных источников

Тема в разделе "Обсуждение инфопродуктов", создана пользователем Old Chap, 25 фев 2013.

  1. 25 фев 2013
    #1
    Old Chap
    Old Chap ЧКЧлен клуба
    Загрузил скрипт и парсер на хостинг. Хочу поделиться своими впечатлениями.

    Достоинства:
    Скрипт и Парсер работают. Тянут контент с источников и отправляют на сайт по командам прописанным в Крон.
    Можно создать много сайтов с разными категориями, на разные темы, так как у нас лицензия без ограничений.

    Недостатки:
    Ошибка в коде
    Старые новости постятся на сайт хаотично, а не в соответствии с датой.
    Складчину (по ряду причин, о которых писать не буду) легко вычислили и лишили нас поддержки и обновлений.
    Всего два шаблона, т.е. два варианта дизайна.
    Один источник выдает крякозябы. И вообще источников маловато. Надо бы побольше.
    Нет уникализации контента.
    При редактировании новости (а как же без этого???) я вижу в админке, что у некоторых новостей нет титла (хотя на сайте все ок). После редактирования сохраняю новость и у меня титл на сайте пропадает. Попытка прописать титл в нужное поле ни к чему не приводит. Новость остается без титла. Скрипт сырой. Его бы нам на БЕТА-тестирование сначала нужно было дать.

    Если учесть, что еще неизвестно как его Яша будет индексировать (Гоша конечно худо-бедно будет) и будут ли принимать такие сайты в Сапу (для чего собственно он и сделан), то общее впечатление, мягко говоря, не очень.
     
  2. 25 фев 2013
    #2
    Stas111
    Stas111 БанЗабанен
    поживем увидим, а есть люди, заплатившие полную стоимость, так что нам можно сказать повезло
     
  3. 25 фев 2013
    #3
    Old Chap
    Old Chap ЧКЧлен клуба
    Да в целом ничего так. Я на самый крайний думаю его сделать под Адсенс. В принципе новости должны индексировать, так как в этом случае претензии к уникальности не такие строгие. Если посмотреть топы по новостным запросам, то там есть сайты, где новость скопирована один в один. А гиперссылки (и вообще ссылки) на источник нет. Видно РИА НОВОСТИ не особо за этим следит. Наверное забью я на эти попытки свои редактирования и уникализации. Больно муторное это дело. За сутки уже больше 1140 страниц.
     
  4. 25 фев 2013
    #4
    antiskladchik
    antiskladchik ЧКЧлен клуба
    Вы забываете, что новости с крупных проектов копируются молниеносно на сотни сайтов. Какие в итоге попадают в выдачу? Те, на которых постоянно тусуется народ т.е. более - менее крупные ресурсы с хорошим трастом. Если взять обычный сайт, то такое уже не прокатит т.к. ни траста, ни постоянной аудитории, ни хорошего ссылочного, ни истории домена не будет. Как итог - 80% вероятности того, что статья не попадёт даже в индекс поисковиков или вылетит оттуда за пару апдэйтов. Максимум на что стоит расчитывать - это создание сайтов под сапу и тому подобное. А под мфа это изначально неверная стратегия.
     
  5. 26 фев 2013
    #5
    супердоктор
    супердоктор ОргОрганизатор
    Под сапу и только под сапу. Под адсенс нужен посетитель, а он на этот сайт не пойдёт.
     
  6. 26 фев 2013
    #6
    Old Chap
    Old Chap ЧКЧлен клуба
    Кстати понял почему траблы с заголовками происходят. Если в новости титл вида:
    Продюсеры "Большой разницы" прочитали об уходе Гришаевой в газетах
    скрипт слово с кавычками обрезает и остается только:
    Продюсеры
    Приходится этот заголовок править вручную. Это явный баг скрипта и его автору надо устранять.
     
  7. 26 фев 2013
    #7
    derniere
    derniere ЧКЧлен клуба
    Сапа с яндексом хавают на ура, гугл тем более. Работает на рублевом хостинге, настраивается один раз за 5 минут. Чего еще надо ? :)

    единственный минус - мало источников, но дописать при желании не проблема.
     
  8. 26 фев 2013
    #8
    antiskladchik
    antiskladchik ЧКЧлен клуба
    если так, то какой тогда примерно средний возраст таких сайтов?
     
  9. 26 фев 2013
    #9
    Old Chap
    Old Chap ЧКЧлен клуба
    Может скинемся и оплатим на фрилансе разработку? Это проще чем самому разбираться и писать.
     
  10. 26 фев 2013
    #10
    Shadvolf
    Shadvolf БанЗабанен
    Уже стоит очень давно а посетителей все нет и нет....Что то тут не того....
     
  11. 26 фев 2013
    #11
    derniere
    derniere ЧКЧлен клуба
    естественно нулевые. главное "уникализаторами" не баловаться

    я за - надо клич в "ссылках" кинуть.
     
  12. 26 фев 2013
    #12
    gerov
    gerov БанЗабанен
    А на чем скрипт написан?
     
  13. 26 фев 2013
    #13
    Old Chap
    Old Chap ЧКЧлен клуба
    Скрипт основан на фреймворке CodeIgniter, использует шаблонизатор Smarty. Вот топик на Мауле
     
  14. 26 фев 2013
    #14
    astraweb
    astraweb СкладчикСкладчик
    Здравствуйте. Инсайдерская информация, тезисно

    Старые новости добавляются и ставят дату, которая есть в момент добавления
    Кракозяблы - ваши проблемы
    По поводу сырости скрипта - считайте, что это и был бета-тест. Вроде все получили актуальную версию, с исправленными ошибками.
    Парсеров уже давно больше пяти, только под новую версию
    Яша и Гоша индексируют, в сапу отлично принимают
    Люди, заплатившие полную стоимость, имеют все обновления, найденные ими баги оперативно устраняются, они имеют возможности писать шаблоны для новых доноров по упрощенной схеме и прочие плюшки.
    + у вашей версии скрипта есть существенный недостаток, но о нем вы узнаете чуть позже.

    Как-то так...
     
  15. 27 фев 2013
    #15
    Old Chap
    Old Chap ЧКЧлен клуба
    Я не о том. Когда парсим РИА-Новости, то там у каждой новости идет своя дата прямо в тексте новости. Если смотреть по этим датам, то получается разнобой.Ну можно на это не обращать внимание. Или вообще удалить ручками :)
    Ну я так понял, что корреспондент.нет у всех идет с крякозябами. Вряд ли это на нашей стороне. Я лично его не стал использовать.
    Ну если заработаю на Сапе на новый скрипт, то не исключаю такой возможности, что куплю лицензию.
     
  16. 27 фев 2013
    #16
    astraweb
    astraweb СкладчикСкладчик
    По РИА - допишите парсер, удаляйте дату из контента. Разве это проблема?
    Корреспондент у всех идет нормально, в последних версиях, это точно.
     
  17. 27 фев 2013
    #17
    Old Chap
    Old Chap ЧКЧлен клуба
    Подскажите как? Там надо удалять не только дату, а полностью первую фразу (иногда там еще бывает фамилия и имя корреспондента):
    ВЛАДИВОСТОК, 27 фев — РИА Новости.
     
  18. 27 фев 2013
    #18
    bardak
    bardak ДолжникДолжник
    кто не покупал, но хочет опробовать - такие сайты продают, уже готовые, цена дешевле...
    Какая-то часть остается в индексе, какая-то часть вылетает со свистом..
     
  19. 3 мар 2013
    #19
    kosstyan
    kosstyan ДолжникДолжник
    А можно ссылку где их продают?
     
  20. 5 мар 2013
    #20
    Dredd
    Dredd ЧКЧлен клуба
    Запустил для пробы новостник на этом скрипте, примерно полтора месяца назад, итог: >2к страниц и в яндексе и в гугле, примерно 20 человек посещалка. Сайт никак не продвигался. Единственно сам дописал 4 доп источника.
     

Поделиться этой страницей