Закрыто

[Python] Скрипт чистки текста

Тема в разделе "Бизнес и свое дело", создана пользователем montero, 25 авг 2016.

Цена: 19263р.
Взнос: 250р.
102%

Основной список: 83 участников

Резервный список: 3 участников

Статус обсуждения:
Комментирование ограничено.
  1. 31 авг 2016
    #41
    montero
    montero ЧКЧлен клуба (А)
    Файл, залитый на Я.Диск, пустой. У меня не получилось с парсингом:( в какой формат делать экспорт, там нет текстового? что-то из настроек по умолчанию надо менять?
    Можно еще файл залить?
     
  2. 31 авг 2016
    #42
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    Ага)

    @Roman_77, хотелось бы увидеть результат обработки этого файла, вашим скриптом :)
     
  3. 31 авг 2016
    #43
    montero
    montero ЧКЧлен клуба (А)
    Надеюсь дядя Вася перезальет. Жду.
    Кстати, можете выкладывать свои файлы, я обработаю, выложу.
     
  4. 1 сен 2016
    #44
    дядя Вася
    дядя Вася ЧКЧлен клуба
    Сорри, почему-то не сохранился. Перезалил по той же ссылке:

    Датаколом, конечно, жестко сниппеты парсятся. Парсятся и урлы, и хлебные крошки. Лучше всего парсить сеодором. Там базовая обработка текстов сниппетов есть из коробки. Но цельные предложения без мусора тут есть, думаю, скрипт ваш справиться должен.
     
  5. 1 сен 2016
    #45
    дядя Вася
    дядя Вася ЧКЧлен клуба
    Там только по умолчанию - эксель. С него скопировать в текстовый файл можно. В произвольном не сохраняет.

    И еще вопрос - на своем сервере можно будет запустить или какой-то эмулятор питона на винду нужен?
     
  6. 1 сен 2016
    #46
    дядя Вася
    дядя Вася ЧКЧлен клуба
    А вот еще поинтереснее файлик. Реальная текстовка с сайта. Интересно также, как его обработает софт:
     
  7. 1 сен 2016
    #47
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    ссылка была на морду складчины... сорри, как то не так скопировалась ((
     
  8. 1 сен 2016
    #48
    montero
    montero ЧКЧлен клуба (А)

    Обработал. Думаю, результат понравится. Использовал скрипт без изменений, такой отдал проверяющим. Шероховатости легко устранимы.
     
  9. 1 сен 2016
    #49
    montero
    montero ЧКЧлен клуба (А)
    У Питона интерпретатор, который выполняет скрипт - по сути это обычная программа. Есть версии для Windows, Linux, MacOS. Я запускал скрипты на VDS под CentOS, в приватной ветке могу рассказать как, никаких сложностей.
     
    1 человеку нравится это.
  10. 1 сен 2016
    #50
    montero
    montero ЧКЧлен клуба (А)

    Тоже неплохо. &hellip надо внести в словарь и он тоже будет удаляться. По скобкам есть отдельный мощный фильтр, исчезнут тоже.
     
    1 человеку нравится это.
  11. 1 сен 2016
    #51
    дядя Вася
    дядя Вася ЧКЧлен клуба
    Неплохо было бы предложения, без знаков окончания вовсе удалять, а не оставлять, ставя в конце точку. А то получаются обрывочные, типа такого:

    Но в целом хорошо работает скрипт.
     
    1 человеку нравится это.
  12. 1 сен 2016
    #52
    prosstto
    prosstto ЧКЧлен клуба
    Я тоже за это. В тексте бывает много подзаголовков из 2х 3х слов.
     
    1 человеку нравится это.
  13. 2 сен 2016
    #53
    montero
    montero ЧКЧлен клуба (А)
    В приватной ветке могу показать что изменить в скрипте, чтобы такие строки удалялись. В большинстве случаев предложения без точки качественные.
     
    1 человеку нравится это.
  14. 2 сен 2016
    #54
    montero
    montero ЧКЧлен клуба (А)
    Короткие все удаляются, скрипт оставляет строки от длинной 46 символов.
     
    2 пользователям это понравилось.
  15. 2 сен 2016
    #55
    Akitory
    Akitory ЧКЧлен клуба (А)
    @Roman_77, может имеет смысл немного закомментировать код, чтоб каждый мог править под себя то, что ему необходимо?
    Или все вопросы будем через приватную ветку решать?
     
    1 человеку нравится это.
  16. 2 сен 2016
    #56
    montero
    montero ЧКЧлен клуба (А)
    В коде достаточно комментариев, разберетесь. В приватной ветке разберем то, что непонятно.
     
    2 пользователям это понравилось.
  17. 6 сен 2016
    #57
    prosstto
    prosstto ЧКЧлен клуба
    @Roman_77 как дела с проверкой?
     
  18. 6 сен 2016
    #58
    montero
    montero ЧКЧлен клуба (А)
    Трое человек нашлись несколько дней назад и похоже у всех мало свободного времени. Сегодня им напомню, хорошо бы хоть на выходных проверили.
     
    3 пользователям это понравилось.
  19. 6 сен 2016
    #59
    Алёнка XXX
    Алёнка XXX ЧКЧлен клуба
    :)
    а куда торопиться? скрипт то уже на руках ...
    Автор, вот скажите, сколько времени нужно на проверку скрипта в реале ???
    несколько часов ведь вполне хватит?
    Я думаю - Да!

    поправьте, если не права.... :)
     
  20. 6 сен 2016
    #60
    montero
    montero ЧКЧлен клуба (А)
    На проверку достаточно 40 минут
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей