5/5, Голосов: 4
Закрыто

[Python] Скрипт чистки текста

Тема в разделе "Бизнес и свое дело", создана пользователем Roman_77, 25 авг 2016.

Метки:
Цена: 19763р.
Взнос: 250р.
100%

Основной список: 83 участников

Резервный список: 3 участников

Статус темы:
Закрыта.
    1. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Предлагаю свой скрипт написанный на Python 3, который обрабатывает текст, собранный парсером и сохраняет только качественные предложения, устраняя в них различные ошибки.
      Скрипт работает аккуратно, сохраняя максимальное количество предложений. В очищенных текстах вы не найдете китайских иероглифов, знаков, изображающих кеды, смайликов и прочих ненужных символов, вы увидите только нормальный текст, знаки пунктуации и необходимые символы.
      По окончании работы скрипт выводит сообщения о времени работы, первоначальном и конечном размерах всех обрабатываемых файлов.
      Участники складчины получат скрипт на 920 строк (открытый код с комментариями), 3 словаря к нему (один словарь на 970 строк), двухстраничный документ, в котором описана установка интерпретатора Python, порядок работы со скриптом и словарями, бонус в виде 2 небольших полезных скриптов. Также я предлагаю настроенную портативную программу для написания/редактирования и выполнения кода.
      Материал рассчитан на тех, кто никогда не писал скриптов и программ.
      Я доволен качеством работы скрипта, предлагаю посмотреть 10 образцов обработанных текстов:

      Может получиться так, что после обработки своих текстов вы обнаружите какие-то "дефекты", что-то вам не понравится. Я готов буду рассмотреть такие тексты и внести изменения в код в ходе обсуждения после закрытия складчины. Длительную поддержку не обещаю, но если будут пожелания со стороны складчиков, внесу изменения в код.
       
      2 пользователям это понравилось.
    2. Последние события

      1. mih81

        mih81 оставил отзыв "Отлично".

        4 ноя 2016
      2. skladchik.com

        Складчина закрыта.

        25 окт 2016
      3. skladchik.com

        Осталось 5 дней до завершения складчины.

        18 окт 2016
      4. Andrei_H

        Andrei_H участвует в складчине.

        17 окт 2016

      Последние важные события

      1. skladchik.com

        Складчина закрыта.

        25 окт 2016
      2. skladchik.com

        Осталось 5 дней до завершения складчины.

        18 окт 2016
      3. skladchik.com

        Складчина активна.

        7 окт 2016
      4. skladchik.com

        Сбор взносов начинается 07.10.2016.

        5 окт 2016
    3. littleboy

      littleboy ЧКЧлен клуба

      Какие зависимости есть у cкрипта? Scrapy? Или все стандартной библиотекой делается?
       
    4. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Скрипт использует стандартную библиотеку
       
    5. Алёнка XXX

      Алёнка XXX ЧКЧлен клуба

      мне вообще это все незнакомо, то что касается установки скриптов на питоне, по этому появились вопросы, возможно глупые :)
      У скрипта имеется какой нибудь интерфейс?

      Скрипт будет работать только на винде? и на какой?
       
      1 человеку нравится это.
    6. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Скрипты не имеют интерфейса, скрипт - это текстовый файл. Я даю настроенную программу с красивой темной темой, скрипт открывается в ней и нажимается клавиша F7, скрипт печатает какие он выполняет операции и сообщает о завершении.
      Питоновские скрипты можно выполнять на Windows, Linux, MacOS. Версии систем любые, кроме древних. В отличие от PHP не требуется серверная программа, устанавливается только интерпретатор, который выполняет код.
       
      2 пользователям это понравилось.
    7. Алёнка XXX

      Алёнка XXX ЧКЧлен клуба

      @Roman_77, теперь общий смысл, более понятен :)
      благодарю за пояснение!
       
      2 пользователям это понравилось.
    8. студень

      студень ЧКЧлен клуба

      Как скрипт определяет качественное предложение или нет?
       
    9. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Срипт не делает анализ предложений. Хорошего результата я добился за счет большого количества фильтров и использования внешних словарей. Т.е. все строки с большим процентом мусора удаляются, а оставшиеся очищаются.
       
      1 человеку нравится это.
    10. prosstto

      prosstto ЧКЧлен клуба

      Хорошо бы чтобы скрипт еще удалял предложения без точки, двоеточия, вопрос. или воскл. знака.
       
    11. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Можно подробнее. Почему надо удалять строки без двоеточия, вопросит. и восклицат. знака? Это реализовать просто, но не понятно зачем. Если очень нужно, то я могу в ходе обсуждения написать такой код.
      Мой скрипт ставит точки в конце строк, где их нет.
       
      1 человеку нравится это.
    12. Квентин

      Квентин ЧКЧлен клуба

      Roman_77
      Очень интересно!
      Сколько людей собирать планируете?
       
      1 человеку нравится это.
    13. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      У меня первая авторская, надо дождаться получения статуса партнера, не знаю когда дадут. Долго ждать не планирую, примерно неделю, дней 10.
       
    14. prosstto

      prosstto ЧКЧлен клуба

      Это решает вопрос
       
      1 человеку нравится это.
    15. instocky

      instocky ЧКЧлен клуба (А)

      @Roman_77
      Качество очистки вполне приемлемое в примерах.
      • Скрипт же не "интеллектуальный", чем лучше словарь соответствует теме тем лучше результат, правильно понимаю?
      • Вопрос что за словари подключаешь?
      • Какая скорость обработки/очистки текста?
      • Пакетная обработка есть?
      • Где этот скрипт сам используешь и где рекомендуешь использовать?
       
      2 пользователям это понравилось.
    16. dragobrat

      dragobrat ЧКЧлен клуба

      В приведенном вашем примере, в папке Обработанные тексты, все предложения с новой строчки, то есть без абзацов, так и должно быть, я правильно понимаю что потом надо все это еще и руками перебирать ?
       
    17. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Основной словарь содержит минус-слова для удаления строк. В него уже включены слова, сокращения, обрывки слов из разных тем. Конечно составлять идеальный словарь для всех тем рунета можно долго, но добавлять к существующему при работе с какой-то новой темой много не придется. Можно в ходе обсуждения предложить свои тексты, я обработаю и сразу выложу, посмотрите результат. Лучше по вечерам.
      Два другие словаря выполняют замены. Про всё не буду говорить, есть правила для замены спецсимволов типа »=». Т.е. спецсимволов на выходе не будет.
      Сейчас повторно запустил обработку 10 файлов из примера в первом посте. Скрипт выдал:
      - Обработано 10 файла(ов). Исходный размер: 4187381 байт. После обработки: 2910081 байт
      - Затраченное время: 15.06 сек
      Скорость зависит от производительности машины. У меня ЖД, если работать с SSD, будет быстрее.
      Скрипт обрабатывает все txt файлы в той папке, где находится сам.
      Я использую тексты для дорвеев. Можно добавить синонимизацию и использовать на СДЛ.
       
      2 пользователям это понравилось.
    18. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Генераторам дорвеев именно такой текст и нужен, они сделают из него абзацы с разным количеством предложений.
      Если нужно делать абзацы, то в ходе обсуждения в приватной теме могу добавить код.
       
      1 человеку нравится это.
    19. littleboy

      littleboy ЧКЧлен клуба

      Скрипт написан с применениемООП? Интересуюсь в плане обучения - подчерпнуть идеи и механизмы работы с текстовыми данными.
       
    20. Roman_77

      Roman_77 ЧКЧлен клуба (А)

      Нет, ООП в этой теме не требуется.
       
    21. Strellen

      Strellen ЧКЧлен клуба

      Зря ты доры упомянул :)
      Ща набежим с хотелками...
      Стыковку по запятым (Панченко, как в пандоре) прикрутить сможешь? Ну или на крайняк перестановку слов аля "алгоритм Йоды"?
       
      1 человеку нравится это.
    1. mih81
      5/5,
      Организацией складчины доволен
      Для меня это просто супер находка. Самой главной функцией для себя нашёл фильтр замены в тексте по правилам, которые можно самому задавать и редактировать под нужную тематику.

      Например, можно заменить стоящий в конце предложения союз " а." —на—> ", а стоимость в аптеке - 200 руб."

      Получая дополнительные ключевые фразы в нужной тематике.
      Раньше это делал руками в Нотепад через поиск/замена, на что уходило не меньше 3-х часов на одну пачку текста. Или делал программой uvFilesCorrector - бесплатной, которая с моими объёмами могла справиться буквально за 2-3 дня, обрабатывая не более чем по 10-15 файлов из 2 Мб за заход.

      Уже пользуюсь. Автору спасибо.
      4 пользователям это понравилось.
    2. Mityaj63
      5/5,
      Организацией складчины доволен
      Скрипт понравился. Вроде бы ничего особенного и раньше без него обходился, но вот появился и все тексты теперь предварительно им обрабатываю...нравится блин. Ну прямо как вишенка на тортике ....мелочь, а приятно :)
      Автор так вообще очень приятный в общении и адекватный человек. Буду приглядывать теперь за ним, может еще что полезное придумает.
      Организатор молодец, раздал быстро, что нам еще для полного счастья то надо.
      7 пользователям это понравилось.
    3. Akitory
      5/5,
      Организацией складчины доволен
      Ну что сказать ) Скрипт просто отличный. Лично меня работа скрипта очень порадовала. Хорошая скорость чистки и отличный текст на выходе.
      Автор в привате оперативно отвечает на вопросы и решает проблемы если они возникают. Также совместными усилиями развивается скрипт. Участники пишут свои хотелки, а автор дорабатывает скрипт.
      На установку, настройку и запуск скрипта ушло минут 20+ Теперь только знай тексты для чистки закидывай =)
      Покупкой очень доволен!
      Роман ждем следующие складчины от тебя ;)
      10 пользователям это понравилось.
    4. GoldCase
      5/5,
      Организацией складчины доволен
      Рекомендую покупать этот скрипт! Скрипт хорошо чистит текст,как заявлено автором! Оперативная поддержка автора,вечером задал вопрос-утром уже есть решение и доработка скрипта под мои нужды!
      9 пользователям это понравилось.
Статус темы:
Закрыта.

Поделиться этой страницей