ИНФОтека

Информационная безопасность

Для чего нужен синонимизатор

Основной сложностью блогера, которому нужно множество разнообразных статей, является быстрое создание в достаточной мере уникальных текстовых документов. Предлагаемый "бюджетный" способ достаточно удобен, если использовать исходный документ (шаблон) с большим количеством вариаций. От блогера требуется некоторая изобретательность при подготовке шаблона, всё прочее скрипт сделает сам.

С чего начать

Что требуется: умение работать из командной строки с Perl, установленный Perl версии не ниже 5.6.

Собственно скрипт, необходимый для работы, можно взять двумя способами:
1. В репозитории, по адресу
https://svn.xp-dev.com/svn/boyandin_public/boyandin.info/scripts/sts/perl/sts.pl
-оптимально, потому что файл может периодически обновляться.
2. Из архива, прицепленного к данной записи (см. её конец). Менее удобно в том смысле, что возможны ситуации, когда в репозитории файл новее.

Использование

1. Распакуйте скрипт в любое удобное для вас место; в дальнейших командах предполагается, что вы распаковали его в текущий каталог и назначили права на исполнение (если работаете в Un*x).

2. Создайте произвольный текстовый файл (текстовый в смысле не двоичный - это может быть и текстовый файл, и HTML, и всё, что угодно, что не теряет своих свойств при замене части строк на другие.

В тех местах, где нужно породить выбор синонимичных строк, вставьте шаблон вида

{строка 1|строка 2|...|строка N}

Количество вариантных строк произвольно, разделитель - вертикальная черта, строки не могут, как следствие, содержать фигурные скобки или вертикальную черту. Между фигурными скобками не должно быть переводов строк.

3. Дайте команду вида

./sts.pl -s template.html -d article-%d.html -n 2000

Описание параметров:

template.html - имя исходного файла, содержащего упомянутые выше шаблоны

article-%d.html - шаблон для порождения имён выходных уникальных файлов. Если вы знаете, что такое sprintf(), то можете подставить любое аналогичное макро для вывода целого, если нет - используйте любую строку, в которой есть подстрока '%d' (без кавычек). При создании файлов вместо этой строки будет подставлен порядковый номер созданного уникального документа.

2000 - число попыток создания очередного уникального файла на основе исходного. Если параметр не задан, то один.

Пояснения

Скрипт не порождает дубликатов - они опознаются в процессе создания и игнорируются. Однако стоит иметь в виду, что вариации выбираются случайно, и потому конечное число порождённых документов может быть меньше ожидаемого. Иными словами, параметр '-n' указывает, сколько попыток создать документ будет произведено.

Так сделано намеренно - поскольку неясен механизм работы генератора псевдослучайных чисел (rand()), скрипт может работать неопределённо долго, если попробовать добиваться нужного числа выходных файлов повтором попыток. Если порождено слишком мало статей, сотрите созданные файлы и повторите операцию, увеличив параметр '-n'.

Дополнительно

В ближайшее время я сделаю Web-аналог, позволяющий генерировать уникальные документы всем, у кого нет либо познаний в области работы с командной строкой и скриптами, либо нет такой возможности.

Также я располагаю "интеллектуальным" синонимизатором, который использую для собственных нужд - который распознаёт словоформы и использует настраиваемый контекст для порождения синонимов без создания шаблонов вручную. Скрипт будет выложен в свободный доступ, как только его разработка дойдёт до устраивающей меня по эффективности версии.

Анонсы этой статьи: grabr.ru sloger.net blogparad.ru blogistica.ru

Адрес уведомления об обратной ссылке для этой записи:

//trackback/69

Комментарии

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".
Аватар пользователя xBB

Кстати о шаблонах текстов

Вот удивляет меня, что в сети можно купить/продать текст. Можно купить/продать 1000 готовых текстов сгенерированных по шаблону. Но ни разу не видел, чтобы кто нибудь предлагал купить/продать шаблон для генерации текстов. Ведь создание хороших шаблонов - нетривиальное занятие. Вроде обязательно должны быть спрос и предложение, где они?

Аватар пользователя Константин Бояндин

Так это ж тот самый хлеб с маслом!

И стоить должен существенно дороже. Знаю, писал такие сам. И могу похастаться, что тексты порождались исключительно осмысленные, потому что рассчитывалось всё именно на людей.

Но вопрос действительно интересный, почему на биржах статей нет услуги - продать/заказать шаблон.

Аватар пользователя xBB

Мысль

У меня даже мысль была создать биржу шаблонов. Но прошла. Рискованно, а я уже не студент и семью кормить надо независимо от успеха :) Если бы это было выгодно, то, наверное, уже давно кто нибудь это сделал бы.

Аватар пользователя Константин Бояндин

Увидим, в общем

...если появится такая опция у кого-то - стало быть, выгодная идея.

Аватар пользователя xBB

Имхо

Я почему то всегда думал, что такие прожки называются рандомизаторами. А синонимизатор просто прогоняет текст по базе синонимов.

С полгода или более тому назад я даже написал свой рандомизатор на PHP с вебинтерфейсом. Скачать (бесплатно, код - открытый) можно здесь: https://xbb.uz/randomizator/text.bb

По этой же ссылке можно найти его онлайновую рабочую демоверсию. Правда с ограничением на 10 текстов на выходе. В скачанном скрипте ограничений нет.

И еще он немного более умелый, чем описанный здесь перловый скрипт. Умеет не только выбирать альтернативы, но и перемешивать куски текста. Но сравнительно с перловым скриптом он, наверное, менее производителен.

Аватар пользователя Константин Бояндин

Проверим, спасибо

...а здешний скрипт не зря назван простым. Я ведь что сюда выкладываю? Что сам использую, и другим может пригодиться. Такой вот простой подход.

Одно из условий, которые я стараюсь соблюдать неукоснительно: все порождённые тексты должны оставаться читаемыми - для человека. Для роботов я не работаю.

Спасибо.

Аватар пользователя proff

Спасибо Константин за скрипт,

Спасибо Константин за скрипт, опробуем :)

Аватар пользователя Константин Бояндин

Всегда рад

...в том числе пожеланиям и сообщениям о недостатках и ошибках.

Аватар пользователя Spoofi

Полезный скрипт.

Скрипт очень полезный, обязательно его опробую... Заодно и с перлом немного поучусь работать :)

Аватар пользователя Константин Бояндин

Обратная связь, стало быть

Удачи! Пожелания и предложения принимаются круглосуточно.

Аватар пользователя ingolmo

в недоумении

зачем помогать людям плодить г-блоги, которые и так заполонили сеть?

Аватар пользователя Константин Бояндин

Всего лишь инструмент

Синонимизация - всего лишь инструмент. Как его использовать - вопрос отдельный.

Все сетевые сервисы и софт, служащий вопросам создания ресурсов в Сети, можно точно так же отнести к способам поощрения создания мусорного контента.

Если я пишу сам - вручную - статью для создания ссылок на конкретный сайт. потом размножаю её этим инструментом так, что статья не теряет осмысленности и содержательности, затем рассылаю клоны статей по каталогам для продвижения - что я делаю фундаментально неэтичного?

Аватар пользователя ingolmo

Это инструмент замусоривания и воровства

Это инструмент, который используется только с одной целью — с цель создания мусорного контента. Более того это инструмент, благодаря которому поисковикам сложнее отфильтровывать ворованный контент.

Что это за каталоги, в которые нужно рассылать дубли для продвижения, я не понимаю. Люди по таким каталогам не ходят.

Мне удивительно, что вы не видите в этом ничего плохого.

Аватар пользователя Константин Бояндин

Топором можно рубить лес...

...а можно головы. Топор - это инструмент для отрубания голов?

Люди по таким ходят. Типичное применение - кросс-публикация, чтобы поисковые системы не наложили пенальти на статью. Это воровство или создание мусорных сайтов?

Статьи, созданные для сателлитов - не для людей - видны с первого взгляда. Свои статьи, которые я обрабатываю таким скриптом остаются читабельными, внятными и информационно насыщенными.

Так можно каждый браузер назвать инструментом воровства, честное слово.

Аватар пользователя ingolmo

Есть разница

То что топор может пригодиться для рубки леса я могу понять. Я не понимаю зачем нужны синонимайзеры кроме генерации мусора и воровства.

Для кросспостов синонимайзеры не нужны. Достаточно указать ссылку на оригинал.

Аватар пользователя Константин Бояндин

Во-первых, не для воровства...

...а для морфинга. Мутации, рерайтинга, и так далее.

Во-вторых, как во всей спам-индустрии, упомянутый морфинг - это целая индустрия. И когда этим занимаются профессионалы, они используют уже отработанный и готовый инструмент. И всё равно у них на выходе получается мусор - опознать его даже глазом легко и просто.

Тут дело не в том, чтобы скрипт запустить, а в том, чтобы создать шаблон. А для этого нужен, простите за бахвальство, опыт владения языком и умение чувствовать текст. Копирайтером надо быть, в широком смысле - творцом, а не переписчиком.

Вот вам несколько вполне легальных и обоснованных употреблений такого синонимизатора.

1. Кросспостинг. Чтобы ПС не снижали вес ссылок, не стоит рассылать большие фрагменты неизменного текста. Надёжнее выслать разные - при этом, с охранением читабельности, ибо - внимание, это важно - если текст написан только для ПС, то рано или поздно такой блог уйдёт в "баню". Нужен копромисс между читабельностью и уникальностью. Просто голые ссылки не потянут - люди такое читать не будут, а я пишу свои статьи всё-таки для людей.

2. Публикация материалов на сайтах, которые, признавая авторство текста, требуют, тем не менее, чтобы у самого автора не было идентичной копии.

Основной инструмент воровства - головной мозг. А не скрипт. Если сплогеру позарез будет нужно наштамповать клонов текста, он это сделает штатными средствами того же Liex.

Аватар пользователя ingolmo

Я честно не понимаю

1. ПС не снижают вес ссылки при кросспостинге. Более того люди из яндекса недавно говорили о том, что напротив такие ссылки только увеличивают вес оргинала.
2. Неясно на чем может быть основано такое требование. Если люди хотят оригинальный материал, тогда уж стоит договориться чтобы автор не публиковал текст на своем сайте.

Я не спорю с тем, что основной инструмент — это мозг и что если нужно, так надут способ. Это верно. Я только не могу понять зачем может понадобится синонимайзер если речь не идет о воровстве и мусорном контенте.

Аватар пользователя Константин Бояндин

Можно ли посмотреть?

Можно ли посмотреть на ссылки, где Яндекс подтверждает, что вес только увеличивается - и как они, собственно, разумеют, где оригинал, а где нет? Я вот в чтениях материалов вижу скорее пессимистические оценки. Поскольку сие есть множественный идентичный контент во множестве источников.

Постинг дайджестов в любом случае не так вредоносен, в любой ситуации с кросспостингами.

Возвращаясь к нашим баранам - я уже упоминал случаи, когда есть запрет на воспроизведение документа в сети и когда неуникальный контент точно вредит (публикации на некоторых сайтах, а также продвижение сайта статьями).

В общем, я не убеждён, что я вношу существенный вклад в замусоривание Интернета. Пока что приведённые аргументы меня не убедили.