| Краткое описание | Добавляет скрытые ссылки на контент, который может отравить веб-скрейперы, не соблюдающие правила. | |
| Ссылка на репозиторий | https://github.com/elmuerte/discourse-poison-fountain | |
| Руководство по установке | Как установить плагины в Discourse |
Возможности
На каждой сгенерированной странице добавляются ссылки на страницы с отравленным контентом. Если недобросовестный веб-скрейпер использует этот контент для обучения LLM, это негативно повлияет на итоговую модель.
Эти ссылки скрыты от пользователей: они помечены атрибутом rel="nofollow", а по умолчанию файл robots.txt указывает веб-паукам не индексировать такой контент. Скрытые ссылки добавляются только для неаутентифицированных запросов.
По умолчанию плагин использует отравленный контент с сайта RNSAFFN. Дополнительную информацию можно найти на этой странице. Источник отравления можно изменить в настройках.
Отравленный контент предоставляется через страницы с URL-адресами вида /dpf/<случайный-слэг>/<id>. При использовании настроек по умолчанию можно создать правило fail2ban для этого пути, блокируя IP-адреса, которые запрашивают страницы из /dpf/ несколько раз, чтобы отпугнуть вредоносных скрейперов.
Настройка
Для работы плагина достаточно просто установить и включить его — он начнёт работать в фоновом режиме. Также можно настроить дополнительные параметры.
Параметры
Таблица параметров и их описаний:
| Имя | Описание |
|---|---|
poison_fountain_source |
Веб-сайт, генерирующий контент, который будет предоставляться через отравленные страницы. |
poison_fountain_textual_only |
Принимать только текстовый контент от источника отравления. Это предотвратит передачу бинарного контента. |
poison_fountain_force_plain_text |
Всегда предоставлять контент в формате text/plain, даже если источник указал другой формат, например HTML. |
poison_fountain_update_robots_txt |
Включено по умолчанию: добавляет отравленный контент в список исключений. Веб-пауки, соблюдающие robots.txt, полностью игнорируют такой контент. |
poison_fountain_cache_hours |
Время кэширования контента (в часах) перед получением нового. Максимум — 24 часа. |
poison_fountain_entries |
Количество сохраняемых отравленных записей. |
poison_fountain_link_count |
Количество ссылок, добавляемых на сгенерированные HTML-страницы. |
Этот проект не аффилирован с RNSAFFN. Он обеспечивает интеграцию с их сервисом. Эту интеграцию можно настроить для использования другого аналогичного сервиса.
Пользуясь этим плагином, вы доверяете контент, генерируемый выбранным источником отравления, и передаёте его дальше. По умолчанию плагин старается сделать этот контент «в основном безвредным», предоставляя только текстовый контент в формате plain text.