Фильтр спама Akismet довольно хорошо находит дубликаты постов между форумом Docker и, например, сайтами Stack Exchange (в основном Stack Overflow), GitHub и Reddit. Эти посты попадают на модерацию, но при этом не показывают, откуда именно Akismet мог найти совпадающий пост:
Кажется, я хотел спросить, можно ли настроить плагин Akismet так, чтобы он показывал URL-адреса других совпадений. Но на самом деле мне нужно больше…
Часто достаточно просто скопировать и вставить часть текста в Google, чтобы найти источник. На форумах Docker я тогда обычно отклоняю пометку (утверждаю дубликат поста), но также добавляю уведомление от сотрудников для волонтёров, отвечающих на вопросы. Вот пример:
Так что интересно: пробовал ли кто-нибудь автоматизировать что-то подобное?
Кстати:
Я также обычно публикую ссылку обратно на форум на Stack Overflow; это всё равно ручное действие. Так что, если это будет автоматизировано, всё равно стоит получать уведомления.
Я довольно часто использую тот же подход для случаев, когда “новый пользователь написал свой первый пост подозрительно быстро, что может указывать на поведение бота или спамера”. Это пока не обнаруживается (или не помечается) Akismet как дубликат.
Я не знал, что Akismet фильтрует дубликаты в интернете; полагаю, что сработал триггер из-за включения определённой разметки в тех примерах.
Я не нашёл упоминаний о том, что Akismet предоставляет такую услугу. Не могли бы вы дать рекомендации? Если эта информация доступна через их сервис, возможно, мы сможем использовать её.
Хм, возможно, вы правы. Я смело предположил, что Stack Exchange тоже использует Akismet (хотя на самом деле я этого не знаю). Мне кажется, но мне нужно будет найти примеры, что я также видел, как проверка срабатывала для существующих постов после их дублирования на Stack Exchange. Чаще всего пост на Stack Exchange оказывался старше, что также объясняет, почему копирование-вставка вызывало проверку с пометкой «написал свой первый пост подозрительно быстро».
Кроме того, какое-то время мы точно наблюдали много ложных срабатываний после редактирования постов. Это заставило меня предположить, что фильтр запутался из-за собственного алгоритма поиска дубликатов, не понимая, что дубликат из какой-то онлайн-базы данных — это тот же самый пост на том же самом форуме. При поиске причины этого я не нашёл никаких ссылок в сервисах Akismet.
Итак, много предположений. Я постараюсь найти несколько примеров, но, возможно, между форумом и другими местами дублируется ещё больше постов, и, возможно, я нашёл лишь малую их часть.
Конечно, Akismet мог бы по-прежнему подписаться на публичный канал публикаций Stack Exchange, но их цель — не поиск дубликатов. (Или, возможно, дубликаты Stack Exchange, отмеченные Akismet, также встречались где-то ещё. Да ладно.)
@maiki Я не сталкивался с примерами, которые подтвердили бы, что это произошло. Конечно, Akismet мог пометить существующие посты как спам спустя какое-то время, но я не знаю его внутреннего устройства, чтобы это определить.