Хорошая мысль, это предлагалось лишь как один из возможных вариантов. С момента публикации того блога появились более совершенные модели, такие как GPT4-Turbo и Claude 3, что в теории может указывать на лучшую производительность.
Это не было нападением на общий подход здесь.
Использование LLM для поиска в тексте признаков, которые могут указывать на спам, — отличная цель, и я полностью поддерживаю это дополнение.
Моя единственная претензия касалась утверждения, что можно автоматически определять текст, сгенерированный ИИ, — это очень сложная задача.
Обратите внимание на различие:
- Определение общего спама с помощью LLM — это отлично, и я вижу, как это может быть решаемой и очень ценной задачей.
- Определение того, что спам был сгенерирован ИИ — с использованием LLM или без него, это сложно. Я не думаю, что текущие модели способны делать это хорошо конкретно, а положительные результаты, вероятно, являются лишь галлюцинациями.
Понимаю вас! Да, это гораздо более тонкий вопрос. На самом деле, в моих первоначальных тестах я пытался настроить систему для обоих случаев, но фокусировка исключительно на спаме, вероятно, даст здесь лучшие результаты.
Значит, мы пришли к согласию.
Однако я считаю, что есть некоторые очевидные признаки использования ИИ — например, длина сообщения и чрезмерное использование излишне витиеватого языка… Так что, возможно, стоит проанализировать именно эти аспекты… Определить длину сообщения с помощью больших языковых моделей (LLM) наверняка сложно, тогда как выявление «витиеватости» может оказаться проще. Впрочем, для маркировки сообщений по их длине, разумеется, можно использовать детерминированные функции.
С другой стороны, если кто-то использовал ChatGPT, чтобы, например, улучшить свой английский (как второй язык), то маркировка его сообщения, вероятно, не принесет пользы для инклюзивности сообщества в целом.
Если пойти еще дальше, то общие методы машинного обучения могут быть полезны, но их реализация сложнее, чем просто отправка текста в LLM и получение результата.