Аудитория форумов меняется. Некоторые из ваших читателей больше не являются читателями в традиционном смысле. Это агенты, действующие от чьего-то имени, которые обобщают ваш контент в ответ для человека, который, возможно, никогда не перейдёт по ссылке и не станет реальным участником. Независимо от того, управляете ли вы сообществом поддержки разработчиков, форумом для клиентов или фан-клубом, ваши знания прямо сейчас используются для формирования ответов ИИ.
Честный вопрос: почему я должен позволять ИИ-краулерам заваливать мой сервер? Конечно, статья подчёркивает, что выбор всегда остаётся за мной, но с коммерческой точки зрения и на примере того, как Reddit справляется с ИИ-скрапингом, в чём здесь выгода?
Недавно я узнал, что Google планирует создавать персонализированные страницы на основе истории пользователей: это значит меньше кликов для вебмастеров и больше денег для Alphabet. Так в чём же смысл?
На данный момент я разрешаю поисковым системам и кэширующим индексаторам, таким как Wayback Machine, читать и кэшировать мой контент. Однако я не вижу в этом никакой пользы, кроме как предоставления контента моих пользователей для того, чтобы Alphabet и ей подобные монетизировали его, не принося никакой выгоды моему сообществу. К тому же существуют юридические вопросы: в моей стране это LGPD, а в Европе — GDPR.
Это, пожалуй, одна из лучших функций Discourse.
Мне всегда становится неловко, когда я ищу URL, который возвращает данные на каком-либо другом сайте, и обнаруживаю, что такого URL нет.
Было бы здорово, если бы вы всегда указывали ссылки на источники для подобных утверждений. Это помогло бы читателям проверить данные
Это зависит от цели вашего форума. Например, если это форум бренда или поддержки, ваша задача может заключаться в том, чтобы как можно быстрее дать людям ответы. Если контент используется для обучения ИИ, это может быть полезно. Надеюсь, если проблема действительно нерешённая, люди всё равно найдут путь к вашему сайту, чтобы задать вопрос, но это остаётся сложной задачей, если они сначала обращаются к ИИ.
В более социальном контексте парсеры ИИ практически бесполезны, так как вы хотите, чтобы участники вашего сообщества взаимодействовали друг с другом. В таком случае может быть хорошей идеей попытаться полностью заблокировать их.
С моей профессиональной точки зрения, работая с ИИ и SEO, влияние и важность llms.txt пока не доказаны. Недавно Google официально заявил, что не использует и не поддерживает этот формат. Это не означает, что другие агенты не будут его использовать. Но это тот нюанс, которым я хотел поделиться.
Я просто не хочу этого делать. Личное мнение, но большие языковые модели (LLM) всегда были запрещены на моих сайтах и всегда будут. Мне не нравится дарить свой труд — будь то текст или код — скрейперам, особенно таким, как OpenAI или Anthropic.
Очевидно, что это всё дело личного предпочтения, но вся эта лихорадка вокруг ИИ закончится, как только люди перестанут позволять этим компаниям красть контент их сайтов. Возможно, последнее обновление Google, против которого так много людей, заставит владельцев сайтов очнуться, и теперь у них не будет ни одного перехода на их сайты.
К сожалению, не существует надёжного способа заблокировать парсеров LLM, если контент вашего сайта доступен публично: многие из них игнорируют robots.txt и даже пытаются маскироваться под обычных посетителей (используя разные user-agent и IP-адреса), чтобы обойти блокировки. Надеемся, что какое-либо правовое регулирование сможет установить рамки для этой ситуации, поскольку, судя по всему, многие хотели бы иметь выбор, использовать ли их контент таким образом!