Discourse ist agentenbereit: So geht's

Das Publikum von Foren verändert sich. Einige Ihrer Leser sind nicht mehr im eigentlichen Sinne Leser – zumindest nicht im traditionellen Sinn. Es sind Agenten, die im Namen anderer lesen und Ihre Inhalte für Personen zusammenfassen, die möglicherweise nie auf den Link klicken oder zu einem echten Mitglied werden. Ob Sie eine Entwickler-Support-Community, ein Kundenforum oder einen Fanclub betreiben: Ihr Wissen wird gerade in KI-Antworten einbezogen.


Dies ist ein begleitender Diskussionsthema zum ursprünglichen Beitrag unter https://blog.discourse.org/2026/05/discourse-is-agent-ready-heres-how/
6 „Gefällt mir“

Eine echte Frage: Warum sollte ich zulassen, dass KI-Crawler meinen Server überfluten? Zwar macht der Artikel deutlich, dass die Entscheidung immer bei mir liegt, aber aus kommerzieller Perspektive und unter Bezugnahme auf Reddit als Beispiel dafür, wie sie mit KI-Scraping umgehen, welche Vorteile hätte das hier?

Kürzlich habe ich erfahren, dass Google personalisierte Seiten basierend auf dem Verlauf der Nutzer erstellen wird, also weniger Klicks für Webmaster und mehr Geld für Alphabet. Also, was ist hier der Sinn?

Derzeit erlaube ich Suchmaschinen und Cache-Indexer wie die Wayback Machine, meinen Inhalt zu lesen und zu cachen, obwohl ich nichts anderes sehe als die Bereitstellung des Inhalts meiner Nutzer, damit Alphabet und Konsorten darauf aufbauend monetarisieren, ohne dass meine Community davon profitiert. Hinzu kommen rechtliche Fragen: In meinem Land gilt das LGPD, in Europa die DSGVO.

2 „Gefällt mir“

Das fühlt sich so an, als wäre es von einer KI für Foren geschrieben worden, die nicht Discourse sind:

2 „Gefällt mir“

Danke für den interessanten Beitrag!

Zweifellos eines der besten Features von Discourse.
Ich zucke jedes Mal zusammen, wenn ich auf einer anderen Website nach einer URL suche, die nur Daten zurückgibt, und feststelle, dass es keine gibt.

Es wäre toll, wenn du bei Aussagen wie diesen immer Links zu deinen Quellen angeben könntest. Das würde den Lesern helfen, die Daten zu überprüfen :slight_smile:

2 „Gefällt mir“

Es hängt vom Zweck Ihres Forums ab – wenn es beispielsweise ein Marken- oder Supportforum ist, könnte Ihr Ziel darin bestehen, den Nutzern so schnell wie möglich eine Antwort zu geben. Falls die Inhalte in das Training von KI-Modellen einfließen, könnte das vorteilhaft sein. Hoffentlich werden Nutzer, die tatsächlich ein ungelöstes Problem haben, trotzdem auf Ihre Seite kommen, um es zu besprechen. Allerdings ist dies eine Herausforderung, wenn sie zunächst eine KI konsultieren.

In einem eher sozialen Kontext sind KI-Scraper fast völlig nutzlos, da Sie möchten, dass die Mitglieder Ihrer Community miteinander interagieren. In diesem Fall könnte es sinnvoll sein, sie komplett zu blockieren.

4 „Gefällt mir“

Aus meiner eigenen beruflichen Perspektive im Bereich KI und SEO ist die Wirkung und Bedeutung von llms.txt noch nicht nachgewiesen. Kürzlich hat Google erklärt, dass sie dies weder nutzen noch unterstützen. Das bedeutet jedoch nicht, dass andere Agenten es nicht tun werden. Dies ist jedoch eine Nuance, die ich teilen wollte.

3 „Gefällt mir“

Ich persönlich tue das einfach nicht. Das ist meine persönliche Meinung, aber LLMs war es immer verboten, meine Websites zu besuchen, und das wird es auch immer bleiben. Ich genieße es nicht, meine harte Arbeit – sei es Text oder Code – an Scraper zu verschenken, insbesondere nicht an solche von OpenAI oder Anthropic.

Die meisten meiner Domains enthalten Dateien wie diese:
https://pyxfluff.dev/robots.txt
https://pyxfluff.dev/llms.txt

Natürlich ist das alles nur persönliche Präferenz, aber diese ganze AI-Hysterie wäre vorbei, sobald die Leute aufhören, diesen Unternehmen zu erlauben, den Inhalt ihrer Websites zu stehlen. Vielleicht wird das neueste Google-Update, gegen das sich so viele richten, einigen Website-Betreibern den Kopf zurechtrücken, die dann plötzlich keine Zugriffe mehr auf ihre Seiten haben werden.

5 „Gefällt mir“

Leider gibt es keine wasserdichte Methode, um LLM-Scraper zu blockieren, wenn der Inhalt Ihrer Seite öffentlich zugänglich ist. Viele von ihnen ignorieren robots.txt und versuchen sogar, wie menschliche Besucher zu wirken (unter Verwendung verschiedener User-Agents und IP-Adressen), um Blockaden zu umgehen. Hoffentlich kann eine gesetzliche Regulierung gewisse Grenzen setzen, da es den Anschein hat, dass viele Menschen die Wahl haben möchten, ob ihr Inhalt auf diese Weise genutzt wird oder nicht!

5 „Gefällt mir“