Discourse llms.txt Generator
| Zusammenfassung | Generiert automatisch llms.txt-Dateien, die Ihre Foreninhalte für Large Language Models wie ChatGPT, Claude und andere KI-Systeme auffindbar machen | |
| Repository-Link | GitHub - kaktaknet/discourse-llms-txt-generator: 🤖 Discourse llms.txt Generator Plugin. Automatically generates llms.txt and llms-full.txt files for your Discourse forum to optimize content discovery by Large Language Models (LLMs) and AI systems. · GitHub | |
| Installationsanleitung | So installieren Sie Plugins in Discourse | |
Funktionen
Dieses Plugin implementiert den llms.txt-Standard – eine vorgeschlagene Konvention, um KI-freundliche Inhalte von Websites bereitzustellen. Denken Sie daran als „robots.txt für KI“, die hilft, Ihre Foreninhalte in KI-generierten Antworten sichtbar zu machen.
Für eine detaillierte Funktionsdokumentation siehe README.md
Für technische Dokumentation und Entwicklung siehe CONTRIBUTING.md
Obwohl dieses Video nicht speziell über Discourse oder dessen Plugins handelt, erklärt es hervorragend, warum llms.txt-Dateien für Ihr Forum wichtig sind.
Tausende von Websites – darunter viele der weltweit größten und angesehensten Technologieunternehmen – haben den llms.txt-Standard bereits auf ihren eigenen Domains implementiert. Beispiele sind:
Amazon AWS — https://docs.aws.amazon.com/llms.txt
Cloudflare — https://developers.cloudflare.com/llms.txt
Stripe — https://stripe.com/llms.txt
Angular — https://angular.dev/llms.txt
Redis — https://redis.io/llms.txt
Docker — https://docs.docker.com/llms.txt
Model Context Protocol — https://modelcontextprotocol.io/llms-full.txt
Wenn Branchenriesen einen Standard im großen Maßstab übernehmen – lange bevor er „offiziell“ wird – ist dies ein deutliches Zeichen dafür, dass llms.txt ein echtes und dringendes Problem löst. Solche Unternehmen führen standortweite Initiativen niemals leichtfertig ein; sie haben immer einen soliden strategischen Grund. Die schnelle und großflächige Einführung von llms.txt in der Technologiebranche zeigt, wie wichtig strukturierte Inhalte für KI geworden sind, und dass die Branche selbst diese Adoption vorantreibt – sogar schneller als formale Standardisierungsgremien.
Hauptfunktionen:
-
Hauptnavigationsdatei (
/llms.txt)- Strukturierte Übersicht Ihres Forums mit Kategorien, Unterkategorien und neuesten Themen
- Hilft KI-Systemen, Ihre Forumstruktur sofort zu verstehen
- Wird automatisch aktualisiert, wenn Ihr Forum wächst
-
Vollständiger Inhaltsindex (
/llms-full.txt)- Vollständiger Forenindex mit allen kategorisierten Themen, bereit für die KI-Verarbeitung
- Konfigurierbare Filterung nach Aufrufen und Themenanzahl
- Optionale Beitragsauszüge für schnellere KI-Indizierung
-
Dynamische pro-Ressource-Dateien
- Generieren Sie llms.txt für jede Kategorie:
/c/category-name/123/llms.txt - Generieren Sie llms.txt für jedes Thema:
/t/topic-slug/456/llms.txt - Generieren Sie llms.txt für jeden Tag:
/tag/tutorial/llms.txt - Werden bei Bedarf erstellt, ohne physischen Speicherplatz zu beanspruchen
- Generieren Sie llms.txt für jede Kategorie:
-
Sitemap-Index (
/sitemaps.txt)- Vollständige Liste aller llms.txt-URLs für eine effiziente Entdeckung durch KI-Crawler
- Integriert sich automatisch in robots.txt und sitemap.xml
-
SEO-Schutz
- Kanonische URLs in HTTP-Headern (RFC 6596 konform)
- Verhindert Strafen für doppelte Inhalte durch Suchmaschinen
- Korrekte Zuordnung zu den ursprünglichen Foren-URLs
-
Intelligentes Caching
- Stündliche Hintergrundprüfungen auf neue Inhalte
- Wird nur bei Bedarf neu generiert
- Schnelle Antwortzeiten (unter 50 ms)
-
Bot-Steuerung
- Blockieren Sie bestimmte KI-Crawler, während der Forenzugriff erlaubt bleibt
- Durch Kommas getrennte Liste der zu blockierenden User-Agents
- Automatische Integration in robots.txt über den View-Connector
-
Datenschutz & Sicherheit
- Private Kategorien werden automatisch ausgeschlossen
- Guardian-Berechtigungsprüfungen für dynamische Dateien
- Sicherheit auf SQL-Ebene
- Keine persönlichen Daten werden offengelegt
Vorteile für Ihr Forum:
- Erhöhte Sichtbarkeit: Ihre Inhalte erscheinen in ChatGPT, Claude und anderen KI-Antworten
- Direkte Zuordnung: KI-Systeme zitieren und verlinken zurück zu Ihrem Forum
- Mehr Traffic: Erhöhte Auffindbarkeit durch KI-gestützte Suche
- Besseres GEO: Generative Engine Optimization für KI-Systeme
- Kein Wartungsaufwand: Automatische Generierung und Aktualisierung
Konfiguration
Nach der Installation des Plugins navigieren Sie zu Admin → Einstellungen → Plugins → discourse-llms-txt-generator
Schritt 1: Plugin aktivieren
Setzen Sie llms_txt_enabled auf true (standardmäßig aktiviert)
Schritt 2: Indizierung konfigurieren
Setzen Sie llms_txt_allow_indexing auf true, um KI-Crawlern Zugriff zu gewähren (standardmäßig aktiviert)
Diese Einstellung steuert, ob llms.txt-Dateien in Ihrer robots.txt als erlaubt oder verboten erscheinen.
Schritt 3: Inhaltsfilter festlegen
Konfigurieren Sie diese Einstellungen basierend auf der Größe Ihres Forums:
llms_txt_min_views: Minimale Themenaufrufe für die Aufnahme (Standard: 50)llms_txt_posts_limit: Wie viele Themen aufgenommen werden sollensmall: 500 Themen (empfohlen für große Foren)medium: 2.500 Themen (empfohlen für die meisten Foren)large: 5.000 Themenall: Alle Themen (auf großen Foren vorsichtig verwenden)
Schritt 4: Optional – Benutzerdefinierte Beschreibung hinzufügen
Füllen Sie llms_txt_full_description mit 2–4 Sätzen, die den Zweck und die Gemeinschaft Ihres Forums beschreiben. Dies hilft KI-Systemen, genauere Informationen über Ihr Forum bereitzustellen.
Beispiel:
Dieses Forum widmet sich der Diskussion über Python-Programmierung mit Fokus auf Webentwicklung,
Datenwissenschaft und maschinelles Lernen. Unsere Gemeinschaft umfasst Anfänger und erfahrene
Entwickler, die praktische Lösungen und Best Practices teilen.
Schritt 5: Optional – Bestimmte Bots blockieren
Wenn Sie bestimmte KI-Crawler blockieren möchten, geben Sie deren User-Agent-Namen in llms_txt_blocked_user_agents als durch Kommas getrennte Liste ein:
Beispiel: Omgilibot, ChatGPT-User, CCBot
Schritt 6: Installation überprüfen
Besuchen Sie Ihr Forum unter:
/llms.txt– Hauptnavigationsdatei/llms-full.txt– Vollständiger Inhaltsindex/sitemaps.txt– Vollständige Sitemap
Überprüfen Sie Ihre /robots.txt, um die Integration zu bestätigen.
Einstellungen
| Name | Standard | Beschreibung |
|---|---|---|
llms_txt_enabled |
true |
Plugin aktivieren oder deaktivieren |
llms_txt_allow_indexing |
true |
KI-Crawlern Zugriff auf llms.txt-Dateien gewähren (wirkt sich auf robots.txt aus) |
llms_txt_blocked_user_agents |
"" |
Durch Kommas getrennte Liste der Bot-User-Agents, die von llms.txt-Dateien blockiert werden sollen |
llms_txt_intro_text |
Benutzerdefinierter Text | Einleitungstext, der in der Haupt-llms.txt-Datei erscheint |
llms_txt_full_description |
"" |
Benutzerdefinierte Beschreibung für llms-full.txt, um KI zu helfen, den Kontext Ihres Forums zu verstehen |
llms_txt_min_views |
50 |
Mindestanzahl der Themenaufrufe für die Aufnahme in llms-full.txt |
llms_txt_posts_limit |
medium |
Begrenzung der Themenanzahl: small (500), medium (2.500), large (5.000) oder all |
llms_txt_include_excerpts |
false |
Beitragsauszüge in llms-full.txt einschließen (erhöht die Dateigröße erheblich) |
llms_txt_post_excerpt_length |
500 |
Maximale Länge der Auszüge in Zeichen (100–5000), wenn Auszüge aktiviert sind |
llms_txt_latest_topics_count |
50 |
Anzahl der neuesten Themen, die in der Haupt-llms.txt-Datei angezeigt werden |
llms_txt_cache_minutes |
60 |
Cache-Dauer in Minuten für die Navigationsdatei |
Wichtige Hinweise:
- Die Aktivierung von
llms_txt_include_excerptsmitllms_txt_posts_limitaufallkann zu extrem großen Dateigrößen (möglicherweise 10–100+ MB) und hoher Serverlast auf großen Foren führen - Private Kategorien werden automatisch von allen llms.txt-Dateien ausgeschlossen
- Dynamische pro-Ressource-Dateien (Kategorien, Themen, Tags) werden nicht gecacht und bei Bedarf generiert
- Das Plugin verwendet View-Connector für die robots.txt-Integration – eine manuelle Bearbeitung von robots.txt ist nicht erforderlich
Technische Details
Architektur:
- Generierung bei Bedarf ohne vorab erstellte Dateien
- Intelligentes Caching mit stündlichen Hintergrundprüfungen
- Berechtigungsbewusst unter Verwendung von Discourse Guardian
- Sicherheit auf SQL-Ebene für private Inhalte
- Kanonische URLs in HTTP-Headern zur Vermeidung von SEO-Strafen
Leistung:
- Navigationsdatei für 60 Minuten gecacht (konfigurierbar)
- Vollständige Inhaltsdatei wird bei Bedarf generiert
- Intelligenter Cache wird nur bei neuen Inhalten neu generiert
- Antwortzeit unter 50 ms für gecachte Inhalte
Kompatibilität:
- Discourse 2.7.0+
- Ruby 2.7+
- Getestet auf Discourse 3.6.0.beta3
Standardeinhaltung:
- llms.txt-Standard (https://llmstxt.org/)
- RFC 3986 (URL-Codierung für internationale Zeichen)
- RFC 6596 (Kanonische Link-Header)
Anwendungsfälle
Community-Foren:
Ihre Diskussionen und Lösungen erscheinen, wenn Nutzer KI-Assistenten relevante Fragen stellen, und leiten qualifizierten Traffic zurück zu Ihrem Forum.
Dokumentationsseiten:
KI-Systeme können auf Ihre Dokumentation und Tutorials verweisen und genaue Informationen mit korrekter Zuordnung bereitstellen.
Support-Foren:
Nutzer erhalten direkte Antworten aus Ihrer Wissensdatenbank über KI-Assistenten, mit Links zurück zu den vollständigen Diskussionen.
Technische Gemeinschaften:
Entwickler entdecken Ihre Foreninhalte durch KI-gestützte Coding-Assistenten, was die Community-Engagement steigert.
Wartung
Das Plugin erfordert minimalen Wartungsaufwand:
- Der Cache wird automatisch jede Stunde aktualisiert
- Inhaltsaktualisierungen erfolgen automatisch bei Erstellung/Bearbeitung von Beiträgen
- Keine manuelle Dateigenerierung erforderlich
- Optionale Rake-Aufgaben verfügbar:
llms_txt:refreshundllms_txt:check
Fehlerbehebung
Dateien nicht erreichbar:
- Überprüfen Sie, ob
llms_txt_enabledauftruegesetzt ist - Stellen Sie sicher, dass
llms_txt_allow_indexingauftruegesetzt ist - Bestätigen Sie, dass das Plugin unter Admin → Plugins installiert ist
Leerer Inhalt:
- Stellen Sie sicher, dass Sie öffentliche Themen mit ausreichenden Aufrufen haben (prüfen Sie die Einstellung
llms_txt_min_views) - Überprüfen Sie, ob Kategorien öffentlich sind (nicht lesbeschränkt)
- Prüfen Sie die Einstellung
llms_txt_posts_limit
robots.txt-Integration funktioniert nicht:
- robots.txt-Cache leeren:
Rails.cache.delete('robots_txt') - Rake-Aufgabe verwenden:
bundle exec rake llms_txt:refresh - Discourse neu starten:
./launcher restart app
Support
- GitHub Issues: Issues · kaktaknet/discourse-llms-txt-generator · GitHub
Lizenz
MIT-Lizenz – Kostenlose und quelloffene Software
Danksagungen
- Standard Answer.AI: llms.txt von Jeremy Howard (Answer.AI)
- GitHub Answer.AI: GitHub - AnswerDotAI/llms-txt: The /llms.txt file, helping language models use your website · GitHub
- Plattform: Discourse

