אינדקס תוכן קהילת דיון ב-Glean AI

Justin_Gonzalez · 24 באפריל,‏ 2025,‏ 5:53pm

החברה שלנו החלה להשתמש לאחרונה ב-Glean לניהול ידע פנימי. היינו רוצים לאנדקס את קהילת Discourse שלנו, אבל נראה שנתקלים בהודעת שגיאה זו:

e הגבלות של מחבר עוקב האתרים של Glean כוללות את הדברים הבאים:

הגבלות גישה: העוקב עשוי להתקשות באתרים עם מדיניות גישה מחמירה או שמאחורי חומות אימות שהן לא יכולות לפרוץ ביעילות, למרות שהוא תומך בשיטות אימות שונות (למשל, Basic, Bearer, NTLMv2) ועוגיות.
הגבלות תוכן דינמי: כברירת מחדל, העוקב לא מדורג דפי אתרים המנתחים דינמית שדורשים JavaScript אלא אם כן מוגדרות תצורות מסוימות (כמו הפעלה של Client-Side Rendering (CSR)). זה דורש פעולות התקנה נוספות שעלולות להקשות על תהליך האינטגרציה.
תדירות הסריקה וניהול עומס: בזמן ש-Glean מאפשר תצורות תדירות סריקה, ארגונים עלולים להתמודד עם אתגרים בניהול העומס על השרתים שלהם, במיוחד אם מופעלות כמה מופעים במקביל. זה עלול להוביל לבעיות בביצועים אם לא מנוהל כראוי.
ניהול כתובות URL: העוקב משתמש בביטויי רגולרי כדי להתאים לכתובות URL; הגדרה לא נכונה של תבניות ה-regex עלולה להוביל לכישלונות בהבאה. בנוסף, הוא חייב לכבד את קבצי ה-robots.txt, שיכולים להגביל את הסריקה של עמודים מסוימים על פי כללי האתר.
הגבלות סוגי תוכן: ייתכן שיש הגבלות באינדקס סוגי תוכן מסוימים או בפורמטים, כמו אלמנטים אינטראקטיביים מסוימים או קבצים שאינם נתמכים ישירות על ידי המערכת (כמו פורמטים שאינם טקסטואליים) אלא אם כן מיושמים פתרונות מותאמים.

e הגבלות אלו עשויות להוות אתגר לארגונים שמבקשים לנצל באופן מלא את יכולות המחבר של Glean באיסוף ואינדוקס של מידע מבוסס אינטרנט ביעילות.

האם מישהו הצליח לאנדקס את ה-Discourse שלו עם ספק בינה מלאכותית, כמו Glean?

Jagster · 24 באפריל,‏ 2025,‏ 6:08pm

זה לא עניין של בינה מלאכותית, אלא של זחלים. וכל מה שאני יודע, התשובה היא לא, וכן. אם קטגוריה נראה ל־כולם, אפשר לסרוק אותה. ככה עובד גוגלבוט. אם פורום מאחורי כניסה או שנראות של קטגוריה מוגבלת על ידי רמת אמון, סריקה בלתי אפשרית. ואני באמת מקווה שזה לא ישתנה לעולם, כי זו אחת אמצעי הביטחון החשובים ביותר.

אבל כמובן, אפשר לסרוק תוכן “מוסתר” כזה, אם

יש לך מערכת שבה רובוט יכול להתחבר ולקרוא תוכן, או
תבצע אינדוקס של התוכן מבפנים באמצעות Discourse AI המחובר לדגם הרצוי (או מערכת דומה)

Falco · 24 באפריל,‏ 2025,‏ 6:08pm

אם תקבע את סוכן המשתמש שלהם להיות מזוהה כbot סורק, Discourse יציג תצוגת HTML בסיסית שקל הרבה יותר לאינדקס.

חלופין, הוסף את סוכן המשתמש שלהם להגדרות האתר המוסתרות crawler_user_agents.

system · 30 במאי,‏ 2025,‏ 4:10am

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

נושא		תגובות	צפיות
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5326	1 ביוני,‏ 2024
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12714	6 בפברואר,‏ 2013
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	195	18 בדצמבר,‏ 2024
Option to index topics Support	8	554	31 בדצמבר,‏ 2022
SEO - Pages crawled but not Indexed Support seo	4	143	23 בספטמבר,‏ 2025

אינדקס תוכן קהילת דיון ב-Glean AI

נושאים קשורים