אינדקס תוכן קהילת דיון ב-Glean AI

החברה שלנו החלה להשתמש לאחרונה ב-Glean לניהול ידע פנימי. היינו רוצים לאנדקס את קהילת Discourse שלנו, אבל נראה שנתקלים בהודעת שגיאה זו:

e הגבלות של מחבר עוקב האתרים של Glean כוללות את הדברים הבאים:

  1. הגבלות גישה: העוקב עשוי להתקשות באתרים עם מדיניות גישה מחמירה או שמאחורי חומות אימות שהן לא יכולות לפרוץ ביעילות, למרות שהוא תומך בשיטות אימות שונות (למשל, Basic, Bearer, NTLMv2) ועוגיות.
  2. הגבלות תוכן דינמי: כברירת מחדל, העוקב לא מדורג דפי אתרים המנתחים דינמית שדורשים JavaScript אלא אם כן מוגדרות תצורות מסוימות (כמו הפעלה של Client-Side Rendering (CSR)). זה דורש פעולות התקנה נוספות שעלולות להקשות על תהליך האינטגרציה.
  3. תדירות הסריקה וניהול עומס: בזמן ש-Glean מאפשר תצורות תדירות סריקה, ארגונים עלולים להתמודד עם אתגרים בניהול העומס על השרתים שלהם, במיוחד אם מופעלות כמה מופעים במקביל. זה עלול להוביל לבעיות בביצועים אם לא מנוהל כראוי.
  4. ניהול כתובות URL: העוקב משתמש בביטויי רגולרי כדי להתאים לכתובות URL; הגדרה לא נכונה של תבניות ה-regex עלולה להוביל לכישלונות בהבאה. בנוסף, הוא חייב לכבד את קבצי ה-robots.txt, שיכולים להגביל את הסריקה של עמודים מסוימים על פי כללי האתר.
  5. הגבלות סוגי תוכן: ייתכן שיש הגבלות באינדקס סוגי תוכן מסוימים או בפורמטים, כמו אלמנטים אינטראקטיביים מסוימים או קבצים שאינם נתמכים ישירות על ידי המערכת (כמו פורמטים שאינם טקסטואליים) אלא אם כן מיושמים פתרונות מותאמים.

e הגבלות אלו עשויות להוות אתגר לארגונים שמבקשים לנצל באופן מלא את יכולות המחבר של Glean באיסוף ואינדוקס של מידע מבוסס אינטרנט ביעילות.

האם מישהו הצליח לאנדקס את ה-Discourse שלו עם ספק בינה מלאכותית, כמו Glean?

זה לא עניין של בינה מלאכותית, אלא של זחלים. וכל מה שאני יודע, התשובה היא לא, וכן. אם קטגוריה נראה ל־כולם, אפשר לסרוק אותה. ככה עובד גוגלבוט. אם פורום מאחורי כניסה או שנראות של קטגוריה מוגבלת על ידי רמת אמון, סריקה בלתי אפשרית. ואני באמת מקווה שזה לא ישתנה לעולם, כי זו אחת אמצעי הביטחון החשובים ביותר.

אבל כמובן, אפשר לסרוק תוכן “מוסתר” כזה, אם

  • יש לך מערכת שבה רובוט יכול להתחבר ולקרוא תוכן, או
  • תבצע אינדוקס של התוכן מבפנים באמצעות Discourse AI המחובר לדגם הרצוי (או מערכת דומה)
לייק 1

אם תקבע את סוכן המשתמש שלהם להיות מזוהה כbot סורק, Discourse יציג תצוגת HTML בסיסית שקל הרבה יותר לאינדקס.

חלופין, הוסף את סוכן המשתמש שלהם להגדרות האתר המוסתרות crawler_user_agents.

4 לייקים

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.