החברה שלנו החלה להשתמש לאחרונה ב-Glean לניהול ידע פנימי. היינו רוצים לאנדקס את קהילת Discourse שלנו, אבל נראה שנתקלים בהודעת שגיאה זו:
e הגבלות של מחבר עוקב האתרים של Glean כוללות את הדברים הבאים:
- הגבלות גישה: העוקב עשוי להתקשות באתרים עם מדיניות גישה מחמירה או שמאחורי חומות אימות שהן לא יכולות לפרוץ ביעילות, למרות שהוא תומך בשיטות אימות שונות (למשל, Basic, Bearer, NTLMv2) ועוגיות.
- הגבלות תוכן דינמי: כברירת מחדל, העוקב לא מדורג דפי אתרים המנתחים דינמית שדורשים JavaScript אלא אם כן מוגדרות תצורות מסוימות (כמו הפעלה של Client-Side Rendering (CSR)). זה דורש פעולות התקנה נוספות שעלולות להקשות על תהליך האינטגרציה.
- תדירות הסריקה וניהול עומס: בזמן ש-Glean מאפשר תצורות תדירות סריקה, ארגונים עלולים להתמודד עם אתגרים בניהול העומס על השרתים שלהם, במיוחד אם מופעלות כמה מופעים במקביל. זה עלול להוביל לבעיות בביצועים אם לא מנוהל כראוי.
- ניהול כתובות URL: העוקב משתמש בביטויי רגולרי כדי להתאים לכתובות URL; הגדרה לא נכונה של תבניות ה-regex עלולה להוביל לכישלונות בהבאה. בנוסף, הוא חייב לכבד את קבצי ה-robots.txt, שיכולים להגביל את הסריקה של עמודים מסוימים על פי כללי האתר.
- הגבלות סוגי תוכן: ייתכן שיש הגבלות באינדקס סוגי תוכן מסוימים או בפורמטים, כמו אלמנטים אינטראקטיביים מסוימים או קבצים שאינם נתמכים ישירות על ידי המערכת (כמו פורמטים שאינם טקסטואליים) אלא אם כן מיושמים פתרונות מותאמים.
e הגבלות אלו עשויות להוות אתגר לארגונים שמבקשים לנצל באופן מלא את יכולות המחבר של Glean באיסוף ואינדוקס של מידע מבוסס אינטרנט ביעילות.
האם מישהו הצליח לאנדקס את ה-Discourse שלו עם ספק בינה מלאכותית, כמו Glean?