تصدير جميع مشاركات المنتدى للتحميل اليدوي إلى LLMs خارجية؟

أحتاج إلى إعداد تصدير أو نسخة احتياطية يمكنني تحميلها يدويًا إلى مساحة عمل Perplexity.ai. أريد تضمين جميع المشاركات في الموقع بأكمله. أنواع الملفات المسموح بها هي:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

يمكنني تحميل ما يصل إلى 50 ملفًا بحجم 25 ميجابايت أو أقل.
لا أحتاج إلى تضمين الصور.

ما هي أفضل طريقة؟

(أيضًا، ليس ضروريًا، ولكن إذا أمكن، أود أن تتضمن الملفات المصدرة محتويات المستندات التي تم تحميلها بواسطة المستخدم مثل ملفات .pdf بتنسيق يمكن قراءته بواسطة نماذج اللغة الكبيرة.)

هل لدى أي شخص أي أفكار حول أفضل طريقة لإعداد مثل هذا التصدير؟

أنا أستضيف بنفسي.

إليك ما وجدته حتى الآن …

قال Ask.Discourse.com...

تصدير المحتوى مع استبعاد الصور:

  1. استخدام إضافة مستكشف البيانات (إذا كانت متاحة):
    • تسمح إضافة مستكشف البيانات الخاصة بـ Discourse لك بتشغيل استعلامات SQL مخصصة لاستخراج أنواع مختلفة من البيانات بالتنسيق الذي تريده (مثل JSON، CSV).
    • مثال على الاستعلام: قم بتشغيل استعلام لتصدير جميع المشاركات والمواضيع. سيعطيك هذا بيانات منظمة.
  2. تصدير JSON عبر واجهة برمجة التطبيقات (API):
    • يمكن تصدير كل موضوع أو مشاركة على Discourse برمجيًا بتنسيق JSON عن طريق إضافة .json إلى عنوان URL الخاص بها.
    • على سبيل المثال:
https://<your-discourse-site>/t/topic-title/<topic-id>.json
*   إذا كنت تهدف إلى تشغيل هذه التصديرات برمجيًا لجميع المواضيع على الموقع بناءً على معرفات المواضيع، فسيؤدي ذلك إلى الحصول على المحادثات في ملفات `.json` فردية.
  1. خيار سطر الأوامر الآلي (إذا كان مدعومًا):
    • بالنسبة للمواقع المستضافة ذاتيًا، يمكن للمستخدمين المتقدمين العمل مباشرة مع قاعدة البيانات باستخدام أوامر pg_dump أو خطوات استخراج استعلامات قاعدة البيانات المماثلة.
    • ومع ذلك، فإن الخطط المستضافة لا تسمح بتشغيل هذه الأدوات مباشرة.
  2. المستندات التي تم تحميلها بواسطة المستخدم (مثل ملفات PDF):
    • للأسف، دمج محتويات المستندات المحملة مباشرة في .json أو أي تنسيق إخراج آخر مثل .txt غير مدعوم بشكل أصلي. ومع ذلك، يمكنك تنزيل المستندات وتحليلها بشكل منفصل محليًا باستخدام أدوات متخصصة لتضمين نصوصها في تنسيقات منظمة.

توصية نوع الملف:

بالنظر إلى قيود التحميل الخاصة بك:

  • لاستخراج النص، قم بتصدير ملفات .json أو .csv، حيث يمكن لهذه التنسيقات التقاط تفاصيل المشاركات والمواضيع المنظمة بشكل أفضل.

إذا كنت بحاجة إلى تخصيص إضافي، فيرجى إخباري!

لمزيد من التفاصيل، تحقق من وثائق إضافة مستكشف البيانات.

إعجاب واحد (1)

مستكشف البيانات هو النهج الصحيح هنا:

هذا هو النهج الذي أوصي باتباعه:

4 إعجابات