لذا، لقد كنت أبحث في هذا الأمر، وأقوم بإعداد مخطط هيكلي (باستخدام الذكاء الاصطناعي) حول أفضل طريقة لتحقيق ذلك. هناك عدة أفكار تتبادر إلى ذهني. استخدام Apache TIKA سيسمح لنا بإجراء التعرف الضوئي على الحروف (OCR) تقريبًا لأي نوع من الملفات التي تحتوي على نصوص، بما في ذلك الصور. سيكون هذا خيارًا مستضافًا ذاتيًا. أو: استخدام Gemini Flash 1.5 (على سبيل المثال) ليس فقط لأداء التعرف الضوئي على الحروف، بل أيضًا لوصف الصور التي يتم رؤيتها وتحليلها، ثم نشر هذه البيانات في جدول/عمود PostgreSQL للبحث. بالطبع، يتطلب هذا استثمارًا كبيرًا في الرموز (tokens) مسبقًا لإعادة معالجة جميع المنشورات المرفقة/المحملة، لكنه سيكون الأكثر فائدة. أعتقد أنك تحصل على ما تدفع ثمنه؟
إعجاب واحد (1)