Función de descripción de imágenes AI en el plugin Discourse AI

Hemos introducido una función de Subtitulado de Imágenes con IA en el plugin Discourse AI, que permite la generación automática de subtítulos para las imágenes en las publicaciones. Esta funcionalidad tiene como objetivo mejorar la accesibilidad del contenido y enriquecer los elementos visuales dentro de tu comunidad.

Funciones y Uso

  • Subtítulos Automáticos con IA: Al subir una imagen en el editor, puedes generar un subtítulo automáticamente usando IA.
  • Subtítulos Editables: El subtítulo generado se puede editar para que se adapte mejor al contexto y tono de tu contenido.
  • Accesibilidad Mejorada: La función permite crear contenido más accesible para los usuarios que dependen de lectores de pantalla.

Cómo Usar

  1. Sube una imagen en el editor de Discourse.
  2. Haz clic en el botón “Subtitular con IA” cerca de la imagen.
  3. Aparecerá un subtítulo generado, que puedes modificar.
  4. Acepta el subtítulo para incluirlo en tu publicación.

Comentarios

Tus comentarios son cruciales para refinar esta función. Está habilitada aquí en Meta, así que por favor comparte tus experiencias, problemas o sugerencias en este tema.

Modelo de IA

Esta función es compatible tanto con el modelo de código abierto LLaVa 1.6 como con la API de OpenAI.

28 Me gusta

Curioso, lo usé antes en esta publicación. Me impresionó mucho. Pudo leer la imagen y decir de qué se trataba en esta publicación

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 Me gusta

Tomado nota de esto en el foro de OpenAI

5 Me gusta

No sé cómo conseguimos que los usuarios de móviles recuerden usarlo, porque tienen que salir del editor.

¿Esa leyenda también se usa como texto alternativo?

4 Me gusta

Sí.

Planeamos agregar recordatorios JIT en un futuro cercano si la recepción es buena.

7 Me gusta

2 publicaciones se dividieron en un nuevo tema: Soporte para la personalización de indicaciones en DiscourseAI

Puede ver la camisa a cuadros, pero no puede detectar a George Costanza. :rofl:

Bromas aparte, esto es genial, especialmente para la #accesibilidad. En informes anteriores de A11Y, la falta de texto alternativo en las imágenes es uno de los principales puntos planteados, y anteriormente habíamos descartado todo eso ya que las imágenes son contenido subido por el usuario. Esto ahora abre un camino hacia una accesibilidad mucho, mucho mejor.

13 Me gusta

En el caso de los mensajes de error, ¿hay alguna forma de animarlo a subtitular la parte principal del error para que el motor de búsqueda lo capte?

Algunos otros resultados

Identifica correctamente el tercero como la herramienta IBM EWM, pero no reconoce que el 2 sea Rhapsody y el 1 sea Vector Davinci. No obstante, estos subtítulos son bastante razonables.

5 Me gusta

¡Esta es una característica increíble!

Pero es muy difícil de encontrar. El usuario necesita pasar el cursor sobre la imagen para ver el botón y luego hacer clic en él (y la mayoría de la gente no lo sabrá).
Aunque lo sabía y estaba buscando la función, tuve que ver el video para darme cuenta de que necesito pasar el cursor.
En mi opinión, debería estar “a la vista” para ser utilizada desde el principio. Incluso la haría crear los subtítulos por defecto, sin que el usuario tenga que hacer clic en nada :drevil:

7 Me gusta

Eventualmente haremos que esas indicaciones sean personalizables, por lo que esto será posible.

Como nueva función, nuestra idea es introducirla de una manera muy discreta para recopilar comentarios y luego hacer que sea más fácil de encontrar e incluso automática.

10 Me gusta

6 publicaciones se dividieron en un nuevo tema: Problemas al configurar subtítulos de imágenes de IA

¿Eso enviará el enlace de la imagen (de Internet) al Servicio de IA, o cargará el contenido de la imagen, o ejecutará algún “hashing” localmente en Discourse? ¿Es del lado del servidor o JavaScript (es decir, expone la IP del cliente a un servicio externo)?

3 Me gusta

Envía un enlace a la imagen al servicio que seleccionaste para la subtitulación. Ocurre del lado del servidor, ya que hay credenciales involucradas.

Si quieres la función pero no quieres involucrar a terceros, siempre puedes ejecutar LLaVa en tu propio servidor.

3 Me gusta

De acuerdo, sin embargo, la calidad podría verse afectada por las limitaciones del hardware. Quizás podrías compartir algunas recomendaciones sobre tamaños de modelos y cuantización o VRAM mínima según tu experiencia. (No estoy seguro de si tienen modelos cuantizados, su “zoo” parece tener solo modelos completos).

2 Me gusta

Estamos ejecutando el modelo completo, pero la versión más pequeña de él con Mistral 7B. Está consumiendo 21 GB de VRAM en nuestros servidores A100 individuales y se ejecuta a través de la imagen de contenedor ghcr.io/xfalcox/llava:latest.

Lamentablemente, el ecosistema de modelos multimodales no es tan maduro como el de los modelos text2text, por lo que aún no podemos aprovechar servidores de inferencia como vLLM o TGI y nos quedamos con esos microservicios únicos. Esto puede cambiar este año, el multimodal está en la hoja de ruta de vLLM, pero hasta entonces, al menos podemos probar las aguas con esos servicios.

5 Me gusta

Tengo algunos pequeños comentarios de UX sobre esto. En imágenes pequeñas, el botón “Capturar con IA” bloquea no solo la imagen en sí, sino también otro texto en la publicación, lo que dificulta la revisión de la publicación al editar.

3 Me gusta
4 Me gusta

Veo que todos los subtítulos generados (tanto aquí como en mi sitio) comienzan con “La imagen contiene” o “Una imagen de” o similar. Esto parece innecesario y redundante. ¿Podría actualizarse la indicación para decirle que no es necesario explicar que la imagen es una imagen?

3 Me gusta

Es muy difícil de perfeccionar porque los diferentes modelos tienen diferentes tolerancias, pero un plan que tenemos es permitir a los propietarios de la comunidad controlar las indicaciones para que puedan experimentar.

5 Me gusta

@mattdm Puedes lograr esto simplemente pre-sembrando la respuesta generada con “Una imagen de”. De esta manera, el LLM piensa que ya ha generado la introducción y generará solo el resto.

2 Me gusta