Función de descripción de imágenes AI en el plugin Discourse AI

Falco · 20 Febrero, 2024 17:53

Hemos introducido una función de Subtitulado de Imágenes con IA en el plugin Discourse AI, que permite la generación automática de subtítulos para las imágenes en las publicaciones. Esta funcionalidad tiene como objetivo mejorar la accesibilidad del contenido y enriquecer los elementos visuales dentro de tu comunidad.

Funciones y Uso

Subtítulos Automáticos con IA: Al subir una imagen en el editor, puedes generar un subtítulo automáticamente usando IA.
Subtítulos Editables: El subtítulo generado se puede editar para que se adapte mejor al contexto y tono de tu contenido.
Accesibilidad Mejorada: La función permite crear contenido más accesible para los usuarios que dependen de lectores de pantalla.

Cómo Usar

Sube una imagen en el editor de Discourse.
Haz clic en el botón “Subtitular con IA” cerca de la imagen.
Aparecerá un subtítulo generado, que puedes modificar.
Acepta el subtítulo para incluirlo en tu publicación.

Comentarios

Tus comentarios son cruciales para refinar esta función. Está habilitada aquí en Meta, así que por favor comparte tus experiencias, problemas o sugerencias en este tema.

Modelo de IA

Esta función es compatible tanto con el modelo de código abierto LLaVa 1.6 como con la API de OpenAI.

frold · 20 Febrero, 2024 17:56

Curioso, lo usé antes en esta publicación. Me impresionó mucho. Pudo leer la imagen y decir de qué se trataba en esta publicación

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · 20 Febrero, 2024 18:10

Tomado nota de esto en el foro de OpenAI

Jagster · 20 Febrero, 2024 18:18

No sé cómo conseguimos que los usuarios de móviles recuerden usarlo, porque tienen que salir del editor.

¿Esa leyenda también se usa como texto alternativo?

Falco · 20 Febrero, 2024 18:21

Sí.

Planeamos agregar recordatorios JIT en un futuro cercano si la recepción es buena.

Falco · 21 Febrero, 2024 17:00

2 publicaciones se dividieron en un nuevo tema: Soporte para la personalización de indicaciones en DiscourseAI

pmusaraj · 20 Febrero, 2024 22:15

Puede ver la camisa a cuadros, pero no puede detectar a George Costanza.

Bromas aparte, esto es genial, especialmente para la #accesibilidad. En informes anteriores de A11Y, la falta de texto alternativo en las imágenes es uno de los principales puntos planteados, y anteriormente habíamos descartado todo eso ya que las imágenes son contenido subido por el usuario. Esto ahora abre un camino hacia una accesibilidad mucho, mucho mejor.

Tris20 · 21 Febrero, 2024 08:23

En el caso de los mensajes de error, ¿hay alguna forma de animarlo a subtitular la parte principal del error para que el motor de búsqueda lo capte?

Algunos otros resultados

Identifica correctamente el tercero como la herramienta IBM EWM, pero no reconoce que el 2 sea Rhapsody y el 1 sea Vector Davinci. No obstante, estos subtítulos son bastante razonables.

tpetrov · 21 Febrero, 2024 09:55

¡Esta es una característica increíble!

Pero es muy difícil de encontrar. El usuario necesita pasar el cursor sobre la imagen para ver el botón y luego hacer clic en él (y la mayoría de la gente no lo sabrá).
Aunque lo sabía y estaba buscando la función, tuve que ver el video para darme cuenta de que necesito pasar el cursor.
En mi opinión, debería estar “a la vista” para ser utilizada desde el principio. Incluso la haría crear los subtítulos por defecto, sin que el usuario tenga que hacer clic en nada

Falco · 21 Febrero, 2024 17:04

Eventualmente haremos que esas indicaciones sean personalizables, por lo que esto será posible.

Como nueva función, nuestra idea es introducirla de una manera muy discreta para recopilar comentarios y luego hacer que sea más fácil de encontrar e incluso automática.

JammyDodger · 12 Marzo, 2024 09:36

6 publicaciones se dividieron en un nuevo tema: Problemas al configurar subtítulos de imágenes de IA

ecki · 15 Marzo, 2024 12:41

¿Eso enviará el enlace de la imagen (de Internet) al Servicio de IA, o cargará el contenido de la imagen, o ejecutará algún “hashing” localmente en Discourse? ¿Es del lado del servidor o JavaScript (es decir, expone la IP del cliente a un servicio externo)?

Falco · 15 Marzo, 2024 13:12

Envía un enlace a la imagen al servicio que seleccionaste para la subtitulación. Ocurre del lado del servidor, ya que hay credenciales involucradas.

Si quieres la función pero no quieres involucrar a terceros, siempre puedes ejecutar LLaVa en tu propio servidor.

ecki · 15 Marzo, 2024 15:33

De acuerdo, sin embargo, la calidad podría verse afectada por las limitaciones del hardware. Quizás podrías compartir algunas recomendaciones sobre tamaños de modelos y cuantización o VRAM mínima según tu experiencia. (No estoy seguro de si tienen modelos cuantizados, su “zoo” parece tener solo modelos completos).

Falco · 15 Marzo, 2024 15:46

Estamos ejecutando el modelo completo, pero la versión más pequeña de él con Mistral 7B. Está consumiendo 21 GB de VRAM en nuestros servidores A100 individuales y se ejecuta a través de la imagen de contenedor ghcr.io/xfalcox/llava:latest.

Lamentablemente, el ecosistema de modelos multimodales no es tan maduro como el de los modelos text2text, por lo que aún no podemos aprovechar servidores de inferencia como vLLM o TGI y nos quedamos con esos microservicios únicos. Esto puede cambiar este año, el multimodal está en la hoja de ruta de vLLM, pero hasta entonces, al menos podemos probar las aguas con esos servicios.

seanblue · 21 Marzo, 2024 22:34

Tengo algunos pequeños comentarios de UX sobre esto. En imágenes pequeñas, el botón “Capturar con IA” bloquea no solo la imagen en sí, sino también otro texto en la publicación, lo que dificulta la revisión de la publicación al editar.

Moin · 21 Marzo, 2024 22:55

mattdm · 12 Abril, 2024 13:59

Veo que todos los subtítulos generados (tanto aquí como en mi sitio) comienzan con “La imagen contiene” o “Una imagen de” o similar. Esto parece innecesario y redundante. ¿Podría actualizarse la indicación para decirle que no es necesario explicar que la imagen es una imagen?

sam · 17 Abril, 2024 03:20

Es muy difícil de perfeccionar porque los diferentes modelos tienen diferentes tolerancias, pero un plan que tenemos es permitir a los propietarios de la comunidad controlar las indicaciones para que puedan experimentar.

Isambard · 3 Junio, 2024 17:11

@mattdm Puedes lograr esto simplemente pre-sembrando la respuesta generada con “Una imagen de”. De esta manera, el LLM piensa que ya ha generado la introducción y generará solo el resto.

Tema		Respuestas	Vistas
Helper - Auto caption Site Management how-to , ai , ai-captions	9	256	2 Septiembre 2025
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	6	225	12 Agosto 2024
Issues configuring AI image captions Support ai , ai-helper	21	693	12 Abril 2024
Non-AI method of captioning images Support	3	166	21 Junio 2024
Lets see your best AI Image Caption! General ai , ai-helper , ai-captions	38	2223	29 Junio 2024

Función de descripción de imágenes AI en el plugin Discourse AI

Funciones y Uso

Cómo Usar

Comentarios

Modelo de IA

Temas relacionados