Я не эксперт в области доступности, но я не понимаю эту просьбу о добавлении функции. В чём, по сути, разница между alt и figcaption и почему вы выступаете за отклонение от стандарта CommonMark? Что я упускаю?
Когда я загружаю фото, например, своей кошки, ему присваивается подпись, связанная с изображением. Затем я могу отредактировать подпись, чтобы добавить контекст.
Подпись отображается при наведении курсора (на компьютере) и внизу изображения, когда вы выбираете его, чтобы просмотреть в увеличенном размере:

