Não sou um especialista em acessibilidade, mas não entendo essa solicitação de recurso. Qual é a diferença, efetivamente, entre alt e figcaption e por que vocês defendem que nos afastemos do CommonMark? O que estou perdendo?
Quando faço upload de uma foto, digamos do meu gato, ela recebe uma legenda que está associada à foto. Eu posso então editar a legenda para compartilhar contexto.
A legenda é exibida ao passar o mouse (desktop) e na parte inferior da foto, quando você a seleciona para visualizá-la maior:

