Удаление HTML-кода из федеративных постов ActivityPub

Хорошо, это потенциальный пограничный случай, но всё же, возможно, интересный.

Посты, импортированные с помощью rss-polling, содержат HTML-код. Если такие посты федеративные, большая часть HTML-кода ломается и отображается как обычный текст.

В идеальном мире хотя бы ссылки должны были бы быть переведены. Но если это слишком сложно, то хотя бы было бы хорошо удалять HTML-код, оставляя только текст.

Несколько скриншотов для иллюстрации проблемы:

Тема в Discourse, импортированная через RSS:

Вот как это выглядит в Mastodon:

Почему мы федеративим посты, импортированные через RSS? Сценарий использования таков: мы — сообщество подкастов, мы импортируем новые выпуски через RSS, чтобы слушатели могли лайкать и комментировать их в одном месте, и мы хотим предоставить этим подкастам окно в Федериверс, где они могут получить больше слушателей, комментариев и лайков — без добавления дополнительной работы в их и без того загруженные графики.

Только для вашего сведения: когда контент ActivityPub федеруется (с любой платформы), он обычно передаётся в формате HTML. Мы всегда будем по умолчанию федерировать посты Discourse в формате HTML.

Вам, скорее всего, нужен пользовательский фильтр для контента ActivityPub. Возможно, мы добавим эту функцию в ближайшем будущем, однако это довольно специфический сценарий использования, и он не входит в число приоритетных задач.

Я понимаю. Как вы думаете, стоит ли попробовать продвинуть это через Marketplace? Это конкретный кейс, но он полностью затрагивает нас.

Не помешает попробовать разместить запрос в Marketplace!

Судя по скриншоту, который они опубликовали, здесь почти наверняка есть какая-то ошибка, хотя я не могу сказать, на стороне Mastodon или Discourse.

Даже самый сложный HTML при парсинге в Mastodon должен превращаться в обычный текст, а не в то сломанное HTML-разметку, которая происходит здесь.

Также, когда я просматриваю эту ветку по адресу https://socialhub.activitypub.rocks/t/remove-html-code-from-activitypub-federated-posts/5293, почему отсутствуют изображения?

К сожалению, я не могу просмотреть саму тему в ActivityPub, чтобы определить, кто виноват в этом, сервер возвращает 406 Not Acceptable:

curl -H 'Accept: application/activity+json' https://red.podkasts.org/t/el-canto-de-la-tripulacion-n-36-nuevas-voces/23408/1

И поиск объекта в Mastodon тоже не возвращает результата.

Большое спасибо @nightpool за то, что занялись этим вопросом. Я вижу пост в своей ленте Mastodon, так как подписан на этот аккаунт, но не знаю, как получить URL, отличный от URL оригинального поста на Discourse. Если хотите, вы можете подписаться на аккаунт, и тогда я опубликую ещё один пост для тестирования.

В любом случае, я планирую скоро отправить этот запрос в Marketplace.