Плагин для парсинга новостей с других сайтов

Здравствуйте,

Существует ли какой-либо плагин для парсинга новостей с других сайтов?

Вот: News Plugin 📰

Он использует RSS-ленты.

Плагин Настройка RSS-опроса Discourse может собирать данные с множества сайтов, таких как блоги, каналы и плейлисты YouTube, и автоматически создавать новые темы всего через несколько минут после публикации контента.

Я установил плагин и следовал инструкции ниже:

Я добавил три раздела для тестирования работы RSS-ленты с сайта Bleeping Computer по безопасности:

1-я категория, источник RSS:
News in the Security category
Фильтр по категории: нет.
Выбран пользователь; выбрана категория для публикации RSS.

2-я категория, источник RSS:
BleepingComputer
Фильтр по категории: security
Выбран пользователь; выбрана категория для публикации RSS.

Также я использовал RSS с другого сайта:

https://www.darkreading.com/rss.xml
Фильтр по категории: vulnerabilities-threats
Выбран пользователь; выбрана категория для публикации RSS.

Но у меня ничего не работает??

Вы запускали процесс через Sidekiq? Если нет, то это займёт некоторое время в зависимости от ваших настроек администратора. Также проверьте логи на наличие ошибок.

Также убедитесь, что вы используете RSS-адрес. Если открыть эти ссылки, они, похоже, не являются RSS. Кроме того, есть настройка, которая делает импортированные темы по умолчанию скрытыми.

Извините, я упустил эту часть; логи показывают следующее

Теперь я вижу, что работает только третий RSS-канал (darkreading.com) для начала публикации; и он публикует довольно хорошо — более 100+ постов, но все посты выглядят так:

value:

https://www.darkreading.com/rss.xml
category filter: vulnerabilities-threats
username selected; and category to post rss selected.

Как мне включить полный текст постов с изображениями?

@f1r4s и @Jagster, ведите себя уважительно.

Хотя существуют законные причины для использования контента с других сайтов, например, во внутренней сообществе для мониторинга важных новостей о безопасности, мы не поддерживаем нарушение авторских прав.

Владельцы сообществ Discourse несут ответственность за то, чтобы их сайты работали в соответствии со всеми применимыми законами и условиями предоставления услуг хостинга, как и любые другие сайты в интернете.

4 лайка

Попробуйте переключить настройку сайта embed truncate.

У некоторых сайтов странная разметка RSS, поэтому вам придется вручную исправлять неработающие.

Я рекомендовал использовать второй RSS, но изображения не загружаются при парсинге.