Discourse ошибочно определяет загруженный файл как изображение

xyzzy · 26.Октябрь.2023 17:44:13

У меня есть несколько пользователей-инженеров, которые хотят прикреплять к своим сообщениям файлы данных с нестандартными расширениями. По сути, это обычные текстовые файлы, но содержащие расширенные символы ASCII.

Я попытался обновить конфигурацию NGINX в Discourse, чтобы указать типы MIME для этих файлов, но это не сработало. Две недели назад я создал тему (How to customize MIME media type emitted for certain attachments?) на эту тему, но пока не получил ответов. Даже если NGINX не обновлён, он всё равно будет обслуживать неизвестные типы файлов с использованием резервного типа MIME “application/octet-stream”. Пока что меня это устраивает.

Однако, когда пользователи пытаются загрузить эти файлы данных в сообщение (либо используя кнопку «Загрузить», либо перетаскиванием), появляется всплывающее окно с ошибкой от Discourse, подобное этому:

Похоже, что при загрузке файлов Discourse пытается «проявить смекалку» и определить, является ли файл изображением или чем-то другим. Более того, судя по всему, это определение происходит на основе содержимого файла (похоже на стандартную Unix-команду “file”). Я предполагаю, что это нужно, чтобы Discourse мог решить, следует ли встроить файл в содержимое сообщения или разместить его отдельно как вложение.

В случае с этими файлами данных такая проверка ошибочно определяет их как изображения. Просто ради интереса я поместил несколько таких файлов на машину с Ubuntu и проверил их с помощью команды “file”, и действительно, они были определены как “JPEG image data”.

Есть ли способ загрузить файлы без попытки Discourse определить, являются ли они изображениями? То есть: «Пожалуйста, загрузите это как вложение, независимо от содержания, не встраивайте»?

В качестве альтернативы я мог бы настроить Discourse на разрешение загрузки ZIP-файлов и попросить пользователей архивировать свои файлы перед загрузкой, но мне не хотелось бы открывать сайт для загрузки случайных ZIP-файлов. Это кажется проблемой безопасности.

Заранее спасибо за любую помощь!

Falco · 26.Октябрь.2023 17:47:00

Другой обходной путь — добавить поддержку расширения для таких странных файлов, как .bin, .data или вообще .любой_суффикс, что должно быть достаточно для Discourse, чтобы оставить эти файлы в покое.

xyzzy · 26.Октябрь.2023 17:59:36

Спасибо за быстрый ответ! Однако я попробовал это, и это не сработало. Discourse, безусловно, проверяет содержимое файла, а не его расширение, чтобы определить, является ли он изображением или нет.

xyzzy · 15.Ноябрь.2023 23:54:16

У кого-нибудь есть мысли по этому поводу? Это выглядит как довольно серьёзный баг.

Arkshine · 18.Ноябрь.2023 18:26:32

Я немного покопался в этой проблеме.

Коротко: ваш файл определяется как JPEG, потому что начинается с той же сигнатуры, что и файлы этого типа.
Исправить такое поведение в Discourse возможно, но для этого потребуется модификация (см. в конце).

Немного технической информации.
Проблема возникает здесь:

github.com/discourse/discourse

lib/upload_creator.rb

main


      
          @image_info =
            begin
              image = FastImage.new(@file)
              image.type # eager load to rescue errors early
              image
            rescue StandardError
              nil
            end
          is_image = FileHelper.is_supported_image?(@filename)
          is_image ||= @image_info && FileHelper.is_supported_image?("test.#{@image_info.type}")

Библиотека FastImage открывает файл и определяет его тип и размер.
Как вы и ожидали, она возвращает тип JPEG.

Если посмотреть на сигнатуру JPEG, она выглядит так:

Маркеры JPEG

Дополнительная информация: List of file signatures - Wikipedia
JPEG - Wikipedia

Она всегда начинается со следующих байтов-маркеров: FF D8.

Если открыть образец вашего файла в шестнадцатеричном редакторе, вы увидите, что он начинается так же.

Теперь посмотрим, как FastImage определяет JPEG: это видно здесь:

github.com/sdsykes/fastimage

lib/fastimage.rb

master


      
          # frozen_string_literal: true
          # coding: ASCII-8BIT
          
          # FastImage finds the size or type of an image given its uri.
          # It is careful to only fetch and parse as much of the image as is needed to determine the result.
          # It does this by using a feature of Net::HTTP that yields strings from the resource being fetched
          # as soon as the packets arrive.
          #
          # No external libraries such as ImageMagick are used here, this is a very lightweight solution to
          # finding image information.
          #
          # FastImage knows about GIF, JPEG, BMP, TIFF, ICO, CUR, PNG, HEIC/HEIF, AVIF, PSD, SVG, WEBP and JXL files.
          #
          # FastImage can also read files from the local filesystem by supplying the path instead of a uri.
          # In this case FastImage reads the file in chunks of 256 bytes until
          # it has enough. This is possibly a useful bandwidth-saving feature if the file is on a network
          # attached disk rather than truly local.
          #
          # FastImage will automatically read from any object that responds to :read - for
          # instance an IO object if that is passed instead of a URI.

This file has been truncated. show original

Однако извлечь информацию об изображении нельзя, поскольку отсутствуют все необходимые байты.

Как исправить эту проблему в Discourse?
Изучив код FastImage, можно заметить полезный параметр, который можно передать.

github.com/sdsykes/fastimage

lib/fastimage.rb

master


      
          # frozen_string_literal: true
          # coding: ASCII-8BIT
          
          # FastImage finds the size or type of an image given its uri.
          # It is careful to only fetch and parse as much of the image as is needed to determine the result.
          # It does this by using a feature of Net::HTTP that yields strings from the resource being fetched
          # as soon as the packets arrive.
          #
          # No external libraries such as ImageMagick are used here, this is a very lightweight solution to
          # finding image information.
          #
          # FastImage knows about GIF, JPEG, BMP, TIFF, ICO, CUR, PNG, HEIC/HEIF, AVIF, PSD, SVG, WEBP and JXL files.
          #
          # FastImage can also read files from the local filesystem by supplying the path instead of a uri.
          # In this case FastImage reads the file in chunks of 256 bytes until
          # it has enough. This is possibly a useful bandwidth-saving feature if the file is on a network
          # attached disk rather than truly local.
          #
          # FastImage will automatically read from any object that responds to :read - for
          # instance an IO object if that is passed instead of a URI.

This file has been truncated. show original

Используя этот параметр, любая ошибка (SizeNotFound, ImageFetchFailure, CannotParseImage, UnknownImageType, BadImageURI) приведёт к отсутствию информации об изображении; и ваш файл не будет распознан как изображение.

@image_info =
begin
   FastImage.new(@file, :raise_on_failure=>true)
rescue StandardError
   nil
end
...
is_image ||= @image_info && FileHelper.is_supported_image?("test.#{@image_info.type}")

Теперь это может работать:

Я могу позже создать PR. Использование этого параметра здесь имеет смысл.

xyzzy · 21.Ноябрь.2023 22:46:47

Вау! Это феноменальный анализ! Спасибо!

Несколько быстрых вопросов:

Так что с этими изменениями файл не будет обнаружен как изображение и будет загружен как не-изображение, отображаясь справа от поста?
Если я правильно понял, вы предлагаете внести эти изменения в мой локальный экземпляр Discourse, чтобы попробовать это и/или использовать до тех пор, пока это не будет включено в будущий релиз Discourse. Но как это сделать? (Я опытный разработчик программного обеспечения, но имею ограниченный опыт работы с Docker и никакого — с Ruby.)
Вызов FastImage, который нужно будет изменить, находится в models/upload.rb, верно?

Arkshine · 22.Ноябрь.2023 01:32:29

Да, всё верно — как на моем скриншоте выше.
Я не предлагаю вам вносить это изменение. Однако, если вы не можете ждать, вы, безусловно, можете протестировать такую правку.

Для временного изменения (исчезнет после пересборки):

cd /var/discourse
./launcher enter app
sed -i "s/FastImage.new(@file)/FastImage.new(@file, :raise_on_failure=>true)/" lib/upload_creator.rb
sed -i "s/FastImage.new(original_path)/FastImage.new(original_path, :raise_on_failure=>true)/" app/models/upload.rb
exit

Для постоянного изменения (сохранится после пересборки):

cd /var/discourse
nano containers/app.yml  (используйте ваш любимый редактор)

Добавьте следующие пользовательские команды в конец (секция run):

  - replace:
      filename: "/var/www/discourse/lib/upload_creator.rb"
      from: "FastImage.new(@file)"
      to: "FastImage.new(@file, :raise_on_failure=>true)"
  - replace:
      filename: "/var/www/discourse/app/models/upload.rb"
      from: "FastImage.new(original_path)"
      to: "FastImage.new(original_path, :raise_on_failure=>true)"

Затем выполните пересборку:

./launcher rebuild app

Я полагаю, да, если вы планируете загружать файлы без расширений. Я не проверял, требуют ли другие случаи такого же изменения.

xyzzy · 25.Ноябрь.2023 00:39:12

@Arkshine — Большое спасибо за эти детали. Я смог протестировать оба исправления отдельно (каждое на свежевосстановленной виртуальной машине), и оба сработали!

Заметки:

Для временного исправления мне нужно было выполнить команду “./launcher restart app”, чтобы изменения вступили в силу.
Похоже, что в файле “spec/models/optimized_image_spec.rb” также есть ссылка на FastImage.new(). Нужно ли обновить и этот файл, как и остальные?

Ещё раз спасибо за вашу помощь!

Arkshine · 25.Ноябрь.2023 00:44:54

Рад, что всё работает.

Это только для тестирования, так что вам не о чем беспокоиться.

xyzzy · 25.Ноябрь.2023 00:48:33

Отлично! Спасибо! Теперь, когда я протестировал это в своей dev-среде, я разверну это в test и prod средах.

Кстати, если у вас есть время, я был бы рад узнать ваше мнение по смежной проблеме (How to customize MIME media type emitted for certain attachments?).

Тема		Ответов	Просм.
Security checks on uploads Support	35	7693	02.12.2018
Incorrect mime-types (content-type header) for mp4 and js Bug	10	1118	07.01.2025
Something missing in "Select images or files from your device ()"? Bug	5	1135	22.10.2015
Faster (and smaller) uploads in Discourse with Rust, WebAssembly and MozJPEG \| Blog Blog	35	5278	13.05.2025
Add the .svg file extension to "image files" Feature	18	1446	10.10.2025

Discourse ошибочно определяет загруженный файл как изображение

Связанные темы