Zendeskコミュニティから画像をエクスポートするPythonスクリプト

Zendesk Communityの画像をDiscourseに移行する必要がありますか?Pythonスクリプトはこちらです!

皆さん、こんにちは。

Zendesk CommunityをDiscourseに移行する作業をしていましたが、Zendeskからの画像の書き出しでフラストレーションのたまる問題に直面しました。問題は?ZendeskのCDNは、少数の画像を直接取得した後、アクセスをブロックし始め、一括ダウンロードを非常に困難にします。

いくつかの方法を試した後、この制限を回避するPythonスクリプト(AIの助けを借りて)を作成しました。このスクリプトは、Seleniumを使用して各画像のURLをブラウザで開き、画像のスクリーンショットを撮り、ローカルに保存します。画像を直接ダウンロードするほどクリーンではありませんが、確実に機能し、画像は高品質で出力されます。

同様の移行に取り組んでいる場合は、これが役立つことを願っています!


必要なもの

  1. Python: インストール済みで準備ができていること。
  2. ChromeDriver:
    Chrome for Testingからダウンロードし、解凍して、スクリプトでドライバーへのパスを更新してください。
  3. CSVファイル:
    • URLという名前の1つの列を持つCSVファイルを作成します。
    • Zendeskからエクスポートしたい画像の直接URLで入力します。
    • スクリプトでこのファイルへのパスを更新してください。
  4. 保存場所:
    画像を保存したいフォルダーパスをスクリプトで更新してください。

最後に、いくつかのPythonライブラリをインストールする必要があります。

pip install selenium pillow

スクリプト

Pythonスクリプトはこちらです。必要に応じて自由に調整してください。

import csv
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from PIL import Image
import io
import re
import os

# URLから画像IDを抽出する関数
def extract_image_id(url):
    match = re.search(r'/([^/]+)\.(png|jpg|jpeg|gif)$', url, re.IGNORECASE)
    if match:
        return match.group(1)
    return 'image'

# URLから画像をダウンロードして保存する関数
def download_image(driver, image_url, download_folder):
    driver.get(image_url)
    
    # 画像が読み込まれるまで待機
    wait = WebDriverWait(driver, 20)
    img_element = wait.until(EC.presence_of_element_located((By.TAG_NAME, 'img')))

    # 画像要素の位置とサイズを取得
    location = img_element.location
    size = img_element.size

    # ページ全体のスクリーンショットを取得
    screenshot = driver.get_screenshot_as_png()
    
    # スクリーンショットをPIL Imageに変換
    screenshot_image = Image.open(io.BytesIO(screenshot))

    # 画像の境界ボックスを定義(左、上、右、下)
    left = location['x']
    top = location['y']
    right = left + size['width']
    bottom = top + size['height']
    bbox = (left, top, right, bottom)

    # 画像を境界ボックスで切り抜く
    cropped_image = screenshot_image.crop(bbox)

    # URLから画像IDを抽出
    image_id = extract_image_id(image_url)

    # 切り抜いた画像を画像IDをファイル名としてダウンロードフォルダーに保存
    cropped_image.save(os.path.join(download_folder, f'{image_id}.png'))

# CSVファイルからURLを読み込む関数
def load_urls_from_csv(csv_file):
    urls = []
    with open(csv_file, mode='r', newline='', encoding='utf-8') as file:
        reader = csv.DictReader(file)
        for row in reader:
            urls.append(row['URL'])  # CSVに'id'と'url'の列があると仮定
    return urls

# ChromeDriverサービスを設定
service = Service("C:\\Users\\tslam\\Downloads\\chromedriver-win64\\chromedriver-win64\\chromedriver.exe")
driver = webdriver.Chrome(service=service)

try:

    # ブラウザウィンドウを最大化して全画面表示
    driver.maximize_window()
    
    # CSVファイルからURLを読み込む
    csv_file = 'C:\\Users\\tslam\\Zendesk Migration\\image_urls.csv'
    image_urls = load_urls_from_csv(csv_file)
    
    # ダウンロードフォルダーパスを定義
    download_folder = 'C:\\Users\\tslam\\Zendesk Migration\\downloads'
    
    # ダウンロードフォルダーが存在することを確認
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    # 各画像URLを処理
    for url in image_urls:
        download_image(driver, url, download_folder)

finally:
    driver.quit()

「いいね!」 6

素晴らしい!これはZendeskだけでなく、同じ問題を抱える他の移行にも使用できる可能性があります。共有していただき、本当にありがとうございます。

「いいね!」 3