Google Apps Script│サイト内リンクを一括クロールしてスプレッドシートに出力する

サイトのリニューアルやリンク切れ調査のとき、「このドメイン配下にどんなページがあるのか」を一覧で把握したくなることがあります。

専用のクローラーツールやSEOツールを使う手もありますが、結果をそのままスプレッドシートで加工・共有したいなら、Google Apps Script(GAS)で完結させてしまうのが手軽です。

この記事では、起点となるURLを1つ入力するだけで、同一ドメイン内のリンクを幅優先でたどり、URL・参照元・深さ・ステータス・タイトルをスプレッドシートに書き出すスクリプトを紹介します。

要するに簡易版 Screaming Frog SEO SpiderをGASで作成しました。

完成後はスプレッドシートのメニューに「URL調査」が追加され、URLを貼り付けて実行するだけで使えます。

目次

著者

WEB制作をしているデジタルノマド
WordPressのカスタマイズが好きで、色々と自作しています。

WordPressのカスタマイズに困ったらご相談ください!

できること

  • スプレッドシートのカスタムメニューから起動
  • 入力したURLと同じドメインのページだけを再帰的にクロール
  • 各ページについて URL / 参照元URL / 深さ / HTTPステータス / <title> を取得
  • 画像・CSS・JS・PDFなどページ以外のリソースは自動で除外
  • UrlFetchApp.fetchAll による並列リクエストで高速化

最大ページ数やバッチサイズは設定オブジェクトで調整できます。

以下、GASのコード全文と使い方です。

  • URLをコピーしました!

WAZAの有料記事のサブスクリプションも開始しました。

目次