markdown-crawler
Version:
A powerful web crawler that extracts content from web pages and converts them to clean Markdown format, with support for code blocks and GitHub Flavored Markdown
91 lines (68 loc) • 4.37 kB
Markdown
# markdown-crawler
[English](README.md) | [繁體中文](README-zhTW.md) | [日本語](README-ja.md)
AI読解に最適化されたウェブクローラーツールで、ウェブコンテンツを構造化されたMarkdown形式に変換します。インテリジェントなアルゴリズムでノイズを除去し、コアコンテンツを抽出して、AIモデルの理解と処理に適したクリーンなテキストデータを生成します。特徴的なのは、ウェブサイトの関連ページ(現在のページとそのすべてのサブディレクトリを含む)を単一のYAMLファイルに統合し、明確に構造化されたMarkdownコンテンツを生成できることです。
## なぜAI読解に適しているのか?
- 🧠 広告やナビゲーションバーなどのノイズを除去し、メインコンテンツをインテリジェントに抽出
- 🎯 記事の論理構造と意味関係を保持
- 📋 AIが解析しやすい標準化されたMarkdown形式に変換
- 🔄 特殊文字とエンコーディングを自動処理
- 📊 すべてのページをYAML形式で統合し、バッチ処理が容易
## 主な機能
- 🚀 fetchとcheerioを使用した効率的なウェブクローリングで、最新のウェブページをサポート
- 📝 MozillaのReadabilityアルゴリズムによるインテリジェントなコンテンツ抽出
- ✨ 不要なスタイルとノイズを除去し、構造化されたMarkdown形式に自動変換
- 🎨 GitHub Flavored Markdown (GFM)をサポートし、重要な書式を保持
- 💻 コードブロックのシンタックスハイライトをサポートし、技術文書の可読性を維持
- 🔗 関連ページを自動的にクロールし、単一ファイルに統合
- 🧹 依存関係を最小限に最適化し、軽量で高速な動作を確保
- ⚡ 処理パイプラインの最適化による大幅なパフォーマンス向上
- 📄 より洗練されたMarkdown出力と適切なリンク処理
## データ統合の利点
- 📚 対象URLとそのすべてのサブディレクトリページを自動クロール
- 🗂️ すべてのページコンテンツを単一のYAMLファイルに統合
- 📖 各ページのタイトルとコンテンツの完全性を維持
- 🎯 人間の読解とAI処理の両方に適したMarkdown形式を生成
- 🔍 大量の関連コンテンツの迅速な閲覧と検索が可能
## 使用方法
```bash
# 基本的な使用法
npx markdown-crawler <URL> <出力ファイル名>
# 例:ウェブサイトをクロールしoutput.yamlとして保存
npx markdown-crawler https://example.com output
# スペースを含むURLには二重引用符を使用
npx markdown-crawler "https://example.com/my page" output
# 出力ファイルには自動的に.yaml拡張子が追加されます
# 結果は現在の作業ディレクトリに保存されます
```
## 出力形式
ツールはすべての関連ページを構造化されたYAML形式に統合します:
```yaml
- title: "メインページタイトル"
url: "https://example.com/"
content: |
# メインページコンテンツ
ここにメインページの本文が入ります...
- title: "サブページ1タイトル"
url: "https://example.com/subpage1"
content: |
# サブページ1コンテンツ
ここにサブページ1の本文が入ります...
- title: "サブページ2タイトル"
url: "https://example.com/subpage2"
content: |
# サブページ2コンテンツ
ここにサブページ2の本文が入ります...
```
特徴:
- 各ページのタイトルとメインコンテンツを自動抽出
- 参照用に各ページの元のURLを含む
- コンテンツの階層構造とフォーマットを維持
- 不要なスタイルとスクリプトを除去
- 適切なリンク形式を持つ、クリーンで読みやすいMarkdownを生成
- チェックボックスなどのMarkdown要素を正確に保持
- 人間の読解とAIモデル処理の両方に適している
## システム要件
- Node.js >= 16.0.0
- npmまたはyarnパッケージマネージャー
## ライセンス
このプロジェクトはMITライセンスの下で提供されています - 詳細は[LICENSE](LICENSE)ファイルをご覧ください。