モジュール 7: ブラウザ自動化とウェブスクレイピング
学習目標
本モジュールを修了すると、以下のことが可能になります:
- OpenClaw の Headless Chromium アーキテクチャを理解する
- Puppeteer 統合を設定・使用してブラウザ自動化を行う
- 安全かつ効率的なウェブスクレイピングエージェントを作成する
- 完全な「価格監視エージェント」を構築する
- 動的レンダリングページ(SPA)のデータ抽出を処理する
- スクレイピングの法的・倫理的注意事項を理解する
コアコンセプト
ブラウザ自動化アーキテクチャ
OpenClaw は組み込みの Headless Chromium エンジンと Puppeteer API を通じて、エージェントが人間のようにブラウザを操作できます:
Agent
│
├─→ Puppeteer API
│ ├─→ Headless Chromium Instance
│ │ ├─→ ページナビゲーション
│ │ ├─→ DOM 操作
│ │ ├─→ スクリーンショット
│ │ └─→ PDF 生成
│ └─→ Browser Context(分離されたブラウジング環境)
│
└─→ 結果をユーザーまたは下流スキルに返却
メモリ溢れ
Headless Chromium は非常にメモリを消費します。各タブは約 50-150MB RAM を使用します。必ず:
- 使用済みの page は即座に
page.close() max_concurrent_pagesの上限を設定- Docker/Podman でメモリ制限を設定
- 定期的に Browser インスタンスを再起動(100回の操作ごとを推奨)