跳到主要内容

数据 Skills (Data)

数据类 Skills 让 OpenClaw Agent 具备大规模数据提取、分析和管理的能力。从网页爬取到本机数据库查询,这些 Skills 把 Agent 变成你的数据工程师。


#18 — Firecrawl

属性内容
排名#18 / 50
类别Data
总分58 / 80
成熟度🟡 Beta
官方/社区社区 (Community)
安装方式clawhub install community/firecrawl-claw
目标用户数据工程师、需要大量网页数据的用户

功能说明

Firecrawl 是专为 AI Agent 设计的网页爬取服务:

  • 智慧爬取:自动处理 JavaScript 渲染、分页、Infinite Scroll
  • 结构化输出:将网页内容转为 Markdown 或 JSON
  • 批次爬取:同时爬取整个网站
  • Sitemap 支援:自动检测和遵循 sitemap
  • 反爬虫处理:自动处理 CAPTCHA 和 rate limiting
  • LLM 友善格式:输出格式优化,适合 LLM 消化

为什么重要

Web Browsing Skill 适合浏览个别网页,但若需要爬取整个网站的数据,Firecrawl 是更高效的选择。它的输出格式直接为 LLM 优化,Agent 可以立即处理,不需要额外的数据清理。

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
7778877758

安装与配置

clawhub install community/firecrawl-claw

# 配置 Firecrawl API Key
openclaw skill configure firecrawl-claw \
--api-key fc-xxxxxxxxxxxx

# 单页爬取
openclaw run "用 Firecrawl 爬取 https://docs.example.com/api 并转为 Markdown"

# 整站爬取
openclaw run firecrawl-claw \
--crawl https://docs.example.com \
--max-pages 100 \
--output ~/data/example-docs/

依赖与安全

  • 依赖:Firecrawl API Key(免费方案 500 页/月)
  • 权限需求:网络存取、本机文件写入
  • 安全性:SEC 7/10 — 爬取的网页内容可能包含恶意数据
  • 替代方案:Apify(#21)更强大但更复杂;Web Browsing(#2)for 个别页面

#21 — Apify

属性内容
排名#21 / 50
类别Data
总分56 / 80
成熟度🟡 Beta
官方/社区社区 (Community)
安装方式clawhub install community/apify-claw
目标用户数据工程师、需要复杂爬虫的用户

功能说明

Apify 是全球最大的网页爬取平台,提供:

  • 2000+ 预建 Actors:针对 Amazon、Google Maps、Instagram 等特定网站的爬虫
  • 自定义爬虫:使用 Apify SDK 创建定制化爬虫
  • 数据存储:内建 Dataset 和 Key-Value Store
  • 调度执行:定时自动爬取
  • Proxy 管理:内建 Proxy 池,降低被封锁机率

为什么重要

相较于 Firecrawl 的通用爬取,Apify 的优势在于针对特定网站的「Actors」。例如你想爬取 Amazon 商品数据,Apify 有现成的 Actor 可以使用,不需要自己处理 Amazon 的反爬虫机制。

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
7778776756

安装与配置

clawhub install community/apify-claw

# 配置 Apify API Token
openclaw skill configure apify-claw \
--token apify_api_xxxxxxxxxxxx

# 执行预建 Actor
openclaw run apify-claw \
--actor "apify/google-search-scraper" \
--input '{"queries": ["OpenClaw skills"]}'

# 使用自然语言
openclaw run "用 Apify 爬取 Google Maps 上台北市的咖啡厅数据"

依赖与安全

  • 依赖:Apify API Token(免费方案有使用额度)
  • 权限需求:Apify Platform 存取
  • 安全性:SEC 6/10 — 爬取的数据和 Actors 品质参差不齐
爬取合规

大规模爬取可能违反目标网站的 Terms of Service。使用 Apify 前请确认:

  • 目标网站是否允许爬取(检查 robots.txt)
  • 是否遵守相关数据保护法规(如 GDPR)
  • 爬取频率是否合理
  • 替代方案:Firecrawl(#18)更简单;Web Browsing(#2)for 小规模需求

#28 — DuckDB CRM

属性内容
排名#28 / 50
类别Data
总分55 / 80
成熟度🟡 Beta
官方/社区社区 (Community)
安装方式clawhub install community/duckdb-crm
目标用户业务人员、需要轻量 CRM 的用户

功能说明

基于 DuckDB 的轻量级 CRM 系统:

  • 联络人管理:存储和搜索客户/联络人数据
  • 交互记录:记录每次交互(邮件、电话、会议)
  • SQL 查询:直接用 SQL 或自然语言查询 CRM 数据
  • 导入/导出:支援 CSV、JSON、Parquet
  • 分析报表:自动生成客户分析报表

为什么重要

不是每个人都需要 Salesforce 或 HubSpot。DuckDB CRM 提供一个本机、轻量、免费的 CRM 方案,数据完全存放在你的电脑上。Agent 可以自动从 Gmail 和 Calendar 中提取交互记录,维护你的客户关系。

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
6758788655

安装与配置

clawhub install community/duckdb-crm

# 初始化 CRM 数据库
openclaw skill configure duckdb-crm \
--db-path ~/openclaw-crm.duckdb

# 导入现有联络人
openclaw run duckdb-crm --import contacts.csv

# 自然语言查询
openclaw run "过去 30 天没有联系的客户有哪些?"
openclaw run "本月新增了多少笔交易?"

依赖与安全

  • 依赖:DuckDB(随 Skill 自动安装)
  • 权限需求:本机文件系统读写
  • 安全性:SEC 8/10 — 纯本机数据库,数据不外传
  • 替代方案:Notion 数据库 + Notion Skill(#13);Airtable Skill(#47)

#34 — Reddit Readonly

属性内容
排名#34 / 50
类别Data
总分52 / 80
成熟度🟡 Beta
官方/社区社区 (Community)
安装方式clawhub install community/reddit-readonly
目标用户Reddit 用户、市场研究者

功能说明

唯读存取 Reddit 内容:

  • 读取特定 subreddit 的热门/最新贴文
  • 搜索 Reddit 内容
  • 读取贴文和回复
  • 追踪特定 subreddit 或关键字
  • 情绪分析(搭配 LLM)

为什么重要

Reddit 是许多社区的核心讨论平台。Agent 可以帮你追踪 r/openclaw、r/artificial 等 subreddit 的最新讨论,生成每日摘要,让你不遗漏重要信息。唯读设计确保 Agent 不会意外发文。

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
6766778552

安装与配置

clawhub install community/reddit-readonly

# 配置 Reddit API(免费)
openclaw skill configure reddit-readonly \
--client-id your_reddit_client_id \
--client-secret your_reddit_secret

# 使用示例
openclaw run "r/openclaw 今天有什么热门讨论?"
openclaw run "搜索 Reddit 上关于 OpenClaw skills 安全性的讨论"

依赖与安全

  • 依赖:Reddit API credentials(免费获取)
  • 权限需求:Reddit API 唯读存取
  • 安全性:SEC 8/10 — 唯读设计,不会意外发文或投票
  • 替代方案:Web Browsing Skill 直接浏览 Reddit(不需 API Key 但效率较低)

#45 — CSV Analyzer

属性内容
排名#45 / 50
类别Data
总分49 / 80
成熟度🟡 Beta
官方/社区社区 (Community)
安装方式clawhub install community/csv-analyzer
目标用户数据分析师、需要处理 CSV 的用户

功能说明

快速分析和处理 CSV 文件:

  • 读取并摘要 CSV 结构
  • 自然语言查询 CSV 数据
  • 生成统计摘要和图表
  • 数据清理和转换
  • 导出为其他格式

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
6746678549

安装与配置

clawhub install community/csv-analyzer

# 使用示例
openclaw run csv-analyzer --file ~/data/sales.csv
openclaw run "分析 sales.csv,找出销售额最高的前 10 个产品"

依赖与安全

  • 依赖:DuckDB(底层引擎)
  • 权限需求:本机文件读取
  • 安全性:SEC 8/10 — 本机处理
  • 替代方案:DuckDB CRM(#28)提供更完整的数据库功能

#47 — Airtable

属性内容
排名#47 / 50
类别Data
总分45 / 80
成熟度🟠 Alpha
官方/社区社区 (Community)
安装方式clawhub install community/airtable-claw
目标用户Airtable 用户

功能说明

与 Airtable 数据库集成:

  • 读取和写入 Airtable 记录
  • 搜索和筛选
  • 创建和管理 Views
  • 自动同步数据

评分明细

RELCOMTRCVALMNTRLBSECLRN总分
6546567645

安装与配置

clawhub install community/airtable-claw

openclaw skill configure airtable-claw \
--api-key your_airtable_api_key \
--base-id appXXXXXXXXXXX

依赖与安全

  • 依赖:Airtable API Key
  • 权限需求:Airtable Base 读写
  • 安全性:SEC 7/10 — Airtable API 权限粒度一般
  • 替代方案:Notion(#13)功能更完整;DuckDB CRM(#28)本机方案

数据 Skills 比较表

特性FirecrawlApifyDuckDB CRMRedditCSV AnalyzerAirtable
数据来源网页网页本机Reddit本机云端
规模中~大小~中
成本API 费用API 费用免费免费免费API 费用
实时性
离线可用
结构化程度最高

数据工程师组合推荐

# 网页数据提取
clawhub install community/firecrawl-claw
clawhub install community/apify-claw

# 本机数据分析
clawhub install community/duckdb-crm
clawhub install community/csv-analyzer

# 社区监控
clawhub install community/reddit-readonly
clawhub install community/tweetclaw
clawhub install community/summarize