给 OpenClaw 正确的指令 - 从需求到实战

本文重点

给 OpenClaw 正确的指令从需求到实战指令质量决定爬虫质量。清晰的指令 = 高效的爬虫。 --- 🤔 为什么指令很重要？指令模糊的后果错误示例：用户：帮我写个爬虫 OpenClaw：请问要爬取哪个网站？需要什么数据？用户...

🤔 为什么指令很重要？
指令模糊的后果
指令清晰的效果
📋 完整指令模板
标准模板结构
1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理
💡 实战案例详解
案例 1：电商价格监控
1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理
案例 2：新闻资讯聚合
1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理
案例 3：社交媒体舆情监控
1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理
⚠️ 指令优化技巧
技巧 1：提供截图
技巧 2：提供 HTML 片段
技巧 3：分步确认
技巧 4：提供反例
📊 指令质量检查清单
目标明确性
数据需求
技术细节
输出要求
运行限制
异常处理
🎯 总结

给 OpenClaw 正确的指令

从需求到实战

指令质量决定爬虫质量。清晰的指令 = 高效的爬虫。

---

<## id="section-0">🤔 为什么指令很重要？</##>

<### id="section-1">指令模糊的后果</###>

错误示例：

用户：帮我写个爬虫 OpenClaw：请问要爬取哪个网站？需要什么数据？用户：就是电商网站的商品信息 OpenClaw：哪个电商网站？需要哪些商品信息？用户：就淘宝吧，要商品名称和价格 OpenClaw：需要登录吗？要抓取多少商品？保存为什么格式？用户：...（说不清楚）

结果：反复沟通 1 小时，爬虫还是不能用

问题分析：

• 目标不明确

• 需求不具体

• 格式未指定

• 限制未说明

---

<### id="section-2">指令清晰的效果</###>

正确示例：

用户：帮我写一个爬虫【任务】抓取京东手机分类的商品数据【网站】https://list.jd.com/list.html?cat=9987,653,655 【需要的数据】 1. 商品名称（如：iPhone 15 Pro 256GB） 2. 价格（如：¥7999） 3. 评价数（如：5000+） 4. 店铺名称（如：Apple 产品京东自营旗舰店） 5. 商品链接【输出格式】 • Excel 文件 • 文件名：jd_phones_YYYY-MM-DD.xlsx • 保存位置：~/Desktop/crawler_data/ 【运行要求】 • 抓取前 10 页 • 每页间隔 2 秒 • 避免晚上 8-10 点运行 OpenClaw：好的，我理解了。我将创建一个京东手机商品爬虫，包含以下功能： 1. 访问京东手机分类页面 2. 提取商品名称、价格、评价数、店铺、链接 3. 保存到 Excel 文件 4. 控制访问频率预计 30 分钟完成，可以吗？用户：可以

结果：30 分钟后，爬虫可用，数据准确

效果对比：

• 沟通时间：1 小时 → 5 分钟

• 开发效率：低 → 高

• 结果质量：不可用 → 完美

---

<## id="section-3">📋 完整指令模板</##>

<### id="section-4">标准模板结构</###>

# 爬虫任务指令
<## id="section-5">1. 任务概述
用一句话说清楚要做什么
<## id="section-6">2. 目标网站
• 网站名称：

• 网址 URL：

• 是否需要登录：

• 预计数据量：
<## id="section-7">3. 数据需求
列出所有需要的字段，每个字段提供示例
<## id="section-8">4. URL 规律
说明页面 URL 的变化规律
<## id="section-9">5. 输出要求
• 文件格式：

• 文件命名：

• 保存位置：

• 数据格式：
<## id="section-10">6. 运行限制
• 访问频率：

• 运行时间：

• 其他限制：
<## id="section-11">7. 异常处理
• 遇到错误如何处理：

• 是否需要重试：

• 是否需要通知：

---

<## id="section-12">💡 实战案例详解</##>

<### id="section-13">案例 1：电商价格监控</###>

背景：
你需要监控竞品价格变化，每天更新一次。

完整指令：

# 电商价格监控爬虫
<## id="section-5">1. 任务概述
抓取某电商平台竞品店铺的商品价格，每天更新一次，用于价格监控。
<## id="section-6">2. 目标网站
• 网站名称：XX 电商平台

• 网址 URL：https://shop.example.com/products

• 是否需要登录：否（公开页面）

• 预计数据量：约 200 个商品
<## id="section-7">3. 数据需求
| 字段 | 示例 | 说明 |
|------|------|------|
| 商品名称 | iPhone 15 Pro 256GB 黑色 | 完整商品名称 |
| 原价 | ¥8999 | 划线价格 |
| 现价 | ¥7999 | 实际售价 |
| 折扣 | 8.9 折 | 优惠力度 |
| 库存状态 | 有货/无货 | 库存状态 |
| 销量 | 月销 1000+ | 月销量 |
| 商品链接 | https://... | 详情页 URL |
| 抓取时间 | 2026-03-30 10:00 | 自动记录 |
<## id="section-8">4. URL 规律
• 第 1 页：https://shop.example.com/products?page=1

• 第 2 页：https://shop.example.com/products?page=2

• 共 10 页，page 参数从 1 到 10
<## id="section-9">5. 输出要求
• 文件格式：Excel (.xlsx)

• 文件命名：price_monitor_YYYY-MM-DD.xlsx

• 保存位置：~/Desktop/price_monitor/

• 数据格式：

  - 价格去掉¥符号，只保留数字
  - 日期格式：YYYY-MM-DD HH:mm
  - 链接保持完整 URL
<## id="section-10">6. 运行限制
• 访问频率：每次请求间隔 2 秒

• 运行时间：每天上午 10 点执行

• 其他限制：

  - 遵守 robots.txt
  - 设置真实 User-Agent
  - 避免高峰时段（20:00-22:00）
<## id="section-11">7. 异常处理
• 遇到 404 错误：记录日志，继续下一页

• 遇到 429 错误：等待 60 秒后重试

• 网络超时：重试 3 次，失败则跳过

• 是否需要通知：完成时发送通知

---

<### id="section-21">案例 2：新闻资讯聚合</###>

背景：
你需要收集行业新闻资讯，用于日报编写。

完整指令：

# 新闻资讯聚合爬虫
<## id="section-5">1. 任务概述
抓取 5 个科技新闻网站的最新文章，用于编写行业日报。
<## id="section-6">2. 目标网站
| 网站 | URL | 需要登录 |
|------|-----|---------|
| 36Kr | https://36kr.com/hot-list | 否 |
| 虎嗅 | https://www.huxiu.com/article/ | 否 |
| 界面新闻 | https://www.jiemian.com/tech/ | 否 |
| 钛媒体 | https://www.tmtpost.com/ | 否 |
| 雷锋网 | https://www.leiphone.com/ | 否 |
<## id="section-7">3. 数据需求
| 字段 | 示例 | 说明 |
|------|------|------|
| 标题 | AI 大模型最新进展 | 文章标题 |
| 摘要 | 今天，XX 公司发布了... | 文章摘要 |
| 作者 | 张三 | 作者姓名 |
| 发布时间 | 2026-03-30 09:00 | 发布时间 |
| 来源网站 | 36Kr | 来源标识 |
| 文章链接 | https://... | 原文链接 |
| 分类 | 人工智能 | 文章分类 |
<## id="section-8">4. URL 规律
每个网站首页即可，抓取最新 20 篇文章
<## id="section-9">5. 输出要求
• 文件格式：CSV

• 文件命名：news_daily_YYYY-MM-DD.csv

• 保存位置：~/Desktop/news_collection/

• 数据格式：

  - 时间格式：YYYY-MM-DD HH:mm
  - 编码：UTF-8
  - 包含表头
<## id="section-10">6. 运行限制
• 访问频率：每个网站间隔 5 秒

• 运行时间：每天早上 8 点执行

• 其他限制：

  - 只抓取当天文章
  - 去重（同标题不重复）
<## id="section-11">7. 异常处理
• 网站无法访问：记录日志，跳过该网站

• 数据不完整：标记为"不完整"，继续抓取

• 完成通知：抓取完成后汇总报告

---

<### id="section-29">案例 3：社交媒体舆情监控</###>

背景：
你需要监控品牌在社交媒体的提及情况。

完整指令：

# 社交媒体舆情监控爬虫
<## id="section-5">1. 任务概述
监控微博上关于"XX 品牌"的提及，分析情感倾向，用于舆情管理。
<## id="section-6">2. 目标网站
• 网站名称：微博

• 搜索 URL：https://s.weibo.com/weibo?q=XX 品牌

• 是否需要登录：是（提供 Cookie）

• 预计数据量：每天约 500 条
<## id="section-7">3. 数据需求
| 字段 | 示例 | 说明 |
|------|------|------|
| 微博内容 | XX 品牌的新产品很好用 | 微博正文 |
| 发布者 | @用户昵称 | 发布者昵称 |
| 发布时间 | 2026-03-30 10:00 | 发布时间 |
| 转发数 | 100 | 转发数量 |
| 评论数 | 50 | 评论数量 |
| 点赞数 | 200 | 点赞数量 |
| 微博链接 | https://... | 原文链接 |
| 情感倾向 | 正面/负面/中性 | 自动分析 |
<## id="section-8">4. URL 规律
• 第 1 页：https://s.weibo.com/weibo?q=XX 品牌&page=1

• 第 2 页：https://s.weibo.com/weibo?q=XX 品牌&page=2

• 抓取前 10 页
<## id="section-9">5. 输出要求
• 文件格式：Excel

• 文件命名：weibo_monitor_YYYY-MM-DD.xlsx

• 保存位置：~/Desktop/social_media/

• 附加功能：

  - 自动情感分析
  - 负面内容标红
  - 生成统计图表
<## id="section-10">6. 运行限制
• 访问频率：每次请求间隔 3 秒

• 运行时间：每 4 小时执行一次

• 其他限制：

  - 使用提供的 Cookie
  - 遵守微博使用条款
  - 仅用于内部监控
<## id="section-11">7. 异常处理
• 登录失效：发送通知，暂停运行

• 负面内容超过阈值：立即通知

• 数据异常：记录日志，人工核查

---

<## id="section-37">⚠️ 指令优化技巧</##>

<### id="section-38">技巧 1：提供截图</###>

说明：
如果文字描述不清楚，提供网页截图。

示例：

请参考截图中的红色框区域，抓取以下数据：
1. 商品名称（左上角）
2. 价格（右上角红色数字）
3. 销量（下方灰色小字）

---

<### id="section-39">技巧 2：提供 HTML 片段</###>

说明：
复制网页的 HTML 代码片段，帮助 AI 理解结构。

示例：

这是商品卡片的 HTML 结构：商品名称 ¥199 月销 1000+

请按照这个结构提取数据。

---

<### id="section-40">技巧 3：分步确认</###>

说明：
复杂任务分步确认，避免理解偏差。

示例：

第一步：请先分析网站结构，确认是否可以抓取
第二步：编写爬虫代码，先测试 1 页
第三步：确认数据准确后，再运行全部
第四步：设置定时任务，自动运行

---

<### id="section-41">技巧 4：提供反例</###>

说明：
告诉 AI 什么是不需要的，避免抓取错误数据。

示例：

不需要的数据：
• 广告商品（带有"广告"标签）

• 下架商品（显示"已下架"）

• 重复商品（相同商品名称和价格）

---

<## id="section-42">📊 指令质量检查清单</##>

在发送指令前，确认以下内容：

<### id="section-43">目标明确性</###>

• [ ] 一句话说清楚要做什么

• [ ] 指定了具体网站

• [ ] 说明了数据用途

<### id="section-44">数据需求</###>

• [ ] 列出所有需要的字段

• [ ] 每个字段有示例值

• [ ] 说明了数据格式要求

<### id="section-45">技术细节</###>

• [ ] 提供了 URL 规律

• [ ] 说明了是否需要登录

• [ ] 预估了数据量

<### id="section-46">输出要求</###>

• [ ] 指定了文件格式

• [ ] 指定了文件命名规则

• [ ] 指定了保存位置

<### id="section-47">运行限制</###>

• [ ] 设置了访问频率

• [ ] 指定了运行时间

• [ ] 说明了其他限制

<### id="section-48">异常处理</###>

• [ ] 说明了错误处理方式

• [ ] 指定了重试策略

• [ ] 说明了通知方式

---

<## id="section-49">🎯 总结</##>

好指令的特征：
1. 目标明确 - 一句话说清楚
2. 需求具体 - 字段有示例
3. 格式清晰 - 输出有规范
4. 限制合理 - 运行有边界
5. 异常处理 - 出错有方案

指令模板：

1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理

记住：
指令越清晰，爬虫越准确。
花 10 分钟写好指令，节省 10 小时调试时间。

---

下一篇： 让 OpenClaw 阶梯式编程与学习 →

核心要点

选对模型，事半功倍。选错模型，花钱买气受。适合 = 能力匹配 + 预算允许 + 用得顺手

给 OpenClaw 正确的指令 - 从需求到实战

目录

给 OpenClaw 正确的指令

商品名称

相关主题