给 OpenClaw 正确的指令
从需求到实战
指令质量决定爬虫质量。清晰的指令 = 高效的爬虫。
---
<## id="section-0">🤔 为什么指令很重要?</##>
<### id="section-1">指令模糊的后果</###>
错误示例:
用户:帮我写个爬虫OpenClaw:请问要爬取哪个网站?需要什么数据?
用户:就是电商网站的商品信息
OpenClaw:哪个电商网站?需要哪些商品信息?
用户:就淘宝吧,要商品名称和价格
OpenClaw:需要登录吗?要抓取多少商品?保存为什么格式?
用户:...(说不清楚)
结果:反复沟通 1 小时,爬虫还是不能用
问题分析:
---
<### id="section-2">指令清晰的效果</###>
正确示例:
用户:帮我写一个爬虫【任务】抓取京东手机分类的商品数据
【网站】https://list.jd.com/list.html?cat=9987,653,655
【需要的数据】
1. 商品名称(如:iPhone 15 Pro 256GB)
2. 价格(如:¥7999)
3. 评价数(如:5000+)
4. 店铺名称(如:Apple 产品京东自营旗舰店)
5. 商品链接
【输出格式】
• Excel 文件
• 文件名:jd_phones_YYYY-MM-DD.xlsx
• 保存位置:~/Desktop/crawler_data/【运行要求】
• 抓取前 10 页
• 每页间隔 2 秒
• 避免晚上 8-10 点运行OpenClaw:好的,我理解了。我将创建一个京东手机商品爬虫,
包含以下功能:
1. 访问京东手机分类页面
2. 提取商品名称、价格、评价数、店铺、链接
3. 保存到 Excel 文件
4. 控制访问频率
预计 30 分钟完成,可以吗?
用户:可以
结果:30 分钟后,爬虫可用,数据准确
效果对比:
---
<## id="section-3">📋 完整指令模板</##>
<### id="section-4">标准模板结构</###>
# 爬虫任务指令<## id="section-5">1. 任务概述##>
用一句话说清楚要做什么
<## id="section-6">2. 目标网站##>
• 网站名称:
• 网址 URL:
• 是否需要登录:
• 预计数据量:<## id="section-7">3. 数据需求##>
列出所有需要的字段,每个字段提供示例
<## id="section-8">4. URL 规律##>
说明页面 URL 的变化规律
<## id="section-9">5. 输出要求##>
• 文件格式:
• 文件命名:
• 保存位置:
• 数据格式:<## id="section-10">6. 运行限制##>
• 访问频率:
• 运行时间:
• 其他限制:<## id="section-11">7. 异常处理##>
• 遇到错误如何处理:
• 是否需要重试:
• 是否需要通知:
---
<## id="section-12">💡 实战案例详解</##>
<### id="section-13">案例 1:电商价格监控</###>
背景:
你需要监控竞品价格变化,每天更新一次。
完整指令:
# 电商价格监控爬虫<## id="section-5">1. 任务概述##>
抓取某电商平台竞品店铺的商品价格,每天更新一次,用于价格监控。
<## id="section-6">2. 目标网站##>
• 网站名称:XX 电商平台
• 网址 URL:https://shop.example.com/products
• 是否需要登录:否(公开页面)
• 预计数据量:约 200 个商品<## id="section-7">3. 数据需求##>
| 字段 | 示例 | 说明 |
|------|------|------|
| 商品名称 | iPhone 15 Pro 256GB 黑色 | 完整商品名称 |
| 原价 | ¥8999 | 划线价格 |
| 现价 | ¥7999 | 实际售价 |
| 折扣 | 8.9 折 | 优惠力度 |
| 库存状态 | 有货/无货 | 库存状态 |
| 销量 | 月销 1000+ | 月销量 |
| 商品链接 | https://... | 详情页 URL |
| 抓取时间 | 2026-03-30 10:00 | 自动记录 |
<## id="section-8">4. URL 规律##>
• 第 1 页:https://shop.example.com/products?page=1
• 第 2 页:https://shop.example.com/products?page=2
• 共 10 页,page 参数从 1 到 10<## id="section-9">5. 输出要求##>
• 文件格式:Excel (.xlsx)
• 文件命名:price_monitor_YYYY-MM-DD.xlsx
• 保存位置:~/Desktop/price_monitor/
• 数据格式:
- 价格去掉¥符号,只保留数字
- 日期格式:YYYY-MM-DD HH:mm
- 链接保持完整 URL<## id="section-10">6. 运行限制##>
• 访问频率:每次请求间隔 2 秒
• 运行时间:每天上午 10 点执行
• 其他限制:
- 遵守 robots.txt
- 设置真实 User-Agent
- 避免高峰时段(20:00-22:00)<## id="section-11">7. 异常处理##>
• 遇到 404 错误:记录日志,继续下一页
• 遇到 429 错误:等待 60 秒后重试
• 网络超时:重试 3 次,失败则跳过
• 是否需要通知:完成时发送通知
---
<### id="section-21">案例 2:新闻资讯聚合</###>
背景:
你需要收集行业新闻资讯,用于日报编写。
完整指令:
# 新闻资讯聚合爬虫<## id="section-5">1. 任务概述##>
抓取 5 个科技新闻网站的最新文章,用于编写行业日报。
<## id="section-6">2. 目标网站##>
| 网站 | URL | 需要登录 |
|------|-----|---------|
| 36Kr | https://36kr.com/hot-list | 否 |
| 虎嗅 | https://www.huxiu.com/article/ | 否 |
| 界面新闻 | https://www.jiemian.com/tech/ | 否 |
| 钛媒体 | https://www.tmtpost.com/ | 否 |
| 雷锋网 | https://www.leiphone.com/ | 否 |
<## id="section-7">3. 数据需求##>
| 字段 | 示例 | 说明 |
|------|------|------|
| 标题 | AI 大模型最新进展 | 文章标题 |
| 摘要 | 今天,XX 公司发布了... | 文章摘要 |
| 作者 | 张三 | 作者姓名 |
| 发布时间 | 2026-03-30 09:00 | 发布时间 |
| 来源网站 | 36Kr | 来源标识 |
| 文章链接 | https://... | 原文链接 |
| 分类 | 人工智能 | 文章分类 |
<## id="section-8">4. URL 规律##>
每个网站首页即可,抓取最新 20 篇文章
<## id="section-9">5. 输出要求##>
• 文件格式:CSV
• 文件命名:news_daily_YYYY-MM-DD.csv
• 保存位置:~/Desktop/news_collection/
• 数据格式:
- 时间格式:YYYY-MM-DD HH:mm
- 编码:UTF-8
- 包含表头<## id="section-10">6. 运行限制##>
• 访问频率:每个网站间隔 5 秒
• 运行时间:每天早上 8 点执行
• 其他限制:
- 只抓取当天文章
- 去重(同标题不重复)<## id="section-11">7. 异常处理##>
• 网站无法访问:记录日志,跳过该网站
• 数据不完整:标记为"不完整",继续抓取
• 完成通知:抓取完成后汇总报告
---
<### id="section-29">案例 3:社交媒体舆情监控</###>
背景:
你需要监控品牌在社交媒体的提及情况。
完整指令:
# 社交媒体舆情监控爬虫<## id="section-5">1. 任务概述##>
监控微博上关于"XX 品牌"的提及,分析情感倾向,用于舆情管理。
<## id="section-6">2. 目标网站##>
• 网站名称:微博
• 搜索 URL:https://s.weibo.com/weibo?q=XX 品牌
• 是否需要登录:是(提供 Cookie)
• 预计数据量:每天约 500 条<## id="section-7">3. 数据需求##>
| 字段 | 示例 | 说明 |
|------|------|------|
| 微博内容 | XX 品牌的新产品很好用 | 微博正文 |
| 发布者 | @用户昵称 | 发布者昵称 |
| 发布时间 | 2026-03-30 10:00 | 发布时间 |
| 转发数 | 100 | 转发数量 |
| 评论数 | 50 | 评论数量 |
| 点赞数 | 200 | 点赞数量 |
| 微博链接 | https://... | 原文链接 |
| 情感倾向 | 正面/负面/中性 | 自动分析 |
<## id="section-8">4. URL 规律##>
• 第 1 页:https://s.weibo.com/weibo?q=XX 品牌&page=1
• 第 2 页:https://s.weibo.com/weibo?q=XX 品牌&page=2
• 抓取前 10 页<## id="section-9">5. 输出要求##>
• 文件格式:Excel
• 文件命名:weibo_monitor_YYYY-MM-DD.xlsx
• 保存位置:~/Desktop/social_media/
• 附加功能:
- 自动情感分析
- 负面内容标红
- 生成统计图表<## id="section-10">6. 运行限制##>
• 访问频率:每次请求间隔 3 秒
• 运行时间:每 4 小时执行一次
• 其他限制:
- 使用提供的 Cookie
- 遵守微博使用条款
- 仅用于内部监控<## id="section-11">7. 异常处理##>
• 登录失效:发送通知,暂停运行
• 负面内容超过阈值:立即通知
• 数据异常:记录日志,人工核查
---
<## id="section-37">⚠️ 指令优化技巧</##>
<### id="section-38">技巧 1:提供截图</###>
说明:
如果文字描述不清楚,提供网页截图。
示例:
请参考截图中的红色框区域,抓取以下数据:
1. 商品名称(左上角)
2. 价格(右上角红色数字)
3. 销量(下方灰色小字)
---
<### id="section-39">技巧 2:提供 HTML 片段</###>
说明:
复制网页的 HTML 代码片段,帮助 AI 理解结构。
示例:
这是商品卡片的 HTML 结构:
商品名称
¥199
月销 1000+
请按照这个结构提取数据。
---
<### id="section-40">技巧 3:分步确认</###>
说明:
复杂任务分步确认,避免理解偏差。
示例:
第一步:请先分析网站结构,确认是否可以抓取
第二步:编写爬虫代码,先测试 1 页
第三步:确认数据准确后,再运行全部
第四步:设置定时任务,自动运行
---
<### id="section-41">技巧 4:提供反例</###>
说明:
告诉 AI 什么是不需要的,避免抓取错误数据。
示例:
不需要的数据:
• 广告商品(带有"广告"标签)
• 下架商品(显示"已下架")
• 重复商品(相同商品名称和价格)
---
<## id="section-42">📊 指令质量检查清单</##>
在发送指令前,确认以下内容:
<### id="section-43">目标明确性</###>
<### id="section-44">数据需求</###>
<### id="section-45">技术细节</###>
<### id="section-46">输出要求</###>
<### id="section-47">运行限制</###>
<### id="section-48">异常处理</###>
---
<## id="section-49">🎯 总结</##>
好指令的特征:
1. 目标明确 - 一句话说清楚
2. 需求具体 - 字段有示例
3. 格式清晰 - 输出有规范
4. 限制合理 - 运行有边界
5. 异常处理 - 出错有方案
指令模板:
1. 任务概述
2. 目标网站
3. 数据需求
4. URL 规律
5. 输出要求
6. 运行限制
7. 异常处理
记住:
指令越清晰,爬虫越准确。
花 10 分钟写好指令,节省 10 小时调试时间。
---