你必须搞懂的基础知识
技术逻辑与指令核心
不用懂代码,但必须懂逻辑。理解爬虫如何工作,才能给 AI 正确的指令。
---
<## id="section-0">🤖 爬虫是如何工作的?</##>
<### id="section-1">基本工作流程</###>
第 1 步:发送请求
↓
告诉服务器:"我想访问这个网页"
第 2 步:接收响应
↓
服务器返回网页内容(HTML)
第 3 步:解析内容
↓
从 HTML 中提取需要的数据
第 4 步:保存数据
↓
存储到 Excel、CSV 或数据库
<### id="section-2">类比理解</###>
点餐类比:
你(爬虫程序)去餐厅(网站)点餐(获取数据)1. 看菜单(访问网页)
2. 点菜(发送请求)
3. 等上菜(接收响应)
4. 吃菜(解析内容)
5. 打包(保存数据)
关键点:
---
<## id="section-3">🔑 必须知道的技术概念</##>
<### id="section-4">1. URL(网址)</###>
什么是 URL?
https://example.com/products?page=1分解:
├── https:// 协议(如何访问)
├── example.com 域名(哪个网站)
├── /products 路径(哪个页面)
└── ?page=1 参数(第几页)
为什么重要?
实战应用:
观察 URL 规律:
第 1 页:https://example.com/products?page=1
第 2 页:https://example.com/products?page=2
第 3 页:https://example.com/products?page=3规律:page 参数控制页码
指令:请抓取第 1 页到第 10 页的数据
---
<### id="section-5">2. HTML(网页结构)</###>
什么是 HTML?
HTML 就是网页的"骨架",用标签组织内容示例:
商品名称
¥199
商品描述
为什么重要?
关键概念:
标签(Tag):
、、、 等
类名(Class):
class="product-title" - 用于样式和定位
ID:
id="main-content" - 唯一标识
属性(Attribute):
href="链接"、src="图片地址"
---
<### id="section-6">3. 请求与响应</###>
请求(Request):
你告诉服务器你想要什么包含:
• URL(访问哪个页面)
• 方法(GET=获取,POST=提交)
• Headers(附加信息)
- User-Agent(浏览器身份)
- Cookie(登录状态)
- Referer(来源页面)
响应(Response):
服务器返回给你什么包含:
• 状态码(200=成功,404=不存在)
• Headers(响应信息)
• Body(网页内容)
常见状态码:
200 OK - 成功
301 Moved - 永久重定向
302 Found - 临时重定向
403 Forbidden - 禁止访问
404 Not Found - 页面不存在
429 Too Many - 请求太频繁
500 Server Error - 服务器错误
---
<### id="section-7">4. 反爬机制</###>
什么是反爬?
网站防止爬虫过度访问的措施
常见反爬手段:
| 手段 | 说明 | 应对策略 |
|------|------|---------|
| IP 封禁 | 同一 IP 访问太频繁被封 | 降低频率、使用代理 |
| 验证码 | 要求输入验证码 | 降低频率、人工识别 |
| 登录验证 | 需要登录才能访问 | 提供账号 Cookie |
| 动态加载 | 内容通过 JS 加载 | 使用浏览器模拟 |
| User-Agent 检测 | 检测是否是爬虫 | 设置真实浏览器 UA |
重要原则:
✅ 遵守 robots.txt
✅ 控制访问频率(每秒 1-2 次)
✅ 设置合理的 User-Agent
✅ 必要时使用代理 IP
❌ 不要突破反爬限制
❌ 不要高频访问
❌ 不要恶意攻击
---
<## id="section-8">💬 如何给 AI 正确的指令</##>
<### id="section-9">指令的核心要素</###>
1. 明确目标
❌ 错误:帮我写个爬虫
✅ 正确:帮我写一个抓取某电商网站商品价格的爬虫要素:
• 哪个网站
• 什么数据
• 什么用途
2. 提供示例
❌ 错误:抓取商品信息
✅ 正确:
需要抓取以下信息:
• 商品名称(如:iPhone 15 Pro)
• 价格(如:¥7999)
• 销量(如:月销 1000+)
• 链接(商品详情页 URL)
3. 说明规律
❌ 错误:抓取所有页面
✅ 正确:
URL 规律:
• 第 1 页:https://example.com/products?page=1
• 第 2 页:https://example.com/products?page=2
• 共 10 页,page 参数从 1 到 10
4. 指定格式
❌ 错误:保存到文件
✅ 正确:
保存为 Excel 文件,包含以下列:
• 商品名称
• 价格
• 销量
• 链接
• 抓取时间
5. 设置限制
❌ 错误:尽快抓完
✅ 正确:
• 每次请求间隔 2 秒
• 避免在高峰时段运行
• 遵守网站 robots.txt 规定
---
<### id="section-10">完整指令模板</###>
【任务目标】
抓取 [网站名称] 的 [数据类型]【网站信息】
• 网址:https://example.com/products
• 需要登录:是/否
• 预计数据量:约 XX 条【需要的数据】
1. 字段 1(示例值)
2. 字段 2(示例值)
3. 字段 3(示例值)
【URL 规律】
• 第 1 页:[URL 示例]
• 第 2 页:[URL 示例]
• 规律说明:[参数如何变化]【输出要求】
• 文件格式:Excel/CSV
• 文件命名:[命名规则]
• 保存位置:[路径]【运行限制】
• 请求间隔:X 秒
• 运行时间:避开高峰时段
• 其他限制:[特殊要求]
---
<## id="section-11">⚠️ 常见误区与避免方法</##>
<### id="section-12">误区 1:爬虫万能论</###>
错误想法:
"爬虫什么都能抓"
正确认知:
爬虫有边界:
• 只能抓取公开数据
• 不能突破登录验证
• 不能违反法律法规
---
<### id="section-13">误区 2:一次成功论</###>
错误想法:
"写好就能完美运行"
正确认知:
爬虫需要迭代:
• 第一次可能不完整
• 需要根据结果调整
• 网站变化需要更新
---
<### id="section-14">误区 3:速度越快越好</###>
错误想法:
"越快抓取效率越高"
正确认知:
速度要合理:
• 太快会被封 IP
• 遵守网站规则
• 稳定比速度重要
---
<## id="section-15">🎯 实战准备清单</##>
在开始写爬虫前,确认以下信息:
<### id="section-16">网站分析</###>
• [ ] 目标网站 URL
• [ ] 是否需要登录
• [ ] 是否有反爬措施
• [ ] robots.txt 规定<### id="section-17">数据需求</###>
• [ ] 需要哪些字段
• [ ] 数据量预估
• [ ] 输出格式
• [ ] 保存位置<### id="section-18">运行计划</###>
• [ ] 运行频率
• [ ] 运行时间
• [ ] 请求间隔
• [ ] 异常处理---
<## id="section-19">📖 总结</##>
必须掌握的知识:
1. URL 结构与规律
2. HTML 基本概念
3. 请求与响应流程
4. 反爬机制与应对
给 AI 指令的核心:
1. 明确目标
2. 提供示例
3. 说明规律
4. 指定格式
5. 设置限制
记住:
不用懂代码怎么写,但必须懂逻辑怎么跑。
理解爬虫如何工作,才能给 AI 正确的指令。
---
下一篇: 给 OpenClaw 正确的指令 →
核心要点
选对模型,事半功倍。选错模型,花钱买气受。适合 = 能力匹配 + 预算允许 + 用得顺手