你必须搞懂的基础知识 - 技术逻辑与指令核心

本文重点

你必须搞懂的基础知识 技术逻辑与指令核心 不用懂代码,但必须懂逻辑。理解爬虫如何工作,才能给 AI 正确的指令。 --- 🤖 爬虫是如何工作的? 基本工作流程 第 1 步:发送请求 ↓ 告诉服务器:"我想访问这个网页" 第 2 步:接收响...

你必须搞懂的基础知识

技术逻辑与指令核心

不用懂代码,但必须懂逻辑。理解爬虫如何工作,才能给 AI 正确的指令。

---

<## id="section-0">🤖 爬虫是如何工作的?</##>

<### id="section-1">基本工作流程</###>

第 1 步:发送请求

告诉服务器:"我想访问这个网页"

第 2 步:接收响应

服务器返回网页内容(HTML)

第 3 步:解析内容

从 HTML 中提取需要的数据

第 4 步:保存数据

存储到 Excel、CSV 或数据库

<### id="section-2">类比理解</###>

点餐类比:

你(爬虫程序)去餐厅(网站)点餐(获取数据)

1. 看菜单(访问网页)
2. 点菜(发送请求)
3. 等上菜(接收响应)
4. 吃菜(解析内容)
5. 打包(保存数据)

关键点:

• 餐厅有营业时间(网站有访问限制)

• 不能一次点太多菜(控制访问频率)

• 有些菜不外卖(需要登录的数据)

---

<## id="section-3">🔑 必须知道的技术概念</##>

<### id="section-4">1. URL(网址)</###>

什么是 URL?

https://example.com/products?page=1

分解:
├── https:// 协议(如何访问)
├── example.com 域名(哪个网站)
├── /products 路径(哪个页面)
└── ?page=1 参数(第几页)

为什么重要?

• 爬虫需要知道访问哪个网址

• 理解 URL 规律才能批量抓取

• 参数变化可以获取不同数据

实战应用:

观察 URL 规律:
第 1 页:https://example.com/products?page=1
第 2 页:https://example.com/products?page=2
第 3 页:https://example.com/products?page=3

规律:page 参数控制页码
指令:请抓取第 1 页到第 10 页的数据

---

<### id="section-5">2. HTML(网页结构)</###>

什么是 HTML?

HTML 就是网页的"骨架",用标签组织内容

示例:


商品名称


¥199

商品描述



为什么重要?

• 数据藏在 HTML 标签里

• 理解结构才能准确提取

• 不同网站结构不同

关键概念:

标签(Tag):

类名(Class):
class="product-title" - 用于样式和定位

ID:
id="main-content" - 唯一标识

属性(Attribute):
href="链接"、src="图片地址"

---

<### id="section-6">3. 请求与响应</###>

请求(Request):

你告诉服务器你想要什么

包含:

• URL(访问哪个页面)

• 方法(GET=获取,POST=提交)

• Headers(附加信息)

- User-Agent(浏览器身份)
- Cookie(登录状态)
- Referer(来源页面)

响应(Response):

服务器返回给你什么

包含:

• 状态码(200=成功,404=不存在)

• Headers(响应信息)

• Body(网页内容)

常见状态码:

200 OK          - 成功
301 Moved - 永久重定向
302 Found - 临时重定向
403 Forbidden - 禁止访问
404 Not Found - 页面不存在
429 Too Many - 请求太频繁
500 Server Error - 服务器错误

---

<### id="section-7">4. 反爬机制</###>

什么是反爬?

网站防止爬虫过度访问的措施

常见反爬手段:

| 手段 | 说明 | 应对策略 |
|------|------|---------|
| IP 封禁 | 同一 IP 访问太频繁被封 | 降低频率、使用代理 |
| 验证码 | 要求输入验证码 | 降低频率、人工识别 |
| 登录验证 | 需要登录才能访问 | 提供账号 Cookie |
| 动态加载 | 内容通过 JS 加载 | 使用浏览器模拟 |
| User-Agent 检测 | 检测是否是爬虫 | 设置真实浏览器 UA |

重要原则:

✅ 遵守 robots.txt
✅ 控制访问频率(每秒 1-2 次)
✅ 设置合理的 User-Agent
✅ 必要时使用代理 IP
❌ 不要突破反爬限制
❌ 不要高频访问
❌ 不要恶意攻击

---

<## id="section-8">💬 如何给 AI 正确的指令</##>

<### id="section-9">指令的核心要素</###>

1. 明确目标

❌ 错误:帮我写个爬虫
✅ 正确:帮我写一个抓取某电商网站商品价格的爬虫

要素:

• 哪个网站

• 什么数据

• 什么用途

2. 提供示例

❌ 错误:抓取商品信息
✅ 正确:
需要抓取以下信息:
• 商品名称(如:iPhone 15 Pro)

• 价格(如:¥7999)

• 销量(如:月销 1000+)

• 链接(商品详情页 URL)

3. 说明规律

❌ 错误:抓取所有页面
✅ 正确:
URL 规律:
• 第 1 页:https://example.com/products?page=1

• 第 2 页:https://example.com/products?page=2

• 共 10 页,page 参数从 1 到 10

4. 指定格式

❌ 错误:保存到文件
✅ 正确:
保存为 Excel 文件,包含以下列:
• 商品名称

• 价格

• 销量

• 链接

• 抓取时间

5. 设置限制

❌ 错误:尽快抓完
✅ 正确:
• 每次请求间隔 2 秒

• 避免在高峰时段运行

• 遵守网站 robots.txt 规定

---

<### id="section-10">完整指令模板</###>

【任务目标】
抓取 [网站名称] 的 [数据类型]

【网站信息】

• 网址:https://example.com/products

• 需要登录:是/否

• 预计数据量:约 XX 条

【需要的数据】
1. 字段 1(示例值)
2. 字段 2(示例值)
3. 字段 3(示例值)

【URL 规律】

• 第 1 页:[URL 示例]

• 第 2 页:[URL 示例]

• 规律说明:[参数如何变化]

【输出要求】

• 文件格式:Excel/CSV

• 文件命名:[命名规则]

• 保存位置:[路径]

【运行限制】

• 请求间隔:X 秒

• 运行时间:避开高峰时段

• 其他限制:[特殊要求]

---

<## id="section-11">⚠️ 常见误区与避免方法</##>

<### id="section-12">误区 1:爬虫万能论</###>

错误想法:

"爬虫什么都能抓"

正确认知:

爬虫有边界:
• 只能抓取公开数据

• 不能突破登录验证

• 不能违反法律法规

---

<### id="section-13">误区 2:一次成功论</###>

错误想法:

"写好就能完美运行"

正确认知:

爬虫需要迭代:
• 第一次可能不完整

• 需要根据结果调整

• 网站变化需要更新

---

<### id="section-14">误区 3:速度越快越好</###>

错误想法:

"越快抓取效率越高"

正确认知:

速度要合理:
• 太快会被封 IP

• 遵守网站规则

• 稳定比速度重要

---

<## id="section-15">🎯 实战准备清单</##>

在开始写爬虫前,确认以下信息:

<### id="section-16">网站分析</###>

• [ ] 目标网站 URL

• [ ] 是否需要登录

• [ ] 是否有反爬措施

• [ ] robots.txt 规定

<### id="section-17">数据需求</###>

• [ ] 需要哪些字段

• [ ] 数据量预估

• [ ] 输出格式

• [ ] 保存位置

<### id="section-18">运行计划</###>

• [ ] 运行频率

• [ ] 运行时间

• [ ] 请求间隔

• [ ] 异常处理

---

<## id="section-19">📖 总结</##>

必须掌握的知识:
1. URL 结构与规律
2. HTML 基本概念
3. 请求与响应流程
4. 反爬机制与应对

给 AI 指令的核心:
1. 明确目标
2. 提供示例
3. 说明规律
4. 指定格式
5. 设置限制

记住:
不用懂代码怎么写,但必须懂逻辑怎么跑。
理解爬虫如何工作,才能给 AI 正确的指令。

---

下一篇: 给 OpenClaw 正确的指令 →

核心要点

选对模型,事半功倍。选错模型,花钱买气受。适合 = 能力匹配 + 预算允许 + 用得顺手

上一篇
爬虫到底可以帮到你什么 - 用途与范围详解
下一篇
给 OpenClaw 正确的指令 - 从需求到实战