你必须搞懂的基础知识 - 技术逻辑与指令核心

本文重点

你必须搞懂的基础知识技术逻辑与指令核心不用懂代码，但必须懂逻辑。理解爬虫如何工作，才能给 AI 正确的指令。 --- 🤖 爬虫是如何工作的？基本工作流程第 1 步：发送请求 ↓ 告诉服务器："我想访问这个网页" 第 2 步：接收响...

🤖 爬虫是如何工作的？
基本工作流程
类比理解
🔑 必须知道的技术概念
1. URL（网址）
2. HTML（网页结构）
3. 请求与响应
4. 反爬机制
💬 如何给 AI 正确的指令
指令的核心要素
完整指令模板
⚠️ 常见误区与避免方法
误区 1：爬虫万能论
误区 2：一次成功论
误区 3：速度越快越好
🎯 实战准备清单
网站分析
数据需求
运行计划
📖 总结

你必须搞懂的基础知识

技术逻辑与指令核心

不用懂代码，但必须懂逻辑。理解爬虫如何工作，才能给 AI 正确的指令。

---

<## id="section-0">🤖 爬虫是如何工作的？</##>

<### id="section-1">基本工作流程</###>

第 1 步：发送请求
   ↓
   告诉服务器："我想访问这个网页"
   
第 2 步：接收响应
   ↓
   服务器返回网页内容（HTML）
   
第 3 步：解析内容
   ↓
   从 HTML 中提取需要的数据
   
第 4 步：保存数据
   ↓
   存储到 Excel、CSV 或数据库

<### id="section-2">类比理解</###>

点餐类比：

你（爬虫程序）去餐厅（网站）点餐（获取数据）

1. 看菜单（访问网页） 2. 点菜（发送请求） 3. 等上菜（接收响应） 4. 吃菜（解析内容） 5. 打包（保存数据）

关键点：

• 餐厅有营业时间（网站有访问限制）

• 不能一次点太多菜（控制访问频率）

• 有些菜不外卖（需要登录的数据）

---

<## id="section-3">🔑 必须知道的技术概念</##>

<### id="section-4">1. URL（网址）</###>

什么是 URL？

https://example.com/products?page=1

分解： ├── https:// 协议（如何访问） ├── example.com 域名（哪个网站） ├── /products 路径（哪个页面） └── ?page=1 参数（第几页）

为什么重要？

• 爬虫需要知道访问哪个网址

• 理解 URL 规律才能批量抓取

• 参数变化可以获取不同数据

实战应用：

观察 URL 规律：第 1 页：https://example.com/products?page=1 第 2 页：https://example.com/products?page=2 第 3 页：https://example.com/products?page=3

规律：page 参数控制页码指令：请抓取第 1 页到第 10 页的数据

---

<### id="section-5">2. HTML（网页结构）</###>

什么是 HTML？

HTML 就是网页的"骨架"，用标签组织内容
示例：

  商品名称

  ¥199
  商品描述

为什么重要？

• 数据藏在 HTML 标签里

• 理解结构才能准确提取

• 不同网站结构不同

关键概念：

标签（Tag）：
、、、 等
类名（Class）：
class="product-title" - 用于样式和定位
ID：
id="main-content" - 唯一标识属性（Attribute）：
href="链接"、src="图片地址"

---

<### id="section-6">3. 请求与响应</###>

请求（Request）：

你告诉服务器你想要什么
包含：
• URL（访问哪个页面）

• 方法（GET=获取，POST=提交）

•  Headers（附加信息）

  - User-Agent（浏览器身份）
  - Cookie（登录状态）
  - Referer（来源页面）

响应（Response）：

服务器返回给你什么
包含：
• 状态码（200=成功，404=不存在）

•  Headers（响应信息）

•  Body（网页内容）

常见状态码：

200 OK          - 成功
301 Moved       - 永久重定向
302 Found       - 临时重定向
403 Forbidden   - 禁止访问
404 Not Found   - 页面不存在
429 Too Many    - 请求太频繁
500 Server Error - 服务器错误

---

<### id="section-7">4. 反爬机制</###>

什么是反爬？

网站防止爬虫过度访问的措施

常见反爬手段：

| 手段 | 说明 | 应对策略 |
|------|------|---------|
| IP 封禁 | 同一 IP 访问太频繁被封 | 降低频率、使用代理 |
| 验证码 | 要求输入验证码 | 降低频率、人工识别 |
| 登录验证 | 需要登录才能访问 | 提供账号 Cookie |
| 动态加载 | 内容通过 JS 加载 | 使用浏览器模拟 |
| User-Agent 检测 | 检测是否是爬虫 | 设置真实浏览器 UA |

重要原则：

✅ 遵守 robots.txt
✅ 控制访问频率（每秒 1-2 次）
✅ 设置合理的 User-Agent
✅ 必要时使用代理 IP
❌ 不要突破反爬限制
❌ 不要高频访问
❌ 不要恶意攻击

---

<## id="section-8">💬 如何给 AI 正确的指令</##>

<### id="section-9">指令的核心要素</###>

1. 明确目标

❌ 错误：帮我写个爬虫
✅ 正确：帮我写一个抓取某电商网站商品价格的爬虫
要素：
• 哪个网站

• 什么数据

• 什么用途

2. 提供示例

❌ 错误：抓取商品信息
✅ 正确：
需要抓取以下信息：
• 商品名称（如：iPhone 15 Pro）

• 价格（如：¥7999）

• 销量（如：月销 1000+）

• 链接（商品详情页 URL）

3. 说明规律

❌ 错误：抓取所有页面
✅ 正确：
URL 规律：
• 第 1 页：https://example.com/products?page=1

• 第 2 页：https://example.com/products?page=2

• 共 10 页，page 参数从 1 到 10

4. 指定格式

❌ 错误：保存到文件
✅ 正确：
保存为 Excel 文件，包含以下列：
• 商品名称

• 价格

• 销量

• 链接

• 抓取时间

5. 设置限制

❌ 错误：尽快抓完
✅ 正确：
• 每次请求间隔 2 秒

• 避免在高峰时段运行

• 遵守网站 robots.txt 规定

---

<### id="section-10">完整指令模板</###>

【任务目标】
抓取 [网站名称] 的 [数据类型]
【网站信息】
• 网址：https://example.com/products

• 需要登录：是/否

• 预计数据量：约 XX 条
【需要的数据】
1. 字段 1（示例值）
2. 字段 2（示例值）
3. 字段 3（示例值）
【URL 规律】
• 第 1 页：[URL 示例]

• 第 2 页：[URL 示例]

• 规律说明：[参数如何变化]
【输出要求】
• 文件格式：Excel/CSV

• 文件命名：[命名规则]

• 保存位置：[路径]
【运行限制】
• 请求间隔：X 秒

• 运行时间：避开高峰时段

• 其他限制：[特殊要求]

---

<## id="section-11">⚠️ 常见误区与避免方法</##>

<### id="section-12">误区 1：爬虫万能论</###>

错误想法：

"爬虫什么都能抓"

正确认知：

爬虫有边界：
• 只能抓取公开数据

• 不能突破登录验证

• 不能违反法律法规

---

<### id="section-13">误区 2：一次成功论</###>

错误想法：

"写好就能完美运行"

正确认知：

爬虫需要迭代：
• 第一次可能不完整

• 需要根据结果调整

• 网站变化需要更新

---

<### id="section-14">误区 3：速度越快越好</###>

错误想法：

"越快抓取效率越高"

正确认知：

速度要合理：
• 太快会被封 IP

• 遵守网站规则

• 稳定比速度重要

---

<## id="section-15">🎯 实战准备清单</##>

在开始写爬虫前，确认以下信息：

<### id="section-16">网站分析</###>

<### id="section-17">数据需求</###>

<### id="section-18">运行计划</###>

---

<## id="section-19">📖 总结</##>

必须掌握的知识：
1. URL 结构与规律
2. HTML 基本概念
3. 请求与响应流程
4. 反爬机制与应对

给 AI 指令的核心：
1. 明确目标
2. 提供示例
3. 说明规律
4. 指定格式
5. 设置限制

记住：
不用懂代码怎么写，但必须懂逻辑怎么跑。
理解爬虫如何工作，才能给 AI 正确的指令。

---

下一篇： 给 OpenClaw 正确的指令 →

核心要点

选对模型，事半功倍。选错模型，花钱买气受。适合 = 能力匹配 + 预算允许 + 用得顺手

你必须搞懂的基础知识 - 技术逻辑与指令核心

目录

你必须搞懂的基础知识

商品名称

相关主题