如何使用Apify进行数据采集?
1. 注册并登录 Apify
打开官网:https://apify.com
用邮箱注册,免费版每月有额度,不用绑卡。

2. 在 Apify Store 选爬虫(Actor)
进入 Store(顶部菜单)。

搜索目标网站 / 用途,例如:
Amazon→ 商品 / 评论爬虫Google Maps→ 商家信息Web Scraper→ 通用动态页采集Apify。选一个评分高、使用人数多的,点 Try for free / Create taskApify。
3. 配置采集参数(重点)

Input 填写
Start URLs:要爬的网页,一行一个
示例:
plaintexthttps://example.com https://example.com/page2
Page function(核心:告诉 Apify 要抓什么)
最简单写法(抓标题、URL):
javascript运行async function pageFunction(context) { const { request, $ } = context; return { url: request.url, title: $('title').text() };}

常用设置(Options)
Max pages per run:限制采集页数,避免跑太多Apify。
Proxy configuration:
高反爬网站 → 选 Apify Proxy(自动轮换 IP)。

Wait for:动态页可设置
wait: 3000(等 3 秒加载)。
4. 运行任务
点 Start → 任务进入队列,云端运行。
页面会实时显示:
已爬页数、成功 / 失败数
日志预览(可看是否被反爬)Apify。

5. 查看并导出数据
运行结束后,进入 Dataset(结果集)。
可在线预览表格,也可导出:
CSV(Excel 可开)
JSON
Excel。
一键下载到本地,或同步到 Google Sheets、Make.com 等。
6. 进阶:定时 / 长期采集
保存当前配置为 Task,下次一键复用。
开启 Schedule:按小时 / 天 / 周自动跑,适合价格监控、舆情跟踪。
快速示例:爬商品名称 + 价格
pageFunction 写:async function pageFunction(context) {
const { $ } = context;
const products = [];
$('.product').each((i, el) => {
products.push({
name: $(el).find('.name').text().trim(),
price: $(el).find('.price').text().trim()
});
});
return products;}小提醒(合规)
只爬公开、非隐私数据,遵守网站
robots.txt。控制频率,避免给对方服务器造成压力。





