Laucher
2023年 01月 15日
最佳 Node.js 网页抓取(爬虫)工具
网页抓取工具是一种从网站和网络API中获取信息的工具或脚本,它可以帮助您提取洞察力或编制包含信息的数据库。例如,像谷歌、百度等这些搜索引擎会抓取网络以对站点进行索引,并将其作为用户查询的结果提供。
在本文中,我们将探讨一些最佳的 Node.js 网页抓取库和技术。您还将了解它们之间的区别,以便在考虑项目需求时选择合适的工具。首先,我们将回顾一些在选择网页抓取工具之前需要牢记的事项。
在开始进行网页抓取之前需要了解的事项
尽管抓取公开可用信息是合法的,但您应该意识到许多网站在其服务条款中设置了限制。有些甚至可能会包括速率限制,以防止您减慢他们的服务速度 —— 但这是为什么呢?
当您从网站上抓取信息时,您使用了它的资源。
假设您在访问过多页面时过于激进,那么您可能会降低该网站对其用户的总体性能。因此,在进行网页抓取时,您必须获得所有者的同意或许可,并注意您对其网站施加的压力。
最后,网页抓取需要进行大量的开发工作,并且在许多情况下需要进行维护。目标网站结构的变化可能会破坏您的抓取代码,并要求您更新脚本以适应新的格式。
因此,我更倾向于在可能的情况下使用 API,并将网页抓取仅作为最后的选择。现在,让我们开始对最佳的 Node.js 网页抓取库进行评估。
最佳的 Node.js 网页抓取库
Axios
如果您熟悉 Axios,它可能并不是用于网页抓取的最吸引人的选项。尽管如此,它是一个简单的解决方案,可以帮助您完成任务,并且它还具有一个附加优势,即您可能已经相当熟悉这个库。
Axios 是一个基于 Promise 的 Node.js HTTP 客户端,在 JavaScript 项目中因其简单性和适应性而广受欢迎。虽然 Axios 通常用于调用 REST API,但它也可以获取网站的 HTML。
由于 Axios 只会从服务器获取响应,您需要自己解析和处理结果。因此,我建议在处理 JSON 响应或进行简单的抓取时使用此库。
您可以使用您喜欢的包管理器来安装 Axios,步骤如下:
npm install axios
以下是使用 Axios 的示例,从 LogRocket 博客主页列出所有文章的标题: const axios = require(‘axios’);
app.get("/axios", (req, res) => {
axios
.get("https://czhlove.cn")
.then(function (response) {
const reTitles = /<h2.*?class=".*?MuiTypography-root\sMuiTypography-h2\sMuiTypography-gutterBottom\scss-1dem3ju.*?".*?>(.*?)<\/h2>/g;
const t = [];
[...response.data.matchAll(reTitles)].forEach(title => t.push({ 'title': `- ${title[1]}` }));
res.json(t);
});
});
/**
[
{
"title": "- JavaScript 数组常用方法"
},
{
"title": "- 漫游孤独:一个人的旅行"
},
{
"title": "- TypeScript的装饰器"
},
{
"title": "- TypeScript的命名空间和模块"
},
{
"title": "- TypeScript的高级类型"
},
{
"title": "- TypeScript的泛型"
},
{
"title": "- TypeScript的数组类型"
},
{
"title": "- TypeScript的接口和对象类型"
},
{
"title": "- TypeScript的基础类型"
},
{
"title": "- Vue3的script-setup 模式中父组件获取子组件的数据"
}
]
*/
在上面的示例中,您可以看到 Axios 在处理 HTTP 请求方面非常出色。然而,解析复杂结构的 HTML 需要详细的规则,甚至对于简单的任务都需要使用复杂的规则或正则表达式。
因此,如果正则表达式不是您的菜,而您更喜欢基于 DOM 的方法,您可以使用诸如 JSDom 或 Cheerio 等库将 HTML 转换为类似 DOM 的对象。让我们使用 JSDom 来探索上面的相同示例:
app.get("/axiosJSDOM", (req, res) => {
axios
.get("https://czhlove.cn")
.then(function (response) {
const dom = new JSDOM(response.data);
const t = [];
[...dom.window.document.querySelectorAll('.MuiTypography-h2')].forEach(el => t.push({ 'title': `- ${el.textContent}` }));
res.json(t);
});
});
// 输出结果不变,但是基于 DOM 的方法更简单。
但是,这种解决方案很快会遇到其局限性。例如,您只会从服务器获得原始响应 —— 如果您想要访问的页面上的元素是异步加载的呢?
那么对于单页面应用程序(SPA)呢?在这种情况下,HTML 只是加载在客户端上执行所有渲染工作的 JavaScript 库。或者,如果您遇到这些库强加的限制怎么办?毕竟,它们并不是完整的 HTML/DOM 实现,而只是其中的一个子集。
在这些情况下,或者对于复杂的网站,可能最佳选择是使用其他库采用完全不同的方法。
Puppeteer
Puppeteer 是一个高级的 Node.js API,可以通过代码控制 Chrome 或 Chromium。那么,从网页抓取的角度来看,这对我们意味着什么呢?
使用 Puppeteer,您可以访问一个完整的浏览器,比如在后台以无头模式运行的 Chromium,以便浏览网站并完全渲染样式、脚本和异步信息。
要在项目中使用 Puppeteer,您可以像使用任何其他 JavaScript 包一样进行安装:
npm install puppeteer
现在,让我们看一个 Puppeteer 的实际示例:
const puppeteer = require("puppeteer");
async function parseLogRocketBlogHome() {
// 启动浏览器
const browser = await puppeteer.launch();
// 打开一个新标签
const page = await browser.newPage();
// 访问该页面并等待,直到网络连接完成
await page.goto('https://czhlove.cn', { waitUntil: 'networkidle2' });
// 与DOM交互以检索标题
const titles = await page.evaluate(() => {
// 选择所有指定的标签类的元素
return [...document.querySelectorAll('.MuiTypography-h2')].map(el => el.textContent);
});
// 不要忘记关闭浏览器实例来清理内存
await browser.close();
// 打印结果
titles.forEach(title => console.log(`- ${title}`))
// - JavaScript 数组常用方法
// - 漫游孤独:一个人的旅行
// - TypeScript的装饰器
// - TypeScript的命名空间和模块
// - TypeScript的高级类型
// - TypeScript的泛型
// - TypeScript的数组类型
// - TypeScript的接口和对象类型
// - TypeScript的基础类型
// - Vue3的script-setup 模式中父组件获取子组件的数据
}
parseLogRocketBlogHome();
虽然 Puppeteer 是一个很棒的解决方案,但它在使用上更复杂,特别是对于简单的项目。从资源需求的角度来看,它要求更高 — 毕竟,您正在运行一个完整的 Chromium 浏览器,而我们知道这些浏览器可能会消耗大量内存。
X-Ray
X-Ray 是一个专为网页抓取而创建的 Node.js 库,因此它的 API 在很大程度上专注于这个任务。因此,它将我们在 Puppeteer 和 Axios 中遇到的大部分复杂性都进行了抽象。
要安装 X-Ray,您可以运行以下命令:
npm install x-ray
现在,让我们使用 X-Ray 来构建我们的示例:
const Xray = require('x-ray');
const x = Xray()
x('https://czhlove.cn', {
titles: ['.card-title a']
})((err, result) => {
result.titles.forEach(title => console.log(`- ${title}`));
});
// 打印结果:
// - JavaScript 数组常用方法
// - 漫游孤独:一个人的旅行
// - TypeScript的装饰器
// - TypeScript的命名空间和模块
// - TypeScript的高级类型
// - TypeScript的泛型
// - TypeScript的数组类型
// - TypeScript的接口和对象类型
// - TypeScript的基础类型
// - Vue3的script-setup 模式中父组件获取子组件的数据
如果您的使用情景涉及大量网页抓取,X-Ray 是一个很好的选择。它支持并发和分页,因此您不需要担心这些细节。
Superagent
Superagent 是一个轻量级、渐进式的用于处理 HTTP 请求的客户端 Node.js 库。由于其简单性和易用性,它通常被用于网页抓取。
与 Axios 类似,Superagent 也仅限于从服务器获取响应;您需要自己解析和处理结果。根据您的抓取需求,您可以使用 Superagent 获取 HTML 页面、JSON 数据或其他类型的内容。
要在项目中使用 Superagent,您可以像使用任何其他 JavaScript 包一样进行安装:
npm install superagent
在抓取 HTML 页面时,您必须解析 HTML 内容以提取所需数据。为此,您可以使用像 Cheerio 或 JSDOM 这样的库。
要在项目中使用 Cheerio,您可以像使用任何其他 JavaScript 包一样进行安装:
npm install cheerio
让我们来看一个使用 Superagent 和 Cheerio 进行网页抓取的示例:
const superagent = require("superagent");
const cheerio = require("cheerio");
const url = "https://czhlove.cn";
superagent.get(url).end((err, res) => {
if (err) {
console.error("获取网站时出错:", err);
return;
}
const $ = cheerio.load(res.text);
// 请将以下选择器替换为您想要抓取的实际 HTML 元素:
const titles = $(".MuiTypography-h2")
.map((i, el) => $(el).text())
.get();
// 打印抓取的数据:
console.log("Titles:", titles);
});
// 打印结果:
// Titles: [
// 'JavaScript 数组常用方法',
// '漫游孤独:一个人的旅行',
// 'TypeScript的装饰器',
// 'TypeScript的命名空间和模块',
// 'TypeScript的高级类型',
// 'TypeScript的泛型',
// 'TypeScript的数组类型',
// 'TypeScript的接口和对象类型',
// 'TypeScript的基础类型',
// 'Vue3的script-setup 模式中父组件获取子组件的数据'
// ]
该脚本将使用 Superagent 进行 HTTP GET 请求到指定的 URL,获取页面的 HTML 内容,然后使用 Cheerio 从指定的选择器中提取数据。
虽然 Superagent 是一个很好的解决方案,但在进行网页抓取时使用它可能会导致数据提取不完整或不准确,从而导致数据不一致,这取决于网站结构的复杂性和所使用的解析方法。
Playwright
Playwright 是一个强大的工具,用于网页抓取和浏览器自动化,尤其是在处理具有动态内容和复杂交互的现代网页应用程序时。其多浏览器支持、自动化能力和性能使其成为开发人员在 Node.js 应用程序中执行高级网页抓取任务的绝佳选择。
Playwright 是由微软开发的相对较新的开源库。它提供对浏览器状态、Cookie、网络请求和浏览器事件的完全控制,使其在复杂的抓取场景中非常适用。
要在项目中使用 Playwright,您可以按照以下方式进行安装:
npm install playwright
让我们来看一个使用 Playwright 进行网页抓取的示例:
const { chromium } = require("playwright");
(async () => {
const browser = await chromium.launch();
const context = await browser.newContext();
const page = await context.newPage();
const url = "https://czhlove.cn"; // 请将其替换为您想要抓取的网站的 URL。
try {
await page.goto(url);
// 请将以下选择器替换为您想要抓取的实际 HTML 元素。
const titleElement = await page.$(".MuiTypography-h2");
const title = await titleElement.textContent();
console.log("Title:", title);
} catch (error) {
console.error("Error:", error);
} finally {
await browser.close();
}
})();
这个脚本将会启动一个 Chromium 浏览器,导航到指定的 URL,并使用 Playwright 的方法与网站进行交互,并从指定的选择器中提取数据。
Playwright 是一个强大的抓取库,但与轻量级的基于 HTTP 的抓取库相比,它会产生更多的资源开销,因为它使用无头浏览器来执行抓取任务。这可能会影响性能和内存使用,特别是如果您正在抓取多个页面或执行大量的抓取任务。
哪个是最好的 Node.js 网络爬虫?
“最佳” Node.js 网络爬虫取决于您的特定需求以及您打算执行的爬取任务的复杂性。提到的每个库 - Axios、X-Ray、Puppeteer、Superagent、Cheerio 和 Playwright - 都有其自身的优点和缺点。以下是它们主要特点的简要概述:
Axios:适用于基本的网络请求,简单且轻量。适合涉及进行HTTP请求的简单爬取任务。
X-Ray:适用于爬取多个网页,具有内置的并发和分页支持。与Puppeteer和Playwright相比,提供更简单的API。
Puppeteer:适用于浏览器自动化,特别是对于动态和复杂的网站。可以处理现代的、JavaScript-heavy的网站并执行交互。
Superagent:轻量级的HTTP库,用于处理请求。对于基本的爬取任务可能会有用。
Cheerio:优秀用于解析HTML并从DOM中提取数据。不需要浏览器,适用于较简单的爬取任务,可以高效地工作。
Playwright:适用于爬取具有复杂交互的现代Web应用程序。提供完整的浏览器控制,适用于更高级的爬取任务。
对于大多数任务来说,任何这些选项都足够满足要求,所以请选择您感觉最舒适的选项。在我的职业生涯中,我有机会使用公开可用信息和内部系统从头构建多个项目,以满足信息收集的需求。
由于需求各异,这些项目中的每一个都采用了不同的方法和库,从Axios到X-Ray不一而足,最终在最复杂的情况下采用了Puppeteer。
最后,无论您选择哪个爬虫,都应始终尊重网站的条款和条件。数据爬取可以是一个强大的工具,但这也伴随着巨大的责任。感谢您的阅读!