防止网页抓取

Rohann71 · Post by **Rohann71** » Sat Dec 21, 2024 10:21 am

1.- 合法行事很重要
防止抓取的最简单方法是采取法律行动。您可以通过司法方式报告攻击，并证明不允许进行网页抓取。

如果您在服务条款中明确禁止，您甚至可以起诉潜在的抓取者。例如， LinkedIn 去年起诉了一群网络爬虫，称通过自动请求提取用户数据相当于黑客行为。

2.- 防止来自传入请求的攻击
即使您已经发布了禁止抓取您的服务的法律声明，潜在的攻击者可能仍然想继续该过程。您可以识别可能的 IP 地址并通过防火墙过滤来阻止请求到达您的服务。

尽管这是一个手动过程，但现代云服务提供商可以让您访问阻止潜在攻击的工具。例如，如果您在 Amazon Web Services 上托管服务， AWS Shield 将帮助保护您的服务器免受潜在攻击。

3.- 使用请求伪造 (CSRF) 令牌
通过在应用程序中使用 CSRF 令牌，您将防止自动化工具向来宾 URL 发出任意请求。 CSRF 令牌可以作为隐藏表单字段出现。

要绕过 CSRF 令牌，需要在与请求捆绑之前加载、解析并搜索标记以查找正确的令牌。这个过程需要编程技能和专业工具的使用。

4.- 使用 .htaccess 文件避免抓取
.htaccess 是 Web 服务器的配置文件。并且可以对其进行修改以防止抓取工具访问您的数据。第一步是识别抓取工具，这可以通过 Google 网站管理员来完成。

一旦识别出它们，您可以使用多种技术通过更改配置文件来停止抓取过程。一般来说，该文件未启用，因此您必须启用它，这是解释您将放置在目录中的文件的唯一方法。

5.- 防止盗链
当您的内容被抓取时，图像和其他文件的内联链接将直接复制到攻击者的站点。当攻击 BC 数据中国 500,000 套餐者的网站上显示相同的内容时，该资源会直接链接到您的网站。

在不同网站上的服务器上显示托管资源的过程称为热链接。当您阻止热链接时，此类图像在显示在不同站点上时不会通过您的服务器。

6.- 黑名单中的特定 IP 地址
如果您已识别出用于抓取的 IP 地址或 IP 地址模式，则只需通过 .htaccess阻止它们即可。

7.- 限制 IP 地址的请求数量
或者，您还可以限制对 IP 地址的请求数量。尽管如果攻击者可以访问多个 IP 地址，它可能就没用了。验证码还可用于 IP 地址异常请求的情况。

您需要做的是阻止来自云托管和跟踪服务的已知IP地址的访问，以确保攻击者无法利用云托管和跟踪服务来删除或复制您的数据。

8.- 创建“蜜罐”
蜜罐是指向虚假内容的链接，普通用户看不到该内容，但存在于 HTML 中。当程序分析网站时它会出现。通过将抓取工具重定向到此类蜜罐，您可以检测抓取工具并导致它们通过访问不包含数据的页面来浪费资源。

因此，不要忘记禁用 robots.txt 文件中的这些链接，以确保搜索引擎搜索者不会陷入此类蜜罐中。

9.- 经常改变HTML结构
大多数爬虫都会解析从服务器获取的 HTML。为了让抓取工具更难访问您的数据，您可以经常更改 HTML 结构。为此，攻击者需要重新评估您网站的结构以提取数据。了解什么是网络抓取的另一个关键。