如何通过 3 步将网站数据抓取到 Excel?

如何通过 3 步将网站数据抓取到 Excel?

结束了 2 亿个网站 及以上 50 亿个网页 在互联网上。 它们都包含不同格式的信息,文本、视频、图像或表​​格。

如果你想 从网页中抓取数据 要出类拔萃,最简单的选择是复制粘贴网页内容。 但这是最好的方法,因为数据格式不正确。 (使数据可用所花费的时间相当可观)。

这就是网络抓取的用武之地。网络抓取可在几秒钟内将非结构化网站数据转换为结构化的 excel 格式,同时节省您的时间和精力。

在此博客中,我们将探索三种从网站抓取数据并将其下载到 Excel 的方法。 无论您是企业主、分析师还是数据爱好者,此博客都将提供有效地从网站抓取数据并将其转化为有价值的见解的工具。

从网站抓取数据到 excel 的 3 种方法

我们将深入探讨这三种将数据从网站抓取到 excel 的方法。

  • 使用自动网页抓取工具
  • 使用 Excel VBA
  • 使用 Excel 网络查询

使用自动网页抓取工具

如果你想立即将网页信息抓取到 excel,你可以试试像这样的无代码工具 Nanonets 网站抓取工具. 这个免费的网络抓取工具可以立即抓取网站数据并将其转换为 excel 格式。

以下是使用 Nanonets 自动抓取网站数据的三个步骤:

第 1 步:前往 Nanonets 网站抓取工具 并插入您的网址。

第 2 步:选择 Scrape and Download 并等待。

第三步:该工具会自动下载一个包含网页数据的文件。

如何通过 3 步将网站数据抓取到 Excel? Plato区块链数据智能。垂直搜索。人工智能。


使用 Excel VBA

Excel VBA 非常强大,可以轻松地自动执行许多复杂的任务。 让我们看看使用它来抓取网站页面的步骤。

第 1 步:打开 Excel 并创建一个新工作簿。

第 2 步:按 Alt + F11 打开 Visual Basic 编辑器 (VBE)。

第 3 步:在 VBE 中,转到“插入”->“模块”以创建一个新模块。

第 4 步:将以下代码复制并粘贴到模块中:

Sub ScrapeWebsite() 'Declare variables
Dim objHTTP As New WinHttp.WinHttpRequest
Dim htmlDoc As New HTMLDocument
Dim htmlElement As IHTMLElement
Dim i As Integer
Dim url As String 'Set the URL to be scraped
url = "https://www.example.com" 'Make a request to the URL
objHTTP.Open "GET", url, False
objHTTP.send 'Parse the HTML response
htmlDoc.body.innerHTML = objHTTP.responseText 'Loop through the HTML elements and extract data
For Each htmlElement In htmlDoc.getElementsByTagName("td") 'Do something with the data, e.g. print it to the Immediate window
Debug.Print htmlElement.innerText
Next htmlElement
End Sub

第五步:修改代码中的URL为你要抓取的网站。

第 6 步:按 F5 或单击 VBE 工具栏中的“运行”按钮运行宏。

第 7 步:检查立即窗口(查看 -> 立即窗口)以查看抓取的数据。

使用 VBA 从网页中抓取数据时应该考虑什么?

虽然 Excel VBA 是抓取网页的强大工具,但有几个缺点需要考虑:

  • 复杂:对于非编码人员来说,VBA 可能很复杂。 这使得很难解决问题。
  • 功能有限: VBA 可以提取有限的数据类型。 它无法从复杂的 HTML 结构中提取数据。
  • 迅速的:在抓取大型网站时,Excel VBA 可能会很慢。
  • IP 封锁风险: 在抓取大数据网站时,始终存在 IP 被封的风险。

????

总的来说,虽然 VBA 可以成为网页抓取的有用工具,但在将其用于特定抓取项目之前,考虑上述缺点并权衡利弊非常重要。


使用 Excel 网络查询

Excel 网络查询可以轻松抓取网页。 基本上它将网页作为文本文件导入到 Excel 中。 让我们看看如何使用 excel 网络查询将网页抓取到 excel。

第 1 步:创建一个新的工作簿。

第 2 步:转到顶部的“数据”选项卡。 单击“获取和转换数据”部分,然后转到“来自 Web”

第 3 步:在“来自 Web”对话框中输入 URL。

第 4 步:单击“确定”按钮将网页加载到“导航器”窗口中。

第 5 步:通过选中旁边的框来选择要抓取的表或数据。

第 6 步:单击“加载”按钮将所选数据加载到新工作表中。

第 7 步:如果需要,重复上述步骤以从同一网页抓取其他表格或数据。

第 8 步:要刷新数据,只需右键单击工作表中的数据并选择“刷新”。

[嵌入的内容]
  • Web 查询无法从动态网页或具有复杂 HTML 结构的网页中抓取数据。
  • Web 查询依赖于网页 HTML 结构。 如果它发生变化,网络查询可能会失败或提取不正确的数据。
  • Web 查询可以提取未格式化的数据,例如可以将数据提取为文本而不是数字或日期。

VBA 和 Web 查询等 Excel 工具可以提取网页数据,但对于复杂的网页结构它们往往会失败,或者如果您每天必须提取多个页面,则可能不是最佳选择。 粘贴 URL、检查提取的数据、清理它并存储它需要大量的手动工作。

像 Nanonets 这样的平台可以帮助您通过几次点击来自动化整个过程。 您可以将 URL 列表上传到平台中。 Nanonets 将自动为您节省大量时间:

  • 从网页中提取数据 – Nanonets 可以从任何网页或具有复杂 HTML 结构等的无头网页中提取数据。
  • 构建数据 – Nanonets 可以识别 HTML 结构并格式化数据以保留表格结构、字体等,因此您不必这样做。
  • 执行数据清洗 – Nanonets 可以使用自动化工作流程在几秒钟内替换丢失的数据点、格式化日期、替换货币符号或更多。
  • 将数据导出到您选择的数据库 – 您可以将提取的数据导出到 Google 表格、Excel、Sharepoint、CRM 或您选择的任何其他数据库。

如果您有任何要求,您可以联系我们的团队,他们将帮助您设置自动化工作流程,以自动化网络抓取过程的每个部分。

时间戳记:

更多来自 人工智能与机器学习