利用Nutch抓取网页存储到MySQL中(nutchmysql)

汇总篇 | 如何利用Nutch抓取网页存储到MySQL中

Nutch 是一个 Apache 开源爬虫项目,是基于 Lucene 的 Web 爬虫搜索引擎,支持网页抓取、HTML 解析、文件下载、多网页索引和搜索、去重等功能。本文主要就如何使用 Nutch 抓取网页并将其存储到 MySQL 中进行介绍。

##### 1、安装

首先,你需要安装 JDK 环境,并且确保 JDK 的相关环境变量设置正确。之后,需要安装 Nutch,Nutch 支持在各大操作系统,包括 Linux,Unix,Windows 中使用,首先可以从官方下载交叉编译编译后的 Nutch ,放入你指定的目录,例如:

“`shell

$ tar -zxvf apache-nutch-1.x.x-bin.tar.gz

$ mv apache-nutch-1.x.x nutch


之后,需要在 Nutch 配置文件中指定 MySQL 数据库:在 nutch-1.x/conf/ 目录下,找到 nutch-site.xml 文件,增加以下参数:

```xml

storage.data.store.class
org.apache.nutch.storage.BoneStorage

##### 2、运行

然后,可以开始运行 Nutch:

首先,要建立索引表,可以使用:

“`shell

$ bin/nutch org.apache.nutch.indexer.IndexWriters


然后,可以开始抓取网页:

```shell
$ bin/nutch readseSingleWeb "http://www..com"

抓取之后可以使用:

“`shell

$ bin/nutch mediaStore -all


把网页信息存储到 MySQL 数据库中。

##### 3、运行结果

Nutch 抓取完毕后,MySQL 数据库中将会对应添加相关数据,索引表和数据表都将会出现一些新的表,例如:

- nutch_config — 存储配置信息,如爬取的网址
- nutch_doc — 存储网页文档的信息
- nutch_links — 存储索引结构

Nutch 使用 Lucene 做全文搜索,也提供了命令行工具,方便使用者来查看抓取的结果:

```shell
$ bin/nutch org.apache.nutch.indexer.IndexReaders

##### 结论

本文介绍了 Nutch 的安装和使用方法,详细介绍了如何使用 Nutch 抓取网页,并将其存储于 MySQl 中。Nutch 提供了丰富的功能和易于操作,不仅可以直接解析 HTML 页面,而且还提供命令行工具,方便使用者进行查看抓取结果以及相关操作。


数据运维技术 » 利用Nutch抓取网页存储到MySQL中(nutchmysql)