利用Nutch抓取网页存储到MySQL中(nutchmysql)
汇总篇 | 如何利用Nutch抓取网页存储到MySQL中
Nutch 是一个 Apache 开源爬虫项目,是基于 Lucene 的 Web 爬虫搜索引擎,支持网页抓取、HTML 解析、文件下载、多网页索引和搜索、去重等功能。本文主要就如何使用 Nutch 抓取网页并将其存储到 MySQL 中进行介绍。
##### 1、安装
首先,你需要安装 JDK 环境,并且确保 JDK 的相关环境变量设置正确。之后,需要安装 Nutch,Nutch 支持在各大操作系统,包括 Linux,Unix,Windows 中使用,首先可以从官方下载交叉编译编译后的 Nutch ,放入你指定的目录,例如:
“`shell
$ tar -zxvf apache-nutch-1.x.x-bin.tar.gz
$ mv apache-nutch-1.x.x nutch
之后,需要在 Nutch 配置文件中指定 MySQL 数据库:在 nutch-1.x/conf/ 目录下,找到 nutch-site.xml 文件,增加以下参数:
```xml
storage.data.store.class org.apache.nutch.storage.BoneStorage
##### 2、运行
然后,可以开始运行 Nutch:
首先,要建立索引表,可以使用:
“`shell
$ bin/nutch org.apache.nutch.indexer.IndexWriters
然后,可以开始抓取网页:
```shell$ bin/nutch readseSingleWeb "http://www..com"
抓取之后可以使用:
“`shell
$ bin/nutch mediaStore -all
把网页信息存储到 MySQL 数据库中。
##### 3、运行结果
Nutch 抓取完毕后,MySQL 数据库中将会对应添加相关数据,索引表和数据表都将会出现一些新的表,例如:
- nutch_config — 存储配置信息,如爬取的网址- nutch_doc — 存储网页文档的信息
- nutch_links — 存储索引结构
Nutch 使用 Lucene 做全文搜索,也提供了命令行工具,方便使用者来查看抓取的结果:
```shell$ bin/nutch org.apache.nutch.indexer.IndexReaders
##### 结论
本文介绍了 Nutch 的安装和使用方法,详细介绍了如何使用 Nutch 抓取网页,并将其存储于 MySQl 中。Nutch 提供了丰富的功能和易于操作,不仅可以直接解析 HTML 页面,而且还提供命令行工具,方便使用者进行查看抓取结果以及相关操作。