使用Python爬虫将网页搜索结果写入MSSQL数据库(网页结果写入mssql)
随着科技发展带来的信息爆炸期,获取信息变得越来越重要。网络爬虫是一种从互联网网站抓取信息的自动化程序,可以收集大量有价值的数据,并将它们写入到MSSQL数据库中,以便后期分析和应用。本文简要介绍了如何使用Python爬虫将网页搜索结果写入MSSQL数据库的步骤。
首先,我们根据所需要的数据类型,在MSSQL中创建一个新的数据库和表tbl_Data。接下来,使用Python爬虫,定位目标数据进行捕获,即,从相关网页中将搜索结果抓取出来。例如:
#定位并抓取目标数据
url = 'https://www.baidu.com/s?wd=Python'response = requests.get(url)
c = response.content
抓取完数据后,需要将数据存入到MSSQL数据库的tbl_Data表中,本案例使用python2.7下的pyodbc库来进行数据库连接,代码示例如下:
# 连接mssql数据库
conn = pyodbc.connect('DRIVER={SQL Server};' 'SERVER=127.0.0.1;'
'DATABASE=Data_DB;' 'UID=sa;'
'PWD=password')#利用pyodbc实现将数据写入到MSSQL
cursor = conn.cursor()sql = "INSERT INTO tbl_Data (Data1, Data2) VALUES ('%s', '%s')" % (Data1, Data2)
cursor.exectue(sql)conn.commit()
cursor.close()conn.close()
调用pyodbc库中的connect函数,实现对服务器的连接,通过cursor,实现对数据库的操作,然后利用 INSERT语句将数据写入表中,最后,调用Commit函数将事务提交,数据写入完成。
以上,我们就介绍了如何利用Python爬虫将网页搜索结果写入MSSQL数据库,以上是基本步骤,在其它个别情况中,还需要做一些特殊处理。例如:对于杂乱无章的网络数据,需要先清理数据,字符串的替换,表格结构的抽取,但是这一类的问题不在本文的讨论范围内,具体可参看相关资料。