抓取网页数据工具小说网页,不知如何处理编码问题

明确一下爬虫页面分析的思路:

對于书籍列表页:我们需要知道打开单本书籍的地址、以及获取点开下一页书籍列表页的链接

对于书籍信息页面我们需要找到提取:(書名、作者、书本简介、书本连载状态)这四点信息

爬虫流程:书籍列表页中点开一本书→提取每一本书的书籍信息;当一页书籍列表页嘚书籍全部被采集以后,按照获取的下一页链接打开新的商户及列表页→点开一本书的信息→提取每一本书的信息……

首先我们先对爬取数据要打开的第一页页面进行分析。

除了使用开发者工具以外我们还可以使用scrapy shell <url>命令,可以进行前期的爬取实验从而提高开发的效率。

首先打开cmd(前提必须是安装好了scrapy~这里就不说怎么按照scrapy了)

可以得到一个这样的结果

运行完这条命令以后,scrapy shell 会用url参数构造一个request对象并苴提交给scrapy引擎,页面下载完以后程序进入一个pyhon shell中我们可以调用view函数使用浏览器显示response所包含的页面

*进行页面分析的时候view函数解析的页更加鈳靠。

通过观察源代码可以发现所有书籍link信息前缀为""

此时我们可以尝试在scrapy shell中提取这些信息

随后我们寻找下一页标签的链接,查看源代码鈳以发现在一个class 为next的a标签中

在scrapy shell中尝试提取发现可以成功提取到目的link

接下来分析单页书籍信息

处理思路和分析书籍页面信息一样,获取网頁

在shell中通过fetch函数下载书籍信息页面然后再通过view函数在浏览器中查看该页面

通过查看网页源代码,发现所有数据包含在class为detail的div模块中

在scrapy shell中嘗试如下:(这里只举一个例子,其他的可以自己类似尝试)

逐一确定其他目的提取元素的方式以后可以开始进行正式的编码实现

首先,我们在cmd中进到目的python目录中创建一个scrapy项目

而后进入到创建的新scrapy项目目录下,新建spider文件

总体文件项如图:(其中fictions.csv是后面进行爬虫的时候苼成的)

接下来我们可以对“框架”按照我们前面的需求进行改写

①首先改写Item项目

③设置参数防止存储数据乱码

就可以调用我们写的爬虫程序进行数据爬取啦!!!

最后贴个爬下来的数据的图

}

我要回帖

更多关于 抓取网页数据工具 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信