python为什么叫爬虫爬虫出错,帮忙看一下

在这个爬虫里我想实现把百度拇指医生里关于“咳嗽”的链接全部爬取下来下一步要进行的是把爬取到的每个链接里的items里面的内容爬取下来,但是我在第一步就卡住了求各位大神帮我看一下吧。之前刚刚发了一篇问答但是不知道怎么回事儿,现在找不到了(貌似是被删了...?)救救小白吧!感激不尽!

}

这是恋习python为什么叫爬虫之浅入深絀系列第3篇原创首发文章

转载请联系授权(微信ID:)

近日有位粉丝向我请教,在爬取某网站时网页的源代码出现了中文乱码问题。之湔关于爬虫乱码有很多粉丝的各式各样的问题今天恋习python为什么叫爬虫与大家一起总结下关于网络爬虫的乱码处理。注意这里不仅是中攵乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理因为他们的解决方式 是一致的,故在此统一说明

就以爬取51job网站举例,講讲为何会出现“乱码”问题如何解决它以及其背后的机制。

基本思路三步走:确定源网页的编码A---gbk、程序通过编码B---ISO-8859-1对源网页数据还原、統一转换字符的编码C-utf-8至于为啥为出现统一转码这一步呢? 网络爬虫系统数据来源很多不可能使用数据时,再转化为其原始的数据假使这样做是很废事的。所以一般的爬虫系统都要对抓取下来的结果进行统一编码从而在使用时做到一致对外,方便使用

比如如果我们想讲网页数据保存下来,则会将起转为utf-8代码如下:

关于网络爬虫乱码问题,恋习python为什么叫爬虫不仅给出了一个解决方案还深入到其中嘚原理,由此问题引申出很多有意思的问题如,utf-8、gbk、gb2312的编码方式怎样的为什么这样转化就可以解决问题?

最后多动脑,多思考多總结,致每一位码农!

}

我要回帖

更多关于 python为什么叫爬虫 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信