Hello大家好许久未见,昨天终于打算再写个爬虫例子于是今天果断来分享一下成果。
本代码使用Python进行书写
首先我们需要有个翻墙工具,毕竟instagram网页注册早已经是墙外之物叻这里呢,选用了来作为翻墙的工具
注意请不要翻墙看一些非法的东西,以免被抓
然后,我们先打开网站确认能打开就表明正常翻墙。由于本期主要爬取图片所以特意选取了一个美女的instagram网页注册为例子,尺度不高我们打开Chrome
按照惯例,首先检查index页面的HTML文件中是否存在图片链接 这里我们复制
class = _mck9w _gvoze _f2mse
的字符串去Source Tab页下查找,发现并没有结果将之拷贝出来,发现里面的内容都是动态生成的
这就不得不怀疑,是不是所有的数据都以其他形式放在首页HTML文件中或者通过Ajax异步请求过来。我们从Network中随便拷贝一张图片的链接如下,然后放到HTML文件中搜索结果出现了。
搜索记录过程中我们发现了一个惊喜的地方,那就是被
script
包裹在里面的/",
注意了这里的proxy的配置,只要启动Firefly就能看到的
什么,你说怎么下载那是下回的事情了,我们都还没有爬取所有的URL呢你忘了更多那个按钮了吗?大家下回见~~