四虎电影库房网站duos通过requests BeautifulSoup下载 四虎网站是一个成人网站,里面有很多的资源可以进行下载。
一、获取图片网页的信息
首先是获取图片网页的链接 ,我们在图片的主页面上有各个图片的链接和标题,我们可以爬取下载再进行分析!
我们首先通过requests.get()的方法把网页给爬取下来,这时利用requests.get()的content属性可以把网页的源代码给显示出来,也可以用text来显示,但content的一个优势就是返回的是二进制数据,而text返回的是unicode型数据。简单来说,就是content不容易乱码,而且也可以获取图片和文件。
我们发现网页的最后一页的下一页没有,返回的是一个空值,所以我们直接将最后一个网页作为页面的异常值抛出.接下来我们直接利用BeautifulSoup类型的find_all找出所有的链接。其中有些链接不是图片页面的链接,我们又发现图片链接的地址长度都是一样的,我们可以通过将链接地址大小进行判断,取得图片地址链接。
二、获取各个图片的链接
我们现在可以通过上面取得网页的地址来获取各个图片的链接,我们发现图片的地址都是在img的src属性里,我们可以通过上面的方法来获得图片的链接
三、下载图片
图片可以通过urllib.urlretrieve(imgurl, path)来保存图片,但通过这种的方式保存的图片无法打开,所以还是要通过
f.write(h.content)的方式来保存图片。
还有将同一个标题下的图片存在一起,我们通过判断标题是否一样,如果一样就保存在这个文件夹下,
如果不一样就创建文件夹
四、主函数
我们利用下一页返回是否为空来判断是否爬取完成。如果返回的不是空,则会永远执行,我们还有一个计时功能,来计算执行时间。
本文发布于2020年03月02日05:47
,已经过了1885天,若内容或图片失效,请留言反馈
转载请注明出处: 网际网
本文的链接地址: https://www.wjdiy.com/ping/4416.html
-
欧美日本道一区二区三区(一区 二区 三区 四区 五区 六区 全码黄色区)
国内黄色在线观看视频1区2区3区4区5区;欧美日本道一区二区三区 DVD区码划分(一区 二区 三区 四区 五区 六区 全码区)美国电影协会为制定区域码划分了六个地区,这六区的域码分别是美国高清一区二区三区四区 亚洲2020一区二区三区四区五区
2020/02/28
-
数字大写一二三四五六七八大九十大写壹贰叁肆伍陆柒捌玖拾
2018/09/14
-
中华人民共和国历届国家主席是谁
2020/02/01
-
星座月份表 1~12星座月份表 十二星座的月份表准确
2020/04/15
-
报错Default Boot Device Missing or Boot Failed解决方法
2016/03/10
-
刺客伍六七图片头像 刺客伍六七图片最帅壁纸
2020/04/09
暂无评论