推广 热搜: 行业  设备    参数  系统  经纪    教师  机械  中国 

Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子

   日期:2024-11-03     作者:caijiyuan    xhstdz   评论:0    移动:http://yejunbin01.xhstdz.com/mobile/news/243.html
核心提示:根据学习的爬虫视频实战项目,进行的扩展实战原实战实现功能:爬取主页电影排行榜片源信息及下载种子扩展实现功能:破解反爬策略

根据学习的爬虫视频实战项目,进行的扩展实战

Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子

原实战实现功能:爬取主页电影排行榜片源信息及下载种子

扩展实现功能:破解反爬策略,根据搜索关键字,获取查找出来的片源信息列表以及下载种子

首先获取搜索的请求链接,查看请求参数

多进行几次请求,发现除了参数,其他的参数每次都是固定的,可知即为我们输入的搜索关键字转码而来,这里使用的是编码的方式

搜索请求返回一个数据,我们采用来进行数据提取,获取以及

点击进入详情页,发现详情页的页面地址就等于:

我们再对每个片源的详情页进行访问,用BeautifulSoup提取出对应的下载种子即可

如果直接用库直接对网页进行请求,每次返回都是

这是因为网站有做反爬,具体的解决方法可以参考破解反爬虫策略 /_guard/auto.js(一) 原理

requests 是一个非常流行且强大的 Python 库,用于发送 HTTP 请求。

请求里面的关键参数主要是headers中的user-agent和cookies中的

当请求返回为时,响应数据中会返回一个的cookie,通过对的加密处理,会返回一个的cookie,带着它再一次进行请求,响应数据中就会返回啦

拿到就可以正常进行网络请求啦,所以主要难点就是对中加密方法的处理

主要是对auto.js文件进行反混淆处理,提取出生成的关键代码,具体操作参考破解反爬虫策略 /_guard/auto.js(一) 原理,反混淆处理后的关键代码如下:

拥有一个获取的方法,剩下就是按照上面获取逻辑来处理cookie啦

ExecJS 是一个 Python 库,它允许你直接在 Python 中执行 Javascript 代码

对于查询的关键字,请求前需要对内容进行转码处理,具体如下:

urllib.parse 是 Python 标准库中的一个模块,专门用于处理 URL 的解析、合成、编码和解码操作。

通过和对页面数据进行分析,获取、、

BeautifulSoup 是一个用于解析 HTML 和 XML 文件的 Python 库,通常用于网页抓取(Web Scraping)
re 是 Python 的正则表达式模块,用于在字符串中执行模式匹配操作。

函数处理了页面查询数据,获取了对应的详情页的路径,通过函数获取详情页的数据,得到每个片源的种子数据

获取了数据,当然要进行保存操作啦,这里用文件对爬取的数据进行保存

csv 是 Python 标准库中的一个模块,用于处理 CSV(逗号分隔值)文件。它提供了方便的工具来读取和写入 CSV 格式的数据,非常适合处理结构化数据。

启动程序,爬虫顺利运行,下面是运行效果:

爬取数据也顺利保存进本地csv文件

本文地址:http://yejunbin01.xhstdz.com/news/243.html    物流园资讯网 http://yejunbin01.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号