推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

Playwright+Bs4爬取微信公众号文章链接

   日期:2024-12-21     移动:http://yejunbin01.xhstdz.com/mobile/quote/85174.html

写在前面,欢迎大家访问我的博客:Scout He

Playwright+Bs4爬取微信公众号文章链接

1、由于搜狗搜索只能看到最近十篇文章
2、有找到过从网页端微信获取的,但是我的微信网页端登不上只能放弃
3、还有了解过pywinauto的windows的自动化,但是已经用过playwright,还要花时间去学习
4、找到有利用公众号后台的超链接进行爬取的方法
因此决定使用playwright来解决这个问题

首先使用playwright录制脚本,将大概的过程进行录制:

在录制前要想好大概的步骤,以及后面需要进行循环的翻页操作


通过这两步即将整个的流程处理完成了
下面就是run()函数,传入的参数分别是

 
 

这个函数中需要注意的是
1、大的循环的设定位置在打开超链接之后,点击之前
2、小的翻页循环设定在搜索公众号之后,循环下一页
3、判断是否到最后一页,由于我目前没有找到可行的方法,只能使用判断最后一页的文章个数小于五来跳出循环,虽然问题很大,但我就赌他最后一页不是五个QAQ。

1、最后一页的判断方法有问题
2、由于微信公众号的限制,导致翻页过快,系统会封禁一段时间,所以需要将翻页时间设定较长时间,但是经过我的实验,在结束第一个60页的公众号后,到第二个还是会出现系统错误的问题,无法翻页,此问题目前还未解决。
3、没有设置自动登录。
4、playwright应该有可以直接获取页面信息的方法,但目前我还没有找到,只能通过来分析页面.

本文地址:http://yejunbin01.xhstdz.com/quote/85174.html    物流园资讯网 http://yejunbin01.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号