推广 热搜： 行业设备金参数系统经纪杯教师机械中国

Eastmoney-Spyder：股吧网页数据抓取分析（一）

日期：2024-11-17 作者：n19v1 caijiyuan 评论：0 移动：http://yejunbin01.xhstdz.com/mobile/news/7136.html

核心提示：数据来源：热门个股吧数据字段：阅读、评论、标题、作者、更新时间实现功能：读取每个股吧的全部页面的数据

数据来源：热门个股吧数据字段：阅读、评论、标题、作者、更新时间实现功能：读取每个股吧的全部页面的数据并写入excel表中

我们需要抓取的是全部发帖信息的阅读、评论、标题、作者及最后更新时间这五个字段的数据，我一开始想也不是很难，解析一下网页匹配一下对应的标签值就可以了，但后面还是出现了各种各样的问题，需要大家注意一下。

① 网页源代码

首先打开网页的开发者工具（Ctrl+Shift+i），在源代码中查找对应字段的标签结构。

Eastmoney-Spyder：股吧网页数据抓取分析（一）从图中可以看出，这五个字段分别位于行标签内，对应的属性分别是。想必大家已经有思路了，我们可以通过先获取网页代码，再解析网页查询对应的五个字段，最后做一个提取就可以了。

Eastmoney-Spyder：股吧网页数据抓取分析（一）

② 网页链接

【某一股吧：300059】点击查看网页链接结构：首页、第二页 可以看出个股吧链接主要由三部分组成：list、名称代码、页数

I.全部个股吧的数字代码

Eastmoney-Spyder：股吧网页数据抓取分析（一） II. 翻页数据

Eastmoney-Spyder：股吧网页数据抓取分析（一）

如何得到不同股吧的所有翻页数据，着实让我找了好久，各种资源我都找了可惜还是没有发现，突然无意之中我找到了解决办法，我直接一个好家伙！

跟上述的五类字段一样，我们查看一下页数的代码字段，如下图所示： Eastmoney-Spyder：股吧网页数据抓取分析（一）我的第一个办法是直接解析网页后找到标签下的属性，其内容即为总页数，本来以为原来这么好获取，结果解析完才发现，里的内容是动态的，即是会随页而变化的，故直接requests并不能获取到，但是还是被我发现了玄机！ Eastmoney-Spyder：股吧网页数据抓取分析（一）大家可以看这里，里面的内容是，我对比了几个页面后发现其中数字分别代表的是：

那么这时候，我们就可以直接用累积多年的算力（小学除法）算出该股吧共有，向上取整共页！如果你也脱口而出好家伙的话，请在屏幕下方打出来！

基本问题解决了，我们可以开始编写代码了。这部分不讲代码原理，只解释代码功能。如果代码存在问题或不清楚的话，欢迎大家在下方留言，我一定及时回复。

① 获取网页源代码

② 解析网页并提取数据字段

③ 获取股吧总页数

基于解析的网页直接find_all也是可以的

上述代码基本的字段已经可以实现抓取了，结果如下：

Eastmoney-Spyder：股吧网页数据抓取分析（一）可以看到，我这里的时间多了年份，这是由于研究的需要，在基于一次抓取的结果上，进行二次抓取标题所带的链接网页获得的，有关二次抓取的内容，我们再下一节再和大家分享。

Eastmoney-Spyder：股吧网页数据抓取分析（一）

在抓取过程中，我还遇到了很多问题诸如： ① 部分帖子结构不同或存在冗余该如何处理（问董秘等链接） ② 抓取过程中ip被屏蔽自动跳转页面该如何处理（代理IP池） … … 这些内容在后续章节中再和大家分享，下期再见啦！

知乎：南浔Pyer

CSDN：南浔Pyer

个人网站：DL小站

GitHub：LeoWang91

本文地址：http://yejunbin01.xhstdz.com/news/7136.html 物流园资讯网 http://yejunbin01.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新文章

点击排行

• 国际站：SEO Checker诊断工具助力商家诊断详情	• 【富蕴网站优化】在网站优化中有哪些常用的网站
• 公众号简单爬虫--把公众号文章全部转载到网站（	• 1.【typecho】个人博客安装—使用群晖演示
• SEO优化攻略，揭秘网站排名提升与流量最大化技	• 【HMNOTE搜狗手机输入法下载】小米HMNOTE搜狗手
• vivo S19 Pro：全焦段人像拍照的5G游戏续航新宠	• 12月12日，星期四, 每天60秒读懂全世界！
• 刚子扯谈：网站运营在左技术在右真TM扯	• 做seo营销网站／百度惠生活商家入驻