推广 热搜： 行业机械设备杯经纪教师系统参数金蒸汽

Python爬虫经典案例详解：爬取豆瓣电影top250写入Excel表格

日期：2024-11-11 移动：http://yejunbin01.xhstdz.com/mobile/quote/75285.html

find_all('div',"info")，find是查找，find_all就是查找全部，查找什么呢？查找标记名是div并且class属性是info的全部元素，也就是会得到25个这样的元素的集合。

for item in 集合:的含义就是针对集合中的每个元素，循环执行冒号：后面的代码，也就是说，下面的几行代码都是针对每部电影元素(临时叫做item)执行的.

注意，一层层的点下去的方法只适合于获取到每层的第一个元素，比如前面图中我们知道实际有三个span，其他两个英文名、其他译名，但我们只取到第一个。

yearline=item.find('div','bd').p.contents[2].string这句话综合了find_all和.p两种方法，取到了item下面第二个div（class='bd')。

.contents[2]是取得这一行第3个文字小节,content单词是内容的意思，<br>标记将整个p标记内容分成了三段（0段，1段，2段）。

br将contents内容分为三段

所以，yearline=item.find('div','bd').p.contents[2].string这句话得到的是1994 / 美国 / 犯罪剧情这行，但实际上它还包含了很多空格和回车换行符号的。所以我们再使用两个replace替换掉空格和回车。replace是替换的意思，在数据里是表示换行回车。

3. 采集更多电影

上面代码只是帮我们输出第一页25部电影信息，要采集第二页可以把requests请求的链接地址更换一下html=requests.get('https://movie.douban.com/top250?start=25')，每页25个递增，第三页就是start=50，以此类推。

最后把全部250个电影数据反复10遍粘贴到Excel表格就可以了。

当然我们有更好的方法，比如利用for循环自动采集10个页面的数据。

这是把刚才的几乎全部代码放到了新的循环里面for n in range(0,10):里面。range(0,10)就是生成一个0~9的集合。另外，每次requests请求之后我们还添加了start+=25这行，就是每次叠加25的意思，第一次循环start是0，然后加25变25，第二次就是25，然后加25变50，以此类推。

运行这个代码，稍等一下运行结束，就能看到output全部250部电影信息了。

4.生成统计数据

我们把采集到的数据粘贴到Excel文件中，最顶上插入一行【影片名、年份】。

Excel数据

接下来我们利用这些数据研究一下哪些年盛产好电影。

如上图，点击B栏全选这一列。然后选择【插入-数据透视表】

插入数据透视表

然后弹窗中选择【新工作表】，其他保留默认，点确定。

创建数据透视表

然后在右侧把年份拖拽到下面的行中。

拖拽到行

同样再拖拽到值里面。

拖拽到值

然后点击表格里面的【求和项：年份】，再点击【字段设置】，弹窗中选择【计数】，然后确认，就能统计出每个年份上映的电影数量。

很多年份都是1或2，但表格滚动到下面就会看到1994、1995哪些年上映的电影比较多。

选择AB两栏，然后点击【插入-柱形图图标】，就能得到最终的统计图。

最终统计图如下，可以清楚的看到全球最佳电影的年份分布情况，可以得到一些结论，比如上个世纪90年代初开始电影制作水平有了明显的提升，至90年代中期以后，虽然一直处于较高水平，但没有太大幅度的提高了；2010年贡献了最多数量的好电影，此后至今的8年虽然佳片不断（12年除外），但整体走低，2017年观众认可度达到最低点。

全球佳片历史分布

本文地址：http://yejunbin01.xhstdz.com/quote/75285.html 物流园资讯网 http://yejunbin01.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行