推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

【爬虫】Python实现爬取淘宝商品信息(超详细)

   日期:2024-12-15     移动:http://yejunbin01.xhstdz.com/mobile/quote/84633.html

【更新说明】项目代码已在2024年12月02日19点30进行更新,如有问题可评论或私信与我联系

【爬虫】Python实现爬取淘宝商品信息(超详细)

项目介绍

代码部分

引用第三方库

全局定义

主函数

爬虫主函数代码

搜索“关键词”

翻页函数代码

​编辑

获取商品列表信息代码

完整代码

项目使用ChromeDriver插件,基于Python的第三方库Selenium模拟浏览器运行、PyQuery解析和操作HTML文档,获取淘宝平台中某类商品的详细信息(商品标题、价格、销量、商铺名称、地区、商品详情页链接、商铺链接等,并基于第三方库openpyxl建立、存储于Excel表格中。

【说明】若允许代码出现翻译错误、代码能正常运行但是Excel没有数据等问题,可能是淘宝网页更新了父元素类选择器的缘故,大家可以参照教程检查一下元素是否更新;若网页元素更新,则可参照教程自行修改;【爬虫】教你如何获取淘宝网页父元素类选择器标签(超详细)-CSDN博客

效果预览

 

【第三方库】主要运用到PyQuery、selenium、openpyxl等Python的第三方库;如若缺失,使用pip指令安装即可。

 

【ChromeDriver下载与安装】若运行过程中出现如下问题,可能是ChromeDriver版本与Chrome版本不一致导致,需要对ChromeDriver进行更新。ChromeDriver下载与安装:手把手教你,ChromeDriver下载与安装

输入初始参数

  • 爬取商品的关键词KEYWORD
  • 爬取网页的起始页pageStart
  • 爬取网页的终止页pageEnd
 
 

1、建立Excel表格,并设置第一行(表头

2、调用爬虫主函数Crawer_main,启动爬虫程序

3、输出.xlsx格式文件。

 

(输入)效果预览

1、ChromeDriver服务请求淘宝(https://www.taobao.com)服务,模拟浏览器运行,找到“输入框”输入关键词KEYWORD,并点击“搜索”按键

2、若弹出登录窗口,使用手机“淘宝”APP,扫码登录(如图所示

【注意】抓紧时间完成登录,若出现error,则重新运行代码,尽快登录;超时可能出现error

3、判断PageStart是否为1;若PageStart不为1,跳转至PageStart所在页

4、调用get_goods获取起始页PageStart的商品列表信息

5、调用page_turning翻页进行翻页,并爬取第PageStart+1页到第PageEnd页商品信息。

 

淘宝登录界面示意图

ChromeDriver服务请求淘宝(https://www.taobao.com)服务,模拟浏览器运行,找到“输入框”输入关键词KEYWORD,并点击“搜索”按键。

 
 

1、翻页函数page_turning,搜索并点击“下一页”按键,判断页码是否相等;若页码相等获取该页商品列表信息

2、翻页初始页函数turn_pageStart,找到页码输入框,输入初始页页码,点击“确认”按键跳转至初始页。

 

“下一页”按键示意图

1、滑动页面至页码选择界面(如图所示,待页面所有信息加载完成后,输入数字“1”开始爬取当前页内容

2、pyquery请求HTML页面信息,并进行解析

3、商品详细信息(商品标题、价格、销量、商铺名称、地区、详情页链接、商铺链接等

4、将获取的信息写入字典和Excel表格中

 

淘宝界面页码选择界面示意图

获取商品列表信息示意图

【说明】考虑到浏览器请求数据时间长短不定,代码由“定时延时方式”改为“手动输入方式”以便留足时间等待数据请求完成请求数据期间,可手动滑动淘宝界面,加载商品详情【注意:滑动到页面选择位置即可】加载完成后,输入数字“1”开始爬取当前页商品详情(如下图所示)。

使用视频教程

 

【不足】不足之处,恳请批评指正,我们共同进步

本文地址:http://yejunbin01.xhstdz.com/quote/84633.html    物流园资讯网 http://yejunbin01.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号