您的位置首页 > 数码极客

[下拉加载页面如何爬取]手机如何自动下拉页面

鲁达发布于 2023-07-05

前言：

本文主要介绍的是利用python爬取京东商城的方法，文中介绍的非常详细，下面话不多说了，来看看详细的介绍吧。

主要工具

scrapy
BeautifulSoup
requests

分析步骤

1、打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中，如下图：

3、接着我们打开网页源码就会发现其实网页源码只有前30条的数据，后面30条的数据找不到，因此这里就会想到ajax，一种异步加载的方式，于是我们就要开始抓包了，我们打开chrome按F12，点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包，如下图：

4、从上面可以找到请求的url，发现有很长的一大段，我们试着去掉一些看看可不可以打开，简化之后的：

这里的showitems是裤子的id,page是翻页的，可以看出来我们只需要改动两处就可以打开不同的网页了，这里的page很好找，你会发现一个很好玩的事情，就是主网页的page是奇数，但是异步加载的网页中的page是偶数，因此这里只要填上偶数就可以了，但是填奇数也是可以访问的。这里的show_items就是id了，我们可以在页面的源码中找到，通过查找可以看到id在li标签的data-pid中，详情请看下图：

上面我们知道怎样找参数了，现在就可以撸代码了

代码讲解：

1、首先我们要获取网页的源码，这里我用的requests库，安装方法为pip install requests，代码如下:

2、根据上面的分析可以知道，第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下：

3、下面就是获取前30张图片的url了，也就是主网页上的图片，其中一个问题是img标签的属性并不是一样的，也就是源码中的img中不都是src属性，一开始已经加载出来的图片就是src属性，但是没有加载出来的图片是data-lazy-img，因此在解析页面的时候要加上讨论。

代码如下：

前三十张图片找到了，现在开始找后三十张图片了，当然是要请求那个异步加载的url，前面已经把需要的参数给找到了，下面就好办了，直接贴代码：

4、通过上面就可以爬取了，但是还是要考虑速度的问题，这里我用了多线程，直接每一页面开启一个线程，速度还是可以的，感觉这个速度还是可以的，几分钟解决问题，总共爬取了100个网页,这里的存储方式是mysql数据库存储的，要用发哦MySQLdb这个库，详情自己百度。想要的源码的朋友可以在后台私信我！

以上就是本文的全部内容啦！

最后多说一句，小编是一名python开发工程师，这里有我自己整理了一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编，并在后台私信小编：“07”即可领取。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作，旨在以深度学习研究为目的传播信息知识，内容观点与本网站无关，反馈举报请点击此处；
2.仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告，请读者放心使用！

责任编辑: 鲁达

“下拉加载页面如何爬取,手机如何自动下拉页面,下拉加载如何实现,笔记本如何下拉页面,mac如何下拉页面”边界阅读