python爬虫
今天想做一个微博爬个人页面的工具,满足一些不可告人的秘密。那么首先就要做那件必做之事!模拟登陆……
代码是参考了:
我对代码进行了优化,重构成了Python 3.6 版本,并且加入了大量注释方便大家学习。
PC 登录新浪微博时, 在客户端用js预先对用户名、密码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。 这样, 就不能用通常的那种简单方法来模拟POST 登录( 比如 人人网 )。
微博自动登录
1.
在提交POST请求之前, 需要GET 获取两个参数。
地址是:
)
得到的数据中有 servertime 和 nonce 的值, 是随机的,其他值貌似没什么用。
python 爬虫
2.
通过httpfox 观察POST 的数据, 参数较复杂,其中 “su" 是加密后的username, sp 是加密后的password。servertime 和 nonce 是上一步得到的。其他参数是不变的。
username 经过了BASE64 计算:
username = ba( urllib.quote(username) )[:-1]password 经过了三次SHA1 加密, 且其中加入了 servertime 和 nonce 的值来干扰。
即: 两次SHA1加密后, 将结果加上 servertime 和 nonce 的值, 再SHA1 算一次。
python爬虫
3.
将参数组织好, POST请求。 这之后还没有登录成功。
POST后得到的内容中包含一句:
loca("http://weibo.com/ajaxlogin.php?framelogin=1&callback=;retcode=101&reason=%B5%C7%C2%BC%C3%FB%BB%F2%C3%DC%C2%EB%B4%ED%CE%F3")这是登录失败时的结果, 登录成功后结果与之类似, 不过retcode 的值是0 。
接下来再请求这个URL,这样就成功登录到微博了。
记得要提前build 缓存。
爬虫 微博登陆
后台私信我:模拟微博登陆,获取整套微博登陆代码。