收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
网站限制爬取薪资信息,代理IP来助阵
来源:互联网 作者:admin 时间:2019-03-26 18:00:00

  换工作需要知道该岗位目前市场薪资信息,企业招聘也需要知道各岗位当前薪资福利情况,这些情况是怎么分析出来的呢?这就要用到大数据了,抓取大量的信息,无疑是使用爬取的方法最快的。


  但是呢,网站限制爬取薪资信息,面对这种情况可以使用代理IP来助阵的,就像智连代理的使用,方便快捷。


  实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。


  1.分析网页


  我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。


  可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。


  分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F12,所有的请求的信息都会事无巨细的展现在你面前。


  经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。

  我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和positionAjax.json,它们分别控制当前显示的页面和页面中包含的招聘信息。


  可以看到,我们所需要的信息包含在positionAjax.json的Content->result当中,其中还包含了一些其他参数信息,包括总页面数(totalPageCount),总招聘登记数(totalCount)等相关信息。


  2.发送请求


  知道我们所要抓取的信息在哪里是最为首要的,知道信息位置之后,接下来我们就要考虑如何通过Python来模拟浏览器,获取这些我们所需要的信息。


网站限制爬取薪资信息,代理IP来助阵


  其中比较关键的步骤在于如何仿照浏览器的Post方式,来包装我们自己的请求。


  request包含的参数包括所要抓取的网页url,以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)


  包装完毕之后,就可以像浏览器一样访问拉勾网,并获得页面数据了。


  3.抓取数据


  获得页面信息之后,我们就可以开始爬虫数据中最主要的步骤:抓取数据。


  抓取数据的方式有很多,像正则表达式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况,使用其中一个,又或多个结合使用。


网站限制爬取薪资信息,代理IP来助阵


  4.信息存储


  获得原始数据之后,为了进一步的整理与分析,我们有结构有组织的将抓取到的数据存储到excel中,方便进行数据的可视化处理。


网站限制爬取薪资信息,代理IP来助阵


  这是使用xlsxwriter存储的数据,没有问题,可以正常使用。到从为止,一个抓取拉勾网招聘信息的小爬虫就诞生了。


网站限制爬取薪资信息,代理IP来助阵


  通过实战,并借用代理IP,很容易就能获取到薪资信息,可以进行数据的分析之后,拿到当前的岗位薪资信息的,这样可以帮助我们快速了解岗位的市场行情噢。


推荐阅读
  • 10 2019-09
    如何选择高质量的爬虫代理IP?

    如何选择高质量的爬虫代理IP?随着爬虫大数据的发展,许多用户对代理IP​的需求量越来越多,对代理IP的质量要求也越来越高,市面上也随之浮现了许多代理IP服务供应商,面对如此多的代理商

  • 04 2018-12
    为什么使用代理ip还被封?是软件不好用还是个人行为导致?

    随着互联网的发展,越来越多的互联网工作者需要使用代理IP切换IP,以实现突破IP限制。比如网络推广、注册、流量、投票、跑号、游戏或者大数据爬取等其他业务,都需要用到大量IP...

  • 07 2019-06
    代理ip是开游戏工作室的条件之一!

    游戏工作室门槛高吗?也就是几台电脑的事儿,门槛真的不高,任何人都有这个前期能力。但之后的事儿就没有想象般的那么容易了,有很多朋友承受住了辅助作者跑路、代理坑人、游戏封号等

  • 12 2018-12
    如何设计代理IP池?代理IP池设计和维护方法

    现在网络爬虫,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。如果能够...

  • 15 2018-12
    怎么把新网站做到首页,最快多久可以优化到首页

    一个网站从搭建到排名首页,需要花不少的时间,如果优化工作没有做好,所花的时间会更长。那么怎么把新网站做到首页?有什么技巧呢?

  • 10 2019-01
    爬虫怎么应对网页更新问题

    互联网的数据是不断变化的,如果爬虫想要获取到实时的数据,也需要进行更新,那么爬虫怎么应对网页更新问题呢?如何更新早先抓取下载的页面?小编为大家介绍一下爬虫是如何应对的: