导图社区 LinkedIn爬虫实现路径
网页进入:登录网页(个人账号登录);API接口进入(需要进行一系列复杂且不懂的申请操作,且每次爬的数据量有限);虚拟网址登入,用requests的Session维持登录状态
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
LinkedIn爬虫项目分析
一、核心目标:批量爬取符合关键字检索条件的候选人,以结构化的数据格式下载到本地,并通过NLP、可视化等技术处理,实现人才的高效筛选。
二、网站分析
1、登录后界面包含:个人信息简介、发动态、朋友动态、领英资讯、推荐关注等模块
2、关键字搜索
3度人脉之外,无法获取姓名,以及主页信息
3度人脉之内,可访问主页,包含职位名称,个人简介,工作经历、教育经历、技能认可、行业知识
高级筛选:在关键字搜索结果基础上,再进行高级筛选,包括:地点、目前就职、曾经就职、学校、行业、档案语言、服务分类等
3、URL分析:https://www.linkedin.com/in/容娟-刘-89479bb0
突破思路:在3度人脉内的候选人,可以通过个人ID来定位到个人主页,从而爬取相关信息
三、爬虫策略
1、尽可能有多的3度内人脉,以便爬取详情页
策略1:扩充自身人脉,或者采用人脉广的账号爬取
策略2:开通领英会员,1k/月,可能解锁全部人脉,还会赠送招聘相关的功能
2、找到个人ID所在位置,批量获取,后循环爬取主页信息
解决方案:xpath:/html/body/div[6]/div[3]/div/div[1]/div/div[1]/main/div/div/div[2]/ul/li[1]/div/div/div[2]/div[1]/div/div[1]/span/div/span[1]/span/a
3、伪装请求头,带参数(翻页)、cookies、动态IP
多条件搜索——循环翻页获取3度内人脉主页URL,并存储本地——循环读取URL,抓取主页信息,并存储本地——NLP处理,可视化实现高效筛选