首页 > 名博 > 正文

自己搭建ip代理池

最近工作中遇到一个项目,需要处理一些术语的标准化,需要对一个现有网站进行爬虫得到我们想要的结果。对网站简单分析下,就开始爬了,第一次处理了一万多数据,顺利完成,但后来又有需求,处理3万多数据,接到任务后接着爬,但爬到一半发现请求的返回的状态码全是403,知道被封ip了。为了完成任务,咱也只能想办法了,就准备使用ip代理池,但现有的一些免费ip质量不是太好,就想办法收集了一些提供免费ip的网站,定时从这些网站收集,这样在数量上就有一些优势了,但如果需要大量的代理ip,还是需要购买的。

现在这个项目放到了我的github上,github地址。或者复制链接https://github.com/pangxiaobin/proxy_ip_pool

这个项目主要使用了Django,requests 实现。具体使用方法可参考github中的readme。

可以访问http://47.102.205.85:9000/查看示例,里面只有测试数据,切勿大量访问,渣渣服务器。


网友评论

验证码 换一张
取 消
暂无评论...
为您推荐
  • 相关阅读
  • 业界资讯
  • 手机通讯
  • 电脑办公
  • 新奇数码
  • 软件游戏
  • 科学探索