chineking / WeiboCrawler / wiki / Home — Bitbucket-技术博客集

chineking / WeiboCrawler / wiki / Home — Bitbucket
编程技术 / houtizong 发布于 3年前 208

chineking / WeiboCrawler / wiki / Home — Bitbucket

WeiboCrawler

WeiboCrawler是一个分布式爬虫程序，主要用来抓取新浪微博（weibo.cn）数据。

为什么不用新浪微博API

首先，新浪微博确实有API可以拿到一个用户数据，但是，一个应用的调用次数也是有限的；另外新浪微博Oauth2.0有过期时间，过段时间（测试的应用只有一天）就去授权会比较麻烦，我希望爬虫是在不需要人为干预的情况下持续的。

安装要求

在分布式情况下运行，抓取到的用户数据是存储在MongoDB中的，所以，首先需要MongoDB的安装，由于爬虫是Python写的，所以需要pymongo。如果安装了setuptools，则可以：
easy_install pymongo

上一篇：动态规划求编辑距离 - 残阳似血的博客

下一篇：PIL应用之生成验证码图片

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接