在从事模型验证和数据分析的研究中,我们经常需要mock一些数据,但是这些mock数据离真实业务数据还是有一些区别的,所以我们可以用一些公开的真实数据集网站数据。

1.GitHub—Awesome Public Datasets

home.shtml

基于百度的用户行为数据,覆盖面较广,支持以API形式调取,可用于分析行业热度等。

艾瑞数据网站除了定期发布互联网报告外,还涵盖了互联网细分行业数据,可作为百度指数的补充。

搜数网

index.do

行业分布比较广,可作为国家统计局数据的补充。

韬问

Kaggle是2010年创立的数据挖掘线上竞赛平台。作为数据挖掘爱好者的聚集地,不光可以通过竞赛提升算法及代码能力,运气好的话还可以获得奖金。除此之外,网站上还有很多开源数据,可用于日常模型训练,例如:大家耳熟能详的“泰坦尼克号生存预测数据”等。

阿里天池

home/

同Kaggle类似,背靠阿里的大数据竞赛平台,也是国内算法大佬的聚集地,开源数据可直接下载应用。

DataCastle

这是一款免费的数据采集工具,而且没有功能限制,几乎所有网站都能采集,最大的特点是上手快,免费采集几万条数据没压力,当然也有付费增值服务可选。

QuickRecon

QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统

授权协议: GPLv3

开发语言: Python

操作系统: Windows Linux

擅长:查找子域名名称、收集电子邮件地址并寻找人际关系等功能

Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

授权协议: BSD

开发语言: Python

操作系统: 跨平台

github源代码

擅长:Twisted的异步处理框架,文档齐全

四、地图数据源

地图的美观程度直接影响业务数据的展现。当然最重要的还是里面的开源数据。常见的开源的数据源有:

1.OSGeo

( )

OSGeo中国中心的使命是支持开源地理信息软件和遥感软件的开发以及推动其更广泛的应用,尤其是帮助中国地区的用户和开发者。涉及生态领域、地理、气候资源较多。

2.ArcGIS

( pages/open-data)

OpenStreetMap

http://www.openstreetmap.org

是一款知名的开源地图数据库,可提供相关地图信息资源的下载服务。用户可通过多种方式下载 “.osm”,".osm.pbf"等格式的地图文件,通过解析手段可以获取想要的路网数据,比如道路拓扑和道路级车道信息。

开源矢量数据下载网站

https://www.gadm.org/data.html

世界各国国家行政边界矢量图,目前地图还在完善中,大家可以自行使用验证,并提出反馈意见