全球开发数据源(转)

☝️源地址☝️

开放数据源(一),全球地理、自然、经济数据等。

  • 世界银行,数据网站:
  • gapminder,编译数据源,包括世界卫生组织和世界银行覆盖经济、医疗和社会统计数据。
  • 美国中央情报局,世界概况,包含 267 个国家的历史信息、人口、经济、政府、基设施和军事等信息。
  • 国家气候数据中心,巨大的环境、气象和气候数据集来自美国国家气候数据中心。世界上最大的气象数据的归档。
  • OpenStreetMap,全球范围的免费地图数据,每周动态更新。
  • 亚马逊网络服务公共数据集,巨大的公共数据资源,包括 1000 基因组计划,试图构建人类遗传信息的最全面的数据库和 NASA 的地球的卫星图像的数据库。
  • 谷歌趋势,统计搜索量(搜索)总额的比例对于任何给定的期限,自 2004 年以来。
  • Facebook Graph 虽然大部分的信息用户的 Facebook 的个人资料是私人的,很多不是——Facebook 提供图形 API 的方式查询大量的信息,其用户乐于分享与世界(或无法隐藏,因为他们没有了隐私设置工作)。
  • DBPedia,维基百科是由数百万块的数据,在每个主题在阳光下结构化和非结构化。DBPedia 是一个雄心勃勃的项目目录,并创建一个公共、自由可分配的数据库允许任何人来分析这些数据。
  • 社交媒体数据,Topsy 公共微博提供了一个可搜索的数据库 2006 年以及几个工具来分析对话。
  • Likebutton,矿山 Facebook 的公共数据——在全球范围内,从您自己的网络给人们”喜欢”的概述。
  • 纽约时报,索引归档的新闻文章回到 1851 年。
  • 开放数据库,community-compiled 数据库结构化数据的人,地方和事情,与超过 4500 万个条目。
  • 百万歌曲数据集,元数据超过一百万首歌曲和乐曲,亚马逊网络服务的一部分。
  • 欧盟开放数据门户,基于来自欧盟机构的数据。
  • SDMX,欧洲央行,
  • 美联储
  • 谷歌财经,40 年的股票市场数据,实时更新。
  • 金融量化:pydatastream
  • 中国金融,TuShare
  • NASDAQ Data Store:提供市场数据。
  • 美国、欧盟、加拿大、CKAN 以及其他的公开政府数据
  • 英国,英国政府的数据,其中包括英国国家参考书目元数据(自 1950 年以来英国所有书籍和刊物)。
  • Google Books ngram,搜索和分析全文的数以百万计的图书数字化,作为谷歌图书项目的一部分。
  • 美国联邦政府数据网站, 美国政府承诺可以免费在线所有政府数据,第一阶段已有各种数据。
  • 美国人口普查局,丰富对美国公民的生活人口地理数据和教育的信息。
  • Healthdata.gov,125 年的美国医疗数据包括 claim-level 医疗数据、流行病学和人口统计数据。
  • 国民健康和社会保健信息中心,来自英国的国家卫生服务的健康数据集。

开放数据源(二),科研、论文,生物、网址、机器学习等。

  • Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
  • Common crawl:建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊 s3bucket 中,请求者可能花费一些钱来访问它。
  • EDRM File Formats Data Set:由 381 个文件夹 200 种文件格式组成。
  • Apache Mahout TLP:项目创建一个可扩展的机器学习算法。Mahout 有许多免费的和付费的语料库语料。
  • StatLib,卡内基梅隆大学数据档案。
  • STATOO Datasets part 1 和 STATOO Datasets part 2,Time Series Data Library。
  • Visual Analytics Benchmark Repository。
  • UCI KDD Database Repository:适用于机器学习和知识发现研究的大数据集。
  • UCI Machine Learning Repository.

  • UCR Time Series Data Archive:提供数据集、论文、链接和代码。

  • EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML 和 PST。
  • ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从 2009 年 1 月到 2 月间收集的大约 10 亿个网页,包含 10 种语言。资料库被若干 TREC 会议的追踪检测使用。
  • DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz 是互联网搜索引擎的一个主要来源。
  • theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
  • Project Gutenberg:提供超过 36000 免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
  • Million song data set:与 tracks 和艺术家有关的数据。
  • AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入 AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
  • GeoDa Center:地理和空间数据。

  • Bioassay data:研究文章”生物测定数据的虚拟筛选”,由 Amanda Schierz 编写,有 21 个生物测定数据集(活性/非生理活性成分),可以下载。

  • Bitly 1.usa.gov data:匿名点击链接。
  • Canada Open Data:有许多政府和地理空间的数据集的试点项目。
  • Causality Workbench:数据存储库。
  • Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。

  • Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

  • DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
  • Datamob:可以很好利用的公开数据。
  • DataSF.org:可向 City & County of San Francisco, CA.购买的数据集信息交流中心。
  • DataFerrett:一个用来访问和使用 The Data Web 的数据挖掘工具,许多网上美国政务数据集的集合。
  • EconData:大量经济学的时间序列,由许多美国政府机构编制。
  • Enron Email Dataset:来自大约 150 个用户的数据,这些用户大多数是安然公司高级管理人员。
  • Europeana Data:包含 2000 万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
  • Europeana Data:FEDSTATS:一个美国统计资料的综合资源以及更多。
  • FIMI repository for frequent itemset mining:工具和数据集。
  • Financial Data Finder at OSU:大型财务数据集目录。
  • GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为”生命、宇宙和一切的大数据历史”。
  • GEO (GEO Gene Expression Omnibus):一个支持 MIAME 兼容数据提交的基因表达/分子丰度信息库,用于基因表达数据的浏览,查询和检索。
  • Google ngrams datasets:来自数 Google 扫描的百万书籍文本。
  • Grain Market Research:财务数据,包括股票、期货等。
  • Hilary Mason research-quality Big Data sets: 收集许多文本和图片数据集.

  • HitCompanies Datasets:HitCompanies 随机取样的 1 万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  • ICWSM-2009 dataset:包含 2008 年 8 月 1 日到 10 月 1 日之间的 4400 万个博文。
  • Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
  • Investor Links:包含财物数据。
  • KDD Cup center:数据、工作表和结果。
  • Kevin Chai list of datasets:文本、SNA 和其他领域。
  • KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
  • Linking Open Data 工程,免费向所有人提供数据。
  • MIT Cancer Genomics gene expression datasets and publications:来自麻省理工 Whitehead Center 用于基因组研究。
  • ML Data:欧盟 Pascal2 网络数据储存库。
  • National Government Statistical Web Sites:来自大约 70 个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
  • National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
  • Open Data Census:评估世界各地的开放数据的状态。
  • OpenData from Socrata:允许访问超过 10000 个数据集,包括商业、教育、政府和娱乐。
  • Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。
  • Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。
  • Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

  • qunb:一个用来发现和可视化的数据资料的平台。

  • Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance 的数据
  • SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。
  • Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。
  • SourceForge.net Research Data:包含大约 10 万个项目和超过 100 万注册用户的活动的历史和现状的统计数据的项目管理网站。
  • Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。
  • Wolfram Alpha disease and patient level dat.

  • Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。

  • Yelp Academic Dataset:30 家大学的 250 个最接近商业的所有数据和评论,为学生和学者来探讨和研究。

开放数据源(三),中国,经济为主。

开放数据源(四),遥感、地理信息

Original: https://www.cnblogs.com/morning-start/p/16091980.html
Author: morning-start
Title: 全球开发数据源(转)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/583534/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球