谷歌搜索神器:Dataset Search数据集搜索了解下be

2018-12-26 10:23栏目:程序开发

  谷歌又给大家开发了新的索引工具,人工智能深度学习浪潮下,数据作为AI的三大驱动要素之一,开发者、AI爱好者总避免不了要用到数据集,针对此种需求,谷歌推出了数据集搜索神器:Dataset Search(测试版)。

  目前,政府机构、科学出版社、研究机构甚至是个人研究者在全世界维护着成千上万的开源数据资源库,包含了数百万个数据集,Dataset Search基于拥有者对文件和数据库的分类方式来查找文件和数据集,这将极大促进开放数据趋势的发展。

  来自谷歌官方的简介:数据集搜索使用户能够查找网上数以千计的存储区中存储的数据集,从而让这些数据集可供大众使用,让人人受益。

  数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

  我们为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。我们还相信,这个项目能够带来下列好处:a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

  比如试用搜一个波士顿教育数据,数据集和索引来源都会标注的一清二楚,每一个数据源都会有简要的介绍,例如更新日期、作者、版权、内容说明、下载链接等:

  还有一个大型官方数据集是美国国家海洋和大气管理局提供的,该数据集包括从位于毗邻美国、阿拉斯加、夏威夷、美国领土和军事基地的下一代雷达(NEXRAD)站收集的第3级天气雷达信息,雷达探测大气降水和风,使科学家能够跟踪和预测天气事件,如雨、冰球、雪、冰雹和龙卷风,以及一些非天气物体,如鸟类和昆虫,大多数站在20世纪90年代中期开始观测,并且大部分记录是连续的,数据的总容量超过 35 PB。

  再比如我们再搜一个“中国人口China Population”:2017年12月,中国人口达到1.391亿人,在最新的报告中,中国的失业率在6月2018下降到3.8%,中国12月份的月度收入为936.5美元,该国的劳动力参与率在12月2017下降到68.9%。

  对比之下,我们大百度的人口信息还停留在2016年国家统计局数据,有些时候差距大概就是差这么一点点:

  Dataset Search方便的一点就是不用到处去找什么数据集下载链接了,谷歌自动为你找到,算是填补了数据集搜索领域的一项空白,比如深度学习视觉领域常用的开源数据集MNIST、Imagenet、COCO、CIFAR、PASCAL VOC等等都能轻松找到相关。

  举个例子,ImageNet之前有Pascal VOC竞赛,刚开始只有20个目标类别,后来ImageNet扩充到1000类目标,数据量也达到百万级,数据规模大了,传统算法准确度就大幅下降,但是大规模的数据集有助于研究者开发更高级的模型来不断提升算法的精度。比如2012年Hinton将CNN模型结合GPU加速应用到ImageNet数据上,其准确率相对于当时最好的传统算法提升了11%,进而到最近年的95%以上,这种算法结果准确性的提升,很大一部分原因也是数据集带来的。

  有观点认为,制约人工智能领域很多重大突破的,并非算法不够先进,而是缺乏高质量数据集,想要开发出最先进的机器学习技术,数据至关重要。对于在业务中将机器学习作为核心技术的初创公司来说,能否获得高质量的训练数据极为关键,虽然很多算法和软件工具都是开源和共享的,但好的数据集通常是专有的,拥有针对特定领域的庞大数据集,能够成为竞争优势的一个重要来源。

  在AI学界,数据集的意义更加直接:没有数据集,就无法展开相应的研究工作,所以在确定研究课题后,最为首要的任务也是获得相应的数据集,比如文字处理、图像分类任务,行为识别、目标检测等数据集,数据集分布越接近真实应用场景,就越有可能对研究工作起到积极的推动作用。