据《华尔街日报》报道,百度公司发布消息称,它取得了近来备受关注的人工智能基准测试的全球最好成绩。这归功于百度研发的秘密武器: Minwa 超级计算机。
Minwa 超级计算机通过扫描 ImageNet 取得了这一成绩,这是一个超过百万张图片的数据库,需要将其分类到1000个不同的类别里面。这意味着计算机需要学习法国面包和烤肉卷之间的区别,更棘手的是,甚至还要能区分来克兰小猎犬和猎狐犬之间的不同!(百度的 Minwa 包含36个服务器节点,每个节点由2个六核英特尔Xeon E5-2620处理器和4个NVIDIA Tesla K40m GPU构成。Minwa超级电脑有1.7TB设备内存和6.9TB主内存,今年初它在ImageNet测试中的错误率为5.98%。)
在五年前,计算机在这方面想要超越人类似乎还很遥远,但是最近几个月以来,来自微软、谷歌,以及现在的百度的计算机已经能做的比人更好了。
通过练习,人类能正确识别除了大约 5% 之外的所有 ImageNet 图片。而现在,微软已经取得了 4.94% 的错误率的成绩,谷歌达到了 4.8%,百度则表示它将错误率降到了 4.58%!
百度和其它公司通过该测试所用的深度学习算法最近才从学术界飞跃到硅谷,但是它们已经开始在我们的日常生活中产生了影响。
两年前,谷歌使用深度学习来大幅提升 Android 手机的语音识别系统。而百度则在使用一个更大的超级计算机来分析14000小时的语音数据,以提升它的中英文语音识别能力。
“我对整个社区在计算机视觉方面取得的进展感到非常兴奋!” 百度首席科学家吴恩达说,“计算机能如此好的理解图像,不像一年前,它能做更多的事情了!”。
在未来的18个月,百度计划打造一个更大的、计算能力可达 7Pflop/s 的超级计算机!虽然这比不上世界上最顶级的超级计算机,但是依然能够排进全球前十。
深度学习站在了这项发展潮流的巅峰,越来越多的财大气粗的公司们雇佣顶尖的人工智能专家、积累庞大的数据、然后用大量的计算机资源来分析它们。
“有趣的是,处理 ImageNet 图像排名前三的队伍无一例外的都是具有大量计算机资源的大型技术公司,”吴恩达说。他的公司设计这个超级计算机的技术来自中国及其硅谷实验室建造 Minwa 的经验,他补充道。
来自 Facebook 的 Yann LeCun 领导着类似的团队,他说他的公司也在部署大型计算资源,不过他没有提到 Facebook 的计算机系统规模大小。
对于深度计算方面的能力, 谷歌、微软和百度把 ImageNet 测试当做一个“基准测试”,Yann LeCun 说。人们越来越关注更大的数据集和更有挑战性的任务,比如,目标检测和定位等。
更新(来自:http://tech.sina.com.cn/it/2015-06-05/doc-icrvvrak2731186.shtml ):
人工智能测试领域刚刚曝出了第一起作弊丑闻。上月,中国搜索引擎公司百度宣布其图片识别软件在精确度标准化测试中领先于谷歌。但本周二,该公司承诺是通过违反测试规则实现的这一成绩。
负责维护该测试的学术专家表示,这导致百度之前的声明毫无意义。作为该项目的负责人,百度研究员Ren Wu已经公开道歉,并表示该公司正在评估结果。百度也对该软件的技术论文进行了修订。
目前并不清楚此举是个人行为还是整个团队所为,但一家拥有数十亿美元收入的科技公司为什么要在这样一次测试中作弊呢?
百度、谷歌、Facebook等大型科技公司最近几年都投入巨资组建研发团队,专门研究深度学习技术,他们开发的机器学习软件已经在语音和图像识别领域实现了重大进展。这些公司都在不遗余力地聘请这个小领域的顶尖专家,经常会相互挖角。虽然学术界目前的人工智能标准测试数量不多,但却可以帮助这些研究团队与其他团队的成就进行对比,并向公众展开宣传。
百度通过作弊获得了不公平的优势。要进行ImageNet Challenge测试,首先需要用150万张标准图片对其进行训练,然后将代码提交给ImageNet Challenge服务器,针对这些软件之前没有见过的10万张“验证”图片进行测试。
按照规定,每周只能对代码进行两次测试,因为最终的结果包含概率因素。
百度承认,该公司使用多个电子邮件帐号在短短6个月的测试期内对其代码展开了大约200次测试——超过规定测试数量的4倍。
艾伦人工智能学院CEO表示,百度此举相当于购买了多张彩票。“如果你一周购买2张彩票,你大概有一个中奖概率。但如果你一周买200张彩票,概率就会增加。”他说。这样一来,用略有不同的代码展开多次测试,便可帮助研究团队针对一组独特的验证图片进行优化。
在这种测试中,很小的优势也会产生巨大的不同。百度曾经表示,该公司的错误率仅为4.58%,击败了谷歌3月的4.82%。但一些专家指出,这么小的领先差距在这项测试中变得越来越没有意义。但百度和其他公司仍在努力吹嘘自己的结果,甚至不惜违反规则,足以表明在机器学习领域获得领先优势对他们而言的确意义非凡。
已曝光作弊。