您现在的位置是:主页 > 足球资讯网 > 战斗民族如何战胜谷歌,在人工智能领域取得一席之地?

战斗民族如何战胜谷歌,在人工智能领域取得一席之地?

  1. 时间:2017-10-30 19:15

原标题:战斗民族如何战胜谷歌,在人工智能领足球大小球推举域取得一席之地? 编者按:本文来自微信大众号“脑极体”(I

原题目:战役民族如何战胜谷歌,在人工智能范畴获得一席之地?

编者按:本文来自微信公家号“脑极体”(ID:unity007),36氪经受权宣布。

谷歌、百度、微软、Facebook、阿里……咱们先容过良多中美在人工智能领域技术和贸易化方面的进展,包含印度、以色列等等地域也呈现过不少创业团队。

可这里面仿佛不战斗民族俄罗斯什么事。按理说,俄罗斯有在暗斗时期遗留下来的大量科技人才贮备,国度对数学、盘算机等学科的基本教导也足够器重,强盛的黑客团队展现了俄罗斯人资技术上能到达的种种可能。而且天寒地冻的气象,似乎也挺合适在家宅着撸代码的。

放眼俄罗斯、甚至整个东欧地区,在人工智能领域最活泼的可能就是Yandex了。

Yandex:把搜索引擎当做技术发展的根本

Yandex是谁?大多数人第一反映是俄罗斯的“百度”。

没错,在1990年,来自莫斯科大学的两位校友阿卡季·弗洛日和阿卡季·勃可夫斯基独特创立了俄罗斯本人的搜索引擎Yandex。“Yandex”一词俄语含意是“Языковой index”(语言索引),是英语单词“Yet Another indexer”的缩写。象征“另一种搜索引擎”。从名字就能感触到两位开创人对英语世界的对抗。

树立了搜索引擎后,Yandex逐步开端发展为一家全能型的互联网公司:建破门户网站、创建电商平台、与联邦储蓄银行Sberbank协作推广线上支付、代办来自中国的4399小游戏、推出打车平台……基础你能想到的风口,Yandex都没错过。

跟谷歌、百度一样,搜索引擎成了Yandex收集语料数据、着手机器学习技术发展的基本。

战斗民族在人工智能上发展如何?

Yandex在机器学习方面都做了什么?

首先,是时下最火的无人驾驶。据称Yandex正在着手研发无人驾驶须要的计算机视觉、语音识别等等相干的技术。目前Yandex抉择了丰田普锐斯作为原型车,加上英伟达的芯片、Velodyne的雷达传感器,目标向L5级的无人驾驶冲击。

多少个月以前,Yandex还晒出了旗下无人驾驶车的场地测试视频,视频中无人车的表现中规中矩,固然实现了在无人把持的情形下迟缓驾驶,但也会有难以超出阻碍、躲避行人不迭时等情况。

Yandex为自己定下了目的,明年要让丰田普锐斯上公共途径测试,同时还和卡车制作商Kamaz、Daimler达成配合,打算推出无人驾驶的迷你公交车。坦率讲,Yandex对本身无人驾驶技术的表露相称少,俄罗斯本土是否有无人驾驶必备的高精舆图也不得而知,俄罗斯的无人驾驶毕竟会发展成什么样,目前很难下个定论。

除了无人驾驶,Yandex还“有样学样”的推出了语音助手Alice,以此展示自己的语音识别技术。和Siri、谷歌语音助手一样,Alice可以辅助用户衔接出行、购物、支付、消息、音乐等等服务。

Yandex还给Alice加上了基于神经网络的聊天引擎,让Alice可以在社交网络上学习别人的言论,这一技术确实较为进步。在测试中,Alice甚至还学会了一些政治、暴力方面的不当舆论,不外在问题曝光后,这些言论很快被技术协调了。

除了这些以外,Yandex还开源了机器学习框架Catboost、推出了深度神经网络搜寻引擎等等。

分词技术:本土搜索引擎的神器

我们想懂得到的是,Yandex是如何战胜谷歌搜索,还在天然语言方面取得了相对前沿的进展。谜底或者是因为Yandex独有的分词技术。

所谓分词技术,实在是中文搜索引擎中的技术。即搜索引擎针对用户提交查询的关键词串进行的查问处置后依据用户的症结词串用各种匹配方式进行分词的一种技术。

比如在搜索引擎中搜“不知道你在说什么”,就可能分成“不,晓得,你,在,说什么”和“不知道,你,在,说什么”等等很多种分法,再到数据库中进行索引。

如何断定分词的方式有许多种,比如正向最大匹配法,依照中文浏览习惯,从左向右分词;又比如最短门路分词法,把一段话切出的词数起码等等。这些只是比拟传统的办法,当初还可以利用NLP技术,从语义理解长进行分词;利用附近算法,看哪些相邻字符涌现的频率最多,就按照这样的方式进行分词。

如何战胜谷歌?语言壁垒是关键

同样的概念,在Yandex的搜索引擎技术中也存在,只不过不叫分词技术,叫“морфология”这个词可以被懂得为“词形”。

这就要谈到了俄语这门语言的特别性,和中文、英语不同,俄语中词与词之间的关联通常用词形变化表现,于是,统一个名词可以有12个情势,形容词甚至能达到20、30个形式……所以,俄语中会有动名词、形名词这些奇异的货色。

于是,由于俄语的特征,在搜索中十分轻易引起歧义,对搜索的精度请求也更高。比方машиностроительный这个词,在俄语中意为“机械的”。在谷歌搜索中,可以找到与之完整匹配的网页,却很难找到有关机械形容词剩下的二十多个词形变更的网页。

而Yandex搜索引擎技术善于的,偏偏就是要害词的多义剖析和查找。也构成了一些Yandex独有的搜索方法,好比加上“”即可只搜索指定单词,不搜索变形词,也应用指令只搜索形容词状态、动词形态等等。

俄语属于斯拉夫语族内的东斯拉夫语支,也就是说白俄罗斯语、乌克兰语甚至捷克、波兰等等处所的语言都会都相似的语法形态。而Yandex的分词技术在这些语言中的表示也很杰出。

凭借着语言上风上的独占技巧,Yandex克服了谷歌成为了俄罗斯本土最大的搜索引擎。而大批用户应用累积的数据,更让Yandex可以发展机器学习技术对算法进前进一步优化。放到全部NLP技术里也是一样,难怪Yandex能够在语音辨认上取得不小的进展。

机器学习给了这个世界一个相对同等的机遇,就算技术、资金绝对落伍,语言上的优势依然可以建立起壁垒,更别提语料数据这一可贵的数据。有Yandex的案例在先,是不是意味着那些基于泰语、印度语、阿拉伯语等等小语种的搜索引擎,也会在人工智能领域有着独有的优势?

看来除了中美之外,我们还可以把目光放到更远的地方。

上一篇:约基奇21+14拉塞尔12+8 掘金7人上双送篮网两连败 下一篇:没有了