-
马修·辛德曼:谷歌政体极其后果
关键字: 谷歌搜索引擎谷歌政体网络技术数字民主的迷思1.创建分别包含200个站点的12张列表,这些站点是在各种政治范畴中排名最高的“种子站点”。我们选择了6个范畴;在每一范畴中,一张列表取自谷歌搜索引擎的结果,另一张列表取自雅虎目录服务。
2.建立许多网络机器人程序从这200个站点出发去抓取信息,依次沿着每一个链接,抓取深度为三层链接。每一次抓取,要求下载大约25万个HTML网页,或者说在所有的12次抓取中下载了大约三百万的网页。
3.使用支持向量机(SVM)算法对这些已下载的网页分类(classify),以确定是否新遇见的网页与已给定的范畴相关——例如,在抓取中发现的一个远离枪支管制站点的网页,是否也关注枪支管制。那些确实隶属于某一具体范畴的网页,就被归类为“阳性(positive)”。
4.对于12次抓取中的每一次,分析其阳性站点集内那些链入链接的分布状况。
最终有六个范畴的网站被选中:这些站点涉及堕胎、枪支管制、死刑、美国国会、美国总统以及兼容性的“一般政治”的范畴。让人类程序员(human coders)对这些已下载的网页进行分类显然是不可行的。即使一个程序员可以每小时分类识别120个网站,要对300万网页分类,也会需要一个人每天8小时地工作十年。人工判别(categorization)还会产生偏见和主观性的种种问题。
为解决这种困难,我们利用许多支持向量机(SVMs)来自动对这些站点分类。本书附录描述了SVMs的技术操作。SVM分类器对相关联的网页给出了可靠的差别;而最重要的是,人工编码(human coding,下面会讨论)会产生些错误的阳性归类。
种子网站的选择显然是关键性的环节。不仅这些站点集决定了网络抓取的起点,进而决定被下载和分析的网页范围,而且这些站点也用来训练SVMs学会识别相关联的内容。一开始我们就担心人工分类的(human-categorized)内容和由搜索引擎返回的机器分类的machine-categorized)内容之间的可能偏差。因此,在每一范畴下面,我们既分析由谷歌产生的种子站点集,也分析来自人工分类的雅虎目录服务的那些种子站点集。最终,谷歌和雅虎的种子站点集导致同样的结论。
结果
所考察的六个政治话题相互非常不同,我们的研究设计也引入了许多具备潜在异质性(potential heterogeneity)的来源。从而,在我们的这些结果中,那种一致性的水平就格外令人震惊。所有的12次抓取都显示,这些网站群落有着相似的组织原则和相似的链入链接分布状况。
首先,让我们考察这一项目的涉及范围。表1列出了所下载的网页数量以及SVM分类的结果。抓取的规模非常之大,平均每次大概是25万的网页。SVM阳性集合的规模根据主题的不同而变化;关注具体政治问题的群落,比那些关注总统或美国国会的群落要小。而在这些大量被抓取的网页之中,只有一小部分网页与已给定的范畴相关。
表1表明,SVM分类器是优秀的但并非完美。对五百个随机抽取的阳性网站进行人工编码(human coding)发现,只在其中9个地方人类程序员(human coder)将网页看作与问题域不相关。同样,在阴性集合中只有少数的站点看起来是被归错了类。[6]不过,有较大一部分站点,由于靠近SVM的判定边界(decision boundary),因而被归类为“不确定”。SVM对之有所犹豫的这些站点,占到阳性集合规模的7%-25%。人工编码表明,这些站点中的大多数应该包含在阳性集合内。对包含在阳性集合内的不确定站点进行二次分析,没有发现与下述详列的结果有根本的不同。
表1 网页下载量及SVM分类结果
这张表显示了我们分析过程中所抓取的网络版图(Web graph)的规模,以及SVM分类器判定为阳性的站点的数量。第一栏列出了所下载的网页数,第二栏和第三栏分别列出了被SVM判定为拥有与种子网页密切相关之内容的页面的数量,以及SVM所犹豫不决的页面的数量。
在某些情形下,谷歌与雅虎的种子站点集非常不同。因此最开始还有些担心,在谷歌与雅虎那里分别被辩识出的网页群落,可能没法直接相互比较。但表2显示了分别来自雅虎和谷歌抓取的那些阳性集合之间的大量重合,则着实有助于减轻这种担心。它表明雅虎和谷歌抓取所探测的是同样的一些群落,清晰展示了互联网的狭窄直径。阳性集合中的大多数页面都是鲜为人知的,只获得极少数的链入链接。只有一个超级链接路径的那些网页,在雅虎与谷歌结果中拥有最少的重合。而对于那些被密集链接的网页,雅虎和谷歌结果之间几乎是完全重合的。
除去一个例外,在所有研究范畴之下,使用这些方法收集到的网页都在10000到22000之间(表2)。既然网络是如此巨大,那么这些网页可能只是涉及这些话题的所有页面中的一个极小部分。不过,比起这些切题的网页群落(topical communities)的规模,更令人感兴趣的是它们相互关联起来的方式。表3对通向这些相关网页的链接结构给出了概览。
表2 来自雅虎和谷歌抓取的阳性集之间的重合
这张表给出了就特定政治话题而言,由雅虎种子集所引发的抓取和由前200个谷歌搜索结果所引发的抓取之间的重合。这一全局性的重合意味深长,对此数据的进一步考察表明,对于每一范畴之下那些最为密集被链接的页面而言,这种重合都几乎是完全的。
表3 SVM阳性集内的那些站点的链接数
这张表给出了SVM阳性集内那些站点的链接数,既有从集合外部来的链接,也有内部一个阳性页面到另一阳性页面的链接。请注意在大部分情形中,来自其它阳性页面的链接提供了链接中的大多数。
总体而言,网络版图(Web graph)是稀稀落落的;随机挑选的一簇网页,将会只有少数几个共同链接。相比之下,我们的阳性页面之间的链接数一律是巨大的。就12次抓取中的10次而言,从一个阳性页面到另一个阳性页面的链接占到了总链接数的一半还多。这使得我们更加确信,我们找出了具有一致性的网页群落(coherent mommunities of pages)。[7]
表4 最受欢迎站点的链接集聚度
这张表展示了,在每一个被探测群落中,最受欢迎的那些站点所拥有之链接的显著的集聚度。第一栏列出了至少包含一个阳性页面的站点的数量;请注意许多网站包含了大量相关联的网页。第二、三、四栏,显示了某个特定范畴下,顶级、前10和前50名站点所拥有的链入链接的百分比。
标签 谷歌-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:小婷
-
嫦娥六号成功发射!开启人类首次月球背面取样之旅 评论 167“美军还没撤,俄军就把这里占了” 评论 198土耳其暂停与以色列所有贸易 评论 131菲律宾称在黄岩岛已越过红线?中方回应 评论 175以色列警告美国:一旦逮捕令下发,我们就对它动手 评论 232最新闻 Hot
-
“这样拆掉中国设备,许多农村就没网了”
-
果然,印度和日本破防了
-
“美军还没撤,俄军就把这里占了”
-
“北约发这种提案,简直疯了”
-
土耳其暂停与以色列所有贸易
-
以色列警告美国:一旦逮捕令下发,我们就对它动手
-
拜登竟称:中俄印日经济“表现不好”,是因为他们“排外”…
-
“白宫‘对华减税派’已被压倒,如今一切为了选举”
-
菲律宾称在黄岩岛已越过红线?中方回应
-
“南方国家赶上美国,杀手锏正是中国电动汽车”
-
马克龙再谈“向乌克兰派兵”
-
涉及俄罗斯,美国又对中企下黑手
-
“美国威胁沙特:保留中国技术,就不帮你发展半导体”
-
德国外长炒作:这两国比我们更能感受到中国“狂风”
-
哥伦比亚要与以色列断交:巴勒斯坦亡了,人类就亡了
-
“这是美国自信心下降的表现”
-