-
马修·辛德曼:谷歌政体极其后果
关键字: 谷歌搜索引擎谷歌政体网络技术数字民主的迷思最后,我们想要了解的是这些链入链接的分布状况。表4的第一栏是每一范畴下的那些至少包含了一个阳性页面的站点的数量。例如,AbortionFacts.com是一个优秀的反堕胎网站,其中包含了许多与堕胎讨论相关的网页。如果我们所感兴趣的是政治信息源的数量,那么将所有AbortionFacts.com上面的页面算作一个单一整体就会更有意义。提供政治信息的那些站点的数量,从定义上来说,必定比网页的总体数量要小。
最重要的结果显示在表4的其它三栏中。此处我们可见,在每次抓取中顶级、前10和前50名站点所拥有的链入链接的百分比。这一总体图景,展示了对一小撮超级成功站点的那种令人吃惊的集聚化的关注。除了一个低异常值,在这些抓取中,最成功的那些站点获得了总链接数——所有单一信息源所拥有的链接总数——的14%-54%。
特别有意味的是第三栏,它显示了每次抓取中前10名站点所拥有的链接百分比。在12种情形中的9种情形下,前10名站点占据了总链接数的一半还多。前50名站点在每一范畴下的站点总数中只占到3%-10%,但在每一情形下它们都占有链入链接的绝大部分。
因此很有理由确信,政治性站点群落在网上体现为赢家通吃的关系网络(winners-take-all networks)。但是这些站点中的链入链接分布由某种幂律来支配么?答案似乎是肯定的。请看下面的图形:图1考察那些涉及美国总统的网站,图2考察那些关注死刑问题的网站。一个由雅虎种子集所生成,另一个由谷歌种子集所生成。
图1
这张图显示关注美国总统的那些站点的链入链接分布状况。两个坐标轴都是对数刻度。请注意这一数据形成了一条直线——这是关于幂律分布的确定无疑的证据。
幂律分布确定无疑的特征是,在坐标轴都是对数(logarithmic)刻度的图像中,数据应该形成一条直线。这正是图1所显示的情况:一种教科书式的幂律分布。一种相似但却不那么精确的模式在图2中显而易见,它更典型地体现了这些被抓取到的站点群落的特征。在此,由数据在双对数(log-log)刻度坐标系上所形成的线条略微向外凸起;随着站点数量增长,线条的倾斜越来越陡峭。关注死刑问题的站点群落在其末梢偏离了幂律分布——尤其在那些最受欢迎的站点中,在那里一种纯粹的幂律分布会产生天文数字的链接。[8]
图2
这张图显示关注死刑问题的那些站点的链入链接分布状况。此处我们再次见到幂律分布的强大证据,尽管相对于被绘制数据有着一种轻微的上凸。将幂律拟合于这些数据,所产生的R2为0.952——在所探测的那些群落中是第二最低值。
表5显示将幂律拟合到(fitting)12次抓取中的每一次所收集的数据上时的结果。在此所选择的模型是简单常见的最小二乘法回归分析(least squares regression)。因变量(dependent variable)是指向一个给定网站的链接数量的对数。例如,如果网站Q有1500个链入链接,那么它取的因变量值就等于ln(1500),或者说7.31。解释变量(explanatory variable)则是拥有至少和网站Q一样多链入链接的那些网站的数目的对数。既然这两个变量之间的幂律关系在双对数刻度坐标系上应该产生一条直线,那么这些对数化(log-transformed)数据的线性回归分析(linear regression)就是一种直接的方法,以测试这种分布规律与这些数据之间的拟合程度。在此语境中的常量,是这一模型对群落中最受欢迎网站所预测的链入链接数的对数。
表5 幂律拟合抓取数据的结果
这张表显示,将幂律拟合到12个被探测群落的结果,方法是对已经取了对数的数据(logged data)进行通常的最小二乘法回归分析。因变量为某个具体网站(例如网站Q)所获得的链入链接数的对数;解释变量则为样本中拥有至少和网站Q一样多链入链接的那些网站的数目的对数。如果幂律遵循K-α形式,那么上面的系数等于-α,即在双对数坐标系中幂律直线的斜率。这里的常量表示,那些最受欢迎的站点被预测获得的链接数的对数。
这一分析显示,除了有几处需要警惕之外,幂定律很好地拟合这些政治群落中的链入链接分布。相比于其它11个被探测的群落,雅虎堕胎群落的拟合度要差一些,但幂律模型所产生的R2值仍然有0.902。[9]对于四五个最成功的网站,这一幂律模型始终预测着比我们在数据中实际所见还要更大数量的链入链接;同时它也略微低估了那些只拥有少数链接的站点的数量。这些偏差,特别是在曲线的上面部分,具有至关重要的意义,因为它们稀释(dilute)了对极少数成功站点的关注集聚度。
然而,即使在两个末稍都存在着异常值,在12个群落中的11个中,幂律模型所产生的R2值却仍然都大于0.95。每一群落的主体数据,都强烈依循着幂律法则,并且如果忽略5个最高的和最低的链接值,通常会产生一个近乎完美的拟合。政治群落中的链入链接分布,为强大的统计学规则所约束。
网站能见度与谷歌政体的出现
网上的站点群落是被幂定律更好地刻画,还是被某些其它类型的极端偏态(extremely skewed)的分布更好地刻画,这显然并不是中心要点。政治学者关心的是,致力于政治表达的那些站点群落中的集聚程度,所以有两点经验是清楚的。首先,无论以什么标准来看,高度可见的站点之数量都很少。网上政治群落似乎有着这样的常规属性,即在链接分布顶端的少数站点获得了比其余站点加在一起还要多的链接。第二,一旦跨出那些由成功站点构成的核心组,相对能见度就以迅速和高度规则的方式下降。站点能见度的衰减不是线性的;毋宁说它遵循的是一种跨越几个数量级的指数函数规则。考虑到种子站点和所探测的群落类型这两个方面的多样性,那么上述这些结果就是令人惊讶地稳固和前后一致的。
还有一点值得强调:即使这些站点被分解为次级群落(subcommunities),幂律结构仍然存在。例如在关于堕胎群落的两次抓取中,支持堕胎的站点在数量上超过反对堕胎的站点,达到3比1的比例。但反对堕胎的那些站点和支持堕胎的那些站点都由幂律所支配。尽管两组站点的斜率并不一样(反对堕胎的站点中有着更高的集聚度),其整体结构仍然聚焦于少数顶端的站点。同样的模式在关注枪支管制和死刑问题的群落中也是显著的,这两个群落中都包含清晰对立着的子群组(subgroups)。因此网上政治群组(political groups)的结构可以设想为具有分形(fractal)性质——群落的子部分(subpart)复制着群落整体上的赢家通吃模式。在此,政治性的内容又一次再现了在互联网其它领域所见的结果(Song,Havlin和Makse 2005;Dill等人2002)。
综合来说,这一章的诸多见解合成为一种我和同事们称之为谷歌政体(Googlearchy)的新理论:密集链接者法则(the rule of the most heavily linked)。基于前面的研究和上述引用数据,这一理论有这样几个主张。
第一,谷歌政体表明,指向一个站点的链接数是站点能见度的最重要决定因素。那些有着许多链入链接的站点,会易于被发现;那些只有少数链入链接的站点,会需要更多的时间与技能才能被发现。在其它条件相等的情况下,有着更多链接的站点会获得更大的流量。
第二,谷歌政体表明,利基优势(niche dominance)是网络生活中的一个普遍规则。对于每一清晰界定的网站群组,组内的一个极小部分会获得绝大部分的链接与绝大部分的流量。群落、子群落以及子子群落,在其集聚程度上可能有所不同;但整体而言,网上站点群落显示出一种俄罗斯嵌套娃娃(Russian-nesting-doll)的结构,在每一层次上都由赢家通吃模式所支配。
第三,谷歌政体表明,这种对链接数的依赖性,会使得利基优势得以自我延续。被密集链接的那些站点将继续吸引更多链接、更多眼球,以及更多用以提升站点内容的资源,而那些只有少数链接的站点则仍然被无视。
标签 谷歌-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:小婷
-
“美军还没撤,俄军就把这里占了” 评论 60土耳其暂停与以色列所有贸易 评论 111菲律宾称在黄岩岛已越过红线?中方回应 评论 159以色列警告美国:一旦逮捕令下发,我们就对它动手 评论 227涉及俄罗斯,美国又对中企下黑手 评论 244最新闻 Hot
-
“美军还没撤,俄军就把这里占了”
-
“北约发这种提案,简直疯了”
-
土耳其暂停与以色列所有贸易
-
以色列警告美国:一旦逮捕令下发,我们就对它动手
-
拜登竟称:中俄印日经济“表现不好”,是因为他们“排外”…
-
“白宫‘对华减税派’已被压倒,如今一切为了选举”
-
菲律宾称在黄岩岛已越过红线?中方回应
-
“南方国家赶上美国,杀手锏正是中国电动汽车”
-
马克龙再谈“向乌克兰派兵”
-
涉及俄罗斯,美国又对中企下黑手
-
“美国威胁沙特:保留中国技术,就不帮你发展半导体”
-
德国外长炒作:这两国比我们更能感受到中国“狂风”
-
哥伦比亚要与以色列断交:巴勒斯坦亡了,人类就亡了
-
“这是美国自信心下降的表现”
-
“相比中俄,美国的内部敌人更危险”
-
他卸任前最后一次重要演讲:新加坡成功完全因为制度优秀
-