-
马修·辛德曼:谷歌政体极其后果
关键字: 谷歌搜索引擎谷歌政体网络技术数字民主的迷思正如这些多样性的学术研究所示,幂律结构可以由非常不同的基础过程所产生。但在每种情形中,幂律分布都会导致极其不均等的结果。想象一个假设的社区,在其中财富根据幂律分布。在光谱的一端,只有一个百万富翁,有10个人拥有至少10万美元,有100人拥有1万美元,有一千人拥有至少1000美元。在光谱的另一端,一百万人共同拥有1美元。在这一假设的社区中,财富的分布与函数K-α成正比,其中α=1。
在网络环境中,研究发现网上资源甚至比上述假设的例子还要远为集聚化,对于链入链接会产生α≈2.1的数值,对于链出链接α≈2.7(Kumar等人1999;Barabási等人2000;Lawrence和Giles 1998; Faloutsos,Faloutsos和Faloutsos 1999 )。[2]少数受欢迎的站点(例如雅虎或者美国在线、谷歌)获得了总链接数中的大部分;不太成功的站点(例如大多数个人网页)几乎没获得任何链接。流量和链接结构一样,遵循着大致同样参数的幂律分布(Huberman等人1998;Adamic和Huberman 2000)。因此,有一小簇网站获得了绝大部分链接,也有一小簇网站获得了绝大部分的在线访客。就这一章的意图而言,揭示这两组站点实为同一组,意义非凡。
我和同事们从两个路径来揭示这一点。在下述部分中,我将阐明为什么我们应该认为,指向一个站点的链接数是一种有效的流量预测者:用户浏览模型和搜索引擎,都将用户送至已积聚了绝大多数链接的那些站点。然后,通过考察链接与流量关系的真实-世界(real-world)数据,我们将验证这一观点。
搜索在线信息
为了访问一个网站,人们首先必须能找到它。已知的那些站点,或者借用线下手段找到的那些站点,可以通过键入URL地址和使用浏览器书签来访问。社会关系网也能在引导用户访问新站点方面发挥作用;电子邮件使得亲朋好友之间很方便地相互推荐网站。
但就用户自身而言,他们只有两种方式来找到之前未知的内容。首先,可借助从已知站点的冲浪离开而发现新内容;其次,也可通过在线搜索工具,例如谷歌或者雅虎的目录服务(directory service)而找到。在这两种情况下,链入链接数都是网页能见度(visibility)的关键决定因素。
链入链接和流量之间的关系通常是简单的:超级链接的存在,就是要带来点击。通向某个网站的超级链接越多,用户连接网站时追踪这些链接的机会就越多。总而言之,通向一个站点的路径越多则流量就越多。
对个别冲浪者真切成立的事情,对于搜索引擎而言则是成倍地成立。第一代搜索引擎,例如Alta Vista,聚焦于关键词密度(keyword density)和具体网页中可见的其它特征。谷歌搜索引擎则是一个强大的颠覆性技术。谷歌的贡献在于采取了更加开阔的视角,利用网站之间的联系来找到最好的内容。谷歌创立者谢尔盖•布林和拉里·佩奇(Sergey Brin and Larry Page,1998)发明了网页排名,这是一种递归算法,使得从其它获得大量链接的站点来获得大量链接的站点,会排名非常靠前(也参见Pandurangan,Raghavan和Upfal 2002)。根本而言,各种站点是在一场人气竞赛中被排名,在此每一个链接就是一票,但是来自其它人气网站的投票要更有份量。[3]
无论搜索引擎还是冲浪行为因此都赋予同一类网页以特权。那些被大量链接了的站点变得引人注目,而大多数其它网站则可能被漠然无视。
到2006年7月为止,谷歌占有了60%的美国搜索引擎市场。[4]这与雅虎搜索的23%、MSN搜索的12%相对照(Tancer 2006)。过去几年中,谷歌持续地从其竞争对手那里拿走市场份额。有人或许会认为,一个不那么集聚化的搜索引擎市场会有助于保障可见内容的多样性。但只要搜索引擎关注的是链接结构,那么以网页排名来显示的人气竞赛动力学,就很难避免。众所周知,HITS算法是对网页排名算法的一个替代,利用“结点(hubs)”和“权威(authorities)”相互加强的结构来排列结果(Kleinberg 1999; Marendy 2001)。克莉丝·丁(Chris Ding)及其同事们(2002)表明,即使HITS方法是在源自网页排名的“搜索引擎光谱的另一端”,它也倾向于将同样一批站点排在前列。事实上,这两种算法——并且任何可能的竞争者——所产出的结果,与仅借助站点所获得的链入数量来排列站点相比,几乎很难有所不同(Ding等人 2002;Tomlin 2003)。(搜索结果方面的相似性将会在后面章节中非常详细地被探讨。)
链入链接与网站流量之间的关系
概而言之:我们知道就网络整体而言,流量和链接都是幂律分布。我们也有理由相信,流量会被引导到那些密集地被链接了的站点。但在实际中链接结构与站点访问之间的关系究竟有多密切?
无论是我们自己还是其它研究者们的分析都表明,这种关联是相当强大的。惠普实验室的拉达·阿达米克提供给我们数据,是关于指向网站的链接以及相应地这些站点所获得的访客数。这些站点访问数据来自某个大型因特网服务提供商(ISP)的一组随机选取的匿名用户。它们包括6000个用户的120000次站点访问;被访问站点的链接数据由Alexa公司收集。
在这些数据中,链入链接数和站点访问数高度关联,相关系数为0.704。指向一个站点的原始链接数的确预测了其大部分流量。结果似乎尤其表明,这一数据也包括了那些广告链接在内;由于在线广告的点击率(click-through rate)众所周知很低,所以广告站点被密集链接但却很少被访问。[5]
在幂律分布中,观察值的极小部分产生了绝大部分的变化幅度(variance)。我们或许以为,移除或忽视位列顶端的那些站点,会弱化这种相关性。对这些数据取方根——因此压缩了最大和最小观察值之间的差异——可削弱(attenuate)链接与流量之间的关系。对数据取方根之后,相关系数降落到0.449。对数据进行分段切割(segmenting)显示了同样结果。若我们从流量来考察只是位例前端的500个站点,这一相关系数轻微上升到0.726。但在没有这500个站点的剩余数据那里,这一相关系数只有0.118。
链接模型因此似乎相当擅长于发现这一小群流量极大的站点。在不太受欢迎的站点中,变化幅度就远要少得多,并且在此链入链接几乎无法告诉我们,一个站点可能获得2位访客还是20位访客。
另外一些人同样指出博客链接与博客流量之间的一种强大联系。某些站点追踪这些在线日志所获得的链接数,并且很多博客使用Sitemeter.com来追踪访客。利用这些数据,克莱·舍基(2004)发现,在博客这里和在上述关于网络整体的数据那里,链接和流量都有着大致一样的相关性。舍基也发现,链接最擅长于预测人气站点的流量。
所有这些让我们回到最初的问题:流量是如何在政治性网站之间分配的?尽管因特网全局性的幂律分布是清楚的,但某些站点子群组(subgroups)也与整体模式明显地有所偏离。在特定类型的站点中,研究者们发现超级链接较少地偏向于几个优势站点(Pennock等人2002)。特别是尤查·班科勒,他从事了大卫·潘诺克(David Pennock)及其同事们的大部分研究,后者(如同我们的研究一样)出自NEC研究实验室。班科勒声称,潘诺克及其同事们的发现支持他的“金发姑娘(Goldilocks)”理论,亦即网上的集聚度是“正好适中的(just right)”。班科勒提出,网上政治内容的集聚程度正好支撑“广泛吸纳和局部过滤”(2006,248)。
尽管如此,需要强调的是,即使在潘诺克及其同事们的研究中,遵循着更加平等主义模式的那些站点群落(communities),都已经是例外而并非常规。那些并不遵循赢家通吃等级制度的群落——例如,那些上市公司的网站和大学的主页——都具有一个共同点:它们寄生于已经存在的、真实世界的社会关系网络。上市公司的雇员们对他们专业市场领域(market niche)中的那些大企业和小公司都很熟悉;大学的学者们既认识教育界的那些哈佛和耶鲁,也认识邻近教育机构中的同行。正如阿尔伯特-拉斯罗·贝拉巴什(Albert -László Barabási)所指出的,群落中这种水平的视野能见度,在网上罕见稀有。
因此还远未确定,政治性网站的那些子类别(subcategories)会和班科勒所预设的一样遵循平等主义。要理解政治站点之间的结构,唯一的方法就是去直接测量它。下一部分提出方法论以精确地实现这一点。
网上政治群落的链接结构
在这一章中,我会调查因特网中这样的部分,即在搜索常见类型的政治信息时普通用户最可能看见的部分。显然,我并不试图去描述每一个在线的政治网站,或者甚至某个类别中的每一个政治网站。我们的目标并不是去克服由互联网之规模所强加的那些限制;而是要展示出这些限制在一般用户可见的站点数量与类型方面所造成的偏向(biases)。
我和同事们所选择的研究设计,得益于大量既有的计算机科学研究。(这一研究的一部分,概述于本书末的附录中。)我们所采取的方法有四个主要步骤:
标签 谷歌-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:小婷
-
嫦娥六号成功发射!开启人类首次月球背面取样之旅 评论 193“美军还没撤,俄军就把这里占了” 评论 202土耳其暂停与以色列所有贸易 评论 134菲律宾称在黄岩岛已越过红线?中方回应 评论 175以色列警告美国:一旦逮捕令下发,我们就对它动手 评论 232最新闻 Hot
-
“这样拆掉中国设备,许多农村就没网了”
-
果然,印度和日本破防了
-
“美军还没撤,俄军就把这里占了”
-
“北约发这种提案,简直疯了”
-
土耳其暂停与以色列所有贸易
-
以色列警告美国:一旦逮捕令下发,我们就对它动手
-
拜登竟称:中俄印日经济“表现不好”,是因为他们“排外”…
-
“白宫‘对华减税派’已被压倒,如今一切为了选举”
-
菲律宾称在黄岩岛已越过红线?中方回应
-
“南方国家赶上美国,杀手锏正是中国电动汽车”
-
马克龙再谈“向乌克兰派兵”
-
涉及俄罗斯,美国又对中企下黑手
-
“美国威胁沙特:保留中国技术,就不帮你发展半导体”
-
德国外长炒作:这两国比我们更能感受到中国“狂风”
-
哥伦比亚要与以色列断交:巴勒斯坦亡了,人类就亡了
-
“这是美国自信心下降的表现”
-