日期:2012-04-05 浏览次数:20564 次
2月底推出无觅网的第一版,到现在已接近10个月了。许久没有更新博客,今日借推出“无觅网络”这产品的机会,和大家交代一下无觅想走的路。
无觅的理念是让互联网变得更聪明、更个性化;去实现该理念的基础是 “1 + 1 > 2″。
1 + 1 为何大于2?
笔者读研的时候第一次接触到推荐系统是来自导师介绍的一篇文章叫“Collaborative Filtering…”,中文翻译成协同过滤。当时的第一反应是诧异,推荐是多给你些你感兴趣的信息,怎么成了过滤了?后来理解到推荐你感兴趣的信息其实就是过滤掉你不感兴趣的信息,只是角度不一样而已。但真正留在笔者脑海里的是协同过滤这背后的意义,很多东西单独存在的时候并没多大用途,合并起来却能产生新的价值,这么简单的道理原来也能应用在算法里。协同过滤法的原理非常简单,就是基于人有相似、物有相近,要推荐书给你,只需找到与你口味相近的人,把他们喜欢看的书而你还没看过的推荐给你,很大可能性你也会喜欢(因为你们口味相近)。两个兴趣相似的读者,各自点了一篇他们感兴趣的文章,这两个点击单独存在可能都已没有用,但合并起来却能给对方推荐。单个神经元(neuron)起不了什么作用,但无数个神经元有意义地连接在一起就成了我们的大脑了。日常生活中类似的例子还有很多。因为协同,所以1+1>2会大于2–这看似简单的逻辑成了无觅的灵魂:从最早的公司名字为“二木”,到协同过滤的推荐算法,再到今日要推出的基于网站互连的无觅网络。
从相关文章插件说起
无觅几个月前研发了一款相关文章插件,深受站长的喜爱,国内很多知名的博客都在使用。相关文章插件至今存在已非常多年了,随便在wordpress上搜一下也有几百个,无觅为何要再重新做一次呢?最根本的原因是插件有其限制性,创新的空间很小(这里的插件指的是一般附属在博客框架如wordpress、zblog等等的插件)。
常见的传统做法
相关文章插件最常见的做法就是依赖文章的标签(Tag),标签一样意味着两篇文章在某程度上的相关性,越多一样的标签就越相关。这很容易理解,算法也很简单,一般对网站服务器不会造成太大的压力。基于类似的想法,有些插件也考虑了文章类别、内容、时间等等,但这些都有一个相同的致命点。
传统做法的弊端
一般插件的算法处理都是在插件端完成,这意味着插件运行的速度得非常快,否则便会影响网页的加载速度,这也是大部分站长不喜欢装太多插件的主要原因,以免影响速度。这么一来,相关文章的创新就给大大的局限了。这里指出一些相关文章可以改善的地方,但因为插件环境受限而难以实现。
1. 引入行为数据将有助读者发现更多好文章。行为数据指的是那些你经常在淘宝或亚马逊看到的“买了这个也买了那个,或看了这个也看那个“的功能。推荐系统里最经典的协同过滤法因需要处理时间比较长,一般插件难以实现。
2. 文章的标签权重可能不一样,一篇文章有多个标签,但可能里面的某个标签才真正代表这篇文章的主题,如能辨别出不同标签的权重将有助找到更相关的文章。
3. 处理图片、视频等繁重的工作通常耗时较久,难以直接在插件端完成。
4. 或许以后的相关文章不再局限于相关文章了,而是推荐,是用户感兴趣的但未必跟正在看的相关。又或许相关文章不再局限于站内的,而可以是互联网上的任何一篇相关的文章。
创新做法:云端相关文章插件
或许有人会认为这种改善可以带来的价值很有限,可能不值得去做。但当初Google开始做搜索的时候,搜索行业也不被看好。为了可以脱离一般插件的受限,无觅采取了云计算的模式:
插件端的主要工作就是发个请求给无觅服务器,然后返回相关文章。这种做法一来不会对网站主的服务器造成任何压力,二来给了无觅很大的空间去创新。无觅可以进行任何复杂的算法去计算相关度,做需时较久的图像视频处理,只需把结果缓存起来就行。国外也有几家采取类似的模式,但对于中文网站文章的相关度总是强差人意。因为有了创新的空间,无觅相关文章插件现在给网站多带去平均10%-20%的页面访问量。
无觅网络
此前开发相关文章插件就是为了“无觅网络”,这是一个我们准备了许久的产品,也是一次大胆的实验,希望各个站长都能来参与这次的实验。
何为无觅网络?
无觅网络是由一个个的网站组成,在这个网络里,网站主可向任意网站请求连接,一旦对方通过,连接在一起的网站将共享资源,创造更多的价值。在现阶段,连接的网站将在相关文章里互相显示各自的内容。无觅会确保文章的相关性、交换流量的公平性、防作弊等一系列的技术问题。
无觅网络有何价值?
读者的角度:阅读不再局限于同一个网站。当读者在某个网站看了”Google打算花60亿收购Groupon”的文章,他有可能接下去想看“Groupon拒绝了Google收购”,但这篇文章却是在另一个网站上。网站与网站没有连接前,读者会受限于单个网站的信息,连接后信息可以互补。
站长的角度:读者量迅速飙升。假设你的网站有1万个读者,跟另一个网站连接,总读者数就变成2万,跟100个连接,总读者数就变成100万。即使里面会有些重叠的读者,但这种网络效应的规模可以大得让人吃惊。
营销的角度:当过小站长的都知道网站刚起步的时候推广起来有多难,做得最多的就是跟其他网站交换友情链接、互访网站、互送IP、到处留自己网站的链接等等。最近看到某个网络营销的论坛竟然能在一两个星期一跃而起成了国内头500名的网站,可见站长对此的需求有多高。网站内容的好坏与站长懂不懂营销没有直接的关系,要站长花这么多精力去做某程度上来讲是一种资源的浪费,过去是因为没有如无觅网络这样的平台,如果能让站长把这些时间省下来直接放在创造更好的内容上,相信整个互联网都会变得更好。
目前有几家网站受邀请参与这次的实验,截个图看看吧:
为何要做无觅网络?
一般认为只有大公司才会选择做平台。无觅资源很少,团队也很小,但我们相信协同,相信 1 + 1 > 2,相信站长与站长联手可以形成一股很强大的力量。
在我们准备推出无觅网络的时候,恰巧《连线》杂志创始人凯文·凯利来国接受访问,很喜欢他的一段话:
凯文·凯利:我还是拿蜂群来作比喻,一个蜂群的行为特征,如果从个体的蜜蜂来看是找不到的。但蜂群的整体行为特征又是从许多个个体而来,比如说蜂群拥有的记忆能力,如果我们用某种杠杆衡量蜂群的记忆能力的话,它要比单个的蜜蜂的记忆能力长很长时间。
将来“the one”的这种系统也是类似的,就是说所有的3G也好,手机也好,连成大网络后会浮现出来完全不同的行为特征。这些东西通过单个的手机设备是无法觉察到的。
个体是无意识的,群体在整体的失控中却找到了方向。网络带给这个世界的改变就是这样。
Update: 无觅网络现已接受申请,地址在:http://wumii.com/site/index.htm