日期:2014-05-16  浏览次数:20398 次

大数据头号大敌是带宽

科学家们想在智利高山建立一个天气望远镜,能够以大约1400张照片且每张照片约含有6GB的信息来观察每晚的夜间天空。本月即可建好的大型天气测量望远镜,每年产生的数量级高达数百PB。本月,国家科学委员会将决定是否应该资助下一阶段的LSST建立数据产生的望远镜。

 含有6GB的信息高清晰夜空照片

科学家们并不担心存储或处理所有的数据,但是他们担心如何将利的数据传输到其他地方。在他们看来,这不是大数据的问题,而是传输大数据的宽带的问题。

有建议说,望远镜可以每60秒拍摄两个夜空的照片,然后在白天12小时其不需要捕捉图片时,通过6GB传输速率传出去。该项目计划发布的年度数据分析报告中,包含自然科学中最高分辨率的照片,但这些照片背后的数据每年都要运行多个PB级的信息。

正在兴建新的天气望远镜上,在智利的Cerro Pachon山上。其它收集的图像将在夜间被传输到北美和伊利诺伊大学厄巴纳的香槟分校(NCSA)的国家超级计算机应用中心。这将需要巨额的带宽,但是带宽偏偏是我们这个世界中越来越稀缺的资源。

摩尔定律指出,计算能力每一年半到两年的时间增加一倍。不过,带宽并没有以几乎同样的速度在增加。 坦白说:“大数据的头号大敌就是带宽。无论是哪一种应用,对于大数据而言,都没有足够大的通道来快速移动。”

天文望远镜传输路线图

解决的办法是用两个更宽更快的管道来传输大数据。比如 Globus Online的方案和美国政府Ignite项目都可以使网络建设更为简便。也有一些纯技术方案,比如在Aspera使用的文件传输协议等。但是有更科学和有前途的商业发展的方案,那就是采用更好的算法以减少发送的数据。正如以下内容所说:“算法有助于减少分布式数据的带宽压力,但如何才能减少传输信息量,需要研究。例如,不是将整个原始数据集都传输,科学家可以研发简单的算法,以减少数据更易于管理的规模。算法可以从噪声,消除重复的数据,不断变化的索引信息和目录中分离信号。相比原始数据,这些数据子集在本质上规模较小,因此更容易传输。”

因此,也许在拥挤的网络传输之前预先处理数据,比如重复数据删除等,这样再减少了不必要的数据后,科学家可以收到有关他们研究的唯一的数据集。需要处理大数据的天文项目并非一个,之前作者还介绍过平方千米阵无线电天线项目,都反映了大数据传输的瓶颈——带宽。

而科研人员如果通过研究发现过滤大数据的解决办方案也可以帮到其他行业。比如设计一种数据离群检测算法可以帮助金融机构检测诈骗行为,其他工具可以通过分析商业大数据背后的商机等。