赛迪网 > IT产品 存储 存储硬件
  IT资讯搜索
 
IT产品搜索

数据仓库Internet Archive海量存储浅析

发布时间:2008.07.02 05:06     来源:中关村在线    作者:Fenng

Internet Archive(IA) 这个站点大家应该都不陌生。IA 旨在建立所有互联网站点的"档案库",如果说 Google 是互联网的数据库的话,那么 IA 就是互联网的数据仓库了,定期对每个 Web 页面保存快照,数据量之大可想而知。

先看看 IA 每天需要面对的处理能力:

存储超过 850 亿个 Web 页面;

每天大约 600 万次的下载;

Wayback Machine 收到大约 1000 万次点击,每秒钟要处理 100-200 个点击;

每天10万次左右通过 URL 查找;

每天 400 万次返回请求;

存储的内容包括本文、音频、视频...等各种 Web 可见的格式。

显然 IA 需要的是一种前所未有的存储解决解决方案--廉价、可靠、低功耗...总之用起来要省钱。IA 的志愿者不得不考虑自己动手建立符合他们需要的存储系统,这下子可不简单,2004 年,第一个 100GB 容量的近线存储投入使用 。IA 的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies 公司,专为类似组织提供存储解决方案。前面提到的 100TB 容量的产品即为该公司 GB 系列的产品。现在 IA 已经采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,装机容量 1.5T,目前容量已经超过 3PB(怕是远远超过 3PB 了)。PS 系列产品每节点原始容量可以达到 3T,使用日立 Deskstar 硬盘,仅仅占 1U 的机柜空间。IA 也在站点上介绍了定制的这台 PetaBox 的一些规格要求以及参数。

PetaBox 也是 Linux 在企业级应用取得成功的一个范例。

PetaBox 存储产品给存储界带来了不小的震撼。每 GB 的成本仅仅是 2 美元。这还是 2005 年的价格,现在应该更便宜了。搜索了一下,这家公司目前还没有进入中国。

PetaBox 系统通过一个集中式的 PXE 启动服务器运行在 Debian 或是 Fedora Linux ,通过 Nagios 进行整个环境的监控。 管理成本也并不高--每 PB 一个人。

(责任编辑:董建伟)


[ 发表评论 ] 字体[  ] [ 打印 ] [ 进入博客 ] [ 进入论坛 ]  [ 推荐给朋友 ]
  相关文章
· 最高达52MB/s 威刚发布世界上最快CF存储卡 (06-30) · 西数桌面硬盘重新划分 Caviar Black上市 (06-30)
· IDC预测:未来全球SSD销售增长率将达70% (06-30) · 评估Symantec归档产品Enterprise Vault (06-29)
· 博科公司进军FCoE及安全领域 描绘产品蓝图 (06-29) · 某医院采用CommVault Simpana备份病人数据 (06-29)
· 存储分析:互联网数据仓库IA站点海量存储 (06-29) · 希捷迈拓1TB网络存储Maxtor Central亮相 (06-29)
· 联想倡导易用存储 助力中小企业夺金市场 (06-29) · 存储商Nirvanix可将服务器改成PB级NAS (06-29)
  客户需求反馈表
* 姓  名:
更多资料 了解方案 认识厂商
* 单位名称:
* 联系电话:
* 电子邮件:
  赛迪推荐  
  IT产品 ·笔记本·台式机·服务器·打印·投影
IT产品搜索 
  IT技术 ·开发·网管·安全·数据库·操作系统
  博客·论坛 ·曾剑秋·项立刚·Java学习·网管