首页 > 学术交流
 
应用研究:清华大学图书馆存储需求与应用分析
    
来源:《中国教育网络》       作者:姜爱蓉,清华大学图书馆       采集时间:2008-9-12     点击量:1485
   

图书馆是大学里重要的学术支撑机构,担负着为学校的人才培养、学科建设、科学研究提供文献信息保障的重要职责。最近十年,我国高等学校整体进入快速发展时期,对图书馆的文献信息提出新的需求和挑战。(原文地址:http://www.edu.cn/bf_6472/20080911/t20080911_324598.shtml)。

急速增长的存储需求

2005年,清华大学校园网的主干升级为万兆网。自校园网开通,图书馆一直是校园网上的核心站点。随着图书馆业务的开展和镜像站点的增加,截至2005年底,本地数字资源存储量达15TB,仍有一些数字图书馆应用由于存储空间不够未能及时开展。2003年以来图书馆先后建立了XIOTECH SAN存储系统(2TB)、Legato Networker备份系统(4TB)。2006年开始规划建立基于SAN的大容量存储系统。

近几年来,数字图书馆的系统环境正在发生变革。传统的以数据计算为中心的系统环境向现代的、以数据存储为中心的系统环境过渡。主要受三方面因素影响:

第一,网络技术的发展日新月异,并快速惠及大众,全民建网趋势产生了无以数计需要存储的资源;

第二,服务器的性能越来越高,计算速度越来越快,应用门槛越来越低;

第三,存储设备的空间和性能正在成为制约数字图书馆系统建设的瓶颈。

在未来的几年里,伴随着数字资源的大量涌现和数字校园的迅速推进,人们将越来越重视数字资源的收集和保存,存储产品不再是附属于服务器的辅助设备,将成为数字图书馆系统的主要角色。

应用特点

1.应用平台多,服务器多,管理工作量大。清华馆目前有八十余台服务器和几十个应用系统。

2.数据种类繁杂,数据量大。既有二次文献的结构化信息(数据库),又有大量一次文献的非结构化信息(全文、音视频等多媒体文件,邮件系统、图书馆业务和办公文件等)。

3.用户众多,访问量大。数字图书馆系统需要支撑全校所有师生使用,清华有近五万用户(Fulltime学生、Parttime学生、教职员工等)。

数据类型

1.结构化数据的快速访问

包括图书馆书目信息集成管理系统、各种数字资源库、各种资源导航系统、数字资源整合系统等。特点是运行在Oracle、SQLServer等数据库上,I/O请求频率高,要求存储系统响应快,可靠性高。

2.非结构化数据的海量存储

包括电子期刊、电子图书的全文,音视数字媒体,文件传递、FTP下载等。特点是基于文件系统或者流媒体结构管理,存储文件长,数据总量大,I/O请求相对较少,要求存储系统容量大,传输速度快,可扩展性强。

总结以上分析,数字图书馆系统对存储的需求可归纳为:

第一,以GB/TB级增长的海量数据;

第二,以MS/S计的数据访问响应;

第三,以月/天计的内容更新频率;

第四,全年7×24小时的不间断可靠服务。

通过分析数字图书馆系统的特点和需求,才能有的放矢地建立与之相适应的存储系统。

存储模式演变

直联存储DAS已有近四十年的应用历史,在数字资源的容量以成百上千GB的量级增加时,DAS在备份、恢复、扩展、灾备等方面日显不足。数字图书馆迫切需要寻求存储新技术和新架构的支持。

近年来出现的NAS、SAN等是网络技术与新兴的存储领域有机结合的产物,它们的应用大大提升了存储系统的容量、可靠性和可扩展性,迅速成为主流存储模式。目前,SAN被普遍认为是一种适合数字图书馆海量存储与访问的应用模式。

用户需要一种既可降低成本又能强化管理的存储技术,需要技术支持实现将多组异构存储系统和设备“熔入”一个公共存储池而共享存储空间。虚拟存储技术在这种情况下应需而生。其使用户可以将早期、现在和未来的各种类型的物理存储设备集成管理成为一个可以共享的虚拟存储池。在池中可以创建多个虚拟磁盘,并将虚拟磁盘以逻辑存储资源的形式分配给每个应用服务器。

方案选择与应用分析

科学选择存储方案要考虑很多因素,来自某网站2003年的调查数据显示,在选择存储方案的七个主要因素中,可靠性因素所占比例达53.2%,超出其他所有因素的总和,如图所示。这个数据突出反映了用户对存储系统可靠性的迫切需求,在选择数字图书馆存储系统时尤其看重这一点。

随着存储系统大型化的发展,一旦故障出现其影响面也随之增大,用户承担的风险也必然增高。因此,选择SAN作为数字图书馆海量存储的应用模式,不仅要考虑磁盘阵列对各种RAID技术的支持,而且要重视在系统的主要环节采用双路冗余设计,避免单点故障对整个系统造成影响,保障数字图书馆系统全年7×24小时不间断地提供服务。

在调查统计中,可扩展性所占比例为10.8%,反映了用户希望集成不同设备建立共享存储空间的愿望。可扩展性实际上是一个可持续发展的问题,实际中的数字图书馆系统对存储空间的需求普遍呈现动态增长趋势,要求存储系统具有灵活地扩展性,具备整体架构平滑扩展的能力,具有通过iSCSI、CIFS协议接入已有存储设备和未来存储设备的功能。如果扩展性不好,对用户来说很快就要面临新一轮存储系统的投入和建设。目前解决可扩展性的方案各有千秋,例如:IPStor、V-Switch等,但都具有一定的局限性。用户选择可扩展性的方案时仍需进行实际环境的应用测试。

可用性、带宽、易安装性、可管理性、费用等都是选择存储方案的重要因素。尤其在费用和存储容量上,需要根据实际应用对存储性能的需求做出决定。一个存储系统中配备FC、FATA、SATA的比例与费用密切相关。根据对数字图书馆应用特点、数据类型和访问需求的分析,选择FC+FATA或者FC+SATA的磁盘混用方式具有较好的性价比。

清华大学图书馆在提出“集中存储系统建设需求”的基础上,通过教育部委托的招标流程采购了惠普公司的企业级虚拟磁盘阵列。

2006年底,清华大学图书馆顺利完成了对HP-EVA8000存储系统的的安装调试,开始逐步将清华大学图书馆的本地数字资源分步迁移到SAN存储系统中。数据的集中存储带来了使用管理上的方便,同时也增大了可靠性方面的风险。如何对几十上百TB的数据量进行科学合理、可持续发展的备份,是数字图书馆存储系统面临的新课题。

着眼当前,随着数字图书馆建设的不断深入,网上访问的数字资源和各种服务不断增加,对存储系统的容量、性能和可靠性都提出了空前的高标准要求。瞻望未来,音视频资料、交互式数字电视等多媒体资料将成为数字图书馆应用的核心,这些新型信息类型的普遍应用是促进未来存储系统发展的的关键动力。

开展存储技术的研究,选择合理实用的方案,建立起一套或多套大容量的存储系统正在成为支持数字图书馆资源保存和网络服务的关键环节。“泛网时代、存储为王”这正是当前存储系统迅猛发展的一个形象写照。


相关新闻