• 1.64 MB
  • 2022-04-29 14:03:25 发布

国家图书馆唯一标识符系统设计方案

  • 82页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'国家图书馆唯一标识符系统设计方案1设计方案1.1现状分析及对项目的理解1.1.1现状分析中国国家图书馆是综合性研究图书馆,是国家总书库。国家建立的负责收集和保持本国出版物,担负国家总书库职能的图书馆。馆藏资源包括图书、期刊、报纸、学位论文、古籍善本、特藏专藏、工具书、年鉴、电子出版物、缩微资料、视听资料。国家图书馆一般除收藏本国出版物外,还收藏大量外文出版物(包括有关本国的外文书刊),并负责编制国家数目和联合目录。国家图书馆是一个国家图书事业的推动者,是面向全国的中心图书馆,既是全国的藏书中心、馆际互借中心、国际书刊交换中心,也是全国的书目和图书馆学研究的中心。履行搜集、加工、存储、研究、利用、总管和传播知识信息的职责。国家图书馆是全国书目中心、图书馆信息网络中心。承担着为中央国家领导机关,重点科研、教育、生产单位和社会公众服务的任务。负责全国图书馆业务辅导,开展图书馆学研究。1998年开始,中中国国家图书馆开始立项实施“中国数字图书馆工程”。部分馆藏资料实现数字化,部分数据已面向社会提供服务。国家图书馆全面入藏国内正式出版物,是世界上入藏中文文献最多的图书馆。同时重视国内非正式出版物的收藏,是国务院学位委员会指定的博士论文收藏馆,图书馆学专业资料集中收藏地,全国年鉴资料收藏中心,并特辟香港、台湾、澳门地区出版物专室。国家图书馆的外文书刊购藏始于本世纪20年代,是国内典藏外文书刊最多的图书馆,并大量入藏国际组织和政府出版物,是联合国资料的托存图书馆。国家图书馆不仅收藏微缩制品、音像制品,还入藏了国内外光盘数据库近百种,电子出版物8000余种。国家图书馆在搜集、加工、存储、提供和开发文献等方面,已形成了具有中国特色的藏用并重的格局。 国家图书馆重视图书文献的保护工作,采用传统的修整技术和先进的缩微摄影技术,对馆藏要籍和各类珍稀文献进行修复和再生性保护。中国国家图书馆履行全国书目中心职责,编辑出版国家书目、联合目录和馆藏目录。国家图书馆编辑全国书刊联合目录始于1927年,1957年以后此项目工作得到全面加强和完善。1997年10月正式成立全图书馆联合编目中心,在全国范围内组织与管理图书馆计算机联合编目工作,共建网上联合目录,共享书目数据资源和文献资源。国家图书馆也是国家重要的文化机构,致力于增进与世界各国图书馆界、文化界的交流与合作,不断拓展与世界图书馆合作的新领域;积极参与和举办国际图书馆界双边或多边业务研讨和交流活动,以及国际图联等国际性组织的活动;与美英法俄以及澳大利亚、新加坡、日本、韩国等多个国家开展人员交换、技术交流和资源共享等具有实质性内容的合作;中文成为国际图联大会工作语言,提高了中国图书馆在国际图联的影响力;成功的举办各类国际会议,以及馆藏珍品文献赴外参展,弘扬中华民族优秀文化。1.1.1对唯一标识符系统项目的理解数字对象唯一表标识符用来标识对象,是对象在因特网环境下的永久性独有名称,数字对象唯一标识符将跟随对象的整个生命周期。唯一标识符作为数字对象的名称被嵌入在相关的资源和服务中,通过解析系统的支持,实现数字资源之间的关联和互操作。唯一标识符系统的应用收到了各国各机构的高度重视,形成了相关标准(DOI)及应用,如Handle系统、CrossRef系统等。中国国家图书馆从1995年起实施数字图书馆工程,进行数字资源建设,截止2008年底,国家图书馆外购数字资源库136个,其中中文数据库59个,外文数据库77个,全文影像数据超过1亿700万页。目前国家图书馆自建数字资源,总容量共约为200TB。随着国家数字图书馆二期建设工程的全面启动,数字资源数量将更加快速的增长,同时对实施国家图书馆数字资源全方位的集成化、网络化服务,实现国家图书馆收藏的物力资源和数字资源、自建资源和外购资源、自有资源和虚拟资源 的无缝链接、集成整合服务提出了越来越迫切的要求。为此,国家数字图书馆与于前期完成了《国家图书馆数字资源唯一标识符规范》。《国家图书馆数字资源唯一标识符规范》规定了唯一标识符的语法规则,名称分配规则,解析规则,管理规则等方面的内容,规范的制定与规范的实施应用是相辅相成缺一不可的。《国家图书馆数字资源唯一标识符规范》提出了唯一标示符规范应用和实施的细则。唯一标识符规范从标识符与唯一标识符的概念出发,阐明了CDOI可以标识的对象。同时该规范面向中国唯一标识符服务体系的需求,描述了全球唯一标识符服务系统框架,提出了未来国家图书馆唯一标识符服务系统框架。唯一标识符规范提出了国家图书馆唯一标识符后缀的分配规则,详细阐述了各种复杂的数字对象的唯一标识符分配的原理和方法以及唯一标识符分配与维护管理中需要关注的问题。唯一标识符的生成、注册与服务是一个系统工程,唯一标识符系统与国家数字图书馆其他系统相互关联,共同构成数字图书馆的服务体系。因此唯一标识符规范也比较详细的分析唯一标识符系统与国家数字图书馆其他系统的关系,说明唯一标识符服务系统实现方法和实现过程。在唯一标识符规范中,详细描述了唯一标识符的解析过程。系统描述了唯一标识符的生成与注册过程,包括用户角色的界定与生成示例。提出了唯一标识符规范应用对相关各系统的要求,为国家图书馆应用唯一标识符规范提供了流程机制。国家数字图书馆核心业务系统各模块的功能用以支持国家数字图书馆信息资源的采集、组织、管理及发布。唯一标识符系统是与核心业务系统配套的重要系统,将在核心业务系统的建设和服务中发挥重要的作用。唯一标识符系统与核心业务系统的关系如图所示: 唯一标识符系统与核心业务系统相关功能模块之间的关系如下:1、唯一标示符系统是一个相对独立的系统,独立对外提供访问地址和服务。2、唯一标识符系统的建设,优先满足核心系统内部各环节对内部唯一标示的要求及解析的需要,又要兼顾外部注册会员管理和服务的需要。3、在资源采集和资源组织阶段,核心系统都可以进行唯一标识符的注册,唯一标识符一旦生存,则会在核心业务系统的各子系统中统一引用。不过此时的唯一标识符注册数据中,一般缺少URL等关键属性,需要在资源服务与发布阶段对唯一标识符的URL等注册数据进行修改和补充。4、检索应用系统(元检索、版权信息管理系统)通过唯一标识符系统挂的解析服务获取数字对象的URL地址。1.1.1唯一标识符系统项目的建设目标本项目的目标,是在满足《国家图书馆数字资源唯一标识符规范》的基础上,建立全国公共图书馆领域唯一标识符系统的体系架构,并在此基础上建立国家数字图书馆的数字资源唯一标识符系统,实现全国公共图书馆数字资源唯一标识符的生成(注册)、修改、删除、解析和管理,既为国家数字图书馆核心业务系统的 建设和服务提供配套支持,也将为今后数图工程的推广应用打下基础。基于以上目标,国家图书唯一标识符系统的建设满足以下特点:1、唯一性。面对分散、多来源、多类型的元数据数据、对象数据,本系统要能够实现对这些数据的标识,对所标识的数字对象而言,相当于人的身份证,具有唯一性。这种特性保证了在网络环境下对数字化对象的准确提取,有效地避免重复。2、开放性。系统的主要功能应该是一个开放的体系,采用接口的方式,对内对外都能提供有效地服务;支持多样的系统组成和功能形式,能容纳其他的数据体系和服务系统;支持标准的和可自定义的元数据格式和服务系统协议。3、可扩展性。系统的体系结构应该是灵活的和可扩展的,能接纳新的元数据、对象数据类型,而不需要大的改动,保证整个服务系统的可伸缩性,能容纳海量数据。4、系统友好性。面向用户的唯一标识符系统要有友好的系统界面,而且系统要能与用户的工作系统与环境有好的对接和兼容,唯一标示符系统可以直接自然地应用到用户的计算机工作环境中去,成为用户工作系统的一个组成部分。5、互操作性。互操作性是指不同的计算机系统、网络、操作系统和应用程序一起工作并共享信息的能力。系统要满足各子系统间的交互性,实现唯一标识符信息共享的能力。6、持久性。一个数字化对象的唯一标识符一经产生就永久不变,不随其所标识的数字化对象的版权所有者或存储地址等属性的变更而改变。7、安全性。满足系统对设备运行安全、网罗安全、数据库安全、附件数据的安全、数据接收过程的安全等多方面的安全性要求。8、可靠性。保证系统的平稳健康运行,对并发访问等问题有可靠地处理策略。 1.1.1参考资料l《国家图书馆二期工程暨国家数字图书馆工程数字图书馆系统部分初步设计》l《国家图书馆数字资源唯一标识符规范项目研究成果》l《数字资源唯一标识符管理系统业务需求说明书》(V1.7)lHandleSystem技术手册(http://www.handle.net/documentation.html)1.2项目主要需求分析1.2.1建设唯一标识符系统本项目的开发过程中,需要建设唯一标识符系统,实现全国公共图书馆数字资源唯一标识符的统一集中管理。在资源采集系统、资源服务与发布平台系统中,可以通过唯一标识符系统的服务接口进行数据接收。同时,系统需要实现唯一标识符生成、URL维护、唯一标识符解析、注册数据维护等功能服务。唯一标识符系统支持分布式部署,可以构成由顶层系统为中心的系统服务网络,实现信息共享。1.2.2建设后台管理和维护系统后台管理和维护系统是唯一标识符系统的基础。需要提供系统的管理功能;提供数据接收的后台支持工具,支持数据处理的模块化灵活扩充;提供完备的日志功能;提供运行过程中各功能模块的运行状态监控功能;提供完备的数据备份还原功能,保证数据的安全性;本项目的开发过程中,需要实现唯一标识符系统平台管理的开放化建设,为系统对外提供服务提供有效地管理功能,同时要兼具灵活性与扩展性。 1技术实现方案1.1设计原则思路²项目以标准先行为指导,系统需要遵循现有的元数据标准规范,对象数据的格式和内容标准规范也需要尽快制定和落实,同时还要制定出清晰明确的数据传输数据包描述、质量检验方面的约束,便于整个项目拥有量化可评估的研发和实施目标。²项目建设需要基于国土数字图书馆系统的ESB应用支支撑平台,采用J2EE作为企业级系统开发的软件架构,实现开发语言的统一。²项目建设需要对国图现有的各个子系统进行整合,各个接口的实现需要遵循SOA的思想,按照WSDL、SOAP、XML等WebService相关规范,实现接口的服务化和接口服务的标准化。²项目涉及到大量的、多类型的数据交换问题,数据的传输格式、参数设置还有接口描述,需要采用统一的与技术和平台无关的标记语言。本系统拟采用XML语言格式。²项目方案设计要尽可能减少系统维护人员的工作量,后台的维护管理需要简单易用,便捷高效。²项目需要面临大量用户访问及并发问题,所以整个系统各部分都要考虑效率和性能问题,采用切实可行的技术保障整个系统平稳顺畅的工作。²项目采用B/S系统结构,其优点是操作不受时空限制、安装维护方便等。²项目需要遵照以人为本的原则,充分考虑系统的易用性,客户端采用WINDOWS操作系统,做到界面友好、操作方便。²项目采用面向对象的开发与设计理念。运用面向对象技术的前提是对整体系统的高度和准确抽象,通过它可以保证系统良好的框架,进而带来产品较强的稳定性和运行效率。 ²项目采用模块化设计。模块化设计要求将整个系统划分成基于小的模块,而模块间通过既定的接口进行数据的交换。模块化的优点在于其灵活性较好,也便于业务系统的扩展。²项目采用集中分布式架构,能够兼顾集中式和分布式的优点,做到分布部署,集中与分散管理相结合。²遵循国际、国家标准和规范,提高系统的利用价值。²关键系统模块支持多种安全保护机制,避免因特定原因造成系统的崩溃。²提供数据安全备份方案,实现数据的安全存储。可用性²系统可在多种操作系统中部署,有跨平台能力。²系统具备7×24小时不间断无故障提供服务的能力。²系统对注册数据条目的支持应达到亿级。²唯一标识符生成并发处理能力不低于200个/秒,唯一标识符解析并发处理能力不低于1000次/秒。可扩展性²系统平台应具有开放标准的接口、API或通信协议。²系统功能扩充或数据类型增加时应不影响现有系统功能和结构。²系统建设要求能够保护投资,当系统数据量和访问量增大而导致系统配置不能满足要求时,可以通过仅增加服务器等硬件进行解决,而不是在软件上做修改。响应性能²从提交单条注册数据到唯一标识符生成系统平均反应时间最多不超过1秒,从发出解析请求到获得解析URL系统平均反应时间最多不得超过1秒。对于千万数量级的检索响应时间不超过3秒。 容错性²系统应能及时检测并提示由于网络故障、操作失误、程序错误等原因造成的操作异常中断。²系统应能及时检测出与外部连接过程中出现的异常中断,并能采取有效措施进行断点连接,保证断点前后数据的连贯性,保证整个数据的完整性和准确性。²由于系统采用功能模块化部署,为了保障系统能平稳运行,功能模块之间需要存在一定的容错机制,从而保证不会出现某个模块出现故障时,其他相关模块因无法获取相关数据而导致崩溃。可恢复性²主系统提供安全、可靠的数据备份、恢复机制。²应用系统恢复和数据库恢复在24小时内,不丢失数据。²如果硬件损坏,应提供应急和替代方案。隔离性²系统不能影响各单位现有系统和设备的正常运行。安全性²系统的整体设计、平台选择以及应用程序的质量是系统安全、稳定、可靠的运行前提,同时也是数字文献的知识产权的根本保护屏障。严格的管理制度也是系统安全的重要保证,系统后台管理需严格遵守用户分层管理及权限控制。²设备运行的安全性:确保设备运行安全,针对设备可能出现的问题,尽可能全面的做好备份,有条件则做多点的部署,对于系统出现软硬件故障之后,马上可以做应用切换,不影响使用者的使用,同时进行故障诊断和修复。²网络的安全性:通过合理的网络设计、利用防火墙等技术实现网络安全 性。²数据库的安全性:数据库安全包含两层含义:第一层是指系统运行安全,系统运行安全通常受到的威胁如下,一些网络不法分子通过网络,局域网等途径通过入侵电脑使系统无法正常启动,或超负荷让机子运行大量算法,并关闭cpu风扇,使cpu过热烧坏等破坏性活动;第二层是指系统信息安全,系统安全通常受到的威胁如下,黑客对数据库入侵,并盗取想要的资料。²数据的安全性。²操作系统及支持软件的安全性(必须进行安全配置)。²应用的安全性。易用性²快速部署:系统可以在最短的时间里,进行应用结构和功能的定义、设计和实现。²零客户端维护:除了特殊的、必须的应用外,整个系统平台及其子系统都采用B/S结构进行系统和数据维护,用户只需要通过浏览器就可以完成全部操作。²操作简便:系统设计师,尽可能遵循简单实用的原则,做到对操作人员、使用人员最低的技术技术门槛要求,简单培训即可进行操作。²易于维护:应用系统能易于管理员维护。1.1系统建设标准及规范计算机标准²《计算机软件工程规范国家标准》²《计算机开放系统互连国家标准》²《软件产品测评标准》²《计算机软件开发规范》²《信息系统安全技术国家标准》²《计算机图形国家标准》 ²《微型计算机通用规范》²《计算机信息系统安全保护等级划分准则》元数据格式标准:²WH/T0503-1996中国机读目录格式²MARC21²ISO15836-2003Informationanddocumentation-TheDublinCoremetadataelementset(都柏林核心元数据元素集)²《国家图书馆元数据系列规范》²MODS(MetadataObjectDescriptionStandard)²MADS(MetadataAuthorityDescriptionStandard)²ISO/DIS25577Informationanddocumentation–MarcXchange。其他标准:²《国家图书馆数字资源唯一标识符规范》²DOI标准1.1软件架构设计1.1.1业务流程l唯一标识符系统接收文献数字化系统、外购数字资源、网络缴送系统、免费推送系统以及互联网采集等数据来源系统提交的注册数据,按照规则生成唯一标识符,并将唯一标识符返回给相应数据来源系统。唯一标识符系统的URL地址由资源发布系统进行添加修改。唯一标识符系统接收用户请求对唯一标识符进行解析,并将解析结果反馈给用户。唯一标识符系统管理员可对系统进行管理维护。主要业务流程如图所示: 业务流程图(应用架构)业务流程图(实现架构) 1.1.1功能架构唯一标识符系统分为两大子系统:l唯一标识符管理子系统唯一标识符管理子系统主要包含五个模块:唯一标识符生成模块、URL维护模块、唯一标识符解析模块、注册数据维护模块和唯一标识符服务接口集;l后台管理与维护子系统为唯一标识符系统服务提供应用和策略支撑,包括八个模块:系统配置、系统监控、用户管理、唯一标识符维护、数据库备份与还原、数据库导出、日志管理、统计管理。 功能架构图1.1.1技术架构系统采用四层架构l数据层:整个系统的最底层,由网络及硬件平台、操作系统、关系数据库、文档库、索引库等部分组成,作为系统底层数据的存储平台。l数据管理层:数据管理层是针对底层数据的管理和服务层,本身与业务逻辑无关,为上层对于数据的访问提供服务。l业务逻辑层:是对系统业务的实现,通过数据管理层完成对底层数据的操作,实现业务功能,为应用层提供服务。l应用层:为面向用户的应用界面及接口服务,包括Web应用程序,管理工具/服务,应用服务接口API。另外,在本系统中,SOA架构可扩展机制、数字版权保护、安全机制和通信机制 是贯穿四层的。技术架构图针对本系统实际情况,对技术架构做进一步的细分。l数据层:数据层包含数据存储、数据管理及数据备份三部分。l数据管理层:分为唯一标识符系统核心,搜索引擎/服务两大部分,其中,全文检索搜索引擎/服务为全文检索系统提供;版权信息内容管理核心包含数据管理、分类管理、存储管理和日志管理几个部分。l业务逻辑层:业务逻辑层分为版权信息登记、授权信息及版权合同管理、结算信息管理、版权信息查询、版权信息统计、版权信息库管理、版权信息数据管理、日志与统计管理、系统管理、用户管理、运行管理、导航与检索等几个模块,每个模块中又包含一系列的功能。l应用层:本系统应用层细分为唯一标识符前端应用,唯一标识符应用服务接口集 等两个部分。技术架构图1.1数据库概要模型设计1.1.1组成结构l基础数据库基础数据库提供基础数据服务,主要包括公共代码、各类基础代码等。l业务数据库业务数据库提供业务数据服务,由业务系统的相关数据库构成。l用户数据库用户数据库由国家图书馆相关人员、系统管理员、各类其他用户构成。 l配置管理数据库配置管理数据库是为系统提供基础的设施支持以及权限管理数据支持的数据库。1.1.1数据库模型设计注册信息接收时,提交的信息由提交信息表来存储,提交的数据本身由提交后数据信息表来保持,提交数据经过处理后,保存到转换后数据信息表中,再通过入库服务进入服务相关的数据表中。服务相关数据表中,元数据信息表负责存储不同的元数据类型,每一个元数据类型的相关属性在元数据字段表中保存;唯一标识符基础信息库信息表中记录系统中所有的唯一标识符基础信息库信息;关联的对象数据信息,保存到对象数 据管理信息表中,并与存储路径表关联;1.1.1数据表设计1.1.1.1DB_Cdoi_Obj表名DB_CDOI_OBJ说明唯一标识符对象数据表序号字段名说明数据类型主外键为空缺省值约束1.CDOID唯一标识符编号intPKNotNullC12.TypeID唯一标识符类型intFKNotNullC23.IDWord识别字nvarchar(256)Null4.Title标题nvarchar(256)Null‘’5.Type数字资源的结构类型nvarchar(256)NotNull‘’6.Organizatio机构nvarchar(NullC4 n128)1.SNMP主代理nvarchar(128)NotNull2.Role代理角色intNotNUll1.1.1.1DB_UserInfo表名DB_UserInfo说明用户信息管理表序号字段名说明数据类型主外键为空缺省值约束1.ID编号,自动增长intPKNotNullC12.UserID用户名nvarchar(256)FKNotNullC23.PassWord密码nvarchar(256)Null‘’ 1.Name名称intNull0C42.Organization所属机关nvarchar(256)Null3.Securitenum身份证nvarchar(96)Null4.Address地址nvarchar(256)NUll5.Zip邮编smallintNUll6.Phone电话nvarchar(96)Null‘’C67.Mail邮箱nvarchar(96)NullC78.Fax传真smallintNotNullC99.Date注册日期datetimeNotNull约束的详细说明约束编号约束详细描述C1 程序设计说明编号设计说明1.1.1.1DB_Prefix表名DB_Prefix说明前缀解析器相关表序号字段名说明数据类型主外键为空缺省值约束1.CdoiPrefix命名机构nvarchar(256)PKNotNullC12.IP前缀解析器ipnvarchar(256)NotNullC23.Port前缀解析器portnvarchar(256)Null‘’ 1.DnsDnsnvarchar(256)NUll2.Business公司textNull‘’C63.Telephone电话nvarchar(256)NotNullC94.Email邮箱nvarchar(256)Null‘’5.CreateDate创建日期datetimeNull‘’6.Des描述textNull‘’约束的详细说明约束编号约束详细描述C1程序设计说明编号设计说明 1.1.1.1DB_Suffix表名DB_Suffix说明后缀解析器相关表序号字段名说明数据类型主外键为空缺省值约束1.CdoiSuffix本地名称nvarchar(256)PKNotNullC12.IP后缀解析器ipnvarchar(256)NotNullC23.Port缀解析器portnvarchar(256)Null‘’4.DnsDnsnvarchar(256)NUll5.Business公司textNull‘’C66.Telephone电话nvarchar(256)NotNullC97.Email邮箱nvarchar(256)Null‘’ 1.CreateDate创建日期datetimeNull‘’2.Des描述textNull‘’约束的详细说明约束编号约束详细描述C1程序设计说明编号设计说明1.1软件部署设计系统建成之后,需要支持分布式部署结构,包括部署在国家数字图书馆的顶级系统和部署在各地的分支系统。分支系统的软硬件环境可能会不同于顶级系统,因此需要考虑各软件和技术在分支系统中的替代和精简方案。中心系统运行在IBM小型机上,因此尽量选择IBM官方推荐的系统软件、应用服务器软件,包括PowerVM虚拟技术、IBMHttpServer、WebSphere应用服务器和Oracle数据库等。系统技术架构如图1所示。 图11、PowerVM为满足系统高可用性、可扩展性的要求,所有子系统都部署在PowerVM虚拟机上。利用IBM提供的PowerVM虚拟化技术,可以实现在一台物理机上划分多个虚拟机,充分利用硬件资源,降低能耗;可以统一服务器的软硬件环境,实现虚拟服务器的远程管理,简化服务器的部署和管理;可以动态调整和扩展虚拟机资源配置,达到资源的最优配置。分支系统:如果不是IBM小型机,无法支持PowerVM技术,可以直接将软件部署在多台物理服务器上。2、IBMHttpServer系统使用IBMHttpServer(IHS)作为前端Web服务器,负责处理静态文件访问请求,并将动态请求代理到后端WebSphere应用服务器集群。IHS基于ApacheWebServer,并提供IBM动态缓存功能,能高效的处理静态文件访问请求,降低应用服务器访问压力。分支系统:如果没有IBMHttpServer软件,可以选用开源的ApacheWebServer,通过插件扩展支持服务器集群和负载均衡。 1、WebSphere应用服务器系统使用WebSphereApplicationServer(WAS)作为应用服务器。WASV7基于业界标准JavaEE5和JDK6.0,完全支持其它开放性标准包括XML、LDAP、WebServices和CORBA等。WebSphere应用服务器交付了可伸缩、具有弹性的应用程序基础架构,能帮助客户缩短开发周期,节约开发成本,重用现有系统资源,构建随需应变的业务应用。WebSphere的分布式集群能力保证整个应用系统的高可用性。分支系统:如果没有WebSphere应用服务器,可以选用开源的ApacheTomcat。2、Oracle系统使用Oracle数据库。Oracle数据库管理系统是一个以关系型和面向对象为中心管理数据的数据库管理软件系统,在管理信息系统、企业数据处理、因特网及电子商务等领域有着非常广泛的应用。Oracle支持多用户、大事务量的事务处理,支持分布式数据处理,通过RAC、DataGurad等技术,能实现数据库系统的高可用性。分支系统:对规模较小的分支系统,可以不部署RAC、DataGuard方案。3、Memcached系统使用Memcached缓存。Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。分支系统:对规模较小的分支系统,可以不单独部署Memcached缓存服务器,选用与应用集成的Ehcache等缓存方案。系统软件逻辑部署结构分为Web服务器集群、应用服务器集群、数据库服务器集群和缓存服务器,前端通过硬件防火墙提供负载均衡和故障转移,如图2所示。 图21、Web服务器集群系统使用IHS作为Web服务器,接收访问请求。通过多台IHS服务器,配合前端负载均衡技术,防止出现单点故障,提高系统效率和可用性。2、应用服务器集群系统使用WAS作为应用服务器,处理动态请求,以WebService方式提供元数据、对象数据等的访问接口。通过配置多台WAS集群,提高系统并发处理能力。3、缓存服务器搭建基于memcached的缓存服务器,提供系统范围的数据缓存服务。缓存服务器缓存系统从数据库中获取的数据(元数据、用户数据等),减轻数据库访问压力,提高系统响应速度。 1、数据库集群通过OracleRAC技术,配置数据库集群实现负载均衡,提高数据库吞吐量,提供故障容错和无缝切换功能。通过OracleDatagurad技术建立备份数据库,提供冗灾、数据保护和故障恢复能力。1.1硬件配置设计基于软件不熟设计的思路,推荐两种硬件配置方案:方案一、采用小型机作为数据库和存储服务的中高端方案。可实现系统7×24小时持续可用,系统应能满足至少6000个用户使用,并支持至少500个用户同时在线填报或查询等并发访问;常规操作处理响应时间不超过10秒,常规查询业务处理响应时间不超过30秒。满足未来百万种图书的数据存储,但造价较高。采用两台IBM3650服务器作为前置WEBServer实现负载均衡和HA,两台IBM3650服务器作为应用服务器,IBMPower750小型机作为数据库服务器及存储服务器,与IBM存储器通过两台光纤交换机构建SAN存储网络,用于存储数据库及关键数据。另外此方案可通过PowerVM实现虚拟机应用,从而为扩展应用预留空间,充分利用服务器的运算性能。推荐硬件配置:序号硬件名称品牌/规格/型号制造商原产地数量应用说明1IBMSystemx3650M3IntelXeonCPU四核*24G内存SAS硬盘300G*2IBM中国4其中2台作为前置WEBServer实现负载均衡和HA,两台作为应用服务器HA2IBMSystemStorageDS5300主存储10T容量(2笼满配450GFC硬盘),最大可扩容至32笼满配,24*450GB10Krpm4GB/sFC;配置8个4GbFC端口主机接口,配8个1GbIP端口主机接口、双冗余热插拔IBM中国1核心数据存储3HPMSL40482LTO-4Ultrium1840磁带插槽数量48,最大容量76.8TB,最大持续传输率(压缩比)2.3TB/小时,4U,4GbHP中国1离线数据备份 FCTPLib备份存储系统本机光纤通道接口4IBMPower750小型机POWER7,8-core3.3GHz,DDR38*16GB,AIX7IBM中国2存储和数据库服务器HA5CISCO(思科) DS-C9124AP-K9CiscoMDS9124具有24个PortFabricSwitch,其中激活8个4-Gbpsactiveports,支持VSANs,PortChannels和CiscoFabricManager个1个ACPowerSupplyCISCO中国2SAN存储交换机二、系统软件序号软件名称产品描述制造商软件版本数量应用说明1Oracle数据库软件OracleDatabaseEnterpriseEdition数据库企业版25用户Oracle企业版2数据库负载均衡及高可用2windows操作系统软件Windowsserver2008R2标准版MicrosoftWinSvrStd2008R2OLPNLGov4PC服务器操作系统3IBMWebsphere中间件IBM10.0企业版2Web服务4PowerVM虚拟软件4CPU企业版2用于多项应用分布式部署方案二、采用PCServer作为数据库、存储服务的普通方案。该方案可满足系统运行基本需要,并发量较大时响应速度稍慢,可支持300个用户同时在线填报或查询等并发访问;常规操作处理响应时间不超过30秒,常规查询业务处理响应时间不超过60秒,通过高可用性配置,可做到数据安全和不间断运行,扩展性有限,造价较低。采用两台IBM3650服务器作为前置WEBServer实现负载均衡和HA,两台IBM3650服务器作为应用服务器和数据库服务器及存储服务器,与存储器通过两台光纤交换机构建SAN存储网络,用于存储数据库及关键数据。另外此方案可通过PowerVM实现虚拟机应用,从而为扩展应用预留空间,充分利用服务器的运算性能。推荐硬件配置:序号硬件名称品牌/规格/型号制造商原产地数量应用说明 1IBMSystemx3650M3IntelXeonCPU四核*24G内存SAS硬盘300G*2IBM中国4其中2台作为前置WEBServer实现负载均衡和HA,两台作为应用服务器HA2EMCCX4-120双控制器配置了5块FC600GB10000转硬盘,存储管理软件,20T,最大扩充80TEMC中国1核心数据存储3CISCO(思科) DS-C9124AP-K9CiscoMDS9124具有24个PortFabricSwitch,其中激活8个4-Gbpsactiveports,支持VSANs,PortChannels和CiscoFabricManager个1个ACPowerSupplyCISCO中国2SAN存储交换机二、系统软件序号软件名称产品描述制造商软件版本数量应用说明1Oracle数据库软件OracleDatabaseEnterpriseEdition数据库企业版25用户Oracle企业版2数据库负载均衡及高可用2windows操作系统软件Windowsserver2008R2标准版MicrosoftWinSvrStd2008R2OLPNLGov4PC服务器操作系统3IBMWebsphere中间件IBM10.0企业版2Web服务4VMware虚拟软件4CPU企业版2用于多项应用分布式部署以上硬件部署方案为建议方案,仅供参考。1.1接口分析设计国家图书馆唯一标识符系统与其他子系统服务之间的接口关系如图所示: 唯一标识符系统作为国家图书馆核心业务的一部分配套系统,与其他系统间的关系如图所示。1、文献数字化系统、电子缴送系统、网页采集系统、数字资源保存与管理系统、版权信息管理系统:唯一标识符系统接收来自于以上系统的注册数据,同时可以返回要求解析的唯一标识符信息,为用户提供服务。2、各地子系统各子系统通过接口的方式,可以查询唯一标识符系统中的数据,并可同顶级系统进行数据同步。3、数字资源发布与服务系统数字资源发布与服务系统中,需要调用唯一标识符系统维护和解析URL数据。4、元检索系统元检索系统中,需要调用唯一标识符系统解析URL地址。 1、ESB应用支撑平台版权信息管理系统遵循国家图书馆核心业务系统中ESB应用支撑平台的接口和标准。1.1.1支持SOA架构设计思想考虑到国家数字图书馆的整体架构是以SOA架构设计的,为了以后的接口规范,此次设计中必须要参考SOA的设计思想来实现接口的服务化、接口服务的标准化。SOA是一种架构模型,它可以根据需求通过网络对松散耦合的粗粒度应用组进行分布式部署、组合和使用。服务层是SOA的基础,可以直接被应用调用,从而有效控制系统中与软件代理交互的人为依赖性。利用SOA架构,可以实现从外部访问系统;能够为门户应用之类的同步应用提供服务;采用粗粒度服务接口的优点在于使用者和服务之间不必再进行多次的往复,一次往复就足够;SOA具有“松散耦合”组建服务,旨在将服务使用者和服务提供者在服务实现和客户如何使用服务方面隔离开来;可重用服务采用通用格式提供重要的业务功能,为开发人员节约了大量时间;提供了标准化的接口,支持多种通讯工具,采用SOA架构体系使系统更易维护和伸缩。具体设计思路如下:1、确定业务目标和系统建设目标。2、了解业务及关键角色。3、了解实现业务功能的关键业务流程;并根据信息技术要求,提出基于现有业务流程的重构思想优化业务流程。4、确定符合业务目标和系统建设目标的业务需求以获得业务功能。5、将功能实现分解为服务构建,并整合各业务的购进啊,形成公共服务构建和专用服务构建。6、进行系统的架构设计。7、提出或确定系统硬件环境和平台。 1.1.1人机界面接口方案人机界面设计遵循以下原则进行:l一致性原则(1)、设计目标一致:   版权信息管理系统存在多个子功能模块,不同模块部分之间的交互设计目标需要一致。(2)、元素外观一致   交互元素的外观往往影响用户的交互效果。版权信息管理系统采用一致风格的外观。(3)、交互行为一致   在交互模型中,不同类型的元素用户触发其对应的行为事件后,其交互行为需要一致。l可用性原则(1)、可理解   软件要为用户使用,用户必须可以理解软件各元素对应的功能。   如果不能为用户理解,那么需要提供一种非破坏性的途径,使得用户可以通过对该元素的操作,理解其对应的功能。(2)、可达到   用户是交互的中心,交互元素对应用户需要的功能。因此交互元素必须可以被用户控制。   用户可以用诸如键盘、鼠标之类的交互设备通过移动和触发已有的交互元素达到其它在此之前不可见或者不可交互的交互元素。(3)、可控制   软件的交互流程,用户可以控制。   功能的执行流程,用户可以控制。在此原则基础上,国图版权信息管理系统的人机交互界面接口采用如下流程进行:l需求分析阶段:充分了解用户的需求,国图现有系统的风格样式,同时要了解其他同类产 品的情况。l初步设计阶段:通过对第一阶段需求的分析,形成初步的设计方案。对每一项主要设计提出两套以上的设计方案,以便用户选择。l方案改进阶段:根据国图用户的反馈意见,对设计方案进行完善。l定稿阶段:确定最终的界面设计方案并实际应用。1.1.1系统接口分析设计1.1.1.1接口设计规范接口规范的确定是实现国家数字图书馆业务系统集成的保障。本系统接口实现遵循SOA的思想,以服务的形式提供各模块间、各子系统服务间的接口服务。具体包含两方面的内容:l接口的服务化各业务子系统对外提供的接口是有具体功能含义的,可以将这些接口封装为服务并进行实现。接口服务的实现应是自包含的,不需要在客户端增加附加的软件,且使服务实现的变化局限在服务本身。接口服务也是自描述的,消息格式的定义可以和消息一起传递。l接口服务的标准化接口服务的标准化包括三个方面:(1)、接口技术的规范性接口是功能提供方和功能调用方之间的调用约定。接口约定后不宜轻易改变,接口的实现由功能提供方负责。采用标准的方式定义接口,有利于系统开发、维护和扩展。接口的标准化体现在以下几个方面:接口描述的标准化,如采用WSDL工业标准描述接口;接口底层通信方式的标准化,如HTTP,JMS等;接口的实现与具体平台和语言无关,如通过SOAP等协议即可访问;(2)、接口管理的规范性科学严格的管理规范和制度,辅之以必要的技术支撑手段,是定义和维 护好系统间接口的关键。接口管理的规范化主要包括以下几个方面:系统建设和业务建模过程中接口定义过程的规范化;公用功能服务发布流程的规范化;接口变更处理的规范化;对已发布和运行的服务接口管理的规范化;接口访问需求处理过程的规范化。(3)、接口参数的规范性接口参数规范化工作的首要前提是:要在接口调研分析的深化工作完成后进行。以此为前提,承建商根据所能提供的服务的内容和所需要的服务请求的内容,提交各接口的参数描述,最终制定出接口参数的统一规范。1.1.1.1唯一标识符系统提供接口本系统以WebService方式对外部调用系统提供接口服务,这些接口服务还可以发布到ESB应用支撑平台供其他系统调用。l获取唯一标识符接口接口服务描述:获取唯一标识符接口提供方:组织系统/唯一标识符系统接口调用方:其他子系统返回信息:返回唯一标识符信息l唯一标识符注册接口接口服务描述:申请注册生成唯一标识符接口提供方:唯一标识符系统接口调用方:其他子系统系统返回信息:返回唯一标识符信息及注册成功与否的提示l唯一标识符批量注册接口接口服务描述:申请批量注册生成唯一标识符 接口提供方:唯一标识符系统接口调用方:其他子系统返回信息:返回唯一标识符信息及注册成功与否的提示列表l注册数据修改接口接口服务描述:根据唯一标识符修改注册数据字段值接口提供方:唯一标识符系统接口调用方:其他子系统返回信息:返回修改结果l注册数据批量修改接口接口服务描述:根据条件批量修改注册数据字段值接口提供方:唯一标识符系统接口调用方:其他子系统返回信息:返回修改结果列表lURL解析接口接口服务描述:根据唯一标识符解析到URL接口提供方:唯一标识符系统接口调用方:其他子系统返回信息:返回URLlURL逆向解析接口接口服务描述:根据条件逆向解析到URL接口提供方:唯一标识符系统接口调用方:其他子系统返回信息:返回URL1.1系统性能分析设计唯一标识符数据检索的特殊性和复杂性以及海量数据集中模式,在系统建设 中将采用面向性能的设计原则,确保系统的总体性能满足用户需要,保证不发生长时间业务终端、阻塞、死锁等情况,是本系统性能设计的关键目标。为此,首先要保证应用系统有一个稳固可靠的体系结构;其次需要对数据库结构进行很好的规划;第三,保证高效优质的代码质量;第四,对于多层体系结构的系统来说,还要对应用服务器进行优化和调整。1.1.1数据库设计对海量数据处理的性能保证唯一标识符系统数据规模大,并发性、实时性要求很高,因此如何处理海量数据,是保证系统性能的关键。下面根据海量数据的特点,阐述系统性控制措施。由于数据库的具体性能优化技术与数据库产品相关,因此本系统的数据系统性能控制以Oracle数据库展开。数据库是系统的核心,做好数据库的设计与优化是保证系统性能的关键。数据库的设计和优化通常包括以下内容:l表的设计、索引的设计。表的设计要兼顾灵活性好易用性。l根据表、索引的设计情况,估算每个表的基准数据量及大小,还有表数据的增长情况,合理设计每个表的参数值。对于数据量大的表,采用分区表和物化视图等技术,以及在设计上考虑历史表等方法来提高性能。l根据表、索引的设计情况,合理设计表空间的大小、在磁盘上的分布以及相关的参数。l合理调整数据库的初始化参数以及操作系统的内核参数等。l合理规划客户端/连接池对数据库的连接数目。l根据现场实际情况,定期监测和检查数据库的使用情况,并对不合理参数做出调整。同时定期对数据库的碎片进行整理。1.1.1.1分区表和索引技术根据以往经验,在一个大型数据库中,数据库空间的绝大多数四被少量的表所占有。简化大数据库和管理,改善应用的查询性能,一般可以私用分区这种手段。 所谓分区就是动态的将表中的记录分离到若干不同的表空间上,是数据在物理上被分割开来,便于维护、备份和恢复。当使用时,可建立一个链接所有分区的师徒,使其在逻辑上仍以一个整体出现。Oracle引进了数据分区的技术,以加强对VLDB的支持。当表的数据增大时,数据的载入/载出、备份/恢复占用了大量的时间,也使数据库管理员的任务变得复杂、繁琐,直接影响系统的可用性。因此,Oracle可基于一定的关键之把表和索引分为若干可管理的小块---分区,由于每个分区的操作是相对独立的,从而避免因一部分数据的无法访问儿影响其他分区的数据使用。者带来两方面好处:第一、提高性能,只对存有呗查数据的分区进行查找,从而加快速度。第二、高可用性,备份/恢复可以以分区为单位进行,减少管理时间。第三、数据是基于分区管理的,硬件的失败只会影响本地分区,不影响其他分区上的数据的操作,从而提高系统的可用性。这种分区的机制,对系统来说是透明的。Oracle的分区方式有Has,range和composite多种。这种灵活的分区方式好处是:l目标准确的数据服务器管理。l高可用性。l应用性能提高。由于结构的限制,多数服务器的分区导致为提高性能以牺牲目标准确性的数据服务器管理和高可用性为代价。必须在他们之间做选择。Oracle的composite分区方法则消除了这种情况。采用Oracle的分区方式,数据的存储、管理、访问和备份都可以完全满足业务要求。Oracle的分区显著的改进了数据的可用性。单一分区可被单独离线,不影响其他数据运行。查询永远是在所有分区正常的情况下才进行。Oracle绝不会提供不完整的查询结果。1.1.1.1并行化技术具有大内存与CPU资源的举行系统已经出现了十几年了,这些系统多采用 MPP或SMP结构,具有大计算能力,并且有很好的扩充性,然而,如果应用软件不能有效地利用这些计算机的特点,那么计算能力将受到很大制约。Orcale早在7.1版本中就引入了并行查询选项(PQO),以充分是要能够这些系统中可用的硬件资源。Oracle并行查询选项允许长时间运行的SQL操作(主要是查询),以协同方式在多个CPU间运行,这是系统减少了资源密集型SQL操作的运行时间。并行执行选项十多个服务器进程可以并行执行一定的操作。进程,称为查询协调器,将一条语句的执行调配到多个服务器执行,协同所有服务器的结果,并将结果返回给用户。系统主要利用Oracle的特性来实现并行化技术:l并行SQL技术Oracle可以将一个用户的大量数据处理请求分解为多个、相对较小的工作单元,这些工作单元可以由不同的进程并发执行,减少执行时间。l并行数据装载技术在VLDB中,快速的数据装载速度非常重要,Oracle的SQL*Loader工具可以并行执行,从而提高数据装载的速度。l并行恢复技术在VLDB中,当数据库出现意外损坏而需要回复是,Orcale听过了并行恢复的机制是系统的恢复时间尽量缩短。l并行传播技术Oracle可以使用多个并行服务器进程传播实务,降低数据同步的时间。1.1.1.1物化视图技术物化视图,它是用于预先计算并保存表连接或聚集等耗时较多的操作的结果,这样,在执行查询时,就可以避免进行这些耗时的操作,从而快速的得到结果。物化视图有很多方面和索引很相似:使用物化视图的目的是为了提高查询性能;物化视图对应用透明,增加和删除物化视图不会影响应用程序中SQL语句的正确性和有效性;物化视图需要占用存储空间;当基表发生变化时,物化视图也应当刷新。 其中物化视图有三种:聚集物化视图、包含连接物化视图、嵌套物化视图。但三种物化视图的快速刷新的限制条件有很大区别,而其他方面则区别不大。Oracle可以搜索实体化视图的局部表来改进针对物化视图的查询性能。1.1.1.1位图索引技术通常,索引创建在选择性很高的那些裂伤,即在这些列上的行很少有相同的值。对于一个索引来说,其值只有“Y”或“N”的列是非常不好的,因为该索引只含有两个只,所以通过这个列的任何访问豆浆返回表的一半记录。不过如果这些索引列中的值属于一个完全静态的数值组,就应该考虑使用位图索引。Oracle优化程序能够在查询进程中动态的将位映射索引内容转换为RowID。这种转换能力使优化程序可以使用那些有许多不同值的列上的索引和那些有很少不同值的列上的索引。在创建位图索引时,Oracle将存储的位图进行压缩。其结果是位图索引需要的空间只是正常索引所占空间的5%-10%。因此,对于频繁出现在where子句中的任何非选择性列,应考虑使用位图索引。位图索引使用在事务表及聚集表的列上时,将产生最大的效果。1.1.1.2海量数据的管理在唯一标识符系统中,如何管理庞大的数据是一个至关重要的问题,它既影响到数据的安全性也涉及到数据库的性能,Oracle采用如下手段进行管理。1.1.1.2.1数据移动技术Oracle可以使用“可迁移表空间”来改善数据移动操作的性能。可迁移表空间改善数据库之间大量移动数据的操作性能。可以移动数据的索引,但不能移动位图索引或含有收集程序的表。1.1.1.2.2数据备份技术Oracle中引入的恢复管理器(RMAN)开创了一个全新的方法用于执行数据 库的备份。它提供了从命令行与GUI用户界面执行的所有热备份和冷备份功能。恢复管理器提供了以下特点:l特备份不会导致与传统的BEGIN/END备份方法有关的重做日志生产率。l作为备份过程的一个集成部分,检查数据库块是否残缺不全。这可以减少对整个数据库频繁使用ANALYZETABLEVALIDATESTRUCTURE语句的要求。l支持增量物理备份。l支持多线程备份。l恢复管理器提供一个集成的分类系统,该分类系统在鉴别所需的备份磁带时能够把混乱减少到最小。同时,RMAN的一些新特性可加速数据库的回复时间。1、快速启动错误修复。2、快速启动检查点。3、快速启动按需回滚。4、快速启动并行回滚。1.1.1.1数据库配置与优化1.1.1.1.1优化操作系统为了获取最佳的服务器性能,对操作系统的优化时很必要的。因为操作系统性能问题通常会涉及到进程管理、内存管理、调度等,所以需要确保有足够的I/O带宽、CPU的处理能力、交互空间来尽可能的降低系统时间。1.1.1.1.2磁盘布局优化和配置磁盘布局的目标是:磁盘性能是不能阻碍实现数据库性能,数据库磁盘必须专用于数据库文件,否则非数据库文件将会影响到该数据库,且这种影响是不可预测的。 1.1.1.1.1创建及初始化数据库管理数据库的第一阶段就是初始化数据库的创建,尽管可以在数据库创建好以后再来调整性能,但有些参数是不能改变或很难修改的。如:Db_block_size、Db_name、Db_domain、Compatible、Nls_languag、Nls_characterset、Nls_nchar_characterset。1.1.1.1.2内存管理Oracle使用功效内存来管理器内存和文件结构,Oracle常使用的内存结构如下:l系统全局区(SGA)SGA随着不同的环境而不同,没有一种普通的最佳方案,在设置它之前要先考虑以下几个方面:物理内存多大?操作系统是那种?占多大内存?数据库系统是文件系统还是裸设备?以及数据库运行的模式。lDatabaseBuffers参数是SGA大小和数据库性能的最重要的决定因素。该值较高,可以提高系统的命中率,减少I/O。每个缓冲区的大小等于参数Db_block_size的大小。Oracle数据库块以字节表示大小。OracleSGA区共享池部分由库告诉缓存、字典高速缓存及其他一些用户和服务器会话信息组成,共享池是最大的消耗成分。调整SGA区各个结构的大小,可以极大地提高系统的性能。l数据块缓冲缓存区Oracle在运行期间向数据库高速缓冲读写数据,高速缓冲命中标示信息已在内存中,高速缓存失败意味着Oracle必须进行磁盘I/O。保持高速缓存失败率最小的关键是确保高速缓存的大小。l字典缓存区数据字典缓存区的大小有数据库内部管理,它包括了有关数据库的结构、用户、实体信息等。数据字典的命中率对系统有很大影响。如果命中率大于90%,说明合适,否则应增大共享池的大小。lSQL共享池该共享池包括执行计划及针对数据库执行SQL语句的语法分析用的,在第二 次运行相同的SQL语句是可以用SQL中的语法分析来加快执行速度。lJAVA池在UNIX系统中如果区组的大小为4MB,则默认大小应为24MB,如果数据库没有使用JAVA,则保持在10MB-20MB即可。1.1.1.1.1设置管理联机重做日志重做日志的大小也能影响性能,因为数据库的写入和归档取决于重做日志的大小,通常情况下,更大的重做日志文件可以提供好一些的性能,小的能增加检查点的活动和降低频率。1.1.1.1.2设置和管理归档重做日志当Oracle以archiveklog模式运行时,数据库在每个联机重做日志文件写满后,对它进行拷贝,通常是写入磁盘。Arch后台执行归档功能,如果有大量的频繁的事物的时候,会产生重做日志文件磁盘方面的竞争,为了提高归档的性能,可以创建具有多个成员的联机重做日志文件组,但需要考虑到每个设备的I/O。归档重做日志文件备份后是可以删除或移走的,否则会占据比较大的空间影响硬盘使用和降低系统的性能。1.1.2架构设计对系统大并发高性能的保证一个好的架构设计时保证系统可靠、稳定、高效运行的基础。从架构设计上考虑系统的性能问题,其目标主要保证:l并发用户数l吞吐量l稳定性l安全性也就是说,让系统更快更好的为更多用户提供服务,并保证服务过程不会中断。为了达到以上目标,系统设计中采用以下方: 1.1.1.1分层设计如之前提到的,系统采用四层架构设计:l数据层:整个系统的最底层,由网络及硬件平台、操作系统、关系数据库、文档库、索引库等部分组成,作为系统底层数据的存储平台。l数据管理层:数据管理层是针对底层数据的管理和服务层,本身与业务逻辑无关,为上层对于数据的访问提供服务。l业务逻辑层:是对系统业务的实现,通过数据管理层完成对底层数据的操作,实现业务功能,为应用层提供服务。l应用层:为面向用户的应用界面及接口服务,包括Web应用程序,管理工具/服务,应用服务接口API。在此四层客户机/服务器模式上架构的应用系统不但具备了大型机系统稳定、安全和处理能力高的特性,同时拥有系统开发成本低、可扩展性强、开发周期短等优点。对于业务逻辑层,系统又可以将之分为控制框架层、业务组件层。控制框架层管理业务组建的装配和调用,是业务逻辑层的核心引擎。业务组件层集中了各种实现业务逻辑的组建;、而数据管理层,系统又可以将之分为数据访问层和相关资源层。数据访问层封装对数据存储的各类访问操作;相关资源层包括了各种相关应用支撑功能,如:缓存、对象池、线程池、消息、日志等。通过系统的分层设计,改变了传统信息系统的大而一的结构弊端,区别系统的功能属性与非功能属性,将不同的功能交给相应的功能模块来完成。在系统用户量不大,业务量较小的情况下,分层系统的架构优势并不明显,但对于大数据量并发访问及业务量很大的情况下,通过在各层中合理的分散系统压力,能有效提升系统的整体性能,改变传统信息系统压力集中地缺点。同时,采用分层技术 架构,可以根据系统性能的具体需求,对不同的层次进行有针对性的优化处理。1.1.1.1同步处理与异步处理相结合的体系结构系统的业务处理模式通常采用直接的请求/应答方式进行同步处理,在系统运行高峰的时候,对资源的集中使用会造成系统的响应熟读急速下降。通过在系统架构中加入异步处理模式的支持,将一些业务功能通过异步方式加入工作队列中,在系统空闲的时候再从队列中获取工作任务进行处理,减少对资源的集中占用,保证在业务高峰期的系统响应性能。1.1.1.2数据缓存及对象池化技术在实际的业务处理中,数据库访问、网络传输以及新建对象都对资源有很大的开销,对于唯一标识符这种性能要求很高的系统来说,采用合理的技术减少高开销的资源访问时必须考虑的内容。系统采用数据缓存、对象池化等技术,将频繁访问的资源放在I/O性男女较高的载体上,减少集中和缓慢的I/O访问,从而达到提高系统性能的目的。1.1.1.3分布式处理模式多层体系结构将业务逻辑、数据存储和前端显示分割开来,使得系统层次更加分明,系统可扩充性、安全性得到大大提高,同时它也使得分布式计算得到广泛应用,使得系统的性能优于采用分布式计算而大大提高。采用分布式计算有多方面的技术优势,包括:l逻辑封装性这是分布式模式中最具诱惑力的特征,这种模式将以往C/S结构中全部由客户端完成的师父逻辑的一部分从客户端分开。当使用户需要动态改变一个应用软件的商业逻辑规则是,只要改变一个应用服务器的程序即可,而不需要更改客户 端用户界面,这样就无需中断用户,为最终用户重新发放新的界面软件或亲自上门为其安装调试并重新培训用户,提高了工作效率。这种多级模式对于需要经常、快速程序的应用行业很有帮助。l高性能采用分布式计算模式对性能的提高具有很明显的作用。系统将复杂的应用和逻辑分离出来,有专门的一台或多台应用服务器来处理,既可以提高应用程序的执行速度,也可以减少网络调用的通讯量。l安全性在分布式计算模式中,由于所有的业务逻辑都驻留在服务器端,信息管理部门就可以十分方便的监控服务器的运行情况,很容易的控制访问服务器以及与服务器应用打交道的人员数量。可以大大简化管理员对系统的管理,减轻系统维护的工作量,并保证个系统的可靠运行。因此,针对唯一标识符系统的特点,在系统架构设计时,应充分考虑分布式计算的特点,通过应用服务器及其集群技术,将计算逻辑合理分布以保证系统的性能。1.1技术标准和业务标准1.1.1Java/J2EE跨平台技术运用目前业界先进的基于Java/J2EE技术,版权信息管理系统成为真正意义上的跨平台的管理系统。基于标准J2EE规范开发,运用丰富的设计模式(工厂模式、单态模式等),采用JavaBean的业务逻辑封装,采用JSP/Servlet的表现逻辑设计。J2EE平台提供了一个基于组件的方法,来设计、开发、装配及部署企业应用程序。J2EE平台提供了多层的分布式的应用模型、组件再用、一致化的安全模型以及灵活的事务控制。软件提供商不仅可以比以前更快的速度向市场推出创造性的客户解决方案,而且,这种平台独立的、基于组件的J2EE解决方案不会被束缚在任何一个厂商的产品和API上。 下图是J2EE标准组件及其相互关系的示意图:1.1.1MVC模式设计本系统各单元在设计上均符合MVC模式,把程序分为三个核心模块:模型、视图和控制器,分别负担不同的任务。下图显示了这几个模块各自的功能以及它们的相互关系: 1.1.1XML技术XML是eXtensibleMarkupLanguage(可扩展置标语言)的简称,出现于1996年,并于1998年成为W3C正式推荐标准。XML具有一系列优点,主要表现在以下几个方面:n良好的可扩展性n内容与形式的分离n遵循严格的语法要求n便于不同系统之间信息的传输n具有较好的保值性版权信息管理系统的构建以XML技术为基础:基于XML格式数据的导入/导出基于XML格式的系统配置基于XML格式数据交换,内部的模块级信息交换 基于XML格式的接口定义,接口级信息交换都使用了XML信息格式1.1.1SOA技术架构面向服务的体系结构(Service-OrientedArchitecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种这样的系统中的服务可以一种统一和通用的方式进行交互。SOA服务具有平台独立的自我描述XML文档。Web服务描述语言(WSDL,WebServicesDescriptionLanguage)是用于描述服务的标准语言。SOA蓝图SOA服务用消息进行通信,该消息通常使用XMLSchema来定义(也叫做XSD,XMLSchemaDefinition)。消费者和提供者或消费者和服务之间的通信多见于不知道提供者的环境中。服务间的通讯也可以看作企业内部处理的关键商业文档。在一个企业内部,SOA服务通过一个扮演目录列表(directorylisting)角色的登记处(Registry)来进行维护。应用程序在登记处(Registry)寻找并调用某项服务。统一描述,定义和集成(UDDI,UniversalDescription,Definition,andIntegration)是服务登记的标准。 每项SOA服务都有一个与之相关的服务品质(QoS,qualityofservice)。QoS的一些关键元素有安全需求(例如认证和授权),可靠通信(译注:可靠消息是指,确保消息“仅且仅仅”发送一次,从而过滤重复信息。),以及谁能调用服务的策略。1.1.1ESB总线ESB全称为EnterpriseServiceBus,即企业服务总线。它是传统中间件技术与XML、Web服务等技术结合的产物。ESB提供了网络中最基本的连接中枢,是构筑企业神经系统的必要元素。ESB的出现改变了传统的软件架构,可以提供比传统中间件产品更为廉价的解决方案,同时它还可以消除不同应用之间的技术差异,让不同的应用服务器协调运作,实现了不同服务之间的通信与整合。从功能上看,ESB提供了事件驱动和文档导向的处理模式,以及分布式的运行管理机制,它支持基于内容的路由和过滤,具备了复杂数据的传输能力,并可以提供一系列的标准接口。ESB的五个基本功能:1)服务的MetaData管理:在总线范畴内对服务的注册命名及寻址管理功能。2)传输服务:必须确保通过企业总线互连的业务流程间的消息的正确交付,传输还包括基于内容的路由功能。3)中介:提供位置透明性的服务路由和定位服务;多种消息传递形式;支持广泛使用的传输协议。4)多种服务集成方式:如JCA,Web服务,Messaging,Adaptor等.5)服务和事件管理支持:如调用服务的记录、测量和监控数据;提供事件检测、触发和分布功能;ESB的八个扩展功能:1)面向服务的元数据管理:他必须了解被他中介的两端,即服务的请求以及请求者对服务的要求,以及服务的提供者和他所提供的服务的描述;2)Mediation:它必须具有某种机制能够完成中介的作用,如协议转换;3)通信:服务发布、订阅,响应请求,同步异步消息,路由和寻址等;4)集成:遗留系统适配器,服务编排和映射,协议转换,数据变换,企业应用集成中间件的连续等。 5)服务交互:服务接口定义,服务实现的置换,服务消息模型,服务目录和发现等。6)服务安全:认证和授权、不可否认和机密性、安全标准的支持等;7)服务质量:事务,服务的可交付性等;8)服务等级:性能、可用性等。1.1.1HandleSystemHandlesystem是一个多用途的全球命名服务,用来在公众Internet网上进行安全的名字解析和管理。所谓Handle,就是对数据对象和其它Internet资源的一种唯一表识。  Handlesystem是一个分布式的信息系统,用来提供有效的,可扩展的,安全的全球命名服务,它建立在Internet架构之上,Handlesystem包括开放式协议,命名空间和一个对协议实现的引用。这个协议使分布式计算机系统存储数字对象和服务的HANDLE,把这些HANDLE解析成必要的信息形式,以便定位,获取,和充分利用。这些相关联的属性能够按需改变,来反映确定资源的当前状态,而不用改变它的Handle值。这样一来,就可以保证数据对象的命名持久性,使其分离于该数据对象的位置及其它当前状态属性的改变。每个Handle在分布式的环境中都有它自己的管理者和管理机构,且名字到属性的绑定可以是安全的,因此可以在信任管理应用中所使用。  Handlesystem提供了联邦式的命名服务,允许现存的本地命名空间通过获取唯一的Handlesystem命名权整合到全球的handle命名空间。本地的名字和它们的值绑定后加入了Handlesystem以保持完整性。任何对本地命名空间的Handle请求可以被使用Handle协议的服务接口所处理,把Handle请求映射到具体名字。一旦和全球唯一的命名权利机构联系起来,任何本地名字在全球命名空间中就可以保持唯一性。     图2从本质上讲,Handlesystem实际上是一个对象和服务的命名服务。它包括两大部分。数字对象的命名和服务的提供。下面就重点介绍这两部分。 Handle的命名空间  Handlesystem提供的服务  Handlesystem的几大要素 Handle的命名空间每个Handle拥有自己的命名空间。每个Handle包括了两个部分;命名权,或者称为它的前缀。以及在命名权之下的一个本地名字。或者称为它的后缀。命名权和本地名字被ASCII字符“/“所分割。因此一个Handle可以定义如下:  ::="/"  例如“16。1111/auguest99—overview”是一篇华东师大MMIT实验室Bitlibrary中的文章。它是由Handle命名权16。1111所定义,它的本地名字是auguest99--overview。Handle命名空间可以被看成是许多本地命名空间的超集。每个本地命名空间都有它自己的命名权。所谓命名权就是创建相关联Handle的管理单位。该命名权在全球是唯一的。在命名权下的本地名字集合称之为本地命名空间。任何本地名字在本地命名空间中必须是独一无二的。由命名权的唯一性 和本地名字的唯一性来确保在Handle系统中的上下文可理解性。  Handle命名权被定义成分级制。例如一个树状结构。每个节点和叶子被给予一个标签,相对应于命名权的一个分段。父节点表示了于节点的父命名权。不象DNS,handle命名权的表示方式被构造成自左向右,从树的根节点的标签开始,自顶向下,一直连接到当前节点的标签。每个标签用ASCII的“。“来分割。例如:对Bitlibrary中的LocalDigitalLibraryProgram而言,应定义成bitlib。1dlp。而从DNS的角度而言,应为ldlp。bitlib。Handlesystem提供的服务Handle系统中定义了一个分级服务模式。最上层是一个单独的全球服务,称为 globalHandle registry。以下各层包括了所有其他的Handle服务,一般称作本地Handle服务。Globalhandleregistry提供了一个全球Handle服务(解析)且能用来管理任何命名空间。由于它提供了管理Handle命名权的名字空间,因此它在Handle服务中是唯一的,这些命名权的Handle的状态信息就是所谓的服务信息,客户机既可以向全球handleservice或本地handleservice提出解析请求,用来获取和利用相关的服务。其优化策略基于时间和准确度的折衷。图2就是本地Handlesystem的一个组件模型。主服务器有两个查询服务器允许客户端应用程序与handlesystem刘话井解析handle。该例中,客户端使用可以识别handle的Web浏览器。客户端应用程序与handle查询服务器(HQShandlequeryserver)通信,该通信是通过UDP发送的XDR编码请求。如果客户端位于防火墙后,请求应通过TCP发送到TCP查询服务器,由TCP查询服务器将查询传给HQS,然后将响应返回给客户端。主handle服务器包括一个Webserver,其作用是允许通过Web表格管理handle。Webserver利用cgi—binscripts和服务器上维护handle的守护进程通信。主handle服务器有两个handle数据库,handle数据库存储handle和关联类型化数据。handle管理数据库保存每个handle的管理或发布许可信息。  Handle系统的另一个重要方面就在于它的分布式特性。Handle系统总的来 说包扩了一系列单独handle服务,而每个handle服务物理上包括了一系列站点。每个站点完全复制了某个Handle服务。对于各个站点而言,可包含单个或多个服务器。很容易把它想象成一个图,是节点和边的集合。节点是client或server,边是对应的通讯链路。而在每个站点上,Handle是均匀分布的,使得系统的负载被均匀的分担。综上所述,作为一个完善的自成体系的Handlesystem,应具有以下特点。  ·唯一性。每个Handle是全球唯一的。  ·持久性。Handle并不是从它所引用的实体的名字所得出的。而是独立分配的。例如,当一个命名资源从一个地点到另一个地点时,只要所有权不改变,handle就可以在handlesystem中通过更新相应属性r6来反映。  ·多实例:一个单独的Handle能够指向一个资源的多个实例。应用能够利用这一点来增加解析的可靠性和性能。  ·扩展的命名空间:新的本地名字空间可以通过获得一个唯一的handle命名权而加入全球命名空间,从而避免和现存命名空间发生冲突。而且使用命名权可以允许服务授权(包括解析和管理)给本地Handle服务。  ·分布式服务模式:Handlesystem定义了一个分级服务模式,任何本地Handle命名空间可以被相应的本地服务器或全球服务器所服务。  ·安全的命名服务:Handle协议允许服务器端授权客户器,并按照客户器的请求提供数据的完整性。公共密钥技术可以被使用以避免窃听者伪造客户请求和服务器响应。  ·高效的解析服务:Handle协议被设计用来提高命名解析的性能。要使解析避免被大量耗用资源的管理服务所影响,对于名字解析和管理定义了不同的服务接口(服务器进程和它们相关联的通讯端口)1.1.1DOI(DigitalObjectUniqueIdentifier-DOI)国外的数字文献生产商较早采用唯一标识符来标识其出版的电子文献,并形成了很多应用在不同环境下的标识符方案。例如:连续出版物及其单篇文献的标识SICI(SerialItemandContributionIdentifier)、图书及图书内的内容片断(章节、前言、索引、段落)的唯一标识符BICI(BookItemandContributionIdentifier )以及出版物件标识符PII(PublisherItemIdentifier)等。但是大多标识符方案仅仅定义了标识符名称空间及标识符构成机制,尚未构成一个完整的包含解析系统的标识符系统。相对于这些唯一标识符,美国出版协会(TheAssociationofAmericaPublishers,简称AAP)建立的DOI在技术上比较成熟。它主要是针对因特网环境下如何对知识产权进行有效的保护和管理而产生的。1998年AAP创立非盈利性组织IDF,IDF在CNRI的配合下,制定了DOI标准和相应的解析系统HandleSystem。目前已有上千万个已经分配并解析的DOI号码,8个RA(DOI注册代理机构,其中中国科技信息研究所和北京万方数据研究院联合申请为8个代理之一)和几百个使用单位,跨越了美国、欧洲和澳大利亚以及一些非英语国家,应用领域也扩展到政府部门。目前国外Elsevier、Blackwell、JohnWiley、Springer等大型出版商大多使用DOI对数字资源进行标识,形成了比较完整的命名、申请、注册、变更等管理机制,DOI的解析系统发展也比较成熟。在此基础上,一些生产商相继推出各种与DOI相关的增值服务。例如CrossRefSearch结合Google检索技术与DOI系统的定位服务,实现了CrossRefSearch检索结果到生产商全文之间持久、有效的链接。国内使用DOI尚处于初级阶段,基本都是些自定义的惟一标识符方案,还没有成熟统一的标识符解析系统。2007年初,中国科学技术信息研究所和万方数据联合向IDF(国际DOI基金会)申请取得了DOI的中文注册权,并在此基础上成立了中文DOI注册中心,成为中文信息服务领域的第一个国际DOI基金会(IDF)组织下的中文代理。建立并负责运作中文DOI的推广与应用,作为第一个中文合作式参考链接服务。万方数据研究院则是注册中心的日常管理基地。中心的任务与目标是通过与国内外相关机构的合作,推进DOI在国内出版界、信息服务界的应用,并积极探索通过DOI实现中文与英文文献资源的链接;中心不仅提供DOI的注册服务,而且还通过建设一个DOI中文应用平台与门户网站,提供基于DOI命名及应用相关的增值服务。在信息资源整合的基础上通过DOI系统提供更多的附加服务。l唯一性DOI标识符作为数字化对象的识别符,对所标识的数字对象而言,相当于人的身份证,具有唯一性。这种特性保证了在网络环境下对数字化对象的准确提取, 有效地避免重复。l持久性一个数字化对象的DOI标识符一经产生就永久不变,不随其所标识的数字化对象的版权所有者或存储地址等属性的变更而改变。l兼容性DOI标识符的兼容性体现在DOI号码的后缀中可以包含任何已有的标识符,例如国际标准书号ISBN,国际标准刊号ISSN,国际标准文本代码ISTC,出版物件标识符PII等。l互操作性DOI的处理系统可以与任何因特网上不同的计算机操作系统在处理同一数据时能保持一致,能与不同时期的技术系统兼容。l动态更新DOI系统可对其元数据、应用和服务功能进行快速和简便的动态更新。DOI的主要目的是唯一标识网络环境下的各种信息资源实体(Entity),包括各种物理和数字资源。DOI是从统一资源定位符(UniformResourceLocator,URL)发展而来,被称为“下一代URL”。它与URL的最大区别就是实现了对资源实体的永久性标识。DOI的形式DOI的编码方案(即美国标准ANSI/NISOZ39.84-2000)规定,一个DOI有两部分组成:前缀和后缀,中间用“/”分割。对前缀与后缀的字符长度没有任何限制,因此理论上,DOI编码体系的容量是无限的。DOI前缀由两部分组成,一个是目录代码,所有DOI的目录都是“10.”,即所有DOI代码都以“10.”开头。另一个是登记机构代码,任何想登记DOI的组织或单位都可以向IDF申请登记机构代码。登记机构代码的分配也是非常灵活的,如一个出版商可以为其所有的信息资源只申请一个前缀,也可以为其数字图  书、音像制品各申请一个前缀。DOI后缀是一个在特定前缀下唯一的后缀,由登记机构分配并确保其唯一性。后缀可以是任何字母数字码,其编码方案完全由登记机构自己来规定。后缀  可以是一个机器码,或者是一个已有的规范码,如ISBN号或ISSN号。 2007年3月,IDF正式授权中国科技信息研究所&万方数据,成立中文DOI注册机构。DOI对图书馆的意义电子期刊数据库已成为图书馆虚拟馆藏建设的发展方向,从图书馆自身角度来说,随着馆藏电子期刊种类和数量的增多,极希望能在不同的电子期刊数据库之间、电子期刊数据库与文摘数据库或自建数据库之间实现无逢链接,从而实现图书馆电子信息资源的深层次整合。通过使用DOI可以帮助图书馆更加有效的实现如下功能:有助于实现链接的本地化,可以把中文DOI系统作为本地化链接方案的一部分,通过提供指向馆藏全文信息的永久性链接来增加已获得资源的可用性、丰富其在线书目及数据库资源;可以提供链接的扩展服务,图书馆会员可为学术研究、教育、个人的、非商业化的目的使用DOI及相应元数据;提供一个对不同文献数据库的通用管理入口;通过标准的方式将不同的数据库集成;享受高效率的单边链接协议;享受低成本的扩张,实现自有文献资源使用效益与覆盖范围的快速增长;享受标准化带来的方便,实现二次文献、文摘信息及集成信息等与一次文献的无缝集成;实现中西文文献的有效链接。1.1系统的特点1.1.1灵活性l架构的灵活性SOA通过把松散耦合的组件当作服务来实现灵活性。系统基于SOA架构,通过接口和协议的标准化,在系统伸缩、功能和模块扩展,以及系统应用的重组方面提供很好的灵活性。l元数据配置的灵活性 系统后台注册数据配置模块中,提供了对元数据配置管理功能。可以对包括唯一标识符的基本属性、元数据属性、属性类型等多种内容提供自定义配置,从而实现对唯一标识符数据的灵活管理,达到对多类型数据的支持。l相同内容,不同数字格式的资源的灵活配置同一种资源被数字化为多种数字格式,如tif和pdf格式,是作为同一种对象,还是作为不同的数字对象,可以跟据国家图书馆的要求灵活配置。如果作为同一种资源对象,用一条元数据记录对其进行描述,那么久给其分配一个唯一标识符,同时需要在元数据记录中记录不同格式对象的URL地址,并且要求元数据描述信息中能区分每个URL地址所对应的格式。唯一标识符解析系统解析该唯一标识符时,提供用户多个数字格式的URL地址,用户可以根据权限和需要选择不同的格式访问资源。如果作为多种对象对待,每种格式对象对应有一条元数据记录,那么就分别对不同的数字格式对象分配唯一标识符,用户引用不同格式的对象的唯一标识符,解析系统解析该唯一标识符时,通过记录在对象元数据中的对象URL地址直接调用该数字格式的对象。l接口的灵活性系统中的唯一标识符服务接口集部分,对外提供了本系统中包含的主要功能接口,从而使其他因公可以灵活的对接口提供的功能进行再组织。如版权信息检索接口、版权信息登记接口、版权信息更新接口等等。l数据展现的灵活性系统中关键模块中提供了展现模板配置功能,通过对模板的灵活配置,实现展现效果的丰富多彩。如版权基础信息库检索导航模块、检索界面模块等等。l功能模块配置的灵活性系统后台提供了强大的配置管理功能,管理员可以对本系统中的主要功能模块进行灵活的配置,实现不同级别的用户展现不同的功能。l数据提交的灵活性数据提交处理提供了用手动方式和自动方式两种选择,可结合实际需要灵活使用。此外,结合版权信息库转换配置功能,可以灵活的对不同种类的 提交数据格式进行定制和修改。l物理资源按照唯一标识符规范,物理资源也可以分配唯一标识符。数字资源通过唯一标识符解析系统,可以直接调用数字对象。与数字资源不同的是,物理资源通过唯一标识符解析系统无法直接调用到物理对象,通过解析系统调用到该物理资源的详细元数据信息,比如书目数据等。离线数字资源,如光盘、磁带等实际上是不能通过唯一标识符系统直接调用的,从唯一标识符的分配和服务上采取与物力资源相同的处理方法。l简单对象与复合对象如果多个简单对象被重新组合为一个复合对象简单对象的元数据记录和已分配的唯一标识符继续保留,同时为复合对象重新编制一条元数据记录,并分配唯一标识符。在元数据记录中可以描述复合对象与其所包含的简单对象的关系。1.1.1可扩展性l架构的可扩展性系统采用模块化设计,遵循SOA架构,从而保证了系统功能上是可伸缩和可扩展的。l多数字资源复本的可扩展同一个数字对象可能存放在多个资源库中,有多个数字复本,有多个访问地址。比如,分别来自方正与超星的同一版本图书的数字资源,那么需要对来自不同来源的同一数字对象进行元数据描述,在同一条元数据记录中记录多个来源的URL地址,而不是多条元数据记录。当解析系统解析唯一标识符是,通过多解析机制,可以有选择的访问存放在不同地址中的对象。l不同粒度层次资源的可扩展按照唯一标识符规范,可以对任何粒度层次的资源分配唯一标识符。比 如可以对一种期刊从整体上分配唯一标识符,也可以对期刊中的某一期分配唯一标识符,甚至可以对某一期中的每一篇论文分配唯一标识符。再比如可以对一首乐曲分配唯一标识符,也可以对这首乐曲中的一段音乐分配唯一标识符。在各种粒度层次上分配唯一标识符都是可以的,重要的是只要一个对象分配了唯一标识符,就需要有对应的元数据对其进行描述,在元数据中揭示该对象的唯一标识符,也通过元数据揭示不同粒度层次对象之间的关系。l数据的可扩展性数据的可扩展性包含两部分:首先是数据类型的可扩展性。系统通过后台注册数据信息的可自定义、数据接收时的适配器策略等,保证了数据类型的可扩展性。其次是数据量的可扩展性。系统采用Orcale进行数据存储管理。Orcale支持分布式的数据处理,从而保证了数据量的可扩展性。此外,在数据接收时可以指定目标目录,因此对对象数据来说,数据量的扩展只需增加物理存储设备即可。l部署的可扩展性系统的所有子系统都部署在PowerVM虚拟机上。利用IBM提供的PowerVM虚拟化技术,可以动态调整和扩展虚拟机资源配置,达到资源的最优配置。当系统访问量增加时,只需要增加服务器就可满足系统性能的扩展,而不需要修改软件。1.1.1高可用性l系统功能的高可用性系统中采用人性化设计理念,例如版权信息检索时的关键词提示、拼音检索等功能,从而简化了用户操作,提高了系统功能的可用性。l数据提交接收的高可用性数据提交接收时通过对数据的接收的内容进行检查校验,并提供了详尽的日志记录,便于用户追踪和查找问题,保证了数据接收内容的完整性和可 用性。l部署方式的高可用性系统采用虚拟化方式进行部署。通过Web服务器集群,结合负载均衡策略,防止出现单点故障,提高系统效率和可用性。通过OracleRAC技术,配置数据库集群实现负载均衡,提高数据库吞吐量,提供故障容错和无缝切换功能。通过OracleDatagurad技术建立备份数据库,提供冗灾、数据保护和故障恢复能力。1系统功能方案1.1唯一标识符管理子系统唯一标识符管理子系统包含五大模块:l唯一标识符生成模块lURL维护模块l唯一标识符解析模块l注册数据维护模块l唯一标识符服务接口集 唯一标识符管理子系统功能图1.1.1唯一标识符生成模块唯一标识符生成模块主要包含注册数据提交、数据格式校验、数据查重、生成唯一标识符等四大功能。模块间关系如下: 唯一标识符数据生成流程图l用户提交数字资源注册信息;l校验用户提交的数据格式,检查数据的准确性;l通过注册数据的重复性检查,保证申请的数字资源的唯一性;l通过重复性检查的注册数据传送到元数据管理模块,并根据唯一标识符分配原则生成数字资源的唯一标识符;l之后返回注册数据的提交结果及生成的数字资源唯一标识符;l生成的唯一标识符及提交的数字资源元数据信息被保存到元数据存储模块中。1.1.1.1提交注册数据唯一标识符系统注册数据包括两类:唯一标识符系统管理员针对用户分配的注册数据和用户提交的注册数据。 注册数据批量提交流程l唯一标识符系统管理员针对用户分配的注册数据如下:1)注册机构代码:按照《国家图书馆数字资源唯一标识符规范》要求采用文献情报机构代码,本字段必备且唯一;2)系统编号:应用系统的系统标识号,本字段必备且在同一个注册机构下唯一。l用户提交的注册数据如下:1)系统内部唯一号:系统内部标识对象的标识号;2)MARC记录标识号:MARC记录001字段;3)名称:标识对象最通常被使用的名字,如题名;4)作者;5)ISBN:国际标准书号;6)ISSN:国际标准连续出版物编号;7)出版者;8)出版时间;9)标识对象格式:如PDF、TIFF、JPG等;10)标识对象类型:标识对象类型的说明,如一个声音文档,期刊,数据集,论文等,资源类型代码参照《国家图书馆数字资源唯一标识符规范》;11)URL:资源的URL地址; 12)标识粒度:标识对象的粒度;13)描述信息:描述标识对象的信息,如一套丛书、单册图书、目次、某几页、单页以及单页中的一幅图片、公式等。必备字段:系统内部唯一号(在同一注册机构同一系统下唯一)、URL(本字段在唯一标识符生成时可以为空)、名称。有则必备字段:作者、MARC记录标识号、ISBN、ISSN、出版者、出版时间、标识对象格式、标识对象类型、标识粒度、描述信息。l手工录入提交功能描述:注册数据登记可采用单个录入方式登记。实现方案:系统可以通过前台页面进行手工数据提交工作。用户填写好相应的注册信息即可提交,并返回提交成功与否的提示。手工提交仅支持单条记录的形式。l批量自动提交功能描述:注册数据登记可采用批量的方式自动提交注册。实现方案:系统采用接口的方式实现对批量数据的登记注册,并在页面上实现批量提交导入功能。系统会记录每条数据成功与否的信息,并通过接口的方式返回该信息。批量提交支持的数据类型采用XML格式。1.1.1.1数据格式校验l数据格式校验功能描述:按照唯一标识符数据字段、格式和内容的要求对数据进行格式校验。校验的工作内容是检查数据文件格式是否符合要求、字段信息是否完整、数据内容是否符合要求等,合格数据进入后面的流程。如果数据不 合格,则退还给数据提供者。实现方案:系统根据后台唯一标识符数据库中对唯一标识符信息的数据字段项、数据类型、非空字段的定义等,对提交的数据进行必要的检查。检查结束后,生成检查结果列表信息。1.1.1.1数据查重l数据查重功能描述:根据注册数据提供提示性查重功能,系统应返回错误报告。实现方案:系统可根据提交的数据先生成唯一标识符,之后通过唯一标识符进行数据查重,如果数据重复,则返回错误信息。1.1.1.2生成唯一标识符l生成唯一标识符功能描述:系统根据国家图书馆对唯一标识符生成规则的要求,生成唯一标识符。 实现方案:系统通过生成前缀、后缀,之后进行组合拼接的方式,生成唯一标识符ID。详细规则如下:前缀包括两部分,由若干子命名授权段组成:第一部分由一级子命名授权段构成,为中国唯一标识符命名授权,采用cdoi;第二部分由若干级子命名授权段构成,为注册机构代码,每级采用6位编码命名,比如说中国国家图书馆代码011001,山东省济南市图书馆代码000031.000001。具体注册机构代码待承建商入场后再进一步明确。前后缀分隔使用英文半角的向前斜线“/”。后缀采用“系统编号.系统内部唯一号”的形式。“系统编号”为各应用系统或数据库标识号,由唯一标识符系统统一分配,采用六位编码,编码范围000001-000999。“.”为英文半角。“系统内部唯一号”为各应用系统或数据库内部数据的唯一标识号,由各应用系统或数据库内部指定。比如说我馆文献数字化加工系统编号为000001,该系统内的某一条注册数据唯一号为2009010001,那么它的唯一标识符为“cdoi.011001/000001.2009010001”。唯一标识符使用ISO/IEC10646字符集,字符串使用UTF-8规则编码。对于我馆以外单位使用本系统,如果对方资源已有唯一标识符,则将其唯一标识符直接做为后缀,然后按照本系统前缀生成原则生成唯一标识符前缀,组成唯一标识符;如果对方资源没有唯一标识符,则由系统管理员为其分配帐户,按照我馆资源生成唯一标识符流程进行。要求系统保持原始数据原有的大小写组成,但是在查询、查重等操作时对大小写不敏感。特殊情况:同种文献相同来源,即相同的加工单位生产的相同数据,唯一标识符生成规则如下:(1)对于相同格式相同文件大小的复本,复本不予考虑;(2)对于不同格式的文件,如PDF、TIFF等,注册不同的唯一标识符;(3)对于存放在不同应用系统的数字资源,系统可以存放多个URL地址。 1.1.1.1返回唯一标识符l返回唯一标识符功能描述:系统将成功生成的唯一标识符返回用户并形成统计表,返回方式既支持下载也支持通过接口将唯一标识符提交给对应的用户。实现方案:系统可以提供页面下载及接口两种方式返回唯一标识符ID给用户。返回的数量与本次提交成功的一致。返回的形式采用XML文件格式,通过XML文件生成器生成数字资源元数据的XML文件,并根据已定义的XMLschema或DTD,对生成的XML文件进行有效性检查。检查合格的数据进入唯一标识符数据库,为检索查询提供服务。1.1.2URL维护模块单个URL维护流程 批量URL维护流程lURL编辑功能描述:系统可实现对自己提交的URL进行编辑的功能。实现方案:系统提供接口及前端页面等两种方式,实现对URL进行编辑修改工作。系统支持对单个或批量URL的处理,同时保留上一次的修改历史记录。lURL删除功能描述:系统可实现对自己提交的URL进行删除的功能。实现方案:系统提供接口及前端页面等两种方式,实现对URL进行删除的工作。系统支持对单个或批量URL的处理,同时保留上一次的修改历史记录。lURL增加功能描述:系统可实现对自己提交的URL进行增加的功能。实现方案:系统提供接口及前端页面等两种方式,实现对URL进行增加的工作。系统支持对单个或批量URL的处理。 1.1.1唯一标识符解析模块本系统参照Handle技术体系,通过客户端/服务器间的Handle传送协议完成对唯一标识符的解析功能。本系统中的解析模块主要由两部分组成。一是解析唯一标识符前缀的前缀解析器,以及解析唯一标识符后缀的后缀解析器。唯一标识符解析流程前缀解析器: 前缀解析器包括唯一标识符前缀解析、唯一标识符管理、唯一标识符生成、唯一标识符哈希表等四部分。用户根据约定的接口或文件格式,并将其传送到前缀解析器,再由前缀解析器生成唯一标识符前缀。生成前缀后将唯一标识符前缀与接收的信息保存。传送的唯一标识符通过唯一标识符前缀解析器找到相应的后缀解析器,并将唯一标识符传送到后缀解析器。后缀解析器:后缀解析器包括唯一标识符后缀解析、唯一标识符管理、唯一标识符生成、唯一标识符哈希表等四部分。 前缀解析器根据约定的接口或文件格式并将其传送到后缀解析器,再由后缀解析器生成唯一标识符后缀,生成后保存。唯一标识符解析是通过向唯一标识符系统提交一个唯一标识符或唯一标识符注册数据值,从而获取当前对象的一个或多个地址。唯一标识符解析分为正向解析和反向解析。l正向解析功能描述:正向解析是直接对唯一标识符进行解析,它分为简单解析和多重解析。简单解析要求每个唯一标识符只有一个可解析的URL地址;多重解析允许一个唯一标识符可解析到多个结果,用户可手工选择解析结果,比如对于存放在不同应用系统的相同来源的同一文献可以采用多重解析机制。实现方案:系统可以通过接口及页面返回两种方式,通过唯一标识符ID实现对URL的正向解析。当采用接口方式时,系统通过XML格式返回所有的URL地址供用户选择。l反向解析功能描述:反向解析是指可以根据注册数据反向解析唯一标识符,如果有多个解析结果,用户可以手工选择链接。实现方案:系统可以通过接口及页面返回两种方式实现对唯一标识符的反向解析。当采用接口方式时,系统返回所有的唯一标识符供用户选择。反向解析时,用户需通过XML格式提交所需的必要数据信息。l唯一标识符查询功能描述:唯一标识符查询是根据用户需要,查询相应的唯一标识符、注册数据信息和URL地址。实现方案:系统提供多种查询方式。默认查询是,用户输入关键字以后, 可以选择查询范围、数据库,并指定返回查询结果的条数。(1)用户可对唯一标识符ID进行检索,查询结果以列表方式展示。同时可查看相应的注册数据和URL地址。(2)系统提供单个或组合方式对注册数据信息进行检索,查询结果以列表方式展示。同时可查看相应的唯一标识符和URL地址。(3)用户可以根据唯一标识符、用户信息、URL修改日期等对URL进行检索。查询结果以列表方式展示。l二次检索功能描述:在检索结果中进行二次检索,缩小检索范围。实现方案:系统将检索对象作为一个实体,该对象实体支持多查询条件的递增,如需进行检索时,只需要更新查询条件即可实现,提高了检索效率。1.1.1注册数据维护模块l注册数据编辑功能描述:系统可实现对自己提交的注册数据进行编辑的功能。实现方案:系统提供接口及前端页面等两种方式,实现对注册数据进行编辑修改工作。系统支持对单个或批量注册数据的处理。l注册数据删除功能描述:系统可实现对自己提交的注册数据进行删除的功能。实现方案:系统提供接口及前端页面等两种方式,实现对注册数据进行删除的工作。系统支持对单个或批量注册数据的处理。l注册数据增加 功能描述:系统可实现对自己提交的注册数据进行增加的功能。实现方案:系统提供接口及前端页面等两种方式,实现对注册数据进行增加的工作。系统支持对单个或批量注册数据的处理。1.1后台管理与维护子系统唯一标识符系统后台管理与维护部分主要包含系统配置模块、系统监控模块、用户管理模块、唯一标识符维护模块、数据备份与还原模块、数据库导出、日志管理模块、统计管理模块等,如图所示:1.1.1系统配置模块1.1.1.1注册数据配置唯一标识符注册信息主要包括注册基础信息数据和自定义数据信息两部分, 注册基础信息是唯一标识符系统必备,不可变的,需要在系统初始化时设定好。功能描述:提供注册数据字段的创建、修改、删除等配置功能。l注册数据属性定制²系统提供可视化的页面,提供注册数据属性增、删、该等定制功能,包括必要字段、可选字段,是否可用于检索,是否可用于排序等多种功能。如图所示:图1:属性定义界面原型²字段名(英文);为注册数据属性设置一个数据库字段名称,一般为一个英文字符串。系统不允许属性同名。²属性显示名;为注册数据属性设置一个属性名称,该名称用于界面显示,一般为中文字符串。²属性类型;为相应的数据库字段赋予字段类型,用户可在列表中选择,有如下类型:a.布尔型;该类型的属性只有是或否两个取值。b.整型;该类型的属性值可用整数表示。c.浮点数;该类型的属性值可用小数表示。d.字符串;该类型的属性值为一串字符串。e.多行字符串;该类型的属性值为字符串,而且为多行。f.枚举型;该类型的属性值可用有限的取值枚举。g.日期型;该类型的属性用来表示日期。h.用户;该类型的属性值是系统中有效的用户标识。i.流水号;该类型的属性值是流水号。j.文件;该类型的属性值是整数。 a.主题词;该类型的属性值是字符串。²字段长度;指以上类型的属性字段在数据库中所占长度。当属性类型长度为系统定义的固定长度时,如整型,用户不需要对该项进行设置,系统自动隐藏该项的输入。只有属性类型长度对系统来讲是可变的,系统将给出一个长度初始值,用户也可以根据实际需要赋予该项新的数值。²允许为空;该项为复选框,如果用户允许数据库中该字段的初始属性值为空值,则将该项置为选中状态,系统将不要求用户必须给该属性赋初值。否则如果该项为不选中状态,系统将要求用户给该属性赋初值。²初始值;用户为新属性所赋的初值,初值必须与属性类型相符合。²用于排序;该项为复选框,用户可以指定新属性是否用做排序。²用于检索;该项为复选框,用户可以指定新属性是否用做检索。在本系统的元数据搜索页面有检索的功能,该项的设置决定新属性是否可以被用来进行检索。²属性删除;属性删除仅仅是对属性做了删除标记,系统可以支持删除属性还原功能。1.1.1.1唯一标识符返回方式配置l唯一标识符返回方式配置功能描述:可以灵活配置各用户返回唯一标识符的方式(上传或下载)及传输形式。实现方案:系统支持对不同注册用户配置不同的唯一标识符返回方式及传输形式,包括下载或接口两种。详细需求还要在实际实现时细化。l数据同步功能功能描述:处理顶级系统与子系统的数据同步问题,可以在源库和目标库之间保持定时数据同步,以保证唯一标识符库中数据的及时更新。实现方案:系统提供唯一标识符数据同步服务功能。对指定的子系统中的 唯一标识符数据接收目录进行定时监控,自动进行接收处理。1.1.1系统监控模块l运行状况监控功能描述:监控及分析系统中各个功能模块的稳定性、安全性等运行情况。实现方案:运行管理模块是系统后台的一部分功能,采用页面的方式实现。系统根据运行日志进行统计分析,从而对系统各模块进行有效监控。l错误处理机制功能描述:提供数据接收过程中的数据出错的记录报告能力。实现方案:系统记录数据接收过程中的多种错误日志信息,包括数据检查、数据查重、数据入库等方面。1.1.2用户管理模块唯一标识符系统允许操作员和系统管理员使用。通过接口访问时,也应验证用户的身份信息。用户管理方式采用用户、角色、功能三个层次进行管理,通过将功能分配给相应角色,然后将角色赋给相应的用户,从而实现用户操作权限控制。用户授权操作可以通过界面自行定制,功能、角色、用户都可以通过界面进行定义。用户管理模块的主要功能及管理方式需要同国家图书馆统一用户管理系统结合使用,如图所示: l用户及用户组管理用户管理:支持查看、新建、修改、删除用户组,支持设置用户组的属性,包括有效期,人数上限,支持查看用户组内的用户信息,并能对组内的用户进行新增、删除、修改等操作。l权限管理功能范围管理:根据用户角色的不同,所能访问的唯一标识符系统的功能范围是不一样的,系统提供针对不同用户组设置不同唯一标识符系统功能的访问权限管理,指定用户组内的用户,只能访问设置范围内的功能模块。系统根据角色各自拥有的功能权限进行严格管理和校验,系统管理员登录需要进行IP限制。l用户角色级权限划分 n操作员:是指负责版权信息管理、版权统计等功能操作的永固。其中版权信息管理按照流程拆分为版权信息登记、版权信息审核、结算信息管理的功能块。可操作的功能由系统管理员进行选择和配置,操作员按照指定的一个或几个功能模块进行操作。n系统管理员:系统管理员具有整个系统功能权限,管理员可以将不同功能组合赋予不同用户。其中,单个或批量增加、删除和修改唯一标识符名称,即唯一标识符系统的最高级权限只能赋予系统管理员。1.1.1数据库备份与还原模块l数据备份功能描述:与远程灾备数据进行接口,完成数据的安全备份。实现方案:系统提供远程数据备份的功能。可以通过接口的方式将系统数据进行远程安全备份。l数据还原功能描述:与远程灾备数据进行接口,完成数据的还原。实现方案:系统提供数据还原的功能。可以将备份的数据进行还原。1.1.2数据库导出l数据导出功能描述:系统可以根据用户需要的范围灵活导出数据库内容。实现方案:系统提供导出范围设置界面,可以导出某段时期、某个用户、某种类型的数据。 1.1.1日志管理l日志管理功能描述:支持查看系统日志,提供清除日志、转存日志等功能。实现方案:n系统中各个功能模块都要具有完整的日志文件。n记录每个用户登录系统的IP、时间以及操作信息(生成、查询、解析、URL修改、唯一标识符维护、注册数据维护),可输出某种操作的用户、IP和时间,可通过单个或组合方式输出某个用户名称、IP或时间段的操作信息。n可定制输出单条或某个命名授权段唯一标识符的操作信息。n分别记录唯一标识符生成成功和失败的注册数据信息。n记录并分析系统的运行状况和错误信息,当系统发生错误时,系统可通过短信的方式自动通知系统管理员。1.1.2统计管理l统计管理功能描述:对用户的使用情况,版权信息利用情况,数据接收、同步、审核情况做各种统计报表。实现方案:n系统可以根据注册机构代码、系统编号、用户以及时间段等对唯一标识符的生成、解析和查询操作进行统计分析;n统计结果能以PDF、XML等格式定制导出,并且可以通过接口被其他系统调用;n满足用户的其他统计需求。统计效果图如下: 表格展示柱状图展示折线图展示 1.1顶层系统与分支系统系统采用分布模式在全国范围内部署系统,支持对分支服务机构的授权和管理。顶层服务部署完整的系统功能,分支服务根据实际需要选择相应的功能模块进行简化部署,各层服务机构还需要定期对数据进行同步,确保系统的安全和稳定。l顶层系统:部署在国家数字图书馆的唯一标识符系统。n管理n个分支服务机构,顶层服务机构可以对各分支服务机构进行命名授权,保存所有分支服务机构提交的注册数据,可以转发分支机构的解析请求,可以进行唯一标识符的查询。n数据同步:顶层系统通过数据同步接口,定期从各个分支系统中同步唯一标识符数据。l分支系统:包括各类图书馆和出版机构,每个分支服务机构管理着本命名授权下所有唯一标识符的注册和解析服务,并保存本命名授权下所有成功注册唯一标识符的注册数据,并提交注册数据至上一层服务机构。n注册唯一标识符:各分支服务机构在授权许可范围内可以向系统直接申请注册唯一标识符,也可以将注册数据提交给上层服务机构代为申请注册。n命名授权:各分支服务机构可以再向下进行命名授权。n查询解析:对于本地注册的唯一标识符可以直接解析,对于非本地注册的唯一标识符可通过递归查询解析。'