JIDIANBINGCHUANDANGAN
档案信息资源开发与利用
123
知识构建视角下
的档案信息资源开发策略
◎李侃
[摘要]知识创建是以知识发现、知识组织、知识导航为核心内容的资源构建思想。档案信息资源开发可以运用知识创建体系下的知识元抽取、本体语义标引、知识地图等新方法对档案信息进行知识化挖掘、组织和导航,通过知识元抽取对概念、原理、方法等类型的知识进行描述,本体语义标引进行标签化知识组织,知识地图对知识进行导航和检索,引导用户更加快捷地找到知识的详细信息和存储位置,提升档案知识服务水平。
档案是企业显性知识的“沉积容器”和隐性知识显性化的“编码工具”。编码化知识管理本质上是一种知识化的、高级的档案管理。早在1994年,特里·库克就提出,档案工作者应该从实体保管者向知识提供者过渡。档案工作者要运用知识管理、大数据等理念和技术,创新档案利用方式和方法,对档案信息进行深层次加工和知识化组织,以档案利用需求为导向,有针对性地主动为单位提供全方位、多层次的个性化档案信息,为企业决策和发展提供支持服务。
一、知识构建的概念
知识构建(KnowledgeArchitecture,KA)是基于信息构建(InformationArchitecture,IA)之上的更高层次的资源构建形式,其核心是知识发现、知识组织、知识标引、知识导航和知识检索的内容体系,它能使知识更易于理解和吸收,为用户提供比信息空间更高层次的知识空间,从事实—数据—信息—知识—智慧—创新的信息资源开发链来看,知识构建提供的是信息资源开发链较高层次的知识、智力,提供的是知识服务,如图1所示。
知识发现是从海量信息中挖掘知识单元的过程,其技术一般可分为两类:基于算法的方法和基于可视化的方法。按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本挖掘等。
2019.2
机电兵船档案
图1知识原型
知识组织是对知识进行整理、加工、组织标引等一系列组织化的过程,最终目的是希望通过对知识的有序化方便用户获取。知识标引是对知识组织产生的知识进行概括、标注,为用户提供可供检索的途径,与传统的文献著录标引不同,知识标引更加注重符合不同使用者的专业需要和使用习惯。
知识导航是通过知识技术为用户寻觅符合需要的知识,在了解与掌握用户的知识、信息技术需求基础上提供个性化的主动服务。知识检索是一种基于知识组织的能够实现知识关联、概念语义检索及语义内容理解的智能化的检索方式,强调基于语义的匹配,其实现离不开人工智能技术、认知科学及语言工程学的支持,是一种个性化、智能化的高级信息检索方式。相对于信息构建而言,知识构建强调知识与用户间的沟通,体现了知识的个性化特征。
二、知识构建理念对档案信息资源开发的
124
档案信息资源开发与利用
意义
传统档案信息资源的开发多是原始或表层
信息的组织。以专题数据库建设为例,大多是在传统载体档案数字化的基础上,对现有数字档案资源按照一定的主题进行的筛选和编排,如单位历届领导、技术专家和各种先进人物档案的专题数据库,产品或专项业务专题档案数据库,科技项目和成果专题档案数据库,单位的质量或安全事故专题档案数据库等。
此类开发方式侧重于为用户提供便利的检索条件,虽然也会有一定的知识成果产生,但对于档案内蕴含的知识的揭示仍然有限。而知识构建是基于知识层面的挖掘和开发,其独特的内容体系能够为档案信息资源开发提供新技术和新方法。知识发现、知识组织、知识检索等都能为档案信息资源开发提供方指导,从而提升信息开发的层次和水平,帮助用户成功地发现和管理知识,有效地解决用户的知识需求,催生和加速知识创新。
三、知识构建理念下的档案信息资源开发策略
(一)知识发现和获取——知识元抽取1.知识与知识元
知识按类型可分为知事(know-what,事实知
识)和知因(know-why,原理知识)、知窍(know-how,技能知识)和知人(know-who,人力知识)。知识元是构成知识结构的最小可控单位,用来表示一个个针对特定问题的解决方案,可以是概念、方法、规则、公理等数据或事实以及实例化的知识。众多的知识元通过一定的语义连接在一起,可以导致知识价值的增值,甚至是催生新的知识。通过知识元的链接和发掘各知识元的相关联系,是知识服务的重要手段和目的,可以以此来揭示知识元之间的各种关联,从而创造新的知识。
2.知识元结构体系
针对不同的用户需求,可以建立不同的知识元结构体系。第一,线性体系。即每个知识元之间是前驱和后继的关系,通常表现为因果联系。第二,树形体系。知识元之间是上下位
JIDIANBINGCHUANDANGAN
关系,通常表现为整体和部分的总分关系。第
三,网状体系。知识点之间不是规则的树形结构,各个子树之间还会有交叉,就成为了网状结构。这种结构体系非常复杂,大数据环境下的知识元抽取一般采用这种形式。
3.知识元抽取机制
知识元抽取可以采取人工或系统自动抽取的方式实现,后者一般通过文本扫描、分词、词频统计及权值计算的机制实现。
以科技报告为例,其作为一种重要的科技档案信息资源,对知识的创造和知识的应用具有重要的应用价值,其创新点反映了科学研究的创造性和科学性,是其内容的灵魂表现,所以基于创新点来建构知识元可以解决文本创新知识的有效发现和利用问题。文本的创新点可根据文本特征进行判断。一篇科技报告的文本特征主要体现在题名、摘要、引言、正文、结论和参考文献6个核心要素上,一般创新点分布在几个不同的要素中,并有一些特定的表达形式。通过特征提取发现文本创新点,抽取与创新点相关的特征语句组成不同层次的知识元结构,
判断相关度、选择合适的创新点知识元内容,可实现基于创新点的知识元抽取。
可以从不同维度对科技报告的知识元进行抽取,具体形式有主题知识元、问题知识元、理论(原理)知识元、方法知识元、概念知识元、模型知识元、案例知识元、算法知识元等。
(二)知识组织和标识——本体语义标引本体是将某一领域的知识进行抽象,形成一组该领域内的常用概念,以及概念间的关联,比如同义词、上下位词,形成一个具有兄弟关系、父子关系概念的树形结构。由于本体能够对概念关系进行处理,并通过概念之间的关系来表达概念语义,所以检索的查全率和查准率会得到提高。
普通的搜索引擎不考虑搜索关键词的语义,没有自然语言理解的过程,只是直接将关键词分词后在数据库中做匹配找到对应的结果然后返回。建立本体扩展的搜索词全文检索可以通过领域本体来理解搜索词的语义,在专业领
机电兵船档案2019.2
JIDIANBINGCHUANDANGAN
域知识的支持下,系统可以根据用户输入的关键词返回一个扩展词汇列表,并通过和用户交互,来辅助用户发现自己最想搜索的关键词,以达到搜索的最佳效果。
传统的档案信息资源开发的标引规则主要有分类标引、主题标引、关键词标引等,档案界传统的档案主题词表、档案分类表、档案主题分类表,以及专门领域的档案主题词表等,均可用来构建档案语义处理的初级本体,在此基础上根据用户需求的更深更动态的知识组织(标引),本体语义标引方法不仅能把文档隐含的语义信息显式表现出来,而且也能准确地为文档与领域及其所属类别进行较为准确的划分,同时也能体现出它与相关类别的语义关联度。这样,数据库内部文档之间就具有了语义关联关系,这是实现智能检索的语义推理功能的基础。
(三)知识导航和检索——知识地图知识构建中的知识导航具有知识连接的桥梁作用,可以指示用户方便快捷地查找所需资源,一般通过知识地图来实现。
1.知识地图的特征
知识地图最早是从情报学专家布鲁克斯提出的“认知地图”的基础上发展起来的,具有一些特征:第一,知识地图是查找所需知识的工具,它本身不是知识集合,是知识向导,其目的是促进知识的检索、利用和共享;第二,知识地图指向的是知识源,例如档案、资料、其它文献或专家;第三,知识地图不仅揭示知识的存储地,也揭示知识元之间的关系。
2.知识地图的要素
知识地图的核心要素一般包括:第一,知识元及其描述。抽取知识元并通过有关摘要、属性等描述知识元的内容、结构、使用条件等信息。第二,知识关联。揭示知识元之间的有机联系。第三,知识链接。通过本体语义标引建立知识索引系统,引导用户找到知识的详细信息和存储位置。
知识地图的绘制以知识获取和知识组织为前提,知识地图的绘制是知识获取、组织的进一步完善。知识获取、知识组织、知识地图三者之
2019.2
机电兵船档案
档案信息资源开发与利用
125
间的关系如图2所示。
图2知识获取、知识组织、知识地图三者之间的关系图
知识元抽取可以将档案文本中蕴含的概念、原理、方法等知识显性化。基于本体的语义关联可以拓展知识标引和检索的路径,提高查全率和查准率。知识地图可以让知识元和知识关联得以可视化地呈现。档案信息资源开发中综合运用知识构建的步骤和方法,有助于提升档案服务的知识化水平。
参考文献:
[1]黎春秀.基于知识构建实现的档案编研[J].档案时空,2011(6):36-37
[2]刘文科.基于知识构建的高校图书馆建设网站研究[J].江西图书馆学刊,2008(2):11-12
[3]姜永常.知识构建的基本原理研究(上)[J].图书情报工作,2009(2):106-110
[4]姜永常.基于知识构建的知识服务机理研究[J].情报资料工作,2011(2):76-81
作者简介:李侃,硕士研究生、法学硕士,馆员,任中国舰船研究设计中心舰船情报研究室副科长,业务分工:档案管理,研究方向:企业档案、知识管理。
(责任编辑谢晋)