• 1.摘要
  • 2.基本信息
  • 3.定义
  • 4.含义
  • 5.类型
  • 6.特点
  • 7.网页抽取
  • 8.应用意义

结构化信息

结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。 无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种

基本信息

  • 中文名

    结构化信息

  • 性质

    数据库所管理的信息

  • 特征

    互联网上出现的海量信息

  • 优点

    拥有大量的有价值的信息

定义

对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(RichMediaContent):如声音、影片、图形等。

含义

结构化信息与非结构化信息

我们可以把科技信息划分为结构化信息与非结构化信息。

结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理。

无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料 、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。

另一种定义:

对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operational content):如合约、发票、书信与采购记录;部门内容(workgroup content):如

文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(Rich Media Content):如声音、影片、图形等。

如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。对

于企业来说,企业内部,以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源,已越来越重要。

90%的信息和知识

在“结构化”世界之外,IT应用中还存在着一个“非结构化”的世界。对大多数企业来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资不菲建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner 也曾预言,对非结构化信息和知识的管理将会带来一个新IT应用潮流。

目前的非结构化信息处理类似于上世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MS WORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。