• 1.摘要
  • 2.基本信息
  • 3.基本内容
  • 4.主要的技术
  • 5.系统特色
  • 6.应用价值
  • 6.1.典型应用
  • 6.2.文字信息的检索
  • 6.3.联想语义
  • 6.4.语义树应用

α文搜索

全文索引主要解决文字信息的搜索问题,结构化信息的检索依托数据库的索引技术实现,对于文档类的信息,就需要转换为结构化信息的全文搜索来完成。

为了提高索引的效率,应用了基于字典的关键词索引,引进分词技术,同义词和停止词技术,这样做主要目的是减少索引的个数,通过词的引入减少倒排序的存储来实现效率的提升。关键词的搜索,没有考虑字词之间的关系,没有语义方面的考量。

全文索引随着数据量的增大,会出现效率低下的问题,为了提高效率,会修改配置,降低索引的维度和次数来提高,例如给定关键词条索引,自动分析文档编写摘要,用摘要索引来代替全文索引。为了保证搜索匹配的效率, 有效的索引方法是十分关键的, 特别是需要考虑语义匹配的时候, 索引就会变得更为复杂。

一般来说的全文搜索服务,大体是基于字和关键词的,α文搜索提供基于语句的全文搜索服务。以文字为最小节点,以语句为分枝,建立语义树,提供基于语义树的全文检索服务。通过对语句进行语义特征编码,并结合数据库,来实现基于语义树的全文索引和搜索服务。

α文搜索主要是构建语义树,通过语义树的构建提供一种快速匹配语义的方法,根据语义和文档的关系,查找到相关的文档信息。

语义树的基本存储单元包括:最小语义单元,该单元的特征编码,前置单元的特征编码。

α文搜索提供windows和linux下的64位版本,系统c++编制,前端结合jquery、d3.js实现web页面。

支持数据库mysql系列和mongodb系列。

基本信息

  • 软件名称

    α文搜索

  • 开发商

    上海泥娃通信科技有限公司

  • 软件平台

    windows linux

  • 软件语言

    C++

  • 软件大小

    21M

基本内容

α文搜索是一款基于语句的全文检索服务系统,不再基于关键词,也不依赖分词服务,对语言的支持采用统一的标准,支持语言仅仅需要以下特点的:有最小的文字单元,语句可以切分。

对文字的搜索提供一种独有的方式,按系统的算法对文字进行特定的编码,组建索引时存到关系表word中,为语句位的提供语句标识;存储语句和文档的关系到docseg表中;文档存储到text表中。

主要的技术

特征编码:采用递增编码的方式进行,文字一的特征编码加上文字二进行特征编码,以此类推。

语义树:通过特征编码,文字,前特征编码构建语义树。

语句的最大匹配:查找的语句先进行特征编码,按最大化查找的方式进行,找不到递减查找,找到最大匹配后,顺着语义树再查找语句标识,找到则进行文档查找即可。

文档的查找;

给定文字的后续联想查找。提供查找文字的后续文字链接,方便进行新的查找。

基于web的方式提供服务,提供管理界面,编辑界面,可以编辑检索的内容。

语义树的建立。通过特定的编码方式,结合数据库的存储形成语义树,实现快速查找最大匹配的语句。

不需要分词。Utf8编码的方式切分字符,通过编码的方式存储文字在语句中的位置,关联上文,结合数据库实现文字的上下文查找。

适合大部分的语言文字。为设定的语言建立语义树,不设定的情况下为所有的语言建立语义树,适合的语言必须具备的条件,文字的分割和句子的分割。

数据存储。数据存储包括:语义树的存储,语句和文档关系存储,文档存储。

支持语言的混合查找,支持程序语言和科学公式的查找。

支持联想记忆查找。给定查找文字的后续文字,提供进一步的查找。

系统特色

1、自然语句搜索,搜索的内容按自然语句的形式进行最大化匹配后展示搜索的结果;

2、支持多语句的查找,语句之间的关系为“和”;