α文搜索
全文索引主要解决文字信息的搜索问题,结构化信息的检索依托数据库的索引技术实现,对于文档类的信息,就需要转换为结构化信息的全文搜索来完成。
为了提高索引的效率,应用了基于字典的关键词索引,引进分词技术,同义词和停止词技术,这样做主要目的是减少索引的个数,通过词的引入减少倒排序的存储来实现效率的提升。关键词的搜索,没有考虑字词之间的关系,没有语义方面的考量。
全文索引随着数据量的增大,会出现效率低下的问题,为了提高效率,会修改配置,降低索引的维度和次数来提高,例如给定关键词条索引,自动分析文档编写摘要,用摘要索引来代替全文索引。为了保证搜索匹配的效率, 有效的索引方法是十分关键的, 特别是需要考虑语义匹配的时候, 索引就会变得更为复杂。
一般来说的全文搜索服务,大体是基于字和关键词的,α文搜索提供基于语句的全文搜索服务。以文字为最小节点,以语句为分枝,建立语义树,提供基于语义树的全文检索服务。通过对语句进行语义特征编码,并结合数据库,来实现基于语义树的全文索引和搜索服务。
α文搜索主要是构建语义树,通过语义树的构建提供一种快速匹配语义的方法,根据语义和文档的关系,查找到相关的文档信息。
语义树的基本存储单元包括:最小语义单元,该单元的特征编码,前置单元的特征编码。
α文搜索提供windows和linux下的64位版本,系统c++编制,前端结合jquery、d3.js实现web页面。
支持数据库mysql系列和mongodb系列。
基本信息
- 软件名称
α文搜索
- 开发商
上海泥娃通信科技有限公司
- 软件平台
windows linux
- 软件语言
C++
- 软件大小
21M
基本内容
α文搜索是一款基于语句的全文检索服务系统,不再基于关键词,也不依赖分词服务,对语言的支持采用统一的标准,支持语言仅仅需要以下特点的:有最小的文字单元,语句可以切分。
对文字的搜索提供一种独有的方式,按系统的算法对文字进行特定的编码,组建索引时存到关系表word中,为语句位的提供语句标识;存储语句和文档的关系到docseg表中;文档存储到text表中。
主要的技术
特征编码:采用递增编码的方式进行,文字一的特征编码加上文字二进行特征编码,以此类推。
语义树:通过特征编码,文字,前特征编码构建语义树。
语句的最大匹配:查找的语句先进行特征编码,按最大化查找的方式进行,找不到递减查找,找到最大匹配后,顺着语义树再查找语句标识,找到则进行文档查找即可。
文档的查找;
给定文字的后续联想查找。提供查找文字的后续文字链接,方便进行新的查找。
基于web的方式提供服务,提供管理界面,编辑界面,可以编辑检索的内容。
语义树的建立。通过特定的编码方式,结合数据库的存储形成语义树,实现快速查找最大匹配的语句。
不需要分词。Utf8编码的方式切分字符,通过编码的方式存储文字在语句中的位置,关联上文,结合数据库实现文字的上下文查找。
适合大部分的语言文字。为设定的语言建立语义树,不设定的情况下为所有的语言建立语义树,适合的语言必须具备的条件,文字的分割和句子的分割。
数据存储。数据存储包括:语义树的存储,语句和文档关系存储,文档存储。
支持语言的混合查找,支持程序语言和科学公式的查找。
支持联想记忆查找。给定查找文字的后续文字,提供进一步的查找。
系统特色
1、自然语句搜索,搜索的内容按自然语句的形式进行最大化匹配后展示搜索的结果;
2、支持多语句的查找,语句之间的关系为“和”;