α文搜索

全文索引主要解决文字信息的搜索问题，结构化信息的检索依托数据库的索引技术实现，对于文档类的信息，就需要转换为结构化信息的全文搜索来完成。

为了提高索引的效率，应用了基于字典的关键词索引，引进分词技术，同义词和停止词技术，这样做主要目的是减少索引的个数，通过词的引入减少倒排序的存储来实现效率的提升。关键词的搜索，没有考虑字词之间的关系，没有语义方面的考量。

全文索引随着数据量的增大，会出现效率低下的问题，为了提高效率，会修改配置，降低索引的维度和次数来提高，例如给定关键词条索引，自动分析文档编写摘要，用摘要索引来代替全文索引。为了保证搜索匹配的效率, 有效的索引方法是十分关键的, 特别是需要考虑语义匹配的时候, 索引就会变得更为复杂。

一般来说的全文搜索服务，大体是基于字和关键词的，α文搜索提供基于语句的全文搜索服务。以文字为最小节点，以语句为分枝，建立语义树，提供基于语义树的全文检索服务。通过对语句进行语义特征编码，并结合数据库，来实现基于语义树的全文索引和搜索服务。

α文搜索主要是构建语义树，通过语义树的构建提供一种快速匹配语义的方法，根据语义和文档的关系，查找到相关的文档信息。

语义树的基本存储单元包括：最小语义单元，该单元的特征编码，前置单元的特征编码。

α文搜索提供windows和linux下的64位版本，系统c++编制，前端结合jquery、d3.js实现web页面。

支持数据库mysql系列和mongodb系列。

基本信息

α文搜索是一款基于语句的全文检索服务系统，不再基于关键词，也不依赖分词服务，对语言的支持采用统一的标准，支持语言仅仅需要以下特点的：有最小的文字单元，语句可以切分。

对文字的搜索提供一种独有的方式，按系统的算法对文字进行特定的编码，组建索引时存到关系表word中，为语句位的提供语句标识；存储语句和文档的关系到docseg表中；文档存储到text表中。

特征编码：采用递增编码的方式进行，文字一的特征编码加上文字二进行特征编码，以此类推。

语义树：通过特征编码，文字，前特征编码构建语义树。

语句的最大匹配：查找的语句先进行特征编码，按最大化查找的方式进行，找不到递减查找，找到最大匹配后，顺着语义树再查找语句标识，找到则进行文档查找即可。

文档的查找；

给定文字的后续联想查找。提供查找文字的后续文字链接，方便进行新的查找。

基于web的方式提供服务，提供管理界面，编辑界面，可以编辑检索的内容。

语义树的建立。通过特定的编码方式，结合数据库的存储形成语义树，实现快速查找最大匹配的语句。

不需要分词。Utf8编码的方式切分字符，通过编码的方式存储文字在语句中的位置，关联上文，结合数据库实现文字的上下文查找。

适合大部分的语言文字。为设定的语言建立语义树，不设定的情况下为所有的语言建立语义树，适合的语言必须具备的条件，文字的分割和句子的分割。

数据存储。数据存储包括：语义树的存储，语句和文档关系存储，文档存储。

支持语言的混合查找，支持程序语言和科学公式的查找。

支持联想记忆查找。给定查找文字的后续文字，提供进一步的查找。

1、自然语句搜索，搜索的内容按自然语句的形式进行最大化匹配后展示搜索的结果；

2、支持多语句的查找，语句之间的关系为“和”；