书库搜索查询系统搭建的【目的】
截至目前,2022年读秀书库包含5.0最新及4.0/3.0/2.0/1.0等往期版本,书库总量共500T,除了近两年出版的新书外,在此之前出版的所有书只要有电子版的基本都在该书库内,是非常强大的。
虽然网盘群组存有这么多书库,但是书库中的原始文件命名都是SS书号,如何根据SS书号查询到书名、书作者、书页码、ISBN……等必要信息呢?该系统的搭建就在于解决这个查询问题,以方便快速的将文件名、文件路径、以及书名、作者、ISBN、SS书号、书页码、书年份、书出版社等信息全部关联起来,实现书信息一键互查!
书库搜索查询系统搭建的【申明】
该查询系统仅提供电子版书籍信息的查询用,不提供书籍下载链接,永久会员可联系免费代找,能搜到的就表示有电子版,所有查询来的书名ISBN等信息也都是互联网公开能得到的信息,只不过做了更细致的信息汇总,该系统只供搜索查询信息用。
书库搜索查询系统的【使用】
通过输入搜索相关信息可实现查询,如上所述,支持ISBN号/SS号/书名/作者……等多种方式查询,如果经常找电子书的朋友应该很快就能上手,对于小白,下方逐步介绍其使用教程:
精准查询:想要精准查询书籍,最好用ISBN号/SS号方式 查询(ISBN号可通过当当网或者豆瓣图书等同类查询网站查询到书籍后,书详情中都会有ISBN号信息,SS号不知道可以不用管,一般用ISBN号就够了),通过该方式可定位到唯一的一本书,所以准确率最高!
模糊查询: 虽然ISBN可实现更精准的查询,但输入书名直接查询,大多数时候也是有效的也能直接查询到书籍,只不过由于每次查询返回结果数做了限制,如果关键词过于模糊可能会查询不到,或者搜出来的结果不一定在最前面。
书库搜索查询系统的【搭建步骤简介】
简单点说吧,太细的就不说了,说几个框架。
1、数据库的选择和搭建
首先我们导入记录有SS号、ISBN号、文件路径、文件名、书封面url、书详情信息的sql文件,这个文件很大,有5G左右,导入数据库有千万级的数据量,mysql一般默认的引擎为innodb,但是我个人建议用mysiam的,因为前者在做索引的过程中,耗内存很大,如果你服务器内存足够,也可以用前者作为引擎。
2、数据库全文索引
千万级的数据量查询当然是要做全文索引的,而且由于是中文分词全文索引,这里我不推荐用mysql自带的ngram中文索引分析系统,非常慢,当然,你也可以自己尝试下。
说说我的方式吧,我是先用python的jieba分词对核心字段分词后再导入sql变成一个新字段专门用来做全文索引。
3、建立PHP搜索查询系统
系统搜索用的PHP语言搭建的,代码非常简单,当然,你不能直接like搜索,这是行不通的,需要用全文索引match against语句,而且得加上搜索分词,也就是说要对用户输入框的词分词然后再来查询,不然搜索结果会搜不出来。
大致就这几点了,该查询系统,目前所有人都能免费使用,只供查询,不提供直接下载,以后有机会再讲解如何通过输入文件路径和文件名就能直接下载读秀书库网盘里的指定书文件。