semaphore提示您:看后求收藏(新笔趣阁www.xbqg5200.com),接着再看更方便。
本章介绍了研究所选文献数据的获取来源和途径。通过 Python 爬取的方式获取大部分文献数
据与元数据,对元数据进行基本处理,为后续分析提供帮助,丰富向量知识库的数据储备。随后为
了最大程度提高向量知识库的可信程度,对文献数据进行筛选,选出带有流程图,数据,输入输出
的英文文献,作为最后使用的数据。精细筛选后,使用 Unstructured 库进行数据预处理使其转化
为结构化数据。
4.2 向量知识库的构建
向量知识库构建是一个将处理过的数据嵌入向量知识库的过程,主要用于将不同类型的数据转
化为向量,并进行存储和检索。其流程如图 4.1 所示。
图 4.1 向量知识库构建流程
对收集到的数据进行清洗、去重、分类,提取分割文本,以确保数据的质量和有效性。消除噪
声数据,提高数据的一致性和准确性。将预处理后的数据转化为向量,将向量化后的数据存储到向
量知识库中,并利用向量数据库进行高效的存储和检索。向量数据库是一种专门用于存储和检索向
量数据的数据库系统,可以根据语义或上下文含义查找最相似或相关的数据。
测试流程包括以下几个步骤:
测试设计:根据目标领域定义测试用例,包括典型问题、边缘情况和错误输入。
环境搭建