第279章九万里-离语(semaphore)-新笔趣阁

semaphore提示您：看后求收藏（新笔趣阁www.xbqg5200.com），接着再看更方便。

的毕业论文。首先是研究背景。那么为什么要开展我这个研究呢？随着信息技术和网络技术的快速发展下，非结构化数据的比例迅速上升，传统的数据库并不能存储这些数据，所以这无疑带来了数据管理领域的重大挑战。文献是科技工作者获取知识的重要来源。英语作为国际通用语言，英文文献的重要性便不言而喻。文献通常以PDF进行存储。传统的pdf信息提取，比较局限，采用人工查阅的方法来实现，因此，这必定产生大量人力物力的浪费。

1 研究背景

在信息技术和网络技术的快速发展下，共享信息资源的规模也在迅速增长，人们在工作和生活

中使用各种多样的信息资源，包括语音、短视频、聊天信息等。然而，日常生活中更多的信息以自媒体为发展的数据，是不能被统计到的。

随后进行数据采集，爬取加人工采集。对两种方式采集的文献数据进行整理，将元数据记录好，并统一格式，用于后续的检索。最后是文献的精细筛选。因为RAG技术就是要增加大语言模型在专业领域的可信程度，解决大语言模型的幻觉问题。那在数据的选取上就更偏向于专业程度更高的文献类型数据。

本章介绍了研究所选文献数据的获取来源和途径。通过 Python 爬取的方式获取大部分文献数

据与元数据，对元数据进行基本处理，为后续分析提供帮助，丰富向量知识库的数据储备。随后为

上一页第279章九万里(4/5) 目录加书签下一章下一章

《离语》所有内容均来自互联网或网友上传，新笔趣阁网只为原作者semaphore的小说《离语》进行宣传。欢迎各位书友支持semaphore并收藏《离语》最新章节。

《离语》相关阅读：

第279章 九万里 (第5/5页)

第279章九万里 (第5/5页)