要偏向于更为全面的文献数据。
生命周期评价的本质是用来评估产品或服务从生产到消费再到废弃的整个过程对环境和社会的影响,它考虑了资源使用、能源消耗、排放物的产生等方面。
那么为了提高最后基于电力lca这个领域搭建的专业模型的准确度,对文献进行精细筛选,选取同时包括流程图,数据,各单元过程投入产出详细数据,数据时间地点落去方法,技术细节的文献,作为最终的数据。
将精细筛选后的论文数据,结合unstructed库进行数据处理。
进行信息精细化拆解与清洗,使以pdf形式存储的文献数据通过分割,分区,变成便于嵌入模型的结构化数据。
对文字进行筛选与清理,图像的内容进行识别,存储图像的解释信息,表格转化为htl格式。
最后统一变成标题加内容的格式。
在这里我列举了简单的数据处理流程。
先是对数据进行分割。
随后是对文本进行拆分,识别内容是否为文本,如果是,就填进text_ist。
将表格转化为htl格式,将图片变为图片解释信息。
第二部分是知识库的构建。
向量知识库,能将各类数据(如文本、图像、音频等)转化为向量形式进行存储。
数据之间的相似性和关联性得以量化,不像平时你存储你的,我存储我的,向量数据库给予了一个统一的标准。
也正是因为统一了格式,利用相似度对比,检索更加高效。
构建知识库的流程先是提取分割文本进行向量化的操作。
向量化的本质是将离散的符号信息,如词或句子,映射到连续的向量空间中,以便计算机能够处理。
向量化将高维数据转化为低维数据,保留了数据的关键特征又降低了数据的复杂度。
选择pipee存储向量数据,它支持查询,插入,删除等一些列操作。
选择eaviate作为向量搜索引擎,可以通过主题的分类检索,进行语义搜索、问答提取等等功能。
第三部分是chatbot的构建。
先前已经构建好了针对电力lca领域的专业大模型,但是缺少检验模型的手段,即缺少模型优化环节,本项目设置通过chatbot模式,通过与用户进行问答的形式,检验模型是否能调用电力行业lca领域向量数据库回答该领域专业性问题和时效性问题的有效性。
chatbot是模拟人类对话的一种形式,就我们平时能使到的chatgpt就是以chatbot的形式来呈现的,而chatbot在这里的功能实现主要是为了体现检索功能,大致可分为知识库检索功能和在线搜索。
那么就产生了三种检索模式。
仅基于大语言模型,连接知识库搜索,和在线搜索。
前端部分我采用streait来完成,ui设计如图所示。
这边是功能按钮,中间是对话框。
先前有讲到了,我们来检测针对专业领域的大模型的标准就是检测是否有能力回答专业领域的问题,并针对结果进行优化。
这里我向chatbot提出同一个问题。
别人穿越带个仓库,婉仪穿越带个空间。别人的空间灵泉,灵丹一大堆。婉仪的空间却是一望无垠的黄沙,连个水滴的影子都没有难道要在这人生地不熟的古代卖沙子看着那个总想取代自己,成为伯府嫡女的重生庶姐,婉...
林赏转部之后的任务是改变虐文结局,扭be为he。被白莲花系统训练出来的林赏转部之后还改不了之前的习惯,做什么都一股子惹人怜爱的气息。渣攻为之沉迷,好不容易把白月光从渣男心底剔除掉,结局要大团圆的时候...
资质平平和长生不死两种属性加身,陈生只想大喊一句三十年河东,三十年河西,莫欺老年穷。当宗门天骄崛起的时候,陈生还活着。当宗门天骄晋升长老的时候,陈生还活着。当宗门天骄寿终正寝的时候,陈生还活着。活着,熬成老前辈,他就能对小辈指手画脚,以大欺小了。悠悠岁月。江山代有才人出,各领风骚数百年,而陈生长驻光阴岁月不死不灭,淡看天骄起起落落,超然物外。...
吴知蓝是一个坚持着两个信条的人。第一,她决不借钱给他人第二,第二,她坚决不给别人恋爱建议。因为,在大学时期,她却被卷入了一个朋友的恋爱故事,最终失去了朋友和平静的日常生活。有一天清晨醒来,吴知蓝惊讶地发现人们的头顶上浮着恋爱窗口栏口。这个窗口显示了男人们对她的好感,并且某些男人开始与她产生了暧昧的关系!于是,她需要在这些男人中选择一个。但是,令她震惊的是,在三个男人的恋爱窗口栏口中,她居然是!她感到难以置信,却也流露出一丝期待。是成为总裁和富二代的恋人?还是与发小明星陷入热恋?吴知蓝陷入了选...
韶华穿成男主男配及反派亲妈未来将毁灭世界的大佬们还只是哭包怂包和娇气包。现在三岁aiddot未来科研大佬世界首富医学天才adashadash啊啊啊妈妈又亲了我三个崽崽不约而同的伸出小手手捂住红着的...
张楠穿到刚看过的一个一本书里,男主男配各个都是顶级男神配置,可惜张楠穿的不是女主而是第一女配,关键是这部书不走寻常路,想想剧情,张楠觉得也许她需要提前给自己上柱香,这是药丸的节奏啊,渐渐的张楠总觉得...