This topic has been archived. It cannot be replied.
-
工作学习 / 事业工作 / 最近做一个ai搜索,需要把文档的embedding保存起来,我的问题是vector db中,
每个文档的embedding纬度必须一致吗,文章长度不同会导致返回的值数组不同吗?
大家对于长文本怎么保存的,如果我不想拆分保存
谢谢
-lucene(Lucene);
7-12
{146}
(#16177996@0)
-
如果要做 similarity search, embedding 需要有同样的 dimensions.
-xmlhttprequest(build5381);
7-12
(#16178494@0)
+1
-
那我的问题是文章长度不同,如果我不做chunk ,把每个文档的embedding 保存在一个字段里可行吗?还是必须chunk因为大模型的token限制
-lucene(Lucene);
7-12
(#16178592@0)
-
如果你说的 “字段” 是指象 pgvector 数据库的 vector type table column 的话 - 可以。
-xmlhttprequest(build5381);
7-12
(#16178738@0)
-
embedding 本身没有长度限,是因为大模型的输入有限制
-renjl0810(Virtual Void);
7-13
(#16180451@0)
-
Embedding 应该是word level的, 你自己定义dimension。AI input vector 通常会有padding or truncating 需要自己实验。这是基本做法,好多工具会自动处理,隐藏深层结构,以工具的文档为准。
-piglet(Money bank);
7-12
{66}
(#16178525@0)
+2
-
正解
-moonhalf(一生不羁爱自由);
7-12
(#16178730@0)
+1
-
最初是word level,现在可以是sentence, paragraph even article level. 另外,不仅文本,视频也可以有embeddibg
-renjl0810(Virtual Void);
7-13
(#16180450@0)
-
不懂就问,您说的这些只需会coding 就能做到,还是需要学CS?
-deep_breath(三季人);
7-12
(#16178563@0)
-
编程课是“通识教育”,文科生也上
-davidwuu(老吴);
7-12
(#16178641@0)
-
应该是cs才用到吧,一般的应用不需要这些,直接用大模型了
-lucene(Lucene);
7-12
(#16178648@0)
-
谢谢,我外行人看几个IT人士大扁CS整个糊涂了
-deep_breath(三季人);
7-12
(#16178676@0)
-
固定的。可以考虑摘要。
-davidwuu(老吴);
7-12
(#16178639@0)
+1
-
我需要混合搜索,文本搜索和大模型搜索结合,摘要只是部分内容,我怕搜索会不准确
-lucene(Lucene);
7-12
(#16178651@0)
-
那考虑Rerank
-davidwuu(老吴);
7-13
(#16179112@0)
-
我一个非马工也知道,得分段,弄chunk啊,每次搞个3,4个chunk,rag一下就行
-hct01(Hct01);
7-12
(#16178765@0)
-
谢谢,需求不同,一般的问答式应用没问题,但是对于企业搜索来说不合适,需要结合传统搜索和大模型
-lucene(Lucene);
7-13
(#16179604@0)
-
这个我不在行,你得问高人了
-hct01(Hct01);
7-13
(#16179709@0)
-
学名叫fusion
-renjl0810(Virtual Void);
7-13
(#16180443@0)