大模型离不开向量数据库回答这个问题之前,我们先来理解一下什么是向量。
这是一个苹果,但在发明苹果这个词之前,人们怎么描述它呢?
颜色、大小、形状、纹理,找到更多的特征,就能对苹果的定义更清晰。
把这些特征用数字表述就可以得到一个数组,就是向量。
当复杂的图形变成了计算机熟悉的数字,它就认识苹果了。当新的苹果出现,计算机还能认出来它吗?当然。
因为这些图像,在向量空间中离得最近,相似性最高。今天让我们惊叹不已的人工智能,往往通过上千个向量维度来学习、训练,他们就像是AI大模型的眼睛。
当AI大模型遇上庞大的向量数据,这组黄金搭档如何让硅基生物更聪明呢?以大语言模型为例,简单来说,在训练时,喂给它的词句都会先转化为向量数据。
当训练数据里出现多组类似的语言时,在向量数据组成的高维空间相近的词汇就会距离更近,语言模型就可以逐渐捕捉到词汇间的语义和语法,比如他会更明白苹果
和西瓜
与异常接近,和公交车
相差甚远。
接下来模型要对对上下文进行理解,此时transformer架构就开始发挥作用,从每个词自身出发,观察和其他词之间的关系权重。
云原生AI百宝箱
行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。
63篇原创内容
公众号
例如,这句话里很好吃
,和我
关系权重最大,权重结果被当做新的维度记录下来,一句更复杂的话,也转化成了带权重的向量。
语言模型经过查询、计算,生成权重最高的答案输出给你,一次问答就完成了。
实际上,大模型训练推理过程更为复杂,他们需要处理如文本、图像、音视频等大量非结构化数据,并转化为向量数据进行学习。这些数据的规模动辄过亿,向量的维度可能高达数千。
在选择数据库时,传统数据库只能进行行列检索,一一对应,再输出精准的答案。
但向量数据库则是专门为非结构化数据检索而设计,它将向量数据组成一个立体高维空间
,在空间中进行模糊检索,能够快速输出权重最高的答案。
推荐阅读