
海貝自帶的TRS分詞器,不僅可以支持中日韓等方塊文字,也能處理英法德等拉丁語系,還可以處理藏文、蒙文、維文等少數(shù)民族語言,真正可以做到單一分詞器處理全部語種,大大簡(jiǎn)化了系統(tǒng)的開發(fā)和運(yùn)維工作。
海貝還具有其他同類產(chǎn)品不具備的用戶隔離安全特性,系統(tǒng)支持用戶數(shù)據(jù)的物理隔離和邏輯隔離,如圖所示,模式1與模式2實(shí)現(xiàn)邏輯隔離,模式1與模式3實(shí)現(xiàn)物理隔離,這樣既可以解決多租戶之間的訪問安全,又可以防止用戶之間的相互影響,提高系統(tǒng)的可用性。

海貝自帶的分時(shí)歸檔視圖,不僅可以實(shí)現(xiàn)冷熱數(shù)據(jù)自動(dòng)分區(qū),同時(shí)還支持多種存儲(chǔ)混合使用以提供高效的檢索服務(wù)。
用戶可以通過簡(jiǎn)單的配置實(shí)現(xiàn)讀寫分離、大小庫以及訪問隔離等,大大降低了數(shù)據(jù)加工和查詢之間的CPU、內(nèi)存、IO等沖突,避免了數(shù)據(jù)入庫導(dǎo)致的檢索卡頓問題。
隨著互聯(lián)網(wǎng)審查的愈發(fā)嚴(yán)格,一些不法分子經(jīng)常將一些敏感詞轉(zhuǎn)成同音詞或者同義詞進(jìn)行發(fā)布,或?qū)⒎欠ㄎ恼峦ㄟ^圖片的形式對(duì)外發(fā)布,企圖躲避監(jiān)管。針對(duì)這種情況,海貝集成了深度學(xué)習(xí)引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對(duì)圖像中的文字進(jìn)行OCR識(shí)別,也可以提取圖像或者文本的特征數(shù)據(jù),通過基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫里,成功實(shí)現(xiàn)圖像相似性檢索功能,并配合拼音檢索、同音詞檢索等功能,讓不法分子無處遁形。
海貝搜索(向量)數(shù)據(jù)庫引入了最小世界導(dǎo)航圖(Hierarchical Navigable Small World,HNSW),實(shí)現(xiàn)向量數(shù)據(jù)的高效檢索。得益于這種高效的圖索引結(jié)構(gòu),海貝搜索數(shù)據(jù)庫在單機(jī)可以支持億級(jí)向量,并且達(dá)到毫秒級(jí)響應(yīng)。
檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)被認(rèn)為是當(dāng)下解決大模型幻覺的最有效手段之一?;谕貭査己>蹟?shù)據(jù)整合系統(tǒng)(TRS ETL)、拓天大模型以及TRS海貝搜索(向量)數(shù)據(jù)庫構(gòu)建的檢索增強(qiáng)生成解決方案,具有集成度高,生成效果好等特點(diǎn)。
采用TRS海貝搜索(向量)數(shù)據(jù)庫和RAG解決方案,可以快速搭建智能問答系統(tǒng),利用索引和搜索算法來快速匹配問題與知識(shí)庫中的相關(guān)內(nèi)容,從而提供更準(zhǔn)確的答案。
海貝自帶的TRS分詞器,不僅可以支持中日韓等方塊文字,也能處理英法德等拉丁語系,還可以處理藏文、蒙文、維文等少數(shù)民族語言,真正可以做到單一分詞器處理全部語種,大大簡(jiǎn)化了系統(tǒng)的開發(fā)和運(yùn)維工作。
海貝還具有其他同類產(chǎn)品不具備的用戶隔離安全特性,系統(tǒng)支持用戶數(shù)據(jù)的物理隔離和邏輯隔離,如圖所示,模式1與模式2實(shí)現(xiàn)邏輯隔離,模式1與模式3實(shí)現(xiàn)物理隔離,這樣既可以解決多租戶之間的訪問安全,又可以防止用戶之間的相互影響,提高系統(tǒng)的可用性。

海貝自帶的分時(shí)歸檔視圖,不僅可以實(shí)現(xiàn)冷熱數(shù)據(jù)自動(dòng)分區(qū),同時(shí)還支持多種存儲(chǔ)混合使用以提供高效的檢索服務(wù)。
用戶可以通過簡(jiǎn)單的配置實(shí)現(xiàn)讀寫分離、大小庫以及訪問隔離等,大大降低了數(shù)據(jù)加工和查詢之間的CPU、內(nèi)存、IO等沖突,避免了數(shù)據(jù)入庫導(dǎo)致的檢索卡頓問題。
隨著互聯(lián)網(wǎng)審查的愈發(fā)嚴(yán)格,一些不法分子經(jīng)常將一些敏感詞轉(zhuǎn)成同音詞或者同義詞進(jìn)行發(fā)布,或?qū)⒎欠ㄎ恼峦ㄟ^圖片的形式對(duì)外發(fā)布,企圖躲避監(jiān)管。針對(duì)這種情況,海貝集成了深度學(xué)習(xí)引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對(duì)圖像中的文字進(jìn)行OCR識(shí)別,也可以提取圖像或者文本的特征數(shù)據(jù),通過基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫里,成功實(shí)現(xiàn)圖像相似性檢索功能,并配合拼音檢索、同音詞檢索等功能,讓不法分子無處遁形。
海貝搜索(向量)數(shù)據(jù)庫引入了最小世界導(dǎo)航圖(Hierarchical Navigable Small World,HNSW),實(shí)現(xiàn)向量數(shù)據(jù)的高效檢索。得益于這種高效的圖索引結(jié)構(gòu),海貝搜索數(shù)據(jù)庫在單機(jī)可以支持億級(jí)向量,并且達(dá)到毫秒級(jí)響應(yīng)。
檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)被認(rèn)為是當(dāng)下解決大模型幻覺的最有效手段之一。基于拓爾思海聚數(shù)據(jù)整合系統(tǒng)(TRS ETL)、拓天大模型以及TRS海貝搜索(向量)數(shù)據(jù)庫構(gòu)建的檢索增強(qiáng)生成解決方案,具有集成度高,生成效果好等特點(diǎn)。
采用TRS海貝搜索(向量)數(shù)據(jù)庫和RAG解決方案,可以快速搭建智能問答系統(tǒng),利用索引和搜索算法來快速匹配問題與知識(shí)庫中的相關(guān)內(nèi)容,從而提供更準(zhǔn)確的答案。