豆豆小说阅读网,重生之毒妃梅果小说,完美世界辰东小说

“海貝”是一款從內(nèi)核到系統(tǒng)完全國(guó)產(chǎn)自研的搜索型數(shù)據(jù)庫，其定位為大數(shù)據(jù)應(yīng)用支撐軟件，為大數(shù)據(jù)應(yīng)用提供高效的數(shù)據(jù)存儲(chǔ)、信息檢索、統(tǒng)計(jì)分析等數(shù)據(jù)管理服務(wù)，支持幾乎所有類型的數(shù)據(jù)，包括文本、數(shù)字、地理空間、圖片等各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。該系統(tǒng)吸收了拓爾思在信息檢索和NLP領(lǐng)域多年的技術(shù)積累，不僅安全、高效、專業(yè)，還集成了眾多開源檢索系統(tǒng)不具備的企業(yè)級(jí)功能，能夠有效降低用戶的系統(tǒng)建設(shè)成本、開發(fā)成本和運(yùn)維成本。

產(chǎn)品功能產(chǎn)品優(yōu)勢(shì) 應(yīng)用行業(yè) 最佳實(shí)踐

產(chǎn)品功能

全語種分詞器

用戶隔離

冷熱分區(qū)

鏡像數(shù)據(jù)庫

深度檢索

向量搜索

檢索增強(qiáng)生成

海貝自帶的TRS分詞器，不僅可以支持中日韓等方塊文字，也能處理英法德等拉丁語系，還可以處理藏文、蒙文、維文等少數(shù)民族語言，真正可以做到單一分詞器處理全部語種，大大簡(jiǎn)化了系統(tǒng)的開發(fā)和運(yùn)維工作。

海貝還具有其他同類產(chǎn)品不具備的用戶隔離安全特性，系統(tǒng)支持用戶數(shù)據(jù)的物理隔離和邏輯隔離，如圖所示，模式1與模式2實(shí)現(xiàn)邏輯隔離，模式1與模式3實(shí)現(xiàn)物理隔離，這樣既可以解決多租戶之間的訪問安全，又可以防止用戶之間的相互影響，提高系統(tǒng)的可用性。

海貝自帶的分時(shí)歸檔視圖，不僅可以實(shí)現(xiàn)冷熱數(shù)據(jù)自動(dòng)分區(qū)，同時(shí)還支持多種存儲(chǔ)混合使用以提供高效的檢索服務(wù)。

用戶可以通過簡(jiǎn)單的配置實(shí)現(xiàn)讀寫分離、大小庫以及訪問隔離等，大大降低了數(shù)據(jù)加工和查詢之間的CPU、內(nèi)存、IO等沖突，避免了數(shù)據(jù)入庫導(dǎo)致的檢索卡頓問題。

隨著互聯(lián)網(wǎng)審查的愈發(fā)嚴(yán)格，一些不法分子經(jīng)常將一些敏感詞轉(zhuǎn)成同音詞或者同義詞進(jìn)行發(fā)布，或?qū)⒎欠ㄎ恼峦ㄟ^圖片的形式對(duì)外發(fā)布，企圖躲避監(jiān)管。針對(duì)這種情況，海貝集成了深度學(xué)習(xí)引擎，支持以文搜圖、以圖搜圖、圖文融合搜索，可以對(duì)圖像中的文字進(jìn)行OCR識(shí)別，也可以提取圖像或者文本的特征數(shù)據(jù)，通過基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫里，成功實(shí)現(xiàn)圖像相似性檢索功能，并配合拼音檢索、同音詞檢索等功能，讓不法分子無處遁形。

海貝搜索（向量）數(shù)據(jù)庫引入了最小世界導(dǎo)航圖（Hierarchical Navigable Small World，HNSW），實(shí)現(xiàn)向量數(shù)據(jù)的高效檢索。得益于這種高效的圖索引結(jié)構(gòu)，海貝搜索數(shù)據(jù)庫在單機(jī)可以支持億級(jí)向量，并且達(dá)到毫秒級(jí)響應(yīng)。

檢索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）被認(rèn)為是當(dāng)下解決大模型幻覺的最有效手段之一?；谕貭査己＞蹟?shù)據(jù)整合系統(tǒng)（TRS ETL）、拓天大模型以及TRS海貝搜索（向量）數(shù)據(jù)庫構(gòu)建的檢索增強(qiáng)生成解決方案，具有集成度高，生成效果好等特點(diǎn)。

采用TRS海貝搜索（向量）數(shù)據(jù)庫和RAG解決方案，可以快速搭建智能問答系統(tǒng)，利用索引和搜索算法來快速匹配問題與知識(shí)庫中的相關(guān)內(nèi)容，從而提供更準(zhǔn)確的答案。

全語種分詞器

用戶隔離

冷熱分區(qū)

鏡像數(shù)據(jù)庫

深度檢索

向量搜索

檢索增強(qiáng)生成

檢索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）被認(rèn)為是當(dāng)下解決大模型幻覺的最有效手段之一。基于拓爾思海聚數(shù)據(jù)整合系統(tǒng)（TRS ETL）、拓天大模型以及TRS海貝搜索（向量）數(shù)據(jù)庫構(gòu)建的檢索增強(qiáng)生成解決方案，具有集成度高，生成效果好等特點(diǎn)。

產(chǎn)品優(yōu)勢(shì)

自主可控

目前，國(guó)內(nèi)廠商基本上都以開源的ElasticSearch作為他們的搜索引擎數(shù)據(jù)庫；還有一小部分廠商在開源Lucene引擎的基礎(chǔ)上進(jìn)行封裝；而TRS海貝搜索（向量）數(shù)據(jù)庫是目前國(guó)內(nèi)唯一一款從底層分詞算法，到核心引擎以及上層系統(tǒng)都完全自研的純國(guó)產(chǎn)搜索引擎數(shù)據(jù)庫。系統(tǒng)已完成與龍芯、海光、飛騰、鯤鵬等國(guó)產(chǎn)芯片以及中標(biāo)麒麟、統(tǒng)信UOS等國(guó)產(chǎn)操作系統(tǒng)的適配工作。

數(shù)據(jù)安全

系統(tǒng)采用多副本機(jī)制解決數(shù)據(jù)的可用性問題，通過數(shù)據(jù)校驗(yàn)以及WAL技術(shù)解決數(shù)據(jù)的完整性問題，通過完善的權(quán)限管理機(jī)制、HTTPS、加密存儲(chǔ)等機(jī)制解決數(shù)據(jù)訪問和數(shù)據(jù)存儲(chǔ)的機(jī)密性問題。作為自主可控的國(guó)產(chǎn)化加密數(shù)據(jù)引擎，海貝支持?jǐn)?shù)據(jù)與索引的完全加密。加密算法方面采用了更加安全的國(guó)產(chǎn)加密算法，更可以配合國(guó)產(chǎn)加密卡可以達(dá)到金融級(jí)數(shù)據(jù)安全。另外，海貝還具有其他同類產(chǎn)品不具備的獨(dú)有安全特性，如黑白名單、用戶隔離、刪除保護(hù)等機(jī)制。

高性能檢索

海貝不僅能夠做到全字段索引，支持任意維度的組合查詢，在數(shù)據(jù)查詢和分析的效率上，大大高于其他的大數(shù)據(jù)管理系統(tǒng)。同時(shí)，海貝引入了內(nèi)存索引、列存儲(chǔ)、索引分片等技術(shù)，進(jìn)一步提高了數(shù)據(jù)存儲(chǔ)、檢索和分析的效率。海貝自帶的分時(shí)歸檔視圖，不僅可以實(shí)現(xiàn)冷熱數(shù)據(jù)自動(dòng)分區(qū)，同時(shí)還支持多種存儲(chǔ)混合使用以提供高效的檢索服務(wù)；通過鏡像數(shù)據(jù)庫，用戶可以通過簡(jiǎn)單的配置就實(shí)現(xiàn)讀寫分離、大小庫以及訪問隔離等；通過超大規(guī)模集群建設(shè)，降低系統(tǒng)架構(gòu)資源消耗；通過對(duì)各類型服務(wù)器硬件的匹配支持，能夠充分發(fā)揮出硬件的優(yōu)良性能。

易用性

全中文可視化系統(tǒng)管理臺(tái)，支持自動(dòng)化部署和自動(dòng)化更新。

聚焦生態(tài)鏈

海貝可以與拓爾思的各款產(chǎn)品進(jìn)行深度應(yīng)用集成，打造強(qiáng)大的數(shù)據(jù)服務(wù)能力。如在數(shù)據(jù)導(dǎo)入方面，對(duì)接TRS 海聚數(shù)據(jù)融合平臺(tái)、結(jié)合TRS人工智能平臺(tái)是數(shù)據(jù)加工流轉(zhuǎn)利器；數(shù)據(jù)展現(xiàn)方面，對(duì)接TRS API Gateway，可以實(shí)現(xiàn)快速發(fā)布數(shù)據(jù)，Restful接口、權(quán)限管理和流量控制；全新的數(shù)據(jù)監(jiān)控系統(tǒng)，可以進(jìn)行數(shù)據(jù)監(jiān)控、進(jìn)程監(jiān)控、服務(wù)監(jiān)控、日志分析、安裝部署等；數(shù)據(jù)分析方面，對(duì)接TRS水晶球分析師平臺(tái)、TRS網(wǎng)察大數(shù)據(jù)分析平臺(tái)和TRS數(shù)家媒體大數(shù)據(jù)平臺(tái)，提供行業(yè)應(yīng)用解決方案，為用戶提供便捷高效的在線服務(wù)。

兼容性

目前，TRS海貝搜索（向量）數(shù)據(jù)庫已經(jīng)完成ElasticSearch絕大部分功能的支持，并且在API訪問上做了兼容性處理，用戶僅需對(duì)系統(tǒng)進(jìn)行少量的改動(dòng)，即可遷移到海貝搜索引擎數(shù)據(jù)庫中來，為國(guó)產(chǎn)替代掃清了最后一道障礙。

應(yīng)用行業(yè)

公共安全

政務(wù)公開

媒體融合

該系統(tǒng)廣泛應(yīng)用公共安全大數(shù)據(jù)行業(yè)，數(shù)據(jù)量大、實(shí)時(shí)更新各類信息，提供一鍵搜索、數(shù)據(jù)分析等功能，提高工作效率。

面向政府網(wǎng)站，比如海關(guān)總署、工商總局、專利局、商標(biāo)局等。利用單一分詞器處理全語種數(shù)據(jù)，大大簡(jiǎn)化了系統(tǒng)的構(gòu)建，提供跨語種檢索服務(wù)。

面向媒體網(wǎng)站，比如新華社、浙報(bào)、重報(bào)等。支撐高并發(fā)檢索。

最佳實(shí)踐

信用中國(guó)

信用中國(guó)”網(wǎng)站由國(guó)家發(fā)展改革委、人民銀行指導(dǎo)，國(guó)家信息中心主辦，百度公司提供技術(shù)支持和運(yùn)維，是政府褒揚(yáng)誠信、懲戒失信的總窗口。網(wǎng)站提供全國(guó)企業(yè)信用信息、信用代碼、以及相關(guān)站內(nèi)文章的公開查詢服務(wù)。2018年底“信用中國(guó)”網(wǎng)站從百度云遷移部署到國(guó)家電子政務(wù)外網(wǎng)機(jī)房，將原來由ElasticSearch提供搜索的服務(wù)，開始遷移到TRS海貝搜索（向量）數(shù)據(jù)庫。系統(tǒng)采用12臺(tái)高配PC服務(wù)器搭建檢索集群，平均每秒提供約1.2W次檢索服務(wù)，日均檢索量突破10億。

中國(guó)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)

中國(guó)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)（DI Inspiro?）是由知識(shí)產(chǎn)權(quán)出版社有限責(zé)任公司開發(fā)建設(shè)的國(guó)內(nèi)第一個(gè)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)應(yīng)用服務(wù)系統(tǒng)。DI Inspiro?已經(jīng)整合了國(guó)內(nèi)外專利、商標(biāo)、法律文書、標(biāo)準(zhǔn)和科技期刊等知識(shí)產(chǎn)權(quán)數(shù)據(jù)資源，實(shí)現(xiàn)了數(shù)據(jù)檢索、分析、關(guān)聯(lián)、預(yù)警和項(xiàng)目管理等多種功能。該系統(tǒng)充分利用了TRS海貝搜索（向量）數(shù)據(jù)庫在多語言處理方面的優(yōu)勢(shì)，實(shí)現(xiàn)了中、英、日之間多語種無差別、無障礙的智能擴(kuò)展檢索和及時(shí)統(tǒng)計(jì)分析。