云創(chuàng)數(shù)據(jù)(835305)發(fā)布cGPT S1000自然語言搜索一體機
上知天文、下知地理,60天月活破1億,ChatGPT徹底火出圈。作為大語言模型,ChatGPT能夠理解關鍵詞以及上下文,自動回答用戶提出的問題,實現(xiàn)與用戶的智能交互。
ChatGPT很強,但是本地部署成本巨大,一般企業(yè)難以承受。另外,聯(lián)網(wǎng)調(diào)用接口對于有特定保密要求的企業(yè)而言,數(shù)據(jù)安全難以保障。
然而,在實際應用中,我們常常需要對內(nèi)部數(shù)據(jù)進行安全快速的搜索。比如對于企業(yè)內(nèi)部積存的大量檔案、資料、文書等形式的文檔,如果使用傳統(tǒng)的關鍵詞匹配搜索某個特定文件,需要準確輸入文件名,一旦忘記文件名,搜索猶如大海撈針。
針對這一問題,cGPT S1000自然語言搜索一體機應運而生。該一體機在自然語言處理技術的加持下,基于對語句本身的理解,根據(jù)計算后的關聯(lián)相似度進行排序,可達0.1秒響應,快速篩選出接近語句語義的內(nèi)容。
比如,在專利搜索時,傳統(tǒng)算法只能通過關鍵詞搜索專利,無法查找包含相近含義的所有專利,現(xiàn)在在cGPT S1000自然語言搜索一體機中導入專利數(shù)據(jù),經(jīng)過一體機自動預處理后,即可在0.1秒內(nèi)找到所有相關專利。
之所以能夠達到這樣的效果,是因為cGPT S1000自然語言搜索一體機通過人工智能理解了自然語言相互之間的關系。正如以下視頻所展現(xiàn)的,這些詞語、句子之間相互關聯(lián),它們或許是表達方式不同但是含義相同的語句,或許是同一學科領域內(nèi)的相似概念。通過解讀這些關系,人工智能能夠真正理解自然語言的含義以及人類的意圖,繼而做出相應反饋。
對于資料紛繁復雜的各大企事業(yè)單位而言,將所有信息和資料放進cGPT S1000自然語言搜索一體機并通過一體機完成自動預處理,相當于構建了一個高保密的內(nèi)部資源庫,內(nèi)部員工可以在庫中快速查找所需信息。
1產(chǎn)品介紹
cGPT S1000自然語言搜索一體機是云創(chuàng)數(shù)據(jù)(835305)針對大規(guī)模自然語言處理應用場景,自主研發(fā)的高速向量計算搜索一體機。該一體機采用并行計算架構,融合高密度混合服務硬件,為用戶提供軟硬件一體化的高性能自然語言搜索解決方案。
cGPT S1000自然語言搜索一體機支持TXT、Word、PDF、CSV等多種格式的數(shù)據(jù)源,支持對采集的數(shù)據(jù)源進行文本提取和數(shù)據(jù)清洗,采用分布式集群架構,智能化自動構建搜索資料庫。用戶只需將海量的業(yè)務文件、圖書論文文獻、文本數(shù)據(jù)等導入該一體機,即可建立個性化的定制搜索引擎。
(運行原理)
cGPT S1000自然語言搜索一體機支持基于文本語義理解技術,具備更加準確的檢索能力,能夠將輸入查詢的文本與一體機中的文本進行快速比對,并將搜索到與輸入文本語義相近的多組結果根據(jù)相似度排序返回輸出。針對千萬級甚至上億量級的文本數(shù)據(jù)庫,該一體機依舊可以達到0.1秒級的返回結果速率。
總體架構
cGPT S1000自然語言搜索一體機基于大數(shù)據(jù)分布式實時計算框架,結合定制化高密度計算硬件,實現(xiàn)大規(guī)模自然語言處理任務的分發(fā)與計算結果匯聚,保證計算任務執(zhí)行的高效和穩(wěn)定。基于特征向量計算算法以及分布式集群處理資源調(diào)度技術,該一體機實現(xiàn)了海量特征庫條件下1:N對比任務的高效分解與并行處理,可將單個任務響應效率提升到0.1秒級。
(總體架構)
技術優(yōu)勢
①自然語言語義理解
自然語言搜索一體機通過理解文本語義,能夠識別不同表達方式的真實含義,進行語義相似度計算并排序,從而大幅度提高輸出結果的準確性。
②0.1秒級響應搜索
搜索方式基于語義理解而非傳統(tǒng)的關鍵詞匹配搜索,涵蓋詞、短語、整句等不同粒度,結果返回速率可達0.1秒級。
③支持動態(tài)擴展
對于不同數(shù)據(jù)規(guī)模需求的用戶,自然語言搜索一體機提供了彈性的性能資源配置模式,可以有效地控制系統(tǒng)建設成本,靈活滿足千萬甚至上億量級業(yè)務規(guī)模的性能需求和使用場景。
④支持私有化部署
提供API接口,搜索應用可部署至本地服務器或者用戶私有云環(huán)境,與用戶業(yè)務打通融合的同時,實現(xiàn)內(nèi)外網(wǎng)的物理隔絕,保障數(shù)據(jù)的私密性。
技術規(guī)格
2應用場景
cGPT S1000自然語言搜索一體機基于語義理解技術,能夠快速查找需要的內(nèi)容,可廣泛應用于資料查詢、專利搜索、電子病歷檢索、法律文獻檢索、學術文獻檢索、論文查重等多種場景。
①資料查詢
用戶內(nèi)部積存大量的檔案、資料、文書等各種形式的文檔,檢索資料不僅繁瑣且重復性高,耗費大量時間和精力。通過自然語言處理技術,只需簡短的一句話或幾個關鍵詞,自然語言搜索一體機即可完成資料搜索,命中率和準確率都大幅提高。
②專利搜索
通過關鍵詞匹配不一定能夠找出某一主題的所有相關專利,而借助自然語言搜索一體機,可以準確找到已經(jīng)成功申請的與該主題相關的所有專利信息,包括描述、編號等,從而在專利申請時避免重復申請等問題,大大節(jié)省時間和費用。
③電子病歷檢索
基于自然語言搜索一體機,在自然語言處理技術的助力下,用戶可建設面向特定醫(yī)療領域的知識服務平臺,以此更好地提供電子病例檢索、處方查詢、醫(yī)療知識問答等醫(yī)療服務。
④法律文獻搜索
基于自然語言搜索一體機,用戶可對案件信息進行查詢和梳理,比如針對某一案件,律師通過輸入描述,即可在資料庫中找出相似案例情況以及司法解釋,有助于案件分析、訴訟準備等,司法人員也可借助該一體機節(jié)省資料整理、分析的時間。
⑤學術文獻檢索
查閱論文時,根據(jù)關鍵詞匹配,可以檢索出不少結果,但主要是包含關鍵詞的內(nèi)容,不一定是用戶真正需要查找的,而借助自然語言搜索一體機,在準確表達查找內(nèi)容的情況下,只需一句簡單描述,即可檢索到真正為用戶所需的論文。
⑥論文查重
在論文查重時,針對論文可能存在的不同語種相互翻譯導致的抄襲,或者以替換詞語、改變表達的方式規(guī)避查重等問題,借助自然語言搜索一體機,可對其進行準確檢測,以語義為準,及時發(fā)現(xiàn)論文寫作時的抄襲、剽竊等亂象。
相關閱讀
- 則成電子2024年前三季度凈利2070.16萬同比增長9.98% 子公司產(chǎn)能擴大
- 量傳計量擬注銷孫公司宇通量傳計量檢測(天津)有限公司
- 高科環(huán)保通過招標的方式擬在德山化工技術(蘇州)有限公司采購精餾塔及其附屬設施一套
- 增光新材擬投資1000萬設立全資子公司江蘇增光特種鋪面材料有限公司
- 偉榮股份擬設立衢州偉榮藥化股份有限公司上海分公司
- 中達新材子公司中達合金擬以不超過4888.7萬的價格向海鹽縣自然資源和規(guī)劃局購買海域使用權
- 天一智能擬對子公司焊聯(lián)工業(yè)互聯(lián)網(wǎng)有限公司減資 注注冊資本由5000萬減至1000萬
- 知魚智聯(lián)控股子公司北京電子城數(shù)智科技有限公司擬與電子城物業(yè)公司簽訂停車場數(shù)智化運營合作協(xié)議
- 嘉鄰物業(yè)擬合計以2000萬購買嘉寓、高準、鵬昇100%的股權
- 吉麻良絲子公司擬投資不超過2000萬購買資產(chǎn)(非股權) 用于購買紡織印染設備
推薦閱讀
快訊 更多
- 10-24 22:17 | 博雅生物2024年前三季度凈利4.13億 血液制品業(yè)務收入增加
- 10-24 22:17 | 迪瑞醫(yī)療2024年前三季度凈利1.93億 管理費用有所下降
- 10-24 22:17 | 廣生堂2024年前三季度營收3.26億同比增長16.67% 本期收到的政府補助增加
- 10-24 22:17 | 藥易購2024年前三季度凈利1393.15萬 本期政府補貼減少所致
- 10-24 22:16 | 偉思醫(yī)療2024年前三季度凈利7816.63萬
- 10-24 22:16 | 亞寶藥業(yè)2024年前三季度凈利2.35億同比增長9.88% 銷售費用減少
- 10-24 22:16 | 太龍藥業(yè)2024年前三季度凈利2889.59萬同比增長270.72% 強化成本費用管控
- 10-24 22:15 | 金健米業(yè)2024年前三季度凈利64.92萬 農(nóng)產(chǎn)品貿(mào)易業(yè)務板塊收入下降
- 10-24 22:15 | 萬邦醫(yī)藥2024年前三季度凈利7779.75萬同比增長0.63% 募集資金利息收入增加
- 10-24 22:15 | 未來電器2024年前三季度凈利6447.63萬 本期退稅減少