作為由人類自身創(chuàng)造的符號,自然語言理解一直是機器學習界不斷研究的方向。自然語言理解使用了大量編譯原理相關的技術,例如詞法分析、語法分析等。然而,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環(huán)境對句子的約束和影響導致的理解不準確乃至錯誤問題經(jīng)常發(fā)生。
如何利用機器學習技術進行自然語言的的深度理解,分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的具體含義等一直是科研院所和各大企業(yè)持續(xù)發(fā)力的方向。
2020年6月,在訓練約2000億個單詞、燒掉幾千萬美元后,馬斯克OpenAI推出的強大AI模型——GPT-3一炮而紅。全球數(shù)以萬計的開發(fā)人員正在基于該平臺開展工作,并廣泛應用于電子郵件助理、語言翻譯、文檔檢索、游戲等領域。
與此同時,云創(chuàng)大數(shù)據(jù)也在自然語言理解領域進行創(chuàng)新,基于高性能人工智能數(shù)據(jù)處理一體機(云創(chuàng)研發(fā)的高維向量計算機)提供的強大算力,開發(fā)了語義搜索技術。高維向量計算機擁有60個處理單元,比對快捷,一秒鐘可做7億次比對,成本降低10倍以上。本機作為主流的人工智能識別算法后段的比對專用機,與各家算法兼容。憑借以上優(yōu)勢,該產(chǎn)品自推出以來便獲得了不俗評價。
高維向量計算機
語義搜索技術應用語義理解而非關鍵詞匹配的方法快速查找出需要搜索的內容,在0.1秒內即可返回結果,可廣泛應用于專利搜索、電子病歷檢索、論文檢索、論文查重、資料搜索、法律文獻檢索等多種場景中。
語義球
● 專利搜索場景。利用語義搜索技術,可以準確查找到其他企事業(yè)單位已經(jīng)成功申請專利的描述、編號等信息,方便在專利申請時避免重復申請等相關問題。
● 電子病歷檢索場景。針對醫(yī)學知識圖譜中關鍵技術進行研究,形成了面向特定醫(yī)療領域的知識服務平臺,可應用于電子病例檢索、處方開具、醫(yī)療知識問答等醫(yī)療服務中。
醫(yī)療知識圖譜
醫(yī)療知識問答系統(tǒng)
● 論文檢索場景。查閱論文時,檢索的結果往往雖多,但不符合個人所需。借助語義搜索技術,只需簡單描述一句話,即可準確檢索到用戶需要且有參考價值的論文。
● 論文查重場景。針對論文寫作時將抄襲的中文論文先翻譯成英語,再翻譯成中文,或者是采用替換詞語、改變表達的方式等規(guī)避查重等問題。借助語義搜索技術,可以對其進行準確檢測,發(fā)現(xiàn)論文寫作時的抄襲、剽竊亂象。
● 資料搜索場景。與論文搜索場景類似,通過語義搜索技術,只需簡短的一句話,即可實現(xiàn)對資料的搜索,且命中率和準確率很高。
● 法律文獻檢索場景。語義搜索技術通過對歷史上相似案件詳細信息的查詢和梳理,可便于律師開展有效辯護,司法人員開展高效工作等。
歡迎不同場景的用戶單位與我們聯(lián)系!如有合作意向,請聯(lián)系:
15722710158(李先生,微信同號)