Last Updated on 2023-06-28 by Clay
在研究一些 AI 模型的時候,或許是研究所時保留下來的習慣,我總是會去翻翻模型、系統、套件相關的論文,就算只是粗略掃過 Abstract、Introduction、Conclusion 以及圖表也好,至少我能對我正在使用什麼東西、這東西背後是怎麼驅動的有個底,不是只會直接把開發團隊附上的程式碼跑起來就好。
或許我就是生性比較多疑的那種人吧,沒做這件事,總覺得心裡沒底。
今天我看到了一個非常棒的論文查詢網站 Consensus,於是就決定簡單地記錄在這裡。這個論文搜尋網站很棒的一點是,它並不是單單基於過往爬蟲、使用 NLP 技術所提取排名比較高的論文結果返回給我;而是透過 AI 模型整理結果之後再返回給我結果。
這樣做的好處是什麼呢?那就是我們在輸入要查找的內容時,可以擺脫『關鍵字搜尋』(keyword searching)這回事,而直接用更口語化的方式進行詢問。
使用方式
首先,我們前往搜尋網站的平台:https://consensus.app/search/。接著,你就可以輸入想要詢問的問題啦。
查詢到的結果我們自然可以直接點擊開來,確認原始的論文內容;如果真的覺得查詢的結果很不錯的話,也可以直接按旁邊的按鈕分享出去。
Consensus 工作原理
在官方網站的說明裡,其實有詳細地解釋這背後 AI 模型搜尋的工作原理。簡單來說,它就是透過語言模型(Language Model)從學術研究論文中搜尋並整合資訊。官方提到了它並不是聊天機器人(我想我們可以理解為沒有經過對話資料 instruct tuning 的語言模型)。
而開發團隊搜尋的資料來源為 Semantic Scholar 資料庫中所包含的資料,該資料庫包含了超過 2 億篇涵蓋所有科學領域的論文。Consensus 將繼續追加更多的論文資料,並每個月更新資料集。
接著,Consensus 使用自己的抽取模型(此模型通過數萬篇由博士注釋的論文訓練而成)遍歷整個2億篇論文的數據庫。模型所提取出的資料為論文作者根據實驗證據陳述自己的研究結果的句子。
整個搜尋引擎的系統流程如下:
- 使用者在搜尋欄位中輸入查詢
- 從查詢中刪除停用詞(stop words,如 what, is, are...)並在論文和提取的句子資料庫上進行簡單的關鍵字搜索,縮小範圍
- 在縮小範圍後的論文和提取句子(大約 5,000 筆資料)中進行向量搜尋,評估查詢和可能結果之間的關係
- 和其他的一些分析資料統整,計算關聯性分數,生成最多 20 個可能的結果並返回
這真的是很不錯的搜尋方式,目前我測試下來,至少在 multimodal、AGI、LLM 領域等我所測試的幾個問題中,都找到了感覺很棒的論文,比我之前習慣使用的一些論文搜尋引擎來得『生動』,比較不會感覺到自己只是在搜尋關鍵字(這很容易漏掉重要的論文)。
References
- https://consensus.app/home/blog/welcome-to-consensus/
- Meet Consensus: A Search Engine Tool That Uses Artificial ...