Skip to content

Machine Learning

使用 CuPy 來利用 GPU 提昇矩陣運算速度

前言

CuPy 是一個開源的 GPU 加速數值計算函式庫,專為深度學習以及科學計算而設計。它和 Python 中著名的 NumPy 套件有許多相同的使用方法與函式,但更進一步能夠在 GPU 上執行運算。簡單來說,例如矩陣運算等能夠利用 GPU 平行化計算的用途,CuPy 能夠實現一定程度的加速。

Read More »使用 CuPy 來利用 GPU 提昇矩陣運算速度

使用 HuggingFace Transformer 中的 TextStreamer 和 TextIteratorStreamer 來實現串流式(stream)輸出生成 token

前言

現在的生成式模型越來越厲害的,各個獨立研究人員也都部署起了一個又一個的開源大型語言模型LLMs)。但是在使用大型語言模型做推理、生成回覆時,要是真要去等待一個比較長的輸出,那是真的挺花時間的。

Read More »使用 HuggingFace Transformer 中的 TextStreamer 和 TextIteratorStreamer 來實現串流式(stream)輸出生成 token

[論文閱讀] QLoRA: Efficient Finetuning of Quantized LLMs

前言

大模型的浪潮自從 2022 年 11 月 ChatGPT 的發布後便一發不可收拾,直到現在開源的大型語言模型(Large Language Model)的量級還在不斷增大,比方說 LLaMA-2-70B、以及 Falcon-180B 等等。

大型語言模型的性能自然是相當優秀的,可是往往需要耗費大量且價格昂貴的 GPU 記憶體,這使得一些邊緣運算裝置根本就不可能讓模型進行推理(inference) —— 更遑論訓練、微調自己的模型了。

Read More »[論文閱讀] QLoRA: Efficient Finetuning of Quantized LLMs

Consensus: 使用 AI 驅動的論文搜尋引擎

在研究一些 AI 模型的時候,或許是研究所時保留下來的習慣,我總是會去翻翻模型、系統、套件相關的論文,就算只是粗略掃過 Abstract、Introduction、Conclusion 以及圖表也好,至少我能對我正在使用什麼東西、這東西背後是怎麼驅動的有個底,不是只會直接把開發團隊附上的程式碼跑起來就好。

Read More »Consensus: 使用 AI 驅動的論文搜尋引擎