Skip to content

Clay

LeetCode: 2391-Minimum Amount of Time to Collect Garbage 解題紀錄

題目

You are given a 0-indexed array of strings garbage where garbage[i] represents the assortment of garbage at the ith house. garbage[i] consists only of the characters 'M''P' and 'G' representing one unit of metal, paper and glass garbage respectively. Picking up one unit of any type of garbage takes 1 minute.

Read More »LeetCode: 2391-Minimum Amount of Time to Collect Garbage 解題紀錄

[Linux] 使用指令增加 Swap 空間來避免記憶體耗盡

什麼是 Swap?

Swap 空間在 Linux 作業系體中扮演著重要角色。它可以被理解為是虛擬記憶體空間,名稱就是交換swap)的意思,能夠在系統實體記憶體RAM)不夠用的時候,把記憶體比較少用到的資料暫時寫到一個固定的硬碟空間來保證系統穩定運行 —— 這個空間就是 Swap。

Read More »[Linux] 使用指令增加 Swap 空間來避免記憶體耗盡

使用 CuPy 來利用 GPU 提昇矩陣運算速度

前言

CuPy 是一個開源的 GPU 加速數值計算函式庫,專為深度學習以及科學計算而設計。它和 Python 中著名的 NumPy 套件有許多相同的使用方法與函式,但更進一步能夠在 GPU 上執行運算。簡單來說,例如矩陣運算等能夠利用 GPU 平行化計算的用途,CuPy 能夠實現一定程度的加速。

Read More »使用 CuPy 來利用 GPU 提昇矩陣運算速度

使用 HuggingFace Transformer 中的 TextStreamer 和 TextIteratorStreamer 來實現串流式(stream)輸出生成 token

前言

現在的生成式模型越來越厲害的,各個獨立研究人員也都部署起了一個又一個的開源大型語言模型LLMs)。但是在使用大型語言模型做推理、生成回覆時,要是真要去等待一個比較長的輸出,那是真的挺花時間的。

Read More »使用 HuggingFace Transformer 中的 TextStreamer 和 TextIteratorStreamer 來實現串流式(stream)輸出生成 token

[論文閱讀] QLoRA: Efficient Finetuning of Quantized LLMs

前言

大模型的浪潮自從 2022 年 11 月 ChatGPT 的發布後便一發不可收拾,直到現在開源的大型語言模型(Large Language Model)的量級還在不斷增大,比方說 LLaMA-2-70B、以及 Falcon-180B 等等。

大型語言模型的性能自然是相當優秀的,可是往往需要耗費大量且價格昂貴的 GPU 記憶體,這使得一些邊緣運算裝置根本就不可能讓模型進行推理(inference) —— 更遑論訓練、微調自己的模型了。

Read More »[論文閱讀] QLoRA: Efficient Finetuning of Quantized LLMs