Skip to content

Blog

Stable Diffusion ComfyUI 筆記 01 - 下載與環境安裝

什麼是 ComfyUI?

有在玩 Stable Diffusion AI 生圖的人可能都聽過 stable-diffusion-webui,它是一個支援 Stable Diffusion 模型架構的視覺化界面,讓使用者可以不必親自撰寫程式碼或是繁瑣的命令列操作,就可以讓 AI 模型進行生圖的推理。而 ComfyUI 則是另外一個稍微小眾一點的前端界面,不過憑著自由且能靈活客製化的特性,也迅速地收割了一波死忠的粉絲,基本上,可以視為是 stable-diffusion-webui 的更進階版本,也比較沒那麼親民。

Read More »Stable Diffusion ComfyUI 筆記 01 - 下載與環境安裝

PaddleOCR: 擅長中文光學字元辨識(OCR)的架構與模型

介紹

最近我在探索一些用來進行光學字元辨識(Optical character recognition, OCR)的模型,早些年 OCR 是研究非常熱門的領域,畢竟是電腦視覺最早可落地應用的領域;但是到了今日,OCR 也已經是非常成熟的任務了,上網一找,便可以找到性能很好的開源模型。

Read More »PaddleOCR: 擅長中文光學字元辨識(OCR)的架構與模型

NuExtract: 使用大型語言模型進行資訊萃取

介紹

在如今各種大型語言模型百花齊放的時代,各方研究者與企業都絞盡腦汁,想辦法將大型語言模型應用在手邊的工作中;但說句我個人的心裡話,現今各種語言模型的性能仍舊不夠強,其應用的場景很少,許多時候是遠遠比不上人類的。

但有一種任務類型是大型語言模型天生就相當合適的:任意場景的資訊萃取,也即是我今天想介紹的 NuExtract 模型。

Read More »NuExtract: 使用大型語言模型進行資訊萃取

[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

前言

這是華為諾亞方舟實驗室所提出加速框架,本質上是把原先投機解碼(speculative decoding)中所使用的小模型由大模型的淺層網路取代,並再由額外訓練的適配器(adapter)加上模型本身的解碼頭去生成推測的 token,再由大模型去進行驗證 —— 後續的操作與原先的 speculative decoding 其實沒有太大差別。

Read More »[論文解讀] Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

使用 snapshot_download 下載 HuggingFace Hub 上的模型

介紹

HuggingFace Model Hub 現在已經是無人不知、無人不曉的重要開源平台了,每天都有無數的人或組織上傳自己訓練出來的最新模型(包含文字、圖像、語音...... 等等不同領域)到這個平台上。可說是現在凡舉是個做 AI 相關工作的人,想必都會經常瀏覽 HuggingFace 他們的家的平台網站。

Read More »使用 snapshot_download 下載 HuggingFace Hub 上的模型

[論文閱讀] Mistral 7B 技術報告

介紹

Mistral 7B 是 2023 年 09 月 27 日所提出的大型語言模型(Large Language Model, LLM),由同名的 Mistral AI 團隊訓練而成並將其權重開源釋出。有趣的是,它所採用的授權是相當自由的 Apache 2.0,不像 Llama 2 採用了自己的 Llama 授權條款,所以是真正意義上的『開源』(Llama 授權需要在服務量達到七億時跟 Meta AI 討論授權問題)。

Read More »[論文閱讀] Mistral 7B 技術報告