Machine Learning

[論文閱讀] ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Clay
2024-01-312024-01-31
Machine Learning

Introduction

ColBERT 是一種專為檢索任務設計的 Embedding Model，它會將 Query 和 Documents 的 tokens 逐項轉換出 embedding 並計算最大相似度。

OpenAI Triton Note (2): Fused Softmax

Clay
2024-01-292024-01-29
Machine Learning, PyTorch

介紹

Softmax 是一個常見的激活函數（activation function），也經常被用作多分類的最後一層。

OpenAI Triton Note (1): 向量相加

Clay
2024-01-282024-01-29
Machine Learning, PyTorch

介紹

Triton 是一套開源的 GPU 程式語言編譯器，由 OpenAI 於 2021 年發佈，近年來有越來越多的開發使用 Triton 來編寫與優化在 GPU 上的併行程式。相較傳統 CUDA/OpenCL 等函式庫，Triton 提供了一種 Python-like 語法，顯得更清晰與容易上手。

[論文閱讀] RAGAS: Automated Evaluation of Retrieval Augmented Generation

Clay
2024-01-172024-01-18
Machine Learning, PyTorch

前言

2023 年是生成式 AI 大爆發的一年，各式各樣的 AI 應用層出不窮。其中在自然語言處理（NLP）領域中，大型語言模型（Large Language Model, LLM）絕對是最重要的技術。只要把 LLM 訓練好、減少幻覺，就會在各式各樣的任務上減少人力。

使用 vLLM 作為動態批次（Dynamic Batching）加速推理的 API 服務

Clay
2024-01-112024-01-11
Machine Learning

介紹

我之前曾寫了一篇介紹 vLLM 加速推理框架的筆記（使用 vLLM 進行大型語言模型（LLM）的高速推理），然而因受篇幅與時間限制，沒來得及探討更細緻的功能。

Supervised Fine-tuning Trainer (SFTTrainer) 訓練筆記

Clay
2024-01-032024-01-03
Machine Learning, PyTorch

[已解決] Mistral 經過 SFTTrainer 微調後不會輸出 eos_token `<|im_end|>`

Clay
2023-12-312024-02-20
Machine Learning, PyTorch

問題描述

HuggingFace 之前曾經發表過文章表示現在的 LLM最好是依照 ChatML 格式去訓練，在一般情況下，會按照 system、user、assistant 的三種不同角色來進行生成，格式如下：

LLM 微調筆記 – SFT 和 DPO 的差異

Clay
2023-12-272023-12-27
Machine Learning

介紹

在大型語言模型（Large Language Model, LLM）的微調任務中，監督式微調（Supervised Fine-tuning, SFT）、基於人類反饋強化學習（Reinforcement Learning from Human Feedback, RLHF）和直接偏好優化（DPO）… 等等都是不錯的方法，不過他們之間存在一些差異。

Direct Preference Optimization (DPO) 訓練方法筆記

Clay
2023-12-262024-02-29
Machine Learning, Python, PyTorch

介紹

DPO（Direct Preference Optimization, 直接偏好優化）是一種取代 RLHF（Reinforcement Learning from Human Feedback, 基於人類反饋的強化學習）的微調方式。眾所皆知，大型語言模型在經過非監督式學習後能夠學習到大量的知識與理解能力（有些研究者認為是『壓縮並保存』了知識在神經網路權重中）；在監督式學習後學會了流暢地回應我們的問題，或者說是學會了『對話』的能力。

使用 vLLM 進行大型語言模型（LLM）的高速推理

Clay
2023-12-102023-12-14
Machine Learning, Python, PyTorch

介紹

vLLM 是加州柏克萊分校所開發的一種大型語言模型（Large Language Model, LLM）加速推理框架。它主要是利用 PagedAttention 機制提高了 GPU VRAM 的使用率，並且這一方法無須更改模型的架構。