Skip to content

LeetCode: 2870-Minimum Number of Operations to Make Array Empty 解題紀錄

Direct Preference Optimization (DPO) 訓練方法筆記

Last Updated on 2024-02-29 by Clay

介紹

DPODirect Preference Optimization, 直接偏好優化)是一種取代 RLHFReinforcement Learning from Human Feedback, 基於人類反饋的強化學習)的微調方式。眾所皆知,大型語言模型在經過非監督式學習後能夠學習到大量的知識與理解能力(有些研究者認為是『壓縮並保存』了知識在神經網路權重中);在監督式學習後學會了流暢地回應我們的問題,或者說是學會了『對話』的能力。

Read More »Direct Preference Optimization (DPO) 訓練方法筆記

[已解決] fatal error: portaudio.h: No such file or directory 9 | #include “portaudio.h” | ^~~~~~~~~~~~~ compilation terminated

Last Updated on 2023-12-24 by Clay

問題描述

今天當我在一台新的 Linux 筆電上想要安裝 pyaudio(Python 中經常用於錄音的套件)時,我遇到了之前沒有遇過的錯誤:

Read More »[已解決] fatal error: portaudio.h: No such file or directory 9 | #include “portaudio.h” | ^~~~~~~~~~~~~ compilation terminated
Exit mobile version