BigCode & StarCoder: 專精於程式的大型語言模型計畫
介紹
BigCode
首先我們先來介紹 BigCode 吧!BigCode 是一個由 Hugging Face 和 ServiceNow 共同領導的開放性科學合作項目,目的是共同開發能夠應用於『程式設計』的大型語言模型(Large Language Model, LLM)。
Read More »BigCode & StarCoder: 專精於程式的大型語言模型計畫首先我們先來介紹 BigCode 吧!BigCode 是一個由 Hugging Face 和 ServiceNow 共同領導的開放性科學合作項目,目的是共同開發能夠應用於『程式設計』的大型語言模型(Large Language Model, LLM)。
Read More »BigCode & StarCoder: 專精於程式的大型語言模型計畫今天我在離線環境中要使用 transformers 套件建立 ALBERT 模型時來處理 NLP 任務,當我透過 transformers 提供的 AutoTokenizer 讀取 ALBERT 模型的斷詞器:
Read More »[已解決] 使用 AutoTokenizer.from_pretrained() 時發生 TypeError: not a string今天我在測試 simpletransformers 這個知名的 Python NLP 深度學習套件時,我在個人筆電上遇到了模型在開始訓練時整個流程卡住的問題。
Read More »[已解決] simpletransformers 在訓練開始時卡住,不會繼續進行訓練使用 Python 進行自然語言處理(NLP)的任務是在機器學習、深度學習領域相當常見的事情,當然,針對文本的前處理所需具備的工具、函式庫自然也是一應俱全。
aitextgen 是一個封裝得很高級的 Python 套件,讓使用者只需要寫短短幾行的程式碼,便能設定好複雜的 AI 模型。它的架構採用了 OpenAI's GPT-2 和 EleutherAI's GPT Neo/GPT-3,也能使用預訓練模型(pre-trained model)繼續進行模型的微調。
Read More »[NLP] 使用 aitextgen 套件來生成文本今天我在處理英文語料的時候,再次使用了 Python 中經典的自然語言處理工具 —— NLTK 來進行文本的斷詞。但就在我使用以下程式匯入停用詞(stopwords)時:
Read More »[已解決] NLTK ImportError: cannot import name 'stopwords'TF-IDF (Term Frequency - Inverse Document Frequency) 是在文字探勘、自然語言處理當中相當著名的一種文字加權方法,能夠反映出『詞彙』對於『文件』的重要性。跟著名的 Word2Vec 同樣能夠將文字轉換成向量,以供電腦進行計算。
Read More »[NLP] 文字探勘中的 TF-IDF 技術之前我曾經紀錄過,如何使用 Python 的 Gensim 套件訓練一個 Word2Vec 模型,讓我們將『詞彙』轉成『向量』,而這些轉成的『向量』也並不是毫無道理,直觀理解上,是每一維度中包含著文本中的一個隱含主題 —— 至少人們是這樣希望模型學習到東西的。
Read More »[NLP][Python] 表示文件向量: Doc2Vec使用 PyTorch 搭建關於自然語言處理相關任務的人,想必都對 PyTorch 當中的 nn.Embedding() 不陌生。nn.Embedding() 是 PyTorch 當中的一個嵌入層,可以讓我們將不同的詞編號之後放入,並產生一組我們可以任意指定的向量回傳。
Read More »[PyTorch] nn.Embedding() 讀取 Gensim 預訓練模型權重方法筆記埋首於自然語言處理 (NLP) 工作的人們,想必都對 Glove 和 Gensim 不陌生。
Read More »[Python] 將 Glove 模型轉換成 Gensim 可以讀取的格式