[AI] OpenAI davinciをFine-tuningする Google Colab

[M1 Mac, Monterey 12.6.3]

OpenAIのLLMであるdavinciを自製datasetでFine-tuningしてみました。

結果は全く効果がないどころか、妙にやさぐれたキャラクターになってWikipediaから臆面もなくコードを引っ張ってくる始末でした。

davinciのプレーンの方が大分ましですが、gpt-3.5-turboに比べるとかなり劣ります。

やはりgpt-3.5-turboをFine-tuningしないとダメですね。自製データセットの内容も良くないのでしょう。ただ、今のところdavinciのようなbase modelしかFine-tuning出来ないようです。

GitHub CopilotのモデルであるCodexもgpt-3.5-turbo等に引き継がれて非推奨になっていますし、OpenAIの有力なモデルでいじれるものがありません。

Fine-tuningが出来ないとなると、あとはPrompt Designで何とかするしかないですね。まあ、こちらは効果は薄めな反面、コストが比較的掛からないという利点があります。

つい先日、LlamaIndexでPDFを読み込ませて試してみましたが、なかなかしっかりした回答を返してきました。こちらの路線でしばらく遊んでみたいと思います。

上段がFine-tuning、下段がプレーン

自製データセットCSV
gpt-3.5-turboが断然優れている

参考サイト

[C++] 309 ファイルの生成日時を文字列にする

[M1 Mac, Monterey 12.6.3, clang 13.0.0, ChatGPT API(gpt-3.5-turbo), NO IDE]

ChatGPTに作ってもらいました。何度かトライしてようやく成功です。

最初の回答を修正させてハマったので、全く別の方法を考えさせました。

一見単純なコードですが、stat構造体を知らないと書けません。

ところでAIの情報を毎日チェックしていますが、ChatGPTの優秀さが際立つばかりといった印象です。

AI開発停止運動とやらは、OpenAI始め先行開発群に追いつけそうもない焦りの現れでしょうか。

MDファイルをJSONに変換して生成日時をファイル名に追加
#include <sys/stat.h>

string getCreationTime(const char* filePath) {
    struct stat attr;
    if (stat(filePath, &attr) == -1) {
        return "";
    }

    char buffer[16];
    strftime(buffer, sizeof(buffer), "%y%m%d_%H%M%S", localtime(&attr.st_birthtimespec.tv_sec));

    return buffer;
}

[AI] RWKVをNVIDIA A100で動かす Google Colab

[M1 Mac, Monterey 12.6.3]

巷で話題のRNN(Recurrent Neural Network)であるRWKVをGoogle Colabで使ってみました。

学習モデルはRWKV-4-Pile-14B-Instruct-test4-20230327-ctx1024.pthです。パラメータ数は14Billion(140億)です。読み込みに3分ほど掛かりました。

結論ですが、プログラミング補助ツールとしてはChatGPT API(gpt-3.5-turbo)に遠く及ばないです。ルール通りプロンプトの先頭には+iを付けています。

行間が読めないといいますか、質問文の読解力が不足しているように感じました。英語で聞いても回答の質は変わらずです。応答速度についてはサクサクで全く問題ありません。

やはりGPU1枚で高機能なチャットボットを動かすには特化した学習モデルでないと厳しいということでしょうか。

ただ不完全とは言え、それなりの内容を返してくるのは評価できます。今後の進展に期待といったところです。

実用的であればハイスペックPCを導入しようと考えていましたが、その必要はなさそうです。

コスト :
Google Colab Pro+ ¥5767/月
・A100を高確率で引きたかったのでProより上にしました(もう一つのプレミアムGPUはNVIDIA V100)
Google One(100GB) ¥250/月
・初月無料. 学習モデル28.3GBの保管に必要.

参考サイト

[C++] 308 FLTK : ChatGPTアプリの製作 その35 md→json変換 その2

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

昨日ChatGPTに書いてもらったコードを叩き台にして手を入れ主要な部分を作成しました。

細かいところで色々ややこしかったので、coutデバッグの痕跡を残したままアップしておきます。前半のwhile文はこちらの意図が伝わってなかったのか大分修正しました。後半のfor文が完璧だったのはさすがです。

あとはmdファイルの生成日時をファイル名の先頭に付けたら完成になります。

これでiPadやスマートフォンでのやりとりもChatGPTアプリで閲覧できるようになります。

変換jsonファイルの内容確認
#include <iostream>
#include <fstream>
#include <vector>
#include <string>
#include <sstream>
#include <nlohmann/json.hpp>

using namespace std;
using json = nlohmann::json;

int main() {
    ifstream ifs("test.md");
    string line;
    vector<string> user_messages;
    vector<string> assistant_messages;
    bool is_user = false;
    string assistant_msg;
    string user_msg;

    cout << "初期化通過" << endl;

    while (getline(ifs, line)) {
        cout << "while通過" << endl;

        if (line.empty()) {
            if (is_user) {
                is_user = false;
            }
            cout << "empty通過" << endl;
        } else if (line[0] == '>') { // user
            if (assistant_msg != ""){
                assistant_messages.push_back(assistant_msg);
                cout << "assistantベクター追加" << endl;
                assistant_msg = "";
            }

            is_user = true;
            cout << "user : " << line.substr(2) << endl;
            string user_msg = line.substr(2) + "\n";
            user_messages.push_back(user_msg);
        } else {
            if (is_user) {
                cout << "user2行目以降 : " << line << endl;
                user_msg += line + "\n";
                cout << "user文字列追加" << endl;

            } else {
                if (user_msg != ""){
                    user_messages.push_back(user_msg);
                    cout << "userベクター追加" << endl;
                    user_msg = "";
                }

                cout << "assistant : " << line << endl;
                assistant_msg += line + "\n";
                cout << "assistant文字列追加" << endl;
            }
        }
    }
    assistant_messages.push_back(assistant_msg);
    cout << "assistantベクター最終追加" << endl;

    cout << "getline通過" << endl;

    json root;
    json messages = json::array();
    for (int i = 0; i < user_messages.size(); i++) {
        json message;
        message["content"] = user_messages[i];
        message["role"] = "user";
        messages.push_back(message);
        message["content"] = assistant_messages[i];
        message["role"] = "assistant";
        messages.push_back(message);
    }
    root["messages"] = messages;
    root["model"] = "gpt-3.5-turbo";
    root["temperature"] = 0.0;

    ofstream ofs("output.json");
    ofs << root.dump(4);

    return 0;
}

[C++] 307 FLTK : ChatGPTアプリの製作 その34 md→json変換

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

iPadでChatGPTを使う場合は公式Webを使います。そこでのやりとりはWebラッパーでmdファイルとしてダウンロードします。

そのmdファイルを自製ChatGPTアプリでjsonファイルに変換できるよう開発を進めています。

最初はRustで製作されたWebラッパーを改変してjsonとしてダウンロードできるようにしようかとも考えたんですが、Rustで書くとJavaのヌルポ攻勢と同様の例外処理対応に追われるのが目に見えているので、やめておくことにしました。

取りあえずChatGPTに叩き台のコードを書いてもらいました。

ところでGPT-4のwaitlistに登録して2週間が経とうとしていますが、まだAPIで使えません。やはり重課金ユーザー優先ということでしょう。当方かなり使ったつもりでもまだ供与された18ドルに遠く及ばない2.8ドルです。

RWKVなど有望なLLMが話題に上がっていて、いよいよローカルChat Botの実現が見えてきました。今のところRTX3080位ないと厳しいらしく、どうするか考えています。

ただTwitterを見る限りキャッチアップしているのは画像生成AI界隈の方ばかりで、その分野に全く興味がない者としてそろそろ潮時とも思えます。プログラマ系の方々は水面下に潜った感がありますね。そりゃTwitterばかり見てたらコードもろくに書けません。

ChatGPTアプリ製作開始から26日経過し、平常モードに戻るタイミングかもしれません。

Q:
以下のコードをC++で書いて下さい。
mdファイルをjsonファイルに変換する。
1.mdファイル
不等号の行はrole:userのcontent
改行コードが2回続き、次の行はrole:assistantのcontent
2.jsonファイル
keyはmessages, model, temperatureの3つ。
modelのvalueはgpt-3.5-turbo
temperatureのvalueは0.0
jsonの例は以下の通り
{
“messages”: [
{
“content”: “”,
“role”: “system”
},
{
“content”: “FLTKのプログラムがFl_Buttonを自動クリックするコードを書いて下さい”,
“role”: “user”
},
{
“content”: “以下は、FLTKのプログラムでFl_Buttonを自動クリックするコードの例です。\n\nc++\n#include <FL/Fl.H>\n#include <FL/Fl_Window.H>\n#include <FL/Fl_Button.H>\n\nint main(int argc, char **argv) {\n Fl_Window *window = new Fl_Window(200, 200, \"Auto Click\");\n Fl_Button *button = new Fl_Button(50, 50, 100, 50, \"Click Me\");\n\n // 自動クリックする\n button->do_callback();\n\n window->end();\n window->show(argc, argv);\n return Fl::run();\n}\n\n\nこの例では、Fl_Buttonオブジェクトのdo_callback()メソッドを呼び出すことで、ボタンを自動的にクリックしています。このメソッドは、ボタンがクリックされたときに呼び出されるコールバック関数を実行します。”,
“role”: “assistant”
},
{
“content”: “これまでの質問回答の内容から15文字程度で日本語タイトルを考えて下さい。英単語が混ざってもかまいません。”,
“role”: “user”
},
{
“content”: “FLTKで自動クリックする方法”,
“role”: “assistant”
}
],
“model”: “gpt-3.5-turbo”,
“temperature”: 0.0
}

A:
以下がC++でのコード例になります。

#include <iostream>
#include <fstream>
#include <string>
#include <vector>
#include <nlohmann/json.hpp>

using json = nlohmann::json;

int main() {
    // mdファイルを読み込む
    std::ifstream ifs("1.md");
    std::string md((std::istreambuf_iterator<char>(ifs)), std::istreambuf_iterator<char>());

    // mdファイルを改行コードで分割する
    std::vector<std::string> lines;
    std::string line;
    std::istringstream iss(md);
    while (std::getline(iss, line)) {
        lines.push_back(line);
    }

    // jsonオブジェクトを作成する
    json j;
    j["messages"] = json::array();
    j["model"] = "gpt-3.5-turbo";
    j["temperature"] = 0.0;

    // mdファイルの内容をjsonオブジェクトに追加する
    std::string role = "user";
    for (const auto& line : lines) {
        if (line.empty()) {
            role = "assistant";
            continue;
        }
        j["messages"].push_back({
            {"content", line},
            {"role", role}
        });
    }

    // jsonファイルに書き込む
    std::ofstream ofs("2.json");
    ofs << j.dump(4) << std::endl;

    return 0;
}

このコードでは、まずmdファイルを読み込み、改行コードで分割して各行を処理します。次に、jsonオブジェクトを作成し、mdファイルの内容をjsonオブジェクトに追加します。最後に、jsonファイルに書き込みます。

[MacOS] .DS_Store関連の検証 Makefile動作不調解決 / ChatGPTの虚言癖改善

[M1 Mac, Monterey 12.6.3, clang 13.0.0, ChatGPT API(gpt-3.5-turbo), NO IDE]

.DS_Storeを削除せずにMakefileを正常動作させることが出来るようになりました。

findコマンドでsrcディレクトリ内のcppファイルパスを取得する際、.DS_Storeファイルを対象外としました。findコマンドにそのような機能があるとは知りませんでした。*.cppのワイルドカードで良かったのかも。

今回の件でChatGPTに散々嘘をつかれて振り回されたため、虚言癖が出ないようsystemロールで”あなたはソースが明確に存在することしか発言しないチャットボットです”と釘を刺すと少しましになりました。

嘘をつくなと指示してもその概念が分からないようなので、かみ砕いて説明する必要がありました。

# ソースファイル
SRCDIR = ./src
SRCS = $(shell find $(SRCDIR) -type f -not -name ".DS_Store")

[C++] 306 FLTK : 文字列をユニコードに変換 漢字変換修正 UTF-16

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

前回の記事で漢字変換がおかしかった所を修正しました。

UTF-8のままではマルチバイト文字を1つのユニコードとして認識できないため、UTF-16に変換する必要があります。

wstring_convertクラスを使ってUTF-8からUTF-16に変換しています。

#include <iostream>
#include <string>
#include <codecvt>

void convertCB(Fl_Widget*, void*) {
    std::stringstream unicode;
    const char* chr = convertInput -> value();

    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
    std::wstring unicode_str = converter.from_bytes(chr);
    for (wchar_t c : unicode_str) {
        unicode << std::hex << std::uppercase << static_cast<int>(c) << " ";
    }

    browser->add((unicode.str()).c_str());
}

[C++] 305 FLTK : 文字列をユニコードに変換 

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

自製アプリに文字列をユニコードに変換する機能を実装しました。

下図のようにファイル名に改行コードLFが混入していることが分かります。

漢字の変換がおかしいですが、後日修正します。

void convertCB(Fl_Widget*, void*) {
    std::stringstream unicode;
    const char* chr = convertInput -> value();
    for (int i = 0; chr[i] != '\0'; i++) {
        unicode << "\\u" << std::hex << std::setw(4) << std::setfill('0') << (int)chr[i];
    }

    browser->add((unicode.str()).c_str());
}

[MacOS] .DS_Store関連の検証 Makefile動作不調

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

Spotlightのためにディレクトリ情報をまとめた.DS_StoreがMakeコマンドを妨害することがあります。

対象ディレクトリにある.DS_Storeを消してしまえば済む話ですが、それではSpotlightが正常に機能しなくなるのでMakeコマンド実行時にこのファイルを無視できないか方法を探っています。ちなみにGitではgit ignoreを使って無視できます。

.DS_StoreはFinderで隠しファイルを見えるようにしても隠れたままですから、取り扱いがやっかいです。

取りあえず消してしまった.DS_Storeを仮置きするために他のディレクトリからコピーする方法をメモしておきます。

全てのディレクトリに.DS_Storeは存在しているはずなので、最初にfindコマンドで所在を確認する必要は特にありません。

# .DS_Storeファイルの所在を確認
$ find "/ChatGPT" -name ".DS_Store"
# 出力
/ChatGPT/.DS_Store
/ChatGPT/.git/.DS_Store
/ChatGPT/bin/.DS_Store
/ChatGPT/etc/.DS_Store
/ChatGPT/images/.DS_Store
/ChatGPT/include/.DS_Store
/ChatGPT/obj/.DS_Store

# 適当な.DS_Storeファイルを対象ディレクトリへコピー
$ cp /ChatGPT/obj/.DS_Store /ChatGPT/src

# コピーできているか確認
$ find "/ChatGPT" -name ".DS_Store"
# 出力
/ChatGPT/.DS_Store
/ChatGPT/.git/.DS_Store
/ChatGPT/bin/.DS_Store
/ChatGPT/etc/.DS_Store
/ChatGPT/images/.DS_Store
/ChatGPT/include/.DS_Store
/ChatGPT/obj/.DS_Store
/ChatGPT/src/.DS_Store

[C++] 304 FLTK : ChatGPTアプリの製作 その33 Finderの異常表示原因判明

[M1 Mac, Monterey 12.6.3, clang 13.0.0, FLTK 1.3.8, ChatGPT API(gpt-3.5-turbo), NO IDE]

前回の続きです。

Finderのファイル名に?が紛れ込む原因は改行コードの混入でした。

Commander Oneでファイル情報を見てみるとファイル名のところに改行が入っていました。

ChatGPTアプリで返信された回答をGUIに表示する際、コピペがしやすいように文末に改行コードを追加したことが原因でした。

Finderを悪者扱いしてしまい反省です。ChatGPTからも特殊文字が混ざっているとその部分は?になるという指摘がありましたが、正にその通りでした。ファイル名をユニコードU+16進数(U+XXXX)表記させればすぐに分かっていたでしょう。

ただCommander Oneのinfoでようやく分かったように、Finderの方でも改行コードが何らかの形で反映されるように改良していただきたいものです。

この件は解決した一方、.DS_Storeファイルによるmake妨害の件については現在とある検証を実施中です。妨害回避に成功したら報告します。

Commander Oneのinfo : ファイル名が.jsonの手前で改行されている
// 最新回答contentをoutputに表示
Fl_Text_Buffer* buffer = new Fl_Text_Buffer();
output -> buffer(buffer);
buffer -> append(content0.c_str());
buffer -> append("\n");             // ここが余計だった
output -> wrap_mode(Fl_Text_Display::WRAP_AT_BOUNDS, 5);