[Java] 66 Swing 06 PythonによるCSVファイル集計

CSVファイルの内容集計は外部プログラムのPython(pandas)に任せています。

集計コードは以下の通りです。Javaとの格闘で一時げんなりしていましたが、直感的にコーディングできるPythonによって息を吹き返しました。リスト内包表記を書くといつも爽快な気分になります。引き続き頑張っていけそうです。

import glob,csv
import pandas as pd

paths = glob.glob('/*.csv')
print(paths)

paths2 = sorted(paths)
print(paths2)

csvfile = paths2[-1]
print(csvfile)

df = pd.read_csv(csvfile,encoding='UTF-8')
print(df)

prize = df['賞金'].sum()
print(f"獲得賞金 {prize}")

race_count = len(df)
print("レース数 " + str(len(df)))

list = df['着順'].tolist()
一着回数 = len([i for i in list if i == 1])
二着回数 = len([i for i in list if i == 2])
三着回数 = len([i for i in list if i == 3])
着外回数 = len([i for i in list if i > 3])

着別度数 = f"{一着回数}-{二着回数}-{三着回数}-{着外回数}"
print("着別度数 " + 着別度数)

list_output = [{"獲得賞金":prize,"着別度数":着別度数}]

# 集計ファイル名作成(集計:aggregate)
filename = csvfile.split(".")[0] + "_agg.csv"

field_name = ['獲得賞金','着別度数']
with open(filename,'w',encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames = field_name)
    writer.writeheader()
    writer.writerows(list_output)

[Java] 65 外部コマンドの実行

Javaにおける配列、リスト、CSVファイルの取り扱いが私にとってはあまりに煩雑なので、外部コマンドにてPythonスクリプトを走らせることにします。

昨日はArrayListをCSVファイルに変換するのに散々痛い目にあって懲りました。JavaでCSVファイルの内容を読み込んで集計するなんてPythonユーザーの私にはかなりの苦行です。

JavaからPythonスクリプトを直接呼び出せないのでコンソールコマンドを使います。戻り値のやりとりはできないため、CSVファイル等を介してデータを出し入れします。

コンソールコマンドを実行するクラスは以下の通りです。

Javaとの実用面での関わりはGUI作成限定になりそうです。好きな言語ではありますが、コーディング快適性や開発速度を考慮しての結論です。

JavaはC言語と同様、実装に使うかどうかはともかく学習対象であることは変わりません。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.nio.charset.Charset;

public class ProcessExecutor {
    public static void main() throws Exception {
    	System.out.println("ProcessExecutor");

        ProcessBuilder p = new ProcessBuilder("sh", "-c", "python test.py ; echo 'コマンド完了'");

        p.redirectErrorStream(true);

        // コマンドを実行する
        Process process = p.start();

        // 結果を受け取る
        try (BufferedReader r = new BufferedReader(new InputStreamReader(process.getInputStream(), Charset.defaultCharset()))) {
            String line;
            while ((line = r.readLine()) != null) {
                System.out.println(line);
            }
        }
        process.waitFor();
        int result = process.exitValue();
        System.out.printf("result = %d%n", result);
    }
}

[Python] 296 Jython 03 FXMLファイルの読み込み

軽い気持ちで取りかかったら見事にハマりました。

なかなか解決しなかったのは、launchメソッドの2番目の引数とFXMLファイルのパスの書き方です。

いわゆるヌルポ(NullPointerException)から脱するため、Thread.currentThread().getStackTrace()を走らせたり色々調べても解決の糸口を見出せず。

結局、引数はsys.argv、パスはプロジェクトディレクトリ直下の絶対パスでした。JavaではMainファイルからの相対パスになります(スラッシュなしのファイル名のみ)。スラッシュの有り無しは全く意識してませんでした。

EclipseからPyCharmに検討環境を移す寸前でStackOverFlowの英語版にヒントを見つけました。またしても海外のギークに助けられました。

GUI内のカタカナなど2バイト文字が明らかに中華系フォントなので、別途フォント指定が必要ですね。

from javafx.application import Application
from javafx.fxml import FXMLLoader
from javafx.scene import Scene
import sys

class JythonJavafx(Application):
    def start(self, stage):
        root = FXMLLoader.load(self.getClass().getResource('/test.fxml'))
        stage.setScene(Scene(root, 300, 125))
        stage.setTitle("CHARACTER CODE CONVERTOR")
        stage.show()

if __name__ == "__main__":
    Application.launch(JythonJavafx().__class__, sys.argv)
<?xml version="1.0" encoding="UTF-8"?>
<?import javafx.scene.control.Label?>
<?import javafx.scene.layout.BorderPane?>

<BorderPane maxHeight="-Infinity" maxWidth="-Infinity" minHeight="-Infinity" minWidth="-Infinity" prefHeight="125.0" prefWidth="300.0" xmlns="http://javafx.com/javafx/8.0.171" xmlns:fx="http://javafx.com/fxml/1">
    <center>
        <Label text="FXML ロード成功" BorderPane.alignment="CENTER" />
    </center>
</BorderPane>

[Python] 295 Jython 02 JavaFXプロジェクトの移植

JavaFXプロジェクトのJythonへの移植を試みています。

ガワは再現できたので次はFXMLの導入です。

Application.launchの引数でエラーになっていましたが、オブジェクトのクラス__class__で解決しました。

おそらくexe化はできないため、私にとってこのスキルの必要性は高くないです。気が向いた時にのんびり進めていきます。

from javafx.application import Application
from javafx.scene import Scene
from javafx.scene.layout import AnchorPane;

class Main(Application):
    def start(self, stage):
        root = AnchorPane()
        stage.setScene(Scene(root, 300, 125))
        stage.setTitle("CHARACTER CODE CONVERTOR")
        stage.show()

if __name__ == "__main__":
    Application.launch(Main().__class__, [])

[Python] 294 Jython 01 Eclipseでテスト

[macOS Catalina 10.15.7]

過去の遺物になりつつある感が否めないJython(ジャイソン)をたわむれにいじっています。

Hello JythonのPaneを表示させるのに丸1日かかりました。何かエラーになっているようですが、とりあえず良しとします。

PyDev開発元によると最新のEclipse 2021-03はクラッシュしているそうなので、その前の2020-12を使いました。なお2021-03は私の用途ではJython以外で問題なく使えています。

JREはJavaFXがOracle公式にて廃止される直前のJava8(調べると採用されたのは8のみ)、Jythonは最新1つ手前の2.7.1です。Jython 2.7.2はEclipseに導入できませんでした。

設定画像もアップしておきます。

最近はさしあたってコーディングしたいものがなく、ゲームをクリアする感覚で今回のような初心者向きの課題に取り組んでいます。

Javaを扱うようになって2000年代のブログ記事を読んだりしますが、扱っているツールやOS等のバージョン情報がほとんどなくて残念です。まさか2020年代に資料として読まれるとは思ってもいないのでしょう。

[Python] 293 引数が複数あるC言語モジュール

以前うまくいかなかったC言語モジュールを完成させました。

input(引数)とoutput(戻り値)を自在に設定でき、C言語実行ファイルに必須の処理終了検知が不要なので、こちらを常用することになりそうです。

#define PY_SSIZE_T_CLEAN
#include <Python.h>
#include "fnv_function.c"

static PyObject* horse_id(PyObject* self, PyObject* args)
{
    const char* path;
    const char* name;
    uint32_t id;

    if (!PyArg_ParseTuple(args,"ss",&path,&name)){
        return NULL;
    }
    else{
        FILE *fp; // horse_listファイル
        int horseID[10]; // 1 horseID
        uint32_t horse_hash[20]; // 2 馬名ハッシュ
        char horse_name[100]; // 3 検索馬名
        char horse_name0[100]; // 4 馬名
        char status[10]; // 5 稼働
        char gender[10]; // 6 性別
        char hair[10]; // 7 毛色
        char birthday[100]; // 8 生年月日
        char trainer[100]; // 9 調教師
        char owner[100]; // 10 馬主
        char info[100]; // 11 募集情報
        char breeder[100]; // 12 生産者
        char area[50]; // 13 産地
        char price[50]; // 14 セリ取引価格
        char prize_money[50]; // 15 獲得賞金
        char result[50]; // 16 通算成績
        char wining_race[200]; // 17 主な勝鞍
        char relatives[200]; // 18 近親馬

        uint32_t horse_hash_input_int;
        uint32_t horse_hash_int;

        char buf[2000]; // fgets用

        int i=0; // 行番号
        int b=0; // 検索結果有無の識別

        fp = fopen(path, "r");

        while(fgets(buf,2000,fp ) != NULL ) {
            if (i != 0){
                sscanf(buf, " %[^,],%[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %[^,], %s",horseID,horse_hash,horse_name,horse_name0,status,gender,hair,birthday,trainer,owner,info,breeder,area,price,prize_money,result,wining_race,relatives) ;

                horse_hash_int = atoi(horse_hash);
                horse_hash_input_int = fnv_1_hash_32(name);

                if(horse_hash_int - horse_hash_input_int == 0){
                    id = atoi(horseID);
                    b ++;
                    break;
                }
            }
            i ++ ;
        }
        if (b == 0){
            id = 100000000;
        }
        fclose(fp);

        return Py_BuildValue("I", id);
    }
}

static PyMethodDef Horseidmethods[] = {
    {"horse_id", (PyCFunction)horse_id, METH_VARARGS},
    {NULL,NULL,0}
};

static struct PyModuleDef horseid = {
    PyModuleDef_HEAD_INIT,
    "horseid",
    "Python3 C API Module(Sample 1)",
    -1,
    Horseidmethods
};

PyMODINIT_FUNC PyInit_horseid(void)
{
    return PyModule_Create(&horseid);
}

[Python] 292 CSVファイルの文字コード変換

とっくに記事にしていると思い込んでました。

今後も重宝するでしょう。

import pandas as pd

filename = 'horse.csv'
filename_new = 'horse_new.csv'

df = pd.read_csv(filename,encoding='shift_JIS')

with open(filename_new,mode = 'w',encoding='UTF-8') as f:
    df.to_csv(f,index=False)

[Python] 291 C言語実行ファイルの併用 その5 ハッシュ関数 FNV 64bit

ハッシュ関数fnvの32bitで競走馬名ハッシュ値の衝突が生じたため、64bitハッシュ値での検索処理時間を計測してみました。

やはり32bitの55秒に対し77秒と遅くなりました。

ハッシュ値検索にこだわるならばFNVでは32bitで運用するしかないですが、同一誕生年内での衝突はないので私の使い方では今のところトラブルになることはありません。

ところで、Excelで表をまとめていて64bit以上の整数を正確に表示できない問題に遭遇しました。仕方ないので文字列扱いにして解決しました。

他にも小数点数と整数の区別ができない、UTF-8のCSVファイルが基本文字化けする、数字とハイフンがあると勝手に日付と解釈する、など何かとプログラマ泣かせのソフトです。

macOSのNumbersでは64bit整数でも問題なく表示できます。今はなきLotus1-2-3はどうだったのか少し気になります。

情報科学においてunsigned long long integerを”符号なし長長整数”などといった日本語に翻訳していないのが不思議です。

[Python] 290 引数ありのC言語モジュール ハッシュ関数 FNV 64bit

ハッシュ関数FNVの32bitで数件衝突が発生したため、64bitでも生成できるようにしました。

PythonのドキュメントにPy_BuildValueの引数について解説があり、unsigned long long intのフォーマットがKであることが分かりました。

unsigned intのフォーマットはiではなく大文字のIなので、32bitの方も修正しました。これでPython側での変換が不要になります。

#define PY_SSIZE_T_CLEAN
#include <Python.h>

extern uint32_t fnv_1_hash_32(const char*);
extern uint64_t fnv_1_hash_64(const char*);

static PyObject* fnv_32(PyObject* self, PyObject* args)
{
    const char* s;
    unsigned int hash=2166136261U;

    if (!PyArg_ParseTuple(args, "s", &s)){
        return NULL;
    }
    else{
        while (*s) {
        hash*=16777619U;
        hash^=*(s++);
        }

        return Py_BuildValue("I", hash);
    }
}

static PyObject* fnv_64(PyObject* self, PyObject* args)
{
    const char* s;
    unsigned long long hash=14695981039346656037U;

    if (!PyArg_ParseTuple(args, "s", &s)){
        return NULL;
    }
    else{
        while (*s) {
        hash*=1099511628211LLU;
        hash^=*(s++);
        }

        return Py_BuildValue("K", hash);
    }
}

static PyMethodDef fnvmethods[] = {
    {"fnv_1_hash_32", fnv_32, METH_VARARGS},
    {"fnv_1_hash_64", fnv_64, METH_VARARGS},
    {NULL,NULL,0}
};

static struct PyModuleDef fnv = {
    PyModuleDef_HEAD_INIT,
    "fnv",
    "Python3 C API Module(Sample 1)",
    -1,
    fnvmethods
};

PyMODINIT_FUNC PyInit_fnv(void)
{
    return PyModule_Create(&fnv);
}
from c_module import fnv

name_list = ['シャフリヤール']

for name in name_list:
    hash = fnv.fnv_1_hash_64(name)
    print(hash)
--------------------------------------------------

出力
--------------------------------------------------
7203286604922561048
#include <stdio.h>
#include <stdint.h>

uint32_t fnv_1_hash_32(char *s)
{
    unsigned int hash=2166136261U;

    while (*s) {
        hash*=16777619U;
        hash^=*(s++);
    }
    return hash;
}

uint64_t fnv_1_hash_64(char *s)
{
    unsigned long long hash=14695981039346656037U;

    while (*s) {
        hash*=1099511628211LLU;
        hash^=*(s++);
    }
    return hash;
}
from distutils.core import setup, Extension

setup(name='fnv',
    version='1.0',
    ext_modules=[Extension('fnv', sources = ['fnv.c','fnv_function.c'])]
)
<セットアップコマンド>

・自作ライブラリに配置するsoファイルを作成するコマンド "from c_module import fnv"
python setup.py build_ext -i

・既存のライブラリにインストールするコマンド "import fnv"
python setup.py install

[Python] 289 ハッシュ関数 FNV-1によるハッシュ値のばらつき

FNV-1により生成されたハッシュ値のばらつきをヒストグラムで確認しました。ハッシュ値は自製のC言語モジュールで生成しました。

上のグラフが1986年以降に生まれた競走馬26.2万頭の馬名ハッシュ値、下のグラフが馬名にシルクが含まれる1000頭のハッシュ値をヒストグラムにしたものです。

満遍なくハッシュ値が生成されており、冠名による偏りもほとんど見られませんでした。

ハッシュ値の重複については調査中です。重複があれば他のハッシュ関数を検討します。

import matplotlib.pyplot as plt
import datetime
import pandas as pd

df = pd.read_csv("name_hash.csv",encoding='UTF-8')
df2 = df[df['馬名'].str.contains('シルク',na=False)]
list = df2['horse_hash'].tolist()

datetime_now = datetime.datetime.now()
datetime_now_str = datetime_now.strftime('%y%m%d%H%M')

plt.hist(list, bins=20,color=['#7fffd4'])
plt.savefig(f"{datetime_now_str}_hist_silk.png")