[Python] 219 CSVファイルの行と列を入れ替える

CSVファイルの行と列の入れ替えはpandasやnumpyでもできますが、今回はCSVモジュールでやってみました。

読み込んだ行データを列毎に分割、リスト化して行データにする手法です。そのようなメソッドがないため手作りするしかありません。

pandasでは列インデックスや行インデックスについても考慮しなければならないので、CSVモジュールの方が私には楽です。

コード例
各馬のデータを年毎にまとめる。

import glob
import csv

# 1986年から2020年のhorseファイルを年毎にまとめる
for year in range(1986,2021):
    for f in glob.glob(f'/horse_racing/horse_mas/{year}/*/*.csv'):
        file_new = f.split('horse_mas/')[0] + 'horse/' + f'horse{year}' + '.csv'

        with open (f, mode="r", encoding="shift_jis") as f1:
            with open(file_new, mode="a", encoding="shift_jis") as f2:
                writer = csv.writer(f2)
                row1_pre = []
                row2_pre = []
                for row in csv.reader(f1):
                    row1_pre.append(row[0])
                    row2_pre.append(row[1])

                row1 = ['horseID'] + row1_pre # 列タイトル
                row2 = [f[-13:-4]] + row2_pre # 馬データ

                if f[-9:-4] == '00001': # 各年1番の馬には列タイトルをつける
                    writer.writerow(row1[0:15])
                    writer.writerow(row2[0:15])
                else:
                    writer.writerow(row2[0:15])

[Python] 218 フォルダ(ファイル)をまとめて消去する

備忘のためメモ書きしておきます。

コード例
年フォルダ内のフォルダ(ファイル含)を全て消去

import glob,os,shutil

for year in range(1986,2021):
    for f in glob.glob(f'/horse_racing/race_name/{year}/*'):
        if os.path.isdir(f):
            shutil.rmtree(f)

年フォルダ内のファイルを全て消去

import glob,os

for year in range(1986,2021):
    for f in glob.glob(f'/Volumes/DATA_HR/horse_racing/race_name/{year}/*'):
        if os.path.isfile(f):
            os.remove(f)

[Python] 217 複数のCSVファイルから一部を抽出してまとめる

複数のCSVファイルからある行を抽出し、1つのファイルにまとめるコードです。

with文を追記モード(mode = ‘a’)にします。

一連のCSVファイル処理でCSVモジュールの使いやすさを認識しました。

数値データの配列ではなく単なる表として扱うのであれば、pandasよりもこちらの方が適しているように思います。

コード例は[Python]215の図にあるレースファイルから図右下のレース名他を抽出します。

import glob,csv

# 1986年から2020年のレースファイルからレース名他を抽出して競馬場毎にまとめる
for year in range(1986,2021):
    for f in glob.glob(f'/horse_racing/race/{year}/*/*/*.csv', recursive=True):
        file_new = f.split('race/')[0] + 'race_name/' + f.split('race/')[1][:-26] + f'race_n_{year}' + f.split('race/')[1][-26:-24] + '.csv'

        with open (f, mode="r", encoding="shift_jis") as f1:
            with open(file_new, mode="a", encoding="shift_jis") as f2: # 追記モード
                writer = csv.writer(f2)
                for i,row in enumerate(csv.reader(f1)):
                    if i != 0: # 行0の列インデックスは削除
                        if '010101' == f[-10:-4]: # 1回1日1Rだけ列タイトルを書き込み
                            if i == 1: # 列タイトル
                                rows = [e[2:] for e in row[21:30]] + ['raceID']
                                writer.writerow(rows)

                        if '年' in row[21]: # 列21に'年'がある行を書き込み
                            rows = row[21:30] + [f[-20:-4]]
                            writer.writerow(rows)

[Python] 216 フォルダ内ファイルをカウントする

前回記事で扱ったフォルダ内のファイルをカウントしてみました。

os.path.isfile関数でファイルかどうかを一応判定します。

import glob,os

# 1986年から2020年のレースファイルをカウントする
count_all =  0
year_count = []
for year in range(1986,2021):
    count =  0
    for f in glob.glob(f'/horse_racing/race/{year}/*/*/*.csv', recursive=True):
        if os.path.isfile(f):
            count +=1
            count_all += 1
    year_count.append({year:count})

print(count_all)
print(year_count)
--------------------------------------------------

出力
--------------------------------------------------
119460
[{1986: 3274}, {1987: 3283}, {1988: 3307}, {1989: 3335}, {1990: 3353}, {1991: 3389}, {1992: 3399}, {1993: 3425}, {1994: 3429}, {1995: 3417}, {1996: 3407}, {1997: 3433}, {1998: 3443}, {1999: 3415}, {2000: 3451}, {2001: 3448}, {2002: 3452}, {2003: 3449}, {2004: 3452}, {2005: 3438}, {2006: 3453}, {2007: 3453}, {2008: 3436}, {2009: 3453}, {2010: 3454}, {2011: 3444}, {2012: 3454}, {2013: 3454}, {2014: 3431}, {2015: 3454}, {2016: 3454}, {2017: 3455}, {2018: 3158}, {2019: 3452}, {2020: 3456}]

[Python] 215 CSVファイルから必要部分を抽出する

下図のように、レース結果、レース名、レースラップ、列インデックスが混在しているCSVファイルからレース結果のみを抜き出しました。

データベース化のための前処理です。

ちなみにExcel初級者が1ファイル30秒の手作業で処理するとしたら、1日8時間労働、月稼働20日とした場合、約半年かかります。このコードなら12万ファイルが70秒です。

120000ファイル × 0.5分 / 60分 / 8時間 / 20日 = 6.25ヶ月

しかしコードを書く人よりも、我慢強く手作業に取り組む人の方が評価されたりするのですから、日本の組織というのはなかなかのもんです。

import glob
import pandas as pd
import csv

# 1986年から2021年のレースファイルから結果のみを抽出する。/年/競馬場コード/回/*.csv
for year in range(1986,2022):
    for f in glob.glob(f'/horse_racing/race/{year}/*/*/*.csv', recursive=True):
        file_new = f.split('race/')[0] + 'race_result/' + f.split('race/')[1]

        with open (f, mode="r", encoding="shift_jis") as f1:
            with open(file_new, mode="w", encoding="shift_jis") as f2:
                writer = csv.writer(f2)
                for i,row in enumerate(csv.reader(f1)):
                    # 行0の列インデックスは削除
                    if i != 0:
                        # 列0にラップ、ペースが含まれていればTrue
                        word = ['ラップ'in row[0],'ペース'in row[0]]
                        # どちらもFalseであれば列0から列20を書き込みする
                        if not any(word):
                            writer.writerow(row[0:21])

[Python] 214 CSVファイルの空白行を削除する

CSVファイルに空白行がありこれらを削除したい場合、データフレームからの偶数行抽出などではうまくいきません。

CSVファイルをCSVモジュールで読み込み、if文で空白行以外を抽出しながら書き込みをします。

import glob,csv

# 1986年から1990年のレースファイルから空白行を削除したCSVファイルを作成する。/年/競馬場コード/回/*.csv
for year in range(1986,1991,1):
    for f in glob.glob(f'/horse_racing/race_mas/{year}/*/*/*.csv', recursive=True):
        file_new = f.split('race_mas/')[0] + 'race/' + f.split('race_mas/')[1]

        with open (f, mode="r", encoding="shift_jis") as f1:
            with open(file_new, mode="w", encoding="shift_jis") as f2:
                writer = csv.writer(f2)
                for row in csv.reader(f1):
                    if any(row):
                        writer.writerow(row)

[Python] 213 MySQL 02 CSVファイルをインポートする

前回はphpMyAdminを使ってインポートしましたが、今回はPythonでやってみました。

プログラムとデータベースの融通の効かなさが合わさって、正直言ってこの程度のコードでも頭にダメージを受けました。

随所にprint文を入れているところに苦闘の跡がうかがえます。Microsoft Accessで苦労していた頃を思い出します。

書き上げればあとは楽なんでしょうが、そこまでたどり着けるのか自信がありません。

import csv,mysql.connector
import pandas as pd

config = {
    'user': 'root',
    'password': 'root',
    'host': 'localhost',
    'port': 3306,
    'database': 'horse_racing',
    'raise_on_warnings': True
}

# DB化するCSVファイルの名前
filename = 'race202001010102.csv'

# CSVファイルのタイトル行の内容とtypeをリストにする
df = pd.read_csv(filename, encoding='Shift-JIS',header = None)
column_title = list(df.loc[0])
column_title_type_pre = [type(l) for l in df.loc[1]]

# typeは全て20字以内の文字列とする
# column_title_type = ['varchar(20)']*len(column_title)でも可
column_title_type = []
for t in column_title_type_pre:
    if 'str' in str(t):
        column_title_type.append('varchar(20)')
    if 'float' in str(t):
        column_title_type.append('varchar(20)')

print(column_title)
print(column_title_type)

# SQL文に使う列タイトルの文字列を作成する(角括弧を丸括弧に置換えるなど)
column_l = []
for ti,ty in zip(column_title,column_title_type):
    column = ti + ' ' + str(ty)
    column_l.append(column)

print(column_l)

column_l_str = str(column_l).replace('[','(').replace(']',')').replace("'",'').replace('(万円)','')

print(column_l_str)

# mysqlに接続
conn = mysql.connector.connect(**config)
cur = conn.cursor()

# データベースhorse_racingにtable_testを作成する
sql = f"create table horse_racing.table_test {column_l_str}"
cur.execute(sql)
cur.execute('begin')

# CSVファイルを読み込み、各行をtableに挿入する
with open(filename, 'rt', encoding='Shift-JIS') as f:
    reader = csv.reader(f)
    for i,row in enumerate(reader):
        print(f'row {row}')
        if i != 0:
        row_str = str(row).replace('[','(').replace(']',')')
            print(row_str)
            sql = f'insert into horse_racing.table_test values {row_str}'
            cur.execute(sql)

cur.execute('commit')
conn.close()

[Python] 212 MySQL 01 MAMPデータベースの読み込み

スクレイピングにより得られた競馬データのデータベース化に着手します。

レース結果のCSVファイルをMAMPのMySQLにインポートし、Pythonで読み込みを実行しました。

CSVファイルはphpMyAdminによりインポートしました。

スクレイピングで苦労しつつ競馬データを揃えたまでは良かったのですが、データベース化で取っ掛かりをつかめずに放置していました。

ところがWordPressとサーバを扱うようになってMAMPの存在を知り、そこから一気に道筋が見えてきました。

データベースについては全く考えていなかったので、意外な展開です。

import mysql.connector

config = {
  'user': 'root',
  'password': 'root',
  'host': 'localhost',
  'port': 3306,
  'database': 'horse_racing',
  'raise_on_warnings': True
}

conn = mysql.connector.connect(**config)

cursor = conn.cursor()

try:
    cursor.execute('SELECT `COL 4` FROM `TABLE 1`')

finally:
    result = cursor.fetchall()
    print(result)
    cursor.close()
    conn.close()
--------------------------------------------------

出力
--------------------------------------------------
[('3',), ('馬名',), ('エイカイマドンナ',), ('イリスファルコン',), ('ヤマニンプレシオサ',), ('ナタラディーヴァ',), ('アセンダント',), ('グラウシュトラール',), ('グランフェスタ',), ('ムーンフェアリー',), ('セレンディピア',), ('リインフォース',), ('グレイトゲイナー',), ('クルークヴァール',), ('フジマサディープ',), ('シルヴァーメテオ',), ('ネオアンビシャス',), ('エイカイキャロル',), ('',), ('',), ('',)]

[WordPress] 03 Highlighting Code Blockのマージン調整

Highlighting Code Blockプラグインを使うとコードを見やすく表示できますが、トップのマージンを除去したくなる時があります。

方法を以下に記します。

追加CSSでプラグイン表示に限らず段落や画像のマージンを調整できます。

1. Chromeの検証機能でマージンの素性を確認。上部の段落ではなくコードブロックのマージンであることがわかる。

2. コードブロックの”高度な設定”で追加CSSクラスに適当な名前をつける。

3.外観のカスタマイズで追加CSSを作成する。”.example_code{margin-top:0;}”などと記入する。

[Python] 211 pip関連コマンド

pip自体のアップグレード

python -m pip install --upgrade pip

ライブラリのインストール

python -m pip install [ライブラリ名]

ライブラリのリスト表示

python -m pip list

アップデート可能なライブラリのリスト表示

python -m pip list --outdated

ライブラリを指定してのアップデート

python -m pip install -U [ライブラリ名]

ライブラリのバージョンを指定してのインストール

python -m pip install [ライブラリ名]==x.x.x

ライブラリの利用可能なバージョン確認

python -m pip install [ライブラリ名]==

ライブラリのアンインストール(yes省略)

python -m pip uninstall -y [ライブラリ名]