[M1 Mac, Big Sur 11.6.7, Python 3.10.4]
漢字とひらがなの混ざった2次元リストからひらがなを抽出してリスト化するスクリプトを書きました。
やはりマルチバイト文字の扱いやすさはスクリプト言語に分があるようです。
import re
<2次元リストは省略>
for color in colors:
dup_num = 0
color_hiragana = list()
for ele in color:
hiragana = re.findall('[ぁ-ゟ]+', ele)
if len(hiragana) == 2: # 要素内にひらがな単語が2つある場合は最初のを削除
del hiragana[0]
dup_num +=1
color_hiragana.append(hiragana)
# リストの平滑化
color_hiragana_flat = [e for l in color_hiragana for e in l]
print(dup_num)
print(len(color_hiragana_flat))
print(color_hiragana_flat)