Pythonでcsvファイルの読み込み【csvモジュール】

こんにちは。現役Webエンジニアの三年坊主です。

今回は、Pythonでcsvファイルを読み込みたい人の、このような疑問に答えます。

「Pythonでcsvファイルを読み込みたい。普通にテキストファイルをopenするのと違うんだろうか？pandasが便利みたいなことも聞くけど、今はライブラリをインストールせずに気軽に試してみたい。」

この記事では、大学の研究と自分の趣味で、合わせて5年以上Pythonを使ってきた経験を生かして、標準のcsvモジュールを使ってPythonでcsvファイルを読み込む方法を紹介します。

この記事の内容

csvとは
読み込むcsvファイルを用意する
Pythonでcsvファイルの読み込み
Pythonで読み込んだcsvデータの扱い方
csvデータにカンマが含まれる？

csvとは？

csvは、”Comma-Separated Values“の略です。

つまりcsvファイルというのは、項目をカンマ（,）で区切ったテキストファイルのことをさします。

タブで区切っていたらtsvファイル “Tab-Separated Values” と呼んだりします。

「csvって、よく聞くけどたしかに何の略かあまり意識したことなかったかも・・・」

読み込むcsvファイルを用意する

csvファイルは、世の中のいろいろなところで活用されています。

ほんの一例ですが、クレジットカードの利用履歴をcsvファイルとしてダウンロードできる会社もあるようです。

今回はためしに、エポスカードの利用履歴を使ってみることにします。フォーマットはこのような感じです。

「ちょっと恥ずかしいので、数字を変えたり余計な行を取り除いたりしています・・・」

nkfコマンドでファイルの文字コードを確認すると、Shift_JISのようでした。

nkf --guess 20181006_UseHistoryReference_sample.csv

1	nkf --guess 20181006_UseHistoryReference_sample.csv

Pythonでcsvファイルの読み込み

Pythonでcsvファイルを読み込む処理の流れはこんな感じです。

(1) csvモジュールをインポート
(2) csvファイルを開く
(3) 開いたcsvファイルからreaderオブジェクトを作成する
(4) readerオブジェクトを使って一行ずつデータを取得する
(5) csvファイルを閉じる

(1) csvモジュールをインポート

標準ライブラリからcsvモジュールをインポートします。

このライブラリはcsvファイル専用というわけではなく、delimiter（あとで説明）を変えたりして、様々なフォーマットに対応できます。

ファイル名も変数に入れておきましょう。

import csv

file_path = '20181006_UseHistoryReference_sample.csv'

import csv

file_path = '20181006_UseHistoryReference_sample.csv'

(2) csvファイルを開く

組み込み関数 open() を使って、ファイルを読み込み用に開きます。

csvfile がファイルオブジェクトの場合、 newline=” として開くべきです。
csv.reader

ファイルの文字コードも指定しましょう。今回は、encoding=’shift_jis’ と指定します。

7.2.3. 標準エンコーディングに書いてあるように、csshiftjis, shiftjis, sjis, s_jisなどの別名を使っても大丈夫です。

csvfile = open(file_path, 'r', newline='', encoding='shift_jis')

1	csvfile = open(file_path, 'r', newline='', encoding='shift_jis')

(3) readerオブジェクトを作成

ヘッダーを読み飛ばしたいとき、header = next(csv_reader) を使って、ヘッダーの次の行をさすようにします。

csv_reader = csv.reader(csvfile)
header = next(csv_reader)

1 2	csv_reader = csv.reader(csvfile) header = next(csv_reader)

(4) 一行ずつデータを取得

readerオブジェクト（csv_reader）を使って、一行ずつリスト形式でファイルの中身を読み込みます。print文で中身を確認してみましょう。

for row in csv_reader:
  print(row)

1 2	for row in csv_reader: print(row)

['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']
['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

1 2	['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', ''] ['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

(5) csvファイルを閉じる

openしたファイルを忘れずにcloseしましょう。

csvfile.close()

1	csvfile.close()

(1)〜(5)を通して実行する

import csv

file_path = '20181006_UseHistoryReference_sample.csv'
csvfile = open(file_path, 'r', newline='', encoding='shift_jis')

csv_reader = csv.reader(csvfile)
header = next(csv_reader)

for row in csv_reader:
  print(row)

csvfile.close()

import csv

file_path = '20181006_UseHistoryReference_sample.csv'

csvfile = open(file_path, 'r', newline='', encoding='shift_jis')

csv_reader = csv.reader(csvfile)

header = next(csv_reader)

for row in csv_reader:

print(row)

csvfile.close()

['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']
['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

1 2	['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', ''] ['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

with構文を使って少し楽をする【コピペ用】

with構文を使うと、ファイルのクローズを自動的に行えるので、csvファイルの読み込みをよりシンプルに書くことができます。

import csv

file_path = '20181006_UseHistoryReference_sample.csv'

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  csv_reader = csv.reader(csvfile)
  header = next(csv_reader)
  
  for row in csv_reader:
    print(row)

import csv

file_path = '20181006_UseHistoryReference_sample.csv'

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

csv_reader = csv.reader(csvfile)

header = next(csv_reader)

for row in csv_reader:

print(row)

['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']
['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

1 2	['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', ''] ['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

おまけ：readerオブジェクトって何？

ファイルの「読み込み方」と「読み込み状態」を保持しておくオブジェクトです。読み込みに関していえば、中身（属性）は主にこの２つ。

dialect：方言を設定する。「方言」はつまり「ファイルをどうやって読み込むのか」のことで、「フィールド間を区切る文字」や「改行の取り扱い方」などをまとめたものを方言と呼んでいます。
line_num：すでに読み込んだ行数

が設定されています。

一行読み込むごとに、line_numの値が1ずつ増えているのが分かります。1がないのは、header = next(csv_reader)で一行読み飛ばしているからですね。

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  csv_reader = csv.reader(csvfile)
  header = next(csv_reader)

  print(csv_reader.dialect)

  for row in csv_reader:
    print(row)
    # すでに読み込んだ行数
    print(csv_reader.line_num)

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

csv_reader = csv.reader(csvfile)

header = next(csv_reader)

print(csv_reader.dialect)

for row in csv_reader:

print(row)

# すでに読み込んだ行数

print(csv_reader.line_num)

<_csv.Dialect object at 0x7efefcf758b8>
['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']
2
['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']
3

<_csv.Dialect object at 0x7efefcf758b8>

['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']

['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

csv.reader と csv.DictReader

これまで見てきたように、csv.readerを使うと、各行をリスト形式で読み込めます。

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  # リスト形式
  csv_reader = csv.reader(csvfile)
  header = next(csv_reader)
  
  for row in csv_reader:
    print(row)

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

# リスト形式

csv_reader = csv.reader(csvfile)

header = next(csv_reader)

for row in csv_reader:

print(row)

['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', '']
['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

1 2	['ショッピング', '2018年10月1日', 'スイドウリョウキンゲスイ', '−', '4246', '1回払い', '2018年11月', ''] ['ショッピング', '2018年10月4日', 'ファミリーマート', '−', '108', '1回払い', '2018年11月', '']

一方で、csv.DictReaderを使うと、各行を辞書形式で読み込めます。

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  # 辞書形式
  csv_dictreader = csv.DictReader(csvfile)
  
  for row in csv_dictreader:
    print(row)

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

# 辞書形式

csv_dictreader = csv.DictReader(csvfile)

for row in csv_dictreader:

print(row)

OrderedDict([('種別', 'ショッピング'), ('ご利用年月日', '2018年10月1日'), ('ご利用場所', 'スイドウリョウキンゲスイ'), ('ご利用内容', '−'), ('ご利用金額', '4246'), ('支払区分', '1回払い'), ('お支払開始月', '2018年11月'), ('備考', '')])
OrderedDict([('種別', 'ショッピング'), ('ご利用年月日', '2018年10月4日'), ('ご利用場所', 'ファミリーマート'), ('ご利用内容', '−'), ('ご利用金額', '108'), ('支払区分', '1回払い'), ('お支払開始月', '2018年11月'), ('備考', '')])

OrderedDict([('種別', 'ショッピング'), ('ご利用年月日', '2018年10月1日'), ('ご利用場所', 'スイドウリョウキンゲスイ'), ('ご利用内容', '−'), ('ご利用金額', '4246'), ('支払区分', '1回払い'), ('お支払開始月', '2018年11月'), ('備考', '')])

OrderedDict([('種別', 'ショッピング'), ('ご利用年月日', '2018年10月4日'), ('ご利用場所', 'ファミリーマート'), ('ご利用内容', '−'), ('ご利用金額', '108'), ('支払区分', '1回払い'), ('お支払開始月', '2018年11月'), ('備考', '')])

csv.readerと比べたメリット

header = next(csv_reader)でヘッダーを読み飛ばす必要がない
ヘッダーとデータの対応が分かりやすい（「ご利用場所」が「ファミリーマート」だとすぐにわかる）

Pythonで読み込んだcsvデータの扱い方

csv.readerを使う【コピペ用】

csv.readerを使って、各行をリスト形式で読み込みます。

rowのように、必要なフィールドを番号で指定して使います。

data_list = []
with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  # リスト形式
  csv_reader = csv.reader(csvfile)
  header = next(csv_reader)
  
  for row in csv_reader:
    # 欲しいデータだけ使う
    use_date, use_place, use_amount = row[1], row[2], row[4]
    data_list.append((use_date, use_place, use_amount))
    
print(data_list)

data_list = []

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

# リスト形式

csv_reader = csv.reader(csvfile)

header = next(csv_reader)

for row in csv_reader:

# 欲しいデータだけ使う

use_date, use_place, use_amount = row[1], row[2], row[4]

data_list.append((use_date, use_place, use_amount))

print(data_list)

[('2018年10月1日', 'スイドウリョウキンゲスイ', '4246'), ('2018年10月4日', 'ファミリーマート', '108')]

1	[('2018年10月1日', 'スイドウリョウキンゲスイ', '4246'), ('2018年10月4日', 'ファミリーマート', '108')]

csv.DictReaderを使う【コピペ用】

csv.DictReaderを使って、各行を辞書形式で読み込みます。

row[‘ご利用年月日’]のように、必要な項目にアクセスして使います。

data_list = []
with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  # 辞書形式
  csv_dictreader = csv.DictReader(csvfile)
  
  for row in csv_dictreader:
    # 欲しいデータだけ使う
    use_date, use_place, use_amount = row['ご利用年月日'], row['ご利用場所'], row['ご利用金額']
    data_list.append((use_date, use_place, use_amount))

print(data_list)

data_list = []

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

# 辞書形式

csv_dictreader = csv.DictReader(csvfile)

for row in csv_dictreader:

# 欲しいデータだけ使う

use_date, use_place, use_amount = row['ご利用年月日'], row['ご利用場所'], row['ご利用金額']

data_list.append((use_date, use_place, use_amount))

print(data_list)

[('2018年10月1日', 'スイドウリョウキンゲスイ', '4246'), ('2018年10月4日', 'ファミリーマート', '108')]

1	[('2018年10月1日', 'スイドウリョウキンゲスイ', '4246'), ('2018年10月4日', 'ファミリーマート', '108')]

csvデータにカンマが含まれる？

“4,246”

のように、金額の数字にカンマが入っているとき、delimiterに「区切り文字」、quotecharに「囲い文字」を指定して、データの中身と区切り文字を区別できるようにします。

file_path = '20181006_UseHistoryReference_sample_comma.csv'

data_list = []
with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:
  # 辞書形式
  csv_dictreader = csv.DictReader(csvfile, delimiter=',', quotechar='"')
  
  for row in csv_dictreader:
    # 欲しいデータだけ使う
    use_date, use_place, use_amount = row['ご利用年月日'], row['ご利用場所'], row['ご利用金額']
    data_list.append((use_date, use_place, use_amount))

print(data_list)

file_path = '20181006_UseHistoryReference_sample_comma.csv'

data_list = []

with open(file_path, 'r', newline='', encoding='shift_jis') as csvfile:

# 辞書形式

csv_dictreader = csv.DictReader(csvfile, delimiter=',', quotechar='"')

for row in csv_dictreader:

# 欲しいデータだけ使う

use_date, use_place, use_amount = row['ご利用年月日'], row['ご利用場所'], row['ご利用金額']

data_list.append((use_date, use_place, use_amount))

print(data_list)

[('2018年10月1日', 'スイドウリョウキンゲスイ', '4,246'), ('2018年10月4日', 'ファミリーマート', '108')]

1	[('2018年10月1日', 'スイドウリョウキンゲスイ', '4,246'), ('2018年10月4日', 'ファミリーマート', '108')]

Pythonでcsvファイルを読み込んで、快適なエンジニア生活を送りましょう。

より本格的にPythonを学ぶなら

より本格的にPythonを学びたい場合には、プログラミングスクールを活用するのがオススメです。

プログラミングスクールって、「プログラミングって何？」みたいな超初心者だけのものと思っていませんか？

最近では、経験者向けにも、レベルや希望に合わせた様々なコースが展開されています。

オススメなのが、Aidemyです。

特徴は、人工知能特化型のプログラミング学習サービスということ。

Pythonを学べるコース

AIアプリ開発コース（画像認識）
データ分析コース（数値予測）
自然言語処理コース
E資格対策コース
クラウドAI開発コース
実戦データサイエンスコース

Aidemyの教材は「理論よりもまずは実践」をうたっていて、他社と比較すると、かなり本格的に、現場でも実際に使われるスキルを身につけられます。

そして、どのコースも同じ料金で受け放題。

余裕があれば、AIアプリ開発コースの内容と、クラウドAI開発コースの内容を組み合わせて学習することもできてしまいます。

無料のカウンセリングで、不明点や学習したい内容をまずは相談してみましょう。

» Aidemyの無料カウンセリングはこちら

もう一つオススメなのが、TechAcademyです。

オンラインプログラミングスクール受講者数No.1の実績に加えて、受講生限定の転職サポートもあり、TechAcademyで学んだスキルを生かせる職場への転職も可能です。

Pythonを学べるコース

「セット割」を活用すると、Pythonを使った人工知能・データ分析のスキルを過不足なく身につけられます。

1週間の無料体験があるので、システムの使い心地やサポート体制をのぞいてみるのがいいかなと思います。

» TechAcademyの無料体験はこちら

どちらのスクールも質問サポートが充実していて、早ければその場で、遅くとも次の日には疑問が解消するので、

「独学でプログラミングを勉強してきたけど、行き詰まるたびに時間が奪われるし、周りに気軽に聞ける人もいない」

みたいな無駄な一日を過ごすことがなくなります。

以上、Pythonを本格的に学べるプログラミングスクールを2校紹介しました。どちらも最初に20〜30万円くらいの投資が必要ですが、実際にスキルを身につけてしまえば、あとで簡単に回収できるはずです。例えば、

Pythonエンジニアに転職して年収を上げる：50万円
副業で業務委託：20万円（時給5,000円で週10時間、1か月）
クラウドソーシングの単発案件：5〜10万円

このように、プログラミングスクールにお金を払ってもすぐに回収できることが分かると思います。

実際に、Pythonを使う業務委託で時給5,000円というのは普通にあるので、スキルをつけたら「週末にちょっと作業」を1〜2か月続けるだけですよね。

Google検索で問題解決するのもいいですが、「毎回ちょっと場当たり的に対応していて苦しいな・・・」と感じているあなたは、一度腰を据えてPythonを本格的に学ぶことを選択肢に入れてみてはいかがでしょうか。

記事で紹介したプログラミングスクールの一覧

Aidemy→人工知能特化、無料カウンセリングあり
TechAcademy→受講者数No.1、1週間の無料体験あり

Python

Pythonでcsvファイルの読み込み【csvモジュール】

csvとは？

読み込むcsvファイルを用意する

Pythonでcsvファイルの読み込み

(1) csvモジュールをインポート

(2) csvファイルを開く

(3) readerオブジェクトを作成

(4) 一行ずつデータを取得

(5) csvファイルを閉じる

(1)〜(5)を通して実行する

with構文を使って少し楽をする【コピペ用】

おまけ：readerオブジェクトって何？

csv.reader と csv.DictReader

Pythonで読み込んだcsvデータの扱い方

csv.readerを使う【コピペ用】

csv.DictReaderを使う【コピペ用】

csvデータにカンマが含まれる？

より本格的にPythonを学ぶなら

Pythonを快適に使いこなすMac環境【現役エンジニアおすすめはPro 13インチ...

【2020年版】Pythonインストール・Mac編【長く安全に使える環境構築】

Pythonでログを出力する方法【もう迷わない決定版】

【Python】2次元配列の使い方まとめ【現役エンジニアが解説】

【pandas】重複したDataFrameの行を確認・削除【逆引きデータ分析】

Pythonで2進数を使いこなす方法【現役エンジニアが解説】

COMMENT コメントをキャンセル