実務に生かすPythonサンプル

Pythonでcsvファイルの読み込み【csvモジュール】

こんにちは。現役Webエンジニアの三年坊主です。

 

今回は、Pythonでcsvファイルを読み込みたい人の、このような疑問に答えます。

「Pythonでcsvファイルを読み込みたい。普通にテキストファイルをopenするのと違うんだろうか?pandasが便利みたいなことも聞くけど、今はライブラリをインストールせずに気軽に試してみたい。」

 

 

この記事では、大学の研究と自分の趣味で、合わせて5年以上Pythonを使ってきた経験を生かして、標準のcsvモジュールを使ってPythonでcsvファイルを読み込む方法を紹介します。

 

この記事の内容

  • csvとは
  • 読み込むcsvファイルを用意する
  • Pythonでcsvファイルの読み込み
  • Pythonで読み込んだcsvデータの扱い方
  • csvデータにカンマが含まれる?

 

csvとは?

csvは、”Comma-Separated Values“の略です。

つまりcsvファイルというのは、項目をカンマ(,)で区切ったテキストファイルのことをさします。

タブで区切っていたらtsvファイル “Tab-Separated Values” と呼んだりします。

 

「csvって、よく聞くけどたしかに何の略かあまり意識したことなかったかも・・・」

 

読み込むcsvファイルを用意する

csvファイルは、世の中のいろいろなところで活用されています。

ほんの一例ですが、クレジットカードの利用履歴をcsvファイルとしてダウンロードできる会社もあるようです。

今回はためしに、エポスカードの利用履歴を使ってみることにします。フォーマットはこのような感じです。

 

 

「ちょっと恥ずかしいので、数字を変えたり余計な行を取り除いたりしています・・・」

 

 

nkfコマンドでファイルの文字コードを確認すると、Shift_JISのようでした。

 

Pythonでcsvファイルの読み込み

Pythonでcsvファイルを読み込む処理の流れはこんな感じです。

  • (1) csvモジュールをインポート
  • (2) csvファイルを開く
  • (3) 開いたcsvファイルからreaderオブジェクトを作成する
  • (4) readerオブジェクトを使って一行ずつデータを取得する
  • (5) csvファイルを閉じる

 

(1) csvモジュールをインポート

標準ライブラリからcsvモジュールをインポートします。

このライブラリはcsvファイル専用というわけではなく、delimiter(あとで説明)を変えたりして、様々なフォーマットに対応できます。

ファイル名も変数に入れておきましょう。

 

(2) csvファイルを開く

組み込み関数 open() を使って、ファイルを読み込み用に開きます。

csvfile がファイルオブジェクトの場合、 newline=” として開くべきです。

csv.reader

 

ファイルの文字コードも指定しましょう。今回は、encoding=’shift_jis’ と指定します。

7.2.3. 標準エンコーディングに書いてあるように、csshiftjis, shiftjis, sjis, s_jisなどの別名を使っても大丈夫です。

 

 

(3) readerオブジェクトを作成

ヘッダーを読み飛ばしたいとき、header = next(csv_reader) を使って、ヘッダーの次の行をさすようにします。

 

(4) 一行ずつデータを取得

readerオブジェクト(csv_reader)を使って、一行ずつリスト形式でファイルの中身を読み込みます。print文で中身を確認してみましょう。

 

(5) csvファイルを閉じる

openしたファイルを忘れずにcloseしましょう。

 

(1)〜(5)を通して実行する

 

with構文を使って少し楽をする【コピペ用】

with構文を使うと、ファイルのクローズを自動的に行えるので、csvファイルの読み込みをよりシンプルに書くことができます。

 

おまけ:readerオブジェクトって何?

ファイルの「読み込み方」と「読み込み状態」を保持しておくオブジェクトです。読み込みに関していえば、中身(属性)は主にこの2つ。

  • dialect:方言を設定する。「方言」はつまり「ファイルをどうやって読み込むのか」のことで、「フィールド間を区切る文字」や「改行の取り扱い方」などをまとめたものを方言と呼んでいます。
  • line_num:すでに読み込んだ行数

が設定されています。

 

一行読み込むごとに、line_numの値が1ずつ増えているのが分かります。1がないのは、header = next(csv_reader)で一行読み飛ばしているからですね。

 

csv.reader と csv.DictReader

これまで見てきたように、csv.readerを使うと、各行をリスト形式で読み込めます。

 

一方で、csv.DictReaderを使うと、各行を辞書形式で読み込めます。

 

csv.readerと比べたメリット

  • header = next(csv_reader)でヘッダーを読み飛ばす必要がない
  • ヘッダーとデータの対応が分かりやすい(「ご利用場所」が「ファミリーマート」だとすぐにわかる)

 

Pythonで読み込んだcsvデータの扱い方

csv.readerを使う【コピペ用】

csv.readerを使って、各行をリスト形式で読み込みます。

rowのように、必要なフィールドを番号で指定して使います。

 

csv.DictReaderを使う【コピペ用】

csv.DictReaderを使って、各行を辞書形式で読み込みます。

row[‘ご利用年月日’]のように、必要な項目にアクセスして使います。

 

csvデータにカンマが含まれる?

“4,246”

のように、金額の数字にカンマが入っているとき、delimiterに「区切り文字」、quotecharに「囲い文字」を指定して、データの中身と区切り文字を区別できるようにします。

 

Pythonでcsvファイルを読み込んで、快適なエンジニア生活を送りましょう。

▼経験の棚卸しで納得のキャリアを▼
▼相場に消耗しない資産運用▼
マネースクエア
Pythonチュートリアル

Pythonをインストール、サンプルを通して使い方を学んだら、次は実際に何か作ってみませんか?

手元のパソコンで環境構築不要・Webブラウザだけで、パッと見た人の印象に残るコンテンツを作る手順を一から説明しています。

チュートリアルを見てみる

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください