Python Pandas

Pandasとは
Pythonでデータ分析を効率的に行うためのライブラリ。
Pandasはオープンソース(BSDライセンス)で公開。
個人/商用問わず、誰でも無料で利用可能となっています。

Pandasを使用するとデータの読み込み・統計量・グラフ化など、データ分析に関する作業を容易に行う事ができます。
非常に高速に処理を行うことができる。

データ分析は、
機械学習を行うまでの前処理(データの読み込み、クリーニング、欠損値の補完、正規化など)が、全ての作業の8、9割を占めると言われている。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっているみたいです。

利用するには?
Pandasを利用するには下記コマンドでインストール可能
$ pip install pandas

インストールができたらimportをする。
(pandasを使用したいときにプログラム側で)
import pandas as pd

上記でも記載しましたが、データの解析や統計などで便利で色々な事が高速で実現できます。
下記ではその一部を紹介します。
(外部データ(CSV, TSV)などを読み込み実行も可能)

****************
前提:下記のデータフレームがあるとします。
df = pd.DataFrame({
‘sample1’ : [1, 2, 11, 3, 12, 3],
‘sample2’ : [1, 1, 21, 3, 21, 3]
})
****************

◆特定部分の指定
df.iloc[2,1]
(実行結果–>21)
◆データの統計量を確認する
df.describe()
(実行結果は統計量が表示されます。countは件数、meanは平均値、stdは標準偏差、minは最小値、maxは最大値…など)
◆平均値
df.mean()
◆中央値
df.median()
◆分散
df.var()
◆グラフを表示
やり方は色々あるみたいです。
◆データ加工
df[‘sample1’] = df[‘sample1’] * 2
df.astype(float)

※方法は一例ですので、他に記載方法はあると思います。

これを使用すると数値を解析して、何かを導く事も可能ですね。
書くだけは簡単。概要を決定して色々な事を数値化していくのがすごく難しそうです。

以上、機械学習のことを少し書いてみました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です