IT企業の営業が初めてPythonを学んでみた話④ばっちりデータ分析篇
2019-07-03
azblob://2022/11/11/eyecatch/2019-07-03-sales-python-challenge-ep4.jpeg

こんにちは。FIXER M&S 竹中です。 本連載4本目となります。また少々お付き合いを頂ければと思います。前回はPyQ上でFLASKとDjangoを使ったWebアプリケーション開発学習と、その躓きポイントについて書きました。今回はまた趣向を変えてPythonの魅力の一つであるデータ分析について書いてみます。

データ分析と私

いきなり訳の分からないことから始めますが、実は私データ分析には一家言ある(そしてスキルはない)人間なのです。これは私の学歴と職歴に深く関係がありまして、私は実は自然科学実験系(電気電子)と社会科学調査系(言語/心理学)両方の研究室で修士までおりました。
で、意外と前者では統計ってやらないのですね。実験からFactが得られてしまうので。なのでいわゆる文系とされている学部の方が研究室ではよく統計を使う印象があります。アンケートやテキストなどの定性データを分析して定式化するには統計を使うのが最も強力かつ王道です。

そして社会人になってからは製造業で品質管理検定資格を取ったり、そもそも一つ前の職場ではメディアのアナリストだったのでウェブやらSNSやらの分析を毎日やっていました。で、仕事で分析をやる上で一番大変だったのが、それこそWebなんてほぼ毎日コンテンツを発信しますし、季節要因や競合他社の配信もあったりで「分析のための前提」が全く安定しないことです。
ですのでこのBlogも案外あーでもないこーでもないと言いながら色々なパラメータをいじりつつ実験的にやっています(運営自体は何かキメている疑惑があるくらいハッピーなテンションの後輩にぶん投げている)。

Pythonはデータ分析のライブラリが豊富

そんなこんなで色んな角度からデータ分析を見てきた(Mr. Childrenの「しるし」っぽい)私ですのでPythonを学ぼうとした動機の半分くらいはここにあります。PythonではNumpyやPandas、Scikit-learnなどデータを取りまわすためのライブラリがたくさんあり、かつ標準でも十分なくらいメソッドが用意されているのでパラメータをちょこちょこ変えるだけでそれっぽい結果が得られてしまいます。しかも当たり前ながらFreeなので、アカデミック業界でもツールとしての分析はRとPythonが人気を二分しています。
※昔はSASやSPSSが人気だったが却って習得が面倒なのと普通に結構高いので下火になりつつある(個人の意見です)。

PyQにはデータ分析のクエストが沢山ある

これですよ。(どれですよ??)。PyQではデータ分析まわりの短めなコースがたくさんあって、例えば「数学とアルゴリズム」「データ分析」「機械学習」「統計分析」「数理的アプローチによる問題解決」とあって、周辺技術としてスクレイピングやデータベースも学べます。すばらしい。
あとはJupyter notebookの使い方も一通りクエストがあります。Jupyter notebookというのは普通のコードを全部書いてばくっとRunするのではなく短く書いてちょこちょこ実行できるいわゆる対話型のエディタです。パラメータ変えて再計算、が素早くできるのでとても良いですね。

結論:Pythonによるデータ分析めっちゃ楽

偏差値5の結論を出してしまって申し訳ありません。ですが一通りやってみての実感がこれです。Anaconda使えば導入も楽ですし、コードも書きやすく読みやすく短くできます。もっと複雑な処理をしようとすると高級言語が故に動作が遅い等あるのかもしれませんが、私のレベルだとそれも全く気になりません。

次回予告

今回をもってこの「IT企業の営業が初めてPythonを学んでみた話」シリーズは一旦終わりとなります。少しでも楽しんでいただけたならとてもありがたいです。

今後は時間の許す範囲で分析に特化してPythonをやっていけたらと思っています。ですので次シリーズ 「IT企業の営業が初めてKaggleに挑戦してみた話」でまたお会いしたいと思います(自ら首を絞めていくスタイル)。やんわりと乞うご期待。

お読みいただきありがとうございました。