生活を良くします - 怠惰なプログラミング

生活を良くします-怠惰なプログラミング

外資系でエンジニアをやっています。便利なサービスや商品、プログラミングで作ったものなどを紹介していきます

Udemy 「実践 Python データサイエンス」でアメリカ大統領選挙をデータマイニングする

Udemyで選挙のデータマイニング

Udemyとは

オンラインで学習できるサービスのことです。似ているサイトにドットインストールというサイトがあり、とてもお世話になっていたのですが、Udemyではプログラミング以外にも4万種類以上の講座が開講されています。

写真を上手に撮る講座であったり、wordpressでのおしゃれなサイトの作り方などの講座もあり、それぞれがその分野で有名な方や経験が豊富な人が講師を担当しています。


what-a-day.hatenablog.com

「実践 Python データサイエンス」コースについて

Pythonでの効果的なグラフの作成やデータの整形なども学習しながら機械学習やテキストマイニング・データマイニングの学習もできるというかなりの優良講座です。

データや事例に応じて適切なグラフ描画の方法とデータ処理の方法を教えてくれます。機械学習についてもかなりの量が学べます。


f:id:what_a_day:20161101233306p:plain


一応、初心者向けにPythonの基礎や数学が苦手な人用に統計学の基礎もおまけとしてついています。初心者の人はまず、ドットインストールや参考書などから入って楽しいと思えれば受講してみるのもいいのかなと思います。

最初からいくと最後までやり抜ければ実力はつきますが、細かいところでつまづきやすい気がします。




【世界で2万人が受講】実践 Python データサイエンス


無理をしない範囲で長く続けるのが、プログラミングでは才能よりも大切なことだと自分では勝手に思っているので最初の基礎のところをしっかりやっておくとつまづきが減って長続きしやすい傾向にあります(周りと自分を見て)。


アメリカ大統領選挙

アメリカの大統領選挙は4年に1度、開催されます。大統領が死亡した場合や辞任した場合は、副大統領が途中から大統領を引き継ぎます。これは海外ドラマをみて覚えました。

世論調査

世論調査の行方

start dateは世論調査実施の日時ですね、そして様々な週や新聞社、報道局が世論調査を行うので大変なことになっています。どちらが勝っているのか全然わかりません。
f:id:what_a_day:20161112003554p:plain

トランプの支持率 - クリントンの支持率

緑で描かれた、differenceは
difference = トランプの支持率 - クリントンの支持率 で 定義されています。

基本的にマイナスになっているので世論調査ではクリントン氏が安定して優勢に見えますね。これではマスコミがクリントン勝利ムードでガンガン放送していたのもうなづけます。

20161111230822


ちなみに専門的なサイトだと、下記のようなグラフを作成していました。
丸い点が世論調査が行われた地点で、どちらを支持しているのか示したもので、直線になっているのが、それらの傾向となっています。
こちらもわかりやすいですが、個人的にこの場合では直線が一つの方がわかりやすい気がします。

f:id:what_a_day:20161112000910p:plain
2016 General Election: Trump vs. Clinton - Polls - HuffPost Pollsterより


「実践 Python データサイエンス」が終わったら

次に読んでみると良いかも



データマイニングの実データへの適用事例の具体的な紹介



やや古い本ですが、たくさんの事例が載っていて勉強するモチベーションに繋がります。金融・競馬予測ができたらすごい!とかだいたいそんな感じで統計学や確率の一部は発展してきたという経緯があったような気がするのでやはり勉強して何かに役立てられると思うとやる気が出ますよね。

データマイニングなどは機械学習をする際にも有効な考え方もあるので勉強して見るのも良いと思います。




ディープラーニングの原理を徹底的に詳しく書いてある、おすすめ


この参考書はディープラーニングの基礎の理論からしっかりと教えてくれます。少し注意なのがこの本を読めばディープラーニングを使ったサービスなどを作れるようになる!、ということはないです。ただどういう思想でディープラーニングが成り立っているのかを学ぶことができるという意味で基礎力がつきます。ITの世界は技術の流行り廃りが特に激しいので少し勉強してもすぐに古い技術になってしまうのですが、この「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」ではそもそもの考え方から教えてくれるのでこの点からも勉強しておいて損がないと言えます。特に説明がかなり丁寧に書かれています。

情報系ではなかった人にも配慮されてある書き方なので一度読んで見るのも良いと思います。Pythonのざっくりとした書き方から統計学の基礎、若干の数学、情報系の知識など噛み砕いて本当に丁寧に説明してある良書です。



新しい学びの材料を探す

学んだ知識を活かして別のものを解析してみれば儲かるかもしれません。
stockedge.hatenablog.com

少ない投資に対して

どちらにせよ、ますますデータサイエンスや効果的に可視化する方法(グラフや表)は社会において求められてきます。

なぜなら今はgoogleなどのおかげで情報はその気になればいくらでも集めれますが、肝心の解析がなければただのデータです。

実験をしたことがない人には伝わりづらいかもれませんが、データをグラフ化するというのは傾向をみる上でも思考を整理する意味でも非常に重要で、なおかつそのグラフを見ているだけで何かの発見につながるほど便利な技術なのです。


ミクロで見ると細かく触れているけどマクロで見ると上昇中
株価が下がるタイミング?新製品の登場で株価上昇?
f:id:what_a_day:20161101192318p:plain


そしてそのようなスキルは自分で学ばない限り身につかず、さらに社会でもそんなスキルを持っている人は自分の周りには少ないですので役には立つと思います。少ない投資に対してリターンはかなり大きいと言えます。

試してみるのも悪くないんじゃないでしょうか。



実践pythonデータサイエンスはこちらから登録できます。


【世界で2万人が受講】実践 Python データサイエンス