
こんにちは。FIXER M&S 竹中です。今回はAzure Data Science Virtual Machines(以下DSVM)の使い方について書いてみたいと思います。
・なぜ使うか?
私は普段趣味でデータ分析のコンペサイトKaggleに挑戦しており、あるコンペでどうしてもローカルPCでは取りまわせない量のデータセットを扱う必要がありました(訓練データが460万レコード、テストデータが260万レコードくらい)。
そこでクラウドで計算させることを考えたのですが、如何せんツールのセットアップをすべて自力で行うのは手間です。そこで、予めデータサイエンスに必要なコンポーネントがインストールされたDSVMを使ってみました。
・Azure Data Science Virtual Machinesとは?
詳しくは公式ドキュメントをご覧いただきたいのですが、基本的なラインナップは通常のVMと同じです。ですが、データ分析に必要なツールが予め入っており、私の場合ですとVSCode、Jupyter notebook、Python、Anaconda、LightGBMなどがここに該当します。今回は利用しませんでしたがTensorflowやKerasなどの深層学習用のライブラリ、SparkなどのBigdata系、RDB、BIに至るまでたくさんのコンポーネントがプリインストールされています。

・DSVMを使ってみよう
まずはこちら等をご参考に、Azureのアカウントを作成し、Portalへ入りましょう。ポータルの検索でData scienceと入力するとMarketplaceにDSVMのWin2016セットアップが表示されます。「作成」してVMを立ち上げましょう。今回はWindowsを利用しましたが、ほかにUbuntuとCentOSも選択することができます。


コンソールが立ち上がったら所与のパラメータを入力しましょう。特に難しいことは考えず、デフォルトの設定でOKなはずです。ディスクはHDDとSSDから選択できます。私は頻繁な読み書きを必要としませんのでお安いHDDで十分です。いくつか入力すると確認画面がでますので、OKを押してVMを作成します。

・RDPでVMへアクセスする
さて、完成したVMにリモートデスクトップでアクセスしてみましょう。Azure Portalから接続を選んでRDPファイルをダウンロードします(設定->ネットワークでRDPが許可されていることを確認しておきましょう)。RDPファイルを開き、IDPWを入力すると…


VMの仮想デスクトップにアクセスできましたね。見ての通り、アイコンにVSCode、Visual Studio、PycharmなどのIDEが見えます。もちろんアプリケーション以外もちゃんとはいっています。壁紙の”Data Science Virtual Machines”の文字とフラスコのロゴがワンポイント(?)です。あとはいつも通り開発と計算とを進めるだけです。自分で各ツールをインストールするよりもとても楽ですね。
今回は以上になります。お読みいただきありがとうございました。






![Microsoft Power BI [実践] 入門 ―― BI初心者でもすぐできる! リアルタイム分析・可視化の手引きとリファレンス](/assets/img/banner-power-bi.c9bd875.png)
![Microsoft Power Apps ローコード開発[実践]入門――ノンプログラマーにやさしいアプリ開発の手引きとリファレンス](/assets/img/banner-powerplatform-2.213ebee.png)
![Microsoft PowerPlatformローコード開発[活用]入門 ――現場で使える業務アプリのレシピ集](/assets/img/banner-powerplatform-1.a01c0c2.png)


