こんにちは。FIXER M&S 竹中です。今回はAzure Data Science Virtual Machines(以下DSVM)の使い方について書いてみたいと思います。
・なぜ使うか?
私は普段趣味でデータ分析のコンペサイトKaggleに挑戦しており、あるコンペでどうしてもローカルPCでは取りまわせない量のデータセットを扱う必要がありました(訓練データが460万レコード、テストデータが260万レコードくらい)。
そこでクラウドで計算させることを考えたのですが、如何せんツールのセットアップをすべて自力で行うのは手間です。そこで、予めデータサイエンスに必要なコンポーネントがインストールされたDSVMを使ってみました。
・Azure Data Science Virtual Machinesとは?
詳しくは公式ドキュメントをご覧いただきたいのですが、基本的なラインナップは通常のVMと同じです。ですが、データ分析に必要なツールが予め入っており、私の場合ですとVSCode、Jupyter notebook、Python、Anaconda、LightGBMなどがここに該当します。今回は利用しませんでしたがTensorflowやKerasなどの深層学習用のライブラリ、SparkなどのBigdata系、RDB、BIに至るまでたくさんのコンポーネントがプリインストールされています。
・DSVMを使ってみよう
まずはこちら等をご参考に、Azureのアカウントを作成し、Portalへ入りましょう。ポータルの検索でData scienceと入力するとMarketplaceにDSVMのWin2016セットアップが表示されます。「作成」してVMを立ち上げましょう。今回はWindowsを利用しましたが、ほかにUbuntuとCentOSも選択することができます。
コンソールが立ち上がったら所与のパラメータを入力しましょう。特に難しいことは考えず、デフォルトの設定でOKなはずです。ディスクはHDDとSSDから選択できます。私は頻繁な読み書きを必要としませんのでお安いHDDで十分です。いくつか入力すると確認画面がでますので、OKを押してVMを作成します。
・RDPでVMへアクセスする
さて、完成したVMにリモートデスクトップでアクセスしてみましょう。Azure Portalから接続を選んでRDPファイルをダウンロードします(設定->ネットワークでRDPが許可されていることを確認しておきましょう)。RDPファイルを開き、IDPWを入力すると…
VMの仮想デスクトップにアクセスできましたね。見ての通り、アイコンにVSCode、Visual Studio、PycharmなどのIDEが見えます。もちろんアプリケーション以外もちゃんとはいっています。壁紙の”Data Science Virtual Machines”の文字とフラスコのロゴがワンポイント(?)です。あとはいつも通り開発と計算とを進めるだけです。自分で各ツールをインストールするよりもとても楽ですね。
今回は以上になります。お読みいただきありがとうございました。