Datalakeの沼 - Azure Datalakeで始めるデータ分析

沼にはまらず、さくさく分析!

第3沼 日本じゃなくても大丈夫?

f:id:m-tanaka:20171111153025p:plain

「準備ができたみたいね。では、『場所』で『日本』が選択できなかった件を検証していきましょう。日本で分析できないと何が困るのかしら?」

f:id:m-tanaka:20171103001520p:plain

「それはもう、いろいろと」

f:id:m-tanaka:20171111153025p:plain

「いろいろ?説教がお望みかしら?」

f:id:m-tanaka:20171103001520p:plain

「すいません。考えます。私、ドMじゃないんです」

 うーん。何が困るんだろう?

日本にない。あるのは、「アメリカとヨーロッパ」かぁ。遠いなぁ。

っていうことは、データを送るのに時間がかかるっていうことかな?

あとは、近くにないと何となく不安だな。

 

f:id:m-tanaka:20171111153025p:plain

「いいところに気がついたわね。まずはやっぱりネットワークの性能ね。ネットワークの性能は大雑把に言って、レイテンシ(反応速度:ping応答時間など)と、スループット(単位時間あたりのデータ転送量:MB/sなど)があるわね。データ分析の場合は、ユーザの操作はあまりないから、ネックになるのはスループットということになるかしら。というわけで、さっそく計測してみましょう」

f:id:m-tanaka:20171103001520p:plain

「Let's 計測~」

 

f:id:m-tanaka:20171111153025p:plain

「まずは、送信元を用意しないといけないわね。自分のPCで計測してもいいのだけれど、それだと実際のデータセンターとAzure間の通信とはネットワーク環境が違いすぎるからあまり意味がないわね。なので、データセンター(仮)ということで、AWS (Amazon Web Services)にデータ送信元の環境を作ってみましょう」