Datalakeの沼 - Azure Datalakeで始めるデータ分析

沼にはまらず、さくさく分析!

第4沼 東日本と米国東部 2のあいだ (上)

f:id:m-tanaka:20171111153025p:plain

「お待たせしたわね。ちょっと仕事が立て込んでいて、軽く死んでいたわ」


f:id:m-tanaka:20171103001520p:plain

 

「心配しましたよ。1週間以上も連絡がつかなかったんですから」

f:id:m-tanaka:20171111153025p:plain

「ごめんなさい。ではさっそく続きを始めましょう」

「日本と米国の間のネットワークパフォーマンス測定をするのだけれど、Azureの東日本と米国東部では、Microsoftの高速ネットワークでつながれている可能性が高くて、検証にならないから、データの送信元にはAWSをつかいましょう」

「この実験のために久しぶりにAWSにログインしたら、はるか昔の実験用リソースが残っていて、毎月6ドル課金されていたわ。。。」

AWSの実験ではないから、AWSのEC2インスタンスの生成方法は省略するわ」

「作成したインスタンスの情報はこちら」

 

f:id:m-tanaka:20171122131451p:plain

 

 

f:id:m-tanaka:20171103001520p:plain

「なるほど、送信側がAWSの東京で、受け側がAzureの米国東部のAzure Data Lake Storeですね。送信するデータはどうやって準備するんですか?」

 

f:id:m-tanaka:20171111153025p:plain

「そうね、それなりのサイズのデータを用意しないといけないのだけれど、このコマンドを使えば簡単にダミーデータを作れるわ」

fsutil file createnew <ファイル名> <サイズ>

www.atmarkit.co.jp

f:id:m-tanaka:20171103001520p:plain

「なるほど。ではまず1GBで試してみますね」

f:id:m-tanaka:20171122210604p:plain

f:id:m-tanaka:20171122210756p:plain

これで、準備はOK

このファイルを、Data Lake Storeにアップロードして時間を測ればいいのね。

f:id:m-tanaka:20171103001520p:plain

「Azure Portalのここからアップロードでいいんですか?」

f:id:m-tanaka:20171111153025p:plain

「それだと、データが一旦Azure Portal を経由することになるから、今回の目的にはあってないわね」

「ちょっと面倒だけど、Power ShellでAzure Data Lake Storeにアップロードしましょう」

f:id:m-tanaka:20171103001520p:plain

「どうやるんですか?」

 

f:id:m-tanaka:20171111153025p:plain

ggrks.

f:id:m-tanaka:20171103001520p:plain

「えっ?」

f:id:m-tanaka:20171111153025p:plain

「ちょっと疲れたわ、また今度にしましょう予習として、ここをお

読んでおいて」

docs.microsoft.com

docs.microsoft.com

f:id:m-tanaka:20171103001520p:plain

「はーい。頑張って勉強しておきます。」