ビギナー編 AWS User Group - Japan 東京勉強会に参加してきたよ

第2回 ビギナー編 AWS User Group - Japan 東京勉強会 : ATND たまには勉強会にも行こうと思っていろいろと見ていた所で、AWS初心者の自分にちょうどよいのがあったので参加してみました。 あ、AWSというのは、Amazon Web Servicesっていって、Amazonが提供している、Webサービスを作るための、いろんなサービスです。今日の話を聞いて思ったのは、ほんとになんでも提供してる。 そしてスケーラビリティとか冗長性とか、従量課金とか、VMとか、まさにクラウドという感じ。 今日の内容 AWS概要 スライド:(4) はじめてのAWS - ビギナー編 - S3解説 EC2解説 スライド:(4) Amazon EC2解説当日用20120203 初心者といっても、ある程度使ったことがあるので、どんなサービスか、ということはだいたい分かっていました。そういう意味では知ってる話が多かったです。今回はビギナー向けなのでしょうがない。 今日行ってよかったのは、AWSの自分が知らない(名前は聞いてたことあるけど)いろいろなサービスがなんとなく分かったのと、なんとなく分かっていたS3、…

twitter, google, facebookにおけるデータ処理に関する記事

ちょっと最近調べてたことのまとめ。 twitter, google, facebookの技術の話を見てました。 またいいのがあれば追加していきます。 Facebook, Myspace, Linkedin, Twitter 米国最新ソーシャルネットワーク動向:In the looop:ITmedia オルタナティブ・ブログ 主要SNSのユーザ数や投稿数のまとめ - NAVER まとめ Twitterで2011年を振り返る twitterの1秒あたりのアクセス数。バルスはまだない。 天空の城ラピュタにおける「バルス」と TPS (tweets per second) « tweetcounter 東北地方太平洋沖地震の起こった日、Twitterで一体何が起こっていたのかを紹介する動画 - DNA 秒間120万つぶやきを処理、Twitterシステムの“今” - @IT NTTアメリカ、Twitter向けに新しいデータセンターを建設―ついにクジラは消え去るのか? グーグルがWebを高速化するために何をしているか - Publickey Googleの高速化への飽くなき追求は、より多くの検索ニーズを引き出すためのもの Googleは1つの検索クエリーに対し、…

Stormをlocalmodeで実行する

stormについては twitterが発表したリアルタイム分散処理フレームワークStorm | tjun memo を参照してください。 今回は EclipseでStormの開発環境を作る | tjun memo の続き。 localmodeで実行ということは、stormのnimbusやsupervisorといった分散のための仕組みを利用せずに、とりあえずstormのプログラムを動かしてみる、というものです。 storm-starterのダウンロード サンプルコードをダウンロードします。 nathanmarz/storm-starter - GitHub $ git clone git://github.com/nathanmarz/storm-starter.git eclipseに読み込む 前回作成途中だったJava projectにサンプルのプログラムをimportします。 projectの src に import > general > FileSystem で先ほどダウンロードした storm-starterのしたの storm-starter/src/jvm/storm を"From Directory"に指定して、"Create Top-level folder"…

EclipseでStormの開発環境を作る

Stormはtwitterが公開しているリアルタイム分散処理フレームワークです。 以前のエントリを参照ください。 twitterが発表したリアルタイム分散処理フレームワークStorm | tjun memo 今回は、その開発環境を作るメモ。 0. 準備 EclipseとJavaは入れて、Javaのpathは通してください。 $ echo $JAVA_HOME /System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home 1. stormのダウンロード https://github.com/nathanmarz/storm/downloads から最新のstormをダウンロードして、zipを解凍してください。(2011/2/3の安定verは0.6.2) そして、storm/binにpathを通します。 $ wget https://github.com/downloads/nathanmarz/storm/storm-0.…

twitterが発表したリアルタイム分散処理フレームワークStorm

photo credit: CoreBurn twitterが先日stormというリアルタイムな分散処理フレームワークstormを公開しました。 (ここでいうリアルタイムとは、すぐに、とか連続的に、というニュアンスで使っています) Stormは、連続的に来るデータに対して同じ処理を繰り返しかけて新たなストリームを作る、という目的のフレームワークです。 分散やメッセージの保証をフレームワークに任せて、SpoutとBoltという処理を書くだけでシステムを作ることができます。 updateも頻繁に行われていて、user-groupも活発なので、これから利用者が増えていくかもしれません。 分散処理フレームワークというとHadoopが有名ですが、Hadoopではまとまったデータを一気に処理するバッチ処理を、簡単に分散でき高速に処理することができるフレームワークでした。 一方Stormでは、連続的に到達するデータに対して、連続的に結果を出すような処理を、簡単に分散させて処理することができるフレームワークになります。 YahooのS4などが近いです。 もともとはtwitterが買収したbacktypeの技術になります。 twitterでは、例えば連続的発生するtweetをstream APIから読み込んで、現在のtrend topicを出す、というような処理に使われているようです。 2011/09/19に行われたstrange loopというイベントで発表して、オープンソースとして公開されました。 2011/09/19の公開時には ver.0.5.4でしたが、現在はver.0.6.2までアップデートされています。(2012/1/31現在)…