2010年05月14日

DITPMR  Intro. 3

今問題にしているデータのサイズはどれくらい?
Google 2004 100TB/日をMapReduce処理
2008 20PB/日
eBay の data warehouse, 2PB と6.5PB
170兆レコードが、1500億レコード/日で増えていく
Facebook 2.5PBが、15TB/日で増えていく

PBはもう一般的。データ収容能力は、データ処理能力を圧倒している
さらに悪いことに、データ容量は、帯域よりも性能向上がずっと速いため、収容したものを読み直すだけでも大変になってきている。
成長速度の比較
 ディスクサイズ 10MB級/1985 -> 2TB/2010 (20万倍)
 おなじ期間に、レイテンシは2倍程度、帯域は50倍程度
個人も組織のその容量いっぱいまでは貯め込むという傾向が続くとすると、ラージデータ問題は深刻さを増していく。

----

商業利用の領域だけでなく、学術領域でもデータ管理の問題の重要性が広く認識されている。PB級のデータは一般的になってきている。

・高エネルギー物理学では、2005にはPB級のデータベースについて言及がある。ジュネーブ近郊のLHCがフル稼働を始めると、15PB/年のデータが蓄積される。

・天文学者の間ではデジタル観測の重要性は前から認識されている。LSSTのチリの望遠鏡が2015に稼働すると、3.2Gピクセルのカメラが、0.5PBのデータを毎月生成するだろう。

・次世代DNAシーケンサは、蓄積・整理・配信すべきDNA情報の洪水をおこしている。EBIのEMBI-bankでは、2.5PB/2008 -> 5PB/2009と、拡大している。遠くない将来、個人ゲノムの解析が、今日の血液生化学検査のような手軽なものになるだろう。干渉・作用が特定個人向けになるような、個人向け遺伝子医療の時代がとなって。


posted by unknown at 13:33| Comment(8) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年05月13日

DITPMR Intro. 2

現代情報社会 = 公開情報と非公開情報の広大な集積
実用アプリケーションは、対象データについてスケールアップできないといけない。
多くの場合で、Web全体か、少なくともその何分の一くらい。
収集・分析・監視・フィルタリング・検索・組織化のどの分野も巨大データと取り組むことになる。
"Webスケール"処理は、データ特化処理と言い換えられる。
知名度のあるInternet企業だけでなく、無数の新興企業、ニッチ企業にもあてはまる。
"We are going to harvest information on the web and ..."
これで始まるプレゼンテーションの多いこと!

----

もうひとつの成長領域は、ユーザのふるまいデータ
ちょっと成功したWebサイトだと、ログデータは奔流となってあふれてしまうので数週間か、それより短いものしか記録しておけない。
実際、ユーザの振るまいを記録するのは、そのデータ量が大きすぎて、多くのところでは、まともに対処することをあきらめ、ログ機能をオフにしたり、一定期間で捨ててしまう。
これは機会損失。
このての振る舞いデータを掘り起こせば非常に価値のある知見が得られると広く信じられているのに。
サイト利用者が何を見て、何をクリックして、どのくらいの時間滞留したか。これがわかれば、ビジネス上の意志決定がよい方向になされて、競合優位を獲得できる。
BI(Business Intelligence)として一般に知られるところ
BIには、DataWarehousing, DataMining, データ分析を含んでいる。


posted by unknown at 08:58| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年05月12日

Data-Intensive Text Processing with MapReduce

MapReduceでデータ集約型テキスト処理

Introduction

MapReduceの2つの意味
- 大量データの分散処理用プログラミングモデル
- その実行環境(フレームワーク)
-- 一般的なPCでの大規模クラスタで大量データを処理

オリジナルはGoogle
その元になっているのは何十年も前からある分散並列処理の原理

オープンソース版Hadoopで、利用が広がっている。Hadoopの開発を主導したのはYahooで現在はApache project。

Hadoop周辺ではソフトウェアの生態系が立ち上がった。
学術方面にも産業界にも広がっている

----

本書は大量のテキストをMapReduceでスケーラブルに処理するアプローチについて述べる。

その理由2つ
- 大量データが現実の問題だから 現実のシステムが取り組むべき課題
- 多くのテキスト処理においていえることとして、データ量を増やすことは、より効果的なアルゴリズムに匹敵する。これはそこらにあふれる大量のデータを利用することが優位ということになる

----
posted by unknown at 13:35| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年02月17日

GFSについてのメモ

http://labs.google.com/papers/gfs-sosp2003.pdf

http://dev.ariel-networks.com/column/tech/google_file_system/view

http://kh-log.blogspot.com/2009/10/google-file-system.html
posted by unknown at 13:40| Comment(4) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年02月11日

FP法の見積に関するリンク

本当に使える見積もり技術

失敗のないファンクションポイント法

ファンクションポイントの計測と分析
posted by unknown at 23:16| Comment(11) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年01月18日

データセンター論文(2007)

Agile_Catさんのブログで紹介されていたMSの中の人(2007)の論文の和訳リスト。

http://agilecat.wordpress.com/2010/01/15/%E3%82%B3%E3%83%B3%E3%83%86%E3%83%8A%EF%BD%A5%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E3%81%AE-%E3%82%A4%EF%BD%A5%E3%83%AD%EF%BD%A5%E3%83%8F-by-james-hamilton/

Part_1: データセンターのシステムパッケージングに対する発想の転換
http://www.itmedia.co.jp/enterprise/articles/1001/12/news003.html
1:はじめに
2:汎用品によるデータセンターが成長を加速する

Part_2: 全方位から検証するコンテナデータセンターの優位性
http://www.itmedia.co.jp/enterprise/articles/1001/13/news003.html
3:ソリューションの提案
3-1:コンテナの出荷と回収
3-2:コンテナの経済性
3-3:移動可能なデータセンターがビジネスに柔軟性を
3-4:フィールドメンテナンスを省いてコストを低減
3-5:システムと電力の密度

Part_3:コンテナ型データセンターは日本に根付くか?
http://www.itmedia.co.jp/enterprise/articles/1001/14/news017.html
4:事例(2007年1月時点)
5:これらの設計に取り込まれたものと、将来の課題
6:まとめ
posted by unknown at 11:26| Comment(1) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年01月15日

RIAどうしよう

結局、RIAはどれを使うべきなのか?
http://www.atmarkit.co.jp/fwcr/index/index_ria.html

最初に見るべきAjaxリンク集
http://www.atmarkit.co.jp/fwcr/index/index-wcr.html#ajax_howto


FlashランタイムのJavaScript実装「Gordon」
http://www.atmarkit.co.jp/news/201001/14/gordon.html

ASP.NET
http://www.microsoft.com/japan/msdn/vstudio/campaign/vs2008web/

ASP.NET AJAX
JavaScriptコーディングなしでの利用も可
http://www.asp.net/ AJAX Control Toolkit

posted by unknown at 18:42| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年01月13日

Windowsターミナルサービス

http://ziddy.japan.zdnet.com/qa1301753.html

Windowsターミナルサービス/Citrix MetaFrameのメリット・デメリット
2005/04時点の回答

MetaFrameはライセンスが高い。ざっと50,000円/user。
そのうえに、Windows側のライセンスも別途必要となる。

a.WindowsServerクライアントライセンス
Windows Server 2008 日本語版 5CAL  32,600円
Windows Server 2008 日本語版 1 CAL  5,500円

b.ターミナルサービスライセンス
Windows Server 2008 Terminal 5デバイスCAL 平均価格\83,885

動画の扱いをどうみるか。
ユーザストレスを軽減する待ち時間の動画

http://msdn.microsoft.com/ja-jp/library/aa511329.aspx
アニメーション多用を戒める WPFガイドライン

WPFについて

2chプログラム板

69 名前: デフォルトの名無しさん 投稿日: 2009/07/13(月) 14:15:50
MVVM的な作り方では、下記のソフトもいい勉強になりますよ。(知ってたらスマンです)

http://www.codeplex.com/miniuml

71 名前: 57 [sage] 投稿日: 2009/07/13(月) 19:42:17
>>69
このUIかっけぇ
そしてコード勉強になる
ありがと


302 名前: デフォルトの名無しさん [sage] 投稿日: 2009/09/26(土) 23:21:56
>>298
.NETのソースコード読めばいいじゃん
WPFは全部公開されてるよ
303 名前: デフォルトの名無しさん [sage] 投稿日: 2009/09/27(日) 11:31:10
>>320
マジデ?wどこで公開されてんの??
304 名前: デフォルトの名無しさん [sage] 投稿日: 2009/09/27(日) 11:40:14
VS2008(×Express)でステップインできる
もしくはttp://www.codeplex.com/NetMassDownloader/Wiki/View.aspxで落とす

312 名前: デフォルトの名無しさん [sage] 投稿日: 2009/09/27(日) 16:55:36
ttp://referencesource.microsoft.com/netframework.aspx
こんなのもある
Available Source Code Components

541 名前: デフォルトの名無しさん [sage] 投稿日: 2009/11/15(日) 19:37:32
日本に限定しなけりゃね。Visual Studio 2010が出れば状況が変わるかもしれんが、
いかんせん今では日本語では資料がないし、良い図書がない。

WinFormならいきなり新人に触らせてもググりながら覚えていけるだろうがWPFは無理。
本もEssential WPF程度しかない。アレはある程度C#/WPFの知識がある人じゃないと読めないだろ。

posted by unknown at 19:15| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2009年12月10日

GTUG Night #5

HTML5とjavascriptだけで何でもやってしまおう。input系の充実はなるほど。入力支援・入力チェックのサーバ側の仕事を減らしてくれる。HTML5前提のサービスだけだが。

videoから1コマ1コマ取り出してモーション解析して画面合成してcanvasに1コマずつ描いてもなめらかに動くデモ

javascriptでcanvasにマンデルブロ図 速くなったんだそうな。

ChromeExtention Gallery もう300以上登録があるそうだ。

Web SQL DBの存在意義。ユーザ毎のDBをサーバで管理するのは大変。ローカルに持たせれば、自分のPCがクラウドの一部に取り込まれる感じ >これは1ユーザ1端末が前提。Android/iPhone向けサービスだろうな。

さいたまの近藤さんは白石さんのHPのHTML5サンプルをAndroidで実装確認した結果報告。

徳島懇親会で、Project2108河野さんにHPの変態電卓20bを見せてもらう。いにしえの41Cオーナーだったので、興奮した。
posted by unknown at 12:33| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2009年12月03日

OSSでAmazonEC2相当のクラウド

http://builder.japan.zdnet.com/sp/09-personal-cloud/story/0,3800097247,20394582,00.htm
「Eucalyptus」によるEC2互換クラウドの製作

発音のむつかしそうな綴りだが「ユーカリ」の学名かな。
posted by unknown at 22:11| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。