Dec 26, 2009
家庭教師になって見ての驚きの発見
家庭教師として働いていたある。私は少し人見知りをするところがあるので、最初は不安だった。しかし、ことだと思うためか、人見知りであまり難しくはなかった。家庭教師に余裕がなかったというのもあるだろう。そして、そんな私が一番の発見のように人見知りをする学生の場合、非常に気が合うということだ。塾講師になるために普通の就職活動のように仕事を雑誌やインターネットの情報で応募することから開始します。塾講師は職業上の国家資格が必要なような感じがありますが、資格などは一切必要ありませんのでご安心ください。しかし、塾などに採用されるためには、筆記試験、実技などがあるので、しっかりと総合的な勉強をする必要があります。
EMCジャパン株式会社は9日、Greenplum製品に関する説明会を開催し、その特徴や今後の展開を説明した。
【拡大画像や他の画像】
世の中の電子化されたデータが膨大になり、これからもそれが増えていくであろうことは、誰しもが実感しているだろう。一説によると、企業が抱えるデータは10年で50倍になるといわれているが、この“ビッグ・データ”では、データベースに格納されるような構造化されたデータではなく、音声・映像に代表されるような、非構造化データが大半を占めている。
従って、この“ビッグ・データ”を活用し、企業の競争力につなげようとした場合は、構造化データと非構造化データの両方に対応する必要があるが、EMCジャパンでは、構造化データの処理をデータウェアハウス(DWH)用データベースエンジン「Greenplum Database」で、非構造化データの処理をエンタープライズ向けHadoopソリューション「Greenplum HD」で行える点に強みがあるのだという。
現在では、さまざまなDWHソリューションが市場に出ており、それ自体は決して珍しいものではなくなったが、Greenplum Databaseはいくつかの特徴により、優れた性能を提供できるのだという。例えばGreenplum Databaseでは、複数のノードで分散処理を行う“シェアードナッシング”の仕組みを採用しており、このノード(セグメントサーバー)を並列に並べることで、リニアに性能を拡張していくことができる。
反面、一般的なシェアードナッシング方式では、データロードを行う際に、データを効率よく各ノードへ振り分けることが求められるので、膨大なデータをロードしようとすると、このローディングプロセスを担当するマスターサーバーの部分がボトルネックになる、といった弱点がある。
Greenplum Databaseでも、ユーザーからのクエリの受付と結果の提供を行う目的でマスターサーバーは存在するのだが、ローディングプロセスはマスターサーバーではなく、各セグメントサーバーがデータを取り込みながら同時に振り分けを行う仕組みのため、ボトルネックが発生しにくいのだという。この部分の性能が高いということは、大きなデータの分析を行おうとした際にも、ロードの時間を短縮でき、結果としてビッグ・データの活用を促進することにもなるわけだ。
またGreenplum Databaseはソフトウェア製品であり、動作プラットフォームとしてコモディティ化したハードウェアを利用するという点にも、大きな価値があるのだという。具体的には、セグメントサーバーやマスターサーバーには、近年性能向上の著しいx86サーバーを使える上、インターコネクトにも、やはりコモディティ化しているGigabit Ethernet(GbE)や10GbEを利用できる。
この点について、EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 テクニカル・コンサルタントの中村完氏は、「他社は、インターコネクト部分に専用の高価なハードウェアを必要としたり、パラレル処理の部分に専用のCPUを必要としたりするが、Greenplum Databaseはすべてをコモディティのハードウェアで構築することに成功している」と述べ、低価格化と性能向上の恩恵をダイレクトに得られるとした。
さらに、自社で構成するのが煩わしい、すぐに使いたいというユーザー向けには、アプライアンスサーバー「Greenplum DCA」での提供も行うので、企業は事情に応じて導入形態を選択できる。セグメントサーバーを16台含む1ラック構成を基本とし、最大6ラックまでの構成に対応。逆に、ハーフラックやクォーターラックでの導入も可能だ。このほかアプライアンスでは、ラックあたりの容量を最大496TBに高めた高密度モデル「Greenplum High Capacity DCA」が提供されているほか、今後はSASとの連携が可能な「SAS High-Performance Analytics on Greenplum DCA」も製品化が予定されている。
ただしEMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部の仲田聰部長によれば、アプライアンス製品の発表から日が浅いこともあり、国内でのユーザー10社のうちアプライアンスでの利用は1社にとどまっているとのこと。仲田氏はまた、「BI/DWHはROIが算出しにくい分野のため、セグメントサーバー2台からと、スモールスタートが可能な点を評価いただいている」と述べ、現状ではソフトウェアでの提供が受け入れられているとした。
一方、EMCジャパンのポートフォリオの中で、非構造化データの分析を担当するGreenplum HDは、「エンタープライズレベルで使える企業向けのHadoopソリューション」(中村氏)。Apache Hadoopと100%の互換性を保ちながらも、コードをすべてC言語で書き直すことなどにより、3〜5倍のパフォーマンスを実現している。
そして、Greenplum Databaseのセグメントサーバーが持つデータロード/アンロードの仕組みを活用すれば、Greenplum HD(あるいはApache Hadoop)のデータノードとGreenplum Databaseのセグメントサーバーの間で、データ通信を直接行うことも可能。中村氏は、これらの点を踏まえて、「データベースの構造化データは直接Greenplum Databaseで、またWebコンテンツや音声などの非構造データはGreenplum HDを介して構造化した後、Greenplum Databaseを用いて高速処理できる。今すぐ使える、現実解としての使い方を提案できる」と述べ、自社のソリューションの特徴をアピールしていた。
なおGreenplum Databaseはすでに提供されているが、Greenplum HDは現在開発中で、9月までに米国で提供開始となる予定。国内での一般提供開始は、2011年末程度になる見込みで、こちらもソフトウェアのほか、アプライアンスも製品化される。
また今回は、分析支援プラットフォーム「Greenplum Chorus」を年内にも提供開始することも明らかにした。企業内に分散する各種のデータソースを仮想的に統合し、ユーザー部門が自ら論理的なデータマートを作り出せるようにするツールで、仲田氏は「こういう切り口でデータマートやキューブが欲しいと思っても、システム部門に要求するとリードタイムがかかってしまう。しかしGreenplum Chorusを使えば、ニアリアルタイムなデータ分析が可能になる」と、その価値を説明した。
【クラウド Watch,石井 一志】
【関連記事】
「ビッグデータにはビッグチャンスがある」〜EMCジャパンがデータ活用への取り組みを説明 (2011/7/6)
レコチョク、Greenplum DWHで新マーケティングシステムを構築 (2011/1/21)
EMCジャパン、「Greenplum」搭載の統合型DWHシステム (2010/12/16)
米EMC、DWH技術を手掛ける米Greenplumを買収 (2010/7/7)
WriteBacks
writeback message: Ready to post a comment.