こんにちは。SI部の遠山です。
業務でBigQueryに触る機会があったので、自身の整理も兼ねて入門記事を書いてみようと思います。
目次は、

  1. BigQueryとは
  2. 準備
  3. CLIで実行してみる
  4. APIライブラリから実行してみる

という流れで書いていきます。

1.BigQueryとは

BigQueryはGoogleのフルマネージドのクラウドサービスです。
その特徴は、分散処理により、①大量の構造化データに対してSQLクエリを、②超速に実行出来るという点です。
ビッグデータの分散処理と言うと、MapReduceが有名です。MapReduceはGoogleが技術論文として公表したものであり、その実装としてApachがオープンソースのHadoopを開発し、普及しました。
使用が広がるにつれてMapReduceの問題点としていくつかの物が挙げられるようになり、それに対応して様々なフレームワークや改善策が開発されてきました。例えば、

・データに対する問い合わせの内容を変える毎にJavaコードを書かなければならず、また工数がかかる
=> 処理をSQLライクに書く事によってMapReduceジョブに変換してくれるpigやhiveといったツール。
・処理毎にHDFSに中間データのIOが発生するので繰り返し実行やアドホックな実行に向かない
=> メモリキャッシュを利用するSpark。

まだまだありますがそれぞれだけで記事が書けそうな情報量です。
一方GoogleはMapReduce周辺の概念をBig Data Stack 1.0として、その上にBig Data Stack 2.0と呼ばれるインフラのコンポーネント群を追加しました。 (続きを読む…)



  • Profile
    キャスレーコンサルティングの技術ブログです。
    当社エンジニアが技術面でのTips、技術系イベント等についてご紹介いたします。
  • CSV社長ブログ
  • チーム・キャスレーブログ