2015-12-01から1ヶ月間の記事一覧
この記事は Apache Drill Advent Calendar 2015 の25日目の記事です。 2015年もあとわずか。今回は Drill の JIRA チケットや GitHub を眺めつつ、2016年にどんな新機能が出てきそうか興味のおもむくままにご紹介しましょう。 Cassandra ストレージプラグイ…
この記事は Apache Drill Advent Calendar 2015 の24日目の記事です。 今回は、Drill のセキュリティを向上させる2つの機能、インパーソネーションとユーザ認証について紹介します。 インパーソネーション Drill には、クライアントから要求されたアクション…
この記事は Apache Drill Advent Calendar 2015 の23日目の記事です。 Drill では Parquet フォーマットを使うことによって、パーティションプルーニングによる性能上のメリットを得ることができます。パーティションプルーニングとは、アクセスするパーティ…
この記事は Apache Drill Advent Calendar 2015 の22日目の記事です。 Drill のパフォーマンスチューニングに役立つ情報の一つはクエリプラン、そしてもう一つはクエリプロファイルです。今回はクエリプロファイルでどんな情報が見られるかを紹介していきま…
この記事は Apache Drill Advent Calendar 2015 の19日目の記事です。 SQL が動いて正しい結果が返ってくればよい、というのであれば必要ないのですが、パフォーマンスが気になり始めたらクエリプランとプロファイルを調べていく必要が出てきます。 SQL が発…
この記事は Apache Drill Advent Calendar 2015 の18日目の記事です。 一般的な RDMBS のジョインアルゴリズムには、代表的なものとして ネストループ結合、マージ結合、ハッシュ結合などがあります。それぞれレコードへのアクセス方法や順序などが異なって…
この記事は Apache Drill Advent Calendar 2015 の16日目の記事です。 前回の記事からの続きです。 前回は HBase テーブルを対象としたクエリに WHERE 句で条件を加えることで、HBase 側で Pushdown を行う実行プランが作成されている様子を確認しました。で…
この記事は Apache Drill Advent Calendar 2015 の15日目の記事です。 HBase は Hadoop 上で動作する、「ワイドカラム型」NoSQL データベースです。RDBMS 風のテーブル構造を持ちますが、固定のスキーマを持つわけではないのでデータ構造の変更には柔軟であ…
この記事は Apache Drill Advent Calendar 2015 の14日目の記事です。 CSV 形式などのテキストファイルでどのように NULL を表現するかは、CSV を出力する RDBMS やアプリケーション毎に異なっているので結構悩みのタネですね。 Oracle(SPOOL を使用): 引…
この記事は Apache Drill Advent Calendar 2015 の12日目の記事です。 Drill クラスタを構築する場合、各ノードで Drillbit という Java プロセスを立ち上げます。Drillbit は、ノードに常駐するデーモンプロセスとしてクラスタ全体で協調して動作することで…
この記事は Apache Drill Advent Calendar 2015 の11日目の記事です。 Drill クラスタを構築して、ある程度規模の大きい SQL クエリ基盤を運用する場合、普通は複数のユーザーや複数のアプリケーションで Drill クラスタを共有する使い方をすると思います。…
この記事は Apache Drill Advent Calendar 2015 の8日目の記事です。 Apache Drill では Apache Parquet という大規模データの分析に適したデータフォーマットを利用することができます。Row-oriented フォーマットにカテゴリ分けされる CSV、TSV といったテ…
この記事は Apache Drill Advent Calendar 2015 の7日目の記事です。 改行コードの取り扱いは、現時点での Drill の注意事項の一つです。Linux/Mac の環境で生成されたテキストデータであれば問題は起きませんが、Windows 環境で生成されたテキストデータ(…
この記事は MSX Advent Calendar 2015 の6日目の記事です。 1980年代に MSX・FAN という雑誌にファンダムという MSX-BASIC プログラム投稿コーナーがあり、私も投稿して腕を磨いていたものです。で、ファンダムでは1画面プログラム部門、N画面プログラム部門…
この記事は Apache Drill Advent Calendar 2015 の5日目の記事です。 通常の SQL はリレーショナルデータを対象とするため、テーブルは行と列からなるフラットな構造です。SELECT 文で特定のカラムの値を取り出すには、単にカラム名を指定するだけです。 し…
この記事は Apache Drill Advent Calendar 2015 の3日目の記事です。 少し前の記事で、一つのカラムにデータ型が混在したデータを読むときの注意点を説明しました。 その後リリースされた Drill 1.3 で、[DRILL-3229] Create a new EmbeddedVector にて改良…
この記事は Apache Drill Advent Calendar 2015 の2日目の記事です。 11月の Tokyo Apache Drill Meetup で出た質問の中に、「CSV ファイルのヘッダ行をカラム名に使いたいが可能か?」というものがありましたが、Drill 1.2 では先頭行をスキップするオプシ…
この記事は Apache Drill Advent Calendar 2015 の1日目の記事です。 Drill のフロントエンド(シェル)である sqlline を起動すると、プロンプトの前に短いメッセージが表示されます。 $ sqlline -u jdbc:drill:zk=local Dec 1, 2015 2:13:59 AM org.glassf…