メインコンテンツまでスキップ
waffle.svg
Domo Knowledge Base

Magic ETL v2 DataFlow(ベータ)を作成する

Version 2

 

はじめに

ETL DataFlow は、Data Centerで利用できる直観的なドラッグアンドドロップのインターフェースを使って作成できます。単に DataSet をキャンバスにドラッグし、DataSet をどのように結合そして変換するか、それを指定するタイルを追加するのみです。曲線は入力されたDataSetに応じてカラーコード化されます。結合後も色が維持され、結合のメインテーブルの入力DataSetが表示されます。膨大な数のタイルが利用できます。列の結合や行のフィルタリング、そしてテキストの置き換えなどを行うことができます。タイルに関する詳細は、以下のトピックを参照してください。

重要:DataFlowの入力DataSet は、PDPのポリシーで制限することはできません。利用可能なすべての行はDataFlowを経由する必要があります。このため、PDPポリシーは、DataFlowが生成する出力DataSetに適用する必要があります。
 

PDPポリシーが有効の状態で、入力DataSetを使ってDataFlowを作成するときには、以下の条件が少なくとも1つ満たされていないと、DataFlowに不具合が発生します。

  • 「管理者」セキュリティロールまたは「DataFlowを管理する」が有効になっているカスタムロールがある。

  • あなたはDataSetの所有者である。

  • あなたは、「すべての行」ポリシーの一部を構成している。これにより、DataSetのすべての行にアクセスできます。

DataFlowでPDPを使用する方法に関しては、「PDPとDataFusion / DataFlow」を参照してください。 

動画 - Magic ETLの概要

Magic ETL DataFlowを作成する

このセクションで開設する手順を、Magic ETL DataFlow の作成に役立ててください。

ETL Example.png

Magic ETL DataFlowを作成するには

  1. Domoで、画面上部のツールバーの[データ]をクリックします。

  2. ウインドウ上部の Magic 変換ツールバーの [ETL]をクリックします。

    ヒント:Magic ETL エディターは、Domoの任意の場所でAppツールバーを選択し、[データ]、[ETL]の順に選択することでも開くことができます。
  3. [入力DataSet]を追加および設定するには、以下を行います。

    1. [タイル]パネルで[DataSet]を展開し、キャンバスに[入力DataSet]をドラッグする。

    2. [入力DataSet]タイルをクリックし、変換する[DataSet]を選択する。

  4. [出力DataSet]を追加するには、次の手順を実行します。

    1. [タイル]パネルの[DataSet]で、キャンバスに[出力DataSet]をドラッグする。
      [出力DataSet]タイルの設定は、タイルを接続した後で行うことができます。

  5. 入力DataSetを変換 (クリーン、集計、結合等)するには、他のタイルを[タイル]パネルからキャンバスにドラッグします。
    詳細は以下を参照してください。

  6. 変換の流れにおける処理の順番を決定するため、変換タイル間のつながりを明確にします。

  7. 各タイルを設定するには、タイルをクリックし、オプションを指定します。 

    ヒント:タイルに関するヘルプをキャンバス内で表示するには、タイルをクリックしてからをクリックします。また、複数のタイルを一度に選択するには、キャンバスをクリックし、マウスポインタをタイルの上にドラッグします。複数のタイルを選択したら、それをまとめて好きな場所へドラッグできます。また、画面左側のパネルにある[削除]をクリックすることで、選択したタイルを削除することもできます。
  8. [出力DataSet]タイルを設定するには、次の手順を実行します。

    1. タイルを[出力DataSet]タイルに接続します。

    2. [出力DataSet]タイルをクリックし、出力する新しいDataSetの名前を指定します。

  9. (オプション)変換フロー実行時のための設定を行います。
    デフォルトでは、変換フローは手動で実行した時のみ実行されます。Magic ETL DataFlowをスケジュールして、指定した入力DataSetに変更があった時、または指定された時刻にMagic ETL DataFlowが実行されるようにすることができます。

  10. Magic ETL DataFlowの名前と詳細を指定します。

  11. [保存する]をクリックしてMagic ETL DataFlowを保存し、必要に応じてバージョンの説明を入力したら確認のために[保存する]をクリックします。

DataFlowを保存すると、このバージョンのエントリーがDataFlowの詳細ビュー内の  [バージョン] タブに追加されます。保存する際に説明を入力した場合は、DataFlowのエントリーにその説明が表示されます。バージョンの詳細については、 「DataFlowのバージョン履歴を閲覧する」を参照してください。

注記:DataFlowが正常に実行されたときにDataFlowの出力DataSetが「更新済み」としてマークされないのはどうしてかと、疑問に思われるユーザーの方が多くいます。これは一般的には、データが実際には変更されていないためです。つまり更新されていません。そのため、DataSetは更新済みとは表示されません。

DataFlow作成のためのベストプラクティス

各DataFlowでは以下の点に注意しましょう。

  • 出力DataSetに必要なDataSetのみを含めます。

  • DataFlowの開始時に不要な行をフィルターで取り除きます。

  • 列の数を減らして必要なものだけにします。

  • DataFlowに各タイルの内容の分かる名前を含めます。

  • DataFlowの説明には以下を含めます。

    • 結合または操作される入力DataSet

    • 作成中のDataSet

    • DataSetの所有者

  • 出力DataSetと同じ名前を付けること(DataFlowの出力はData Center内の独自のDataSetになるため)。これにより、どのDataSetがどのDataFlowによって作成されたかを容易に識別できるようになります。

  • 次のタイルは他のタイルよりも時間がかかることに注意してください。

    • グループ化

    • データの結合

    • 重複の削除

    • ピボット

    • ランクとウインドウ

    • スクリプティング

    • データサイエンス