メインコンテンツまでスキップ
waffle.svg
Domo Knowledge Base

DataSet管理のためのベストプラクティス

Version 1

 

一般的なベストプラクティス

  • DataSetを作成またはインポートしたら、必ずそのDataSetの内容がわかるような具体的な名前と説明をつけるようにします。

  • 重複を避けるためにも、DataSetのタイトル名に使用しているコネクターの名前を含めないようにします。

  • DataSetの名前には日付範囲を追加しないようにします(例えば、「Google Analytics 2016」など)。ほとんどのDataSetは自動的にスケジュールされるため、名前に日付を入れても、すぐに古くなってしまう可能性があります。また、これにより、そのDataSetやその他名前に日付が入っているすべてのDataSetの名前を後から変更する必要がなくなります。

  • DataSetの説明には、どんなデータを取り込んでいるのかがわかるように、支出やインプレッションなど基本的な説明を記述するようにします。更新頻度などを説明に入れることもできます。ただし、一般ユーザーにとってその情報が重要であるかどうかということも関係します。

  • DataSetの所有者は常に指定するようにします。そしてそのユーザーがそのデータに責任を持つようにします。DataSetの作成者が、それをそのアップデートの責任者であるデータ所有者に移譲しておかないと、データに不具合が発生した場合、その不具合を修復するべき所有者ではなく、DataSetの作成者にアラートが送信されてしまいます。

  • DataSet、DataFlow DataSet の説明では、データの系統を把握するのは困難なため、データ入力と出力セットをDataFlow に追加しておくと、将来そのDataSetやDataFlowに関連する情報を追跡しやすくなります。また、DataFlowの頻度および、それが自動化されているか、またはスケジュールされているかの情報も追加します。

    • DataFlow DataSetの説明の例:

      • 入力DataSet:

      • 出力DataSet:

      • 実行頻度:

  • 計算フィールドを含んでいるDataFlowを作成する場合は、「CALC」などの接頭語や接尾語をつけることで、後からこれを使用するユーザーがDataFlowの中に計算フィールドが含まれていることがわかるようになります。後にDataFlowのトラブルシューティングをする際、計算が存在していることを知っていると判断が簡単になります。

  • DataSetは、次のテンプレートを使用して名前を付ける必要があります。TYPE_ClientInfo_Source_ReportName (例:RAW_Kablinko_Sizmek_Performance_Analytics)

  • 推奨される名前用の接頭語とその意味

    • RAW_:ソースから直接取り込まれる生データファイル。このデータはMagic ETLまたはMySQLを使用して変換されます。

    • INT_:DataFlowの中間DataSet。 通常、データを別のソースとマージする準備をするDataFlowの出力を指します。説明に「Prod DataSet」と記入する

    • DEV_:データが監査中。監査の際には、「PROD」に変更します。

    • PROD_:運用環境。最終DataSetに使用されます。これらは、カードを作成できるDataSetです。

    • TEMP_:テスト、開発、アドホックDataSetに使用。これらは定期的に監査を行い、必要性を判断する必要があります。

  • 推奨されるネーミングの接尾語

    • CALC:ETL プロセスで追加された計算フィールド。

  • Beast Modeの作成の際、「計算をシェア」のオプションを選択する前に、このオプションをいつ選択するのが効果的なのかを判断します。計算が多くのユーザーが利用する共有フィールドである場合は、計算をシェアすることにメリットがあります。1回限りの機能の場合は、シェアしない方がよいでしょう。どのようなコンテキストでその計算を使用するべきかわからない他のユーザーで問題が生じる可能性があるからです。

データガバナンス

  • 社内で広範囲ななガバナンスモデルを作成する場合は、DataSetのBeast Mode計算にコメントを追加することもできます。このコメントは、Beast Mode計算自体に入れるメタデータです。これを使用することでBeast Mode計算の作成者を特定したり、Beast Modeの日付やその機能の説明を作成したりできます。ユーザーはこの便利な情報にアクセスすることで、それぞれのカードでこれを利用すべきか判断したり、または質問があるときに誰に問い合わせればよいのかなどがわかるようになります。

    • Beast Modeで作成者と作成日、簡単な説明を加えたメタデータの例

/* 作成者:

作成日:

説明:

  */
 

  • 新しいDataSetで接続テストを行う場合は、自動フィードを設定するのではなく手動でアップデートするように設定します。テスト中のものや問題のあるDataSetは、定期的にアップロードする必要がないためです。

  • 重複したDataSetやカードのないDataSet、または接続するDataFlowがゼロのDataSetなどがないようにするため、定期的に MajorDomoまたは主要な関係者などにDataSetを監査してもらうようにします。

  • MajorDomoは、データセンターのカードをカードの数でソートして監査することができます。DataSetの接続がゼロであるカードを発見した場合は、それを削除するか、DataSetの所有者に連絡してDomoこのカードがある理由を確認し、必要に応じてDataSetを削除してもらうようにします。

  • 未使用のDataFlowを監査する場合は、その見極めが多少難しいこともあります。1~2ヶ月実行されていないようであれば、それにはスケジュールが組み込まれていないことを示唆しているため削除してもよいかもしれません。あるいは、所有者と共にどうなっているのかを調査します。

  • データガバナンスを設定する場合は、各ツールに個別に割り当てを行います。例えば、Workbenchの監査に1人、全ソーシャルデータに1人、Magic ETLデータに1人、というように割り当てます。各データタイプに所有者がいると、確実にそれらを常に監査することができます。そうしておくことで、DataSetの条件を満たしやすくなり、Center of Excellenceに持ち込まれる問題件数を減らすことができます。

  • ユーザーがそれぞれ以下の手順を実行できるようなプロセスを用意しておきます。

    • データをアップロードする

    • Workbenchまたは別のツールを使用して、データが正しいことを検証する

    • Domoで再度データを検証し、数字が予想どおりになっているかを確認する

    • 手順の各ステップを確認し、データが正しいこと、そしてカードを作成できることを確認する

    • データの検証が終了したら、AnalyzerがDataSetを理解できるかを確認します。

    • カードの作成が完了したら、データ所有者にカードを検証してもらいます。カードを作成した人が、フィルタリングなどに関して見逃した次元があるかもしれないからです。

プロセス全体を通じて検証ステップを設置することにより、数字が期待通りに表示されること、そして複雑なデータ構造で欠けている部分がないこと、意味の通らない計算がないことなどを確認できるようになります。

  • データの監査担当者には、常にエラーのチェックを行い、実行に失敗がないかなどをチェックしてもらうようにします。この担当者たちが認証情報の所有者でない場合は、しかるべき資格があり、アカウントへのアクセス権を持っていることを確認するようにします。

  • 四半期に1回Data Centerを監査し、重要なDataFlowとDataSetが実行されているのを確認するようにします。また、すべての認証が動作していることを確認し、期限が切れたものは再認証するようにします。

その他のベストプラクティスに関するトピック

その他のDomoのベストプラクティスについては、次のトピックを参照してください。

  • プロジェクトとタスクのベストプラクティス

  • KPIカード作成のためのベストプラクティス

  • チャートタイプ選択のベストプラクティス

  • 上位10件のダッシュボードデザインに関するベストプラクティス

  • KPI標準化のベストプラクティス

  • KPI設計のためのベストプラクティス

さらに、使いやすいDomoベストプラクティスガイドとして、次のPDFをダウンロードできます。


DataSet管理の一般的なベストプラクティスと、データガバナンスモデルを設定するための高度なヒントを学びましょう。