メインコンテンツまでスキップ
waffle.svg
Domo Knowledge Base

楽しみながら学ぶサンプルデータセット

Version 2

 

退屈な古いマーケティングキャンペーンのスプレッドシートだけでは、高度なデータ分析の実行方法や、意味のあるBeast Mode計算の記述方法を学ぶのは困難です。でも、ご安心ください。Domoでのカード作成やデータ分析の方法を学習する際に役立つ、わくわくするようなデータセットのリストをご用意しました。 

この記事に記載されているデータセットにご満足いただけないということであれば、Kaggleをご覧ください。ここは、ユーザーが自作のデータセットをアップロードして競い合うウェブサイトであり、数千ものデータセットがそろっています。 

ジェパディで出題された200,000件以上の質問

このデータセットには、クイズ番組「ジェパディ」の初回から2012年までの全ての質問と回答が入っています。XLSX、CSV、JSONの形式で利用できます。

このデータセットは、2014年にRedditユーザーtrexmattによって作成されました。このデータセットが最初に投稿されたRedditページを見るには、次のURLをクリックしてください:https://www.reddit.com/r/datasets/co...n_a_json_file/

このデータセットの列は次のように構成されています。

説明

カテゴリー

質問のカテゴリー(例:「HISTORY」)

質問の金額(「$200」などの文字列)

注記:「NONE」はファイナル・ジェパディとタイブレーカーの質問です。 

question

質問のテキスト。例:「Calf-length pants styled in colorful island prints are named for this type of Hawaiian party(カラフルな島スタイルのプリントでデザインされた膝丈のパンツは、ハワイで見られるあるパーティーにちなんで名付けられました)」

注記:写真や動画に関する質問の場合、ハイパーリンクや読みづらくしたテキストが含まれることがあります。 

answer

答えのテキスト。例:「luau pants(ルアウパンツ)」

round

質問が出題されるジェパディのラウンド。「Jeopardy」、「Double Jeopardy」、「Final Jeopardy」、「Tiebreaker」(極めてまれ)のいずれかになります

show_number

番組の通し番号を示す文字列(例:「4680」)

air_date

番組の放送日。YYYY-MM-DDの形式です

ワインの評価

このデータセットには、2017年6月15日にwinemag.comから取得したワインの評価に関するデータが入っています。CSVとJSONの形式で利用できます。 

このデータセットは、Kaggleユーザーzackthouttによって作成されました。データセットの詳細と使用方法については、https://www.kaggle.com/zynicide/wine-reviews/homeを参照してください。 

このデータセットの列は次のように構成されています。

説明

country

ワインの生産国です

description

味、香り、見た目、口触りなど、ソムリエによる簡単な説明です

designation

ワインの原料となったブドウの産地であるワイナリー内のブドウ園

points

WineEnthusiastによるワインの評価ポイント(1~100)

price

このワインのボトルの価格(米ドル)

province

ワインの生産国の県または州

region

県または週のワイン生育地(例「Napa」)

region2

大きな地域内のより具体的な地域(小さな地域がない場合は空白)

taster name

ワインのテイスティングと評価を行ったソムリエの名前

taster_twitter_handle

ワインのテイスティングと評価を行ったソムリエのTwitterユーザー名

title

ワイン評価のタイトル(区別しやすいように、多くの場合、等級が含まれています)

variety

ワインの生産に使用したブドウの種類(例:「Pinot Noir」)

オリンピック120年の歴史

このデータセットには、1896年から2016年までに開催された全オリンピックのアスリートとイベントのデータが入っています。CSVとXLSXの形式で利用できます。 

このデータセットは、KaggleユーザーRandi H. Griffinによって作成されました。データセットの詳細と使用方法については、https://www.kaggle.com/heesoo37/120-...d-results/homeを参照してください。 

このデータセットを使用する場合、1992年までは冬季と夏季の競技大会は同じ年に開催されていた点に注意してください。それより後は、夏と冬の開催がずらされ、それぞれ4年おきに行われるようになりました。このデータの分析時には、夏季および冬季の大会が常に別の年に開催されていると想定する間違いがよく発生します。

このデータセットの列は次のように構成されています。

説明

ID

データセット内の順番に基づいてアスリートに割り当てられたID番号

Name

アスリートの名前

Sex

アスリートの性別

Age

アスリートの年齢

Height

アスリートの身長(センチメートル単位)

Weight

アスリートの体重(キログラム単位)

Team

このアスリートが所属する国

NOC

アスリートが所属する国を表す3文字の略語

Games

このオリンピック大会の開催年と季節

Year

大会の開催年

Season

大会の季節(SummerまたはWinter)

City

オリンピックが開催された都市

Sport

大会の種目

Event

大会の名前

Medal

アスリートが獲得したメダル(獲得したメダルがない場合は「NA」)

スーパーヒーローの特徴と得意技

これらのデータセットには、700人を超えるスーパーヒーロー(および悪役)の基本情報が入っています。最初のデータセットheroes_information.csvには、性別、人種、コミック、出版社など、その人物の特徴が入っており、2つ目のデータセットsuper_hero_powers.csvには、それぞれのスーパーヒーローの特技が入っています(168個のスーパーパワーについて二択式(true/false)で記載)。 

これらのデータセットは、KaggleユーザーClaudioDaviによって作成されました。詳細は、https://www.kaggle.com/claudiodavi/superhero-set/homeを参照してください。 

heroes_informationデータセットの列は次のように構成されています。

説明

Name

スーパーヒーローの名前または別名

Gender

スーパーヒーローの性別

Race

スーパーヒーローの種族(Human、Amazon、Vampireなど)

瞳の色

スーパーヒーローの瞳の色

髪の毛の色

スーパーヒーローの髪の毛の色

肌の色

スーパーヒーローの肌の色

Height

スーパーヒーローの身長(センチメートル単位)

注記:リスト内のスーパーヒーローの多くは、身長と体重が-99となっています。これが何を意味するのか正確にはわかりませんが、不明であることを示していると考えられます。

Weight

スーパーヒーローの体重(キログラム単位)

注記:リスト内のスーパーヒーローの多くは、身長と体重が-99となっています。これが何を意味するのか正確にはわかりませんが、不明であることを示していると考えられます。

Publisher

このスーパーヒーローを作成した漫画会社(例:Marvel、D.C.)

Alignment

スーパーヒーローの全体的な位置付け(善、悪、中立)

super_hero_powersデータセットには168個もの列が含まれているため、ここには掲載しません。ただし、このデータセットは分かりやすい作りになっています。スーパーヒーローの各パワーにtrueまたはfalseの値が割り当てられています。たとえば、スーパーヒーロー「Banshee」には、「Flight」、「Audio Control」、「Force Field」、「Enhanced Hearing」、「Sonar」、「Sonic Scream」に「TRUE」が割り当てられており、その他のパワーには全て「FALSE」の値が割り当てられています。

UFO目撃現場

これらのデータセットには、1906年から2014年までに報告されたUFOの全目撃情報と、時刻標準とジオコーディングが入っています。CSV形式の2つのデータセットのリンクはこちらです。1つ目のUFO_sightings_complete.csvには、目撃情報の場所がないまたは空白のエントリ(0.8146%)、時間が誤っているまたは空白のエントリ(8.0237%)が含まれています。2つ目のUFO_sightings_scrubbed.csvでは、これらの誤ったエントリと空白のエントリが削除されています。

このデータのソースは、National UFO Reporting Center(NUFORC)です。詳細については、Kaggleのウェブサイト(https://www.kaggle.com/NUFORC/ufo-sightings/home)を参照してください。

両方のデータセットの列は次のように構成されています。

説明

datetime

目撃の日時(形式:m/d/yyyy h:mm

city

UFOが目撃された都市

state

UFOが目撃された米国の州(米国内での目撃のみに適用。その他は空白)

country

UFOが目撃された国。国を表す2文字の略号を使用(例:「英国」の場合は「gb」など)

shape

UFOの形状(例:円形、葉巻型)

duration (seconds)

目撃の時間(秒単位)

duration (hours/min)

目撃の時間(時間または分単位)

date posted

目撃情報を投稿した日時(形式:m/d/yyyy

latitude

目撃の緯度(形式:DDD.dddd

longitude

目撃の経度(形式:DDD.dddd

キノコの分類

このデータセットには、ハラタケ属とキツネノカラカサ属のひだのあるキノコ(23種)に対応する仮想例の説明が入っています。出典は、『Auduron Society Field Guide to North American Mushrooms』(1981年)です。各標本は、「食用にして問題なし」、「間違いなく有毒」、「有毒かもしれないので食用には勧められない」に分類されています(3つ目のクラスは有毒なクラスと組み合わされました)。

この情報は、データの構造化と分析のスキルを磨くためにのみ使用することをお勧めします。きのこの可食性を決定するための植物リファレンス/サバイバルガイドとしてはこの情報を使用しないでください。野生キノコの識別は、専門家に任せる必要があります。

このデータセットはXLSX形式でのみ利用可能です。 

このデータセットの列は次のように構成されています。

説明

class

サンプルの可食性(edibleかpoisonous)

cap-shape

キノコの傘の形状(例:convex、bell-shaped、flat)

cap-surface

キノコの表面の質感(例:smooth、scaly、fibrous)

cap-color

キノコの傘の色

bruises

キノコに斑点があるかどうか(yesまたはno)

odor

キノコの香り(例:pungent、almond)

gill-attachment

キノコにひだがあるかどうか

gill-spacing

ひだの間隔が狭いか詰まったようになっているか

gill-size

ひだのサイズ(narrowまたはbroad)

gill-color

ひだの色

stalk-shape

柄が広がっているか細くなっているか

stalk-root

柄の根元の形状(例:equal、club、bulbous)

stalk-surface-above-ring

菌輪上部の柄の質感

stalk-surface-below-ring

菌輪下部の柄の質感

stalk-color-above-ring

菌輪上部の柄の色

stalk-color-below-ring

菌輪下部の柄の色

veil-type

菌膜のタイプ(全て「Partial」)

veil-color

菌膜の色

ring-number

菌輪の数

ring-type

菌輪の形状

spore-print-color

胞子の色

population

同一エリア内の同様のキノコの相対数(例:abundant、scattered、solitary)

habitat

キノコが見つかる生息環境のタイプ(例:grasses、urban)

米国の子供の名前

これらのデータセットには、1880年から現在までに米国で名付けられたほぼ全ての名前がリストされており、1年ごとの数も掲載されています。データセットには、同じ年に少なくとも5人の赤ちゃんに付けられた名前のみが入っています。1つ目のデータセットであるNationalNames.csvには、米国全体で合計した全ての名前の数が入っています。2つ目のStateNames.csvは、個々の州ごとに数が細分化されています(そのため、ファイルサイズがかなり大きくなっています)。 

これらのデータセットについての詳細は、Kaggleのページ(https://www.kaggle.com/kaggle/us-baby-names/home)を参照してください。 

注記:ファイルアップロードコネクターを使用してこれらのデータセットをDomoにアップロードしようとしたときにエラーが発生した場合は、ファイルをExcelファイル形式で保存してください。ただし、Excelファイルには最大1,048,576行しか含めることができません。これらのCSVファイルにはこの数を超える行が含まれています。したがって、Excelを使用する場合、データセット全体をアップロードすることはできません。  

これらのデータセットの列は次のように構成されています。

説明

Id

その年にこの名前に割り当てられたID番号(このデータセットでのみ使用)

Name

子供の名前

Year

この名前がカウントされた年

Gender

使用された名前に関連付けられている性別(個々の数は名前と性別ごとの数であるため、この項目は重要な識別子になります)

Count

各年の特定の性別におけるこの名前の数

State(StateNamesデータセットのみ)

カウントされた州

世界幸福度報告

世界幸福度報告は、世界の幸福の状態に関する画期的な調査です。幸福度で155か国をランク付けした『World Happiness 2017』は、国際幸福デーを祝うイベントの際に国連で発表されました。政策決定の意思決定に関する報告に幸福度指標を使用する政府、組織、市民社会が増えており、このレポートは引き続き世界的な認知を得るものとなっています。

添付のCSVデータセットには、2015〜2017年における世界のほぼ全ての国の幸福度データが入っています。国ごとに、全体におけるランキングが割り当てられ、平均寿命、経済、自由などの基準に対して個別のスコアが付けられています。 

世界幸福度報告の詳細とデータの解釈方法については、Kaggleのページ(https://www.kaggle.com/unsdsn/world-happiness/home)を参照してください。 

これらのデータセットの列は次のように構成されています。

説明

Country

国の名前

Region(2015年と2016年のみ)

この国が属する地域(例:Western Europe、Middle East and Northern Africa)

Happiness Rank

幸福度に基づいたその国のランキング

Happiness Score

サンプルとなった人に「0を最高として、あなたの幸福度を0~10の範囲で評価してください」という質問をして測定

Standard Error(2015年のみ)

幸福度の標準誤差

Lower Confidence Interval(2016年のみ)

幸福度の低い方の信頼区間

Upper Confidence Interval(2016年のみ)

幸福度の高い方の信頼区間

Whisker.high(2017年のみ)

この国の箱ひげ図の最大値

Whisker.low(2017年のみ)

この国の箱ひげ図の最小値

Economy(1人あたりGDP)

GDPが幸福度の計算に寄与する程度

Family

家族が幸福度の計算に寄与する程度

Health(平均余命)

平均余命が幸福度の計算に寄与する程度

Freedom

自由が幸福度の計算に寄与する程度

Trust(政府の汚職)

政府の汚職の認知が幸福度の計算に寄与する程度

Generosity

寛容さが幸福度の計算に寄与する程度

Dystopia Residual

ディストピア残差が幸福度の計算に寄与する程度(ディストピア残差の構成要素の詳細については、上述のKaggleページを参照してください)

80種類のシリアル

このCSVデータセットには、80種類の朝食用シリアルの栄養に関するデータが入っています。  

このデータセットは、ユーザーChris CrawfordによってKaggleにアップロードされました。データのまとめと整理は、Petra Isenberg、Pierre Dragicevic、Yvonne Jansenによって行われました。このKaggleページは、https://www.kaggle.com/crawford/80-cereals/homeから閲覧できます。原典は、https://perso.telecom-paristech.fr/e...gr204/datasetsです。   

このデータセットの列は次のように構成されています。

説明

name

シリアルの名前

manufacturer

シリアルのメーカー

type

シリアルのタイプ(coldまたはhot)

calories

一食あたりのカロリー数

protein

一食あたりのたんぱく質の量(グラム単位)

fat

一食あたりの脂肪の量(グラム単位)

sodium

一食あたりのナトリウムの量(ミリグラム単位)

fiber

一食あたりの食物繊維の量(グラム単位)

carbo

一食あたりの複合糖質の量(グラム単位)

sugars

一食あたりの糖類の量(グラム単位)

potass

一食あたりのカリウムの量(ミリグラム単位)

vitamins

ビタミンとミネラルの割合(0、25、100のいずれか。FDA推奨の一般的な割合)

weight

一食あたりの重量(オンス単位)

cups

一食あたりのカップ数

rating

シリアルの評価(作成者不明。おそらく『Consumer Reports』)

スピードデートテスト

このデータセットのデータは、2002年から2004年に行われた実験的なスピードデートイベントの参加者から収集されたものです。イベントの出席者は、他の異性の参加者全員と4分間の「初デート」を行います。4分後、参加者はその相手と再びデートしたいかを尋ねられます。また、魅力、誠実さ、知性、楽しさ、熱意、共有の関心という6つの属性でデートを評価するように求められます。

データセットには、イベント中のさまざまな時点で実施した参加者へのアンケートデータも含まれます。アンケートには、その人の特徴、デートの傾向、主要な属性についての自己評価、他の人が相手に求めると考えられる考え方、ライフスタイルに関する項目があります。

このデータセットは、コロンビアビジネススクールのRay Fisman教授とSheena Iyengar教授によって作成され、ユーザーAnna MontoyaによってKaggleにアップロードされました。詳細は、Kaggleのページ(https://www.kaggle.com/annavictoria/...xperiment/home)を参照してください。 

このデータセットは非常に複雑であり、200以上の列があります。列を解釈しやすいように、データを含むCSVファイルとともにキーが提供されています。

タイタニック号乗客名簿

このCSVデータセットには、1912年に沈没したHMSタイタニック号の887人の乗客の基本情報で構成されており、名前、年齢、性別、客室等級、運賃、乗船家族数、事故から生存できたかどうかの情報が入っています。 

この情報を扱った、一般ユーザー作成のデータセットは、多数公開されています。これらのデータセットを閲覧したり、機械学習におけるタイタニックデータの活用方法を調べたりする場合は、http://www.kaggle.comで「titanic」を検索してください。

このデータセットの列は次のように構成されています。

説明

Survived

この乗客が生き残ったかどうか(0は「いいえ」、1は「はい」)

Pclass

この人物の客室等級(1、2、3のいずれか)

Name

乗客の名前

Sex

乗客の性別

Age

乗客の年齢

Siblings/Spouses Aboard

この乗客と同伴していた兄弟や配偶者の数

Parents/Children Aboard

この乗客と同伴していた親や子供の数

Fare

この乗客が支払った運賃(英ポンド(£)単位)