データのプロット方法は無数にある。しかし、全てのデータ分析に有効なプロット方法は存在しない。あるのは、僅かにしかない最適な方法と、無数にあるダメな方法。
参照:No More Pie Charts:パイチャート禁止令、PowerPoint Is Evil:パワーポイントによる死
One graph will raise questions that you can try to answer by replotting the data again, with a different visualization.
一つのグラフが問題を提起して、再びデータをプロットして得られた新たな視点で、その問題を解決する。
「回帰分析して p 値を確認して、おしまい」では決してない。そもそも
Without good data, you can’t build good models. Time you spend here is time you don’t waste elsewhere.
良いデータがなければ、良いモデルは作れない。データのプロットに費やした時間は無駄にはならない。
GIGO「ゴミはゴミを生む」、つまり「ゴミデータはゴミモデルを生む」。「データは分析の目的を満たすものか?」を問い続け、答えを出すのがグラフ化。
最後にまとめとして、表 3.2 Visualizations for two variables の引用と要約、そして対応するグラフの例を付けた。
Line plot
Shows the relationship between two continuous variables. Best when that relationship is functional, or nearly so.
二つの連続値の関係を表す。関数の関係、もしくはそれに近い関係の場合に最適。
Scatter plot
Shows the relationship between two continuous variables. Best when the relationship is too loose or cloud-like to be easily seen on a line plot.
二つの連続値の関係を表す。関係が散らばりすぎて、line プロットでは見にくい場合に最適。
Smoothing curve
Shows underlying “average” relationship, or trend, between two continuous variables. Can also be used to show the relationship between a continuous and a binary or Boolean variable: the fraction of true values of the discrete variable as a function of the continuous variable.
二つの連続値の根底にある「平均的」関係やトレンドを表す。
Hexbin plot
Shows the relationship between two continuous variables when the data is very dense.
非常に密集した、二つの連続値の関係を表す。
Stacked bar chart
Shows the relationship between two categorical variables (var1 and var2). Highlights the frequencies of each value of var1.
二つのカテゴリー変数の関係を表す。
Side-by-side bar chart
Shows the relationship between two categorical variables (var1 and var2). Good for comparing the frequencies of each value of var2 across the values of var1. Works best when var2 is binary.
二つのカテゴリー変数の関係を表す。一方がバイナリーの場合に効果的。
Filled bar chart
Shows the relationship between two categorical variables (var1 and var2). Good for comparing the relative frequencies of each value of var2 within each value of var1. Works best when var2 is binary.
二つのカテゴリー変数の関係を表す。一方がバイナリーの場合に効果的。
Bar chart with faceting
Shows the relationship between two categorical variables (var1 and var2). Best for comparing the relative frequencies of each value of var2 within each value of var1 when var2 takes on more than two values.
二つのカテゴリー変数の関係を表す。
0 件のコメント:
コメントを投稿