wiki:情報1:データの集計と情報の配信

データの集計と情報の配信

最初にデータと情報について区別しましょう。データと情報は似て非なるものです。では、データとは何か。それは前項でも述べた通り、無意味な記号の並びです。例えば、以下のようなデータがあるとしましょう。

1,2,3,3,3,3,4,4,4,2,2,2,2,1,1,1,4,5,5,5,5,5

これは無意味な記号が並んでいます。このようにカンマ区切りで並んでいるデータのことをCSV1)データと言います。この記号(数字)の並びが意味を持つと情報になります。
では、このデータの並びがこうなったらどうでしょうか?

ヘルシー 1
外観 2
内装 3
3
3
スープ 3

どうやらラーメン屋のアンケート結果のようです。ただ、この場合でもまだデータです。もちろん、ヘルシーが1で、外観が2でという評価をもらったという事実はあります(けっこう辛口な評価ですね)。ですが、これではまだ不完全なデータの形なのですね。どうすれば、理想のデータの形になるのか。
アンケートを取る場合は下記に示した要件が必要となります。

  1. 大量のデータが欲しい
  2. 大量のデータを見やすくしたい
  3. データを集計したい


1.の大量のデータが欲しいという要件は、業務の改善となります。例えば、日に1件しかアンケート結果が来なくて、本当は20件は欲しいとしましょう。この場合、店員さんが積極的に顧客にアンケートを促すなどの改善が必要となります。つまり、大量のデータが欲しいというのは、データの形とは関係ない話ですね。
次に、2.大量のデータを見やすくしたいとはどういうことかを考えます。
アンケートの紙は日々大量にやってきます。何枚も重なってくるわけですね。これを、1枚の紙に収まるような形にするわけです。これはデータの形の問題と言えるでしょう。
先ほどの表のようにデータを集めていくとこんな感じになります。

ヘルシー 1
外観 2
内装 3
3
3
スープ 3
ヘルシー 3
外観 4
内装 4
4
2
スープ 2


これは大きな問題を抱えています。何が問題なのかというと、見出しが繰り返し表示されていることです。では、こういう形にすればどうでしょうか。

ヘルシー 1 3
外観 2 4
内装 3 4
3 4
3 2
スープ 3 2


このように、見出しを1つにして、各アンケートの結果の数字を並べていきます。ですが、これは少し嫌です。なぜかというと、一般的にパソコンの画面は上下に動かすことが多いからです。このようにデータを保管すると、数100件も集めると「横長でワイド」なデータの集まりとなるでしょう。なので、普通は上下にデータを並べます。

ヘルシー 外観 内装 スープ
1 2 3 3 3 3
3 4 4 2 3 2


あともう少しですね。実はデータをただ上下に保管するというのはあまり望ましくありません。データ(ここではアンケートの結果)ごとに固有の番号を載せた方が良いのです。これは、出席番号のように無くても普段困らないけどあったほうが便利なシーンもあるということです。この固有番号は、データ毎に1,2,3,4,・・・と順番に番号を振る場合もあれば、登録した日時(時刻はミリ秒まで)を記録する方法2)、もしくはUUID3)を使った手法もあります。ここでは、「番号」というデータ固有の識別子の列4)を追加します。

番号 ヘルシー 外観 内装 スープ
1 1 2 3 3 3 3
2 3 4 4 2 3 2

このようにデータの形について考えることはとても大事です。また、データ固有の識別子のことを「プライマリーキー」とも呼びます。このようにプライマリーキーがあれば、「何行目あたりのヘルシーに4を付けたお客さん」と呼ばなくても、「番号35のお客さん」と言えば済むようになります。このことは、コンピュータ上でも非常に重要で、探す手間をより早くするための仕組みのことを「インデックス5)」と言いますが、プライマリーキーは「インデックス」の1つと言って良いでしょう。プライマリーキーを上手に使いこなすと検索スピードがぐんと速くなります。

次にデータの集計について考えていきましょう。

データの集計の仕方については、データの集計基礎をご覧下さい。

前項のデータの集計で、あなたの勤めているラーメン屋さんの弱点が数値化されました。これはまぎれもない、ラーメン屋として欲しい情報となりました。いち従業員として、この情報を店長に報告しないといけません。
どのような手法で報告するのが望ましいか、考えてみましょう。
手法だけならいくらでもあります。

SNSで配信する

この場合、業務情報の流出で最悪の場合、刑事訴訟に発展することがあります。

ポスターを作る

例えば店長の目が届くところに、「この店の問題点」というタイトルで掲示します。この場合、店長から「犯人は誰だ?」と言われる恐れがあります。

朝会や夕会で口頭発表する

アンケートの結果を読み上げる方法ですが、聞き手としてはポイントをつかみづらく、「もういいから、後からその紙見せて」とだけ言われる可能性が高いです。

話しやすい先輩にいったん言ってみる

先輩からは「すごいじゃん」と褒められること必至ですが、悪い先輩だと「まあ頑張れ」と一言いって何も手伝ってくれません。また、最悪の場合、「見にくいから見やすくして」などと、国語力0の指示が来る場合があります。良い先輩は「この資料はこういう風に直した方がいい」という具体的な指摘をくれます。

同僚で仲間を作る

たいていの場合、せんでもいいことに首をつっこんだ面倒な奴として処理されます。仲間を作ることは大変です。

直接、店長に言う

アンケートを実施した以上、店長目線で既にデータの集計を行っていることが多いです。また、本部に報告してお叱りを受けている可能性があるので、「店長、この前のアンケートの結果を受けて自分なりにデータ集計してみたのですが、店員の態度はどうも悪いようです」などといった日には、人が本当にキレる姿というのを見ることができるかもしれません。

1)
Comma Separated Values
2)
タイムスタンプとも言います
3)
Universally Unique Identifierの略。ソフトウェア上で一意(固有)となる文字列を生成する
4)
データを見出しごとに分けて見ることを列またはカラムといいます。見出し名のことを列名、またはカラム名といいます。
5)
日本語に訳すと付箋
  • wiki/情報1/データの集計と情報の配信.txt
  • 最終更新: 2023/10/12 17:19
  • by 127.0.0.1