別に優れたものを選ばなくてもよい採点基準

■項目積み上げ評価と人気投票
 ソチオリンピックも後半に入ったが,スポーツには採点競技というものがある。採点は大抵,評価項目に分割し,それを合計する方式である。自動車,ワインのランク付けなども同様である。異なる方式には人気投票がある。B級グルメ,ヒットチャートなどがその例である。

■参考にならない総合点
 人気投票は判りやすいのだが,項目合計方式には,評価項目間の重み付けという難しい問題がある。ここのところが,いい加減で適当な評価が多い。一番多いのは,重み付けなし,すべて同じ重みとする評価である。例えば,自動車雑誌などを見ていると,動力性能,インテリアデザイン,エクステリアデザイン,居住性,燃費,ユーティリティなどの項目が評価されているが,これらの項目のすべての満点を同じにしていたりする。しかし,人によって重視する項目は異なる。従って,嗜好の違う人にとって総合点は殆ど参考にはならない。

■重み付けのあるスポーツの採点基準
 これに対して,スポーツ,例えばモーグル競技の採点基準は,ターン点が50%,エア点とタイムが25%ずつと重み付けしてある。その重み付けの根拠は感覚的なものだろうが,重み付けの意識があるだけでも優れた評価である。ただし,人間の感覚なので,評価基準は変化する。良い例がノルディックのコンバインドである。ジャンプと距離の重み付けは,荻原兄弟の活躍などの影響で変わってしまった。フィギュアスケートの「規程」のように項目が無くなってしまうこともある。「フィギュア」とは「規程」で評価するスケートの軌跡のことで,本来フィギュアスケートアイデンティティのようなものだったのだが,競技自体のアイデンティティが変わったということだろう。ということはあっても,人間の感覚に合うように,採点基準を試行錯誤で修正していると考えればそれはそれでよい。

定量評価する「定性評価」項目
 それぞれの評価項目には,定量的(馬力,タイム,飛距離など)なものと,「定性的」(インテリアデザイン,ターン点,飛型点など)と言われるものがあるが,どちらも点数で表され合計される。これは,それぞれの項目が換算可能と言うことである。さもなければ合計して総合点が計算出来ない。つまり,ランク付けするということは,距離もフォームの美しさも一つの尺度で測るという意味である。従って,「定性的」項目も結局,定量的に評価しているのである。点数で表しているのだから当たり前のことである。

■「定性的」とは一般的計量単位がないだけ
 「定性的」と言っても,一般に通用する計量単位がないというだけで,その評価に使う計量単位(点数)は設定しているのである。そしてその計量単位(点数)は,一般に通用する計量単位で測れる定量的な項目と換算可能である。距離は一般的にメートルで測るが,飛型点を測る点数に換算しているのだから,逆に飛型点をメートルで表すことも出来る。

■スポーツの採点基準には,統合された理想型がある
 スポーツの採点基準の場合は,おそらく,理想的なバランスのイメージがあるのではないだろうか。フィギュアスケートなら,ジャンプだけ素晴らしくても,芸術性が感じられなければ駄目だとかそのようなバランスのイメージがある筈だ。つまり,統合された理想型が始めにあり,それを評価項目に後で分解しているのである。もちろん,こういうものは個人差があるが,ある程度の共通理解が無ければ,総合的に優れているチャンピオンを決めようという事にはならず,ジャンプ,芸術性だけの個別の競技が行われるだけだろう。最初に、総合的な上手いイメージがあり、それを表す評価方法を考えるという順序である。それが完全に一致しないにしても、目標はあるので、採点基準を精緻なものに改善していくことは出来る。

■統合された理想型のない無意味な総合点
 ところが,世の中には統合的イメージが皆目判らない評価基準というものがある。前述の自動車雑誌に載っているランク付けはまさにそうである。大抵,項目間の重み付けはない。それぞれの項目の評価には意味があっても,総合評価は参考にはならない。そもそも自動車ユーザーすべての共通理解としての理想像があるとは思えない。人によって,デザイン重視,馬力重視とまるで観点が違うだろう。スポーツの採点基準のような侃々諤々の議論が行われたり,苦情が出たりすることもないだろう。だから,評価基準の見直し改善も行われない。見た目がそれらしければ内実は別ににどうでも良いものなのだ。

■同じ尺度で測れないと言いながら,同じ尺度で測っている
 他にも,「公共事業評価システム研究会」の報告なるものがある。これは例えば公園事業のような公共事業を評価する方法を提言している。その中では,経済効果のように金額で評価出来る項目と「緑の創出」という安らぎ効果のようなものを評価している。後者は「金額では評価出来ないため,緑の面積に応じて点数で表す」というような解説がなされている。つまり,「経済効果」と「緑の創出」は同じ尺度では測れないという理解なのだ。にもかかわらず,どちらも点数で評価されるので,結果的に「経済効果」の1億円は「緑の創出」の公園面積○haに換算出来るのである。しかし,そんなことは全く意識している気配がない。

■何が良いのか不明だが,とにかく順番をつけないといけない
 この種のものは,総合的によりよいもののイメージが無いにも拘わらず,順番を付けなければならないという事情がある場合にしばしば生じる。入試の採点では,理系と文系で科目の重み付けが異なるという程度のことはあるが,国語と歴史の妥当な配分は何かというような議論は行われていないだろう。そんなことが決められるとも思えない。だから,どちらも同じ100点満点なのだ。自動車雑誌の評価と同じなのである。しかし,順番は決めなければならないわけだ。


■何が良いのか考えてすらいない
 公共工事の総合評価落札方式も同類である。これについては別エントリーで詳述した。
「サイドバイザーが99万円の車」
http://d.hatena.ne.jp/shinzor/20130819/1376917727
 相対評価の問題はしつこく書いたので、ここでは評価基準の非公表について強調しよう。スポーツの採点基準が非公表などということは有り得ない。非公表にすれば、選手は何を目標に練習し、試合に望んでよいか分からい。ジャンケンに勝ち喜んでいたら、負けたほうが商品をもらえるというお笑い番組のオチのようなことになる。なんと、公共工事ではそんな奇妙なことが行われている。一応、一般的な雛形は公表されているが、個別の工事で応札者自身が自らの提案を採点出来るようなものは公表されていない。「採点基準の公表は、解答を教えるようなものだ」という訳のわからないことを発注者が言っているのだ。こんな事になっているのは、どのような提案が発注者にとって価値があり有難いということすら意識していないからだ。意識しているのは、官製談合、恣意的な業者選定という批判を受けないことではなかろうか。ならば、いっそのこと、くじ引きにすればとさえ思ってしまう。 


■統合された理想型はあるが,評価基準に分解できない場合
 もう一つのパターンとして,総合的イメージはあるものの,評価基準が巧く出来ていない場合もある。例えばカラオケの自動採点である。人間には様々な歌唱力の要素を評価して上手下手を瞬時に判断出来る能力があるが,カラオケマシーンにはまだ無理なのである。カラオケマシーンはいくつかの要素(実は一つかも知れない)を評価して総合点を出しているが,これが人間の感覚とは大きく乖離する。この種のものは,要素に分解して分析的評価するより,感覚によって一発で総合評価した方がマシな評価になる。前述したように,最初にあるのは総合的イメージなのだ。それを客観的に評価するために,要素に分解するのであるが,複雑な場合,うまく分解出来ないし,再組み立てして統合すると,元の姿とは似ても似つかないものになってしまうのである。

■感覚と合わない評価基準
 人事評価や建築コンペの評価なども歌唱力評価と似た複雑性がある。客観的装いをする必要があるため,要素分解した評価をせざるをえないのだが,その結果は感覚的な第一印象とは全く違ってくるのである。出来るだけ多くの評価項目が有った方が,精緻で客観的な評価のように見えるが,実は,大して重要でない項目が多すぎて,重要で本質的な項目の評価が薄められてしまうためである。適正な重み付けがしてあれば良いが,重み付けは非常に難しく,得てして自動車雑誌のような均等配分になりがちなのである。

■複雑すぎて分析できないなら,勘で評価がまだマシ
 足の速さに関係する筋力,体格,柔軟性,走行フォーム,敏捷性などの項目を評価し,単純合計点の大きいものが足が速いとは限らない。足の速さは,これらの項目の単純合計ではなく,複雑に関連しているからだ。従って,この様な分析をするより実際に走らせる方が確かである。最終的に評価したい総合点が,独立した評価項目の単純合計(一次連結)ではなく,相互に影響を与える複雑な関係にある場合は,お手上げである。足の速さの様に最終的に評価したいことを直接確かめられない場合は,経験と勘で評価するしかない。それでも,単純合計評価よりマシな場合が多い。例えば,仕事で業務を委託し,仕事ぶりを評価し成績を付けることがある。二度と仕事を任せたくないような相手なのに,評価基準による成績が良かったりすることはしばしばある。

■別に一位を決めたいのではない
 世の中には,実に沢山のランキングがある。大抵は根拠も怪しいいい加減なものである。公的なところだからといって信用はできない。かつて「住みやすさランキング」なるものがあったが,激しい批判を受けて,早々に消滅した。住みやすさランキングはそれぞれの地方に大きな影響を与えるので,批判が起きたが,別にどうでも良いようなランキングは批判も受けず生き残る。
 大きな影響が有りながら,生き残っているのが、公共工事の「総合評価落札方式」である。公共の発注者は、公平性、客観性を強く求められるというプレッシャーにさらされている。別に技術的に最も優れた業者を選ばなくても批判は受けないが、恣意的に選んだとなると大変な目にあう。その結果、発注者にとって最も価値のあるランキング一位を評価する選定基準よりも、公平で客観的に見えるくじ引きのような選定基準を好むようだ。