1. Оценка за игру (пакет или ведение) сильно кореллирует с результатом игры, т.е чем лучше результат команды, тем выше оценки, которые она ставит за игру, и наоборот.
2. Оценка за игру сильно кореллирует с прогрессом или регрессом команды на данной игре относительно предыдущих игр, т.е если команда занимает более высокое место чем от нее ожидается, то она дает более высокие оценки, а если команда занимает более низкое место чем от нее ожидается, то она занижает оценки.
Интуитивно, обе гипотезы кажутся логичными, ведь оценки зависят от эмоций, которые в свою очередь зависят от результата, так что корелляцию следует ожидать.
Но гипотезы гипотезами, а теорию нужно проверять фактами. Авторы гипотез утверждают что они их проверяли. Теперь попробую я. Впрочем, когда-то уже проверял и как минимум первая гипотеза не очень то и подтверждается. Но ладно, проверим еще раз на результатах вчерашней игры хайфской лиги (октябрь 2013).
В игре участвовало 17 команд, 100% из которых сдали заполненные бланки с оценками за пакет и за ведение (что кстати тоже о чем-то говорит). Команды заняли места от 1 до 16.5. При разделении мест каждой команде дается место равное среднему среди разделенных, как это принято в ЧГК. Например, если две команды разделили 10 и 11 места, то считается что обе заняли 10.5 место.
Начнем с первой гипотезы.
Корелляция между занятым местом и оценкой за пакет/ведение в данной игре составляет -34% и -26% соответственно. Если вместо места взять количество очков, то выйдет 38% и 28% соответственно, т.е. практически одно и то же (с точностью до знака).
Для тех кто давно не изучал статистику, напомню что корелляция определяет зависимость между двумя рядами чисел. Если оба ряда никак не зависят друг от друга (например, генерированы случайным образом), то корелляция должна быть равна нулю. Если один ряд полностью и однозначно зависит от другого, то корелляция равна 100% при прямой зависимости или -100% при обратной зависимости. Для наглядности, в данной игре корелляция между числом очков и занятым местом составляет -98%, потому что место целиком зависит от набранных очков (правда зависимость не строго линейная, поэтому выходит чуть меньше чем 100%) и эта зависимость обратная - чем больше очков тем меньше место (потому то результат и отрицательный). Поэтому, кстати, почти не важно как считать корелляцию с оценками - по месту или по очкам - потому что место и очки так тесно связаны между собой.
Итак, если отвлечься от знаков, выходит что корелляция с оценками пакета/ведения около 36% и 27% процентов соответственно. Это конечно статистически значительно, но такую зависимость трудно назвать сильной. Для визуализации, можно нарисовать график. При сильной линейной зависимости график должен представлять собой почти прямую линию, поднимающуюся слева направо. При слабой зависимости, график будет хаотично скакать вверх-вниз. Как видим, в данном случае скорее верно второе. Хотя в среднем и есть небольшой подъем, но заметить его нелегко.
Конечно, 17 команд это не очень много для статистики, поэтому ошибка измерения высока и влияние каждой команды значительно. Для примера, если бы Стартап поставил за ведение +1 а не +2 или Вопросительный Знак поставил бы +1 а не 0, то соответствующая корелляция из скромных 27% превратилась бы в жалкие 10-12%. С другой стороны, если бы ДТ поставили +2 а не +1, то 27% превратились бы в 45%. Это впрочем самые большие флуктуации, вызванные изменением одной оценки. Так что несмотря на большую погрешность, можно утверждать что зависимость между оценками и результатом существует, но она слабая - наверняка меньше 50%.
Чтобы проверить вторую гипотезу, нужно высчитать среднее место занятое командой в течение текущего сезона (с января по сентябрь). Для пущей точности, места в каждой игре нормализованы между 1 и 16.5, чтобы соответствовать октябрьской игре. Впрочем, результат от этого почти не меняется, видимо потому что число команд в этом сезоне было на редкость стабильным. Затем для каждой команды подсчитывается коэффициент прогресса: место на октябрьской игре деленное на среднее место. Если этот коэффициент больше 1 то команда прогрессировала, а если меньше 1, то регрессировала. Согласно второй гипотезе, чем выше этот коэффициент, тем выше будут оценки. Это тоже интуитивно - команды окрыленные неожиданным успехом скорее всего будут добрее чем команды огорченные неожиданным поражением.
Для данной игры, корелляция между этим коэффициентом и оценками за пакет/ведение составляет 51% и 38% соотвественно. То есть вторая гипотеза подтверждается заметно лучше чем первая, хотя корелляция по-прежнему невысокая, как видно на следующем графике:
Но если бы ДТ поставил 0 а не +1 за ведение, то соотвествующая корелляция спустилась бы с 38% до малозначительных 15%, а если бы Стартап поставил +1 а не +2, то те же 38% превратились бы в жалкие 3.5%. С другой стороны, 10 Вал могли бы уменьшить эту корелляцию до 21%, если бы они были чуть "добрее". Это самые значительные влияния от изменения одной оценки на соседнюю в случае с ведением. И именно в этих случаях наблюдаются также самые значительные отклонения от единицы в коэффициентах: 3.6 у Стартапа, 2.7 у ДТ и 0.2 у Вала. Это тоже говорит в пользу второй гипотезы, но только в крайних случаях, причем в основном когда дело касается прогресса. То есть, команда занявшая место намного выше обычного стремится поставить оценку на один балл выше чем полагается. Показательно, что Стартап - это единственная команда поставившая +2 и за ведение и за пакет. С другой стороны, команда сыгравшая хуже обычного стремится поставить более низкую оценку, но этот эффект заметно слабее предыдущего, т.е. не похоже что команды так уж пытаются "отомстить" за свой плохой результат, как предполагалось. Показательно, что 10 Вал, показавший наибольший регресс на данной игре (занял место в пять раз ниже обычного), поставил оценки в точности соответствующие средним.
Выводы:
1. Зависимость между результатом игры и оценкой существует, но она слабовыраженная и в основном проявляется в экстремальных случаях, когда команда занимает неожиданно хорошее или плохое место.
2. Некоторые считают, что существование зависимости между местом и оценкой доказывает нецелесообразность самих оценок и их следует отменить. С этим можно было бы согласиться если бы корелляция приближалась к 100%, но этого вовсе не наблюдается, а значит можно учесть эту зависимость и удалить ее из оценок метематическим путем. К сожалению, я уже не помню как это делается в общем случае, но в данном случае по-видимому достаточно просто убрать или подправить явно экстремальные оценки. Например, если +2 Стартапа за ведение поменять на +1, то средняя оценка за ведение практически не изменяется (7.8 вместо 7.9), зато корелляция практически исчезает (падает ниже 4%). Можно даже еще лучше: уменьшить оценки Стартапа и ДТ на полбалла, а оценки Вала и Вопр. Знака увеличить на полбалла (это 4 команды с самым значительным отклонением от единицы, у Знака - 0.5). При этом, средняя оценка не меняется вообще, а корелляция становится -3%.
3. При всем при этом, следует помнить, что данный опыт проведен на слишком малой группе чтобы делать надежные выводы, так что хорошо бы его повторить хотя бы несколько раз прежде чем начинать что-то менять в существующей системе, которая, судя по всему, остается действенной и популярной, по крайней мере в Хайфе.
П.С. Полные результаты вычислений в виде экселевской таблицы могу выслать личной почтой всем заинтересованным.