Ничего, как-нибудь впоследствии я им тоже не пригожусь
Сейчас самое прекрасное время в году, но оно безнадежно испоганено подработкой. Пока я преподавала то, чем занимаюсь, все было более-менее, сейчас приходится вспоминать статистику (уууу, Witch_Jane меня поймет - кросс-таблица и хи-квадрат) и работать с программой, которая сама по себе не нужна мне и нафиг, но студентам может понадобиться.
Со студентами несколько больше понимания, чем с прошлой группой, но все как-то бессмысленнее и бессмысленнее - я веду непрофильный предмет, который сама не люблю, с отвращением вызубриваю материалы к занятию, а они лениво решают задачки, по большей части, с таким же отвращением.
Осталось три занятия и зачет, с июля я свободна и больше в такое надеюсь не вляпаться, но пока не закончила - все мерзко и уныло и будет таковым, пока не. Поэтому здесь почти не пишу - полезной информации от меня сейчас ноль.
Со студентами несколько больше понимания, чем с прошлой группой, но все как-то бессмысленнее и бессмысленнее - я веду непрофильный предмет, который сама не люблю, с отвращением вызубриваю материалы к занятию, а они лениво решают задачки, по большей части, с таким же отвращением.
Осталось три занятия и зачет, с июля я свободна и больше в такое надеюсь не вляпаться, но пока не закончила - все мерзко и уныло и будет таковым, пока не. Поэтому здесь почти не пишу - полезной информации от меня сейчас ноль.
Есть две переменные, каждая из которых может принимать несколько значений и есть список данных, по которому каждый факт привязан к одному из них. Если переменные независимы, то для каждого значения одной из них значения второй будут распределяться в одинаковых пропорциях.
Если зависимы - есть перекос в одной или нескольких клетках построенной кросс-таблицы.
Степень этого перекоса, разницы между нулевой гипотезой и реальностью, и определяет значение хи-квадрата, хи-квадрат - это сумма относительных разностей между наблюдаемым и ожидаемым по всей таблице.
Естественно, чем больше в таблице клеток, тем больше будет это значение, отсюда пошло понятие степени свободы - оно зависит от количества клеток таблицы. А дальше - просто посмотреть значения и сравнить с максимальными для попадания в доверительный интервал.
Может, получилось непонятно, но это то, что выходит при пересказе своими словами.
Есть некий показатель по округам: частота случаев патологии на 1000 осмотренных. Он колеблется в разных округах от 10,2 до 19,4. Округов 8.
Вот задача: показать, что есть различия и они достоверны. Пока писала, задалась вопросом: различия с чем? Получается, что мне надо каждый округ сравнивать поочередно с другими округами и говорить: в таком-то достоверно ниже, чем в других округах, в таком-то - достоверно выше, чем в других округах. Э?
По всей видимости, различия количества случаев патологии между округами.
Тогда получается, что количество строчек в таблице равно количеству округов (не помню сейчас, какая это будет степень свободы, но обычно таблица прямоугольная, а у тебя будет по одной стороне только одна клетка, но это, вроде, ни на что не влияет), столбец один, а разница между наблюдаемым и ожидаемым - это разница между значением по какому-либо округу и средним по всем округам.
Посчитать по формулам хи-квадрат эти приведенные средние, а дальше смотреть по общей формуле с учетом степеней свободы, является или не является различие значимым.
Если тебе в принципе безразлично, как он менялся по времени, просто есть данные за несколько лет и непонятно, что с ними делать, но в итоге надо доказать, что есть явная разница по регионам - то взять для каждого региона среднее по времени и дальше работать с ними.
Если есть предположение, что вся эта картина еще и во времени меняется - то есть распределение неравномерно по регионам, и со временем эта неравномерность сдвигается, то, наверное, можно построить таблицу, чтобы, скажем, по строкам были регионы, по столбцам - время, и в каждой клеточке - частота по региону за год. Но в этом случае хи-квадрат будет показывать не на то, что случаи патологии появляются в разных регионах с разной частотой, а то, что случаи патологии в разных регионах по-разному меняются во времени, например, в одном их количество растет, в другом - падают. Но, насколько я понимаю, тебе это отслеживание динамики задачей не ставится.
Там другая нулевая гипотеза.
Что нужно сделать тебе?
Проверить, есть ли зависимость, или ее нет совсем. Нулевая гипотеза ( в твоем случае, и как это бывает обычно) - это предположение, что связи между значениями двух переменных нет. Связи нет, то есть нет статистически значимых различий. В твоем случае некоторые различия по регионам все-таки есть, и основная задача - выяснить, насколько они значимы, и можно ли их считать несущественной погрешностью.
Что нужно там?
Тамошняя нулевая гипотеза - это не отсутствия связи между признаками, а выполнение законов генетики. И разница считается между распределением по известному закону (ожидаемым) и наблюдаемым.
Насчет SPSS - а что именно ты в нем делала? Таблица сопряженности там строится, но она для тех случаев, когда есть наблюдения с указанием признака (например - Иванов из региона номер 2, патологии не выявлено, Сидоров из региона номер 1, патология выявлена, и таких наблюдений - целый файл), по такой таблице строится таблица сопряженности, в которой, соответственно, будет список регионов и количество патологий и непатологий в каждом. И оценка по хи-квадрату.
Показатели по регионам у тебя есть и так, по-моему, для восьми значений проще в экселе посчитать и не заморачиваться.
Решила смотреть не все восемь округов сразу, а сравнить данные по одному округу с данными по РФ.
достигнутый уровень значимости (P) значительно меньше 0,001 (там вообще получилось что-то вроде 0,0000000000000000000). Не удивительно, поскольку хи квадрат равен 2716949,4 (исходные значения тоже весьма велики) при том что частота изучаемой патологии 13,3 на 1000 осмотренных и 14,9 на 1000 осмотренных (соответственно в 1 случае патологии -633, всего осмотрено - 47462, по РФ - патологии 41712, всего осмотрено - 2794196). Или мне с этим смириться и так и оценивать, или я что-то не так делаю.
Нельзя взять один округ и считать без изменений. То есть можно, но тогда придется немного переформулировать задачу - тогда ожидаемым значением будут не данные по РФ, а среднее между данными по РФ и данными по округу. И степень свободы тогда получается, что одна - всего две клеточки в таблице, два значения.
Я могу тебе продиктовать по шагам, что делать с этими округами - это совсем не сложно. Нужно посчитать среднее с учетом всех восьми - насколько я понимаю, это и есть показатель по РФ, если в него не входят какие-то еще данные. Потом для каждого из восьми значений надо получить разность между наблюдаемым (показатель для данного округа) и ожидаемым (показатель по РФ) и возвести эту разность в квадрат. Просуммировать полученные числа и разделить на показатель по РФ. Все, это и есть хи-квадрат. Осталось сравнить его с таблицей с учетом семи степеней свободы.
Книгу вышлю, только напиши мне, пожалуйста, адрес почты, я его не помню уже.
То есть, если судить только по этим четырем цифрам, разница несущественна.
Я тебе вчера пыталась послать эту книгу, и два раза почтовый сервер ее заворачивал. Попробую еще сегодня чуть попозже, если с яндекса не пройдет, то с рабочего адреса.
Единственное, что можно сказать - что центральный округ действительно гораздо меньше отличается, но это и так понятно.