Ничего, как-нибудь впоследствии я им тоже не пригожусь
Сейчас самое прекрасное время в году, но оно безнадежно испоганено подработкой. Пока я преподавала то, чем занимаюсь, все было более-менее, сейчас приходится вспоминать статистику (уууу,  Witch_Jane меня поймет - кросс-таблица и хи-квадрат) и работать с программой, которая сама по себе не нужна мне и нафиг, но студентам может понадобиться.
Со студентами несколько больше понимания, чем с прошлой группой, но все как-то бессмысленнее и бессмысленнее - я веду непрофильный предмет, который сама не люблю, с отвращением вызубриваю материалы к занятию, а они лениво решают задачки, по большей части, с таким же отвращением.
Осталось три занятия и зачет, с июля я свободна и больше в такое надеюсь не вляпаться, но пока не закончила - все мерзко и уныло и будет таковым, пока не. Поэтому здесь почти не пишу - полезной информации от меня сейчас ноль.

Комментарии
05.07.2011 в 13:31

Cor тоны ясные, ритмичные.
я опять ни фига не понимаю. Еще недавно мне казалось, что с хи-квадратом покончено. Теперь опять смотрю на него, как баран на новые ворота. :bricks:
05.07.2011 в 14:13

Ничего, как-нибудь впоследствии я им тоже не пригожусь
А что с хи-квадратом?
Есть две переменные, каждая из которых может принимать несколько значений и есть список данных, по которому каждый факт привязан к одному из них. Если переменные независимы, то для каждого значения одной из них значения второй будут распределяться в одинаковых пропорциях.
Если зависимы - есть перекос в одной или нескольких клетках построенной кросс-таблицы.
Степень этого перекоса, разницы между нулевой гипотезой и реальностью, и определяет значение хи-квадрата, хи-квадрат - это сумма относительных разностей между наблюдаемым и ожидаемым по всей таблице.
Естественно, чем больше в таблице клеток, тем больше будет это значение, отсюда пошло понятие степени свободы - оно зависит от количества клеток таблицы. А дальше - просто посмотреть значения и сравнить с максимальными для попадания в доверительный интервал.

Может, получилось непонятно, но это то, что выходит при пересказе своими словами.
05.07.2011 в 14:33

Cor тоны ясные, ритмичные.
Лукреция Я сейчас бодаюсь с достоверностью различий (пишем статью, а статистик в отпуске)
Есть некий показатель по округам: частота случаев патологии на 1000 осмотренных. Он колеблется в разных округах от 10,2 до 19,4. Округов 8.
Вот задача: показать, что есть различия и они достоверны. Пока писала, задалась вопросом: различия с чем? Получается, что мне надо каждый округ сравнивать поочередно с другими округами и говорить: в таком-то достоверно ниже, чем в других округах, в таком-то - достоверно выше, чем в других округах. Э?
05.07.2011 в 14:48

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane
По всей видимости, различия количества случаев патологии между округами.
Тогда получается, что количество строчек в таблице равно количеству округов (не помню сейчас, какая это будет степень свободы, но обычно таблица прямоугольная, а у тебя будет по одной стороне только одна клетка, но это, вроде, ни на что не влияет), столбец один, а разница между наблюдаемым и ожидаемым - это разница между значением по какому-либо округу и средним по всем округам.
Посчитать по формулам хи-квадрат эти приведенные средние, а дальше смотреть по общей формуле с учетом степеней свободы, является или не является различие значимым.
05.07.2011 в 15:42

Cor тоны ясные, ритмичные.
Лукреция Ага, сравнивать надо таки со общероссийским показателем. Я так и думала. Тогда для каждого субъекта - своя таблица, степеней свободы тогда 1=(2-1), вычисляем по формуле хи-квадрат, потом с помощью функции хи-распределение получаем р- уровень доверительной значимости. Если его значение стремиться к нулю (меньше 0,01) - значит разница достоверна с 99% вероятностью. Так? Если р=>0,05 или стремиться к единице - различий между общероссийским показателем и показателем по округу нет. Так?
05.07.2011 в 15:51

Cor тоны ясные, ритмичные.
Лукреция я тебя еще не достала? А в случае сравнения одного и того же показателя (частоты определенной патологии) за несколько лет, как быть в таком случае. Тоже высчитывать средний показатель за несколько лет и говорить, что в таком-то году данный показатель достоверно выше (или ниже) среднего показателя за истекший период (допустим, пять лет)????
05.07.2011 в 15:52

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Стоп. А почему для каждого своя? Таблица общая, восемь строк один столбец. Общероссийский показатель должен быть средним арифметическим между показателем по восьми регионам.
05.07.2011 в 15:54

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Восемь клеток, степеней свободы вроде семь.
05.07.2011 в 16:04

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Смотря что ты хочешь проверить.
Если тебе в принципе безразлично, как он менялся по времени, просто есть данные за несколько лет и непонятно, что с ними делать, но в итоге надо доказать, что есть явная разница по регионам - то взять для каждого региона среднее по времени и дальше работать с ними.

Если есть предположение, что вся эта картина еще и во времени меняется - то есть распределение неравномерно по регионам, и со временем эта неравномерность сдвигается, то, наверное, можно построить таблицу, чтобы, скажем, по строкам были регионы, по столбцам - время, и в каждой клеточке - частота по региону за год. Но в этом случае хи-квадрат будет показывать не на то, что случаи патологии появляются в разных регионах с разной частотой, а то, что случаи патологии в разных регионах по-разному меняются во времени, например, в одном их количество растет, в другом - падают. Но, насколько я понимаю, тебе это отслеживание динамики задачей не ставится.
05.07.2011 в 16:10

Cor тоны ясные, ритмичные.
Так, лезу в СПСС
05.07.2011 в 16:13

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Успехов :) если что - спрашивай еще, раньше мне было очень тяжело отвечать, т.к. надо было влезать в тему и что-то читать, теперь я поняла принцип, сама с ним поигралась и написала программульку, которая эти самые отклонения визуализирует в виде разноцветных шариков, поэтому принцип уже сидит в голове, подгружать не надо.
06.07.2011 в 14:54

Cor тоны ясные, ритмичные.
Лукреция продолжаем танцы с хи-квадратом. полезлав в СПСС, стало совсем дурно - выдает цифры, которые при ручном счете у меня вообще не получаются (Ручной счет - это в экселе по известным формулам). ПОлезла в инет, нашла вот это. Местами стало понятнее, местами - опять запуталась. Хи-квадрат сравнивает фактические частоты(что есть) с ожидаемыми(или что есть по РФ, в моем случае). Вот тут начинаются проблемы. В приведенном примере ожидаемые частоты приведены в гипотезе. А во всех учебниках, включая нежно любимый учебник Герасимова ожидаемые частоты вычисляются. вот тут я и не понимаю КАК.
06.07.2011 в 15:44

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Ты знаешь, похоже, приведенный пример немного не об этом.
Там другая нулевая гипотеза.

Что нужно сделать тебе?

Проверить, есть ли зависимость, или ее нет совсем. Нулевая гипотеза ( в твоем случае, и как это бывает обычно) - это предположение, что связи между значениями двух переменных нет. Связи нет, то есть нет статистически значимых различий. В твоем случае некоторые различия по регионам все-таки есть, и основная задача - выяснить, насколько они значимы, и можно ли их считать несущественной погрешностью.

Что нужно там?

Тамошняя нулевая гипотеза - это не отсутствия связи между признаками, а выполнение законов генетики. И разница считается между распределением по известному закону (ожидаемым) и наблюдаемым.

Насчет SPSS - а что именно ты в нем делала? Таблица сопряженности там строится, но она для тех случаев, когда есть наблюдения с указанием признака (например - Иванов из региона номер 2, патологии не выявлено, Сидоров из региона номер 1, патология выявлена, и таких наблюдений - целый файл), по такой таблице строится таблица сопряженности, в которой, соответственно, будет список регионов и количество патологий и непатологий в каждом. И оценка по хи-квадрату.

Показатели по регионам у тебя есть и так, по-моему, для восьми значений проще в экселе посчитать и не заморачиваться.
06.07.2011 в 15:47

Ничего, как-нибудь впоследствии я им тоже не пригожусь
С ожидаемой частотой для задачи с регионами должно быть совсем просто, для всех восьми ожидаемая частота - это среднее арифметическое между частотами по восемью регионам.
06.07.2011 в 16:10

Cor тоны ясные, ритмичные.
Лукреция СПСС я пока отставила в сторону, об этом я подумаю завтра(С), сейчас пробую перестроить таблицу именно так - фактическая частота - то что есть по регионам, ожидаемая - среднероссийский показатель. Щас вычислю и скажу что получилось.
06.07.2011 в 16:37

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Если хочешь, я тебе на почту могу прислать книгу по SPSS, там не только как с ним работать, но и на пальцах, на очень простых примерах объясняется, что такое таблица сопряженности и как считать ожидаемые частоты.
06.07.2011 в 16:42

Cor тоны ясные, ритмичные.
Лукреция спасибо. С одной стороны - по хорошему надо разобраться, с другой - сейчас мне надо решить конкретную задачу, я все силы хочу направить в это русло. С третьей - вышли пожалуйста, если не сложно, чтоб когда понадобиться - не терзаться "где ж я это видела?"
06.07.2011 в 16:50

Cor тоны ясные, ритмичные.
Лукреция вообщем, все равно меня смущают полученные результаты. Или я их не правильно интерпретирую.
Решила смотреть не все восемь округов сразу, а сравнить данные по одному округу с данными по РФ.
достигнутый уровень значимости (P) значительно меньше 0,001 (там вообще получилось что-то вроде 0,0000000000000000000). Не удивительно, поскольку хи квадрат равен 2716949,4 (исходные значения тоже весьма велики) при том что частота изучаемой патологии 13,3 на 1000 осмотренных и 14,9 на 1000 осмотренных (соответственно в 1 случае патологии -633, всего осмотрено - 47462, по РФ - патологии 41712, всего осмотрено - 2794196). Или мне с этим смириться и так и оценивать, или я что-то не так делаю.
06.07.2011 в 17:01

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane По-моему, тебе нужно именно почитать теорию и разобраться по шагам. Потому что у тебя есть данные, в которых ты разбираешься и есть метод, который ты тоже знаешь, но когда начинаешь применять метод к данным, действительно получается странно, то есть в какой-то момент выпадает звено в логической цепочке, ты механически подставляешь не то, и все результаты получаются тоже не те. Пока ты не можешь свободно применять метод к любой задаче, не получится применить и к задаче с округами. То есть, либо сидеть и учить статистику, либо просить все сделать кого-то другого.

Нельзя взять один округ и считать без изменений. То есть можно, но тогда придется немного переформулировать задачу - тогда ожидаемым значением будут не данные по РФ, а среднее между данными по РФ и данными по округу. И степень свободы тогда получается, что одна - всего две клеточки в таблице, два значения.

Я могу тебе продиктовать по шагам, что делать с этими округами - это совсем не сложно. Нужно посчитать среднее с учетом всех восьми - насколько я понимаю, это и есть показатель по РФ, если в него не входят какие-то еще данные. Потом для каждого из восьми значений надо получить разность между наблюдаемым (показатель для данного округа) и ожидаемым (показатель по РФ) и возвести эту разность в квадрат. Просуммировать полученные числа и разделить на показатель по РФ. Все, это и есть хи-квадрат. Осталось сравнить его с таблицей с учетом семи степеней свободы.

Книгу вышлю, только напиши мне, пожалуйста, адрес почты, я его не помню уже.
06.07.2011 в 17:11

Cor тоны ясные, ритмичные.
Спасибо. Я в случае - округ/РФ так и считала, что 1 степень свободы. адрес кину в у-мыл. по восьми территориям пошагово попробую сделать завтра. Точнее, сравнить, то, что уже получила я ранее с тем, что получиться при пошаговом выполнении твоих рекомендаций. По ощущениям - еще чуть-чуть, и оно щелкнет
06.07.2011 в 17:15

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Да, я попробовала посчитать различия между одним регионом и средним - получается, по региону 633 патологии на 47462 случая, это 1,33 процента, по РФ 41712 на 2794196 - 1,49 процентов, величина хи-квадрат получается где-то 10 в минус шестой степени, различия ничтожны, по таблице вероятность, что различия не существенны, больше 0,975.
То есть, если судить только по этим четырем цифрам, разница несущественна.
06.07.2011 в 17:22

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Успехов :) письмо сейчас отправлю.
06.07.2011 в 17:25

Cor тоны ясные, ритмичные.
ага, значит я просто не рпавильно оценивала разультат. Подумаю над этим. Спасибо!
06.07.2011 в 17:37

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane У тебя хи-квадрат получился огромным, а данные не очень различаются, что-то не так было в подсчетах явно.
07.07.2011 в 14:37

Cor тоны ясные, ритмичные.
Попробовала посчитать по твоей методе, действительно, цифры получаются совсем маленькими. Но я тут нашла один файл, мне его когда-то давала наша математик. вот там получается интересная вещь - во всех территориях, кроме ЦФО распространенность выбранной патологии отличается от общероссийских цифр, причем, судя по всему - различия достоверны. Я его тебе в почту кинула, если интересно - посмотри.
07.07.2011 в 14:53

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Хорошо, посмотрю, хотя что-то осмысленное смогу написать не сразу.
Я тебе вчера пыталась послать эту книгу, и два раза почтовый сервер ее заворачивал. Попробую еще сегодня чуть попозже, если с яндекса не пройдет, то с рабочего адреса.
07.07.2011 в 15:04

Cor тоны ясные, ритмичные.
Лукреция ага, я тестовое письмо видела.
07.07.2011 в 15:20

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Да, я посмотрела файл. Если честно, так и не поняла, что значит (a+b)(c+d)(a+c)(b+d) и прочие вычисления. В графе H вроде как вычисляется разница между наблюдаемым и ожидаемым, но почему оно вычисляется так, неясно. Я думала, что наблюдаемое - это значение количества патологий, ну, или их процент, но вот эти суммы в тупик меня ставят.
Единственное, что можно сказать - что центральный округ действительно гораздо меньше отличается, но это и так понятно.
08.07.2011 в 12:40

Cor тоны ясные, ритмичные.
понятно. Спасибо!
09.07.2011 в 20:22

Ничего, как-нибудь впоследствии я им тоже не пригожусь
Witch_Jane Я тебе книгу в понедельник с рабочего адреса пришлю, я про нее помню, но в четверг не успела - работала, а в пятницу, наоборот не работала и на работе не появлялась.

Расширенная форма

Редактировать

Подписаться на новые комментарии
Получать уведомления о новых комментариях на E-mail