Среднепромежуточное — @дневники: асоциальная сеть

пятница, 20 мая 2011

13:11

Среднепромежуточное

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Сейчас самое прекрасное время в году, но оно безнадежно испоганено подработкой. Пока я преподавала то, чем занимаюсь, все было более-менее, сейчас приходится вспоминать статистику (уууу, Witch_Jane меня поймет - кросс-таблица и хи-квадрат) и работать с программой, которая сама по себе не нужна мне и нафиг, но студентам может понадобиться.
Со студентами несколько больше понимания, чем с прошлой группой, но все как-то бессмысленнее и бессмысленнее - я веду непрофильный предмет, который сама не люблю, с отвращением вызубриваю материалы к занятию, а они лениво решают задачки, по большей части, с таким же отвращением.
Осталось три занятия и зачет, с июля я свободна и больше в такое надеюсь не вляпаться, но пока не закончила - все мерзко и уныло и будет таковым, пока не. Поэтому здесь почти не пишу - полезной информации от меня сейчас ноль.

URL

Поделиться

Я тут проверяю задания на курсах эсперанто (http://www.ik... После ремонта открылся бассейн в Лесных Далях, ура! На... Хорошо быть не фанатом. Больные это люди. Самое страшное ...

на моем мониторе мелькают тени листьев, вроде бы меня э... Тихий зимний вечер. На улице медленно падали искрящиеся п... Ши:Зачёт провален, т.к. И.Н.К. решила в последний момент ...

Комментарии

05.07.2011 в 13:31

Cor тоны ясные, ритмичные.

я опять ни фига не понимаю. Еще недавно мне казалось, что с хи-квадратом покончено. Теперь опять смотрю на него, как баран на новые ворота. :bricks:

:bricks:

URL

05.07.2011 в 14:13

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

А что с хи-квадратом?
Есть две переменные, каждая из которых может принимать несколько значений и есть список данных, по которому каждый факт привязан к одному из них. Если переменные независимы, то для каждого значения одной из них значения второй будут распределяться в одинаковых пропорциях.
Если зависимы - есть перекос в одной или нескольких клетках построенной кросс-таблицы.
Степень этого перекоса, разницы между нулевой гипотезой и реальностью, и определяет значение хи-квадрата, хи-квадрат - это сумма относительных разностей между наблюдаемым и ожидаемым по всей таблице.
Естественно, чем больше в таблице клеток, тем больше будет это значение, отсюда пошло понятие степени свободы - оно зависит от количества клеток таблицы. А дальше - просто посмотреть значения и сравнить с максимальными для попадания в доверительный интервал.

Может, получилось непонятно, но это то, что выходит при пересказе своими словами.

URL

05.07.2011 в 14:33

Cor тоны ясные, ритмичные.

Лукреция Я сейчас бодаюсь с достоверностью различий (пишем статью, а статистик в отпуске)
Есть некий показатель по округам: частота случаев патологии на 1000 осмотренных. Он колеблется в разных округах от 10,2 до 19,4. Округов 8.
Вот задача: показать, что есть различия и они достоверны. Пока писала, задалась вопросом: различия с чем? Получается, что мне надо каждый округ сравнивать поочередно с другими округами и говорить: в таком-то достоверно ниже, чем в других округах, в таком-то - достоверно выше, чем в других округах. Э?

URL

05.07.2011 в 14:48

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane
По всей видимости, различия количества случаев патологии между округами.
Тогда получается, что количество строчек в таблице равно количеству округов (не помню сейчас, какая это будет степень свободы, но обычно таблица прямоугольная, а у тебя будет по одной стороне только одна клетка, но это, вроде, ни на что не влияет), столбец один, а разница между наблюдаемым и ожидаемым - это разница между значением по какому-либо округу и средним по всем округам.
Посчитать по формулам хи-квадрат эти приведенные средние, а дальше смотреть по общей формуле с учетом степеней свободы, является или не является различие значимым.

URL

05.07.2011 в 15:42

Cor тоны ясные, ритмичные.

Лукреция Ага, сравнивать надо таки со общероссийским показателем. Я так и думала. Тогда для каждого субъекта - своя таблица, степеней свободы тогда 1=(2-1), вычисляем по формуле хи-квадрат, потом с помощью функции хи-распределение получаем р- уровень доверительной значимости. Если его значение стремиться к нулю (меньше 0,01) - значит разница достоверна с 99% вероятностью. Так? Если р=>0,05 или стремиться к единице - различий между общероссийским показателем и показателем по округу нет. Так?

URL

05.07.2011 в 15:51

Cor тоны ясные, ритмичные.

Лукреция я тебя еще не достала? А в случае сравнения одного и того же показателя (частоты определенной патологии) за несколько лет, как быть в таком случае. Тоже высчитывать средний показатель за несколько лет и говорить, что в таком-то году данный показатель достоверно выше (или ниже) среднего показателя за истекший период (допустим, пять лет)????

URL

05.07.2011 в 15:52

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Стоп. А почему для каждого своя? Таблица общая, восемь строк один столбец. Общероссийский показатель должен быть средним арифметическим между показателем по восьми регионам.

URL

05.07.2011 в 15:54

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Восемь клеток, степеней свободы вроде семь.

URL

05.07.2011 в 16:04

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Смотря что ты хочешь проверить.
Если тебе в принципе безразлично, как он менялся по времени, просто есть данные за несколько лет и непонятно, что с ними делать, но в итоге надо доказать, что есть явная разница по регионам - то взять для каждого региона среднее по времени и дальше работать с ними.

Если есть предположение, что вся эта картина еще и во времени меняется - то есть распределение неравномерно по регионам, и со временем эта неравномерность сдвигается, то, наверное, можно построить таблицу, чтобы, скажем, по строкам были регионы, по столбцам - время, и в каждой клеточке - частота по региону за год. Но в этом случае хи-квадрат будет показывать не на то, что случаи патологии появляются в разных регионах с разной частотой, а то, что случаи патологии в разных регионах по-разному меняются во времени, например, в одном их количество растет, в другом - падают. Но, насколько я понимаю, тебе это отслеживание динамики задачей не ставится.

URL

05.07.2011 в 16:10

Cor тоны ясные, ритмичные.

Так, лезу в СПСС

URL

05.07.2011 в 16:13

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Успехов

если что - спрашивай еще, раньше мне было очень тяжело отвечать, т.к. надо было влезать в тему и что-то читать, теперь я поняла принцип, сама с ним поигралась и написала программульку, которая эти самые отклонения визуализирует в виде разноцветных шариков, поэтому принцип уже сидит в голове, подгружать не надо.

URL

06.07.2011 в 14:54

Cor тоны ясные, ритмичные.

Лукреция продолжаем танцы с хи-квадратом. полезлав в СПСС, стало совсем дурно - выдает цифры, которые при ручном счете у меня вообще не получаются (Ручной счет - это в экселе по известным формулам). ПОлезла в инет, нашла вот это. Местами стало понятнее, местами - опять запуталась. Хи-квадрат сравнивает фактические частоты(что есть) с ожидаемыми(или что есть по РФ, в моем случае). Вот тут начинаются проблемы. В приведенном примере ожидаемые частоты приведены в гипотезе. А во всех учебниках, включая нежно любимый учебник Герасимова ожидаемые частоты вычисляются. вот тут я и не понимаю КАК.

URL

06.07.2011 в 15:44

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Ты знаешь, похоже, приведенный пример немного не об этом.
Там другая нулевая гипотеза.

Что нужно сделать тебе?

Проверить, есть ли зависимость, или ее нет совсем. Нулевая гипотеза ( в твоем случае, и как это бывает обычно) - это предположение, что связи между значениями двух переменных нет. Связи нет, то есть нет статистически значимых различий. В твоем случае некоторые различия по регионам все-таки есть, и основная задача - выяснить, насколько они значимы, и можно ли их считать несущественной погрешностью.

Что нужно там?

Тамошняя нулевая гипотеза - это не отсутствия связи между признаками, а выполнение законов генетики. И разница считается между распределением по известному закону (ожидаемым) и наблюдаемым.

Насчет SPSS - а что именно ты в нем делала? Таблица сопряженности там строится, но она для тех случаев, когда есть наблюдения с указанием признака (например - Иванов из региона номер 2, патологии не выявлено, Сидоров из региона номер 1, патология выявлена, и таких наблюдений - целый файл), по такой таблице строится таблица сопряженности, в которой, соответственно, будет список регионов и количество патологий и непатологий в каждом. И оценка по хи-квадрату.

Показатели по регионам у тебя есть и так, по-моему, для восьми значений проще в экселе посчитать и не заморачиваться.

URL

06.07.2011 в 15:47

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

С ожидаемой частотой для задачи с регионами должно быть совсем просто, для всех восьми ожидаемая частота - это среднее арифметическое между частотами по восемью регионам.

URL

06.07.2011 в 16:10

Cor тоны ясные, ритмичные.

Лукреция СПСС я пока отставила в сторону, об этом я подумаю завтра(С), сейчас пробую перестроить таблицу именно так - фактическая частота - то что есть по регионам, ожидаемая - среднероссийский показатель. Щас вычислю и скажу что получилось.

URL

06.07.2011 в 16:37

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Если хочешь, я тебе на почту могу прислать книгу по SPSS, там не только как с ним работать, но и на пальцах, на очень простых примерах объясняется, что такое таблица сопряженности и как считать ожидаемые частоты.

URL

06.07.2011 в 16:42

Cor тоны ясные, ритмичные.

Лукреция спасибо. С одной стороны - по хорошему надо разобраться, с другой - сейчас мне надо решить конкретную задачу, я все силы хочу направить в это русло. С третьей - вышли пожалуйста, если не сложно, чтоб когда понадобиться - не терзаться "где ж я это видела?"

URL

06.07.2011 в 16:50

Cor тоны ясные, ритмичные.

Лукреция вообщем, все равно меня смущают полученные результаты. Или я их не правильно интерпретирую.
Решила смотреть не все восемь округов сразу, а сравнить данные по одному округу с данными по РФ.
достигнутый уровень значимости (P) значительно меньше 0,001 (там вообще получилось что-то вроде 0,0000000000000000000). Не удивительно, поскольку хи квадрат равен 2716949,4 (исходные значения тоже весьма велики) при том что частота изучаемой патологии 13,3 на 1000 осмотренных и 14,9 на 1000 осмотренных (соответственно в 1 случае патологии -633, всего осмотрено - 47462, по РФ - патологии 41712, всего осмотрено - 2794196). Или мне с этим смириться и так и оценивать, или я что-то не так делаю.

URL

06.07.2011 в 17:01

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane По-моему, тебе нужно именно почитать теорию и разобраться по шагам. Потому что у тебя есть данные, в которых ты разбираешься и есть метод, который ты тоже знаешь, но когда начинаешь применять метод к данным, действительно получается странно, то есть в какой-то момент выпадает звено в логической цепочке, ты механически подставляешь не то, и все результаты получаются тоже не те. Пока ты не можешь свободно применять метод к любой задаче, не получится применить и к задаче с округами. То есть, либо сидеть и учить статистику, либо просить все сделать кого-то другого.

Нельзя взять один округ и считать без изменений. То есть можно, но тогда придется немного переформулировать задачу - тогда ожидаемым значением будут не данные по РФ, а среднее между данными по РФ и данными по округу. И степень свободы тогда получается, что одна - всего две клеточки в таблице, два значения.

Я могу тебе продиктовать по шагам, что делать с этими округами - это совсем не сложно. Нужно посчитать среднее с учетом всех восьми - насколько я понимаю, это и есть показатель по РФ, если в него не входят какие-то еще данные. Потом для каждого из восьми значений надо получить разность между наблюдаемым (показатель для данного округа) и ожидаемым (показатель по РФ) и возвести эту разность в квадрат. Просуммировать полученные числа и разделить на показатель по РФ. Все, это и есть хи-квадрат. Осталось сравнить его с таблицей с учетом семи степеней свободы.

Книгу вышлю, только напиши мне, пожалуйста, адрес почты, я его не помню уже.

URL

06.07.2011 в 17:11

Cor тоны ясные, ритмичные.

Спасибо. Я в случае - округ/РФ так и считала, что 1 степень свободы. адрес кину в у-мыл. по восьми территориям пошагово попробую сделать завтра. Точнее, сравнить, то, что уже получила я ранее с тем, что получиться при пошаговом выполнении твоих рекомендаций. По ощущениям - еще чуть-чуть, и оно щелкнет

URL

06.07.2011 в 17:15

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Да, я попробовала посчитать различия между одним регионом и средним - получается, по региону 633 патологии на 47462 случая, это 1,33 процента, по РФ 41712 на 2794196 - 1,49 процентов, величина хи-квадрат получается где-то 10 в минус шестой степени, различия ничтожны, по таблице вероятность, что различия не существенны, больше 0,975.
То есть, если судить только по этим четырем цифрам, разница несущественна.

URL

06.07.2011 в 17:22

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Успехов

письмо сейчас отправлю.

URL

06.07.2011 в 17:25

Cor тоны ясные, ритмичные.

ага, значит я просто не рпавильно оценивала разультат. Подумаю над этим. Спасибо!

URL

06.07.2011 в 17:37

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane У тебя хи-квадрат получился огромным, а данные не очень различаются, что-то не так было в подсчетах явно.

URL

07.07.2011 в 14:37

Cor тоны ясные, ритмичные.

Попробовала посчитать по твоей методе, действительно, цифры получаются совсем маленькими. Но я тут нашла один файл, мне его когда-то давала наша математик. вот там получается интересная вещь - во всех территориях, кроме ЦФО распространенность выбранной патологии отличается от общероссийских цифр, причем, судя по всему - различия достоверны. Я его тебе в почту кинула, если интересно - посмотри.

URL

07.07.2011 в 14:53

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Хорошо, посмотрю, хотя что-то осмысленное смогу написать не сразу.
Я тебе вчера пыталась послать эту книгу, и два раза почтовый сервер ее заворачивал. Попробую еще сегодня чуть попозже, если с яндекса не пройдет, то с рабочего адреса.

URL

07.07.2011 в 15:04

Cor тоны ясные, ритмичные.

Лукреция ага, я тестовое письмо видела.

URL

07.07.2011 в 15:20

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Да, я посмотрела файл. Если честно, так и не поняла, что значит (a+b)(c+d)(a+c)(b+d) и прочие вычисления. В графе H вроде как вычисляется разница между наблюдаемым и ожидаемым, но почему оно вычисляется так, неясно. Я думала, что наблюдаемое - это значение количества патологий, ну, или их процент, но вот эти суммы в тупик меня ставят.
Единственное, что можно сказать - что центральный округ действительно гораздо меньше отличается, но это и так понятно.

URL

08.07.2011 в 12:40

Cor тоны ясные, ритмичные.

понятно. Спасибо!

URL

09.07.2011 в 20:22

Лукреция

Ничего, как-нибудь впоследствии я им тоже не пригожусь

Witch_Jane Я тебе книгу в понедельник с рабочего адреса пришлю, я про нее помню, но в четверг не успела - работала, а в пятницу, наоборот не работала и на работе не появлялась.

URL

1 2 Следующая → Последняя

Добавить комментарий

Расширенная форма

Редактировать

Использовать аватар

Изображения

Подписаться на новые комментарии

Получать уведомления о новых комментариях на E-mail