какие выборки относятся к большим
Какие выборки относятся к большим
1. Задачи математической статистики.
4. Статистическое распределение выборки.
5. Эмпирическая функция распределения.
6. Полигон и гистограмма.
7. Числовые характеристики вариационного ряда.
8. Статистические оценки параметров распределения.
9. Интервальные оценки параметров распределения.
1. Задачи и методы математической статистики
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.
Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.
Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.
Генеральная совокупность – это совокупность объектов, из которой производится выборка.
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.
Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.
При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.
Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
На практике обычно пользуются бесповторным случайным отбором.
Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.
В американском журнале «Литературное обозрение» с помощью статистических методов было проведено исследование прогнозов относительно исхода предстоящих выборов президента США в 1936 году. Претендентами на этот пост были Ф.Д. Рузвельт и А. М. Ландон. В качестве источника для генеральной совокупности исследуемых американцев были взяты справочники телефонных абонентов. Из них случайным образом были выбраны 4 миллиона адресов., по которым редакция журнала разослала открытки с просьбой высказать свое отношение к кандидатам на пост президента. Обработав результаты опроса, журнал опубликовал социологический прогноз о том, что на предстоящих выборах с большим перевесом победит Ландон. И … ошибся: победу одержал Рузвельт.
Этот пример можно рассматривать, как пример нерепрезентативной выборки. Дело в том, что в США в первой половине двадцатого века телефоны имела лишь зажиточная часть населения, которые поддерживали взгляды Ландона.
На практике применяются различные способы отбора, которые можно разделить на 2 вида:
1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).
2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).
Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).
Типичным называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типичной» части. Например, если деталь изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Таким отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных «типичных» частях генеральной совокупности.
Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-ую деталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д. Иногда такой отбор может не обеспечивать репрезентативность выборки (если отбирают каждый 20-ый обтачиваемый валик, причем сразу же после отбора производится замена резца, то отобранными окажутся все валики, обточенные затупленными резцами).
Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергают сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.
На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.
4. Статистическое распределение выборки
Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)
Точечный вариационный ряд частот может быть представлен таблицей:
Выборка. Типы выборок
Чтобы получить точные данные о какой-либо группе людей, кажется логичным опросить эту группу целиком. Но что, если интересующая нас группа слишком велика и опросить всех невозможно?
Например, если опрашивалось определенное количество читателей библиотеки, то данные, полученные в результате опроса, отражают мнение всех читателей библиотеки.
Свойство выборки корректно отражать генеральную совокупность называется репрезентативностью. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Например, выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. В то же время, указанная выборка (при соблюдении прочих условий) может отлично репрезентировать москвичей-автовладельцев.
Выборка должна быть настолько большой, насколько это возможно, чтобы избежать ошибочных суждений. Если выборка недостаточно репрезентативна — исследование получит системное смещение, которое, как правило, очень сложно оценить. Если она будет недостаточно большой — неточным.
Выборки делятся на два типа:
— вероятностные
— невероятностные
1. Вероятностные выборки
1.1 Случайная выборка
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. Для выбора респондентов используется таблица или генератор случайных чисел. После такого выбора можно связаться и попросить у людей выборочной совокупности давать интервью или участвовать в опросе.
Такой метод наиболее наглядно характеризует параметры генеральной совокупности и имеет узкий доверительный интервал. Однако практическое применение этого метода не всегда представляется возможным или является дорогостоящим.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент.
Например, нам нужна случайная выборка из 100 элементов из генеральной совокупности с 1000 элементами.
берем n=10, так как 1000/100=10
находим случайное число между 1 и 10
включаем это и каждое 10-е последующее число
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом. Для людей, это может быть пол или возраст, для страны этнические группы, для больниц их профиль и т.д.
1.4 Кластерная выборка
При кластерной выборке случайным образом выбирается одна из заранее известных групп. То есть используется уже существующая группировка. Затем внутри этой группы случайным образом берется подмножество элементов или ведется сплошное расследование. Примером такой выборки могут быть все дома и квартиры расположенные в районе одного почтового отделения или в одном квартале.
1.5 Серийная выборка
При серийной выборке группы интереса выбираются случайным образом из равновеликих групп. Это может быть подобно кластерной выборке. Но внутри группы ведется сплошное расследование. Например, для выявления процента брака случайным образом выбирается одна из больших коробок из партии товара, и проверяются все образцы из этой коробки.
2. Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей). Для каждой группы задается количество объектов, которые должны быть обследованы. Внутри групп объекты отбираются произвольно.
На примере торгового центра можно одного интервьюера «закрепить» за магазином дорогой одежды или аксессуаров, другого поставить около магазина детской одежды, третьего в магазине бытовой техники, а четвертого интервьюера где-то около магазина продающего продукцию масс-маркет.
2.2. Метод снежного кома
У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов. К ним относятся люди определенных социальных слоев, имеющих высокий доход, профессионалов в определенной области, или люди, имеющие схожие увлечения.
2.3 Стихийная выборка
Примером этой выборки может стать опрос в газете, анкеты, выданные на кассе магазина или интернет-опрос. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов. Такая выборка сильно ограничена в плане репрезентативности, потому что таким образом можно довольствоваться частичной аудиторией данного издания или сайта.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.
1. Выборки бывают вероятностные и невероятностные.
2. Если неправильно выбран метод отбора в выборку, исследование получит систематическое смещение, результаты которого будет невозможно оценить.
3. Лучше быть возможно правым, чем точно не правым.
Выборка. Типы выборок
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей
Оглавление
Генеральная совокупность
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей
Выборка (Выборочная совокупность)
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.
Репрезентативность выборки
Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.
Основные статистические параметры большой и малой выборочной совокупности и их характеристика
При изучении изменчивости выделяют признаки количественные и качественные, изучением которых занимается вариационная статистика в основе которой лежит теория вероятности. Вероятность указывает возможную частоту встречи особи с тем или иным признаком. P=m/n, где m-число особей с данной величиной признака; n-число всех особей в группе. Вероятность колеблется от 0 до 1 ( например вероятность равна 0,02- появление двойни в стаде, т.е. значит на 100 отёлов появится две двойни). Таким образом объектом изучения биометрии является варьирующий признак, изучение которого осуществляется на определённой группе объектов т.е. совокупности. Различают генеральную и выборочную совокупность. Генеральная совокупность это многочисленная группа особей, которая нас интересует по изучаемому признаку. В генеральную совокупность может входить вид животных, породы одного и того же вида. В генеральную совокупность (породу) входит несколько миллионов животных. В тоже время порода расходится на много совокупностей т.е. стада отдельных хозяйств. Так как генеральная совокупность состоит из большого числа особей, то изучить её технически сложно. Поэтому изучают не всю генеральную совокупность, а только её часть, которая называется выборной или выборочной совокупностью.
По выборочной совокупности делают суждение о всей генеральной совокупности в целом. Выборка должна осуществляться по всем правилам, куда должны входить особи со всеми значениями варьирующего признака. Отбор особей из генеральной совокупности осуществляется по принципу случайности или методом жеребьёвки. В биометрии выделяют два типа случайной выборки: большая и малая. Большой выборкой называют такую, куда входит больше 30 особей или наблюдений, а малой выборкой меньше 30 особей. Для большой и малой выборочной совокупности существуют различные методы обработки данных. Источником статистической информации могут служить данные зоотехнического и ветеринарного учёта, где даётся информация о каждом животном от рождения до его выбытия. Другим источником информации могут служить данные научно-производственных опытов, проводимые на ограниченном числе животных. После того как получена выборочная совокупность приступают к её обработке. Это позволяет получить в виде математических величин ряд статистических величин или коэффициентов, которые характеризуют признаки интересующих групп животных.
Биометрическим методом получают следующие статистические параметры или показатели:
1. Средние величины варьирующего признака (средняя арифметическая величина, мода, медиана, средняя геометрическая величина).
2. Коэффициенты, измеряющие величину варьирования т.е. (изменчивости) изучаемого признака (среднее квадратическое отклонение, коэффициент вариации).
3. Коэффициенты, измеряющие величину связи между признаками (коэффициент корреляции, регрессии и корреляционное отношение).
4. Статистические ошибки и достоверность получаемых статистических данных.
5. Долю варьирования возникающая под действием различных факторов и другие показатели, которые связаны с изучением генетических и селекционных проблем.
При статистической обработке выборки члены совокупности организуются в виде вариационного ряда. Вариационным рядом называется группировка особей на классы в зависимости от величины изучаемого признака. Вариационный ряд состоит из двух элементов: из классов и ряда частот. Вариационный ряд может быть прерывистым и непрерывным. Признаки, которые могут принимать только целое число называют прерывистым числом голов, число яиц, число поросят и другие. Признаки, которые могут выражаться дробными числами называются непрерывистыми (рост см, удой кг, % жира, живая масса и другие).
При построении вариационного ряда придерживаются следующих принципов или правил:
1. Определяют или подсчитывают количество особей для которых будет построен вариационный ряд (n).
2. Находят мах и min величину изучаемого признака.
4. Строят классы и определяют границу каждого класса, min+К.
5. Делают разноску членов совокупности по классам.
После построения классов и распределения особей по классам вычисляют основные показатели вариационного ряда (Х, σ, Cv, Mх, Мσ, Мcv). Наибольшее значение при характеристике совокупности получила средняя величина признака. При решении всех зоотехнических, ветеринарных, медицинских, экономических и других задач всегда определяют среднюю величину признака (средний удой по стаду, % жира, плодовитость в свиноводстве, яйценоскость у кур и другие признаки). В число параметров, характеризующих среднее значение признака входят следующие:
1. Средняя арифметическая величина.
2. Средне взвешенная арифметическая.
3. Средняя геометрическая.
5. Медиана (Ме) и другие параметры.
Средняя арифметическая величина показывает нам какую величину признаков имели особи данной группы, если он был одинаков для всех, и определяется по формуле Х=А+в× К
Основным свойством средней арифметической величины является то, что она как бы устраняет варьирование признака и делает его общим для всей совокупности. В тоже время необходимо отметить, что средняя арифметическая величина принимает абстрактное значение, т.е. при её вычислении получают дробные показатели, в действительности которых может и не быть. Например: выход телят на 100 коров-85,3 телёнка, плодовитость свиноматок 11,8 поросят, яйценоскость кур 252,4 яйца и другие показатели.
Значение средней арифметической величины очень велико в практике животноводства и характеристики популяции. В практике животноводства в частности скотоводства используют средне взвешенную арифметическую величину при определении среднего содержания жира в молоке за лактацию.
Средняя геометрическая величина вычисляется в том случае, если необходимо характеризовать темп роста, темп увеличения популяции, когда средняя арифметическая величина искажает данные.
Модой называют чаще всего встречающуюся величину варьирующего признака, как количественного, так и качественного. Модальным числом у коровы является число сосков-4. Хотя встречаются коровы с пятью, шестью сосками. В вариационном ряду модальным классом будет тот класс, где имеется наибольшее количество частот и мы его определяем как нулевой класс.
Медианой называется варианта, которая делит всех членов совокупности на две равные части. Половина членов совокупности будет иметь величину варьирующего признака меньше медианы, а другая больше медианы (например: стандарт породы). Медиана чаще всего используется для характеристики качественных признаков. Например: форма вымени чашеобразная, округлая, козье. При правильной выборке вариант все три показателя должны быть одинаковы (т.е. Х, Мо, Ме). Таким образом первой характеристикой совокупности служат средние величины, однако для суждения о совокупности их недостаточно.
Вторым важным показателем любой совокупности является изменчивость или вариабильность признака. Изменчивость признака обуславливается многими факторами внешней среды и внутренними факторами т.е. наследственными факторами.
Определение изменчивости признака имеет большое значение, как в биологии, так и в практике животноводства. Так с помощью статистических параметров измеряющих степень изменчивости признака можно установить породные различия в степени изменчивости различных хозяйственно-полезных признаков, прогнозировать уровень отбора в различных группах животных, а также его эффективность.
Современное состояние статистического анализа позволяет не только устанавливать степень проявления фенотипической изменчивости, но и разделить фенотипическую изменчивость на составляющие её типы, а именно на генотипическую и паратипическую изменчивость. Это разложение изменчивости делается с помощью дисперсионного анализа.
Основными показателями изменчивости служат следующие статистические величины:
2. Среднее квадратическое отклонение (σ);
3. Коэффициент изменчивости или вариации (Сv).
Наиболее простой способ представить величину изменчивости признака помогают нам лимиты. Лимиты определяются следующим образом: разница между мах и min значением признака. Чем больше эта разница, тем больше изменчивость этого признака. Основным параметром измерения изменчивости признака служит среднее квадратическое отклонение или (σ) и определяется по формуле:
Основными свойствами среднего квадратического отклонения т.е. (σ) являются следующие:
1. Сигма всегда величина именованная и выражается ( в кг, г, метрах, см, шт.).
2. Сигма всегда величина положительная.
3. Чем больше величина σ, тем больше изменчивость признака.
4. В вариационном ряду все частоты вкладываются в ±3σ.
С помощью среднего квадратического отклонения можно определить к какому вариационному ряду относится данная особь. Методы определения изменчивости признака с помощью лимитов и среднего квадратического отклонения имеют свои недостатки, так как сопоставить разноимённые признаки по величине изменчивости невозможно. Необходимо знать изменчивость разных признаков у одного и того же животного или одной и той же группы животных, например: изменчивость удоя, содержания жира в молоке, живой массы, количества молочного жира. Поэтому сопоставляя изменчивость разноимённых признаков и выявляя степень их изменчивости рассчитывают коэффициент изменчивости по следующей формуле:
Таким образом, основными методами оценки изменчивости признаков у членов совокупности являются: лимиты; среднее квадратическое отклонение (σ) и коэффициент вариации или изменчивости.
В практике животноводства и экспериментальных исследованиях очень часто приходится иметь дело с малыми выборками. Малой выборкой называют число особей или животных не превышающее 30 или меньше 30. Установленные закономерности с помощью малой выборки переносятся на всю генеральную совокупность. У малой выборки определяют те же самые статистические параметры, что и у большой выборочной совокупности (Х, σ, Cv, Mx). Однако формулы и расчёты их отличаются от большой выборки (т.е. от формул и расчётов вариационного ряда).
1. Средняя арифметическая величина Х = ∑V
V- абсолютное значение варианты или признака;
n- число вариант или число особей.
2. Среднее квадратическое отклонение σ = ± √∑α 2
Контрольные вопросы:
1.Что такое биометрия?
2.Какие статистические параметры характеризуют совокупность?
3.Какие показатели характеризуют изменчивость?
4.Что такое малая выборка
5. Что такое мода и медиана?
Лекция № 12
Биотехнология и трансплантация эмбрионов
1. Понятие о биотехнологии.
2. Отбор коров- доноров и реципиентов, трансплантация эмбрионов.
3. Значение трансплантации в животноводстве.