Назад

Купить и читать книгу за 144 руб.

Вы читаете ознакомительный отрывок. Если книга вам понравилась, вы можете купить полную версию и продолжить читать

Статистика: учебное пособие

   В пособии рассматриваются вопросы, посвященные применению статистических методов в статике и динамике, а также их комплексное применение в различных сочетаниях при изучении макроэкономических показателей, рассматривается методология и построение показателей социально-экономической статистики с учетом международных стандартов. Отдельное внимание уделяется прикладным статистическим методам.
   Учебное пособие предназначено для студентов, аспирантов и преподавателей экономических вузов.


Римма Прокопьевна Рудакова, Виктор Иванович Гаврилов, Леонид Леонидович Букин Статистика: учебное пособие

Предисловие

   Становление рыночных отношений в экономике России изменило и статистическую систему: внедряется система национальных счетов, создана качественно новая статистика цен, труда и занятости, бюджетная и банковская статистика и т. д. Изменилась и методика статистического учета: на смену сплошному статистическому наблюдению пришло несплошное, с применением оценочных досчетов.
   Несмотря на разнообразие сфер применения статистики, имеются общие методы статистической обработки информации. Статистика имеет дело с числовой информацией, с большими и малыми выборками, с различного рода вычислениями, которые целесообразно производить с применением средств вычислительной техники. Изучающим статистику целесообразно сначала освоить приемы и методы, присущие общей теории статистики, а затем ознакомиться с их комплексным применением с целью более углубленного анализа изучаемых экономических процессов.
   В предлагаемом учебном пособии в разделе I рассматриваются вопросы целесообразности и последовательности применения статистических методов в статике (в пространстве). Этому посвящена глава 1. Затем рассматривается целесообразность и последовательность применения статистических методов в динамике – глава 2. В главе 3 анализируются вопросы комплексного применения статистических методов в различных их сочетаниях. Так, применяя индексный метод в сочетании с аналитическим выравниванием, исследователь может выявить влияние на результат управляемых (выразившихся в трендовых значениях) и неуправляемых факторов (выразившихся в колеблемости относительно тренда). При сочетании же индексного метода с регрессионными моделями удается выявить не только влияние на изменение результата размеров каждого из факторов, но и эффективность использования каждого из них.
   Такого рода углубленный анализ позволяет производить и более достоверный прогноз, что весьма важно не только при прогнозировании макроэкономических показателей, но и на уровне отдельного предприятия. Без предвидения управление любыми процессами, особенно экономическими, – невозможно. Каждый специалист, менеджер любого звена управления должен владеть навыками прогнозирования. Помочь решению этой задачи и призван данный учебник, который является более углубленным курсом статистики, включающим и элементы эконометрики.
   Раздел II посвящен вопросам социально-экономической статистики с учетом перехода к использованию в статистике международных стандартов, что позволяет применять в статистике показатели, которые предназначены для анализа рыночной экономики, и обеспечивает международную сопоставимость данных. В учебном пособии рассмотрена система национальных счетов, статистика результатов развития экономической деятельности, статистика уровня жизни населения и демографическая ситуация в стране, статистика занятости и безработицы, финансов предприятий и кредитно-денежной системы, статистика ценных бумаг. Отдельные главы посвящены изучению факторов производства: статистика основного и оборотного капитала; статистика трудовых ресурсов, а также статистика издержек производства и обращения на предприятиях.
   Учебное пособие подготовлено на основе курса лекций, читаемых в Ленинградском государственном университете им. А. С. Пушкина. Данный курс был прочитан на курсах ООН в Ташкенте и заслужил высокую оценку специалистов по статистике более чем из 40 стран, повышавших на этих курсах свою квалификацию.
   Авторы благодарят за тщательное рецензирование рукописи и ценные замечания доктора экономических наук, профессора М. М. Юзбашева и доктора экономических наук, профессора ЛГУ им. А. С. Пушкина Н. М. Космачеву, а также за помощь в подготовке учебного пособия к печати А. Н. Рудакова и Е. А. Мещерякову.

Раздел I
ОБЩАЯ ТЕОРИЯ СТАТИСТИКИ

Глава 1
ЦЕЛЕСООБРАЗНОСТЬ И ПОСЛЕДОВАТЕЛЬНОСТЬ ПРИМЕНЕНИЯ СТАТИСТИЧЕСКИХ МЕТОДОВ ПРИ АНАЛИЗЕ СТАТИЧЕСКИХ ПРОЦЕССОВ И ЯВЛЕНИЙ

1.1. Методы исследования однородности изучаемого объекта и типологическая группировка

   Одной из отличительных черт бурного развития науки является широкое применение статистических методов и вычислительной техники в освоении информации. В настоящее время невозможно представить себе дисциплину, которая не пользовалась бы в процессе познания методами численного выражения закономерностей, связей, зависимости, измерения тенденции и т. д. Это, в частности, относится и к экономическим наукам.
   В статистической литературе большое внимание уделяется изучению и применению отдельных статистических методов и приемов, но совсем недостаточно освещены вопросы целесообразности и последовательности использования того или иного статистического метода, их комплексного применения, сочетания различных методов. Абсолютизация того или иного метода исследования ничего, кроме вреда, не приносит. Только сочетание различных методов может дать заметный эффект. Именно с этих позиций и нужно оценивать роль и место статистического моделирования в системе познания различных процессов и явлений. В данной работе предпринята попытка систематизировать методику комплексного применения статистических методов в экономических исследованиях, рассмотрена целесообразность и последовательность использования статических методов и приемов при анализе статических и динамических процессов.
   Первым этапом исследования является накопление (сбор) необходимых сведений об изучаемом объекте. Если наблюдений не очень много, то можно провести упорядочение, расположив их в порядке возрастания или убывания, т. е. построить ранжированные ряды. Если же наблюдений много, то приходится прибегать к их группировке. Статистические ряды носят самый разнообразный характер, имеют различное назначение и в разных целях могут использоваться в экономическом анализе. Одни статистические ряды являются вариационными рядами распределения. Эти ряды показывают распределение единиц изучаемой совокупности по отдельным группам, выделенным по какому-либо признаку. Другой разновидностью статистических рядов является последовательность чисел, отражающих величину того или иного показателя во времени. Это так называемые ряды динамики. Они позволяют анализировать изменение любых явлений во времени, об этом речь пойдет позже. Не умаляя значения временных рядов, следует отметить, что вариационным рядам распределения в статистическом анализе принадлежит особое место, ибо только при помощи распределения сложных совокупностей на качественно однородные группы можно изучать их структуру, соотношение между частями целого и т. п., без чего немыслим никакой экономический анализ. Ряды распределения могут строиться по качественным (атрибутивным) и по количественным признакам, по одному признаку и по нескольким, предоставляя тем самым широкие возможности исследователям при изучении сложных экономических явлений. Ряды распределения могут быть представлены либо в табличной форме, либо в геометрической, т. е. графической. Статистическая совокупность, представленная в виде ранжированного ряда распределения, графически изображается в виде огивы. Она строится так: на оси абсцисс наносятся номера элементов совокупности по ранжиру, а на оси ординат откладываются значения признака. Огива наглядно показывает интенсивность изменения изучаемого признака. Вариационные ряды распределения изображаются графически в виде полигонов и гистограмм. В виде полигонов обычно изображаются дискретные вариационные ряды распределения. При этом значения признака откладывают на оси абсцисс, а частоты (или частости) – на оси ординат. Вершины ординат соединяют прямыми линиями, в результате чего получают полигон (многоугольник). В виде полигона можно представить и интервальные вариационные ряды. Для этого за отдельные значения признака принимаются средние значения интервалов. Интервальные же вариационные ряды чаще всего изображают в виде гистограммы, в которой частоты выражают в виде прямоугольников соответствующей длины, а основания прямоугольников, опирающиеся на ось абсцисс, соответствуют интервалу значения признака (рис. 1).
   Рис. 1. Гистограмма и полигон распределения
   Различают одновершинные и многовершинные распределения. Многовершинность распределения, как правило, является признаком неоднородности изучаемой совокупности. Из разнообразия форм одновершинных кривых распределений можно выделить следующие наиболее характерные типы: симметричные, умеренно асимметричные, крайне асимметричные.
   В практике обычно редко встречаются идеально симметричные распределения, чаще умеренно асимметричные, в которых частоты с одной стороны от центра рассеивания уменьшаются заметно быстрее, чем с другой. Асимметричное распределение в пределе становится крайне асимметричным – в этом случае наибольшая частота расположена на одном из концов распределения.
   При решении некоторых вопросов удобнее пользоваться накопленными частотами распределения. Кривая накопленных частот распределения носит название «кумулята распределения». При построении кумуляты на оси абсцисс откладываются значения признака, на оси ординат – накопленные частоты. Построение вариационного ряда распределения и его графическое изображение позволяют получить первое представление о его наиболее характерных общих чертах. В то же время статистическое изучение совокупности не может ограничиться лишь простым упорядочением наблюдаемых величин. К тому же ряды распределения и их графики бывают довольно громоздкими, так как включают в себя всю исходную информацию. Поэтому наиболее рациональным путем статистического описания распределения будет вычисление определенных числовых характеристик, отражающих реальные свойства совокупности. К таким характеристикам прежде всего относятся характеристики центральной тенденции ряда распределения, т. е. нахождение его центрального значения; рассеивания значений признака относительно центра распределения; асимметрии и островершинности распределения. Изучение статистических характеристик распределений целесообразно начать с рассмотрения наиболее простых и в то же время чаще всего используемых в статистическом анализе, т. е. с изучения средних величин; затем научиться измерять вариацию, изучить меры скошенности и островершинности. Все эти показатели тех или иных особенностей распределения составляют единую систему статистических характеристик.
   Однако применение тех или иных статистических методов предполагает прежде всего однородность изучаемой совокупности: нельзя, например, анализировать совокупность, состоящую из разных категорий хозяйств, включающую предприятия разной специализации и т. д. Для успешного решения задач необходимо глубокое понимание сущности изучаемого процесса или явления. Учитывая сложность, неоднородность экономических явлений и процессов, необходимо производить анализ таким образом, чтобы наиболее существенные различия между отдельными группами явлений не затушевывались, а выделялись для более успешного их изучения. В то же время объединение в группы сходных однотипных явлений помогает выявить их черты и особенности, которые при изучении каждого явления отдельно могут оставаться незамеченными. Выделение в каждой совокупности общественно/экономических типов явлений – главное условие ее научного анализа. А это можно осуществить, только применяя метод типологических группировок.
   Массовые явления хозяйственной деятельности предприятий, являющиеся объектом статистического изучения, имеют сложный характер, обладают качественной общностью, свойственной данному явлению, но в то же время имеют и различия. Так, производством какой-либо продукции занимаются сельскохозяйственные предприятия и фермерские хозяйства и т. д. Стало быть, при характеристике производства данного вида продукции в регионе следует исходить из учета качественных особенностей предприятий, производящих эту продукцию, – в противном случае выводы будут неточными, а принимаемые на основании таких выводов решения – неэффективными.
   Типологическая группировка данных – основной прием изучения экономических явлений, обеспечивающий качественную сопоставимость единиц совокупности и дающий возможность получения обобщенного количественного значения признака.

1.2. Методы измерения обобщающих характеристик совокупности

   Метод группировок позволяет изучить состояние и взаимосвязи экономических явлений, если группы будут охарактеризованы показателями, раскрывающими наиболее существенные стороны изучаемого явления.
   При анализе и планировании необходимо опираться не на случайные факты, а на показатели, выражающие основное, типичное, коренное. Такую характеристику дают различные виды средних величин, а также мода и медиана.
   Вопрос об однородности совокупности не должен решаться формально по форме ее распределения. Его, как и вопрос о типичной средней, нужно решать, исходя из причин и условий, формирующих совокупность. Однородной является такая совокупность, единицы которой формируются под воздействием общих главных причин и условий, определяющих общий уровень данного признака, характерный для всей совокупности.
   Согласно теории типологических группировок, решающее значение в оценке однородности совокупности принадлежит не форме распределения, а размеру вариации и условиям ее формирования. Для качественно однородной совокупности характерна вариация в определенных пределах, после чего начинается новое качество. Вместе с тем к этим границам для оценки качественной однородности совокупности надо подходить с точки зрения существа дела, а не формально, так как одно и то же количество в разных условиях выражает новое качество. Например, при одной и той же численности рабочих предприятия одних отраслей промышленности являются крупными, а других – мелкими.
   Для всестороннего и углубленного изучения явлений, для объективной характеристики типов явлений, их взаимоотношений и процессов, обусловленных развитием системы как целого, необходимо сочетать групповые средние с общими средними. Сочетание таких средних и является одним из основных элементов анализа сложных систем. Это сочетание связывает в одно целое два органически дополняющих друг друга статистических метода: метод средних величин и метод группировки. При расчете средней индивидуальные варьирующие по группе значения заменяются одним средним значением. При этом случайные отклонения значения признака по отдельным единицам в сторону увеличения или уменьшения взаимно уравновешиваются и погашают друг друга, а в величине средней проявляется типичный размер признака, свойственный данной группе. Средняя величина служит характеристикой совокупности и в то же время относится к отдельному ее элементу – носителю качественных особенностей явления. Значение средней вполне конкретно, но одновременно и абстрактно; оно получено путем абстрагирования от случайного индивидуального по каждой единице с целью выявления того общего, типичного, что свойственно всем единицам и что формирует данную совокупность. При расчете средней величины численность единиц совокупности должна быть достаточно большой. Величина средней определяется как отношение общего объема явлений к числу единиц совокупности в группе. Для несгруппированных данных это будет средняя арифметическая простая:
   а для сгруппированных данных, где каждое значение признака имеет свою частоту, – средняя арифметическая взвешенная:
   где Xi – значение признака; fi – частота этих значений признака.
   Поскольку средняя арифметическая рассчитывается как отношение суммы значений признака к общей численности, она никогда не выходит за пределы этих значений. Средняя арифметическая обладает рядом свойств, которые широко используются в целях упорядочения расчетов.
   1. Сумма отклонений индивидуальных значений признака от средней величины всегда равна нулю:
   Доказательство. n
   Разделив левую и правую часть на
    получим:
   2. Если значения признака (Xi) изменить в k раз, то средняя арифметическая также изменится в x раз.
   Доказательство.
   Среднюю арифметическую из новых значений признака обозначим X, тогда:
   Постоянную величину 1/k можно вынести за знак суммы, и тогда получим:
   3. Если из всех значений признака Xi вычесть или прибавить одно и то же постоянное число, то средняя арифметическая уменьшится или увеличится на эту величину.
   Доказательство.
   Средняя из отклонений значений признака от постоянного числа будет равна:
   Точно так же доказывается это и в случае прибавления постоянного числа.
   4. Если частоты всех значений признака уменьшить или увеличить в n раз, то средняя не изменится:
   При наличии данных об общем объеме и известных значениях признака, но неизвестных частотах для определения среднего показателя используют формулу среднеарифметической взвешенной.
   Например, имеются данные о ценах реализации капусты и общей выручке за различные сроки реализации (табл. 1).
   Таблица 1.
   Цена реализации капусты и общая выручка за различные сроки реализации
   Так как средняя цена представляет отношение общей выручки к общему объему реализованной капусты, то вначале следует определить количество реализованной капусты по разным срокам реализации как отношение выручки к цене, а затем уже определить среднюю цену реализованной капусты.
   В нашем примере средняя цена будет:
   Если рассчитать в данном случае среднюю цену реализации по средней арифметической простой, то получим иной результат, который исказит истинное положение и завысит среднюю цену реализации, так как не будет учтен тот факт, что большая доля в реализации приходится на позднюю капусту с более низкой ценой.
   Иногда требуется определить среднюю величину, когда значения признака даются в виде дробных чисел, т. е. обратных целым числам (например, при изучении производительности труда через обратный его показатель, трудоемкость). В таких случаях целесообразно использовать формулу средней гармонической:
   Так, среднее время, необходимое для изготовления единицы продукции, есть средняя гармоническая. Если Х1 = 1/4 часа, Х2 = 1/2 часа, Х3 = 1/3 часа, то средняя гармоническая этих чисел есть:
   Для расчета средней величины из отношений двух одноименных показателей, например темпов роста, применяется средняя геометрическая, рассчитанная по формуле:
   где Х1× Х2 … × … Х4 – отношение двух одноименных величин, например цепных темпов роста; n – численность совокупности отношений темпов роста.
   Рассмотренные средние величины обладают свойством маорантности:
   Пусть, например, имеем следующие значения Х (20; 40), тогда рассмотренные ранее виды средних величин будут равны:
   При изучении состава совокупности о типичном размере признака можно судить по так называемым структурным средним – моде и медиане.
   Модой называется наиболее часто встречающееся значение признака в совокупности. В интервальных вариационных рядах сначала находят модальный интервал. В найденном модальном интервале мода рассчитывается по формуле:
   где Х0 – нижняя граница модального интервала; d – величина интервала; f1, f2, f3 – частоты предмодального, модального и послемодаль-ного интервалов.
   Значение моды в интервальном ряду довольно просто можно отыскать на основе графика. Для этого в самом высоком столбце гистограммы от границ двух смежных столбцов проводят две линии. Из точки пересечения этих линий опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс и будет модой (рис. 2).
   Рис. 2
   Для решения практических задач наибольший интерес представляет обычно мода, выраженная в виде интервала, а не дискретным числом. Объясняется это назначением моды, которая должна выявить наиболее распространенные размеры явления.
   Средняя – величина, типичная для всех единиц однородной совокупности. Мода – тоже типичная величина, но она определяет непосредственно размер признака, свойственный хотя и значительной части, но все же не всей совокупности. Она имеет большое значение для решения некоторых задач, например для прогнозирования того, какие размеры обуви, одежды должны быть предназначены для массового производства, и т. д.
   Медиана – значение признака, находящееся посредине ранжированного ряда. Она указывает на центр распределения единиц совокупности и делит ее на две равные части.
   Медиана является лучшей характеристикой центральной тенденции, когда границы крайних интервалов открыты. Медиана является более приемлемой характеристикой уровня распределения и в том случае, если в ряду распределения имеются чрезмерно большие или чрезмерно малые значения, которые оказывают сильное влияние на среднюю величину, а на медиану – нет. Медиана, кроме того, обладает свойством линейного минимума: сумма абсолютных значений отклонений величины признака у всех единиц совокупности от медианы минимальная, т. е.
   Это свойство имеет большое значение для решения некоторых практических задач – например, для расчета самого короткого из всех возможных расстояний для разных видов транспорта, для размещения станций техобслуживания таким образом, чтобы расстояние до всех обслуживаемых данной станцией машин было минимальным, и т. п.
   При отыскании медианы сначала определяется ее порядковый номер в ряду распределения:
   Далее, соответственно порядковому номеру, по накопленным частотам ряда находят саму медиану. В дискретном ряду – без всякого расчета, а в интервальном ряду, зная порядковый номер медианы, по накопленным частотам отыскивается медианный интервал, в котором путем простейшего приема интерполяции определяется уже значение медианы. Расчет медианы осуществляется по формуле:
   где Х0 – нижняя граница медианного интервала; d – величина интервала; f _ 1 – частота, накопленная до медианного интервала; f – частота медианного интервала.
   Рассчитаем среднюю величину, моду и медиану на примере интервального распределения. Данные приведены в табл. 2.
   Таким образом, в качестве центра распределения могут быть использованы различные показатели: средняя величина, мода и медиана,
   и каждая из этих характеристик имеет свои особенности. Так, для средней величины характерно то, что все отклонения от нее отдельных значений признака взаимно погашаются, т. е.
   Для медианы характерно то, что сумма отклонений индивидуальных значений признака от нее (без учета знаков) является минимальной. Мода же характеризует наиболее часто встречающееся значение признака. Поэтому в зависимости от того, какая из особенностей интересует исследователя, и должна выбираться одна из рассмотренных характеристик. В отдельных случаях рассчитываются все характеристики.
   Их сравнение и выявление соотношений между ними помогает выяснить особенности распределения того или иного вариационного ряда. Так, в симметричных рядах, как в нашем случае, все три характеристики (средняя, мода и медиана) примерно совпадают. Чем больше расхождение между модой и средней величиной, тем более асимметричен ряд. Установлено, что для умеренно асимметричных рядов разность между модой и средней арифметической примерно в три раза превышает разность между медианой и средней арифметической:
   Это соотношение можно использовать для определения одного показателя по двум известным. Из этого следует, что сочетание моды, медианы и средней важно и для характеристики типа распределения.

1.3. Методы исследования вариации и формы распределения признаков в однородной совокупности

   Статистическое описание совокупности было бы неполным, если ограничиться лишь показателями центральной тенденции, т. е. средними величинами, модой и медианой, которые являются равнодействующими ряда изменяющихся значений признака. В одних случаях значение признака концентрируется возле некоторого центра очень тесно, в других случаях наблюдается значительное рассеивание, хотя средняя величина может быть одинаковой. В связи с этим средняя величина как показатель центральной тенденции не дает исчерпывающей характеристики изучаемой совокупности. Возникает необходимость изучения характера рассеивания признака. Хотя отклонения от средней и регулируются общими для всех единиц совокупности причинами, формирующими среднюю, но в то же время они обусловлены и индивидуальными причинами. Например, отклонения производительности труда отдельных рабочих, работающих в одной бригаде, а стало быть, находящихся в одинаковых условиях труда, вызваны не общими условиями и причинами, а индивидуальными обстоятельствами рабочих и их квалификацией, состоянием здоровья, настроением, сообразительностью и т. д. Поэтому изучение отклонений от средней их размеров и закономерности распределения представляет большой интерес для исследователя. Это важно прежде всего для оценки однородности совокупности, которую характеризует данная средняя величина, так как для качественно однородной совокупности характерна вариация в определенных границах. Стало быть, чем меньше вариация, тем качественно однороднее совокупность, тем типичнее и объективнее средняя величина, характеризующая ее.
   Измерение вариации имеет большое значение и для изучения устойчивости изучаемых экономических явлений и процессов. Так, для сельского хозяйства очень важно не только получить среднюю урожайность сельскохозяйственных культур, но и обеспечить ее устойчивость во времени и пространстве, а для этого надо научиться рассчитывать показатели устойчивости, научиться измерять вариацию изучаемых явлений σ ≈ 1,25а.
   Для оценки вариации признака статистика знает и использует несколько показателей. Простейшим из них является размах вариации, рассчитываемый по формуле: Xmax – Xmin, т. е. как разность между максимальным и минимальным значением признака. Однако этот показатель далеко не совершенен, так как при его построении участвуют лишь крайние значения признака, которые могут быть случайными.
   Более точно можно определить вариацию признака при помощи показателя, учитывающего отклонения всех значений признака от средней. Это так называемые абсолютные показатели: среднее линейное отклонение а и среднее квадратическое отклонение σ. Среднее линейное отклонение – это средняя арифметическая из абсолютных значений отклонений отдельных значений признака от средней величины. Но сумма отклонений от средней
    всегда равна нулю (одно из свойств средней величины), поэтому для расчета среднего линейного отклонения суммируют абсолютные отклонения без учета его знака:
   Среднее квадратическое отклонение также может быть простое и взвешенное:
   Среднее квадратическое отклонение является наиболее распространенным показателем вариации, оно несколько больше среднего линейного отклонения. Установлено, что в симметричных или умеренно асимметричных распределениях соотношение между ними можно записать в виде:
   σ ≈ 1,25а.
   Следует иметь также в виду, что среднее линейное отклонение будет минимальным, если оно рассчитано от медианы, т. е.:
   Среднее квадратическое отклонение минимально при вычислении его от средней арифметической, это же относится и к дисперсии, которая представляет собой квадрат среднего квадратического отклонения.
   Дисперсия 
    широко применяется в дисперсионном анализе, но не как мера вариации, так как ее размерность не соответствует размерности признака.
   Содержание среднего квадратического отклонения то же, что и среднего линейного отклонения: т. е. чем меньше а и? тем однороднее совокупность, тем типичнее (объективнее) средняя величина, тем устойчивее явление и процесс.
   Рассмотрим вычисление среднего линейного и среднего квадрати-ческого отклонения на примере данных, приведенных в табл. 3.
   Таблица 3.
   Анализ времени обработки деталей рабочими двух бригад
   Средняя величина времени обработки детали составляет в обеих бригадах 124 мин. Для первой бригады Х1 =992/8 = 124ми н. и для второй – Х2 = 1240/10 = 124 мин.
   Медианные значения также одинаковы в обеих бригадах. Так, для первой бригады Хме = (116+132)/2 = 124 мин. Для второй бригады – Хме = (122+126)/2 + 124 мин
   Модальные значения в данном случае не могут быть определены, так как каждое из значений признаков не повторяется.
   Исходя из полученных результатов, можно сделать вывод, что обе совокупности характеризуются одинаковыми показателями центра распределения, но они могут отличаться по характеру рассеяния отдельных значений признака вокруг этих центров.
   Для характеристики рассеяния рассчитаем среднее линейное отклонение. Для первой бригады:
   Сопоставление среднего линейного и среднего квадратического отклонений говорит о том, что вариации времени обработки деталей в первой бригаде значительно выше, чем во второй бригаде.
   Следует также отметить, что среднее квадратическое отклонение в обоих случаях несколько больше, чем среднее линейное отклонение:
   σ1 = 1,22а1;
   σ2 = 1,20а2.
   Это говорит о том, что мы имеем дело с умеренно асимметричным распределением.
   Рассмотренные показатели вариации (размах вариации, среднее линейное отклонение, среднее квадратическое отклонение) дают возможность сравнить степень однородности нескольких совокупностей, но в отношении лишь одного признака, поскольку это именованные величины, имеющие единицы измерения те же, что и сам признак.
   Однако часто исследователю приходится сравнивать вариации различных признаков, а стало быть, эти показатели вариации не могут быть использованы.
   Для характеристики вариации различных признаков рассчитывают относительные показатели вариации, приведенные к одному основанию, т. е. выраженные в процентах (доли размаха вариации, среднего линейного отклонения и среднего квадратического отклонения) от средней величины изучаемого признака.
   Это так называемые коэффициент осцилляции, относительное отклонение и коэффициент вариации.
   Коэффициент осцилляции рассчитывается по формуле:
   В нашем примере эти показатели составляют:
   Все рассчитанные относительные показатели вариации свидетельствуют также о более сильной вариации времени обработки деталей рабочими первой бригады по сравнению со второй, где среднее время обработки является более объективной, более типичной характеристикой работы данной бригады в целом, т. е. вторая бригада как совокупность более однородна.
   Относительные показатели вариации, как уже было отмечено, позволяют сравнивать степень вариации признаков, имеющих одинаковые единицы измерения, но разные уровни средних. Например, урожайность зерновых культур и картофеля хотя и имеют одинаковые единицы измерения, но по абсолютным показателям вариации этих признаков сравнивать было бы неправильно, так как сами уровни урожайности зерновых и картофеля резко отличаются. Так, например, в регионе среднеквадратическое отклонение составило: по урожайности ржи – 5 центнеров с гектара (ц/га) и по урожайности картофеля – 20 ц/га, а сама урожайность ржи составила 25 ц/га, а картофеля – 200 ц/га. Коэффициент же вариации соответственно равен:
   Это означает, что по урожайности картофеля совокупность хозяйств данной области более однородна, чем по урожайности ржи, т. е. урожайность картофеля более устойчива, чем урожайность ржи.
   Сравнение абсолютных показателей вариации одного и того же признака разных совокупностей иногда приводит к иному выводу, чем при сопоставлении относительных показателей вариации.
   Так, если в одной совокупности абсолютный показатель вариации больше, чем в другой, и средний уровень изучаемого признака в ней также значительно больше, чем в другой, то относительный показатель вариации может быть ниже.
   Так, например, если среднее квадратическое отклонение урожайности ржи в одном районе составило 5 ц, в другом – 3 ц, а сама средняя урожайность, соответственно, составила 25 и 10 ц/га, то относительные показатели вариации приводят к иному выводу.
   Следовательно, рост урожайности, связанный с некоторым повышением абсолютного показателя вариации, может и не снизить ее устойчивости.
   Относительные показатели вариации необходимы также и для сравнения вариации различных признаков, имеющих разные единицы измерения, поскольку абсолютные показатели вариации в этом случае не могут быть использованы как мера вариации.
   Например, при сравнении вариации урожайности и себестоимости той или иной культуры нельзя использовать абсолютные показатели вариации, так как они будут иметь разные единицы измерения: ц/га и руб. за 1 т. В этом случае целесообразно среднее квадратическое отклонение использовать для расчета так называемого нормированного отклонения:
   характеризующее отклонение индивидуальных значений признака от средней (Xi X) и приходящееся на единицу среднего квадратического отклонения. Нормированное отклонение позволяет сопоставлять между собой отклонения, выраженные в различных единицах измерения. Практически нормированные отклонения изменяются в пределах от 0 до 3.
   Однако в совокупности могут встречаться отдельные единицы, у которых t > 3. Это будет свидетельствовать о неоднородности совокупности, и такие единицы совокупности целесообразно исключить как аномальные, нетипичные для данной совокупности.
   Если совокупность мала (3 ≤ n ≤ 8), то однородность совокупности, т. е. проверку годности первичных данных, можно осуществить следующим образом. Вычисляют показатель, характеризующий отношение разности между сомнительным и соседним значениями ранжированного в порядке возрастания ряда к разности между крайними значениями, т. е.:
   если вызывает сомнение первое в ряду значение признака, и:
   если вызывает сомнение последнее в ряду значение признака.
   Вычисленную величину Q сопоставляют с табличным ее значением для данного числа наблюдений и уровня вероятности. Если Qф > Qтабл, то сомнительное значение следует исключить из обработки. Если же Qф < Qтабл, то сомнительное значение не отбрасывается. Рассмотрим эту методику на примере.
   Допустим, получены следующие результаты содержания золы в образцах корма в процентах: 2,25; 2,19; 2,11; 2,38; 2,32 и 3,21.
   Располагаем данные анализа в порядке возрастания их значений: 2,11; 2,19; 2,25; 2,32; 2,38; 3,21.
   Вычисляем:
   Далее находим Qтабл для n = 6 и вероятности p = 0,99 (табл. 4).
   Таблица 4. Значения Q в зависимости от степени надежности (p)
   и общего числа значений признака (n)
   Величина Qтабл= 0,70. Следовательно, значение 3,21 должно быть исключено как нетипичное для данной совокупности.
   При числе значений признака больше трех (и больше восьми) можно использовать другую методику определения пригодности первичных данных. По всем значениям признака в совокупности сначала рассчитывают среднюю величину (Х) и среднее квадратическое отклонение (σ), затем на основании разницы (без учета знака) между максимально отклоняющимся значением (Xmax) и средней величиной находят величину критерия Rmax по формуле:
   Значение Rmax сопоставляют с табличным его значением при данном числе значений признака для вероятности p = 0,99 (табл. 5).
   Если Rmax > Rтабл, то сомнительное значение (X) следует исключить, если же Rmax < Rтабл, то значение (Xmax) следует принимать в расчет.
   При n > 20 показатель Rmax ≈ 3 и условие пригодности имеет вид:
   Таблица 5. Значения Rmax для степени надежности p = 0,99 в зависимости
   от числа единиц совокупности n
   Обратимся к предыдущему примеру и вычислим:
   При расчете средней величины и среднего квадратического отклонения используют все значения признака. Затем рассчитываем:
   Для n = 6, Rтабл _ 2,13; так как 2,22 > 2,13, то сомнительное значение 3,21 необходимо отбросить из статистической обработки. Если сомнение вызывает не одно, а несколько значений, то сначала производят указанные выше расчеты только для одного из них (наиболее отклоняющегося). После его исключения повторяют расчет для следующего сомнительного значения, вычисляя заново X и σ.
   При проверке годности данных с использованием любой методики может быть исключено не более одной трети единиц совокупности.
   Если исключению подлежит более одной трети всех единиц совокупности, то данная совокупность считается неоднородной.
   При изучении экономических явлений статистика встречается с разнообразной вариацией признаков, характеризующих отдельные единицы совокупностей. Величины признаков варьируют под воздействием различных причин и условий. Чем разнообразнее условия, влияющие на размер признака, тем больше его вариация.
   Рассмотренные показатели центральной тенденции и показатели вариации представляют собой частные случаи некоторой единой системы статистических характеристик распределения. Такая единая система характеристик может быть представлена моментами статистического распределения. Если при вычислении моментов за произвольную постоянную принимается средняя арифметическая, то такие моменты называются центральными.
   Общая формула центральных моментов k-го порядка имеет вид:
   Иначе говоря, центральные моменты k-го порядка представляют собой среднюю арифметическую из k – x степеней отклонений значений признака от средней арифметической.
   1. Центральный момент нулевого порядка равен единице при k = 0:
   2. Центральный момент первого порядка равен нулю при k = 1:
   3. Центральный момент второго порядка представляет собой дисперсию данного распределения при k = 2:
   4. Центральный момент третьего порядка имеет вид:
   Если распределение симметричное, то нетрудно видеть, что центральный момент третьего порядка равен нулю, так как минусовые отклонения (Xi – X)3 в левой ветви распределения будут уравновешиваться положительными отклонениями в правой части. Такое взаимное погашение отклонений в симметричных рядах распределения сохраняет силу для всех нечетных центральных моментов.
   5. Центральный момент четвертого порядка рассчитывается по формуле:
   Как будет показано ниже, центральный момент четвертого порядка также используется для характеристики некоторых особенностей форм статистических распределений.
   Для всесторонней характеристики изучаемой совокупности необходимы показатели, определяющие меру, степень вариации отдельных значений признака от средней, а также форму распределения, характеризующую ее закономерности.
   Надо сказать, что при анализе вариационных рядов в области экономических явлений строго симметричные ряды встречаются довольно редко, чаще исследователю приходится иметь дело с асимметричными. А поскольку в разных рядах асимметричность может иметь различный характер, то, очевидно, должны существовать и показатели, которые бы определяли степень асимметрии и ее направленность.
   В статистике для характеристики асимметрии ряда пользуются несколькими показателями. Если учесть, что в симметричном ряду средняя величина совпадает с модой и медианой, то наиболее простым показателем асимметрии может служить разность между средней арифметической и модой (Х – Хмо): если (Х – Хмо) < 0, то ряд будет характеризоваться правосторонней, или положительной, асимметрией (на графике ряд будет иметь вытянутость вправо); если же (Х – Хмо) > 0, то ряд будет характеризоваться левосторонней, или отрицательной, асимметрией (на графике ряд будет иметь вытянутость влево).
   Для сравнения асимметрии в некоторых рядах обычно используют отдельный показатель, получающийся путем деления предыдущего показателя (Х – Хмо) на среднее квадратическое отклонение:
   Принято считать, что M3 > 0 свидетельствует о правосторонней асимметрии, а M3 < 0 – о левосторонней асимметрии.
   Чтобы показатель асимметрии был безразмерной величиной и мог быть использован для сравнения в различных распределениях, центральный момент третьего порядка относят к среднему квадратическо-му отклонению в кубе:
   Этот показатель называют нормированным моментом третьего порядка. Если он > 0,5 (независимо от знака), то асимметрия считается существенной. Знак же указывает направленность асимметрии: плюс – правосторонняя, минус – левосторонняя.
   В статистике, когда нужно показать, насколько форма изучаемого ряда отличается от кривой нормального распределения, рассчитывают показатель, называемый эксцессом.
   При одних и тех же характеристиках (средней арифметической и среднем квадратическом отклонении) ряд может быть более островершинным или низковершинным по сравнению с кривой нормального распределения.
   Показатель эксцесса рассчитывается по формуле:
   Если Ek> 0, то распределение будет островершинным по сравнению с нормальным, если Ek < 0, то распределение будет плосковершинным.

1.4. Определение статистических характеристик сложных процессов или явлений

   В ряде случаев представляет интерес отыскание статистических параметров среднего значения, дисперсии, коэффициента вариации, когда наблюдение за каким-либо процессом или явлением представляет собой сложную функцию двух процессов. Например, вариация валового сбора зависит от вариации посевной площади и урожайности сельскохозяйственных культур; вариация молочного жира зависит от вариации количества молока и процента жира в молоке и т. д.
   Рассмотрим пример, когда процесс представляет произведение двух переменных.
   Пусть Y = X1X2, причем у процессов X1 и X2 известны следующие параметры: X1 и X2 – средние значения; σ1 и σ2  – средние квадратические отклонения; V1 и V2 – коэффициенты вариации.
   Необходимо определить аналогичные параметры сложного процесса (Y), используя уже известные параметры.
   Сложный процесс можно представить таким образом:
   Y = X1X2 = (X1 +ΔX1)(X2 +ΔX2) = X1X2 +X2ΔX1 +ΔX1X2 +ΔX1ΔX2.
   После усреднения найдем, что:
   – коэффициент парной корреляции между X1 и X2, о котором речь пойдет дальше. 11,24/268,82 = 0,0418, или 4,18.
   Тогда Y = X1X2 + R12σ1σ2.
   Вынося за скобки X1X2, получим:
   Y = X1X2 (1 + R12V1V2). (1.22)
   Дисперсию σy2 найдем из выражения:
   σy2 = Y2 – (Y)2.
   Подставив вместо Y его выражение через X1 и X2, после несложных преобразований получим:
   Тогда коэффициент вариации будет равен:
   Рассмотрим на конкретном примере (табл. 6).
   Исходя из данной информации, определяем статистические параметры исследуемых явлений обычным способом:
   X1 = 6689,7 кг; X2 = 4,038 %; Y = 268,95 кг;
   Таблица 6. Данные об удое коров, жирности молока и количестве молочного жира
   А теперь проверим предложенную методику и рассчитаем (Y1, σy,Vy), исходя из известных данных X1 и X2 и неизвестной информации по Y. В нашем примере известными будем считать все статистические характеристики удоя молока и содержания жира в молоке; при этом ничего не известно о количестве молочного жира. Но так как количество молочного жира будет равно количеству молока, умноженному на содержание жира в молоке (например 5645×0,0435 = 245,6), то, используя вышеизложенную методику, определяем:
   Сравнивая рассчитанные по данной методике характеристики с представленными ранее результатами, видим, что результаты получились одинаковые, т. е. в пределах допустимой статистической погрешности.
   Так, например, ошибка средней величины составляет:
   В относительном выражении она будет равна всего лишь:
   11,24/268,82 = 0,0418, или 4,18 %.
   Так же можно рассчитать погрешности и для других параметров. Рассмотрим случай, когда изучаемое явление представляет собой не произведение двух переменных, а частное, т. е.:
   Также представляет интерес получить статистические характеристики сложного явления, состоящего из суммы или разности двух явлений.
   В этом случае:
   Рассмотрим на конкретном примере (табл. 7).
   Таблица 7. Данные о рождаемости, смертности и естественном приросте в ряде стран на 1000 человек населения
   На основе данной информации имеем:
   А теперь допустим, что никаких данных о естественном приросте нет, а известны статистические характеристики числа родившихся Х1 и умерших Х2 и известен коэффициент парной корреляции между ними, равный R = 0,722, рассчитанный по формуле:
   Полученные характеристики полностью повторяют рассчитанные ранее другим способом, т. е. по статистическому ряду естественного прироста.
   Рассмотренные характеристики вариационных рядов, по которым можно судить о центральной тенденции, о вариации сложных явлений, служат важным орудием в статистическом анализе. Взаимосвязанное их использование помогает более детально изучить особенности и закономерности экономических явлений и процессов.

1.5. Методы изучения связей между экономическими явлениями

   Метод взаимосвязанных параллельных рядов
   Этот метод известен в статистике под названием метода сравнения параллельных рядов. Он заключается в установлении связей между экономическими явлениями и процессами посредством сопоставления двух или нескольких рядов показателей.
   Сначала показатели, касающиеся факторного признака, располагаются в восходящем или нисходящем порядке в зависимости от исследуемого явления или процесса, затем производится параллельная запись показателей результативного признака.
   Путем сравнения расположенных таким образом значений признака выявляются существование связей и их направление.
   Метод аналитической группировки
   Метод аналитической группировки считается одним из основных методов изучения связей между экономическими явлениями. Процесс установления связей между экономическими явлениями начинается с группировки единиц совокупности по факторному признаку. Затем приступают к вычислению синтетических показателей (относительных и средних величин) для результативного признака по группам, на которые была разбита совокупность.
   Различие между результативными и факторными признаками относительно: один и тот же признак в зависимости от исследуемого явления может быть результативным или факторным. Например, урожайность в зависимости от уровня агротехники является результативным признаком, в то же время она является факторным признаком при изучении себестоимости продукции.
   В изучении массовых явлений хозяйственной деятельности предприятий первостепенное значение имеет оценка общих итогов деятельности, различий в достигнутых результатах по предприятиям и т. п. Эту задачу решают аналитические группировки по результативному признаку. Они позволяют установить различия в полученных результатах, отделить передовое от отстающего, оценить связь результатов с комплексом факторов.
   При группировке необходимо выбрать такие признаки, которые позволяют разделить совокупность на группы качественно однородные внутри себя и различные между собой. Выделение групп можно вести сразу по нескольким качественно различным признакам или по одному признаку, в величине которого имеются качественные переходы.
   Имеется ряд указаний по вопросу отбора признаков, которые сводятся к следующему.
   1. Необходимо брать типичные, существенные признаки изучаемого явления в соответствии с целями проводимой статистической работы.
   2. При выборе группировочных признаков должны быть приняты во внимание конкретные условия места и времени, так как одни и те же признаки в одних условиях могут быть положены в основу группировки, а в других условиях не годятся для этой цели.
   3. При изучении сложных явлений группировку следует проводить не по одному, а по нескольким признакам, так как это дает возможность более полно охарактеризовать изучаемое явление.
   Группировки по одному признаку называются простыми, а по нескольким – комбинированными. В отличие от нескольких простых комбинированная аналитическая группировка позволяет выявить не только влияние каждого из факторов на результат, но и влияние сочетания этих факторов. Иными словами, комбинированная группировка покажет, при каком сочетании группировочных признаков можно получить наилучший эффект.
   От выбора группировочного признака в ряде случаев зависит решение вопроса о том, какие конкретно могут быть образованы группы. Так, при выборе в качестве группировочных некоторых атрибутных признаков (т. е. имеющих качественные оценки) можно образовать лишь ограниченное число вполне определенных групп. Например, при группировке населения страны по полу или с выделением сельского и городского населения можно выделить только две группы.
   Как известно, многие атрибутные признаки имеют большое количество разновидностей, например сотни и тысячи профессий, болезней, сортов растений, пород животных и т. д. При группировке совокупностей по такого рода признакам обычно родственные разновидности признака объединяются в подгруппы по заранее установленной номенклатуре, классификации. Например, при распределении населения по профессиям в качестве особой подгруппы выделяют профессию «слесарь», в которую включают слесарей-сборщиков, лекальщиков, инструментальщиков, водопроводчиков и т. п.
   Классификация несколько отличается от номенклатуры. Классификация – это обычно твердо установленное распределение явлений и объектов на классы, разряды (например, классификация: сельскохозяйственных культур, оборудования, скота по видам и т. п).
   Номенклатуры и классификации разрабатываются органами статистики и рассчитаны на применение в течение длительного времени.
   При группировке по количественным признакам изучаемую совокупность расчленяют по величине признака. Группировка является несложной, когда признак варьирует в узких пределах и имеет ограниченное число значений. Если признак варьирует значительно и совокупность большая, то возникает вопрос об определении интервала группировки. Интервалы могут быть равными – их можно определить по формуле:
   и неравными.
   Обычно трудности возникают при группировке по количественным признакам (урожайность, продуктивность, производительность труда, себестоимость продукции и т. д.), когда за количественными изменениями необходимо установить качественные переходы. Такие переходы вначале необходимо установить путем предварительной оценки величины признаков, сравнивая их с нормативными, плановыми. Например, при группировке по признакам, для которых установлены плановые задания, необходимо выделить группы единиц с недовыполнением, выполнением и перевыполнением плана. При группировке по себестоимости – с уровнем себестоимости продукции выше и ниже закупочных цен и т. д. При образовании групп необходимо также учитывать то обстоятельство, что для получения надежных обобщающих показателей необходимы массовые данные. Поэтому при небольшом объеме изучаемой совокупности следует выделять группы с таким расчетом, чтобы в каждую из них попало достаточное число единиц. Иногда целесообразно производить вторичную группировку. Процесс образования новых групп на основе ранее проведенной группировки называется вторичной группировкой; к ней прибегают в том случае, если имеющаяся группировка не удовлетворяет требованиям анализа. Например, если при группировке рабочих по стажу на одном предприятии выделено семь групп с одними интервалами, а на другом – пять групп с другими интервалами, то данные о распределении рабочих, фонда зарплаты и других показателей по первому предприятию будут несопоставимы с данными по второму. Чтобы привести данные к сопоставимому виду, надо произвести вторичную группировку, выделить по обоим предприятиям одно и то же число групп с одними и теми же интервалами.
   Получение новых групп на основании имеющихся возможно двумя способами:
   1) перегруппировкой по величине интервалов первичной группировки, как было уже сказано ранее;
   2) перегруппировкой по удельному весу отдельных групп в общем их итоге.
   Экономические явления, как и связи между ними, чрезвычайно сложны и многообразны. Поэтому простая группировка может дать характеристику только одной стороны изучаемого явления. Комбинационная группировка может дать характеристику более полную, позволяет изучить экономические явления и их взаимосвязи. Однако и она не в состоянии выразить всю сложность экономических явлений. Для этих целей следует использовать систему группировок, состоящую из взаимосвязанных, рационально составленных групповых и комбинационных таблиц, в основу которых положена целая система признаков и их комбинаций, отражающих существенные стороны изучаемого явления.
   Однако следует помнить, что разработка системы статистических группировок невозможна без глубокого знания сущности изучаемого явления.
   Аналитические группировки позволяют изучить наличие и направление связи между экономическими явлениями, если они осуществлялись по существенным признакам.
   Существенность связи между признаками доказывается на основе применения дисперсионного метода.
   Метод дисперсионного анализа
   Как было уже отмечено, дисперсионный метод тесно связан со статистическими группировками и предполагает, что изучаемая совокупность подразделена на группы по факторным признакам, влияние которых должно быть изучено.
   На основе дисперсионного анализа производится:
   1) оценка достоверности различий в групповых средних по одному факторному признаку или нескольким;
   2) оценка достоверности взаимодействий факторов;
   3) оценка частных различий между парами средних.
   В основе применения дисперсионного анализа лежит закон разложения дисперсий (вариаций) признака на составляющие.
   Общая вариация Dо результативного признака при группировке может быть разложена на следующие составные части:
   • на межгрупповую Dм связанную с группировочным признаком;
   • на остаточную (внутригрупповую) DB, не связанную с группиро-вочным признаком.
   Соотношение между этими показателями выражается следующим образом:
   Dо = Dм + Dв. (1.30)
   Рассмотрим применение дисперсионного анализа на примере.
   Допустим, требуется доказать, влияют ли сроки посева на урожайность пшеницы. Исходные опытные данные для дисперсионного анализа представлены в табл. 8.
   Таблица 8
   В данном примере N = 32, K = 4, l = 8.
   Определим общую суммарную вариацию урожайности, которая представляет собой сумму квадратов отклонений индивидуальных значений признака от общей средней:
   где N – число единиц совокупности; Yi – индивидуальные значения урожайности; Yo – общая средняя урожайности по всей совокупности.
   Для определения межгрупповой суммарной вариации, определяющей вариацию результативного признака за счет изучаемого фактора, необходимо знать средние значения результативного признака по каждой группе. Эта суммарная вариация равна сумме квадратов отклонений групповых средних величин от общей средней величины признака, взвешенной на число единиц совокупности в каждой из групп: 
   Внутригрупповая суммарная вариация равна сумме квадратов отклонений индивидуальных значений признака от групповых средних по каждой группе, суммированной по всем группам совокупности.
   Влияние фактора на результативный признак проявляется в соотношении между Dм и Dв : чем сильнее влияние фактора на величину изучаемого признака, тем больше Dм и меньше Dв.
   Для проведения дисперсионного анализа нужно установить источники варьирования признака, объем вариации по источникам, определить число степеней свободы для каждой компоненты вариации.
   Объем вариации уже установлен, теперь необходимо определить число степеней свободы вариации. Число степеней свободы – это число независимых отклонений индивидуальных значений признака от его среднего значения. Общее число степеней свободы, соответствующее общей сумме квадратов отклонений в дисперсионном анализе, разлагается по составляющим вариации. Так, общей сумме квадратов отклонений Dо соответствует число степеней свободы вариации, равное N – 1 = 31. Групповой вариации Dм соответствует число степеней свободы вариации, равное K – 1 = 3. Внутригрупповой остаточной вариации соответствует число степеней свободы вариации, равное N – K = 28.
   Теперь, зная суммы квадратов отклонений и число степеней свободы, можно определить дисперсии для каждой составляющей. Обозначим эти дисперсии: dм– групповые и dв – внутригрупповые.
   После вычисления этих дисперсий приступим к установлению значимости влияния фактора на результативный признак. Для этого находим отношение: dM /dB = Fф,
   Величина Fф, называемая критерием Фишера, сравнивается с табличным, Fтабл. Как уже было отмечено, если Fф > Fтабл, то влияние фактора на результативный признак доказано. Если Fф < Fтабл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.
   Теоретическая величина связана с вероятностью, и в таблице ее значение приводится при определенном уровне вероятности суждения. В приложении имеется таблица, позволяющая установить возможную величину F при вероятности суждения, наиболее часто используемой: уровень вероятности «нулевой гипотезы» – 0,05. Вместо вероятностей «нулевой гипотезы» таблица может быть названа таблицей для вероятности 0,95 существенности влияния фактора. Повышение уровня вероятности требует для сравнения более высокого значенияFтабл.
   Величина Fтабл зависит также от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности, то Fтабл стремится к единице.
   Таблица значений Fтабл построена следующим образом: в столбцах таблицы указаны степени свободы вариации для большей дисперсии, а в строках – степени свободы для меньшей (внутригрупповой) дисперсии. Величина F находится на пересечении столбца и строки соответствующих степеней свободы вариации.
   Так, в нашем примере Fф = 21,3/3,8 = 5,6. Табличное же значение Fтабл для вероятности 0,95 и степеней свободы, соответственно равных 3 и 28, Fтабл = 2,95.
   Значение Fф полученное в опыте, превышает теоретическое значение даже для вероятности 0,99. Следовательно, опыт с вероятностью более 0,99 доказывает влияние изучаемого фактора на урожайность, т. е. опыт можно считать надежным, доказанным, а значит, сроки посева оказывают существенное влияние на урожайность пшеницы. Оптимальным сроком посева следует считать период с 10 по 15 мая, так как именно при этом сроке посева получены наилучшие результаты урожайности.
   Нами рассмотрена методика дисперсионного анализа при группировке по одному признаку и случайному распределению повторностей внутри группы. Однако часто бывает так, что опытный участок имеет какие-то различия в плодородии почвы и т. д. Поэтому может возникнуть такая ситуация, что большее число делянок одного из вариантов попадет на лучшую часть, и его показатели будут завышены, а другого варианта – на худшую часть, и результаты в этом случае, естественно, будут хуже, т. е. занижены.
   Чтобы исключить варьирование, которое вызывается не относящимися к опыту причинами, надо из внутригрупповой (остаточной) дисперсии вычленить дисперсию, рассчитанную по повторностям (блокам).
   Общая сумма квадратов отклонений подразделяется в этом случае уже на 3 составляющие:
   Dо = Dм + Dповт + Dост (1.33)
   Для нашего примера сумма квадратов отклонений, вызванная по-вторностями, будет равна:
   Стало быть, собственно случайная сумма квадратов отклонений будет равна:
   Dост = Dв – Dповт; Dост= 106 – 44 = 62.
   Для остаточной дисперсии число степеней свободы будет равно 28 – 7 = 21. Результаты дисперсионного анализа представлены в табл. 9.
   Таблица 9
   Поскольку фактические значения F-критерия для вероятности 0,95 превышают табличные, то влияние сроков посева и повторностей на урожайность пшеницы следует считать существенным. Рассмотренный способ построения опыта, когда участок предварительно делится на блоки с относительно выравненными условиями, а проверяемые варианты распределяются внутри блока в случайном порядке, называется способом рендомизированных блоков.
   С помощью анализа дисперсионным методом можно изучить влияние не только одного фактора на результат, а двух и более. Дисперсионный анализ в этом случае будет называться многофакторным дисперсионным анализом. Двухфакторный дисперсионный анализ отличается от двух однофакторных тем, что он может ответить на следующие вопросы:
   1) каково влияние обоих факторов вместе?
   2) какова роль сочетания этих факторов?
   Рассмотрим дисперсионный анализ опыта, в котором следует выявить влияние не только сроков посева, но и сортов на урожайность пшеницы (табл. 10).
   Таблица 10. Данные опыта по влиянию сроков посева и сортов на урожайность пшеницы
    – это сумма квадратов отклонений индивидуальных значений от общей средней.
   Вариация по совместному влиянию сроков посева и сорта 
    – это сумма квадратов отклонений средних по подгруппам от общей средней, взвешенных на число повторностей, т. е. на 4.
   Вычисление вариации по влиянию только сроков посева:
   Остаточная вариация определяется как разность между общей вариацией и вариацией по совместному влиянию изучаемых факторов:
   Dост = Dо – Dпс = 170 – 96 = 74.
   Все расчеты можно оформить в виде таблицы (табл. 11).
   Таблица 11. Результаты дисперсионного анализа
   Результаты дисперсионного анализа показывают, что влияние изучаемых факторов, т. е. сроков посева и сорта, на урожайность пшеницы существенно, так как F-критерии фактические по каждому из факторов значительно превышают табличные, найденные для соответствующих степеней свободы, и при этом с достаточно высокой вероятностью (р = 0,99). Влияние же сочетания факторов в данном случае отсутствует, так как факторы независимы друг от друга.
   Анализ влияния трех факторов на результат ведется по такому же принципу, что и для двух факторов, только в этом случае будет три дисперсии по факторам и четыре дисперсии по сочетанию факторов. С увеличением числа факторов резко увеличивается объем расчетных работ и, кроме того, становится затруднительно оформлять исходную информацию в комбинационную таблицу. Поэтому вряд ли целесообразно изучать влияние многих факторов на результат с использованием дисперсионного анализа; лучше взять меньшее их число, но выбрать наиболее существенные факторы с точки зрения экономического анализа.
   Нередко исследователю приходится иметь дело с так называемыми непропорциональными дисперсионными комплексами, т. е. такими, в которых не соблюдается пропорциональность численностей вариантов.
   В таких комплексах вариация суммарного действия факторов не равна сумме вариации по факторам и вариации сочетания факторов. Она отличается на величину, зависящую от степени связей между отдельными факторами, возникающих вследствие нарушения пропорциональности.
   В этом случае возникают трудности при определении степени влияния каждого фактора, так как сумма частных влияний не равна суммарному влиянию.
   Одним из способов приведения непропорционального комплекса к единой структуре является способ его замены пропорциональным комплексом, в котором частоты усреднены по группам. Когда такая замена произведена, задача решается по принципам пропорциональных комплексов.
   Метод корреляционно-регрессионного анализа
   Изучение связи между экономическими явлениями, раскрытие причинно/следственного механизма – важнейшая задача статистики. Мало определить центральную тенденцию, измерить вариацию и определить другие характеристики распределения – важно выяснить причины различий единиц совокупности, выявить и измерить влияние отдельных факторов на изучаемое явление.
   Для исследования интенсивности, вида и формы причинных влияний широко применяется корреляционный и регрессионный анализ. Понятия корреляции и регрессии непосредственно связаны между собой. В то время как в корреляционном анализе оценивается сила (теснота) связи между явлениями, в регрессионном исследуется ее форма.
   Термины «связь» и «зависимость» имеют различный смысл, и поэтому необходимо различать понятия «корреляционная связь» и «корреляционная зависимость». Если нам уже известно, что изменение одного явления вызвано изменениями другого, т. е. установлена причинная связь, то использование термина «корреляционная зависимость» будет обоснованным; но если это неизвестно, то необходимо употребить термин «корреляционная связь».
   Экономические явления находятся в постоянной всеохватывающей объективной взаимосвязи. Наиболее общим видом связи между явлениями является стохастическая (вероятностная) связь. Она выражается в том, что с изменением одного явления меняется условный закон распределения другого явления.
   Корреляционная связь является частным случаем стохастической. Корреляционной называют такую связь, при которой одному значению одного явления соответствует множество значений другого. Корреляционные связи проявляются только «в общем и среднем». По наблюдениям отдельных явлений этой связи можно и не заметить, она может даже показаться обратной той, которая проявляет себя «в общем и в среднем». Например, увеличение продолжительности рабочего времени приведет к увеличению выпуска продукции, однако за один и тот же отрезок времени отдельные работники произведут различные объемы продукции или при одинаковых дозах удобрений будут получены различные результаты урожайности сельскохозяйственных культур. Следовательно, корреляционная связь – это неполная связь между явлениями, которая проявляется при большем числе наблюдений. Существует и функциональная связь между явлениями – когда за изменением одного явления всегда следует строго определенное изменение другого. Функциональные связи всегда имеют то или иное математическое выражение (математическая функция), в то время как корреляционные могут иметь математическое выражение «в среднем», а не в каждом конкретном случае.
   Для отличия от строго математической функции ее называют функцией регрессии.
   Существуют различные виды корреляции и регрессии. Так, относительно числа изучаемых признаков различают следующие виды корреляции и регрессии.
   • Простая корреляция и регрессия, выражающая связь между двумя признаками. Например, между урожайностью и осадками, между производительностью труда и уровнем механизации, т. е. между результативным признаком Y и факторным признаком X. Такого рода связь можно выразить формулой: Y = f (x).
   • Множественная корреляция и регрессия, характеризующая связь между результативным признаком и несколькими факторными признаками, например связь между себестоимостью продукции и факторами, влияющими на нее (производительностью труда, концентрацией и специализацией производства и т. д.). В общем виде такая связь выражается формулой: Y1,2... n = f (x1, x2, …, xn).
   В зависимости от характера связи различают следующие виды корреляции и регрессии.
   • Положительная корреляция и регрессия – если связь между изучаемыми явлениями прямая, т. е. с увеличением факторного признака растет и результативный (в среднем). Например, связь между производительностью труда с уровнем механизации.
   • Отрицательная корреляция и регрессия – если с ростом значений факторного признака результативный признак в среднем уменьшается. Например, связь между стоимостью продукции и получаемой предприятием прибылью. Однако это различие касается только простой регрессии и корреляции. Если же она множественная, то на результативный признак влияет множество факторов различного направления и невозможно четко определить окончательно ее направление.
   Относительно формы связи различают следующие виды.
   • Линейная – когда связи между изучаемыми явлениями носят линейный характер и выражены линейной функцией. Уравнение регрессии имеет вид:
   • Криволинейная корреляция и регрессия – когда между исследуемыми явлениями существуют нелинейные соотношения и связь выражается нелинейной функцией.
   Процесс нахождения теоретической линии регрессии заключается в выборе и обосновании типа кривой, в расчете параметров ее уравнения. Для выбора и обоснования типа линии нет универсального метода. Существует несколько путей решения задачи: теоретический, эмпирический, а также опыт предыдущих исследований.
   Определить тип уравнения регрессии можно, исследуя зависимость графически, однако существуют и другие приемы, позволяющие выявить тип уравнения связи. Так, если результативный и факторный признаки возрастают примерно одинаково, то это свидетельствует о том, что связь между ними линейная; если же один признак увеличивается, а другой неравномерно уменьшается, – связь гиперболическая. Если с увеличением значений фактора результативный признак сначала растет, а потом снижается, то связь параболическая, и т. д.
   Задача заключается в том, чтобы найти такие коэффициенты уравнения регрессии, чтобы ошибка была минимальной. Это достигается путем применения метода наименьших квадратов. Для нахождения значений неизвестных параметров приравняем частные производные по этим параметрам к нулю и после простейших преобразований получим систему уравнений.
   Пусть связь между результатом и фактором выражается уравнением параболы второго порядка:
   Y = a + b1 x+b2 x2, (1.36)
   Миниминизируя сумму квадратов отклонений переменной от ее значений по уравнению, получим:
   Для этого берутся частные производные Q по параметрам «а» и «b», которые приравниваются к нулю, и полученная система уравнений решается относительно параметров:
   Проделав простейшие преобразования, получим систему из трех уравнений:
   Далее задача сводится к решению этой системы нормальных уравнений.
   Применим этот метод для определения степени влияния сроков посева на урожайность. Для расчетов используем табл. 12, из которой возьмем следующие данные: сроки посева и средние значения урожайности для каждого срока посева.
   Таблица 12
   Порядковые номера сроков посева можно рассматривать как кодированные значения Х. Причем
   Средняя урожайность представлена таблицей значений:
   Y1 = 16; Y2 = 18; Y3 = 18; Y4 = 17; Y5 = 15;
   Теперь задача сводится к построению зависимости: Y = f(x).
   Исходные данные для расчета зависимости Y = f(x) представлены в табл. 13.
   Из табл. 13 видно, что с изменением сроков посева средняя урожайность сначала растет, а затем падает. Следовательно, существуют оптимальные сроки посева, при которых средняя урожайность максимальна.
   Подобный процесс целесообразно описать уравнением параболы 2/го порядка:
   Таблица 13
   Y = a + b1x + b2 x2,
   где a, b1, b2 – параметры, подлежащие определению.
   Для нахождения параметров a, b1 и b2 необходимо решить систему нормальных уравнений.
   Известно, что экстремальные точки функции Y = f (x) определяются из условия Y = f (x), где Y' – первая производная функции Y по переменной x.
   Для выбранного вида функции:
   Y = (a + b1x + b2 x2) = b1 + 2b2 x.
   Откуда
   Подставляя из табл. 13 значения (Xi Y) в систему нормальных уравнений, получим:
   5a + 15b1 + 55b– = 84;
   15a + 55b1 + 225b2 = 249; (I)
   55a + 225b1 + 979b2 = 897.
   Система решается следующим образом:
   1. Все уравнения делятся на коэффициенты при «а»:
   a + 3b1 + 11b2 = 16,8;
   a + 3,67b1 + 15b2 = 16,8;
   a + 4,09b1 + 17,8b2 = 16,3.
   2. Из первого уравнения вычитается сначала 2/е, а затем 3/е. В результате получается система уравнений с двумя неизвестными:
   – 0,67b1, – 4b2 = +0,2; (II)
   – 1,09b1 – 6,8b2 = +0,5.
   3. Повторяем процедуру 1 и 2 и получаем:
   0,24b2 = -0,16,
   откуда b2 = -0,64.
   Подставляя в любые уравнения системы II, например в первое, значение: b2 = -0,64, найдем b1 = +3,54.
   Из первого уравнения системы I находим:
   a = 13,22.
   Таким образом, уравнение, выражающее связь сроков посевов с урожайностью, будет иметь вид:
   Y = 13,22 + 3,54x – 0,64x2
   Оптимальный срок посева будет равен хопт = 2,8, что соответствует периоду с 10 по 20 мая.
   Существует много методов решения системы нормальных уравнений, в частности, целесообразно решать систему нормальных уравнений обычными методами линейной алгебры.
   До сих пор речь шла о том, что на результативный признак действует один факторный признак, и в зависимости от этого мы строили все свои расчеты. На самом деле все обстоит гораздо сложнее. На результативный признак действует множество случайных факторов, и перед нами возникает новая задача – найти модель наблюдаемого процесса, адекватно отражающую сам процесс, определить, как и в какой степени на результаты наблюдения воздействуют выбранные факторы. Эта задача чрезвычайно важна, так как именно она позволяет правильно оценить с определенной заданной вероятностью место и роль наблюдаемого явления в решении конкретных народно-хозяйственных задач.
   Наиболее часто на практике наблюдаемый процесс описывается линейной многофакторной моделью:
   Y = a + b1x1 + b2 х2 +… + bkxk, (1.37)
   гдеx1x2 … xk – значения факторов; a, b1, b2, bk – параметры модели.
   Что же такое модель? Как ее объяснить? Обычно стараются для наглядности все процессы интерпретировать геометрически. Попробуем подойти к многофакторной модели именно с такой позиции.
   Совершенно очевидно, что однофакторный процесс я вляется частным случаем многофакторного уравнения. Модели Y = f (?) представляют собой множество кривых различного рода на плоскости. Если рассматривать модель вида Y = a + bx, то это будет множество прямых на плоскости. Внося в рассмотрение еще один фактор, мы получаем уравнение вида Y = f (x1, x2) или для линейной модели: Y = a + b1x1 + b2x2. Это уже будет множество положений плоскости в трехмерном пространстве. Для трех факторов мы уже не можем дать геометрического толкования модели. Однако в целях обобщения можно считать, что линейная модель Y = a + b1 x1 + b2x2 +...bkxk представляет собой «гиперплоскость» в (k + 1) – мерном пространстве.
   Рекомендуется всегда предварительно изучить форму и степень связи между результативным и всеми выбранными факторами попарно. Если все попарные связи линейны или близки к линейным, то есть все основания полагать, что и множественная связь будет линейной.
   Схема корреляционно-регрессионного анализа подразумевает следующие шаги:
   1) определение связи между изучаемыми признаками;
   2) формирование уравнения регрессии;
   3) расчет показателей связи.
   Чтобы отобрать факторы, оказывающие существенное влияние на результативный признак, необходимо произвести группировку по нему. Из всех факторов необходимо отобрать те, которые наиболее связаны с результативным признаком.
   Так, например, при изучении влияния основных экономических факторов на себестоимость молока необходимо произвести группировку хозяйств по себестоимости 1 ц молока, взяв в качестве факторных признаков:
   а) уровень кормления;
   б) стоимость 1 ц кормовых единиц (корм. ед.);
   в) уровень оплаты труда;
   г) уровень специализации хозяйств на производстве молока и т. п.
   Для установления формы связи необходимо построить графики попарной зависимости выбранных факторов с результативным признаком (в нашем случае это себестоимость). В случае прямолинейной зависимости или близкой к таковой между всеми факторами и результатом следует использовать уравнение регрессии линейного типа:
   Y=a+b1x1 + b2 x2 + „. + bkxk,
   где x1 x2 … xk – выбранные факторы; b1 b2 … bk – коэффициенты регрессии, определяющие степень среднего изменения значений зависимой переменной Y при изменении фактора на единицу, но при условии, что остальные факторы, включенные в уравнение, остаются постоянными.
   В основе определения параметров уравнений регрессии лежит метод наименьших квадратов, сущность которого заключается в отыскании таких параметров уравнения связи, при которых сумма квадратов отклонений переменной от ее значений, исчисленных по уравнению:
   будет минимальной.
   Известный из дифференциального исчисления способ нахождения максимума и минимума функций при помощи производных приводит к системе нормальных уравнений. Количество уравнений, составляющих систему, соответствует числу параметров, подлежащих определению. Так, для двух факторов, а значит, для трех переменных необходимо решить систему из трех уравнений:
   А для трех факторов, а значит, четырех неизвестных параметров система нормальных уравнений будет иметь следующий вид:
   Число подлежащих решению уравнений можно уменьшить на одно, если все коэффициенты при неизвестных выразить в отклонениях от средней и разделить обе части каждого уравнения на число наблюдений. В этом случае получим:
   Исходные данные, необходимые для расчетов параметров, представлены в табл. 14.
   Таблица 14
   Итак, мы получим уравнение множественной регрессии для изучаемой совокупности:
   Y = 34,85 – 0,235x1 – 0,140x2 + 0,131x3.
   Это значит, что себестоимость 1 ц молока в среднем снизится на 0,235 ден. ед. при увеличении уровня кормления на 1 ц в год на корову и при неизменном уровне продуктивности и яловости; а при снижении яловости коров только на 1 % и неизменном уровне кормления и продуктивности коров себестоимость 1 ц молока в среднем снизится на 0,13 ден. ед.
   Поскольку коэффициент регрессии интерпретируется с учетом единиц измерения результативного и соответствующего признаков, то они в общем случае между собой несопоставимы. Такое сопоставление возможно только лишь при одних и тех же единицах измерения.
   Для сравнительной оценки коэффициентов регрессии их следует представить в стандартизованных единицах измерения. Стандартизованные коэффициенты регрессии называют? – коэффициентами. Они определяются по формуле:
   где bi – коэффициенты регрессии; σxi – среднее квадратическое отклонение i-го факторного признака; σy – среднее квадратическое отклонение результативного признака.
   В нашем примере β-коэффициенты будут соответственно равны:
   Стандартизованные коэффициенты регрессии показывают, на сколько стандартных единиц изменяется в среднем результативный признак при изменении факторного признака на стандартную единицу. Стандартизованные коэффициенты регрессии сопоставимы между собой. Так, в нашем случае можно отметить, что влияние всех трех факторов на себестоимость молока по абсолютной величине примерно одинаково, но имеет разное направление.
   Стандартизованные коэффициенты регрессии, как и обычные, интерпретируются с учетом определенной условности.
   Так, в нашем примере увеличение уровня кормления на одно стандартизованное отклонение обеспечивает снижение себестоимости молока в среднем на 0,381 стандартного отклонения при условной неизменности продуктивности и яловости коров. Изменение на одно стандартизованное отклонение продуктивности коров влечет за собой изменение себестоимости молока в среднем на 0,339 стандартного отклонения и т. д.
   Корреляционный анализ – это углубление регрессионного метода; он позволяет определить тесноту связи между исследуемыми признаками, оценить правильность выбора типа линии регрессии и дает возможность сопоставить несколько уравнений регрессии.
   Под корреляционным анализом понимается совокупность методов, состоящих из двух групп. Первая группа – методы измерения тесноты связей, требующие соблюдения определенных условий: отдельные наблюдения должны быть независимы и распределены по нормальному или близкому к нормальному закону распределения. Они предполагают вычисление таких показателей, как коэффициент парной корреляции, совокупный коэффициент множественной корреляции, частный коэффициент корреляции и корреляционное отношение.
   Вторая группа методов – так называемые непараметрические методы, их применение не требует соблюдения каких-либо условий. Их применяют в том случае, когда изучаемые признаки не имеют количественной оценки, т. е. при изучении тесноты связей между качественными признаками.
   При изучении линейной связи между двумя количественными признаками используют понятие коэффициента корреляции, который рассчитывается по формуле:
   где cov (XY) – ковариация переменных x и у, т. е. их изменение, обусловленное взаимным влиянием.
   В общем виде cov (XY) = E(Δx × Δy), где E – знак математического ожидания.
   Практически ковариация рассчитывается как среднее произведение отклонения переменных X и Y от их средних значений, т. е.
   Знаменатель формулы коэффициента корреляции представляет среднее квадратическое отклонение переменных X и Y, которые могут быть определены следующим образом:
   Следовательно, коэффициент корреляции может быть получен исходя из следующего выражения:
   Все формулы равносильны, и любая из них может быть использована для расчета коэффициента корреляции.
   Следует заметить, что коэффициент корреляции может принимать значения от -1 до +1. Знак коэффициента корреляции характеризует направление связи (прямая – знак «+»), (обратная – знак «-»), а абсолютная его величина характеризует тесноту связи. В экономических исследованиях при значении коэффициента корреляции свыше 0,7 связь считается тесной, а ниже 0,3 – слабой.
   В нашем примере по данным табл. 14 коэффициенты парной корреляции между себестоимостью молока и факторами, влияющими на нее, будут следующие:
   Результаты показывают, что связь себестоимости молока с данными факторами тесная. С уровнем кормления и продуктивностью – обратная, а с яловостью – прямая, т. е. с увеличением процента яловых коров в стаде себестоимость молока возрастает, а с увеличением расхода кормов на корову и ростом продуктивности коров себестоимость молока снижается.
   Если мы имеем дело не с линейной функцией, а с криволинейной, то в этом случае следует говорить не о коэффициенте корреляции, а о корреляционном отношении, которое характеризует степень приближения уравнения регрессии к наблюдаемым значениям. Корреляционное отношение представляет собой корень квадратный из отношения объясненной дисперсии к общей. Объясненная дисперсия чаще определяется как разность между общей дисперсией и необъясненной.
   Общая дисперсия равна сумме квадратов отклонений индивидуальных значений от средней величины:
   Объясненная дисперсия характеризуется суммой квадратов отклонений расчетных значений по уравнению регрессии от средней величины:
   Необъясненная дисперсия – это сумма квадратов отклонений индивидуальных значений от расчетных по уравнению регрессии соответствующих величин:
   По правилу сложения дисперсий можно записать:
   По аналогии с изложенным корреляционное отношение может быть выражено следующими формулами:
   Подчеркнем, что, в отличие от коэффициента корреляции, корреляционное отношение изменяется в пределах от 0 до 1, т. е. всегда положительная величина, и в данном случае направления связи определяются коэффициентом регрессии.
   Однако коэффициент корреляции применим только в случае линейной связи, а корреляционное отношение может быть вычислено при любой связи. Кроме того, корреляционное отношение дает возможность нагляднее представить содержание показателя тесноты связи.
   Если необъясненная дисперсия
    будет равна нулю, то это значит, что все фактические данные должны лежать на линии регрессии, и это будет характеризовать функциональную взаимосвязь. В таком случае корреляционное отношение будет равно единице. Если необъясненная дисперсия будет равна общей дисперсии:
   то это будет свидетельствовать об отсутствии связи.
   Подкоренное выражение корреляционного отношения и квадрат коэффициента корреляции называют коэффициентом детерминации, характеризующей долю вариации результативного признака, вызванной вариацией включенных в анализ факторов.
   Представляет собой интерес расчет коэффициента корреляции между качественными признаками, выражающий наличие признака или его отсутствие.
   Если обозначить наличие признака через «1», а его отсутствие – через «0», то получим:
   где mX – количество наблюдений признака X в выборке n.
   где mY – количество наблюдений признака Y в выборке n.
   где mXY – количество одновременно наблюдаемых признаков в выборке n.
   Тогда:
   Этот метод применим в биологии, медицине, племенном деле. Пусть, к примеру, производится селекция лошадей по масти. Если необходимая масть наблюдается, то обозначим ее через 1, а если отсутствует, то через 0. Обозначим множество родителей через Х, а множество потомков через Y (табл. 15).
   Другим простым показателем степени взаимосвязи между двумя статистическими рядами является индекс Фехнера.
   Для определения этого показателя нужно найти по каждому ряду отклонение от средней и выразить их через (+) и (-). Каждая пара наблюдений X и Y будет характеризоваться совпадением знаков: ++, – или несовпадением знаков: + – , – +. Обозначив число совпадений знаков через «а» и число несовпадений – «b», получим индекс Фехнера i по следующей формуле:
   Таблица 15
   Число отклонений, равных нулю, следует поделить пополам, половину отнести к «а», а половину к «b». Этот индекс можно использовать и для изучения связи между качественными признаками. Обратившись к предыдущему примеру, можно рассчитать индекс Фехнера, если значение 1 принять за (+), а значение 0 – за (-). В этом случае мы должны считать число всех совпадений X и Y, а таких совпадений будет 15:
   Результаты получены почти одинаковые, в обоих случаях подтверждается связь средней силы.
   Тесноту множественной корреляционной связи характеризует совокупный коэффициент корреляции Ryx1x2 x.
   Для линейной множественной корреляции совокупный коэффициент корреляции может быть определен на основе использования коэффициентов парной корреляции и β-коэффициентов:
   где Ryx1 – коэффициент парной корреляции; βi – стандартизованные коэффициенты регрессии.
   В нашем примере, на основании данных табл. 14, расчет выглядит следующим образом:
   Полученный коэффициент множественной корреляции показывает, что связь изучаемых факторов с себестоимостью молока очень тесная. Коэффициент детерминации, равный R2, характеризует, что 92 % вариации себестоимости молока объясняется совместным влиянием включенных в уравнение факторов.
   Коэффициент множественной корреляции измеряет одновременно влияние всех изучаемых факторовх1; х2; … хр на результативный признак (у).
   Для анализа представляет интерес и определение степени зависимости между результативным признаком и отдельным фактором при исключении влияния других исследуемых факторов. Для этого сначала рассчитываем коэффициенты множественной корреляции с последовательным исключением факторов. Частные коэффициенты корреляции будут равны:
   Следовательно, 17 % необъясненной части вариации себестоимости молока объясняется за счет изменения уровня кормления, 23,5 % – за счет изменения продуктивности коров и 43 % – за счет изменения яловости коров.
   Следует сказать, что применение частной корреляции в экономических исследованиях носит в известной мере условный характер. Прямые и косвенные условия и причины, влияющие на изучаемые явления, всегда оказываются многообразными и переплетающимися друг с другом в сложном взаимодействии. Включая, например, в анализ два фактора и стремясь исключить при частной корреляции влияние одного из них, исследователь всегда должен считаться с тем, что оставшийся в анализе фактор может испытывать на себе воздействие ряда других условий, не учтенных при формулировании задачи.
   Далее, определяем надежность коэффициента корреляции. В нашем примере был получен коэффициент множественной корреляции, равный 0,960.
   Этот коэффициент высок, но число наблюдений слишком мало: всего 10 сопоставлений. Как оценить этот коэффициент? Для оценки надежности коэффициента корреляции существует следующая методика. При малом числе наблюдений n надежность коэффициента корреляции можно определить по критерию Стьюдента
   Величина t сравнивается с t – табличным значением критерия Стьюдента при уровне значимости p и числе степеней свободы n – k -1, где k – число факторов; в нашем случае k = 3. Если t > tp, то вычисленный коэффициент корреляции достоверен с вероятностью 1-p. В нашем случае при Ryx1x2x3 = 0,960 имеем следующие значения: Z = 1,95; Q2 = 0,41; t = 4,76.
   Сравнивая с табличным значением, мы видим, что рассчитанный коэффициент корреляции при числе степеней свободы, равном 6, достоверен с вероятностью 0,99.
   Полученный достоверный и высокий коэффициент множественной корреляции свидетельствует о том, что уравнение множественной регрессии вполне можно принять за математическую модель изучаемого процесса, а следовательно, и использовать его плановыми органами в прогнозировании себестоимости молока для данной совокупности предприятий. Подставляя в математическую модель плановые (прогнозируемые) размеры факторов, получим плановые (прогнозируемые) значения себестоимости 1 ц молока.
   Сравнивая расчетные значения (Y) себестоимости 1 ц молока с фактическими в каждом конкретном хозяйстве, можно установить, как используются имеющиеся в хозяйстве факторы производства. Если фактическое значение результативного признака меньше, чем расчетное, то данное хозяйство хорошо использует имеющиеся у него факторы, т. е. лучше, чем они используются в среднем по данной совокупности хозяйств. В тех хозяйствах, в которых расчетные значения результативного признака больше, чем фактические, следует отметить низкую степень эффективности использования факторов. С помощью корреляционно-регрессионного метода удается произвести более объективную оценку деятельности предприятий, чем при простом сравнении их работы. Это очень важно при изучении прибыльности хозяйств и их конкурентоспособности в рыночных условиях.
   Исходя из изложенного, становится ясной последовательность изучения связей и зависимостей между экономическими явлениями. Сложная картина взаимодействий в экономике хорошо поддается исследованию при помощи статистических группировок. На основе статистических группировок можно дать развернутую характеристику взаимосвязей различных сторон изучаемого объекта. На основе группировок устанавливается также направление связи между признаками, а аналитические группировки и ряды распределения дают приближенное представление о форме связи, но не могут дать количественную характеристику этих связей.
   Большое значение в анализе связей между признаками занимают дисперсионный и корреляционный методы. Они позволяют получить цифровые показатели связи между двумя или несколькими признаками. Дисперсионный и корреляционный анализы тесно связаны со статистическими группировками.
   Дисперсионный анализ предполагает, что изучаемая совокупность подразделена на группы по одному или нескольким факторным признакам, влияние которых должно быть изучено. При осуществлении корреляционно-регрессионного анализа статистические группировки решают задачи качественного выравнивания совокупности, подлежащей анализу. С помощью группировок осуществляется отбор наиболее значимых факторов и формируется гипотеза относительно их взаимодействия. Поэтому метод аналитической группировки должен, как правило, применяться на первой, начальной стадии исследования, а затем и на последней, при оценке деятельности предприятий с позиций их факторообеспеченности и эффективности использования факторов.
   Введение в анализ большого числа факторов и поиск такого их сочетания, которое почти целиком определяло бы поведение изучаемого признака, вовсе не так целесообразно, как иногда кажется. Правильнее произвести отбор лишь сравнительного небольшого числа факторов, которые носят характер основных. Присоединение к ним еще ряда других дополнительных факторов может не прояснить, а напротив, затушевать всю картину множественных связей.
   Корреляционный анализ шире дисперсионного по своим возможностям, однако уступает в строгости и надежности установления наличия существенной зависимости. Поэтому более сложный и трудоемкий метод корреляционного анализа следует применять лишь тогда, когда предварительно с помощью группировки и дисперсионного анализа с достаточной точностью установили наличие существенной зависимости.

Контрольные вопросы

   1. Какими статистическими методами исследуется однородность изучаемой совокупности?
   2. Какие виды средних применяются в статистике?
   3. Каковы основные свойства средней арифметической?
   4. Для каких целей используется средняя гармоническая?
   5. Как рассчитывается средняя геометрическая и в каких случаях она применяется?
   6. Что представляет собой вариация признака, от чего зависят ее размеры?
   7. Какие показатели характеризуют вариацию признака?
   8. Что собой представляют моменты статистического распределения?
   9. Какова методика определения статистических характеристик сложных процессов и явлений?
   10. Какие основные задачи решают с помощью метода группировок и корреляционно-регрессионного анализа?
   11. Каковы основные проблемы и правила построения однофактор-ной линейной регрессионной модели?
   12. Какова экономическая интерпретация коэффициентов регрессии?
   13. Какими показателями измеряется теснота связи?
   14. Каковы основные проблемы и правила построения многофакторной корреляционной модели?
   15. Какова последовательность изучения связей между экономическими явлениями?

Глава 2
ЦЕЛЕСООБРАЗНОСТЬ И ПОСЛЕДОВАТЕЛЬНОСТЬ ПРИМЕНЕНИЯ СТАТИСТИЧЕСКИХ МЕТОДОВ ПРИ АНАЛИЗЕ ДИНАМИЧЕСКИХ ПРОЦЕССОВ И ЯВЛЕНИЙ

2.1. Измерение тенденции изучаемых явлений и экстраполяция тренда

   Все явления природы и общества, в том числе и экономические, изменяются и развиваются. Поэтому статистика не могла бы правильно характеризовать экономические явления, если бы она не изучала их в состоянии развития, в динамике. Развитие экономических явлений во времени называется динамическим развитием, а информация об этом развитии – динамическим рядом. Анализ динамических рядов экономических явлений может быть осуществлен по следующей схеме (рис. 3).
   Одной из основных задач анализа динамических рядов экономических явлений и процессов является установление составляющих (компонентов), на которые можно разложить динамический ряд.
   Большинство авторов выделяют наличие трех составляющих в динамическом ряду:
   • тенденцию, выражаемую трендом;
   • сезонные колебания;
   • случайные колебания.
   Каждая из этих составляющих вызвана определенными факторами. Так, тенденция объясняется наличием постоянных сил, вызывающих либо постоянный подъем, либо постоянное снижение, либо чередование того и другого.
   Сезонные колебания формируются под воздействием периодических колебаний в течение года. Примером сезонных колебаний в динамическом ряду могут служить: увеличение производства продукции животноводства и использования трудовых ресурсов в сельском хозяйстве в летние месяцы года и их снижение в зимние месяцы. Более подробно о факторах, вызывающих сезонные колебания, и об их измерении будет сказано в пункте 2.3.
   Если из динамического ряда вычесть эти составляющие, то останется колеблющийся ряд, который может представлять собой либо чисто случайные колебания, либо смесь случайных колебаний с неким плавным колебательным движением, представляющим собой долгопериодическую составляющую колеблемости (одной из причин которой могут быть циклы солнечной активности).
   Такой подход к разложению динамического ряда предполагает, что он может быть представлен суммой соответствующих составляющих, т. е. детерминированной его части, выражающей тенденцию развития, и случайной составляющей, если в динамическом ряду отсутствуют периодические колебания.
   Изучение динамического ряда начинается с выявления тенденции развития.
   Методы расчета основной тенденции можно условно разделить на две группы. Первая группа методов носит название «механическое сглаживание», так как предполагает только выявление тенденции, не связанное с дальнейшим прогнозированием. Сюда можно отнести сглаживание ряда динамики путем укрупнения интервала и применения скользящей средней. Они просты в расчетах и достаточно наглядно представляют тенденцию развития изучаемого явления, но на их основе нельзя осуществить прогнозирование и, кроме того, к недостаткам следует отнести необоснованность выбора периода сглаживания.
   Методика расчета рассмотрена на примере урожайности (табл. 16).
   Простейшим методом выявления основной тенденции является метод укрупнения интервала, который позволяет в значительной степени абстрагироваться от случайных колебаний, так как рассчитываются средние уровни динамического ряда за более длительный период. В нашем примере рассчитаны 5-летние средние урожайности как средние арифметические простые. В результате наглядно прослеживается тенденция роста урожайности, но вместо 29 уровней мы имеем всего лишь 6, т. е. теряем динамический ряд.
   Рис. 3. Схема статистического изучения динамических рядов экономических явлений
   Если же взять период укрупнения не 5 лет, а 11, с тем чтобы избежать влияния долгопериодических колебаний (а для этого динамический ряд должен быть достаточно длинным), то мы получим не более трех значений урожайности – 10,3; 13,6; 16,1 ц/га, которые также свидетельствуют о ярко выраженной тенденции роста урожайности. Кроме того, подобного рода средние (как за 5/летний период, так и за 11 лет) получены за изолированные периоды, а чтобы избежать этого и получить более длительный динамический ряд, рассматривают средние значения за укрупненный период, но с последовательным сдвигом на один год. Отсюда название: скользящие средние. Первое значение скользящей средней совпадает со средней, рассчитанной по методу укрупнения интервалов; второе будет получено как средняя арифметическая из пяти значений, но начиная со второго значения ряда; третье – начиная с третьего значения ряда, и т. д. Так же рассчитывается средняя скользящая и для других периодов. Полученные средние значения записываются в середине каждого интервала. Таким образом, мы будем иметь новый дополнительный ряд, состоящий из
   Таблица 16. Выявление основной тенденции методом укрупнения интервалов и скользящих средних на примере урожайности зерновых культур
   скользящих средних, но он короче первичного динамического ряда на k – 1 уровней, где k – число лет в интервале сглаживания. Новый дополнительный ряд в значительной степени лишен случайных колебаний, особенно наглядно это видно в динамическом ряду скользящих средних за укрупненный период. Такой ряд достаточно хорошо выявляет тенденцию изменения, но не дает возможности осуществить прогноз урожайности.
   В основе другого типа методов выявления тенденции динамики лежит предположение, что ряд имеет определенную закономерность развития, которая может быть выявлена и описана тем или иным математическим выражением, т. е. уровень динамического ряда есть функция от времени f(t). Это методы аналитического выравнивания динамического ряда, основанные на методе наименьших квадратов. Основой для выбора тренда, описывающего тенденцию изменения, является прежде всего всесторонний анализ сущности изучаемого явления. Большую помощь при выборе типа линии может оказать графическое изображение первичного динамического ряда изучаемого явления. Однако этот способ не лишен субъективизма, особенно в тех динамических рядах, где наблюдаются сильные колебания. Выбор линии в значительной степени может зависеть от масштаба графического изображения.
   В нашем примере (рис. 4) изображенный первичный динамический ряд урожайности позволяет предположить, что для выявления основной тенденции вполне может подойти прямая линия. Об этом же свидетельствуют данные средней скользящей урожайности, нанесенные на этом же графике.
   Рис. 4. Динамика урожайности зерновых культур
   Для выравнивания динамических рядов применяются полиномы разных степеней, различного рода экспоненты и логистические кривые, однако аналитическое выравнивание чаще всего производится по уравнению прямой линии и параболой 2/го порядка, что экономически лучше интерпретируется. Остальные кривые, как правило, преобразовываются к виду линейной функции.
   Существуют различные методики выбора типа выравнивающей линии, например, рекомендуют использовать метод последовательных разностей, в соответствии с которым цепным методом исчисляют разности уровней динамического ряда, а затем эти разности исследуют. Если приблизительно одинаковы первые разности, т. е. абсолютные приросты, то для выражения основной тенденции динамики можно использовать прямую линию. Если примерно постоянны вторые разности, т. е. разности абсолютных приростов, то используется парабола второго порядка. При постоянстве третьих разностей применяется парабола третьего порядка и т. д. Иначе говоря, порядок разностей принимается за степень полинома. Отсюда вытекает, что этот метод не является универсальным – он применим, только если изучаемое явление описывается уравнением многочлена.
   

notes

Примечания

Купить и читать книгу за 144 руб.

Вы читаете ознакомительный отрывок. Если книга вам понравилась, вы можете купить полную версию и продолжить читать