Syntax پنجشنبه بیست و چهارم آبان 1386 2:29



                                                        PROC GLM 


The following statements are available in PROC GLM.

PROC GLM < options > ;

CLASS variables ;

MODEL dependents=independents < / options > ;

ABSORB variables ;

BY variables ;

FREQ variable ;

ID variables ;

WEIGHT variable ;

CONTRAST 'label' effect values < ... effect values > < / options > ;

ESTIMATE 'label' effect values < ... effect values > < / options > ;

LSMEANS effects < / options > ;

MANOVA < test-options >< / detail-options > ;

MEANS effects < / options > ;

OUTPUT < OUT=SAS-data-set >

      keyword=names < ... keyword=names > < / option > ;

RANDOM effects < / options > ;

REPEATED factor-specification < / options > ;

TEST < H=effects > E=effect < / options > ;

Although there are numerous statements and options available in PROC GLM, many applications use only a few of them. Often you can find the features you need by looking at an example or by quickly scanning through this section.

To use PROC GLM, the PROC GLM and MODEL statements are required. You can specify only one MODEL statement (in contrast to the REG procedure, for example, which allows several MODEL statements in the same PROC REG run). If your model contains classification effects, the classification variables must be listed in a CLASS statement, and the CLASS statement must appear before the MODEL statement. In addition, if you use a CONTRAST statement in combination with a MANOVA, RANDOM, REPEATED, or TEST statement, the CONTRAST statement must be entered first in order for the contrast to be included in the MANOVA, RANDOM, REPEATED, or TEST analysis.

The following table summarizes the positional requirements for the statements in the GLM procedure.





Table 30.1: Positional Requirements for PROC GLM Statements



Must Appear Before the


Must Appear After the



first RUN statement





first RUN statement





MODEL statement







MODEL statement



or RANDOM statement







MODEL statement



first RUN statement





first RUN statement







MODEL statement










MODEL statement





MODEL statement





CLASS statement















MODEL statement










MODEL statement










or TEST statement





MODEL statement



REPEATED statement





first RUN statement



The following table summarizes the function of each statement (other than the PROC statement) in the GLM procedure:

Table 30.2: Statements in the GLM Procedure




absorbs classification effects in a model


specifies variables to define subgroups for the analysis


declares classification variables


constructs and tests linear functions of the parameters


estimates linear functions of the parameters


specifies a frequency variable


identifies observations on output


computes least-squares (marginal) means


performs a multivariate analysis of variance


computes and optionally compares arithmetic means


defines the model to be fit


requests an output data set containing diagnostics for each observation


declares certain effects to be random and computes expected mean squares


performs multivariate and univariate repeated measures analysis of variance


constructs tests using the sums of squares for effects and the error term you specify


specifies a variable for weighting observations


نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 WHAT KIND OF CONTRASTS ARE THESE? پنجشنبه بیست و چهارم آبان 1386 2:22



                          David P. Nichols

                     Senior Support Statistician

                             SPSS, Inc.

                 From SPSS Keywords, Number 63, 1997



Interpretation of parameter estimates is an essential part of the predictive

modeling process. Estimates of interest often represent contrasts among the

levels of a categorical predictor variable. A contrast is defined by a set of

coefficients that sum to 0 over the levels of the categorical variable of



In SPSS, issues of interpretation of contrast results arise in several

procedures, including LOGISTIC REGRESSION and COX REGRESSION. Both procedures

have facilities for automatically treating predictors (or covariates) as

as categorical variables. When a covariate with K levels is declared to be

categorical in either one of these procedures, a set of K-1 variables is

produced internally, and these variables are used as a set in the analysis.


The values of the K-1 variables are determined by the choice of contrasts

made by the user. The default contrasts in the current 7.5 release of SPSS

for Windows have been changed in both procedures to INDICATOR, with the

last category as the reference group. These contrasts produce estimates

comparing each other group to the reference group.


A point of considerable confusion among SPSS users is the relationship between

the values of the internally created variables and the interpretation of the

resulting parameter estimates. The output for the LOGISTIC REGRESSION and COX

REGRESSION procedures provides the values of the internal variables used to

estimate the desired contrasts. For example, suppose we have a three level

categorical covariate. The new default INDICATOR contrasts would produce a

set of "parameter codings" like those in Figure 1.


Figure 1: Parameter codings for INDICATOR contrasts



              Value   Freq  Coding

                              (1)    (2)


                  1    106  1.000   .000

                  2    116   .000  1.000

                  3    107   .000   .000


End Figure 1


The predictor here is called simply GROUP. It takes on the values 1-3, with

frequencies listed in the "Freq" column. The columns on the right (what are

being called parameter codings) give the values of the internal variables

created to represent the original categorical covariate. In this case there

are two internal variables created. For the first variable, cases with a

value of 1 for GROUP get a 1, while all other cases get a 0. For the second,

cases with a 2 for GROUP get a 1, with all other cases getting a 0.


The question that this output often elicits from SPSS users is how does this

coding produce the contrasts claimed in our documentation? The reason is that

one must distinguish between the values of the contrast coefficients defining

contrasts of interest and the values of the variables in the data that will

produce such a set of contrasts. The columns in the data that produce certain

contrasts will resemble the contrast coefficients only when the matrix of

contrast coefficients is orthogonal (the inner product of any two row vectors

in the contrast matrix is 0). INDICATOR contrasts are not orthogonal, nor are

the other most commonly used types in logistic or Cox regression models. Thus

it is important to understand the following relationship between the columns

of the data and the contrast results.


If we append a constant unit (1) column onto the beginning of the two columns

given above, we get what we call a basis or design matrix for generating the

desired contrasts. If we call this matrix X, then for any model that uses a

linear combination of the predictors in generating it's prediction function,

we can compute C, the matrix of contrast coefficients, as:



C = (X'X)  X'


For the example given here, the basis matrix for INDICATOR contrasts given

in Figure 2 produces the contrast matrix given in Figure 2.


Figure 2: Basis and contrast matrices for INDICATOR contrasts


Basis:   1  1  0           Contrast:   0  0  1

         1  0  1                       1  0 -1

         1  0  0                       0  1 -1



The first row of the contrast matrix gives the coefficients for the constant

or intercept term, which with INDICATOR contrasts estimates the predicted

value for the reference group (here, the last one). The other two rows give

the contrasts estimated by the GROUP(1) and GROUP(2) parameter estimates,

which are, respectively, the first group minus the last and the second minus

the last.


Earlier releases of SPSS used DEVIATION as the default contrast type, with the

last category as the reference or excluded out category. DEVIATION contrasts

compare each group other than the excluded group to the unweighted average of

all groups. The value for the left out group is then by definition the

negative of the sum of the given parameter estimates. Considerable confusion

has resulted from the fact that the basis or design matrix for DEVIATION

contrasts resembles the contrast matrix for SIMPLE contrasts, which compare

each group to a reference category (like INDICATOR contrasts). It turns out

that DEVIATION and SIMPLE contrasts are in a sense mirror images of one

another, in that the variable codings required to produce one type of

contrasts look like the transpose of the contrast matrix for the other type

of contrasts.


These relationships are illustrated for the three level case in Figures 3 and

4 (using fractions for precision; SPSS output shows decimal values). Note that

the contrasts estimated for GROUP(1) and GROUP(2) are the same for SIMPLE

contrasts as for INDICATOR, but that the intercept is now an unweighted

average of all levels rather than the value for the last (or more generally,

the reference) group.


Figure 3: Basis and contrast matrices for DEVIATION contrasts


Basis:   1  1  0           Contrast:   1/3  1/3  1/3

         1  0  1                       2/3 -1/3 -1/3

         1 -1 -1                      -1/3  2/3 -1/3



Figure 4: Basis and contrast matrices for SIMPLE contrasts


Basis:   1  2/3 -1/3       Contrast:   1/3  1/3  1/3

         1 -1/3  2/3                    1    0   -1

         1 -1/3 -1/3                    0    1   -1


نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 روشهای آمار توصیفی پنجشنبه هفدهم آبان 1386 0:42

روشهای آمار توصیفی


تشکیل جدول توزیع فراوانی

توزیع فراوانی عبارت است از سازمان دادن داده‌ها یا مشاهدات به صورت طبقات همراه با فراوانی هر طبقه. برای تشکیل یک جدول توزیع فراوانی باید دامنه تغییرات ، تعداد طبقات و حجم طبقات توسط فرمولهای مربوطه محاسبه شده و سپس اقدام به نوشتن جدول توزیع در دو ستون X (ستون طبقات) و F (فراوانی طبقات) شود. پس از این مرحله در صورت تمایل یا لزوم پژوهشگر می‌تواند شاخص‌های دیگری نظیر فراوانی تراکمی‌ ، فراوانی تراکمی‌ درصدی را محاسبه نماید. تشکیل جدول توزیع فراوانی یک روش اقتصادی و در عین حال آسان برای نمایش انبوهی از داده‌های نامنظم است. اما در طبقه بندی کردن ، برخی از اطلاعات به علت خطای گروه بندی از دست می‌روند که در محاسبه شاخصهای آماری نیز منعکس می‌شود. ولی مقدار آن ناچیز بوده و اشکال عمده‌ای ایفا نمی‌کند.

ترسیم نمودار

یکی از نقاط ضعف نمایش داده‌ها به صورت جدول فراوانی عدم درک سریع اطلاعات جدول است. نمودارها ابزار مناسبی برای نمایش تصویری اطلاعات هستند. انواع مختلفی از نمودار وجود دارد که از جمله می‌توان به نمودار هیستوگرام ، نمودار ستونی ، نمودار چند ضلعی تراکمی ‌، نمودار دایره‌ای ، نمودار سریهای زمانی و …اشاره کرد.

محاسبه شاخصهای مرکزی

در محاسبات آماری لازم است که ویژگیها و موقعیت کلی داده‌ها تعیین شود. برای این منظور شاخصهای مرکزی محاسبه می‌شوند. شاخصهای مرکزی در سه نوع نما (Mode) ، میانه (Median) و میانگین (Mean) هستند که هر یک کاربرد خاص خود را دارا می‌باشند. در تحقیقاتی که مقیاس اندازه گیری داده‌ها حداقل فاصله‌ای است میانگین بهترین شاخص است. ولی در تحقیقاتی که مقیاس اندازه گیری داده‌ها رتبه‌ای یا اسمی‌ است، میانه یا نما مورد استفاده قرار می‌گیرند.

محاسبه شاخصهای پراکندگی

شاخصهای پراکندگی برخلاف شاخصهای مرکزی هستند. آنها میزان پراکندگی یا تغییراتی را که در بین داده‌های یک توزیع (نتایج تحقیق) وجود دارد، نشان می‌دهند. دامنه تغییرات ، انحراف چارکی (Quartile Deviation) ، واریانس (Variance) و انحراف استاندارد (Standard Deviation) شاخصهایی هستند که به همین منظور در تحقیقات مورد استفاده قرار می‌گیرند. پس از محاسبه شاخصهای مرکزی و پراکندگی می‌توان نمره‌های استاندارد را محاسبه و منحنی طبیعی (Z) را ترسیم کرد.

محاسبه همبستگی

تحقیقاتی وجود دارد که پژوهشگر می‌خواهد رابطه بین دو متغیر را تعیین کند و به همین منظور از روشهای همبستگی (Correlation) استفاده می‌کند. در محاسبه همبستگی ، نوع مقیاس اندازه گیری دخالت دارد و بطور کلی به دو دسته پارامتری و ناپارامتری تقسیم می‌شوند.

  • محاسبه همبستگی برای تحقیقات پارامتری : چنانچه دو متغیر در مقیاسهای فاصله یا نسبی اندازه گیری شده باشند، می‌توان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. ولی اگر در تمام مفروضات ضریب همبستگی پیرسون صادق نباشد، نمی‌توان از آنها استفاده کرد و به جای آن می‌توان از روشهای دیگری مانند ضریب همبستگی دو رشته‌ای ( ) ، دورشته‌ای ( ) و یا ضریب تتراکوریک ( ) استفاده کرد.
  • محاسبه همبستگی برای تحقیقات ناپارامتری : در تحقیقاتی که در سطح مقیاس‌های اسمی ‌و رتبه‌ای انجام می‌گیرد، باید از روش‌های دیگری برای محاسبه همبستگی بین دو متغیر استفاده کرد. برخی از این روشها عبارتند از : ضریب همبستگی فی (φ) ضریب کریمر (C) ، ضریب کپا (K) و ضریب لامبدا ، در تحقیقات اسمی ‌و ضریب همبستگی اسپرمن ( ) ، ضریب کندال و آماده گاما (G) برای تحقیقات ترتیبی.

رگرسیون و پیش بینی

رگراسیون (Regression) روشی برای مطالعه سهم یک یا چند متغیر مستقل در پیش بینی متغیر وابسته است. از تحلیل رگراسیون هم در تحقیقات توصیفی (غیر آزمایشی) و هم در تحقیقات آزمایشی می‌توان استفاده کرد. با توجه به نوع تحقیق و متغیرهای آن روش متنوعی برای تحلیل رگراسیون وجود دارد که برخی از آنها عبارتند از : رگراسیون خطی (با سه راهبرد همزمان ، گام به گام ، سلسله مراتبی) ، رگراسیون انحنایی ، رگراسیون لوجیستیک و تحلیل کواریانس.

تحلیل داده‌های ماتریس کواریانس

از جمله تحلیل‌های همبستگی ، تحلیل ماتریس کواریانس یا ماتریس همبستگی است. دو نوع از معروفترین این تحلیل‌ها عبارتند از : مدل تحلیل عاملی برای پی بردن به متغیرهای زیر بنایی یک پدیده در دو دسته اکتشافی و تاییدی و مدل معادلات ساختاری برای بررسی روابط علی بین متغیرها.

نوشته شده توسط mostafa | لينک ثابت | موضوع: |