Professional Documents
Culture Documents
Multiple regression simply refers to a regression model with multiple predictor variables. Regresi berganda
hanya mengacu pada model regresi dengan variabel prediktor ganda. Multiple regression, like any regression
analysis, can have a couple of different purposes. Regresi berganda, seperti analisis regresi, dapat memiliki
beberapa tujuan yang berbeda. Regression can be used for prediction or determining variable importance,
meaning how are two or more variables related in the context of a model. Regresi dapat digunakan untuk
prediksi atau menentukan pentingnya variabel, yang berarti bagaimana dua atau lebih variabel yang terkait
dalam konteks model. There are a vast number of types and ways to conduct regression. Ada sejumlah besar
jenis dan cara untuk melakukan regresi. This tutorial will focus exclusively on ordinary least squares (OLS)
linear regression. Tutorial ini akan fokus secara eksklusif pada kuadrat terkecil biasa (OLS) regresi linier. As
with many of the tutorials on this web site, this page should not be considered a replacement for a good
textbook, such as: Seperti banyak dari tutorial di situs web ini, halaman ini tidak harus dianggap sebagai
Pedhazur, EJ (1997). Multiple regression in behavioral research: Explanation and prediction (3rd ed.).
Pedhazur, EJ (1997) regresi dalam penelitian perilaku:. Penjelasan dan prediksi (3rd ed.). New York: Harcourt
For the duration of this tutorial, we will be using RegData001.sav Untuk durasi tutorial ini, kita akan
menggunakan RegData001.sav
Standard Multiple Regression. Standard multiple regression is perhaps one of the most popular statistical
analysis. Standar Ganda Regresi. Regresi berganda standar adalah mungkin salah satu analisis statistik yang
paling populer. It is extremely flexible and allows the researcher to investigate multiple variable relationships in
a single analysis context. Hal ini sangat fleksibel dan memungkinkan peneliti untuk menyelidiki hubungan
variabel ganda dalam konteks analisis tunggal. The general interpretation of multiple regression involves: (1)
whether or not the regression model is meaningful, (2) which variables contribute meaningfully to the model.
Interpretasi umum regresi berganda melibatkan: (1) apakah model regresi adalah bermakna, (2) yang
memberikan kontribusi bermakna untuk variabel model. The first part is concerned with model summary
statistics (given the assumptions are met), and the second part is concerned with evaluating the predictor
variables (eg their coefficients). Bagian pertama berkaitan dengan statistik ringkasan model (mengingat asumsi
terpenuhi), dan bagian kedua berkaitan dengan mengevaluasi variabel prediktor (misalnya koefisien mereka).
Assumptions: Please notice the mention of assumptions above. Asumsi: Perlu diketahui penyebutan asumsi di
atas. Regression also likely has the distinction of being the most frequently abused statistical analysis, meaning
it is often used incorrectly. Regresi juga cenderung memiliki perbedaan menjadi analisis statistik yang paling
sering disalahgunakan, yang berarti sering digunakan secara tidak benar. There are many assumptions of
multiple regression analysis. Ada banyak asumsi dari analisis regresi berganda. It is strongly urged that one
consult a good textbook to review all the assumptions of regression, such as Pedhazur (1997). Hal ini sangat
mendesak bahwa salah berkonsultasi dengan buku teks yang baik untuk meninjau semua asumsi regresi, seperti
Pedhazur (1997). However, some of the more frequently violated assumptions will be reviewed here briefly.
Namun, beberapa asumsi lebih sering dilanggar akan ditinjau secara singkat di sini. First, multiple regression
works best under the condition of proper model specification; essentially, you should have all the important
variables in the model and no un-important variables in the model. Pertama, regresi berganda yang terbaik di
bawah kondisi spesifikasi model yang tepat, pada dasarnya, Anda harus memiliki semua variabel penting dalam
model dan tidak ada un-variabel penting dalam model. Literature reviews on the theory and variables of interest
pay big dividends when conducting regression. Literatur tentang teori dan variabel yang membayar dividen
yang besar ketika melakukan regresi. Second, regression works best when there is a lack of multicollinearity.
Kedua, regresi bekerja paling baik bila ada kekurangan dari multikolinieritas. Multicollinearity is a big fancy
word for: your predictor variables are too strongly related, which degrades regression's ability to discern which
variables are important to the model. Multikolinieritas adalah kata mewah besar untuk: variabel prediktor Anda
terlalu sangat terkait, yang menurunkan kemampuan regresi untuk melihat variabel yang penting untuk model.
Third, regression is designed to work best with linear relationships. Ketiga, regresi dirancang untuk bekerja
terbaik dengan hubungan linier. There are types of regression specifically designed to deal with non-linear
relationships (eg exponential, cubic, quadratic, etc.); but standard multiple regression using ordinary least
squares works best with linear relationships. Ada jenis regresi yang dirancang khusus untuk menangani non-
linear hubungan (misalnya eksponensial, kubik, kuadrat, dll), tetapi regresi berganda standar menggunakan
kuadrat terkecil biasa bekerja baik dengan hubungan linier. Fourth, regression is designed to work with
continuous or nearly continuous data. Keempat, regresi dirancang untuk bekerja dengan data kontinu atau
hampir terus menerus. This one causes a great deal of confusion, because 'nearly continuous' is a subjective
judgment. Yang satu ini menyebabkan banyak kebingungan, karena "hampir terus menerus 'adalah penilaian
subyektif. A 9-point Likert response scale item is NOT a continuous, or even nearly continuous, variable.
Sebuah 9-point Likert respon item skala TIDAK, terus menerus, atau bahkan hampir terus menerus variabel.
Again, there are special types of regression to deal with different types of data, for example, ordinal regression
for dealing with an ordinal outcome variable, logistic regression for dealing with a binary dichotomous
outcome, multinomial logistic regression for dealing with a polytomous outcome variable, etc. Furthermore, if
you have one or more categorical predictor variables, you cannot simply enter them into the model. Sekali lagi,
ada jenis khusus dari regresi untuk menangani berbagai jenis data, misalnya, regresi ordinal untuk menangani
hasil ordinal variabel, regresi logistik untuk menghadapi hasil yang dikotomis biner, regresi logistik
multinomial untuk menangani variabel hasil polytomous, dll Selain itu, jika Anda memiliki satu atau lebih
variabel prediktor kategoris, Anda tidak bisa hanya memasukkan mereka ke dalam model. Categorical
predictors need to be coded using special strategies in order to be included into a regression model and produce
meaningful interpretive output. Prediktor kategoris harus dikodekan menggunakan strategi khusus untuk
dimasukkan ke dalam model regresi dan menghasilkan output interpretatif berarti. The use of dummy coding,
effects coding, orthogonal coding, or criterion coding is appropriate for entering a categorical predictor variable
into a standard regression model. Penggunaan coding dummy, efek coding, coding ortogonal, atau kriteria
coding sesuai untuk memasukkan variabel prediktor kategoris menjadi model regresi standar. Again, a good
textbook will review each of these strategies--as each one lends itself to particular purposes. Sekali lagi, buku
teks yang baik akan meninjau masing-masing strategi - sebagai salah satu masing-masing cocok untuk tujuan
tertentu. Fifth, regression works best when outliers are not present. Kelima, regresi bekerja paling baik bila
outlier yang tidak hadir. Outliers can be very influential to correlation and therefore, regression. Outliers bisa
sangat berpengaruh terhadap korelasi dan karena itu, regresi. Thorough initial data analysis should be used to
review the data, identify outliers (both univariate and multivariate), and take appropriate action. Teliti awal
analisis data harus digunakan untuk memeriksa data, mengidentifikasi outlier (baik univariat dan multivariat),
dan mengambil tindakan yang tepat. A single, severe outlier can wreak havoc in a multiple regression analysis;
as an esteemed colleague is fond of saying...know thy data! Sebuah outlier tunggal parah dapat mendatangkan
malapetaka dalam analisis regresi berganda, sebagai rekan terhormat gemar mengatakan ... mengetahui data-
Mu!
To conduct a standard multiple regression using ordinary least squares (OLS), start by clicking on Analyze,
Regression, Linear... Untuk melakukan regresi berganda standar menggunakan kuadrat terkecil biasa (OLS),
variabel y dan menggunakan tombol panah atas untuk memindahkan ke Dependent: kotak. Then, highlight the
x1 and x2 variables and use the second arrow to move them to the Independent(s): box. Kemudian, sorot x1 dan
x2 variabel dan gunakan tombol panah kedua untuk memindahkan mereka ke Independen (s): kotak.
Next, click on the Statistics... Selanjutnya, klik pada Statistik ... button. tombol. Select Confidence intervals,
Covariance matrix, Descriptives, and Part and partial correlations. Pilih interval Keyakinan, matriks kovarians,
Descriptives, dan Bagian dan korelasi parsial. Then, click on the Continue button. Kemudian, klik pada tombol
Continue.
Next, click on Plots... Selanjutnya, klik pada Plot ... Then, highlight ZRESID and use the top arrow button to
move it to the Y: box. Kemudian, sorot ZRESID dan menggunakan tombol panah atas untuk memindahkan ke
Y: kotak. Then, highlight ZPRED and use the bottom arrow button to move it to the X: box. Kemudian, sorot
ZPRED dan menggunakan tombol panah bawah untuk memindahkannya ke X: kotak. Then click on the Next
button (marked with a red ellipse here). Kemudian klik pada tombol Next (ditandai dengan elips merah di sini).
Then, select Histogram and Normal probability plot. Kemudian, pilih alur probabilitas Histogram dan Normal.
a variety of values into the data file. Perhatikan di sini Anda dapat memiliki SPSS menyimpan berbagai nilai ke
dalam data file. By selecting these options, SPSS will fill in subsequent columns to the right of your data file
with the values you select here. Dengan memilih pilihan ini, SPSS akan mengisi kolom berikutnya di sebelah
kanan file data Anda dengan nilai yang Anda pilih di sini. It is recommended one typically save some type of
distance measure, here we used Mahalanobis distance; which can be used to checking for multivariate outliers.
Dianjurkan satu biasanya menyimpan beberapa jenis ukuran jarak, di sini kami menggunakan jarak
Mahalanobis, yang dapat digunakan untuk memeriksa outlier multivariat. Then click the Continue button and
then click the OK button. Kemudian klik tombol Continue lalu klik tombol OK.
The output should be very similar to that displayed below, with the exception of the new variable called
MAH_1 which was created in the data set and includes the values of Mahalanobis distance for each case.
Output harus sangat mirip dengan yang ditampilkan di bawah ini, dengan pengecualian variabel baru yang
disebut MAH_1 yang diciptakan pada set data dan mencakup nilai-nilai jarak Mahalanobis untuk setiap kasus.
The output begins with the syntax generated by all of the pointing and clicking we did to run the analysis.
Output dimulai dengan sintaks yang dihasilkan oleh semua menunjuk dan mengklik kami lakukan untuk
menjalankan analisis.
Then, we have descriptive statistics table which includes the mean, standard deviation, and number of
observations for each variable selected for the model. Kemudian, kita memiliki tabel statistik deskriptif yang
meliputi deviasi, rata-rata standar, dan jumlah observasi untuk setiap variabel dipilih untuk model.
Then, we have a correlation matrix table, which includes the correlation, p-value, and number of observations
for each pair of variables in the model. Kemudian, kita memiliki tabel matriks korelasi, yang meliputi korelasi,
nilai p, dan jumlah pengamatan untuk setiap pasang variabel dalam model. Note, if you have unequal number of
observations for each pair, SPSS will remove cases from the regression analysis which do not have complete
data on all variables selected for the model. Catatan, jika Anda memiliki jumlah yang tidak sama dari
pengamatan untuk masing-masing pasangan, SPSS akan menghapus kasus dari analisis regresi yang tidak
memiliki data lengkap pada semua variabel yang dipilih untuk model. This table should not be terribly useful, as
a good research will have already taken a look at the correlations during initial data analysis (ie before running
the regression). Tabel ini seharusnya tidak menjadi sangat berguna, sebagai penelitian yang baik akan telah
diambil melihat korelasi selama analisis data awal (yaitu sebelum menjalankan regresi). One thing to notice
here is the lack of multicollinearity, the two predictors are not strongly related ( r = -.039, p = .350). Satu hal
yang perlu perhatikan di sini adalah kurangnya multikolinearitas, dua prediktor tidak kuat terkait (r = - 0,039, p
= 0,350). This is good, as it indicates adherence to one of the assumptions of regression. Ini bagus, karena hal
entered into the model. Berikutnya, kita memiliki Variabel Pemasukan / Dihapus tabel, yang seperti namanya,
Then, we have the Model Summary table. Kemudian, kita memiliki tabel Ringkasan Model. This table provides
the Multiple Correlation ( R = .784), the Multiple Correlation squared ( R = .614), the adjusted Multiple
Correlation squared (adj. R = .606), and the Standard Error of the Estimate. Tabel ini menyediakan Korelasi
Berganda (R = 0,784), Korelasi Beberapa kuadrat (R = 0,614), Korelasi Beberapa disesuaikan kuadrat (adj. R
= 0,606), dan Standard Error dari Estimasi tersebut. The multiple correlation refers to the combined correlation
of each predictor with the outcome. Korelasi beberapa mengacu pada korelasi gabungan dari prediksi masing-
masing dengan hasilnya. The multiple correlation squared represents the amount of variance in the outcome
which is accounted for by the predictors; here, 61.4% of the variance in y is accounted for by both x1 and x2.
Korelasi beberapa kuadrat merupakan jumlah perbedaan dalam hasilnya yang dicatat oleh prediktor; di sini,
61,4% dari varians dalam y dicatat oleh kedua x1 dan x2. However, as mentioned in a previous tutorial, the
multiple correlation squared is a bit optimistic, and therefore, the adjusted R is more appropriate. Namun,
sebagaimana disebutkan di tutorial sebelumnya, korelasi berganda kuadrat adalah sedikit optimis, dan karena
itu, adjusted R yang lebih sesuai. More appropriate still for model comparison and model fit statistics; would
be the use of the Akaike Information Criterion (AIC; Akaike, 1974) or Bayesian Information Criterion (BIC;
Schwarz, 1978), neither of which is available in SPSS, but both can be computed very easily (see the references
at the bottom of the page). Lebih tepat masih untuk perbandingan model dan statistik model yang fit; akan
penggunaan Informasi Akaike Kriteria (AIC; Akaike, 1974) atau Kriteria Informasi Bayes (BIC; Schwarz,
1978), baik yang tersedia di SPSS, namun keduanya bisa dihitung dengan sangat mudah (lihat referensi di
Next, we have the ANOVA summary table, which indicates that our model's R is significantly different from
zero, F (2, 97) = 77.286, p < .001. Selanjutnya, kita memiliki tabel ANOVA ringkasan, yang menunjukkan
bahwa R model kami yang secara signifikan berbeda dari nol, F (2, 97) = 77,286, p <.001.
Next we have the very informative Coefficients table. Selanjutnya kita memiliki tabel Koefisien sangat
informatif. It is often preferred to read this table by column from left to right, recognizing that each row of
information corresponds to an element of the regression model. Hal ini sering lebih suka membaca tabel ini
menurut kolom dari kiri ke kanan, mengakui bahwa setiap baris dari informasi sesuai dengan unsur dari model
regresi. The first two columns contain unstandardized (or raw score) coefficients and their standard errors. Dua
kolom pertama berisi unstandardixed (atau skor mentah) koefisien dan kesalahan standar mereka. The Constant
coefficient is simply the y-intercept term for a linear best fit fine representing our fitted model. Koefisien
Konstan hanyalah jangka y-intercept untuk denda cocok linier terbaik mewakili model yang pas kami. The x1
and x2 unstandardized coefficients represent the weight applied to each score (for each variable) to produce new
y scores along the best fit line. Para x1 dan x2 mewakili koefisien unstandardixed berat diterapkan untuk
masing-masing skor (untuk setiap variabel) untuk menghasilkan nilai y baru sepanjang garis paling cocok. If
predicting new scores is the goal for your regression analysis, then here is one of the places where you will be
focusing your attention. Jika memprediksi nilai baru adalah tujuan untuk analisis regresi Anda, maka di sini
adalah salah satu tempat di mana Anda akan memfokuskan perhatian Anda. The unstandardized coefficients are
used to build the linear regression equation one might use to predict new scores of y using available scores of x1
and x2. Koefisien unstandardixed digunakan untuk membangun persamaan regresi linear satu mungkin
digunakan untuk memprediksi nilai baru dari y menggunakan skor yang tersedia dari x1 dan x2. The equation
for the current example is below: Persamaan untuk contoh saat ini adalah di bawah ini:
(1) y = .810(x1) + .912(x2) + 221.314 or y = 221.314 + .810(x1) + .912(x2) (1) y = 0,810 (x1) + 0,912 (x2) +
Next, we have the Standardized Coefficients, which are typically reported in social science journals (rather than
the unstandardized coefficients) as a way of interpreting variable importance because, they can be directly
compared (they are in the same metric). Berikutnya, kita memiliki Koefisien Standar, yang biasanya dilaporkan
dalam jurnal ilmu sosial (bukan koefisien unstandardixed) sebagai cara untuk menafsirkan variabel penting
karena, mereka dapat langsung dibandingkan (mereka dalam metrik yang sama). They are sometimes referred to
as slopes, but the standardized coefficients use the symbol Beta, which is the capital Greek letter and can be
interpreted as the correlation between a predictor and the outcome variable. Mereka kadang-kadang disebut
sebagai lereng, tetapi koefisien standar menggunakan Beta simbol, yang merupakan huruf Yunani dan dapat
diartikan sebagai korelasi antara prediktor dan variabel hasil. There is no constant or y-intercept term when
referring to standardized scores (sometimes called Z-scores) because, the y-intercept when graphing them is
always zero. Tidak ada istilah konstan atau y-intercept ketika mengacu pada nilai standar (kadang disebut Z-
skor) karena, y-intercept ketika grafik mereka selalu nol. The standardization transformation results in a mean
of 0 and a standard deviation of 1 for all variables so transformed. Hasil transformasi standardisasi di rata-rata 0
dan standar deviasi 1 untuk semua variabel sehingga berubah. Next, we have the calculated t-score for each
unstandardized coefficient (coefficient divided by standard error) and their associated p-value. Berikutnya, kita
memiliki dihitung t-skor untuk setiap koefisien unstandardixed (koefisien dibagi dengan standard error) dan
terkait mereka nilai p. Next, we have the confidence intervals for each unstandardized coefficient as specified in
the point and click options. Berikutnya, kita memiliki interval kepercayaan untuk setiap koefisien
unstandardixed sebagaimana ditentukan di titik dan pilihan klik. Then, we have the correlations for each
predictor (as specified in the options). Kemudian, kita memiliki korelasi untuk masing-masing prediktor
(sebagaimana ditentukan dalam pilihan). SPSS labels the semi-partial correlation as the Part correlation. SPSS
covariances among our predictors. Selanjutnya, kita memiliki tabel Koefisien Korelasi, yang seperti namanya
Next, we have the Residuals Statistics table which displays descriptive statistics for predicted values, adjusted
predicted values, and residual values. Selanjutnya, kita memiliki tabel Residual Statistics yang menampilkan
statistik deskriptif untuk nilai-nilai diprediksi, nilai-nilai diprediksi disesuaikan, dan nilai residu. Residuals are
the differences between the actual values of our outcome y and the predicted values of our outcome y based on
the model we have specified. Residu adalah perbedaan antara nilai aktual dari hasil y kita dan nilai-nilai
prediksi dari y hasil kami berdasarkan model yang telah kita ditentukan. The table also produces descriptive
summary statistics for measures of multivariate distance and leverage; which allow us to get an idea of whether
or not we have outliers or influential data points. Tabel tersebut juga menghasilkan ringkasan statistik deskriptif
untuk ukuran jarak multivariat dan leverage, yang memungkinkan kita untuk mendapatkan ide dari apakah kita
Normal PP nilai Regresi Residual Standar. We expect the values to be very close to (or on top of) the reference
line, which would indicate very little deviation of the expected values from the observed values. Kami berharap
nilai-nilai sangat dekat dengan (atau di atas) garis referensi, yang akan menunjukkan penyimpangan sangat
Next, we have a histogram of the standardized residual values, which we expect to be close to normally
distributed around a mean of zero. Selanjutnya, kami memiliki histogram dari nilai residu standar, yang kita
harapkan untuk menjadi dekat dengan distribusi normal sekitar rata-rata nol.
Now, we can return to the data view and evaluate our Mahalanobis distances (MAH_1) to investigate the
presence of outliers. Sekarang, kita dapat kembali ke data melihat dan mengevaluasi jarak Mahalanobis kami
(MAH_1) untuk menyelidiki adanya outlier. Click on Analyze, Descriptive Statistics, Explore... Klik Analyze,
Next, highlight the Mahalanobis Distance variable and use the top arrow button to move it to the Dependent
List: box. Selanjutnya, sorot variabel Jarak Mahalanobis dan menggunakan tombol panah atas untuk
memindahkannya ke Daftar Dependent: kotak. Then click on the Statistics... Kemudian klik pada Statistik ...
button. tombol.
Next, select Descriptives, M-estimators, Outliers, and Percentiles; then click the Continue button. Selanjutnya,
Descriptives pilih, M-estimator, Outliers, dan Persentil, lalu klik tombol Continue. Then click on the Plots...
Kemudian klik pada Plot ... button and select Stem-and-leaf, Histogram, and Normality plots with tests. tombol
dan pilih Stem-dan-daun, Histogram, dan plot Normalitas dengan tes. Then click the Continue button, then click
the OK button. Kemudian klik tombol Continue, kemudian klik tombol OK.
The output should be similar to what is displayed below. Outputnya harus serupa dengan apa yang ditampilkan
di bawah ini.
These first few tables are fairly intuitively named. Tabel ini pertama yang cukup intuitif bernama. Case
Processing Summary provides information on the number of cases used for the Explore function. Kasus
Ringkasan Pengolahan memberikan informasi tentang jumlah kasus digunakan untuk Jelajahi fungsi.
The Descriptives table provides the usual suspects in terms of descriptive statistics for the Mahalanobis
distances. Tabel Descriptives menyediakan tersangka biasa dalam hal statistik deskriptif untuk jarak
Mahalanobis. Remember, you should not be alarmed by the skewness and kurtosis because Mahalanobis
distance with always be non-normally distributed. Ingat, Anda tidak harus khawatir dengan kemiringan dan
kurtosis karena Mahalanobis jarak dengan selalu menjadi non-terdistribusi normal. If there are values less than
one, you have problem. Jika ada nilai yang kurang dari satu, Anda memiliki masalah.
The M-Estimators are maximum likelihood estimates which can be used when outliers are present to overcome
their undue influence on the least squares regression. M-estimator maksimum likelihood merupakan perkiraan
yang dapat digunakan ketika outlier hadir untuk mengatasi pengaruh yang tidak semestinya mereka pada regresi
kuadrat terkecil. ( 1 ) ( 2 ). ( 1 ) ( 2 ).
The Percentiles table simply reports the percentile ranks for the Mahalanobis distances. Tabel Persentil hanya
The Extreme Values table is very helpful and reports the highest and lowest five cases for the variable specified;
here Mahalanobis distance. Tabel Nilai Extreme adalah sangat membantu dan melaporkan lima tertinggi dan
terendah untuk kasus tertentu variabel; jarak Mahalanobis sini. This allows us to see just how extreme the most
outlying cases are because, Mahalanobis distance is a multivariate measure of distance from the centroid (mean
of all the variables). Hal ini memungkinkan kita untuk melihat betapa ekstrim kasus yang paling terpencil
adalah karena, jarak Mahalanobis adalah ukuran multivariat jarak dari centroid (mean dari semua variabel).
The Tests of Normality table reports two tests of normality; meaning they test whether or not the distribution of
the specified variable is significantly different from the standard normal curve. Tes tabel Normalitas melaporkan
dua tes normalitas; berarti mereka uji apakah distribusi variabel tertentu secara signifikan berbeda dari kurva
normal standar. Here, it is not terribly useful because, we know Mahalanobis distance is not typically normally
distributed (ie it is always positively skewed). Di sini, tidak terlalu berguna karena, kita tahu jarak Mahalanobis
The next four graphical displays simply show the distribution of Mahalanobis distances. Empat berikutnya
tampilan grafis hanya menunjukkan distribusi jarak Mahalanobis. Of note at the bottom of the Stem & Leaf
plot, where it shows that 3 values are extreme; which can be seen in the extreme values table and the Normal
QQ Plots on the second row below. Dari catatan di bagian bawah Stem & Leaf Plot, di mana hal itu
menunjukkan bahwa 3 nilai yang ekstrim; yang dapat dilihat pada tabel nilai-nilai ekstrim dan QQ Plot Normal