Welcome to Scribd!

Cross-Validation and The Bootstrap

Uploaded by

0% found this document useful (0 votes)

5K views5 pages

Cross-Validation and the Bootstrap YIK LUN, KEI This paper is a lab from the book called An Introduction to Statistical Learning with Applications in R. All R codes and comments below are belonged to the book and authors.

Original Description:

Original Title

cross-validation and the bootstrap

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

5K views5 pages

Cross-Validation and The Bootstrap

Uploaded by

api-285777244

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 5

Search inside document

Cross-Validation and the Bootstrap

YIK LUN, KEI

allen29@ucla.edu
This paper is a lab from the book called An Introduction to Statistical Learning
with Applications in R. All R codes and comments below are belonged to the
book and authors.

The Validation Set Approach

library (ISLR)
attach (Auto)
set.seed(1)
train=sample(392,196)
lm.fit=lm(mpg~horsepower,data=Auto,subset =train)
lm.fit2=lm(mpg~poly(horsepower,2),data=Auto,subset =train )
lm.fit3=lm(mpg~poly(horsepower,3),data=Auto,subset =train )

MSE
mean((mpg-predict(lm.fit,Auto))[-train]^2)
## [1] 26.14142
mean((mpg -predict(lm.fit2 ,Auto))[-train]^2)
## [1] 19.82259
mean((mpg -predict(lm.fit3 ,Auto))[-train]^2)
## [1] 19.78252

Switching Training and Testing Set

set.seed(2)
train=sample(392,196)
lm.fit=lm(mpg~horsepower,data=Auto,subset =train)
lm.fit2=lm(mpg~poly(horsepower,2),data=Auto,subset =train )
lm.fit3=lm(mpg~poly(horsepower,3),data=Auto,subset =train )
mean((mpg-predict(lm.fit,Auto))[-train]^2)
## [1] 23.29559

mean((mpg -predict(lm.fit2 ,Auto))[-train]^2)

## [1] 18.90124
mean((mpg -predict(lm.fit3 ,Auto))[-train]^2)
## [1] 19.2574

Leave-One-Out Cross-Validation (cv.glm)

library(boot)
glm.fit=glm(mpg~horsepower ,data=Auto)
cv.err =cv.glm(Auto ,glm.fit)
cv.err$delta
## [1] 24.23151 24.23114
cv.error=rep(0,5)
for (i in 1:5){
glm.fit=glm(mpg~poly(horsepower ,i),data=Auto)
cv.error[i]=cv.glm(Auto ,glm.fit)$delta [1]
}
cv.error
## [1] 24.23151 19.24821 19.33498 19.42443 19.03321

k-Fold Cross-Validation (cv.glm with K=i)

set.seed(17)
cv.error.10= rep (0 ,10)
for (i in 1:10){
glm.fit=glm(mpg~poly(horsepower ,i),data=Auto)
cv.error.10[i]=cv.glm(Auto ,glm.fit ,K=10) $delta [1]
}
cv.error.10
##
##

[1] 24.20520 19.18924 19.30662 19.33799 18.87911 19.02103 18.89609

[8] 19.71201 18.95140 19.50196

The Bootstrap
Statistic of Interest.

alpha.fn=function (data ,index){

X=data$X[index]
Y=data$Y[index]
return ((var(Y)-cov (X,Y))/(var(X)+var(Y) -2* cov(X,Y)))
}
alpha.fn(Portfolio ,1:100)
## [1] 0.5758321

Performing the Bootstrap

library(boot)
set.seed(1)
alpha.fn(Portfolio ,sample(100 ,100 , replace =T))
## [1] 0.5963833
boot(Portfolio ,alpha.fn,R=1000)
##
##
##
##
##
##
##
##
##
##
##

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = Portfolio, statistic = alpha.fn, R = 1000)

Bootstrap Statistics :
original
bias
t1* 0.5758321 -7.315422e-05

std. error
0.08861826

Bootstrap on Linear Regression

boot.fn=function (data ,index ){
return (coef(lm(mpg~horsepower ,data=data ,subset =index)))
}
boot.fn2=function (data ,index ){
coefficients(lm(mpg~horsepower +I( horsepower ^2) ,data=data,subset =index))
}
boot.fn(Auto ,sample(392 ,392 , replace =T))
## (Intercept)
## 39.4404609

horsepower
-0.1536114

boot.fn(Auto ,sample(392 ,392 , replace =T))

## (Intercept)
## 40.2316551

horsepower
-0.1604399

set.seed(1)
boot(Auto ,boot.fn ,1000)
##
##
##
##
##
##
##
##
##
##
##
##

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = Auto, statistic = boot.fn, R = 1000)

Bootstrap Statistics :
original
bias
std. error
t1* 39.9358610 0.0269563085 0.859851825
t2* -0.1578447 -0.0002906457 0.007402954

summary(lm(mpg~horsepower ,data=Auto))$coef

##
Estimate Std. Error
t value
Pr(>|t|)
## (Intercept) 39.9358610 0.717498656 55.65984 1.220362e-187
## horsepower -0.1578447 0.006445501 -24.48914 7.031989e-81
boot(Auto ,boot.fn2 ,1000)
##
##
##
##
##
##
##
##
##
##
##
##
##

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = Auto, statistic = boot.fn2, R = 1000)

Bootstrap Statistics :
original
bias
std. error
t1* 56.900099702 -6.863131e-02 2.1133492036
t2* -0.466189630 9.942586e-04 0.0336689369
t3* 0.001230536 -3.381623e-06 0.0001218251

summary(lm(mpg~horsepower +I(horsepower^2) ,data=Auto))$coef

##
Estimate
Std. Error
t value
Pr(>|t|)
## (Intercept)
56.900099702 1.8004268063 31.60367 1.740911e-109
## horsepower
-0.466189630 0.0311246171 -14.97816 2.289429e-40
## I(horsepower^2) 0.001230536 0.0001220759 10.08009 2.196340e-21

Reference:
James, Gareth, et al. An introduction to statistical learning. New
York: springer, 2013.

Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
PCR and Pls Regression
Document5 pages
PCR and Pls Regression
api-285777244
No ratings yet
Autoregressive Integrated Moving Average Arima
Document23 pages
Autoregressive Integrated Moving Average Arima
api-285777244
No ratings yet
Normality Skewness Kurtosis
Document7 pages
Normality Skewness Kurtosis
api-285777244
No ratings yet
Non-Stationary Models
Document13 pages
Non-Stationary Models
api-285777244
No ratings yet
Simple Linear Regression
Document9 pages
Simple Linear Regression
api-285777244
No ratings yet
Support Vector Classification
Document8 pages
Support Vector Classification
api-285777244
No ratings yet
7 Methods To Calculate PC
Document10 pages
7 Methods To Calculate PC
api-285777244
No ratings yet
Practice 1 From Analysis of Financial Time Series
Document11 pages
Practice 1 From Analysis of Financial Time Series
api-285777244
No ratings yet
Random Forests
Document10 pages
Random Forests
api-285777244
No ratings yet
Stats101a Homework8
Document7 pages
Stats101a Homework8
api-285777244
No ratings yet
Support Vector Machine With Multiple Classes
Document5 pages
Support Vector Machine With Multiple Classes
api-285777244
100% (1)
HW 7
Document11 pages
HW 7
api-285777244
No ratings yet
Em Algorithm
Document4 pages
Em Algorithm
api-285777244
No ratings yet
HW 6
Document14 pages
HW 6
api-285777244
No ratings yet
Harmonic Seasonal Models
Document10 pages
Harmonic Seasonal Models
api-285777244
No ratings yet
Importance Sampling
Document8 pages
Importance Sampling
api-285777244
No ratings yet
Monte Carlo Integration
Document3 pages
Monte Carlo Integration
api-285777244
No ratings yet
Practice of Introductory Time Series With R
Document22 pages
Practice of Introductory Time Series With R
api-285777244
No ratings yet
HW 2
Document8 pages
HW 2
api-285777244
No ratings yet
Practice 1 From Introductory Time Series With R
Document14 pages
Practice 1 From Introductory Time Series With R
api-285777244
No ratings yet
Clustering
Document8 pages
Clustering
api-285777244
No ratings yet
Ridge Regression and The Lasso
Document7 pages
Ridge Regression and The Lasso
api-285777244
No ratings yet
Polynomial Regression and Step Function
Document6 pages
Polynomial Regression and Step Function
api-285777244
100% (1)
Regression Splines
Document4 pages
Regression Splines
api-285777244
No ratings yet
Data Visualization With Ggplot2: Install Packages
Document19 pages
Data Visualization With Ggplot2: Install Packages
Pablo Medrano
No ratings yet
Chapter 1 Part 2 Solutions
Document2 pages
Chapter 1 Part 2 Solutions
jordanpitt269
No ratings yet
Chapter 1 Part 1 Solutions
Document2 pages
Chapter 1 Part 1 Solutions
jordanpitt269
No ratings yet
Principal Component Analysis Regression Visualization and Interpretation
Document10 pages
Principal Component Analysis Regression Visualization and Interpretation
api-285777244
No ratings yet
R Basics PDF
Document10 pages
R Basics PDF
SAILY JADHAV
No ratings yet
R-Tutorial - Introduction
Document30 pages
R-Tutorial - Introduction
lamaram32
No ratings yet
Time Series Basics
Document21 pages
Time Series Basics
Chopra Shubham
100% (1)
Python Tutorial 3
Document7 pages
Python Tutorial 3
queen setilo
No ratings yet
Generalized Additive Model
Document10 pages
Generalized Additive Model
api-285777244
No ratings yet
Solution HW04 of CIS 194 Haskell Course 2015
Document3 pages
Solution HW04 of CIS 194 Haskell Course 2015
Vitalie Cracan
No ratings yet
Haskell 09
Document7 pages
Haskell 09
Марина Жуковская
No ratings yet
CST 370 - Spring A 2020 Homework 3: Answer: 1
Document4 pages
CST 370 - Spring A 2020 Homework 3: Answer: 1
api-427618266
No ratings yet
EE341 Final
Document4 pages
EE341 Final
Le Huy
No ratings yet
Function - Sort
Document5 pages
Function - Sort
Zhuan Wu
No ratings yet
CS2610 Final Exam: If Is - Nan Print
Document5 pages
CS2610 Final Exam: If Is - Nan Print
Aneudy M
No ratings yet
Logistics Regression
Document5 pages
Logistics Regression
Nazakat ali
100% (1)
IP - Pandas 1 & 2 (Worksheet) Class 12
Document16 pages
IP - Pandas 1 & 2 (Worksheet) Class 12
White
No ratings yet
Practice of Analysis of Financial Time Series by Ruey S Tsay
Document10 pages
Practice of Analysis of Financial Time Series by Ruey S Tsay
api-285777244
No ratings yet
MATH 1280-01 Assignment Unit 4
Document6 pages
MATH 1280-01 Assignment Unit 4
Julius Owuonda
No ratings yet
Bootstrap Powerpoint
Document10 pages
Bootstrap Powerpoint
Jose C Beraun Tapia
100% (1)
An R Tutorial Starting Out
Document9 pages
An R Tutorial Starting Out
Wendy Wei
No ratings yet
Codewriting Solutions Python
Document25 pages
Codewriting Solutions Python
Marlin Pohlman
100% (4)
Lecture 4
Document2 pages
Lecture 4
datsno
No ratings yet
Doubly Linked List - Attempt Review
Document22 pages
Doubly Linked List - Attempt Review
Jo Ch
No ratings yet
Spatial Statistics in R
Document29 pages
Spatial Statistics in R
Luis Eduardo Calderon Canto
No ratings yet
Haskell 01
Document1 page
Haskell 01
Марина Жуковская
No ratings yet
Python Assignment (Q2)
Document6 pages
Python Assignment (Q2)
VinodKumarMasabattula
No ratings yet
Cs 143 Sample Mid
Document4 pages
Cs 143 Sample Mid
Seungdo Lee
No ratings yet
Outliers, Hypothesis and Natural Language Processing
Document7 pages
Outliers, Hypothesis and Natural Language Processing
subhajitbasak001
100% (1)
14 3 DP Optimal Binary Search Trees 4up
Document4 pages
14 3 DP Optimal Binary Search Trees 4up
cute_guddy
No ratings yet
Exercise - ANOVA - Fresco
Document1 page
Exercise - ANOVA - Fresco
Arpita Das
No ratings yet
Sensor Anomaly Detection
Document16 pages
Sensor Anomaly Detection
Ahmed
No ratings yet
Functions in R Sem-III 2021 PDF
Document30 pages
Functions in R Sem-III 2021 PDF
rajveer shah
No ratings yet
MTCARS Regression Analysis
Document5 pages
MTCARS Regression Analysis
Erick Costa de Farias
No ratings yet
Aditya Garg DMDW
Document40 pages
Aditya Garg DMDW
Raj Nish
No ratings yet
SQL Statement
Document1 page
SQL Statement
api-285777244
No ratings yet
HW 3
Document10 pages
HW 3
api-285777244
No ratings yet
HW 2
Document8 pages
HW 2
api-285777244
No ratings yet
HW 7
Document11 pages
HW 7
api-285777244
No ratings yet
HW 4
Document12 pages
HW 4
api-285777244
No ratings yet
HW 2
Document13 pages
HW 2
api-285777244
No ratings yet
HW 6
Document14 pages
HW 6
api-285777244
No ratings yet
HW 5
Document1 page
HW 5
api-285777244
No ratings yet
Anova Review
Document8 pages
Anova Review
api-285777244
100% (1)
How To Import From Saleforce To Pardot
Document3 pages
How To Import From Saleforce To Pardot
api-285777244
No ratings yet
Stats101a Homework8
Document7 pages
Stats101a Homework8
api-285777244
No ratings yet
HW 1
Document6 pages
HW 1
api-285777244
No ratings yet
Point of Tangency
Document5 pages
Point of Tangency
api-285777244
No ratings yet
Clustering
Document8 pages
Clustering
api-285777244
No ratings yet
Conditional Heteroscedastic Models
Document20 pages
Conditional Heteroscedastic Models
api-285777244
No ratings yet
Handwriting Recognition
Document10 pages
Handwriting Recognition
api-285777244
No ratings yet
Adjusting Betas
Document2 pages
Adjusting Betas
api-285777244
No ratings yet
Coordinate Descent and Golden Selection Search
Document2 pages
Coordinate Descent and Golden Selection Search
api-285777244
No ratings yet
Em Algorithm
Document4 pages
Em Algorithm
api-285777244
No ratings yet
Variable Selection
Document15 pages
Variable Selection
api-285777244
No ratings yet
Monte Carlo Integration
Document3 pages
Monte Carlo Integration
api-285777244
No ratings yet
Harmonic Seasonal Models
Document10 pages
Harmonic Seasonal Models
api-285777244
No ratings yet
Gradient Steepest Descent
Document7 pages
Gradient Steepest Descent
api-285777244
No ratings yet
Generalized Additive Model
Document10 pages
Generalized Additive Model
api-285777244
No ratings yet
Multivariate Monte Carlo Integration
Document2 pages
Multivariate Monte Carlo Integration
api-285777244
No ratings yet
Random Forests
Document10 pages
Random Forests
api-285777244
No ratings yet
Practice 2 From Introductory Time Series With R
Document18 pages
Practice 2 From Introductory Time Series With R
api-285777244
No ratings yet
Unpacked CG For Practical Research 2
Document2 pages
Unpacked CG For Practical Research 2
glenalyn santillan
No ratings yet
Rizal Technological University College of Arts and Sciences: Research Methodology
Document10 pages
Rizal Technological University College of Arts and Sciences: Research Methodology
Marie Fe Sario
100% (1)
Minitab DOE Tutorial PDF
Document32 pages
Minitab DOE Tutorial PDF
nmukherjee20
100% (3)
Data Exploration & Visualization
Document23 pages
Data Exploration & Visualization
divya kolluri
No ratings yet
Adventure in Statistics 1st Edition Field Test Bank
Document3 pages
Adventure in Statistics 1st Edition Field Test Bank
jeffreybergmdogrzcxqpya
100% (13)
Stat Chapter 1
Document30 pages
Stat Chapter 1
Uchiha Madara
No ratings yet
Post Hoc Tests
Document18 pages
Post Hoc Tests
Dean Goldenbb
No ratings yet
BRM2
Document147 pages
BRM2
Unnikrishnan S
No ratings yet
Priya Mam Notes
Document34 pages
Priya Mam Notes
Bhuvana Hari
No ratings yet
Data Gathering Process (Marketing Process)
Document15 pages
Data Gathering Process (Marketing Process)
Jecah May R. Riego
No ratings yet
Batas Kewenangan Advokat Dalam Perkara Perdata Secara Perdamaian Berdasarkan Surat Kuasa
Document20 pages
Batas Kewenangan Advokat Dalam Perkara Perdata Secara Perdamaian Berdasarkan Surat Kuasa
Mackmoer M Zakaria
No ratings yet
MiniTab Overview and Exercises
Document8 pages
MiniTab Overview and Exercises
rrathore
No ratings yet
Ed Aaaaaaa
Document7 pages
Ed Aaaaaaa
Lady Lykah de Guzman
No ratings yet
Mann Whitney U and Wilcoxon
Document14 pages
Mann Whitney U and Wilcoxon
Sophie Schrödinger
No ratings yet
Sampling Design
Document21 pages
Sampling Design
Sahil Bansal
No ratings yet
Business Statistics A First Course 4th Edition Chapter 1
Document11 pages
Business Statistics A First Course 4th Edition Chapter 1
AvinashRai
No ratings yet
Mini Dictionary
Document2 pages
Mini Dictionary
James Clarenze Varron
No ratings yet
Mann-Whitney U Test Advanced Stat
Document23 pages
Mann-Whitney U Test Advanced Stat
Sharon Repiedad Gungon
No ratings yet
Business Research Methods (BRM) Solved MCQs Set 4
Document7 pages
Business Research Methods (BRM) Solved MCQs Set 4
Iam Pacific
No ratings yet
pr2 Q2 WEEK 1 LAS 1 & 2
Document8 pages
pr2 Q2 WEEK 1 LAS 1 & 2
ENJELY SIMBANAN
No ratings yet
What Is Quantitative Research
Document3 pages
What Is Quantitative Research
jade risen
No ratings yet
Sampling Error: in Statistics, Sampling Error Is Incurred When The Statistical Characteristics of
Document15 pages
Sampling Error: in Statistics, Sampling Error Is Incurred When The Statistical Characteristics of
Akanksha Jain
No ratings yet
MBA 103 Statistics For Management
Document556 pages
MBA 103 Statistics For Management
Simanta Kalita
No ratings yet
Pengaruh Lingkungan Kerja, Disiplin Kerja Dan Stres Kerja Terhadap Kinerja Karyawan Pada PT Osi Electronics
Document13 pages
Pengaruh Lingkungan Kerja, Disiplin Kerja Dan Stres Kerja Terhadap Kinerja Karyawan Pada PT Osi Electronics
Jev de Fretes
No ratings yet
Assignment Cover Sheet: Northrise University
Document9 pages
Assignment Cover Sheet: Northrise University
Patrick Chibabula
No ratings yet
Practical Research 2
Document109 pages
Practical Research 2
Nikka Marie Francisco
100% (2)
ANOVA, T-Test and Other Statistical Tests With Python
Document11 pages
ANOVA, T-Test and Other Statistical Tests With Python
Teto Schedule
No ratings yet
Unit 6
Document60 pages
Unit 6
Usman
No ratings yet
Astm D 6299 02 PDF
Document22 pages
Astm D 6299 02 PDF
galuh wahyu putri
No ratings yet
Business Statistics, 4th: by Ken Black
Document25 pages
Business Statistics, 4th: by Ken Black
bbbb
No ratings yet