You are on page 1of 19

 

 
   
   
   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
rubenszmm@gmail.com  
 
http://github.com/RubensZimbres  
 
 
 
 
NAÏVE  BAYES   MIXTURE  MODELS  
   
𝑃 𝑐 𝑎 . 𝑃(𝑎) 𝑃 𝐵 = 𝑃 𝐵|𝐴 . 𝑃(𝐴)  
𝑃 𝑎𝑐 =    
𝑃(𝑐)
   
   
BAYES  OPTIMAL  CLASSIFIER   MIXTURE  OF  GAUSSIANS  
  ANOMALY  DETECTION  
 
arg max 𝑃 𝑥 𝑇 . 𝑃(𝑇|𝐷)  
1 1 𝑥−𝑥 !
  𝑃 𝑥𝑥 = . 𝑒𝑥𝑝 −  
2𝜋𝜎 ! 2 𝜎
 
 
 
 
NAÏVE  BAYES  CLASSIFIER   𝑁! 𝐶! + 𝑁! 𝐶!
  𝑍!" =  
𝑁! + 𝑁!
arg max 𝑃 𝑆𝑝𝑜|𝑇𝑜𝑡 . 𝑃(𝑆𝑜𝑐|𝑆𝑝𝑜)    
   
  𝑃(𝑍!" ) → 0.50  
   
BAYES  MAP  (maximum  a  posteriori)    
  EM  ALGORITHM  
ℎ!"# = arg max 𝑃 𝑐|𝑎 . 𝑃(𝑎)    
  𝑃 𝑥 . 𝑃 𝑥|𝑥
𝐸  𝑠𝑡𝑒𝑝  𝑃 𝑥|𝑥 =  
  𝑃 𝑥 .𝑃 𝑥
   
MAXIMUM  LIKELIHOOD    
  𝑃(𝑥|𝑥)
𝑀  𝑠𝑡𝑒𝑝  𝑃 𝑥′ =  
ℎ!" = arg max 𝑃 𝑐|𝑎   𝑛
   
   
  𝐸  𝑠𝑡𝑒𝑝  𝑃 𝑥|𝑥 = 𝐴𝑠𝑠𝑖𝑔𝑛  𝑣𝑎𝑙𝑢𝑒  
TOTAL  PROBABILITY    
   
  𝑀  𝑠𝑡𝑒𝑝  𝑃 𝑥′ = 𝑃(𝐵 = 1|𝐴 = 1, 𝐶 = 0)  
𝑇𝑜𝑡𝑎𝑙𝑃 𝐵 = 𝑃 𝐵|𝐴 . 𝑃(𝐴)    
  𝑑 𝑓(𝑥) 𝑓′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 . 𝑔′(𝑥)
LAPLACE  ESTIMATE  (small  samples)   =  
𝑑𝑥 𝑔(𝑥) 𝑔(𝑥)!
   
𝐴 + 0.5 𝑑 𝑑
𝑃 𝐴 =   2𝑓 𝑥 = 2 𝑓 𝑥  
𝐴+𝐵+1 𝑑𝑥 𝑑𝑥
   
   
BAYESIAN  NETWORKS   𝑑 𝑑 𝑑
  𝑓 𝑥 +𝑔 𝑥 = 𝑓 𝑥 + 𝑔 𝑥  
𝑑𝑥 𝑑𝑥 𝑑𝑥
𝑡𝑢𝑝𝑙𝑒𝑠  ¬  𝑓𝑜𝑟  𝑦 = 0   ∧ 𝑦 = 1    
   
  𝑑 𝑑 𝑑
LIMITS   𝑓 𝑥 + 2𝑔 𝑥 = 𝑓 𝑥 + 2 𝑔 𝑥  
𝑑𝑥 𝑑𝑥 𝑑𝑥
   
𝑓 𝑥 + ℎ − 𝑓(𝑥)  
lim  
!→! ℎ CHAIN  RULE  
   
ℎ = Δ𝑥 = 𝑥′ − 𝑥   𝑑
  𝑔 𝑓 𝑥 = 𝑔! 𝑓(𝑥) . 𝑓′(𝑥)  
𝑑𝑥
   
  solve  f(x)  apply  in  g’(x)  
DERIVATIVES    
   
𝜕 !  
𝑥 = 𝑛. 𝑥 !!!  
𝜕𝑥  
  VARIANCE  
𝜕 ! 𝜕𝑦 ! 𝜕𝑦  
𝑦 = .  
𝜕𝑥 𝜕𝑦 𝜕𝑥 (𝑥 − 𝑥)!
  𝑉𝑎𝑟 =  
𝑛−1
   
PRODUCT  RULE    
   
𝑑 STANDARD  DEVIATION  
𝑓 𝑥 . 𝑔 𝑥 = 𝑓′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 . 𝑔′(𝑥)    
𝑑𝑥
  𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒  
   
 
COVARIANCE   LOSS  
   
  𝐿𝑜𝑠𝑠 = 𝐵𝑖𝑎𝑠 ! + 𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ! + 𝑁𝑜𝑖𝑠𝑒  
𝑥 − 𝑥 . (𝑦 − 𝑦)  
𝐶𝑜𝑣 =    
𝑛−1
  SUM  OF  SQUARED  ERRORS  
   
  (𝑦 − 𝑦)!
CONFIDENCE  INTERVAL   𝐸𝑤 =  
2
   
𝜎  
𝑥 ± 1.96  
𝑛 COST  FUNCTION  
   
  (𝑦 − 𝑦)!
  𝐽 𝜃! ≔ 𝜃! − 𝜂.  
2
CONFIDENCE  INTERVAL  ERROR    
   
   
𝑒𝑟𝑟𝑜𝑟(1 − 𝑒𝑟𝑟𝑜𝑟)  
𝑒𝑟𝑟𝑜𝑟 ± 1.96.   GINI  COEFFICIENT  
𝑁  
   
  (𝑁 + 1 − 𝑥). 𝑦!
  𝑁 + 1 − 2.
𝑦
CHI  SQUARED   𝐺𝑖𝑛𝑖 =  
𝑁
   
(𝑦 − 𝑦)! 𝛿 !  
𝐶ℎ𝑖 = =  
𝑦 𝑦  
  NUMBER  OF  EXAMPLES  
   
1
  log(𝑁! ) + log  (𝛿 )
R  SQUARED   𝑚≥  
𝜖
   
  𝑦
𝑛 𝑥𝑦 − 𝑥. 𝑦 𝑤ℎ𝑒𝑟𝑒  𝜖 =   ∧  𝛿 = 𝑦 − 𝑦  
𝑅! =   𝑦
𝑛 𝑥 ! − ( 𝑥)! . 𝑛 𝑦 ! − ( 𝑦)!  
MARKOV  CHAINS   𝑓 𝑥 = 𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 ! . [𝑥!! . . . 𝑥!" ]  
   
 
𝑃!!! 𝑋 = 𝑥 = 𝑃! . 𝑋 = 𝑥 . 𝑇(𝑥 → 𝑥)    
! t-­‐SNE  
   
   
  ||𝑥! − 𝑥! ||!
K  NEAREST  NEIGHBOR   exp   −
2𝜎 !
  𝐶𝑜𝑛𝑑𝑖𝑡. 𝑃𝑟𝑜𝑏 =  
𝑓(𝑥) ||𝑥! − 𝑥! ||!
exp   −
𝑓 𝑥 ←   2𝜎 !
𝑘  
 
 
 
||𝑦! − 𝑦! ||!
! exp   −
𝐷𝐸 𝑥! , 𝑥! = 𝑥! − 𝑥! + (𝑦!" − 𝑦!" )!   2𝜎 !
𝐶𝑜𝑛𝑑𝑖𝑡. 𝑃𝑟𝑜𝑏 =  
  ||𝑦! − 𝑦! ||!
exp   −
  2𝜎 !
WEIGHTED  NEAREST  NEIGHBOR    
   
(!! )
  𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦 = 2!(!! )  
𝑓(𝑥)  
𝑓 𝑥 = . 𝐷(𝑥! 𝑥! )!    
𝐷(𝑥! 𝑥! )!
  where:  
   
   
PRINCIPAL  COMPONENTS  ANALYSIS   𝐻 𝑃! = − 𝑝!|!  𝑙𝑜𝑔! 𝑃!|!  
  !
𝑥′ = 𝑥 − 𝑥    
   
𝐸𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒 = 𝐴 − 𝜆𝐼    
  COSINE  DISTANCE  
   
𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 = 𝐸𝑛𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒. [𝐴]    
  𝑢. 𝑣
𝐶𝑜𝑠 =  
  𝑢 . 𝑣
 
   
TF-­‐IDF    
  𝑃
= 𝑒 !"!!  
  1−𝑃
𝑁  
𝑤!" = 𝑡𝑓!" . 𝑙𝑜𝑔    
𝑑𝑓!
   
  𝑦. log  (𝑦) + 1 − 𝑦 . log  (1 − 𝑦)
𝐽 𝜃 =−  
  𝑛
LINEAR  REGRESSION    
  1
𝑤ℎ𝑒𝑟𝑒  𝑦 =  
  1 + 𝑒 !"!!
!
𝑥! 𝑥! 𝑦 − 𝑥! 𝑥! 𝑥! 𝑦  
𝑚! =   𝑓𝑜𝑟  𝑦 = 0     ∧  𝑦 = 1  
𝑥!! 𝑥!! − ( 𝑥! 𝑥! )!
 
 
−2𝐿𝐿 → 0  
 
 
𝑏 = 𝑦 − 𝑚! 𝑥! − 𝑚! 𝑥!  
 
 
𝑥  ! ~  𝑥!   ≠ 𝑥! ′  ~  𝑥! ′  
 
!  
𝑓 𝑥 = 𝑚! 𝑥! + 𝑏    
𝑝
!!! 𝑚𝑥 + 𝑏 =  
  1−𝑝
   
𝐴 = 𝑋! . 𝑋 !!
. 𝑋 ! . 𝑌    
𝑚𝑥 + 𝑏
  𝑃 𝑎𝑐 =  
  𝑚𝑥 + 𝑏 + 1
𝑏  
where  𝐴 =    
𝑚
   
  DECISION  TREES  
   
!
LOGISTIC  REGRESSION  
  𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑃. log  (𝑃)  
  !!!
𝑃  
𝑂𝑑𝑑𝑠  𝑅𝑎𝑡𝑖𝑜 = 𝑙𝑜𝑔 = 𝑚𝑥 + 𝑏    
1−𝑃
𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛 = 𝑃! . −𝑃!! . log 𝑃!! − 𝑃!(!!!) −. log  (𝑃!(!!!) )   MUTUAL  INFORMATION  
   
   
  𝐼 𝐴, 𝐵 = 𝐻 𝐴 − 𝐻(𝐴|𝐵)  
RULE  INDUCTION    
   
𝐺𝑎𝑖𝑛 = 𝑃. [ −𝑃!!! . log  (𝑃) − (−𝑃! . log  (𝑃))]    
  EIGENVECTOR  CENTRALITY  =  PAGE  RANK  
   
RULE  VOTE   1−𝑑 𝑃𝑅(𝐵) 𝑃𝑅(𝑛)
𝑃𝑅 𝐴 = −d +  
  𝑛 𝑂𝑢𝑡(𝐵) 𝑂𝑢𝑡(𝑛)
Weight=accuracy  .  coverage    
  where  d=1  few  connections  
   
ENTROPY   RATING  
   
  𝑅 = 𝑅! + 𝛼 𝑤! . (𝑅!" − 𝑅! )  
𝐻 𝐴 =− 𝑃 𝐴 . 𝑙𝑜𝑔𝑃(𝐴)    
   
  SIMILARITY  
JOINT  ENTROPY    
  ! 𝑅!" − 𝑅! . (𝑅!" − 𝑅! )
  𝑤!" =  
! 𝑅!" − 𝑅! ! . (𝑅!" − 𝑅! )!
𝐻 𝐴, 𝐵 = − 𝑃 𝐴, 𝐵 . 𝑙𝑜𝑔𝑃(𝐴, 𝐵)  
   
   
   
CONDITIONAL  ENTROPY    
   
  CONTENT-­‐BASED  RECOMMENDATION  
 
𝐻 𝐴|𝐵 = − 𝑃 𝐴, 𝐵 . 𝑙𝑜𝑔𝑃(𝐴|𝐵)   !"#$$ !

  𝑅𝑎𝑡𝑖𝑛𝑔 = 𝑥! 𝑦!  
  !!! !!!
   
   
  LOGIT  
COLLABORATIVE  FILTERING    
  𝑝
log 𝑜𝑑𝑑𝑠 = 𝑤𝑥 + 𝑏 = 𝑙𝑜𝑔  
  1−𝑝
𝑅!" = 𝑅! + 𝛼.    
 
𝑅!" − 𝑅! . (𝑅!" − 𝑅! )  
!
𝑅!" − 𝑅! .   SOFTMAX  NORMALIZATION  
! 𝑅!" − 𝑅! ! . (𝑅!" − 𝑅! )!  
𝑒 !"!!
  𝑆(𝑓 𝑥 ) =  
𝑒 !"!!
   
   
BATCH  GRADIENT  DESCENT    
  CROSS  ENTROPY  
   
(𝑦 − 𝑦)! . 𝑥
𝐽 𝜃! ≔ 𝜃! ± 𝜂.   𝐻(𝑆 𝑓 𝑥 , 𝑓 𝑥 =− 𝑓 𝑥 . 𝑙𝑜𝑔𝑆(𝑓 𝑥 )  
2𝑛
   
   
STOCHASTIC  GRADIENT  DESCENT   LOSS  
   
  𝐻(𝑆(𝑓 𝑥 , 𝑓(𝑥))
𝐿𝑜𝑠𝑠 =  
𝐽 𝜃! ≔ 𝜃! ± 𝜂. (𝑦 − 𝑦)! . 𝑥   𝑁
   
   
   
   
  L2  REGULARIZATION  
NEURAL  NETWORKS    
  𝜆. 𝑤 !
! 𝑤 ← 𝑤 − 𝜂. 𝛿. 𝑥 +  
2
𝑓 𝑥 = 𝑜 = 𝑤! + 𝑤! 𝑥!    
!!!  
   
 
SIGMOID   AVOID  OVERFIT  NEURAL  NETWORKS  L2  
   
1 !"# !"# (𝑡 − 𝑜)!
  𝑤= + F. 𝑤!"!  
1 + 𝑒 !(!"!!) 2
   
   
  where  F=penalty  
RADIAL  BASIS  FUNCTION    
   
   
(!!!)! BACKPROPAGATION  
!
ℎ 𝑥 =𝑒 !!    
   
  𝛿! = 𝑜! . 1 − 𝑜! . (𝑡 − 𝑜! )  
PERCEPTRON    
   
!

𝑓 𝑥 = 𝑠𝑖𝑔𝑛 𝑤! 𝑥!"   𝛿! = 𝑜! . 1 − 𝑜! . 𝑤!" 𝛿!  


!!!  
   
  𝑤!" ← 𝑤!" + 𝜂!" . 𝛿! . 𝑥!"  
PERCEPTRON  TRAINING  
 
 
𝑤! = 1 + (𝑡 − 𝑜! )  
𝑤! ← 𝑤! + ∆𝑤!  
 
 
 
∆𝑤! = 𝜂. 𝑡 − 𝑜 . 𝑥  
  ∆𝑤!" (𝑛) = 𝜂. 𝛿! . 𝑥!" + 𝑀. ∆𝑤!" (𝑛 − 1)  
   
ERROR  FOR  A  SIGMOID   where  M=momentum  
   
   
NEURAL  NETWORKS  COST  FUNCTION  
𝜖= 𝑡 − 𝑜 . 𝑜. 1 − 𝑜 . 𝑥    
!! !!!! !
  !
!!!
!
!!! 𝑡! . log 𝑜 + 1 − 𝑡 . log  (1 − 𝑜)
𝜆 !!!!! !!! !!! 𝜃!"
  𝐽! = +  
𝑁 2𝑁
   
   
   
MOMENTUM  Υ   ADAM  
   
  𝜂
𝜃=𝜃− . 𝑚  
𝜃 = 𝜃 − (𝛾𝑣!!! + 𝜂. ∇𝐽 𝜃 )   𝑣+𝜖
   
   
  𝛽! 𝑚!!! + 1 − 𝛽! . ∇𝐽(𝜃)
𝑚=  
  1 − 𝛽!
NESTEROV    
   
  𝛽! 𝑣!!! + 1 − 𝛽! . ∇𝐽(𝜃)!
𝜃 = 𝜃 − (𝛾𝑣!!! + 𝜂. ∇𝐽(𝜃 − 𝛾𝑣!!! ))   𝑣=  
1 − 𝛽!
   
   
ADAGRAD    
  RESTRICTED  BOLTZMANN  MACHINES  
   
𝜂
𝜃=𝜃− . ∇𝐽(𝜃)    
𝑆𝑆𝐺!"#$ + 𝜖
𝐸 𝑣, ℎ = − 𝑣! ℎ! 𝑤!"  
 
ADADELTA    
  where  v  =  binary  state  visible  
𝑅𝑀𝑆[∆𝜃]!!!  
𝜃=𝜃−   h  =  binary  state  hidden  
𝑅𝑀𝑆∇𝐽(𝜃)
   
   
𝑅𝑀𝑆 Δ𝜃 = 𝐸 ∆𝜃 ! + 𝜖   𝑒 !!(!,!)
𝑝 𝑣, ℎ = !!(!,!)
 
  !" 𝑒
   
RMSprop    
!!(!,!)
  !𝑒
  𝑝 𝑣 = !!(!,!)
 
!,! 𝑒
𝜂
𝜃=𝜃− . ∇𝐽(𝜃)    
𝐸 𝑔! + 𝜖  
 
𝜕  
log 𝑝 𝑣 =< 𝑣!  ℎ! >! −< 𝑣!  ℎ! >!  
𝜕𝑤𝑖𝑗 𝑦 = 1   ∧ 𝑦 = −1  
   
   
𝜕 𝐷𝑜𝑡𝑃𝑟𝑜𝑑𝑢𝑐𝑡 = 𝑥! . 𝑐𝑜𝑠𝜃  
∆𝑤!" = 𝜂. log 𝑝(𝑣)    
𝜕𝑤!"
∆𝑤!" = 𝜂. (< 𝑣!  ℎ! >! −< 𝑣!  ℎ! >! )    
𝑐𝑜𝑠 𝜃 + 𝑠𝑒𝑛! 𝜃 = 1  
!
 
 
 
 
 
!
  𝑥! − 𝑥! + (𝑦!" − 𝑦!" )!
CONVOLUTIONAL  NEURAL  NETWORKS   𝑠𝑒𝑛𝜃 =  
  𝑥!
(𝑁 − 𝐹)  
𝑂𝑢𝑡𝑝𝑢𝑡  𝑆𝑖𝑧𝑒 = + 1  
𝑆 𝑥! − 𝑥! ! + (𝑦! − 𝑦! )!
  𝑥! ∙ 𝑥! = (𝑥! ! + 𝑦! ! ). 1 −  
𝑥! ! + 𝑦! !
 
   
where:  N=  input  size    
F  =  filter  size   SUPPORT  VECTOR  REGRESSION  
S  =  Stride  steps    
Convolution2D(N  filters,  filter_size,  filter_size…)   𝑌 = 𝑤. < 𝑥! ∙ 𝑥! > +𝑏  
   
   
SUPPORT  VECTOR  MACHINES   𝑦 − (𝑤. < 𝑥! ∙ 𝑥! > +𝑏) ≤ 𝜀  
   
𝑓 𝑥 = 𝑠𝑖𝑔𝑛 𝜆. 𝑦. 𝐾(𝑥! ∙ 𝑥! )    
  𝑤. < 𝑥! ∙ 𝑥! > +𝑏 − 𝑦 ≤ 𝜀  
 
!
𝑥! − 𝑥! + (𝑦! − 𝑦! )!  
𝐾 𝑥! ∙ 𝑥! = 𝑒𝑥𝑝 −   RIDGE  REGRESSION  -­‐  REGULARIZATION  
𝑤𝑖𝑑𝑡ℎ!!"#  
𝑦 − 𝑦 ! 𝜆. 𝑚
  𝑚≔𝑚− −  
𝑁 𝑁
𝜆 → ∇𝐿 = 0    
   
𝜆  
𝑦 = 𝜆. 𝑚𝑥 + 𝑏 −  
𝑁 CRONBACH  
   
  >  .60  .70  
LASSO  REGRESSION    -­‐  REGULARIZATION    
   
  MEDIAN  
   
(𝑦 − 𝑦)! 𝜆. 𝑏 𝑀𝑎𝑥 − 𝑀𝑖𝑛
𝑏≔ +    
𝑁 𝑁 2
   
𝑚 → 0    
   t  TEST  
𝜆  
𝑦 = 𝑚𝑥 + 𝜆. 𝑏 +   𝑥! − 𝑥! − (𝜇! − 𝜇! )
𝑁 𝑡=  
  𝑥! − 𝑥!
   
  Difference  significant  sig  <  .05  
   
SKEWNESS   t  TEST  2  SAMPLES  
   
Skewness  <  1   Levene  Variância  
   
   
  ANOVA  +  3  
KOLMOGOROV  SMIRNOV    
  𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒  𝑏𝑒𝑡𝑤𝑒𝑒𝑛  𝑔𝑟𝑜𝑢𝑝𝑠
Normal  sig  >  .005   𝐹=  
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎  𝑖𝑛𝑠𝑖𝑑𝑒  𝑔𝑟𝑜𝑢𝑝
  Sig  <  .05  
  TOLERANCE  
   
NON  PARAMETRIC    
  Tolerance  >  .1  
T  test  =  Normal      
  1
Test  U  Mann  Whitney  sig  <  .05   𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 =  
𝑉𝐼𝐹
   
  Wilk’s  Lambda  sig  <  .05  
VARIANCE  INFLATION  FACTOR    
   
VIF  <10   𝑥  ! ~  𝑥!   ≠ 𝑥! ′  ~  𝑥! ′  
   
!
  1 1 𝑥−𝑥
  𝑃 𝑥𝑥 = . 𝑒𝑥𝑝 −  
2𝜋𝜎 ! 2 𝜎
ENTER  METHOD    
   
+  15  cases  /  Variable   𝑁! 𝐶! + 𝑁! 𝐶!
  𝑍!" =  
𝑁! + 𝑁!
 
 
 
 
STEPWISE  METHOD  
 
 
ERROR  MARGIN  
+  50  cases  /  Variable  
 
  𝜎
  1.96    
𝑁
  ACCURACY  
VARIABLE  SELECTION    
  Confidence  Interval  ~  P  value  
F  Test  =  47  sig  <  .05    
   
   
  HYPOTHESES  TESTING  
MISSING  DATA    
  P  value  <  .05  
Delete  if  >  15%    
   
  TRANSFORMATION  OK  
   
DISCRIMINANT  ANALYSIS   𝑥
  < 4  
𝜎
   
Box  M  sig  <  .05  reject  H0    
   
 
MULTICOLLINEARITY   MANHATTAN  DISTANCE  L  
   
Correlation  >  .90   𝑀𝑎𝑛ℎ = |𝑥! − 𝑥! | + |𝑦! − 𝑦! |  
   
VIF  <10    
  NET  PRESENT  VALUE  
Tolerance  >  .1    
  𝑃! = 𝑃! . 𝜃 !  
   
SUM  OF  SQUARES  (explain)   𝑃! = 𝑃! . 𝜃 !!  
   
𝑆𝑆!"#!"$$%&'   . (𝑁 − 𝑐𝑜𝑒𝑓) !
𝑐𝑎𝑝𝑖𝑡𝑎𝑙
𝐹!"#$% =   NPV = investment +  
𝑐𝑜𝑒𝑓 − 1  . 𝑆𝑆!"#$%&'(# (1 + 𝑟𝑎𝑡𝑒)!
  !!!
   
  NPV=0  (IRR)  
   
STANDARD  ERROR  ESTIMATE  (SEE)    
   
  MARKOV  DECISION  PROCESS  
 
𝑆𝑢𝑚𝑆𝑞𝑢𝑎𝑟𝑒𝑑𝐸𝑟𝑟𝑜𝑟𝑠
𝑆𝐸𝐸 =   𝑈! = 𝑅! + 𝛿   max 𝑇 𝑠, 𝑎, 𝑠′ . 𝑈(𝑠′)  
𝑛−2 !
!
   
  𝜋! = argmax 𝑇 𝑠, 𝑎, 𝑠′ . 𝑈(𝑠′)  
!
(𝑦 − 𝑦)! !
𝑆𝐸𝐸 =    
𝑛−2
  𝑄!,! = 𝑅! + 𝛿   max 𝑇 𝑠, 𝑎, 𝑠 ! . max 𝑄(𝑠 ! , 𝑎′)  
!! !  !
!
 
 
MAHALANOBIS  DISTANCE  
𝑄!,! ←! 𝑅! + 𝛿   max 𝑄 𝑠 ! , 𝑎′  
same  variable   !
   
 
(𝑥! − 𝑥! )!  
𝑀=  
𝜎!  
 
ARIMA  ~  NPV    
  AXIOMATIC    
𝐵! 𝑌! = 𝑌!!!  (Backward  Shift  Operator)    
  𝑃(𝐴) ≥ 0  
𝐵! 𝑌 = 𝐵 𝐵𝑌! = 𝐵 𝑌!!! = 𝑌!!!    
  𝑃(𝐴, 𝐵, 𝐶) = 1  
ARIMA(1,1,1):    
   
AR  =  number  autoregressive  terms    
  PROBABILITY  THEOREMS  
B=number  non-­‐seasonal  needed  for  stationary    
   
MA=number  lagged  errors   JOIN  =  A  or  B  
   
1 − 𝜙! 𝐵 1 − 𝐵 𝑌! = 1 − 𝜃! 𝐵 𝑒!   𝑃(𝐴𝑈𝐵)!"#$%&!'( = 𝑃 𝐴 + 𝑃(𝐵)  
   
where   1 − 𝜙! 𝐵 =AR  (Autoregression)    
  𝑃(𝐴𝑈𝐵)!"#  !"#$%&!'( = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)  
and   1 − 𝜃! 𝐵 =MA  (Mean  Average)    
   
and  e=noise   𝑃(𝐴𝑈𝐵𝑈𝐶)!"#  !"#$%&!'(
  = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 ∩ 𝐵 − 𝑃(𝐴 ∩ 𝐶) − 𝑃(𝐵
  ∩ 𝐶) − 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)  
PROBABILITY  (coins)    
  COMPLEMENTARY  EVENT  
   
𝑃(𝑎)  
𝑃 𝑎 =   𝑃 Ã = 1 − 𝑃(𝐴)  
𝑃(𝐴)
   
   
   
FREQUENTIST   MARGINAL  PROBABILITY  
   
𝑃(𝐴 = 𝑎)
  𝑃 𝑎 =  
𝑚 𝑠𝑢𝑐𝑒𝑠𝑠𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑃(𝐴)
lim = = =    
!→! 𝑛 𝑡𝑜𝑑𝑎𝑠  𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑒𝑠𝑝𝑎ç𝑜  𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙
   
   
  TOTAL  PROBABILITY  (jars)  
PROBABILITY  A  and  B    
  𝑃 𝐵 = 𝑃 𝐴∩𝐵 = 𝑃 𝐴 . 𝑃(𝐵|𝐴)  
𝑃(𝐴 ∩ 𝐵)
𝑃 𝐴  𝑒  𝐵 =    
𝑃(𝐵)
   
   
  PROBABILITY  k  SUCCESS  in  n  TRIALS  
CONDITIONAL  PROBABILITY    
𝑛
  𝑃 𝑘  𝑖𝑛  𝑛 = . 𝑝! . (1 − 𝑝)!!!  
𝑘
   
𝑃 𝐴 𝐵 !"#$%$"#$"&' = 𝑃(𝐴)   INTEGRALS  
   
  !
  𝐹 𝑏 − 𝐹 𝑎  
!
 
 
BAYES  (52  cards  ,  cancer)  
 
  !
1 1 1
  𝑥 ! 𝑑𝑥 = 𝑥 ! = 2! − 1!  
𝑃(𝐴 ∩ 𝐵) 𝑃 𝐵 𝐴 . 𝑃(𝐴) ! 3 3 3
𝑃 𝐴𝐵 = =    
𝑃(𝐵) 𝑃(𝐵)
   
  PRODUCT  RULE  
BINOMIAL  DISTRIBUTION  (0,1  success)    
   
  𝑐. 𝑓′ 𝑥 . 𝑑𝑥 = 𝑐 𝑓′ 𝑥 . 𝑑𝑥  
𝑠𝑎𝑚𝑝𝑙𝑒  𝑠𝑝𝑎𝑐𝑒
𝑃 𝐷 = . 𝑃 𝑠 ! . (1 − 𝑃 𝑠 )!!!    
𝑠𝑢𝑐𝑒𝑐𝑠𝑠
   
𝑠𝑎𝑚𝑝𝑙𝑒  𝑠𝑝𝑎𝑐𝑒  
𝑃 𝐷 = . 𝑃 𝑠 ! . (𝑃 𝑠 )!!!  
𝑠𝑢𝑐𝑒𝑐𝑠𝑠  
  CHAIN  RULE  
𝑐!  
𝑃 𝐷 = . 𝑃 𝑎 ! . (1 − 𝑃 𝑎 )!!!  
𝑎! 𝑐 − 𝑎 !  
 
𝑓 𝑥 + 𝑔 𝑥 . 𝑑𝑥 = 𝑓 𝑥 . 𝑑𝑥 + 𝑔 𝑥 . 𝑑(𝑥)  
 
  𝐴!,! ∗ 𝐵!,! = 𝐶!,!  
INTEGRATION    
  0 3 6
1
  1 3 ∗ = 7  
Δ𝑥 = 0 2
𝑓′ 𝑥 . Δ𝑥   2 4 9
𝑁→∞  
   
  1 2 3 1 5
DIFFERENTIATION   1 4 5 ∗ 2 = 9  
  0 3 2 0 6
   
𝑓 𝑎 + Δ𝑥 − 𝑓(𝑎) OR  
lim    
!→! Δ𝑥
  1 2 3 1 1 2 3 5
  1 4 5 ∗ 2 = 1 ∗ 1 + 2 ∗ 4 + 0 ∗ 5 = 9  
LINEAR  ALGEBRA   0 3 2 0 0 3 2 6
 
 
 
ADDITION  
x  Matrix:  Column  A  =  Rows  B  
 
Rows  A  =  Column  B  
 
1 2 2 2 2 4  
+ =   𝑨𝟐,𝟏 = 𝟐𝒏𝒅  𝒓𝒐𝒘  𝒙  𝟏𝒂  𝒄𝒐𝒍𝒖𝒎𝒏  
4 3 5 3 9 6
   
  0 3
1 2 3 8 24
SCALAR  MULTIPLY   ∗ 1 3 =  
0 4 5 14 37
  2 5
   
2 2 6 6  
3∗ =   1 2 3
5 3 15 9
  1 2 0 ∗ 4 5 6 = 12 30 0  
  7 8 9
MATRIX  VECTOR  MULTIPLICATION    
   
Rows  x  Columns    
   
x  Vetor:  Column  A  =  Rows  B    
   
 
IMPORTANT   DIAGONAL  
   
𝑨𝟐,𝟑 = 𝟐𝒂  𝒓𝒐𝒘  𝒙  𝟑𝒂  𝒄𝒐𝒍𝒖𝒎𝒏   2 0 0
  0 2 0  
  0 0 2
1 0 0 1 2 1  
−3 1 0 ∗ 3 8 1 =    
0 0 1 0 4 1 TRANSPOSE  
   
𝐴!,! 𝐴!,! 𝐴!,! 1 2 1 1 4
1 2 3 !
= 𝐴!,! 𝐴!,! 𝐴!,! = 0 2 −2   𝐴=  𝐴 = 2 5  
4 5 6
𝐴!,! 𝐴!,! 𝐴!,! 0 4 1 3 6
 
   
  PROPERTIES  
PERMUTATION    
   
LEFT=exchange  rows   Not  commutative  
  𝐴 ∗ 𝐵 ≠ 𝐵 ∗ 𝐴  
0 1 𝑎 𝑏 𝑐 𝑑
∗ =    
1 0 𝑐 𝑑 𝑎 𝑏
   
RIGHT=exchange  columns   Associative  
  𝐴 ∗ 𝐵 ∗ 𝐶 = 𝐴 ∗ (𝐵 ∗ 𝐶)  
𝑎 𝑏 0 1 𝑏 𝑎  
∗ =    
𝑐 𝑑 1 0 𝑑 𝑐
   
  Inverse  (only  squared)  
   
IDENTITY   1
𝐴!! ≠  
  𝐴
1 0 0  
0 1 0   1 0
𝐴!! . 𝐴 = 𝐼 =  
0 0 1 0 1
   
   
   
   
 
DETERMINANT  
 
 
1 3
= 1.2 − 3.4 = −10  
4 2
 
 
1 4 7 1 4
2 5 8 2 5 = 1.5.9 + 4.8.3 + 7.2.6 − 7.5.3 − 1.8.6 − 4.2.9  
3 6 9 3 6
 
 
DEMAND  ELASTICITY  
 
(𝑄! − 𝑄! ) (𝑃! + 𝑃! )
𝜌= .  
(𝑄! + 𝑄! ) (𝑃! − 𝑃! )

You might also like