Professional Documents
Culture Documents
ESTADSTICA NO PARAMTRICA
La estadstica no paramtrica es una rama de la estadstica que estudia las pruebas y modelos
estadsticos cuya distribucin subyacente no se ajusta a los llamados criterios paramtricos. Su
distribucin no puede ser definida a priori, pues son los datos observados los que la determinan. La
utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se
ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea, como mnimo, de
intervalo.
1) Prueba de Pearson
La prueba de Pearson es considerada como una prueba no paramtrica que mide la discrepancia
entre una distribucin observada y otra terica (bondad de ajuste), indicando en qu medida las
diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hiptesis.
Tambin se utiliza para probar la independencia de dos variables entre s, mediante la presentacin
de los datos en tablas de contingencia.
La frmula que da el estadstico es la siguiente:
Cuanto mayor sea el valor de 2, menos verosmil es que la hiptesis sea correcta. De la misma
forma, cuanto ms se aproxima a cero el valor de chi-cuadrado, ms ajustadas estn ambas
distribuciones.
Criterio de decisin:
Se acepta H0 cuando . En caso contrario se rechaza.
Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin estadstica
elegido.
2) Correccin de Yates
La correccin de Yates se aplica a la prueba ji-cuadrado cuando al menos el valor de una frecuencia
esperada es menor que 5.
Chi-cuadrado corregida:
3) Prueba
4) Distribucin
Donde Zi son variables aleatorias normales independientes de media cero y varianza uno. El que la
variable aleatoria X tenga esta distribucin se representa habitualmente as: .
Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi y se pronuncia en
castellano como ji.
Contenido
1 Propiedades
o 1.1 Funcin de densidad
o 1.2 Funcin de distribucin acumulada
2 Relacin con otras distribuciones
3 Aplicaciones
1) Propiedades
Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede
aproximarse por una distribucin normal:
3) Aplicaciones
La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la
denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y
en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de
una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de
regresin lineal, a travs de su papel en la distribucin t de Student.
Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F
de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con
distribucin .
donde:
Esta integral no tiene una solucin conocida, y solo se conocen mtodos numricos para calcular sus
valores, hay distintos tipos de tablas y algoritmos para ordenador con los que se pueden calcular sus
soluciones, veamos una tabla distribucin chi-cuadrado y su modo de utilizacin.
Contenido
1 La Tabla
2 Para otros valores de x
o 2.1 Para la variable mayor que x
2.1.1 Ejemplo
o 2.2 Para la variable mayor que x1 y menor que x2
2.2.1 Ejemplo
o 2.3 Interpolacin lineal.
2.3.1 Ejemplo
3 Tabla inversa de distribucin chi-cuadrado
o 3.1 Calculo de la probabilidad con la tabla inversa.
3.1.1 Ejemplo
4 Para valores de k grandes
La Tabla
Esta tabla presenta la distribucin de probabilidad de chi-cuadrado para distintos valores de k(de 1 a
10) y de x(de 0 a 20 de 0,2 de incremento), presentndolo con seis cifras decimales, separadas de
tres en tres por un espacio en blanco para facilitar la lectura, en la fila superior estn los valores de k,
y en la columna de la izquierda los de x, donde se cruzan la columna de la k buscada y la fila de la x,
se encuentra el valor de la probabilidad acumulada desde 0 a la x buscada.
29
0,2 0,345 279 0,095 163 0,022 411 0,004 679 0,000 886 0,000 155 0,000 025 0,000 004 0,000 001 0,000 000
0,4 0,472 911 0,181 269 0,059 758 0,017 523 0,004 670 0,001 148 0,000 263 0,000 057 0,000 012 0,000 002
0,6 0,561 422 0,259 182 0,103 568 0,036 936 0,011 997 0,003 599 0,001 008 0,000 266 0,000 066 0,000 016
0,8 0,628 907 0,329 680 0,150 533 0,061 552 0,022 967 0,007 926 0,002 556 0,000 776 0,000 223 0,000 061
1,0 0,682 689 0,393 469 0,198 748 0,090 204 0,037 434 0,014 388 0,005 171 0,001 752 0,000 562 0,000 172
1,2 0,726 678 0,451 188 0,246 996 0,121 901 0,055 123 0,023 115 0,009 073 0,003 358 0,001 179 0,000 394
1,4 0,763 276 0,503 415 0,294 465 0,155 805 0,075 687 0,034 142 0,014 429 0,005 753 0,002 177 0,000 786
1,6 0,794 097 0,550 671 0,340 610 0,191 208 0,098 751 0,047 423 0,021 356 0,009 080 0,003 665 0,001 411
1,8 0,820 287 0,593 430 0,385 065 0,227 518 0,123 932 0,062 857 0,029 924 0,013 459 0,005 750 0,002 344
2,0 0,842 701 0,632 121 0,427 593 0,264 241 0,150 855 0,080 301 0,040 160 0,018 988 0,008 532 0,003 660
2,2 0,861 989 0,667 129 0,468 052 0,300 971 0,179 164 0,099 584 0,052 053 0,025 742 0,012 104 0,005 435
2,4 0,878 665 0,698 806 0,506 365 0,337 373 0,208 526 0,120 513 0,065 563 0,033 769 0,016 547 0,007 746
2,6 0,893 136 0,727 468 0,542 510 0,373 177 0,238 635 0,142 888 0,080 619 0,043 095 0,021 928 0,010 663
2,8 0,905 736 0,753 403 0,576 500 0,408 167 0,269 214 0,166 502 0,097 133 0,053 725 0,028 301 0,014 253
3,0 0,916 735 0,776 870 0,608 375 0,442 175 0,300 014 0,191 153 0,114 998 0,065 642 0,035 705 0,018 576
3,2 0,926 362 0,798 103 0,638 195 0,475 069 0,330 817 0,216 642 0,134 095 0,078 813 0,044 165 0,023 682
3,4 0,934 804 0,817 316 0,666 035 0,506 754 0,361 430 0,242 777 0,154 299 0,093 189 0,053 692 0,029 615
3,6 0,942 220 0,834 701 0,691 978 0,537 163 0,391 687 0,269 379 0,175 477 0,108 708 0,064 284 0,036 407
3,8 0,948 747 0,850 431 0,716 114 0,566 251 0,421 445 0,296 280 0,197 496 0,125 298 0,075 924 0,044 081
4,0 0,954 500 0,864 665 0,738 536 0,593 994 0,450 584 0,323 324 0,220 223 0,142 877 0,088 587 0,052 653
4,2 0,959 576 0,877 544 0,759 338 0,620 385 0,479 005 0,350 369 0,243 525 0,161 357 0,102 237 0,062 126
4,4 0,964 061 0,889 197 0,778 615 0,645 430 0,506 626 0,377 286 0,267 277 0,180 648 0,116 829 0,072 496
4,6 0,968 028 0,899 741 0,796 458 0,669 146 0,533 384 0,403 961 0,291 355 0,200 653 0,132 308 0,083 751
4,8 0,971 540 0,909 282 0,812 958 0,691 559 0,559 227 0,430 291 0,315 645 0,221 277 0,148 617 0,095 869
5,0 0,974 653 0,917 915 0,828 203 0,712 703 0,584 120 0,456 187 0,340 037 0,242 424 0,165 692 0,108 822
5,2 0,977 413 0,925 726 0,842 276 0,732 615 0,608 037 0,481 570 0,364 429 0,263 998 0,183 463 0,122 577
5,4 0,979 863 0,932 794 0,855 256 0,751 340 0,630 964 0,506 375 0,388 728 0,285 908 0,201 861 0,137 092
5,6 0,982 040 0,939 190 0,867 222 0,768 922 0,652 895 0,530 546 0,412 849 0,308 063 0,220 812 0,152 324
5,8 0,983 974 0,944 977 0,878 243 0,785 409 0,673 831 0,554 037 0,436 713 0,330 377 0,240 244 0,168 223
6,0 0,985 694 0,950 213 0,888 390 0,800 852 0,693 781 0,576 810 0,460 251 0,352 768 0,260 082 0,184 737
6,2 0,987 225 0,954 951 0,897 725 0,815 298 0,712 758 0,598 837 0,483 400 0,375 160 0,280 253 0,201 811
6,4 0,988 588 0,959 238 0,906 309 0,828 799 0,730 781 0,620 096 0,506 105 0,397 480 0,300 687 0,219 387
29
6,6 0,989 802 0,963 117 0,914 199 0,841 402 0,747 872 0,640 574 0,528 320 0,419 662 0,321 314 0,237 410
6,8 0,990 884 0,966 627 0,921 447 0,853 158 0,764 055 0,660 260 0,550 003 0,441 643 0,342 067 0,255 818
7,0 0,991 849 0,969 803 0,928 102 0,864 112 0,779 360 0,679 153 0,571 120 0,463 367 0,362 881 0,274 555
7,2 0,992 710 0,972 676 0,934 211 0,874 311 0,793 814 0,697 253 0,591 643 0,484 784 0,383 695 0,293 562
7,4 0,993 478 0,975 276 0,939 816 0,883 799 0,807 450 0,714 567 0,611 548 0,505 847 0,404 451 0,312 781
7,6 0,994 163 0,977 629 0,944 956 0,892 620 0,820 298 0,731 103 0,630 818 0,526 515 0,425 097 0,332 156
7,8 0,994 775 0,979 758 0,949 669 0,900 815 0,832 392 0,746 875 0,649 440 0,546 753 0,445 580 0,351 635
8,0 0,995 322 0,981 684 0,953 988 0,908 422 0,843 764 0,761 897 0,667 406 0,566 530 0,465 854 0,371 163
8,2 0,995 811 0,983 427 0,957 946 0,915 479 0,854 448 0,776 186 0,684 711 0,585 818 0,485 876 0,390 692
8,4 0,996 248 0,985 004 0,961 571 0,922 023 0,864 475 0,789 762 0,701 354 0,604 597 0,505 608 0,410 173
8,6 0,996 638 0,986 431 0,964 890 0,928 087 0,873 878 0,802 645 0,717 336 0,622 846 0,525 014 0,429 562
8,8 0,996 988 0,987 723 0,967 928 0,933 702 0,882 688 0,814 858 0,732 664 0,640 552 0,544 063 0,448 816
9,0 0,997 300 0,988 891 0,970 709 0,938 901 0,890 936 0,826 422 0,747 344 0,657 704 0,562 726 0,467 896
9,2 0,997 580 0,989 948 0,973 253 0,943 710 0,898 652 0,837 361 0,761 386 0,674 294 0,580 979 0,486 766
9,4 0,997 830 0,990 905 0,975 581 0,948 157 0,905 866 0,847 700 0,774 801 0,690 316 0,598 801 0,505 391
9,6 0,998 054 0,991 770 0,977 709 0,952 267 0,912 604 0,857 461 0,787 603 0,705 770 0,616 173 0,523 741
9,8 0,998 255 0,992 553 0,979 655 0,956 065 0,918 895 0,866 669 0,799 807 0,720 655 0,633 082 0,541 788
10,0 0,998 435 0,993 262 0,981 434 0,959 572 0,924 765 0,875 348 0,811 427 0,734 974 0,649 515 0,559 507
10,2 0,998 596 0,993 903 0,983 060 0,962 810 0,930 237 0,883 522 0,822 480 0,748 732 0,665 462 0,576 875
10,4 0,998 740 0,994 483 0,984 545 0,965 797 0,935 337 0,891 213 0,832 984 0,761 935 0,680 916 0,593 872
10,6 0,998 869 0,995 008 0,985 902 0,968 553 0,940 086 0,898 446 0,842 957 0,774 590 0,695 874 0,610 482
10,8 0,998 985 0,995 483 0,987 142 0,971 094 0,944 507 0,905 242 0,852 416 0,786 709 0,710 333 0,626 689
11,0 0,999 089 0,995 913 0,988 274 0,973 436 0,948 620 0,911 624 0,861 381 0,798 301 0,724 291 0,642 482
11,2 0,999 182 0,996 302 0,989 308 0,975 594 0,952 444 0,917 612 0,869 870 0,809 378 0,737 751 0,657 850
11,4 0,999 266 0,996 654 0,990 252 0,977 582 0,955 999 0,923 227 0,877 902 0,819 952 0,750 716 0,672 785
11,6 0,999 340 0,996 972 0,991 113 0,979 413 0,959 301 0,928 489 0,885 496 0,830 037 0,763 190 0,687 282
11,8 0,999 408 0,997 261 0,991 899 0,981 098 0,962 367 0,933 418 0,892 669 0,839 647 0,775 179 0,701 335
12,0 0,999 468 0,997 521 0,992 617 0,982 649 0,965 212 0,938 031 0,899 441 0,848 796 0,786 691 0,714 943
12,2 0,999 522 0,997 757 0,993 271 0,984 076 0,967 852 0,942 347 0,905 829 0,857 499 0,797 732 0,728 106
12,4 0,999 571 0,997 971 0,993 869 0,985 388 0,970 301 0,946 382 0,911 852 0,865 771 0,808 313 0,740 823
12,6 0,999 614 0,998 164 0,994 413 0,986 595 0,972 570 0,950 154 0,917 525 0,873 626 0,818 443 0,753 096
12,8 0,999 653 0,998 338 0,994 910 0,987 704 0,974 673 0,953 676 0,922 866 0,881 081 0,828 133 0,764 930
13,0 0,999 689 0,998 497 0,995 363 0,988 724 0,976 621 0,956 964 0,927 892 0,888 150 0,837 394 0,776 328
13,2 0,999 720 0,998 640 0,995 777 0,989 661 0,978 425 0,960 032 0,932 617 0,894 849 0,846 237 0,787 296
29
13,4 0,999 748 0,998 769 0,996 153 0,990 522 0,980 095 0,962 894 0,937 058 0,901 192 0,854 674 0,797 841
13,6 0,999 774 0,998 886 0,996 497 0,991 313 0,981 640 0,965 562 0,941 229 0,907 194 0,862 718 0,807 969
13,8 0,999 797 0,998 992 0,996 810 0,992 038 0,983 069 0,968 048 0,945 145 0,912 870 0,870 380 0,817 689
14,0 0,999 817 0,999 088 0,997 095 0,992 705 0,984 391 0,970 364 0,948 819 0,918 235 0,877 675 0,827 008
14,2 0,999 836 0,999 175 0,997 355 0,993 317 0,985 612 0,972 520 0,952 264 0,923 301 0,884 613 0,835 937
14,4 0,999 852 0,999 253 0,997 592 0,993 878 0,986 741 0,974 526 0,955 493 0,928 083 0,891 209 0,844 484
14,6 0,999 867 0,999 324 0,997 808 0,994 393 0,987 785 0,976 393 0,958 517 0,932 594 0,897 474 0,852 660
14,8 0,999 880 0,999 389 0,998 004 0,994 865 0,988 748 0,978 129 0,961 350 0,936 847 0,903 422 0,860 475
15,0 0,999 892 0,999 447 0,998 183 0,995 299 0,989 638 0,979 743 0,964 001 0,940 855 0,909 064 0,867 938
15,2 0,999 903 0,999 500 0,998 347 0,995 696 0,990 459 0,981 243 0,966 481 0,944 629 0,914 413 0,875 061
15,4 0,999 913 0,999 547 0,998 495 0,996 060 0,991 217 0,982 636 0,968 800 0,948 181 0,919 481 0,881 855
15,6 0,999 922 0,999 590 0,998 631 0,996 394 0,991 916 0,983 930 0,970 967 0,951 523 0,924 281 0,888 330
15,8 0,999 930 0,999 629 0,998 754 0,996 700 0,992 561 0,985 131 0,972 992 0,954 666 0,928 823 0,894 497
16,0 0,999 937 0,999 665 0,998 866 0,996 981 0,993 156 0,986 246 0,974 884 0,957 620 0,933 118 0,900 368
16,2 0,999 943 0,999 696 0,998 968 0,997 238 0,993 704 0,987 280 0,976 649 0,960 395 0,937 179 0,905 951
16,4 0,999 949 0,999 725 0,999 061 0,997 473 0,994 210 0,988 239 0,978 297 0,963 000 0,941 016 0,911 260
16,6 0,999 954 0,999 751 0,999 146 0,997 689 0,994 676 0,989 129 0,979 834 0,965 446 0,944 639 0,916 303
16,8 0,999 958 0,999 775 0,999 223 0,997 886 0,995 105 0,989 953 0,981 268 0,967 740 0,948 058 0,921 092
17,0 0,999 963 0,999 797 0,999 293 0,998 067 0,995 500 0,990 717 0,982 604 0,969 891 0,951 284 0,925 636
17,2 0,999 966 0,999 816 0,999 357 0,998 233 0,995 864 0,991 424 0,983 849 0,971 907 0,954 325 0,929 946
17,4 0,999 970 0,999 833 0,999 415 0,998 384 0,996 200 0,992 080 0,985 009 0,973 797 0,957 192 0,934 032
17,6 0,999 973 0,999 849 0,999 468 0,998 523 0,996 508 0,992 686 0,986 089 0,975 566 0,959 892 0,937 902
17,8 0,999 975 0,999 864 0,999 516 0,998 650 0,996 792 0,993 248 0,987 094 0,977 223 0,962 434 0,941 567
18,0 0,999 978 0,999 877 0,999 560 0,998 766 0,997 054 0,993 768 0,988 030 0,978 774 0,964 826 0,945 036
18,2 0,999 980 0,999 888 0,999 600 0,998 872 0,997 294 0,994 249 0,988 900 0,980 224 0,967 077 0,948 318
18,4 0,999 982 0,999 899 0,999 636 0,998 969 0,997 515 0,994 693 0,989 710 0,981 580 0,969 194 0,951 420
18,6 0,999 984 0,999 909 0,999 669 0,999 058 0,997 719 0,995 105 0,990 463 0,982 848 0,971 183 0,954 353
18,8 0,999 985 0,999 917 0,999 699 0,999 140 0,997 906 0,995 485 0,991 163 0,984 033 0,973 052 0,957 122
19,0 0,999 987 0,999 925 0,999 727 0,999 214 0,998 078 0,995 836 0,991 813 0,985 140 0,974 807 0,959 737
19,2 0,999 988 0,999 932 0,999 751 0,999 282 0,998 236 0,996 161 0,992 417 0,986 174 0,976 455 0,962 205
19,4 0,999 989 0,999 939 0,999 774 0,999 344 0,998 381 0,996 461 0,992 978 0,987 139 0,978 001 0,964 533
19,6 0,999 990 0,999 945 0,999 795 0,999 401 0,998 515 0,996 738 0,993 498 0,988 040 0,979 452 0,966 729
19,8 0,999 991 0,999 950 0,999 813 0,999 453 0,998 638 0,996 994 0,993 982 0,988 880 0,980 812 0,968 798
20,0 0,999 992 0,999 955 0,999 830 0,999 501 0,998 750 0,997 231 0,994 430 0,989 664 0,982 088 0,970 747
29
Ejemplo:
Cul es la Distribucin de probabilidad de chi-cuadrado de 4 grados de libertad de que x< 1,2?
Buscando en la tabla la columna del 4 y la fila de 1,2, tenemos:
La probabilidad de que la variable estadstica sea menor que x ms la probabilidad de que sea mayor
que x es la certeza, de probabilidad 1.
Operando:
Ejemplo
Calcular la distribucin de probabilidad de una variable estadstica chi-cuadrado, de 6 grados de
libertad sea mayor de 3,4.
Segn lo anterior:
Operando tenemos:
Siendo:
Tenemos que:
Ejemplo
Cul es la probabilidad de que una variable chi-cuadrado de 8 grados de libertad este comprendida
entre 3,4 y 5,6?
Esto es:
Operando:
Interpolacin lineal.
La funcin chi-cuadrado es continua para x mayor que cero, pero en la tabla solo se recogen algunos
de sus valores, si bien la tabla podra hacerse ms extensa el numero de valores recogidos siempre
seria finito, para calcular los valores no recogidos en la tabla podemos emplear la nterpolacin lineal.
29
La interpolacin lineal, parte de unos puntos conocidos de la funcin, y los valores intermedios los
determina por la recta que une estos dos puntos, este mtodo siempre aade un cierto error, al
sustituir la funcin: y= f(x) por la recta que une dos puntos: y= r(x), que siempre ser menor que tomar
el valor conocido ms prximo de la funcin, ver la figura, es importante que los puntos tomados
estn lo ms prximos entre s, para que este error sea el mnimo posible.
La expresin:
Determina el valor y de la funcin para un x dado, partiendo de dos puntos conocidos (x1,y1) y (x2,y2),
siendo x1 < x < x2.
Ejemplo
Cual es la probabilidad de una distribucin chi-cuadrado de 5 grados de libertad, de que x sea menor
que 1,75.
Esto es:
Sustituyendo en la expresin:
Tenemos que:
Operando tenemos:
Esto es:
Que resulta:
29
En este tipo de tablas se parte de los valoras conocidos k y p, y se obtiene x, de forma inversa a lo
visto anteriormente, lo que resulta interesante pera responder a la pregunta:
Para una distribucin chi-cuadrado de k grados de libertad, cual es el valor de x que deja a su
izquierda una probabilidad p.
Este tipo de problema en la prctica, suele ser ms usual, la tabla es ms compacta y tambin nos
permite calcular la probabilidad con la tabla directa.
En la tabla tenemos en la fila superior las probabilidades P, en la columna de la izquierda los grados
de libertad k, donde se cruzan la fila y la columna correspondientes el valor de x que en una funcin
chi-cuadrado de k grados de libertad, deja a su izquierda una probabilidad P.
1 0,000 0,004 0,016 0,064 0,102 0,148 0,275 0,455 0,708 1,074 1,323 1,642 2,706 3,841 6,635
2 0,020 0,103 0,211 0,446 0,575 0,713 1,022 1,386 1,833 2,408 2,773 3,219 4,605 5,991 9,210
3 0,115 0,352 0,584 1,005 1,213 1,424 1,869 2,366 2,946 3,665 4,108 4,642 6,251 7,815 11,34
4 0,297 0,711 1,064 1,649 1,923 2,195 2,753 3,357 4,045 4,878 5,385 5,989 7,779 9,488 13,28
5 0,554 1,145 1,610 2,343 2,675 3,000 3,656 4,351 5,132 6,064 6,626 7,289 9,236 11,07 15,09
6 0,872 1,635 2,204 3,070 3,455 3,828 4,570 5,348 6,211 7,231 7,841 8,558 10,64 12,59 16,81
7 1,239 2,167 2,833 3,822 4,255 4,671 5,493 6,346 7,283 8,383 9,037 9,803 12,02 14,07 18,48
8 1,647 2,733 3,490 4,594 5,071 5,527 6,423 7,344 8,351 9,524 10,22 11,03 13,36 15,51 20,09
9 2,088 3,325 4,168 5,380 5,899 6,393 7,357 8,343 9,414 10,66 11,39 12,24 14,68 16,92 21,67
10 2,558 3,940 4,865 6,179 6,737 7,267 8,295 9,342 10,47 11,78 12,55 13,44 15,99 18,31 23,21
29
11 3,053 4,575 5,578 6,989 7,584 8,148 9,237 10,34 11,53 12,90 13,70 14,63 17,28 19,68 24,73
12 3,571 5,226 6,304 7,807 8,438 9,034 10,18 11,34 12,58 14,01 14,85 15,81 18,55 21,03 26,22
13 4,107 5,892 7,041 8,634 9,299 9,926 11,13 12,34 13,64 15,12 15,98 16,98 19,81 22,36 27,69
14 4,660 6,571 7,790 9,467 10,17 10,82 12,08 13,34 14,69 16,22 17,12 18,15 21,06 23,68 29,14
15 5,229 7,261 8,547 10,31 11,04 11,72 13,03 14,34 15,73 17,32 18,25 19,31 22,31 25,00 30,58
16 5,812 7,962 9,312 11,15 11,91 12,62 13,98 15,34 16,78 18,42 19,37 20,47 23,54 26,30 32,00
17 6,408 8,672 10,09 12,00 12,79 13,53 14,94 16,34 17,82 19,51 20,49 21,61 24,77 27,59 33,41
18 7,015 9,390 10,86 12,86 13,68 14,44 15,89 17,34 18,87 20,60 21,60 22,76 25,99 28,87 34,81
19 7,633 10,12 11,65 13,72 14,56 15,35 16,85 18,34 19,91 21,69 22,72 23,90 27,20 30,14 36,19
20 8,260 10,85 12,44 14,58 15,45 16,27 17,81 19,34 20,95 22,77 23,83 25,04 28,41 31,41 37,57
21 8,897 11,59 13,24 15,44 16,34 17,18 18,77 20,34 21,99 23,86 24,93 26,17 29,62 32,67 38,93
22 9,542 12,34 14,04 16,31 17,24 18,10 19,73 21,34 23,03 24,94 26,04 27,30 30,81 33,92 40,29
23 10,20 13,09 14,85 17,19 18,14 19,02 20,69 22,34 24,07 26,02 27,14 28,43 32,01 35,17 41,64
24 10,86 13,85 15,66 18,06 19,04 19,94 21,65 23,34 25,11 27,10 28,24 29,55 33,20 36,42 42,98
25 11,52 14,61 16,47 18,94 19,94 20,87 22,62 24,34 26,14 28,17 29,34 30,68 34,38 37,65 44,31
26 12,20 15,38 17,29 19,82 20,84 21,79 23,58 25,34 27,18 29,25 30,43 31,79 35,56 38,89 45,64
27 12,88 16,15 18,11 20,70 21,75 22,72 24,54 26,34 28,21 30,32 31,53 32,91 36,74 40,11 46,96
28 13,56 16,93 18,94 21,59 22,66 23,65 25,51 27,34 29,25 31,39 32,62 34,03 37,92 41,34 48,28
29 14,26 17,71 19,77 22,48 23,57 24,58 26,48 28,34 30,28 32,46 33,71 35,14 39,09 42,56 49,59
30 14,95 18,49 20,60 23,36 24,48 25,51 27,44 29,34 31,32 33,53 34,80 36,25 40,26 43,77 50,89
31 15,66 19,28 21,43 24,26 25,39 26,44 28,41 30,34 32,35 34,60 35,89 37,36 41,42 44,99 52,19
32 16,36 20,07 22,27 25,15 26,30 27,37 29,38 31,34 33,38 35,66 36,97 38,47 42,58 46,19 53,49
33 17,07 20,87 23,11 26,04 27,22 28,31 30,34 32,34 34,41 36,73 38,06 39,57 43,75 47,40 54,78
34 17,79 21,66 23,95 26,94 28,14 29,24 31,31 33,34 35,44 37,80 39,14 40,68 44,90 48,60 56,06
35 18,51 22,47 24,80 27,84 29,05 30,18 32,28 34,34 36,47 38,86 40,22 41,78 46,06 49,80 57,34
36 19,23 23,27 25,64 28,73 29,97 31,12 33,25 35,34 37,50 39,92 41,30 42,88 47,21 51,00 58,62
37 19,96 24,07 26,49 29,64 30,89 32,05 34,22 36,34 38,53 40,98 42,38 43,98 48,36 52,19 59,89
38 20,69 24,88 27,34 30,54 31,81 32,99 35,19 37,34 39,56 42,05 43,46 45,08 49,51 53,38 61,16
39 21,43 25,70 28,20 31,44 32,74 33,93 36,16 38,34 40,59 43,11 44,54 46,17 50,66 54,57 62,43
40 22,16 26,51 29,05 32,34 33,66 34,87 37,13 39,34 41,62 44,16 45,62 47,27 51,81 55,76 63,69
41 22,91 27,33 29,91 33,25 34,58 35,81 38,11 40,34 42,65 45,22 46,69 48,36 52,95 56,94 64,95
42 23,65 28,14 30,77 34,16 35,51 36,75 39,08 41,34 43,68 46,28 47,77 49,46 54,09 58,12 66,21
43 24,40 28,96 31,63 35,07 36,44 37,70 40,05 42,34 44,71 47,34 48,84 50,55 55,23 59,30 67,46
44 25,15 29,79 32,49 35,97 37,36 38,64 41,02 43,34 45,73 48,40 49,91 51,64 56,37 60,48 68,71
29
45 25,90 30,61 33,35 36,88 38,29 39,58 42,00 44,34 46,76 49,45 50,98 52,73 57,51 61,66 69,96
46 26,66 31,44 34,22 37,80 39,22 40,53 42,97 45,34 47,79 50,51 52,06 53,82 58,64 62,83 71,20
47 27,42 32,27 35,08 38,71 40,15 41,47 43,94 46,34 48,81 51,56 53,13 54,91 59,77 64,00 72,44
48 28,18 33,10 35,95 39,62 41,08 42,42 44,92 47,34 49,84 52,62 54,20 55,99 60,91 65,17 73,68
49 28,94 33,93 36,82 40,53 42,01 43,37 45,89 48,33 50,87 53,67 55,27 57,08 62,04 66,34 74,92
50 29,71 34,76 37,69 41,45 42,94 44,31 46,86 49,33 51,89 54,72 56,33 58,16 63,17 67,50 76,15
51 30,48 35,60 38,56 42,36 43,87 45,26 47,84 50,33 52,92 55,78 57,40 59,25 64,30 68,67 77,39
52 31,25 36,44 39,43 43,28 44,81 46,21 48,81 51,33 53,94 56,83 58,47 60,33 65,42 69,83 78,62
53 32,02 37,28 40,31 44,20 45,74 47,16 49,79 52,33 54,97 57,88 59,53 61,41 66,55 70,99 79,84
54 32,79 38,12 41,18 45,12 46,68 48,11 50,76 53,33 55,99 58,93 60,60 62,50 67,67 72,15 81,07
55 33,57 38,96 42,06 46,04 47,61 49,06 51,74 54,33 57,02 59,98 61,67 63,58 68,80 73,31 82,29
56 34,35 39,80 42,94 46,96 48,55 50,01 52,71 55,33 58,04 61,03 62,73 64,66 69,92 74,47 83,51
57 35,13 40,65 43,82 47,88 49,48 50,96 53,69 56,33 59,06 62,08 63,79 65,74 71,04 75,62 84,73
58 35,91 41,49 44,70 48,80 50,42 51,91 54,67 57,33 60,09 63,13 64,86 66,82 72,16 76,78 85,95
59 36,70 42,34 45,58 49,72 51,36 52,86 55,64 58,33 61,11 64,18 65,92 67,89 73,28 77,93 87,17
60 37,48 43,19 46,46 50,64 52,29 53,81 56,62 59,33 62,13 65,23 66,98 68,97 74,40 79,08 88,38
70 45,44 51,74 55,33 59,90 61,70 63,35 66,40 69,33 72,36 75,69 77,58 79,71 85,53 90,53 100,4
80 53,54 60,39 64,28 69,21 71,14 72,92 76,19 79,33 82,57 86,12 88,13 90,41 96,58 101,9 112,3
90 61,75 69,13 73,29 78,56 80,62 82,51 85,99 89,33 92,76 96,52 98,65 101,1 107,6 113,1 124,1
100 70,06 77,93 82,36 87,95 90,13 92,13 95,81 99,33 102,9 106,9 109,1 111,7 118,5 124,3 135,8
110 78,46 86,79 91,47 97,36 99,67 101,8 105,6 109,3 113,1 117,3 119,6 122,2 129,4 135,5 147,4
120 86,92 95,70 100,6 106,8 109,2 111,4 115,5 119,3 123,3 127,6 130,1 132,8 140,2 146,6 159,0
130 95,45 104,7 109,8 116,3 118,8 121,1 125,3 129,3 133,4 137,9 140,5 143,3 151,0 157,6 170,4
140 104,0 113,7 119,0 125,8 128,4 130,8 135,1 139,3 143,6 148,3 150,9 153,9 161,8 168,6 181,8
150 112,7 122,7 128,3 135,3 138,0 140,5 145,0 149,3 153,8 158,6 161,3 164,3 172,6 179,6 193,2
160 121,3 131,8 137,5 144,8 147,6 150,2 154,9 159,3 163,9 168,9 171,7 174,8 183,3 190,5 204,5
170 130,1 140,8 146,8 154,3 157,2 159,9 164,7 169,3 174,0 179,2 182,0 185,3 194,0 201,4 215,8
180 138,8 150,0 156,2 163,9 166,9 169,6 174,6 179,3 184,2 189,4 192,4 195,7 204,7 212,3 227,1
190 147,6 159,1 165,5 173,4 176,5 179,3 184,4 189,3 194,3 199,7 202,8 206,2 215,4 223,2 238,3
200 156,4 168,3 174,8 183,0 186,2 189,0 194,3 199,3 204,4 210,0 213,1 216,6 226,0 234,0 249,4
Ejemplo
Cul es el valor de x, de una distribucin chi-cuadrado de 6 grados de libertad, que deja a su
izquierda una probabilidad del 80%?
Ejemplo
Cul es la distribucin de probabilidad de chi-cuadrado de 4 grados de libertad de que x < 1,2 ?
Este es el mismo ejemplo que en la tabla directa, veamos cmo se hara en este caso:
La pregunta es:
Operando:
Esto es:
Esto es:
como se puede ver hay una diferencia del orden de la tercera cifra decimal, respecto a la bsqueda
directa en la tabla, esta diferencia se produce por la interpolacin lineal, al sustituir la funcin por la
recta que une dos puntos conocidos, y a la relativamente gran diferencia entre x1 y x2, que es el 60%
al valor de x1.
Para valores de k grandes
Con lo que podemos aproximar la distribucin Chi-cuadrado por la distribucin normal, de media k y
desviacin tpica raz de 2k, empleando la tabla distribucin normal tipificada para su clculo.
29
6) Prueba t de Student
En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que
el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica
cuando la poblacin se asume ser normal pero el tamao muestral es demasiado pequeo como para
que el estadstico en el que est basada la inferencia est normalmente distribuido, utilizndose una
estimacin de la desviacin tpica en lugar del valor real.
7) Prueba de Anderson-Darling
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de
prueba (dependiendo que F se utiliza) para determinar el P-valor.
8) Prueba de Friedman
En estadstica la prueba de Friedman es una prueba no paramtrica desarrollado por el economista
Milton Friedman. Equivalente a la prueba ANOVA para dos factores en la versin no paramtrica, el
mtodo consiste en ordenar los datos por filas o bloques, reemplazndolos por su respectivo orden.
Al ordenarlos, debemos considerar la existencia de datos idnticos.
Mtodo
1. Sea una tabla de datos, donde m son las filas (bloques) y n las columnas
(tratamientos). Una vez calculado el orden de cada dato en su bloque, reemplazamos la tabla
original con otra donde el valor rij es el orden de xij en cada bloque i.
o ,
o
3. El estadstico viene dado por
.
29
4. El criterio de decisin es
5. .
9) Prueba de Kolmogrov-Smirnov
En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es una prueba no
paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad
entre s.
En el caso de que queramos verificar la normalidad de una distribucin, la prueba de Lilliefors
conlleva algunas mejoras con respecto a la de Kolmogrov-Smirnov; y, en general, las pruebas
Shapiro-Wilk o Anderson-Darling son alternativas ms potentes.
Conviene tener en cuenta que la prueba Kolmogrov-Smirnov es ms sensible a los valores cercanos
a la mediana que a los extremos de la distribucin. La prueba de Anderson-Darling proporciona igual
sensibilidad con valores extremos.
Estadstico
La distribucin de los datos Fn para n observaciones yi se define como
Mtodo
1. El estadstico est dado por:
, donde:
o ni es el nmero de observaciones en el grupo i
o rij es el rango (entre todas las observaciones) de la observacin j en el grupo i
o N es el nmero total de observaciones entre todos los grupos
o ,
o es el promedio de rij.
Note que el denominador de la expresin para K es exactamente
.
29
Luego:
2. Se puede realizar una correccin para los valores repetidos dividiendo K por:
Planteamiento de la prueba
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras ordinales. El
planteamiento de partida es:
1. Las observaciones de ambos grupos son independientes
2. Las observaciones son variables ordinales o continuas.
3. Bajo la hiptesis nula, las distribuciones de partida de ambas distribuciones es la misma
4. Bajo la hiptesis alternativa, los valores de una de las muestras tienden a exceder a los de la
otra: P(X > Y) + 0.5 P(X = Y) > 0.5.
Para calcular el estadstico U se asigna a cada uno de los valores de las dos muestras su rango para
construir
Donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es la suma de los rangos de las
observaciones de las muestras 1 y 2 respectivamente.
El estadstico U se define como el mnimo de U1 y U2.
Los clculos tienen que tener en cuenta la presencia de observaciones idnticas a la hora de
ordenarlas. No obstante, si su nmero es pequeo, se puede ignorar esa circunstancia.
La aproximacin a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por
la expresin:
z = (U mU) / U
Donde mU y U son la media y la desviacin estndar de U si la hiptesis nula es cierta, y vienen
dadas por las siguientes frmulas:
mU = n1n2 / 2.
Contenido
1 Ejemplo
2 Determinando la significacin estadstica
3 Vase tambin
4 Enlaces externos
5 Fuente
Ejemplo
Los datos brutos usados en este ejemplo se ven debajo.
Horas de TV a la
CI
semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Despus, se crean dos columnas ms.
Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Despus se
crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se
crea otra columna "d2". Esta ltima es slo la columna "d" al cuadrado.
Despus de realizar todo esto con los datos del ejemplo, se debera acabar con algo como lo
siguiente:
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
3
12.
100 28 4.5 8 .
25
5
103 28 6 8 2 4
4
20.
106 7 7 2.5 .
25
5
110 17 8 5 3 9
5
30.
113 12 9.5 4 .
25
5
Ntese como el nmero de orden de los valores que son idnticos es la media de los nmeros de
orden que les corresponderan si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10.
As que esos valores pueden ser sustituidos en la frmula.
Tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (Ej: para
averiguar si un observado es significativamente diferente a un valor terico o si dos s observados
difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la
distribucin t.
Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms
condiciones, varios individuos son observados en cada una de ellas, y predecimos que las
observaciones tendrn un orden en particular. Por ejemplo, un conjunto de individuos pueden tener
tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar de intento en
intento. Un test de la significacin de la tendencia entre las condiciones en esta situacin fue
desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas
ordenadas.
Tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para
averiguar si un observado es significativamente diferente a un valor terico o si dos s observados
difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la
distribucin t.
Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms
condiciones, varios individuos son observados en cada una de ellas, y predecimos que las
observaciones tendrn un orden en particular. Por ejemplo, un conjunto de individuos pueden tener
tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar de intento en
intento. Un test de la significacin de la tendencia entre las condiciones en esta situacin fue
desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas
ordenadas.
Contenido
1 Historia
o 1.1 Etimologa
2 El modelo de regresin lineal
3 Supuestos del modelo de regresin lineal
4 Tipos de modelos de regresin lineal
o 4.1 Regresin lineal simple
4.1.1 Ejemplo
o 4.2 Regresin lineal mltiple
4.2.1 Ejemplo
5 Rectas de regresin
6 Aplicaciones de la regresin lineal
o 6.1 Lneas de tendencia
o 6.2 Medicina
Historia
La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el
cual fue publicado por Legendre en 1805, y en dnde se inclua una versin del teorema de Gauss-
Mrkov.
Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar
la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al
29
valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a
reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatacin
emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos
basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin
simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la
estadstica mucho ms extenso.
Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en
cualquier clase de aplicacin.
(5)
Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.
Donde:
Ejemplo
x y xy x2
283.
24 11.8 576
2
270.
26 10.4 676
4
150
68.2 1747 3820
Ejemplo
x y xy x2 y2 x2y x3 x4
1 3 3 1 9 3 1 1
3.
1.2 4.08 1.44 11.56 4.896 1.728 2.0736
4
2 2 4 4 4 8 8 16
4.
3 12.3 9 16.81 36.9 27 81
1
4 7 28 16 49 112 64 256
20.9
36 106.63 67.63 182.62 376.121 246.881 958.6147
Rectas de regresin
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado
diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos
rectas de mximo ajuste:
La recta de regresin de Y sobre X:
(14)
La recta de regresin de X sobre Y:
(15)
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste
ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo
obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste
malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el
modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan
en un punto llamado centro de gravedad de la distribucin.
Lneas de tendencia
Vase tambin: Tendencia
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un
largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por
29
ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en
un determinado perodo. Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de
un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando
tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas
rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura
deseada en la lnea.
Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco7 vinieron de
estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables
en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones
espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o
posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de
regresin. En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar
la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la
actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los
anlisis de regresin.
15) Homocedasticidad
La homocedasticidad es una propiedad fundamental del modelo de regresin lineal general y est
dentro de sus supuestos clsicos bsicos.
Se dice que existe homocedasticidad cuando la varianza de los errores estocsticos de la regresin
es la misma para cada observacin i (de 1 a n observaciones), es decir:
Donde es un escalar constante para todo i. Lo que significara que habra una distribucin de
probabilidad de idntica amplitud para cada variable aleatoria.
Esta cualidad es necesaria, segn el Teorema de Gauss-Mrkov, para que en un modelo los
coeficientes estimados sean los mejores o eficientes, lineales e insesgados.
29
Distribucin Homocedstica.
Distribucin Heterocedstica.
Cuando no se cumple esta situacin, decimos que existe heterocedasticidad, que es cuando la
varianza de cada trmino de perturbacin (ui) no es un nmero constante .
Este fenmeno suele ser muy comn en datos de Corte Transversal y tambin se presenta, menos
frecuentemente, en series de tiempo.
Si se regresiona un modelo a travs de Mnimos Cuadrados Ordinarios con presencia de
heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no poseen mnima
varianza (eficiencia).
Contenido
1 Causas frecuentes de ausencia de homocedasticidad
o 1.1 Variables independientes que posean un gran recorrido con respecto a su propia
media
o 1.2 Omisin de variables importantes dentro del modelo a estimar
o 1.3 Cambio de estructura
o 1.4 Utilizar variables no relativizadas
o 1.5 Clculo incorrecto de las varianza y parmetros ineficientes
o 1.6 Invalidacin de los contrastes de significancia
Variables independientes que posean un gran recorrido con respecto a su propia media
Esto generalmente ocurre cuando se ha dispuesto arbitrariamente el orden de las observaciones,
generando, casualmente que existan observaciones con grandes valores en una determinada
variable explicativa y lo mismo con valores pequeos de esta misma variable.
Cambio de estructura
El hecho de que se produzca un cambio en la estructura determina un mal ajuste de los parmetros al
conjunto de los datos muestrales. Y este no tiene por qu influir del mismo modo en todo el recorrido
29
de la muestra, pudiendo producir cuantas de desajuste del modelo diferentes y, por lo tanto, varianza
no constante.
Utilizar variables no relativizadas
Cuando existen observaciones dentro de una variable en concreto, y que poseen un valor mayor a las
otras variables explicativas, puede originar valores del error diferentes. Esta situacin es similar a la
explicada al principio pero con la salvedad que en este caso se compara con las otras variables
(inclusive con la dependiente) y no con respecto a su media.
Estimar en presencia de heterocedasticidad ==
Contenido
1 Resumen
2 Extensiones
3 Ejemplo
Resumen
La regresin logstica analiza datos distribuidos binomialmente de la forma
Donde los nmeros de ensayos Bernoulli ni son conocidos y las probabilidades de xito pi son
desconocidas. Un ejemplo de esta distribucin es el porcentaje de semillas (pi) que germinan despus
de que ni son plantadas.
El modelo es entonces obtenido a base de lo que cada ensayo (valor de i) y el conjunto de variables
explicativas/independientes puedan informar acerca de la probabilidad final. Estas variables
explicativas pueden pensarse como un vector Xi k-dimensional y el modelo toma entonces la forma
Los logits de las probabilidades binomiales desconocidas (i.e., los logaritmos de los odds) son
modeladas como una funcin lineal de los Xi.
Note que un elemento particular de Xi puede ser ajustado a 1 para todo i obtenindose un intercepto
en el modelo. Los parmetros desconocidos j son usualmente estimados a travs de mxima
verosimilitud.
29
La interpretacin de los estimados del parmetro j es como los efectos aditivos en el log odds ratio
para una unidad de cambio en la jsima variable explicativa. En el caso de una variable explicativa
dicotmica, por ejemplo gnero, e es la estimacin del odds ratio de tener el resultado para, por decir
algo, hombres comparados con mujeres.
El modelo tiene una formulacin equivalente dada por
Esta forma funcional es comnmente identificada como un "perceptrn" de una capa simple or red
neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua en
lugar de una funcin por pedazos. La derivada de pi con respecto a X = x1...xk es calculada de la
forma general:
Donde f(X) es una funcin analtica en X. Con esta escogencia, la red de capa simple es idntica al
modelo de regresin logstica. Esta funcin tiene una derivada continua, la cual permite ser usada en
propagacin hacia atrs. Esta funcin tambin es preferida pues su derivada es fcilmente calculable:
Extensiones
Algunas extensiones del modelo existen para tratar variables dependientes multicategricas y/o
ordinales, tales como la regresin politmica. La clasificacin en varias clases por regresin logstica
es conocida como logit multinomial. Una extensin del modelo logstico para ajustar conjuntos de
variables independientes es el campo aleatorio condicional.
Ejemplo
Sea p(x) la probabilidad de xito cuando el valor de la variable predictora es x. Entonces sea
Cuando x = 50, un xito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que
los odds son 2$ a 1.
Red neuronal artificial perceptrn simple con n neuronas de entrada, m neuronas en su capa oculta y
una neurona de salida.
Las redes de neuronas artificiales (denominadas habitualmente como RNA o en ingls como:
"ANN"1 ) son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que
funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en
una red que colabora para producir un estmulo de salida. En inteligencia artificial es frecuente
referirse a ellas como redes de neuronas o redes neuronales.
Contenido
1 Funcionamiento
o 1.1 Diseo y programacin de una RNA (red neuronal artificial)
o 1.2 Estructura
2 Ventajas
3 Tipologa de las RNA
o 3.1 Modelos
o 3.2 Topologa
o 3.3 Aprendizaje
o 3.4 Tipo de entrada
4 Aplicaciones
o 4.1 Ejemplos
4.1.1 Quake II Neuralbot
4.1.2 Clasificador No Sesgado de Protenas
Funcionamiento
Las redes neuronales consisten en una simulacin de las propiedades observadas en los sistemas
neuronales biolgicos a travs de modelos matemticos recreados mediante mecanismos artificiales
(como un circuito integrado, un ordenador o un conjunto de vlvulas). El objetivo es conseguir que las
mquinas den respuestas similares a las que es capaz de dar el cerebro que se caracterizan por su
generalizacin y su robustez.
2. Una funcin de activacin, que modifica a la anterior. Puede no existir, siendo en este caso la
salida la misma funcin de propagacin.
3. Una funcin de transferencia, que se aplica al valor devuelto por la funcin de activacin. Se
utiliza para acotar la salida de la neurona y generalmente viene dada por la interpretacin que
queramos darle a dichas salidas. Algunas de las ms utilizadas son la funcin sigmoidea (para
obtener valores en el intervalo [0,1]) y la tangente hiperblica (para obtener valores en el
intervalo [-1,1]).
Estructura
La mayora de los cientficos coinciden en que una RNA es muy diferente en trminos de estructura
de un cerebro animal. Al igual que el cerebro, una RNA se compone de un conjunto masivamente
paralelo de unidades de proceso muy simples y es en las conexiones entre estas unidades donde
reside la inteligencia de la red. Sin embargo, en trminos de escala, un cerebro es muchsimo mayor
que cualquier RNA creada hasta la actualidad, y las neuronas artificiales tambin son ms simples
que su contrapartida animal.
Biolgicamente, un cerebro aprende mediante la reorganizacin de las conexiones sinpticas entre
las neuronas que lo componen. De la misma manera, las RNA tienen un gran nmero de
procesadores virtuales interconectados que de forma simplificada simulan la funcionalidad de las
neuronas biolgicas. En esta simulacin, la reorganizacin de las conexiones sinpticas biolgicas se
modela mediante un mecanismo de pesos, que son ajustados durante la fase de aprendizaje. En una
RNA entrenada, el conjunto de los pesos determina el conocimiento de esa RNA y tiene la propiedad
de resolver el problema para el que la RNA ha sido entrenada.
Por otra parte, en una RNA, adems de los pesos y las conexiones, cada neurona tiene asociada una
funcin matemtica denominada funcin de transferencia. Dicha funcin genera la seal de salida de
la neurona a partir de las seales de entrada. La entrada de la funcin es la suma de todas las
seales de entrada por el peso asociado a la conexin de entrada de la seal. Algunos ejemplos de
entradas son la funcin escaln de Heaviside, la lineal o mixta, la sigmoide y la funcin gaussiana,
recordando que la funcin de transferencia es la relacin entre la seal de salida y la entrada.
29
Ventajas
Las redes neuronales artificiales (RNA) tienen muchas ventajas debido a que estn basadas en la
estructura del sistema nervioso, principalmente el cerebro.
Aprendizaje: Las RNA tienen la habilidad de aprender mediante una etapa que se llama
etapa de aprendizaje. Esta consiste en proporcionar a la RNA datos como entrada a su vez
que se le indica cul es la salida (respuesta) esperada.
Auto organizacin: Una RNA crea su propia representacin de la informacin en su interior,
descargando al usuario de esto.
Tolerancia a fallos: Debido a que una RNA almacena la informacin de forma redundante,
sta puede seguir respondiendo de manera aceptable aun si se daa parcialmente.
Flexibilidad: Una RNA puede manejar cambios no importantes en la informacin de entrada,
como seales con ruido u otros cambios en la entrada (por ejemplo si la informacin de
entrada es la imagen de un objeto, la respuesta correspondiente no sufre cambios si la
imagen cambia un poco su brillo o el objeto cambia ligeramente).
Tiempo real: La estructura de una RNA es paralela, por lo cual si esto es implementado con
computadoras o en dispositivos electrnicos especiales, se pueden obtener respuestas en
tiempo real.
Modelos
Existe una serie de modelos que aparecen en la mayora de estudios acadmicos y la bibliografa
especializada.
Perceptrn
Adaline
Perceptrn multicapa
Memorias asociativas
Mquina de Boltzmann
Mquina de Cauchy
Propagacin hacia atrs (backpropagation)
Redes de Elman
Redes de Hopfield
Red de contrapropagacin
Redes de neuronas de base radial
Redes de neuronas de aprendizaje competitivo
Mapas Autoorganizados (RNA) (Redes de Kohonen)
Crecimiento dinmico de clulas
Gas Neuronal Creciente
Redes ART (Adaptative Resonance Theory)
Topologa
Una primera clasificacin de las redes de neuronas artificiales que se suele hacer es en funcin del
patrn de conexiones que presenta. As se definen tres tipos bsicos de redes:
Dos tipos de redes de propagacin hacia delante o acclicas en las que todas las seales
van desde la capa de entrada hacia la salida sin existir ciclos, ni conexiones entre neuronas
de la misma capa.
o Monocapa. Ejemplos: perceptrn, Adaline.
o Multicapa. Ejemplos: perceptrn multicapa.
Las redes recurrentes que presentan al menos un ciclo cerrado de activacin neuronal.
Ejemplos: Elman, Hopfield, mquina de Boltzmann.
29
Aprendizaje
Una segunda clasificacin que se suele hacer es en funcin del tipo de aprendizaje de que es capaz
(si necesita o no un conjunto de entrenamiento supervisado). Para cada tipo de aprendizaje
encontramos varios modelos propuestos por diferentes autores:
Aprendizaje supervisado: necesitan un conjunto de datos de entrada previamente
clasificado o cuya respuesta objetivo se conoce. Ejemplos de este tipo de redes son: el
perceptrn simple, la red Adaline, el perceptrn multicapa, red backpropagation, y la memoria
asociativa bidireccional.
Aprendizaje no supervisado o autoorganizado: no necesitan de tal conjunto previo.
Ejemplos de este tipo de redes son: las memorias asociativas, las redes de Hopfield, la
mquina de Boltzmann y la mquina de Cauchy, las redes de aprendizaje competitivo, las
redes de Kohonen o mapas autoorganizados y las redes de resonancia adaptativa (ART).
Redes hbridas: son un enfoque mixto en el que se utiliza una funcin de mejora para facilitar
la convergencia. Un ejemplo de este ltimo tipo son las redes de base radial.
Aprendizaje reforzado: se sita a medio camino entre el supervisado y el autoorganizado.
Tipo de entrada
Finalmente tambin se pueden clasificar las RNAs segn sean capaces de procesar informacin de
distinto tipo en:
Redes analgicas: procesan datos de entrada con valores continuos y, habitualmente,
acotados. Ejemplos de este tipo de redes son: Hopfield, Kohonen y las redes de aprendizaje
competitivo.
Redes discretas: procesan datos de entrada de naturaleza discreta; habitualmente valores
lgicos booleanos. Ejemplos de este segundo tipo de redes son: las mquinas de Boltzmann y
Cauchy, y la red discreta de Hopfield.
Aplicaciones
Las caractersticas de las RNA las hacen bastante apropiadas para aplicaciones en las que no se
dispone a priori de un modelo identificable que pueda ser programado, pero se dispone de un
conjunto bsico de ejemplos de entrada (previamente clasificados o no). Asimismo, son altamente
robustas tanto al ruido como a la disfuncin de elementos concretos y son fcilmente paralelizables.
Esto incluye problemas de clasificacin y reconocimiento de patrones de voz, imgenes, seales, etc.
Asimismo se han utilizado para encontrar patrones de fraude econmico, hacer predicciones en el
mercado financiero, hacer predicciones de tiempo atmosfrico, etc.
Tambin se pueden utilizar cuando no existen modelos matemticos precisos o algoritmos con
complejidad razonable; por ejemplo la red de Kohonen ha sido aplicada con un xito ms que
razonable al clsico problema del viajante (un problema para el que no se conoce solucin
algortmica de complejidad polinmica).
Otro tipo especial de redes neuronales artificiales se ha aplicado en conjuncin con los algoritmos
genticos (AG) para crear controladores para robots. La disciplina que trata la evolucin de redes
neuronales mediante algoritmos genticos se denomina Robtica Evolutiva. En este tipo de aplicacin
el genoma del AG lo constituyen los parmetros de la red (topologa, algoritmo de aprendizaje,
funciones de activacin, etc.) y la adecuacin de la red viene dada por la adecuacin del
comportamiento exhibido por el robot controlado (normalmente una simulacin de dicho
comportamiento).
Ejemplos
Quake II Neuralbot
Un bot es un programa que simula a un jugador humano. El Neuralbot es un bot para el juego Quake
II que utiliza una red neuronal artificial para decidir su comportamiento y un algoritmo gentico para el
aprendizaje. Es muy fcil probarlo para ver su evolucin. Ms informacin aqu [1]
29
18) Perceptrn
Este artculo o seccin tiene un estilo difcil de entender para los lectores interesados en el
tema. Si tienes capacidad, por favor edtalo, contribuye a hacerlo ms accesible para el pblico
general, sin eliminar los detalles tcnicos que interesan a los especialistas.
Contenido
1 Definicin
2 Aprendizaje
3 Ejemplo
4 Vase tambin
Definicin
El perceptrn usa una matriz para representar las redes neuronales y es un discriminador terciario
que traza su entrada x (un vector binario) a un nico valor de salida f(x) (un solo valor binario) a
travs de dicha matriz.
Donde w es un vector de pesos reales y es el producto punto (que computa una suma
ponderada). u es el 'umbral', el cual representa el grado de inhibicin de la neurona, es un trmino
constante que no depende del valor que tome la entrada.
El valor de f(x) (0 o 1) se usa para clasificar x como un caso positivo o un caso negativo, en el caso
de un problema de clasificacin binario. El umbral puede pensarse de como compensar la funcin de
activacin, o dando un nivel bajo de actividad a la neurona del rendimiento. La suma ponderada de
las entradas debe producir un valor mayor que u para cambiar la neurona de estado 0 a 1.
Aprendizaje
El algoritmo de aprendizaje es el mismo para todas las neuronas, todo lo que sigue se aplica a una
sola neurona en el aislamiento. Se definen algunas variables primero:
el x(j) denota el elemento en la posicin j en el vector de la entrada
el w(j) el elemento en la posicin j en el vector de peso
el y denota la salida de la neurona
el denota la salida esperada
el es una constante tal que 0 < < 1
Los pesos son actualizados despus de cada entrada segn la regla de actualizacin siguiente:
Por lo cual, el aprendizaje es modelado como la actualizacin del vector de peso despus de cada
iteracin, lo cual slo tendr lugar si la salida y difiere de la salida deseada . Para considerar una
neurona al interactuar en mltiples iteraciones debemos definir algunas variables ms:
xi denota el vector de entrada para la iteracin i
wi denota el vector de peso para la iteracin i
yi denota la salida para la iteracin i
denota un periodo de aprendizaje de m iteraciones
En cada iteracin el vector de peso es actualizado como sigue:
Para cada pareja ordenada (x,y) en
Pasar (xi,yi,wi) a la regla de actualizacin w(j)' = w(j) + ( y)x(j)
El periodo de aprendizaje Dm se dice que es separable linealmente si existe un valor positivo y un
vector de peso w tal que: para todos los i.
Novikoff (1962) probo que el algoritmo de aprendizaje converge despus de un nmero finito de
iteraciones si los datos son separables linealmente y el nmero de errores esta limitado a: .
29
Sin embargo si los datos no son separables linealmente, la lnea de algoritmo anterior no se garantiza
que converja.
Ejemplo
Considere las funciones AND y OR, estas funciones son linealmente separables y por lo tanto pueden
ser aprendidas por un perceptrn.
La funcin XOR no puede ser aprendida por un nico perceptrn puesto que requiere al menos de
dos lneas para separar las clases (0 y 1). Debe utilizarse al menos una capa adicional de
perceptrones para permitir su aprendizaje.
Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas
anteriores y cuyas salidas pasan a neuronas de capas posteriores.
Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de toda la
red.
La propagacin hacia atrs (tambin conocido como retropropagacin del error o regla delta
generalizada), es un algoritmo utilizado en el entrenamiento de estas redes, por ello, el perceptrn
multicapa tambin es conocido como red de retropropagacin (no confundir con la red de
contrapropagacin).
Contenido
1 Caractersticas
2 Limitaciones
3 Aplicaciones
o 3.1 Compresin de datos
Caractersticas
Las funciones de transferencia de los elementos de procesado (neuronas) han de ser
derivables.
Limitaciones
El Perceptrn Multicapa no extrapola bien, es decir, si la red se entrena mal o de manera
insuficiente, las salidas pueden ser imprecisas.
La existencia de mnimos locales en la funcin de error dificulta considerablemente el
entrenamiento, pues una vez alcanzado un mnimo el entrenamiento se detiene aunque no se
haya alcanzado la tasa de convergencia fijada.
Cuando caemos en un mnimo local sin satisfacer el porcentaje de error permitido se puede
considerar: cambiar la topologa de la red (nmero de capas y nmero de neuronas), comenzar el
entrenamiento con unos pesos iniciales diferentes, modificar los parmetros de aprendizaje, modificar
el conjunto de entrenamiento o presentar los patrones en otro orden.
Aplicaciones
El perceptrn multicapa (de aqu en adelante MLP, MultiLayer Perceptron) se utiliza para resolver
problemas de asociacin de patrones, segmentacin de imgenes, compresin de datos, etc.
Compresin de datos
Considerese un MLP de 3 capas, una de entrada, una oculta y la de salida. La capa de entrada est
formada por N neuronas, la capa oculta por M (M < N) neuronas y la capa de salida posee N
neuronas al igual que la capa de entrada. Se entrena dicho MLP para que cuando se le d como
entrada un vector de datos (x1, x2,..., xN) devuelva ese mismo vector con M datos como salida, con
ello estamos enseando al MLP a transformar un vector de N componentes en uno de M
componentes (recordemos que M < N) y a recuperar el vector original a partir del vector "comprimido".
Una vez que el MLP est entrenado se procede de la siguiente forma:
Compresin: Para comprimir los datos utilizamos un MLP de dos capas, la de entrada con N
neuronas y la de salida con M, los pesos de estas dos capas son los de la capa de entrada y
oculta respectivamente, del MLP que entrenamos anteriormente.
Descompresin: Para descomprimir los datos utilizamos un MLP de dos capas, la de entrada
con M neuronas y la de salida con N, los pesos de estas dos capas son los de la capa oculta y
la de salida respectivamente, del MLP que entrenamos anteriormente.
El MLP no conseguir (al menos normalmente) un error nulo durante el entrenamiento, por lo que se
trata de un sistema de compresin con prdidas. Obviamente cuanto mayor queramos que sea el
factor de compresin, ms error se cometer.
29
20) Adaline
El adaline (de ADAptative LInear Element) es un tipo de red neuronal artificial desarrollada por
Bernie Widrow en la Universidad de Stanford. Aunque originalmente el nombre corresponda a
ADAptative LInear NEuron, al caer las redes neuronales en decadencia el autor decidi pasar a la
primera definicin dada.
La diferencia entre el Adaline y el perceptrn estndar (McCulloch-Pitts) es que el perceptrn solo
tiene capacidad para clasificar, ya que utiliza una funcin umbral sobre la suma ponderada de las
entradas, a diferencia del adaline, que es capaz de estimar una salida real.
Contenido
1 Definicin
2 Aprendizaje
3 Ventajas
4 Aplicaciones
5 Referencias
Definicin
Generalmente se compone de una sola capa de n neuronas ( por tanto n valores de salida ) con m
entradas con las siguientes caractersticas:
Las m entradas representan un vector x de entrada que pertenece al espacio Rm.
Por cada neurona, existe un vector w de pesos sinpticos que indican la fuerza de conexin
entre los valores de entrada y la neurona. En la prctica representan la ponderacin de cada
entrada sobre la neurona.
Una constante .
La salida y de la neurona se representa por la funcin de activacin, que se define como
Aprendizaje
A diferencia del perceptrn, a la hora de modificar los pesos durante el entrenamiento el Adaline tiene
en cuenta el grado de correccin de la salida estimada respecto a la deseada. Esto se consigue
mediante la aplicacin de la regla Delta, y que se define, para un patrn de entrada xp con una salida
estimada yp y una salida deseada dp, como | dp yp | .
Dado que el objetivo del Adaline es poder estimar de la manera ms exacta la salida (conseguir una
salida exacta es prcticamente imposible en la mayora de los casos), se busca minimizar la
desviacin de la red para todos los patrones de entrada, eligiendo una medida del error global.
Normalmente se utiliza el error cuadrtico medio.
La manera de reducir este error global es ir modificando los valores de los pasos al procesar cada
entrada, de forma iterativa, mediante la regla del descenso del gradiente. Suponiendo que tenemos
una constante de aprendizaje :
Que ser la expresin que utilizaremos por cada entrada para modificar los pesos.
29
Ventajas
Con respecto al perceptrn el Adaline posee la ventaja de que su grfica de error es un
hiperparaboloide que posee o bien un nico mnimo global, o bien una recta de infinitos mnimos,
todos ellos globales. Esto evita la gran cantidad de problemas que da el perceptrn a la hora del
entrenamiento debido a que su funcin de error (tambin llamada de coste) posee numerosos
mnimos locales. asas
Aplicaciones
Asociacin de patrones: se puede aplicar a este tipo de problemas siempre que los patrones
sean linealmente separables.
En el campo del procesamiento de seales:
Filtros de ruido: Limpiar ruido de seales transmisoras de informacin.
Filtros adaptativos: Un adaline es capaz de predecir el valor de una seal en el instante t+1
si se conoce el valor de la misma en los p instantes anteriores (p es >0 y su valor depende del
problema). El error de la prediccin ser mayor o menor segn qu seal queramos predecir.
Si la seal se corresponde a una serie temporal el Adaline, pasado un tiempo, ser capaz de
dar predicciones exactas.
Se pueden combinar mltiples Adalines formando lo que se denomina el Madaline.
Una mquina de Boltzmann es un tipo de red neuronal recurrente estocstica. El nombre le fue
dado por los investigadores Geoffrey Hinton y Terry Sejnowski. Las mquinas de Boltzmann pueden
considerarse como la contrapartida estocstica y generativa de las redes de Hopfield. Fueron de los
primeros tipos de redes neuronales capaces de aprender mediante representaciones internas, son
capaces de representar y (con tiempo suficiente) resolver complicados problemas combinatorios. Sin
embargo, debido a una serie de cuestiones que se abordan ms adelante, las mquinas de
Boltzmann sin restricciones de conectividad no han demostrado ser tiles para resolver los problemas
que se dan en la prctica en el aprendizaje o inferencia de las mquinas. An as resultan
interesantes en la teora debido a la localizacin y a la naturaleza hebbiana de su algoritmo de
entrenamiento, as como por su paralelismo y por la semejanza de su dinmica a fenmenos fsicos
sencillos. Si se limita la conectividad, el aprendizaje puede ser lo bastante eficaz como para ser til en
la resolucin de problemas prcticos.
En mecnica estadstica se denominan distribuciones de Boltzmann y son utilizadas en funciones de
muestreo.
Contenido
1 Estructura
2 Probabilidad de estado de una unidad
3 Estado de equilibrio
4 Entrenamiento
5 Problemas en la aplicacin prctica
Estructura
Las mquinas de Boltzmann, al igual que las redes de Hopfield, Poseen unidades con una "energa"
definida para la red. Tambin dispone de unidades binarias, pero a diferencia de las redes de
Hopfield, las unidades de una mquina de Boltzmann son estocsticas. La energa global, E, en una
mquina de Boltzmann es idntica en forma a la de una red de Hopfield:
Donde:
wij es la fuerza de conexin entre la unidad j y la unidad i.
si es el estado, , de la unidad i.
i es el umbral de la unidad i.
Las conexiones de una mquina de Boltzmann tienen dos limitaciones:
Ninguna unidad se conecta a s misma.
. (Todas las conexiones son simtricas.)
Finalmente podemos resolver para pi=on, la probabilidad de que la unidad i est en on.
Donde el escalar T se refiere a cmo est la temperatura en el sistema. Esta relacin es la fuente de
la funcin logstica que se encuentra en las expresiones de probabilidad de las distintas variantes de
la mquina de Boltzmann.
Estado de equilibrio
La red se ejecuta repetidamente escogiendo una unidad y estableciendo su estado de acuerdo con la
frmula anterior. Despus de ejecutarse durante suficiente tiempo a una cierta temperatura, la
probabilidad del estado global de la red va a depender slo del estado global de energa, de acuerdo
a una distribucin de Boltzmann. Esto significa que los logaritmos de las probabilidades de los
estados globales se volvern lineales en sus energas. Esta relacin se cumple cuando la mquina
est "en equilibrio termodinmico", lo que significa que la distribucin de probabilidad de los estados
globales ha convergido. Si empezamos a hacer funcionar la red a alta temperatura, y desciende
gradualmente hasta llegar a un equilibrio termodinmico a una baje temperatura, estaremos
garantizando la convergencia a una distribucin donde el nivel de energa flucte alrededor del
mnimo global. Este proceso se llama Simulated annealing (SA) o templado simulado.
Para entrenar a la red de modo que la posibilidad de que converja en un estado global se ajuste a
una distribucin externa, habr que establecer los pesos para que los estados globales con mayor
probabilidad tengan la energa ms baja. Para esto se usa el siguiente mtodo de entrenamiento.
Entrenamiento
Las unidades de la mquina de Boltzmann se dividen en unidades "visibles", V, y unidades "ocultas",
H. Las primeras son las que recibirn informacin del "entorno", por ejemplo la serie de
entrenamiento podra ser un conjunto de vectores binarios aplicado sobre las unidades V. La
distribucin en el conjunto de entrenamiento se denota P + (V).
En las mquinas de Boltzmann, como ya se ha dicho, la distribucin de los estados globales converge
hasta un equilibrio termodinmico. Despus de que marginalizar por encima de las unidades visibles
V, la convergencia de la distribucin se puede denotar como P (V).
Nuestro objetivo es aproximar la distribucin "real" P + (V) a la expresin P (V), la cual es producida
eventualmente por la mquina. Para medir la similitud entre las dos distribuciones se usa la
divergencia de Kullback-Leibler, G:
29
Donde el sumatorio es superior a todos los posibles estados de V. G vara en funcin de los pesos, ya
que estos determinan la energa de un estado, y la energa a su vez determina P (v), segn la
distribucin de Boltzmann. Por lo tanto, podemos utilizar un algoritmo de descenso de gradiente sobre
G para un peso determinado, wij, que se cambiar restando la derivada parcial de G con respecto al
peso.
El entrenamiento de una mquina de Boltzmann consta de dos fases, que se van cambiando
iterativamente entre ellas. Una es la fase "positiva" en que los estados de las unidades visibles se
sujetan a un vector de estado binario particular, muestra del conjunto de entrenamiento (de acuerdo a
P +). La otra es la fase "negativa", en la que a la red se le permite ejecutarse libremente, es decir, los
estados de las unidades no estn determinados por datos externos. Sorprendentemente, el gradiente
con respecto a un peso determinado, wij, est dado por una ecuacin muy sencilla (demostrada por
Ackley et al.):
Donde:
es la probabilidad de que tanto las unidades i como j estn activadas cuando la mquina
est en equilibrio durante la fase positiva.
es la probabilidad de que tanto las unidades i como j estn activadas cuando la mquina
est en equilibrio durante la fase negativa.
R denota la tasa de aprendizaje.
Este resultado se deduce del hecho de que en el equilibrio termodinmico la probabilidad P (s) de
cualquier estado global s cuando la red est funcionando libremente viene dada por la distribucin de
Boltzmann (de ah el nombre de "mquina de Boltzmann").
Sorprendentemente, esta regla de aprendizaje es bastante plausible desde el punto de vista biolgico
por el hecho de que la nica informacin necesaria para cambiar los pesos es proporcionada de
forma "local". Es decir, la conexin (o sinapsis usando terminologa biolgica) no necesita ms
informacin que la que suministran las dos neuronas que conecta. Esto es mucho ms realista
biolgicamente hablando que lo que sucede con la informacin que necesitan muchos otros
algoritmos de entrenamiento de redes neuronales, como por ejemplo el de retropropagacin.
En el entrenamiendo de una mquina de Boltzmann no se utiliza el algoritmo EM, muy utilizado en
Aprendizaje automtico. Minimizar la divergencia KL, es equivalente a maximizar el logaritmo de la
verosimilitud de los datos. Por lo tanto, el procedimiento de entrenamiento lleva a cabo un gradiente
de ascenso sobre el logaritmo de verosimilitud de los datos observados. Esto contrasta con el
algoritmo EM, donde la distribucin posterior de los nodos ocultos debe ser calculada antes de la
maximizacin de la verosimilitud llevada a cabo en el paso M.
En entrenamiento de sesgos es similar, pero usa slo la actividad de un solo nodo:
La fuerzas de las conexiones son ms flexibles cuando las unidades conectadas tienen
probabilidades de activacin intermedias entre cero y uno, llevando a la llamada trampa de
varianza. El efecto neto es que el ruido hace que las fuerzas de las conexiones se vuelvan
aleatorias hasta que las actividades se saturan.
Historia
La mquina de Boltzmann es una versin del mtodo de Montecarlo de las redes de Hopfield.
Se cree que la idea de utilizar modelos de Ising para la inferencia fue descrita por primera vez por
Geoffrey E. Hinton y Terrence J. Sejnowski
La misma idea de aplicar el modelo de Ising con el muestreo de Gibbs templado tambin est
presente en el proyecto de Douglas Hofstadter Copycat.
Ideas similares (cambiando el signo de la funcin de energa) tambin se pueden encontrar en la
"Teora de la Armona" de Paul Smolensky.
La analoga explcita extrada de la mecnica estadstica en la formulacin de la mquina de
Boltzmann ha llevado a la utilizacin de una terminologa tomada de la fsica (por ejemplo, "energa"
en lugar de "armona"), que se ha convertido en estndar en el campo. La adopcin generalizada de
esta terminologa puede haber sido alentada por el hecho de que su uso ha llevado a importar una
variedad de conceptos y mtodos tomados de la mecnica estadstica. Sin embargo, no hay ninguna
razn para pensar que las diversas propuestas para el uso de templado simulado para la inferencia
descrita anteriormente no sean independientes. (Helmholtz, hizo una analoga similar en los albores
de la psicofsica.)
Los modelos de Ising se consideran en la actualidad como un caso especial de los campos aleatorios
de Markov, que encuentran una amplia aplicacin en diversos campos, como los de la lingstica,
robtica, visin artificial e inteligencia artificial.
Bibliografa
Fort, J. C.; Gerschenfeld, A. (1988). El nacimiento de un ordenador neuronal: La mquina de
Boltzmann. Mundo Cientfico 8: p. 614.
Contenido
1 Minimizacin del Error
2 Red Neuronal con una Capa Oculta
3 Descripcin del Algoritmo
4 Clculo de las Derivadas Parciales
5 Ajuste de los Pesos
6 Entrenamiento On-Line y Off-Line
7 Enlaces externos
8 Referencias
,
Donde es la norma euclidiana.
El error total es la suma de los errores de los ejemplos:
Un mtodo general para minimizar el error es el actualizar los parmeros de manera iterativa. El valor
nuevo de los parmetros se calcula al sumar un incremento al valor actual:
El algoritmo se detiene cuando converge o bien cuado el error alcanza un mnimo valor deseado.
Si la funcin usada para aproximar los valores de salida es diferenciable respecto a los
parmetros , podemos usar como algoritmo de aprendijaze el mtodo de gradiende
descendiente. En este caso, el incremento de los parmetros se expresa como
Esta funcin adems de ser diferenciable, tiene la particularidad de que su derivada se puede
expresar en trminos de s misma:
29
Esto nos servir para simplificar los clculos en el algoritmo de aprendizaje aqu descrito.
3. Calcular las derivadas parciales del error con respecto a los pesos que unen la capa
oculta con la de salida.
4. Calcular las derivadas parciales del error con respecto a los pesos que unen la capa de
entrada con la oculta.
5. Ajustar los pesos de cada neurona para reducir el error.
6. Repetir el proceso varias veces por cada par de entradas-salidas de prueba.
O = Xj*F(netj)
Estructura
Contenido
1 Estructura
2 Ejecucin
3 Entrenamiento
Las unidades de las redes Hopfield son binarias, es decir, slo tienen dos valores posibles para sus
estados y el valor se determina si las unidades superan o no un determinado umbral. Los valores
posibles pueden ser 1 -1, o bien 1 0. As, las dos definiciones posibles para la unidad i de
activacin, ai, son las siguientes:
(1)
29
(2)
Donde:
wij es la fuerza del peso de la conexin de la unidad j a la unidad i (peso de conexin).
sj es el estado de la unidad j.
i es el umbral de la unidad i.
Las conexiones en una red de Hopfield suelen tener las siguientes restricciones:
(ninguna unidad tiene relacin con ella misma)
(conexiones simtricas)
Este valor se denomina energa, porque la definicin asegura que si las unidades son elegidas al azar
para actualizar sus valores de activacin la red converger a estados que son mnimos locales de la
funcin de energa (que se considera una funcin de Lyapunov). As, si un estado es un mnimo local
en la funcin de energa ser un estado estable de la red. Hay que tener en cuenta que esta funcin
de energa pertenece a una clase general de modelos en fsica, denominados Modelos de Ising, los
cuales a su vez son un caso particulas de las redes de Markov, donde la medida de probabilidad
asociada, llamada medida de Gibbs, tiene la propiedad de Mrkov.
Ejecucin
En cada paso se escoge un nodo al azar. El comportamiento del nodo es entonces determinista: se
mueve a un estado para minimizar la energa de l mismo y de los nodos circundantes. (a diferencia
de la mquina de Boltzmann cuya regla de actualizacin es estocstica.)
Entrenamiento
El entrenamiento de una red de Hopfield consiste en reducir la energa de los estados que la red debe
"recordar". Esto convierte a la red en un sistema de memoria direccionable, es decir, la red
29
"recordar" un estado si se le da slo parte de dicho estado. Esto la hace til para recuperar una
entrada distorcionada usando un estado de la red obtenido durante el entrenamiento y que es ms
similar al estado obtenido con la entrada actual. Esto se llama memoria asociativa, ya que recupera la
memoria en base a la similitud. Por ejemplo, si entrenamos una red Hopfield con cinco unidades para
que el estado (1, 0, 1, 0, 1) sea un mnimo de energa, y le damos a la red el estado (1, 0, 0, 0, 1) esta
convergir a (1, 0, 1, 0, 1). As, la red estar adecuadamente capacitada cuando la energa de los
estados que la red debe recordar son mnimos locales.
Contenido
1 Ejemplos
2 Definicin matemtica
o 2.1 Casos especiales
3 Referencias
Ejemplos
Los siguientes son ejemplos dentro del amplio grupo de las series temporales:
o Seales de telecomunicacin
o Seales biomdicas (electrocardiograma, encefalograma, etc.)
o Seales ssmicas
o El nmero de manchas solares ao tras ao
o El ndice de la bolsa segundo a segundo
o La evolucin de la poblacin de un municipio ao tras ao
o El tiempo de espera en cola de cada uno de los usuarios que van llegando a una
ventanilla
29
En los procesos estocasticos se pueden usar las matrices para definir el nmero de eventos, ya que
no necesitan la historia para "predecir", sino de los hechos que estan presentes se "predice" un
comportamiento cadenas de markov.
Definicin matemtica
Un proceso estocstico se puede definir equivalentemente de dos formas diferentes:
Como un conjunto de realizaciones temporales y un ndice aleatorio que selecciona una de
ellas.
Como un conjunto de variables aleatorias indexadas por un ndice , dado que , con
.
Puede ser continuo si es un intervalo (el nmero de sus valores es ilimitado) o discreto si es
numerable (solamente puede asumir determinados valores).
Las variables aleatorias toman valores en un conjunto que se denomina espacio probabilstico.
Sea un espacio probabilstico.
En una muestra de tamao n se observa un suceso compuesto E formado por sucesos elementales
:
, de manera que .
El suceso compuesto es un subconjunto contenido en el espacio muestral y es un lgebra de Boole
B. A cada suceso le corresponde un valor de una variable aleatoria V, de manera que V es funcin
de :
El dominio de esta funcin o sea el campo de variabilidad del suceso elemental, es el espacio
muestral, y su recorrido, o sea el de la variable aleatoria, es el campo de los nmeros reales. Se
llama proceso aleatorio al valor en de un elemento , donde para
todo es una variable aleatoria del valor en .
Si se observa el suceso en un momento t de tiempo:
.
V define as un proceso estocstico.
Si es una filtracin, se llama proceso aleatorio adaptado, al valor en , de un elemento
, donde es una variable aleatoria -medible del valor en .
La funcin se llama la trayectoria asociada al suceso .
Casos especiales
Proceso estacionario: Un proceso es estacionario en sentido estricto si la funcin de
distribucin conjunta de cualquier subconjunto de variables es constante respecto a un
desplazamiento en el tiempo. Se dice que un proceso es estacionario en sentido amplio (o
dbilmente estacionario) cuando se verifica que:
1. La media terica es independiente del tiempo; y
2. Las autocovarianzas de orden s slo vienen afectadas por el lapso de tiempo
transcurrido entre los dos periodos y no dependen del tiempo.
Proceso homogneo: variables aleatorias independientes e idnticamente distribuidas
Proceso de Mrkov: Aquellos procesos discretos en que la evolucin slo depende del estado
actual y no de los anteriores.
29
Proceso de Gauss: Proceso continuo en el que toda combinacin lineal de variables es una
variable de distribucin normal.
Proceso de Poisson
Proceso de Gauss-Mrkov: Son procesos, al mismo tiempo, de Gauss y de Mrkov
Proceso de Bernoulli Son procesos discretos con una distribucin binomial.
Contenido
1 Modelo
2 Modelo postulado
3 El problema de la seleccin de las variables explicativas
4 Modelo no postulado
5 Descomposicin armnica
Modelo
Un modelo relaciona una o varias variables que hay que explicar Y a unas variables explicativas X,
por una relacin funcional Y = F (X)
Un modelo fsico es un modelo explicativo sostenido por una teora.
Un modelo estadstico, al contrario, es un modelo emprico nacido de datos disponibles, sin
conocimientos a priori sobre los mecanismos en juego. Podemos sin embargo integrar en eso
ecuaciones fsicas (en el momento del pretratamiento de datos).
Disponemos de n de observaciones (i = 1,, n) de p variables. La ecuacin de regresin se escribe:
Donde
i es el error del modelo;
a0, a1, ,ap son los coeficientes del modelo que hay que estimar.
El clculo de los coeficientes aj y del error del modelo, a partir de las observaciones, es un problema
bien dominado (ver Regresin lineal).
Ms delicado es la eleccin de las variables que entran en este modelo. Puede ser postulado o no
postulado.
Modelo postulado
Slo los coeficientes del modelo precedente de regresin son dirigidos por los datos, la estructura
polinmica del modelo es impuesta por el utilizador (segn su peritaje del problema), que postula a
priori:
El tipo de modelo: lineal o polinmico, y el grado del polinomio,
las variables que entrarn en el modelo.
Ejemplo de modelo polinmico con dos variables explicativas:
Modelo no postulado
El modelo no postulado es al contrario totalmente dirigido por los datos, tanto su estructura
matemtica como sus coeficientes. La seleccin de las variables explicativas no pide conocimiento a
priori sobre el modelo: se efecta entre un conjunto muy grande de variables, comprendiendo:
Variables explicativas simples: A, B, C, (propuestas por los expertos del campo considerado
y cuyo nmero p puede ser superior a n
Interacciones o acoplamiento de estas variables, por ejemplo A*B (producido cruzado
sobre variables centradas reducidas), pero tambin interacciones lgicas tal A y B , A
o B , A y B medios , A si B es fuerte , A si B es medio , A si B es dbil , etc.;
Funciones de estas variables': por ejemplo cos (A) o cualquier funcin sinusoidal
amortiguada o ampliada, funcin peridica no sinusoidal, efecto de umbral, etc.
La seleccin se produce antes del clculo de los coeficientes de la regresin segn el principio
siguiente:
Buscamos el factor o la interaccin o la funcin mejor correlada a la respuesta. Habindolo
encontrado, buscamos el factor o la interaccin mejor correlada al residuo no explicado por la
correlacin precedente; etc. Este mtodo pretende no contar dos veces la misma influencia, cuando
los factores son correlados, y a ordenarlos por importancia decreciente.
La lista por orden de importancia decreciente encontrada y clasificada, no puede contar ms trminos
que desconocidas (n). Si se guarda slo un trmino en el modelo, deber ser la primera de la lista. Si
se guarda dos, sern ambos primeros, etc.
En efecto ya que cada uno de los trminos de la lista explica el residuo no explicado por los
precedentes, los ltimos explican posiblemente slo el ruido. Cul criterio de parada escoger?
El nmero de trminos conservados en el modelo puede ser, por ejemplo, el que minimiza el error
estndar de prediccin SEP (Standard error of Prediction), o el que maximiza el F de Fisher. Este
nmero de trmino puede tambin ser escogido por el utilizador a partir de consideraciones fsicas.
Este modelo parsimonioso , es decir conteniendo pocos trminos (aqu tres), contrata 5 variables,
y estar pegado mejor a la realidad fsica que un modelo polinmico. En efecto la conjuncin E y
G que significa E y G fuertes simultneamente es encontrado ms a menudo en la realidad
fsica (ejemplo: la catlisis en qumica) que un trmino polinmico de tipo E.G.
Descomposicin armnica
Un modelo no postulado ser tambin eficaz en la descomposicin armnica de las series.
En efecto, el principio se aplica tambin bien en caso de muestreo irregular (donde los mtodos de
tipo media mvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los casos no estacionarios
(donde Anlisis armnico no se aplica). Permite descubrir y desenredar las interferencias de ciclos
diversos y estacionalidad con roturas de tendencias en escaln, en V, roturas logsticas, motivos
peridicos, y acontecimientos accidentales tales como picos aislados o pedazos de ondas.
Regresin segmentada lineal en dos segmentos separados por un punto de quiebra puede ser til
para cuantificar un cambio abrupto en la funcin de reaccin de un factor de inters a la variacin de
otro factor influencial. El punto de quiebra se interpreta como un valor seguro, crtico o umbral cuando
efectos (no) deseados suceden a uno de los dos lados.
El punto de quiebra puede ser un factor importante para la toma de decisiones de manejo. El anlisis
de la regresin segmentada se basa en la presencia de un juego de datos ( y , x ) , donde y es la
variable dependiente y x el variable independiente, es decir que el valor de x influye el valor de y.
Contenido
1 Regresin segmentada lineal, 2 segmentos
2 Ejemplo
3 Procedimiento de pruebas
El mtodo de los mnimos cuadrados aplicado separadamente a cada segmento, por lo cual las dos
lineas de regresin se ajustan a los datos tan cerca como posible minimizando la suma de los
29
cuadrados de las diferencias (SCD) entre el valor observado (y) y valor calculado por regresin (Yr)
de la variable dependiente, resulta en las ecuaciones siguientes:
Yr = A1. x + K1 para x < PQ (punto de quiebra)
Yr = A2. x + K2 para x > PQ (punto de quiebra)
Donde:
Yr es el valor esperado (pronosticado) de y para un cierto valor de x
A1 y A2 son los coeficientes de regresin indicando la inclinacin de las lneas en los
segmentos respectivos
K1 and K2 son los constantes de regresin en los segmentos respectivos indicando los valores
de Yr cuando x = 0
Los datos pueden mostrar diferentes tipos de tendencia. Vase las figuras.
El mtodo tambin rinde dos coeficientes de correlacin:
(R1)2 = 1 suma { (y Yr)2 } / suma { (y Ya1)2 } para x < PQ (punto de quiebra)
(R2)2 = 1 suma { (y Yr)2 } / suma { (y Ya2)2 } para x > PQ (punto de quiebra)
Donde
Suma { (y Yr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por
segmento
Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos
Cuando no se detecta un punto de quiebra, hay que volver a una regresin sin punto de quiebra.
Ejemplo
Para la figura azul arriba, que da la relacin entre la cosecha de mostaza (colza) en t/ha y la salinidad
del suelo (x = Ss) expresada en conductividad elctrica (EC en dS/m) de la solucin del suelo,3 se
desprende que:
PQ = 4.93 , A1 = 0 , K1 = 1.74 , A2 = 0.129 , K2 = 2.38 , (R1)2 = 0.0035 (no significante) , (R2)2 =
0.395 (significante) y:
Yr = 1.74 t/ha para Ss < 4.93 (punto de quiebra)
Yr = 0.129 Ss + 2.38 t/ha para Ss > 4.93 (punto de quiebra)
Indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce
la cosecha @ 0.129 tonelada/ha por unidad de aumento de salinidad de suelo.
La figura tambin muestra intervalos de confianza e inseguridad.
Procedimiento de pruebas
28) Econometra
La Econometra (derivado de econo, economa y metra, medicin, o sea, medicin de la economa)
es la rama de la economa que utiliza mtodos y modelos matemticos. El clculo, la probabilidad, la
estadstica, la programacin lineal y la teora de juegos, as cmo otras reas de las matemticas, se
utilizan para analizar, interpretar y predecir diversos sistemas y variables econmicas, como el precio,
las reacciones del mercado, el coste de produccin, la tendencia de los negocios y la poltica
econmica.
Contenido
1 Introduccin
2 Definiciones de Econometra
3 Descripcin somera de la Econometra
4 Concepto de modelo economtrico
5 El mtodo de mnimos cuadrados (Estimacin MCO)
6 Problemas del Mtodo de los Mnimos Cuadrados
Introduccin
La economa, pertenenciente a las ciencias sociales, trata de explicar el funcionamiento del sistema
econmico en sus distintos aspectos como produccin, consumo, dinero, distribucin del ingreso y
todo lo relacionado con los recursos escasos entre distintos fines posibles. La herramienta bsica
usada por los economistas para ello es la construccin de modelos tericos y matemticos que
describan el comportamiento de los agentes econmicos. Sin embargo, esos modelos deben
contrastarse con los datos disponibles para saber si estos tienen capacidad explicativa y predictiva, y
poder en definitiva elegir unos sobre otros. Para ello es la econometra.
Los econometristas(economistas cuantitativos) han tratado de emular a las ciencias matemticas y a
las de la naturaleza (fsica, qumica) con mejor o peor resultado a travs del tiempo. Hay que
29
considerar que tratan con uno de los fenmenos ms complejos que conocemos, el comportamiento
de las personas. Actualmente la econometra no necesariamente requiere o presupone una teora
econmica subyacente al anlisis economtrico. Ms an, la econometra moderna se precia de
prescindir voluntariamente de la teora econmica por considerarla un obstculo si se quiere realizar
un anlisis riguroso (sta es por ejemplo la filosofa del mtodo de Vector Autoregresivos - VAR).
En la elaboracin de la econometra se unen las matemticas, y la estadstica junto con la
investigacin social y la teora econmica.
El mayor problema con el que se enfrentan los econmetras en su investigacin es la escasez de
datos, los sesgos que pueden causar los mismos y la ausencia o insuficiencia de una teora
econmica adecuada. Aun as, la econometra es la nica aproximacin cientfica al entendimiento de
los fenmenos econmicos. la econometria se fundamenta en combinar las ciencias sociales con la
estabilidad econmica del pas o lugar.
Definiciones de Econometra
Entre las definiciones de econometra que los economistas relevantes han formulado a lo largo de la
historia, podemos destacar las siguientes:
Ragnar Frisch (1930): 'La experiencia ha mostrado que cada uno de estos tres puntos de
vista, el de la estadstica, la teora econmica y las matemticas, es necesario, pero por s
mismo no suficiente para una comprensin real de las relaciones cuantitativas de la vida
econmica moderna. Es la unin de los tres aspectos lo que constituye una herramienta de
anlisis potente. Es la unin lo que constituye la econometra".
Samuelson, Koopmans y Stone (1954): '... el anlisis cuantitativo de fenmenos econmicos
actuales, basado en el desarrollo congruente de teora y observaciones, y relacionado por
mtodos apropiados de inferencia.'
Valavanis (1959): 'El objetivo de la econometra es expresar las teoras econmicas bajo una
forma matemtica a fin de verificarlas por mtodos estadsticos y medir el impacto de una
variable sobre otra, as como predecir acontecimientos futuros y dar consejos de poltica
econmica ante resultados deseables.'
A.G. Barbancho (1962): 'La econometra es la rama ms operativa de la Ciencia econmica,
trata de representar numricamente las relaciones econmicas mediante una adecuada
combinacin de la Teora econmica matemtica y la Estadstica. De forma que las
matemticas, como lenguaje y forma de expresin simblica e instrumento eficaz en el
proceso deductivo, representan el medio unificador; y teora econmica, economa
matemtica o estadstica econmica seran consideraciones parciales de su contenido.'
Klein (1962): 'El principal objetivo de la econometra es dar contenido emprico al
razonamiento a priori de la economa.'
Malinvaud (1966): '... aplicacin de las matemticas y mtodo estadstico al estudio de
fenmenos econmicos.'
Christ (1966): 'Produccin de declaraciones de economa cuantitativa que explican el
comportamiento de variables ya observadas, o predicen la conducta de variables an no
observadas.'
Intriligator (1978): 'Rama de la economa que se ocupa de la estimacin emprica de
relaciones econmicas.'
Chow (1983): 'Arte y ciencia de usar mtodos para la medida de relaciones econmicas.'
que no se hayan podido incluir en el modelo) que se suele representar aadiendo a la suma una letra
representa una variable aleatoria.
As:
Se suele suponer que es una variable aleatoria normal, con media cero y varianza constante en
todas las muestras (aunque sea desconocida).
Se toma una muestra estadstica, que corresponda a observaciones de los valores que hayan tomado
esas variables en distintos momentos del tiempo (o, dependiendo del tipo de modelo, los valores que
hayan tomado en distintas reas, zonas o agentes econmicos a considerar).
Por ejemplo, en un determinado modelo podemos estar interesados en averiguar como la renta ha
dependido de los niveles de precios, de empleo y de tipos de inters a lo largo de los aos en cierto
pas, mientras que en otro podemos estar interesados en ver como, a lo largo de un mismo ao, ha
dependido la renta de distintos pases de esas mismas variables. Por lo que tendramos que
observar, en el primer caso, la renta, niveles de empleo, precios y tipos de inters del ao 1, lo
mismo, pero del ao 2, etctera, para obtener la muestra a lo largo de varios aos, mientras que en el
segundo caso tendramos que tener en cuenta los valores de cada uno de los pases para obtener la
muestra. Cada una de esas observaciones para cada ao, o pas, se llamara observacin muestral.
Ntese que an se podra hacer un anlisis ms ambicioso teniendo en cuenta pas y ao.
Una vez tomada la muestra, se aplica un mtodo, que tiene su justificacin matemtica y estadstica,
llamado mtodo de mnimos cuadrados. Este consiste en, bsicamente, minimizar la suma de los
errores (elevados al cuadrado) que se tendran, suponiendo distintos valores posibles para los
parmetros, al estimar los valores de la variable endgena a partir de los de las variables exgenas
en cada una de las observaciones muestrales, usando el modelo propuesto, y comparar esos valores
con los que realmente tom la variable endgena. Los parmetros que lograran ese mnimo, el de las
suma de los errores cuadrticos, se acepta que son los que estamos buscando, de acuerdo con
criterios estadsticos.
Tambin, este mtodo nos proporcionar informacin (en forma de ciertos valores estadsticos
adicionales, que se obtienen adems de los de los parmetros) para ver en qu medida los valores
de los parmetros que hemos obtenido resultan fiables, por ejemplo, para hacer contrastes de
hiptesis, esto es, ver si ciertas suposiciones que se haban hecho acerca del modelo resultan,
o no, ciertas. Se puede usar tambin esta informacin adicional para comprobar si se pueden
prescindir de algunas de esas variables, para ver si es posible que los valores de los parmetros
hayan cambiado con el tiempo (o si los valores de los parmetros son diferentes en una zona
econmica de los de otra, por ejemplo), o para ver en qu grado son vlidas predicciones acerca del
futuro valor de la variable endgena si se supone que las variables exgenas adoptarn nuevos
valores.
la muestra. Esto nos llevara al mtodo conocido como Mnimos Cuadrados Generalizados. Una
versin ms complicada de este problema es cuando se supone que, adems, no solo cambia la
varianza del error sino que tambin los errores de distintos periodos estn correlacionados, lo que se
llama "Autocorrelacin". Tambin hay mtodos para detectar este problema y para corregirlo en cierta
medida modificando los valores de la muestra, que tambin son parte del mtodo Mnimos Cuadrados
Generalizados.
Otro problema que se da es el de la Multicolinealidad, que generalmente sucede cuando alguna de
las variables exgenas en realidad depende, tambin de forma estadstica, de otra variable exgena
del mismo modelo considerado, lo que introduce un sesgo en la informacin aportada a la variable
endgena y puede hacer que el mtodo de mnimos cuadrados no se pueda aplicar correctamente.
Generalmente la solucin suele ser averiguar qu variable est causando la multicolinealidad y
reescribir el modelo de acuerdo con ello.
Tambin hay que tener en cuenta que en ciertos modelos puede haber relaciones dinmicas, esto es,
que una variable exgena dependa, adems, de los valores que ella misma y/u otras variables
tomaron en tiempos anteriores. Para resolver estos problemas se estudian lo que se llama modelos
de Series temporales.
Contenido
1 Historia
2 Formulacin formal del problema bidimensional
3 Solucin del problema de los mnimos cuadrados
o 3.1 Deduccin analtica de la aproximacin discreta mnimo cuadrtica lineal
3.1.1 Corolario
o 3.2 Deduccin geomtrica del problema discreto
4 Mnimos cuadrados y anlisis de regresin
Historia
Carl Friedrich Gauss.
El da de Ao Nuevo de 1801, el astrnomo italiano Giuseppe Piazzi descubri el planeta enano
Ceres. Fue capaz de seguir su rbita durante 40 das. Durante el curso de ese ao, muchos
cientficos intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las
ecuaciones no lineales de Kepler de movimiento es muy difcil). La mayora de evaluaciones fueron
intiles; el nico clculo suficientemente preciso para permitir a Zach, astrnomo alemn, reencontrar
a Ceres al final del ao fue el de un Carl Friedrich Gauss de 24 aos (los fundamentos de su enfoque
ya los haba planteado en 1795, cuando an tena 18 aos). Pero su mtodo de mnimos cuadrados
no se public hasta 1809, apareciendo en el segundo volumen de su trabajo sobre mecnica celeste,
Theoria Motus Corporum Coelestium in sctionibus conicis solem ambientium. El francs Adrien-Marie
Legendre desarroll el mismo mtodo de forma independiente en 1805.
En 1829 Gauss fue capaz de establecer la razn del xito maravilloso de este procedimiento:
simplemente, el mtodo de mnimos cuadrados es ptimo en muchos aspectos. El argumento
concreto se conoce como teorema de Gauss-Mrkov.
Se trata de hallar los m coeficientes cj que hagan que la funcin aproximante f(x) sea la mejor
aproximacin a los puntos (xk,yk). El criterio de mejor aproximacin puede variar, pero en general se
basa en aqul que d un menor error en la aproximacin. El error en un punto (xk,yk) se podra definir
como:
Error Medio:
Para alcanzar este objetivo, suponemos que la funcin f es de una forma particular que contenga
algunos parmetros que necesitamos determinar. Por ejemplo, supongamos que es cuadrtica, lo que
quiere decir que , donde no conocemos an , y . Ahora buscamos los
valores de , y que minimicen la suma de los cuadrados de los residuos (S):
Esto explica el nombre de mnimos cuadrados. A las funciones que multiplican a los coeficientes
buscados, esto es, a x2, x y 1, se les conoce con el nombre de funciones base de la aproximacin.
Dichas funciones base pueden ser cualesquiera funciones, y para ese caso se deduce a continuacin
la frmula general en el caso de que la aproximacin sea discreta y lineal.
La aproximacin de mnimos cuadrados es la mejor aproximacin al conjunto de puntos (xk,yk), segn
el criterio del error cuadrtico medio. Es posible generar otro tipo de aproximaciones si se toman los
errores mximos o medio, pero la dificultad que entraa operar con ellos debido al valor absoluto de
su expresin hace que apenas se usen.
.
Ello equivale por tanto a hallar los m coeficientes . En concreto, se desea que tal funcin f(x) sea
la mejor aproximacin a los n pares empleando el criterio de mnimo error cuadrtico
medio de la funcin f(x) con respecto a los puntos: .
El error cuadrtico medio ser para tal caso:
29
Minimizar el error cuadrtico medio es equivalente a minimizar el error cuadrtico, definido como el
radicando del error cuadrtico medio, esto es:
As, los cj que minimizan Ecm tambin minimizan Ec, y podrn ser calculados derivando e igualando a
cero este ltimo:
.
En forma matricial, se obtiene que:
Siendo (a,b)d el producto escalar discreto, definido para dos funciones dadas h(x) y g(x) como:
,
y para una funcin h(x) y vector cualquiera u, como:
La resolucin de dicho sistema permite obtener,para el saber de ellos para cualquier base de
funciones derivables localmente, la mejor aproximacin mnimo cuadrtica f(x) al conjunto de puntos
antes mencionado. La solucin es ptima esto es, proporciona la mejor aproximacin siguiendo el
criterio de mnimo error cuadrtico, puesto que se obtiene al optimizar el problema.
Corolario
Si se tratara de hallar el conjunto {cj} tal que f(x) pasara exactamente por todos los pares
, esto es, tales que f(x) interpolara a , entonces tendra que cumplirse
que:
Esto es, se tendra que verificar exactamente un sistema de n ecuaciones y m incgnitas, pero como
en general n>m, dicho sistema est sobredeterminado, no tiene solucin general. De ah surge la
necesidad de aproximarlo.
Dicho sistema podra expresarse en forma matricial como:
Esto es:
De manera que el mnimo error cuadrtico supone minimizar el residuo, definiendo su tamao en
base a la norma eucldea o usual del residuo, que equivale al error cuadrtico:
Siendo (r,r)2 el producto interior o escalar del vector residuo sobre s mismo.
Si atendemos al sistema Ac = b, entonces se ve claramente que al multiplicar A y c, lo que se realiza
es una combinacin lineal de las columnas de A:
29
A su vez, cada una de las m condiciones de perpendicularidad se puede agrupar en una sola:
Por tanto, la mejor aproximacin mnimo cuadrada lineal para un conjunto de puntos discretos, sean
cuales sean las funciones base, se obtiene al resolver el sistema cuadrado:
.
A esta ecuacin se le llama ecuacin normal de Gauss, y es vlida para cualquier conjunto de
funciones base. Si estas son la unidad y la funcin x, entonces la aproximacin se llama regresin
lineal.
Por
Siendo el trmino de perturbacin una variable aleatoria con media cero. Obervese que estamos
asumiendo que los valores x son exactos, y que todos los errores estn en los valores y. De nuevo,
distinguimos entre regresin lineal, en cuyo caso la funcin f es lineal para los parmetros a ser
determinados (ej., f(x) = ax2 + bx + c), y regresin no lineal. Como antes, la regresin lineal es mucho
ms sencilla que la no lineal. (Es tentador pensar que la razn del nombre regresin lineal es que la
grfica de la funcin f(x) = ax + b es una lnea. Ajustar una curva f(x) = ax2 + bx + c, estimando a, b y
c por mnimos cuadrados es un ejemplo de regresin lineal porque el vector de estimadores mnimos
cuadrticos de a, b y c es una transformacin lineal del vector cuyos componentes son f(xi) + i).
Los parmetros (a, b y c en el ejemplo anterior) se estiman con frecuencia mediante mnimos
cuadrados: se toman aquellos valores que minimicen la suma S. El teorema de Gauss-Mrkov
establece que los estimadores mnimos cuadrticos son ptimos en el sentido de que son los
estimadores lineales insesgados de menor varianza, y por tanto de menor error cuadrtico medio, si
tomamos f(x) = ax + b estando a y b por determinar y con los trminos de perturbacin
29
Interpretacin bayesiana
Aunque en principio la solucin propuesta pueda parecer artificial, y de hecho el parmetro tiene un
carcter algo arbitrario, el proceso se puede justificar desde un punto de vista bayesiano. Ntese que
para resolver cualquier problema indeterminado se deben introducir ciertas restricciones adicionales
para establecer una solucin estable. Estatsticamente se puede asumir que a priori sabemos que x
es una variable aleatoria con una distribucin normal multidimensional. Sin prdida de generalidad,
tomemos la media como 0 y asumamos que cada componente es independiente, con una desviacin
estndar x. Los datos de b pueden tener ruido, que asumimos tambin independiente con media 0 y
desviacin estndar b. Bajo estas condiciones, la regularizacin de Tjonov es la solucin ms
probable dados los datos conocidos y la distribucin a priori de x, de acuerdo con el teorema de
El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen las mismas propiedades
estadsticas, pero que evidentemente son distintas al inspeccionar sus grficos respectivos.
Cada conjunto consiste de once pares de puntos (x, y) y fueron contrudos por el estadstico
F. J. Anscombe. El cuarteto es una demostracin de la importancia de mirar grficamente un conjunto
de datos antes de analizarlos.
Propiedad Valor
sensibilidad del activo al riesgo no-diversificable (conocido tambin como riesgo del mercado o riesgo
sistmico), representado por el smbolo de beta (), as como tambin el retorno esperado del
mercado y el retorno esperado de un activo teorticamente libre de riesgo.
El modelo fue introducido por Jack L. Treynor, William Sharpe, John Litner y Jan Mossin
independientemente, basado en trabajos anteriores de Harry Markowitz sobre la diversificacin y la
Teora Moderna de Portafolio. Sharpe recibi el Premio Nobel de Economa (en conjunto con
Markowitz y Merton Miller) por su contribucin al campo de la economa financiera.
Contenido
1 Frmula
2 Precio de un activo
3 Retorno requerido para un activo especfico
4 Riesgo y diversificacin
5 Suposiciones de CAPM
6 Inconvenientes de CAPM
7 Referencias
Frmula
CAPM es un modelo para calcular el precio de un activo o una cartera de inversiones. Para activos
individuales, se hace uso de la recta security market line (SML) (la cual simboliza el retorno esperado
de todos los activos de un mercado como funcin del riesgo no diversificable) y su relacin con el
retorno esperado y el riesgo sistmico (beta), para mostrar cmo el mercado debe estimar el precio
de un activo individual en relacin a la clase a la que pertenece.
La lnea SML permite calcular la proporcin de recompensa-a-riesgo para cualquier activo en relacin
con el mercado general.
La relacin de equilibrio que describe el CAPM es:
Donde:
E(ri) es la tasa de rendimiento esperada de capital sobre el activo i.
im es el beta (cantidad de riesgo con respecto al Portafolio de Mercado), o tambin
,y
es el exceso de rentabilidad del portafolio de mercado.
(rm) Rendimiento del mercado.
(rf) Rendimiento de un activo libre de riesgo.
Es importante tener presente que se trata de un Beta no apalancado, es decir que se supone que una
empresa no tiene deuda en su estructura de capital, por lo tanto no se incorpora el riesgo financiero, y
en caso de querer incorporarlo, debemos determinar un Beta apalancado; por lo tanto el rendimiento
esperado sera ms alto.- locovs
Precio de un activo
Una vez que el retorno esperado, E(Ri), es calculado utilizando CAPM, los futuros flujos de caja que
producir ese activo pueden ser descontados a su valor actual neto utilizando esta tasa, para poder
as determinar el precio adecuado del activo o ttulo valor.
En teora, un activo es apreciado correctamente cuando su precio observado es igual al valor
calculado utilizando CAPM. Si el precio es mayor que la valuacin obtenida, el activo est
sobrevaluado, y vice versa.
simbolizan que el activo tiene un riesgo mayor al promedio de todo el mercado; betas debajo de 1
indican un riesgo menor. Por lo tanto, un activo con un beta alto debe ser descontado a una mayor
tasa, como medio para recompensar al inversionista por asumir el riesgo que el activo acarrea. Esto
se basa en el principio que dice que los inversionistas, entre ms riesgosa sea la inversin, requieren
mayores retornos.
Puesto que el beta refleja la sensibilidad especfica al riesgo no diversificable del mercado, el
mercado, como un todo, tiene un beta de 1. Puesto que es imposible calcular el retorno esperado de
todo el mercado, usualmente se utilizan ndices, tales como el S&P 500 o el Dow Jones.
Riesgo y diversificacin
El riesgo dentro de un portafolio incluye el riesgo sistmico, conocido tambin como riesgo no
diversificable. Este riesgo se refiere al riesgo al que estn expuestos todos los activos en un mercado.
Por el contrario, el riesgo diversificable es aquel intrnsico a cada activo individual. El riesgo
diversificable se puede disminuir agregando activos al portafolio que se mitiguen unos a otros, o sea
diversificando el portafolio. Sin embargo, el riesgo sistmico no puede ser disminuido.
Por lo tanto, un inversionista racional no debera tomar ningn riesgo que sea diversificable, pues
solamente el riesgo no diversificable es recompensado en el alcance de este modelo. Por lo tanto, la
tasa de retorno requerida para un determinado activo, debe estar vinculada con la contribucin que
hace ese activo al riesgo general de un determinado portafolio.
Es importante tomar en cuenta el riesgo pas, el cual no se incluye en la formula de CAPM
Suposiciones de CAPM
El modelo asume varios aspectos sobre los inversionistas y los mercados:
1. Los individuos son adversos al riesgo, y maximizan la utilidad de su riqueza en el prximo
perodo. Es un modelo de dos perodos.
2. Los individuos no pueden afectar los precios, y tienen expectativas homogneas respecto a
las varianzas-covarianzas y a los retornos esperados de los activos.
3. El retorno de los activos, se distribuye de manera normal. Explicando el retorno con la
esperanza, y el riesgo con la desviacin estndar.
4. Existe un activo libre de riesgo, al cual los individuos pueden prestar y/o endeudarse en
cantidades ilimitadas. El mercado de activos es perfecto. La informacin es gratis y est
disponible en forma instantnea para todos los individuos.
5. La oferta de activos est fija.
Inconvenientes de CAPM
El modelo no explica adecuadamente la variacin en los retornos de los ttulos valores.
Estudios empricos muestran que activos con bajos betas pueden ofrecer retornos ms altos
de los que el modelo sugiere.
El modelo asume que, dada una cierta tasa de retorno esperado, los inversionistas prefieren el
menor riesgo, y dado un cierto nivel de riesgo, preferirn los mayores retornos asociados a
ese riesgo. No contempla que hay algunos inversionistas que estn dispuestos a aceptar
menores retornos por mayores riesgos, es decir, inversionistas que pagan por asumir riesgo.
El modelo asume que todos los inversionistas tienen acceso a la misma informacin, y se
ponen de acuerdo sobre el riesgo y el retorno esperado para todos los activos.
El portafolio del mercado consiste de todos los activos en todos los mercados, donde cada
activo es ponderado por su capitalizacin de mercado. Esto asume que los inversionistas no
tienen preferencias entre mercados y activos, y que escogen activos solamente en funcin de
su perfil de riesgo-retorno.
En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o
ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si
el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de
100 individuos. Se puede emplear una tabla de contingencia para expresar la relacin entre estas dos
variables, del siguiente modo:
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias
marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es aproximadamente
igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones no son idnticas y la
significacin estadstica de la diferencia entre ellas puede ser evaluada con la prueba de Pearson,
supuesto que las cifras de la tabla son una muestra aleatoria de una poblacin. Si la proporcin de
individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin
entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes.
El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms
simple es el coeficiente phi que se define por
= (2 / N)
2
Donde se deriva del test de Pearson, y N es el total de observaciones -el gran total-. puede
oscilar entre 0 (que indica que no existe asociacin entre las variables) e infinito. A diferencia de otras
medidas de asociacin, el coeficiente de Cramer no est acotado.
Contenido
1 Planteamiento
2 Suposiciones
3 Mtodo
Planteamiento
Supngase que se dispone de n pares de observaciones, denominadas (xi,yi). El objetivo del test es
comprobar si puede dictaminarse que los valores xi e yi son o no iguales.
Suposiciones
1. Si zi = yi xi, entonces los valores zi son independientes.
2. Los valores zi tienen una misma distribucin continua y simtrica respecto a una mediana
comn .
Mtodo
La hiptesis nula es H0: = 0. Retrotrayendo dicha hiptesis a los valores xi,yi originales, sta vendra
a decir que son en cierto sentido del mismo tamao.
Para verificar la hiptesis, en primer lugar, se ordenan los valores absolutos y se les
asigna su rango Ri. Entonces, el estadstico de la prueba de los signos de Wilcoxon, W + , es
ESTADSTICA PARAMTRICA
nuestros datos entonces deberemos aplicar primero un test no paramtrico, que nos ayude a conocer
primero la distribucin.
La mayora de procedimientos paramtricos requiere conocer la forma de distribucin para las
mediciones resultantes de la poblacin estudiada. Para la inferencia paramtrica es requerida como
mnimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una
numeracin del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20
aos, de 20 a 40 aos, de 40 a 60, de 60 a 80, etc, ya que hay nmeros con los cuales realizar
clculos estadsticos. Sin embargo, datos categorizados en: nios, jvenes, adultos y ancianos no
pueden ser interpretados mediante la estadstica paramtrica ya que no se puede hallar un parmetro
numrico (como por ejemplo la media de edad) cuando los datos no son numricos.
Ms informacin sobre escalas: Escala de medida
Es la que requiere que los elementos que integran las muestras contengan elementos parmetros o
medibles. Puede resolver tres tipos de problemas:
Estimacin puntual: En la que pretendemos darle un valor al parmetro a estimar.
Estimacin por intervalos (buscamos un intervalo de confianza).
Contraste de hiptesis, donde buscamos contrastar informacin acerca del parmetro.
1) Parmetro estadstico
poblacin, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre
datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas contribuyen de
modo esencial los parmetros estadsticos.
Por ejemplo, suele ofrecerse como resumen de la "juventud" de una poblacin la media aritmtica de
las edades de sus miembros, esto es, la suma de todas ellas, dividida por el total de individuos que
componen tal poblacin.
Enfoque descriptivo
Controversia
Como se ha dicho, los parmetros estadsticos, en el enfoque descriptivo que aqu se adopta,
substituyen grandes cantidades de datos por unos pocos valores extrados de aquellos a travs de
operaciones simples. Durante este proceso se pierde parte de la informacin ofrecida originalmente
por todos los datos. Es por esta prdida de datos por lo que la estadstica ha sido tildada en
ocasiones de una falacia. Por ejemplo, si en un grupo de tres personas una de ellas ingiere tres
helados, el parmetro que con ms frecuencia se utiliza para resumir datos estadsticos, la media
aritmtica (del nmero de helados ingeridos por el grupo), sera igual a 1 ( ), valor que no
parece resumir fielmente la informacin. Ninguna de las personas se sentira identificada con la frase
resumen "he ingerido un helado de media".
Un ejemplo menos conocido, pero igual de ilustrativo acerca de la claridad de un parmetro es la
distribucin exponencial, que suele regir los tiempos medios entre determinados tipos de sucesos.
Por ejemplo, si la vida media de una bombilla es de 8.000 horas, ms del 50% de las veces no llegar
29
a esa media. Igualmente, si un autobs pasa cada 10 minutos de media, hay una probabilidad mayor
del 50% de que pase menos de 10 minutos entre un autobs y el siguiente.
Otro ejemplo que suele ofrecerse con frecuencia para argumentar en contra de la estadstica y sus
parmetros es que, estadsticamente hablando, la temperatura media de una persona con los pies en
un horno y la cabeza en una nevera es ideal.
varan con los cambios de origen y escala o cuya variacin est controlada algebraicamente,
son apropiados en determinadas circunstancias como la tipificacin.
Principales parmetros
Habitualmente se agrupan los parmetros en las siguientes categoras:
Medidas de posicin.
Se trata de valores de la variable estadstica que se caracterizan por la posicin que ocupan dentro
del rango de valores posibles de esta. Entre ellos se distinguen:
Las medidas de tendencia central: medias, moda y mediana.
Las medidas de posicin no central: cuantiles (cuartiles, deciles y percentiles).
Medidas de dispersin.
Resumen la heterogeneidad de los datos, lo separados que estos estn entre s. Hay dos tipos,
bsicamente:
Medidas de dispersin absolutas, que vienen dadas en las mismas unidades en las que se
mide la variable: recorridos, desviaciones medias, varianza, desviacin tpica y meda.
Medidas de dispersin relativa, que informan de la dispersin en trminos relativos, como un
porcentaje. Se incluyen entre estas el coeficiente de variacin, el coeficiente de apertura, los
recorridos relativos y el ndice de desviacin respecto de la mediana.
Medidas de forma.
Su valor informa sobre el aspecto que tiene la grfica de la distribucin. Entre ellas estn los
coeficientes de asimetra y los de curtosis.
Otros parmetros.
Adems, y con propsitos ms especficos, existen otros parmetros de uso en situaciones muy
concretas, como son las proporciones, los nmeros ndice, las tasas y el coeficiente de Gini.
Medidas de posicin
Las medidas de posicin son las ms utilizadas para resumir los datos de una distribucin estadstica.
Se trata de valores de la propia variable que, en cierto modo, sustituyen la informacin provista por
los datos.
La estatura media como resumen de una poblacin homognea (abajo) o heterognea (arriba).
29
Minimiza las desviaciones cuadrticas de los datos respecto de cualquier valor prefijado, esto
2) Moda
Al depender slo de las frecuencias, puede calcularse para variables cualitativas. Es por ello
el parmetro ms utilizado cuando al resumir una poblacin no es posible realizar otros
clculos, por ejemplo, cuando se enumeran en medios periodsticos las caractersticas ms
frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".
Inconvenientes.
Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a
variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende
excesivamente del nmero de intervalos y de su amplitud.
Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
No siempre se sita hacia el centro de la distribucin.
Puede haber ms de una moda en el caso en que dos o ms valores de la variable presenten
la misma frecuencia (distribuciones bimodales o multimodales).
3) Mediana
En caso de un nmero par de datos, la mediana no correspondera a ningn valor de la variable, por
lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por
ejemplo, en el caso de doce datos como los anteriores:
En este ejemplo basado en una tabla real de percentiles usada en pediatra, puede comprobarse que
una nia de 24 meses con un peso de 13 kg estara en el percentil 75, esto es, su peso es superior
al 75% de las nias de su edad. La mediana correspondera, aproximadamente, a 12 kg (interseccin
de la lnea curva ms oscura con la lnea horizontal correspondiente al valor 12 en el eje vertical, para
esa misma edad).
Existen mtodos de clculo ms rpidos para datos ms numerosos (vase el artculo principal
dedicado a este parmetro). Del mismo modo, para valores agrupados en intervalos, se halla el
"intervalo mediano" y, dentro de este, se obtiene un valor concreto por interpolacin.
Propiedades de la mediana como parmetro estadstico.
Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de
transcripcin en la serie del ejemplo anterior en, pongamos por caso, el ltimo nmero, deja a
la mediana inalterada.
Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando
alguno de ellos no est acotado.
No se ve afectada por la dispersin. De hecho, es ms representativa que la media aritmtica
cuando la poblacin es bastante heterognea. Suele darse esta circunstancia cuando se
29
resume la informacin sobre los salarios de un pas o una empresa. Hay unos pocos salarios
muy altos que elevan la media aritmtica haciendo que pierda representatividad respecto al
grueso de la poblacin. Sin embargo, alguien con el salario "mediano" sabra que hay tanta
gente que gana ms dinero que l, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor vara
en funcin de la amplitud de estos. Por otra parte, no se presta a clculos algebraicos tan bien como
la media aritmtica.
Con carcter general y a modo de resumen podra decirse que la media aritmtica es un parmetro
representativo cuando la poblacin sigue una distribucin normal o es bastante homognea; en otras
situaciones de fuerte dispersin, habra que decantarse por la mediana. La moda es el ltimo recurso
(y el nico) cuando de describir variables cualitativas se trata.
29
6) Medidas de dispersin
Artculo principal: Dispersin (matemtica)
Diagrama de caja que muestra la dispersin grficamente, usando los cuartiles como referencia.
Entre Q1 y Q3 (rango intercuartlico) se encuentran el 50% de las observaciones.
Las medidas de posicin resumen la distribucin de datos, pero resultan insuficientes y simplifican
excesivamente la informacin. Estas medidas adquieren verdadero significado cuando van
acompaadas de otras que informen sobre la heterogeneidad de los datos. Los parmetros de
dispersin miden eso precisamente, generalmente, calculando en qu medida los datos se agrupan
entorno a un valor central. Indican, de un modo bien definido, lo homogneos que estos datos son.
Hay medidas de dispersin absolutas, entre las cuales se encuentran la varianza, la desviacin
tpica o la desviacin media, aunque tambin existen otras menos utilizadas como los recorridos o la
meda; y medidas de dispersin relativas, como el coeficiente de variacin, el coeficiente de
apertura o los recorridos relativos. En muchas ocasiones las medidas de dispersin se ofrecen
acompaando a un parmetro de posicin central para indicar en qu medida los datos se agrupan
en torno de l.
8) Recorridos
El recorrido o rango de una variable estadstica es la diferencia entre el mayor y el menor valor que
toma la misma. Es la medida de dispersin ms sencilla de calcular, aunque es algo burda porque
slo toma en consideracin un par de observaciones. Basta con que uno de estos dos datos vare
para que el parmetro tambin lo haga, aunque el resto de la distribucin siga siendo, esencialmente,
la misma.
Existen otros parmetros dentro de esta categora, como los recorridos o rangos intercuantlicos, que
tienen en cuenta ms datos y, por tanto, permiten afinar en la dispersin. Entre los ms usados est
el rango intercuartlico, que se define como la diferencia entre el cuartil tercero y el cuartil primero.
En ese rango estn, por la propia definicin de los cuartiles, el 50% de las observaciones. Este tipo
de medidas tambin se usa para determinar valores atpicos. En el diagrama de caja que aparece a la
derecha se marcan como valores atpicos todos aquellos que caen fuera del intervalo [Li, Ls] = [Q1 -
1,5Rs, Q3 + 1,5Rs], donde Q1 y Q3 son los cuartiles 1 y 3, respectivamente, y Rs representa la mitad
del recorrido o rango intercuartlico, tambin conocido como recorrido semiintercuartlico.31
9) Desviaciones medias
29
entonces:
De este modo se definen la desviacin media respecto de la media (c = ) o la desviacin media
respecto de la mediana (c = ), cuya interpretacin es sencilla en virtud del significado de la
media aritmtica.
Sin embargo, el uso de valores absolutos impide determinados clculos algebraicos que obligan a
desechar estos parmetros, a pesar de su clara interpretacin, en favor de los siguientes.
Conjunto de datos estadsticos de media aritmtica 50 (lnea azul) y desviacin tpica 20 (lneas
rojas).
Como se vio ms arriba, la suma de todas las desviaciones respecto al parmetro ms utilizado, la
media aritmtica, es cero. Por tanto si se desea una medida de la dispersin sin los inconvenientes
para el clculo que tienen las desviaciones medias, una solucin es elevar al cuadrado tales
desviaciones antes de calcular el promedio. As, se define la varianza como:
,
o sea, la media de las desviaciones respecto de la media, al cuadrado.
La desviacin tpica, , se define como la raz cuadrada de la varianza, esto es,
Para variables agrupadas en intervalos, se usan las marcas de clase (un valor apropiado del interior
de cada intervalo) en estos clculos.
29
Propiedades:
Ambos parmetros no se alteran con los cambios de origen.
Si todos los valores de la variable se multiplican por una constante, b, la varianza queda
multiplicada por b2.
la media. Es una medida de dispersin que tiene, por su propia definicin, las mismas propiedades
que la mediana. Por ejemplo, no se ve afectada por valores extremos o atpicos.34 No se utiliza
demasiado en estadstica.
La campana de Gauss, curva que sirve de modelo para el estudio de la forma de una distribucin.
Las medidas de forma caracterizan la forma de la grfica de una distribucin de datos estadsticos. La
mayora de estos parmetros tiene un valor que suele compararse con la campana de Gauss, esto
es, la grfica de la distribucin normal, una de las que con ms frecuencia se ajusta a fenmenos
reales.
17) Medidas de asimetra
Ello puede demostrarse fcilmente si se tiene en cuenta la atraccin que la media aritmtica siente
por los valores extremos, que ya se ha comentado ms arriba y las definiciones de mediana (justo en
el centro de la distribucin, tomando el eje de abscisas como referencia) y moda (valor que presenta
una ordenada ms alta).
Por consiguiente, la posicin relativa de los parmetros de centralizacin pueden servir como una
primera medida de la simetra de una distribucin.
Otras medidas ms precisas son el coeficiente de asimetra de Fisher, el coeficiente de asimetra de
Bowley y el coeficiente de asimetra de Pearson.
,
Aunque hay otros como el coeficiente de curtosis de Kelley o el coeficiente de curtosis
percentlico.
29
20) Proporcin
Artculo principal: Proporcin
La proporcin de un dato estadstico es el nmero de veces que se presenta ese dato respecto al
total de datos. Se conoce tambin como frecuencia relativa y es uno de los parmetros de clculo
ms sencillo. Tiene la ventaja de que puede calcularse para variables cualitativas.
Por ejemplo, si se estudia el color de ojos de un grupo de 20 personas, donde 7 de ellas los tienen
azules, la proporcin de individuos con ojos azules es del 35% (= 7/20).
El dato con mayor proporcin se conoce como moda (vase, ms arriba).
En inferencia estadstica existen intervalos de confianza para la estimacin de este parmetro.
24) Momentos
Para variables continuas la definicin cambia sumas discretas por integrales (suma continua), aunque
la definicin es, esencialmente, la misma.
De esta definicin y las propiedades de los parmetros implicados que se han visto ms arriba, se
deduce inmediatamente que:
y que
29
Usando el Binomio de Newton puede obtenerse la siguiente relacin entre los momentos centrados y
no centrados:
27) Covarianza
La interpretacin de este parmetro tiene que ver con la eventual correlacin lineal de las dos
variables. Una covarianza positiva implica una correlacin directa y una negativa, una correlacin
inversa. Por otra parte, es un parmetro imprescindible para el clculo del coeficiente de correlacin
lineal o los coeficientes de regresin, como se ver ms abajo.
En su contra tiene que se ve excesivamente influenciada, al igual que ocurra con la media aritmtica,
por los valores extremos de las distribuciones y los cambios de escala.
Se distingue entonces entre parmetros y estadsticos. Mientras que un parmetro es una funcin de
los datos de la poblacin, el estadstico lo es de los datos de una muestra. De este modo pueden
definirse la media muestral, la varianza muestral o cualquier otro prametro de los vistos ms arriba.
Por ejemplo, dada una muestra estadstica de tamao n, , de una variable
aleatoria X con distribucin de probabilidad F(x,), donde es un conjunto de parmetros de la
distribucin, se definira la media muestral n-sima como:
En el caso concreto de la varianza muestral, suele tomarse, por sus mejores propiedades como
estimador, la siguiente:
Donde se ha tomado como denominador n-1, en lugar de n. A este parmetro tambin se le llama
cuasivarianza.