You are on page 1of 6

Introducere

Scopul lucrării este de a studia o rețea neurala supravegheata formata dintr-un singur strat
ascuns folosita pentru aplicații generale. Pentru aceasta lucrare s-a folosit o rețea neurala folosind
o funcție radiala, aceasta folosește un număr relative restrâns unități. Acest timp de rețele este in
general destinat aplicațiilor de recunoaștere a formelor si clasificării.

Rețelele perceptron multistrat sunt arhitecturi populare in inginerie, medicina si


matematica, acestea de folosesc suma ponderata a intrărilor si termenul de bias pentru a produce
ieșirea, unitățile fiind aranjate intr-o arhitectura de tipul feed-forward. Funcția de transfer folosita
este aleasa in așa fel încât algoritmul necesita ca răspuns o funcție continua, de o valoare
derivabila. Un rol important il are si alegerea numărului de straturi ascunse precum si numărul de
noduri si tipul lor.

Figure 1

Sistemele care folosesc o funcție radial de baza sunt rețele neurale bazate pe învățarea
supravegheata si sunt propuse ca o alternative la rețelele de perceptron multistrat. Sunt
folositoare pentru modelari neliniare si pot fi antrenate într-o singura etapa spre deosebire de
procesul iterative necesar rețelelor MLP, un alt avantaj îl reprezintă rapiditatea procesului de
învățare.
Modelul rețelei RBF

Rețeaua RBF folosește structura feed-forward cu un singur strat ajuns de J unități locale, care
sunt complet interconectate de stratul liniar de ieșire L. Principala diferența intre RBF si MLP
este lipsa ponderilor straturilor ascunse, fiecare unitate are la ieșire un Zj care este obținut prin
apropierea de inputul X cu un vector n dimensional µj pentru fiecare j. răspunsul pentru fiecare j
fiind dar de formula:

||𝑋 − 𝜇𝑗 ||
𝑍𝑗 = 𝐾 ( )
𝜎𝑗2

Figure 2

Unde K este o funcție radiala simetrica si pozitiva (kernell) cu un maxim unic in punctul µj iar oj
esre latimea domeniului inputului provenit de la unitatea j. Ieșirea Y este data de formula

𝑌𝑙 (𝑋) = ∑ 𝑤𝑖𝑗 𝑍𝑗 (𝑋)


𝑗=1

Rețelele RBF sunt cel mai folositoare pentru funcții continue de formula: 𝑓: 𝑅 𝑛 → 𝑅 𝐿 ,
cu un n suficient de mic.
Lucrarea aceasta folosește o funcție de baza Gausiana de forma:

2
||𝑋 − µ𝑗 ||
𝑍𝑗 = exp (− )
2𝜎𝑗2

Unde µ𝑗 si σj sunt media respectiv deviația standard a unității j.

Antrenarea rețelei neurale RBF


Un set pentru antrenare este format din m perechi {Xi,di} asociate unei probe dintr-o funcție
multivarianta. Eroarea pătratica asociata unei funcții E poate fi micșorată in funcție de setul de antrenare,
folosind o metoda care micșorează eroarea E prin îmbunătățirea adaptiva a parametrilor liberi ai rețelei
RBF, centrele µ𝑗 , lățimile câmpurilor receptoare σj dar si stratul de ieșiri wij . Având in vedere

natura diferențială a acestui tip de rețea s-a considerat ca metoda de antrenare cea deplin
supervizata in gradient descendent a lui E, variind µ𝑗 , 𝜎𝑗 si 𝑤𝑖𝑗 :

∆µ𝑗 = −𝜌µ ∇µj 𝐸 ,

𝜕𝐸
∆𝜎𝑗 = −𝜌𝜎 𝜕𝜎 ,
𝑗

𝜕𝐸
∆𝑤𝑖𝑗 = −𝜌𝑤 𝜕𝑤 ,
𝑖𝑗

Procesul de antrenare este profund diferit fata de rețele tradiționale feed-forward, in acest
studiu nu se modifica ponderile pentru minimizarea funcției. In cazul rețelelor RBF cu funcție
radiala aleasa, își rezolva singure alegând centrii si dimensiunile funcțiilor, calculând ponderile
neuronilor de ieșire.
Formularea modelelor rețelei pentru datele despre diabet

Au fost folosite date de la 1200 de pacienți (600 diabetici, 600 nediabetici) care au
frecventat același spital in perioada 1996-1998. Pentru a vedea cine este diabetic s-a folosit ca si
criteriu valoare de 126 mg/dl glucoza in plasma pe stomacul gol, sau 200 mg/dl postprandial.
Factorii de risc pentru analiza sunt considerate: vârsta, sex, istoricul medical, BMI, nivelul
colesterolului, trigliceride, lipidele de densitate joasa, lipidele de densitate înalta. Adițional a mai
fost folosit un set de date de 600 de indivizi (400 diabetici, 200 nediabetici) de la un alt spital.

Antrenarea a avut doua procese critice, in primul rând centrele fiecărei funcții Gaussiene
J erau fixe, reprezentând funcția de densitate a dimensiunii intrărilor folosind un k dinamic,
adică algoritmi de clustering. Acest lucru a fost realizat inițiind centri µ𝑗 cu valori aleatoare, apoi
pentru fiecare intrare arbitrara X din setul de datele, cel mai apropiat centru Gaussian:

µ𝑛𝑒𝑤
𝑗 = µ𝑜𝑙𝑑
𝑗 + 𝛼(𝑋 (𝑡) − µ𝑜𝑙𝑑
𝑗 )

Unde α este rata de învățare care scade cu timpul. In aceasta faza a rețelei se plasează ponderile
funcției radiale in acele regiuni de intrare unde sunt date semnificative. Oj este selectat astfel sa
fie fie egal cu media distantelor intre doua unități Gaussiene vecine. După fixarea ponderilor
trebuie determinat vectorul pondere W care este cel mai bine aproximat de vectorul X, acest fapt
ducând la o problema liniara de aproximare, evitând astfel probleme de gradient descendent sau
algoritmi de propagare de minim local.

Rezultate

Din cele 1200 cazuri, au fost folosite 600 pentru antrenare, 300 pentru validare si 300
pentru testare. Din aceste cazuri 62.4% erau bărbați, 38.4 având istoric in familie.

In cazul celor 300 de probe folosite pentru test 110 erau cazuri de diabetici, sexul si
istoricul familial erau similare pentru cele doua grupuri, de asemenea nefiind diferențe majore
intre TC, LDL, HDL si TG .
Regresia logistica a fost aplicata pentru setul de test, aceasta arătând 75.5% sensibilitate,
72,6% specificitate si 73.7 % predicție corecta, dând rezultate similare pentru toate cazurile.
Arhitectura MLP a avut 4 intrări si un singur strat ascuns cu 4 noduri si un nod de ieșire, numărul
total de ponderi a fost 29. Cel mai bun rezultat al undei rețele MLP a fost folosind o rădăcina
medie pătrata de 0.2126, sensibilitate 92.1%, specificitate, 91.1% si precizie de 91.3%. Sistemul
care folosește RBF cu 10 centre a avut o eroare de 0.3213, sensibilitatea de 97.3%, specificitate
96.8% si procentul de predicții corecte de 97%. Timpul de execuție al unui RBF este mai scăzut
decât al unei rețele MLP cu regresie logistica.

Pentru testarea rețelei s-a folosit setul de 600 pacienți (400 diabetici 200 nediabetici)

Rezultatele au fost următoarele:

Regresia logistica [%] MLP [%] RBF [%]


Sensibilitate 77.8 94.5 98.5
Specificitate 75.5 94 97
Predicție corecta 77 94.3 98

Erorile pătratice medii au fost 0.1346 pentru rețeaua MLP respectiv 0.1125 pentru RBF.

Concluzii

Atât ca sensibilitate dar si ca specificitate ambele rețele neurale sunt superioare regresiei
logistice. Comparând cele doua tipuri de rețele neurale observam performante mai bune atunci
când aplicam RBF atât in seturile de test cat si in seturile extinse, RBF având o buna capacitate
de a oferi date valide. Un avantaj major al rețelei RBF este timpul necesar completării sarcinii,
însă nu este o soluție potrivite atunci când se lucrează cu rețele cu număr mare de unități.

Cea mai buna aplicare este a acestor tipuri de retele neurale este pentru clasificare, atunci
când de doresc rezultate precise intr-un timp scurt. Rețele neurale RBF sunt promițătoare din
punct de vedere al vitezei de lucru dar si al preciziei, fapt ce le face un domeniul de explorat.
Bibliografie

1. RBF_10_11.pdf. Application of a radial basis function neural network for


diagnosis of diabetes mellitus

You might also like