145 100 9MB
Polish Pages [348] Year 1996
W ydaw nictw a Naukowo-Techniczne
Książką tę (kdykujç m ojej' ¿ o n íe
IVWqORZACÍE
O piniodaw ca D r inż. S ta n is ła w J a n k o w sk i R ed ak to r Zofia D ackiew icz O kładkę i stro n y tytułow e projektow ała E w a B o h usz-R ubaszew ska O pracow anie techniczne G rażyna M iazek S k ład i łam an ie R aven
C o pyright © by W ydaw nictw a N aukow o-T echniczne W arszaw a 1996 U tw ór w całości a n i w e fra g m e n ta c h nie może być pow ielany a n i rozpow szechniany za pomocą u rzą d ze ń elektronicznych, m echanicznych, kopiujących, nagryw ających i innych bez p isem nej zgody posiadacza p raw a u to rsk ich . A dres poczty elektronicznej: w nt@ pol.pl S tro n a WWW: w w w .w nt.com .pl All rig h ts reserv ed P rin te d in P oland
ISB N 83-204-2197-7
g1
i
Spis treści
^O
t P rz e d m o w a / I I
1 W p r o w a d z e n i e w t e m a t y k ę s ie c i n e u r o n o w y c h / 15 1.1. W stę p ........................................................................................................................................ 1.2. P odstaw ow e a rc h ite k tu ry sieci n e u ro n o w y c h ............................................................... 1.2.1. Sieć jed n o k ieru n k o w a jednow arstw ow a........ .................................................................... 1.2.2. Sieć jed n o k ieru n k o w a w ielo w arstw o w a............................................................................ 1.2.3. Sieci r e k u r e n c y j n e .................................................................................................................. 1.3. P rzeg ląd podstaw ow ych m eto d uczenia s i e c i ............................................................... 1.3.1. U czenie pod n a d z o r e m ........................................................................................................ 1.3.2. U czenie z k r y ty k ie m .............................................................................................................. 1.3.3. U czenie sam o o rg an izu jąc e się ty p u H e b b a .............................................................. 1.3.4. U czenie sam o o rg an izu jące się ty p u k o n k u re n c y jn e g o ........................................... 1.4. Zdolności u ogólniania sieci n e u r o n o w e j.....................................................................
15 18 18 19 19 20 21 24 26 28 32
2 S ie c i n e u r o n o w e j e d n o k i e r u n k o w e w i e l o w a r s tw o w e / 3 7 2.1. 2.2. 2.3. 2.4. 2.5. 2.5.1. 2.5.2. 2.5.3. 2.5.4. 2.5.5. 2.6. 2.6.1.
P odstaw ow e zależności o dnoszące się d o n e u r o n u ................................................. P odstaw ow e definicje funkcji c e l u ................................................................................. A lg o ry tm p ro p ag acji w stecznej w p o sta ci k la s y c z n e j............................................... W y zn aczan ie g ra d ie n tu m e to d ą grafów p rz e p ły w o w y c h ..................................... A lg o ry tm y grad ien to w e op tym alizacji w zastosow aniu do uczenia s i e c i . . . Z ależności p o d s ta w o w e ........................................................................................................ A lg o ry tm najw iększego s p a d k u ........................................................................................ A lg o ry tm zm iennej m e t r y k i ............................................................................................... A lg o ry tm L e v e n b e rg a -M a rq u a rd ta .................................................................................. M e to d a g rad ien tó w sprzężonych ..................................................................................... M e to d y d o b o ru w spółczynnika u c z e n i a ........................................................................ S ta ły w spółczynnik u c z e n i a ..............................................................................................
37 39 44 47 52 52 54 56 58 59 60 61
6
SPIS TREŚCI
2.6.2. 2.6.3. 2.6.4. 2.7. 2.8. 2.8.1. 2.8.2. 2.9. 2.10. 2.11. 2.11.1. 2.11.2. 2.11.3.
A d a p ta c y jn y d o b ó r w spółczynnika u c z e n ia ............................................................ D o b ó r w spółczynnika uczenia przez m inim alizację kierunkow ą ................... R e g u ła d e lta -b a r-d e lta d o b o ru w spółczynnika u c z e n ia ...................................... M e to d a g rad ien tó w sprzężonych z r e g u l a r y z a c j ą ................................................ A lg o ry tm y h e u r y s t y c z n e ............................................................................................... A lg o ry tm Q u ick p ro p ..................................................................................................... A lg o ry tm R P R O P ........................................................................................................... P orów nanie efektyw ności algorytm ów u c z ą c y c h ................................................... E lem en ty o p ty m alizacji g lo b a ln e j............................................................................... M e to d y inicjalizacji w a g ............................................................................................... Inicjalizacja losowa ........................................................................................................ Z astosow anie uogólnionej reg u ły H e b b a d o inicjalizacji w artości w a g . . . . Inicjalizacja w ag z zastosow aniem a lg o ry tm u s a m o o r g a n iz a c ji......................
61 63 66 68 71 71 72 73 75 81 82 87 89
3 D o b ó r o p t y m a l n e j a r c h i t e k t u r y s ie c i w ie l o w a r s tw o w e j i d a n y c h u c z ą c y c h / 93 3.1. 3.2. 3.2.1. 3.2.2. 3.2.3. 3.3. 3.4. 3.4.1. 3.4.2. 3.5. 3.6.
Zdolności u ogólniania sieci w ie lo w a rstw o w e j......................................................... M eto d y redukcji s i e c i ..................................................................................................... M e to d y w rażliwościowe r e d u k c j i ............................................................................... M eto d y funkcji k a r y ........................................................................................................ M e to d a ro zk ła d u S V D .................................................................................................. A lgorytm kaskadow ej korelacji F a h lm a n a ............................................................... Sieć neuronow a z rozszerzeniem fu n k c y jn y m ......................................................... Sieć funkcyjna P a o ........................................................................................................... Sieć s i g m a - p i ..................................................................................................................... A naliza w rażliw ościow a danych u c z ą c y c h ............................................................... Z w iększanie zdolności u ogólniania sieci przez w trąc an ie szum u do wzorców u c z ą c y c h ...............................................................................................................................
95 98 100 107 110 113 119 119 123 125 129
4 W y b r a n e z a s t o s o w a n i a s ie c i n e u r o n o w y c h w ie lo w a rs tw o w y c h / 133 4.1. 4.1.1. 4.1.2. 4.1.3. 4.1.4. 4.1.5. 4.2. 4.2.1. 4.2.2. 4.2.3. 4.3. 4.3.1. 4.3.2.
R o zpoznaw anie w z o r c ó w .............................................................................................. Blok p rz e s u n ię c ia .............................................................................................................. Blok sk alu jący ................................................................................................................. Blok r o t a c j i ........................................................................................................................ U k ład klasy fik ato ra n e u ro n o w e g o .............................................................................. U k ład i n t e r p r e t e r a ........................................................................................................... K o m p resja d a n y c h ........................................................................................................... Sieć neuronow a w ielow arstw ow a d o kom presji d a n y c h ..................................... M iary k o m p r e s j i .............................................................................................................. H ierarchiczny p o d z ia ł kom presow anych d a n y c h .................................................. Sieć neuronow a i n t e r p o l u j ą c a ..................................................................................... In te rp o la c ja przebiegów c z a so w y c h ........................................................................... R eg en eracja obrazów z w ykorzystaniem sieci in terp o lu jącej .........................
133 134 135 135 137 137 138 138 140 141 145 145 147
7
SPIS TREŚCI
4.4. 4.4.1. 4.4.2. 4.4.3. 4.5. 4.5.1. 4.5.2.
M odelow anie i stero w an ie obiektów d y n a m ic z n y c h ............................................. W p r o w a d z e n i e .................................................................................................................. Id en ty fik acja o b ie k tu d y n am icznego z zastosow aniem sieci neuronow ej . . S ch em aty ste ro w an ia neuronow ego obiektów d y n a m i c z n y c h .......................... P re d y k c ja obciążeń sy ste m u e le k tro e n e rg e ty c z n e g o ............................................. A rc h ite k tu ra sieci i d a n e uczące ................................................................................ W y n ik i ek sp ery m en tó w num erycznych ..................................................................
148 148 151 153 155 157 158
5 S ie c i n e u r o n o w e o r a d i a l n y c h f u n k c j a c h b a z o w y c h / 1 6 0 5.1. 5.2. 5.3. 5.3.1. 5.3.2. 5.3.3. 5.3.4. 5.3.5. 5.3.6. 5.4.
P o d sta w y m a te m a ty c z n e ............................................................................................... Sieć n eu ro n o w a r a d i a l n a ............................................................................................... M e to d y u czenia sieci neuronow ych r a d ia ln y c h ...................................................... Losowy w y b ó r centrów funkcji bazow ych ...................................................... D o b ó r p a ra m etró w funkcji radialnych przy zastosow aniu procesu sa m o o r g an izacji ............................................................................................................................... A lg o ry tm prob ab ilisty czn y d o b o ru p a ra m etró w funkcji r a d i a l n y c h A lg o ry tm y uczące o p a rte n a prop ag acji w s t e c z n e j ............................................ M e to d y d o b o ru liczby funkcji bazow ych ............................................................... M e to d a o rto g o n alizacji G r a m a - S c h m id ta ............................................................... P o ró w n an ie sieci radialnych z sieciam i s ig m o id a ln y m i......................................
IGI 165 169 171 172 176 178 180 182 186
••
6 S ie c i r e k u r e n c y j n e / 1 8 9 6.1. 6.2. 6.2.1. 6.2.2. 6.2.3. 6.2.4. 6.3. 6.4. 6.4.1. 6.4.2. 6.4.3. 6.5. 6.5.1. 6.5.2. 6.6. 6.6.1. 6.6.2. 6.6.3. 6.7.
W p r o w a d z e n i e .................................................................................................................. Sieć a u to a so c ja c y jn a H o p f i e l d a .................................................................................. Z ależności p o d s ta w o w e .................................................................................................. T ry b u czen ia sieci H o p fie ld a ......................................................................................... T ry b o dtw orzeniow y sieci H o p f i e l d a ......................................................................... Im p le m e n ta c ja sp rz ęto w a sieci H o p f ie ld a ............................................................... Sieć H a m m in g a .................................................................................................................. Sieć ty p u B A M .................................................................................................................. O p is d z ia ła n ia sieci K o s k o ............................................................................................ M odyfikacja uczenia sieci B A M .................................................................................. M odyfikacja s tr u k tu ry sieci B A M ............................................................................ R e k u re n c y jn a sieć neuronow a ty p u R T R N ............................................................ O p is s tr u k tu r y s i e c i ........................................................................................................ A lg o ry tm u czenia s i e c i .................................................................................................. R e k u ren c y jn a sieć E l m a n a ............................................................................................ O gólne zależności opisujące s i e ć .................................................................................. U czenie sieci p rzy zastosow aniu zm odyfikow anego a lg o ry tm u W illiam sa-Z ip sera ............................................................................................................................... Z astosow anie a lg o ry tm u kaskadow ej korelacji F a h lm a n a .................................... R e k u re n c y jn a m e to d a prop ag acji w s t e c z n e j ........................................................
189 191 191 195 198 200 203 207 207 209 211 215 215 217 219 219 221 223 224
8
SPIS TREŚCI
7 S ie c i s a m o o r g a n i z u j ą c e s ię n a p o d s t a w i e r e g u ł y H e b b a / 2 2 9 7.1. 7.2. 7.2.1. 7.2.2. 7.2.3. 7.3. 7.3.1. 7.3.2. 7.3.3. 7.3.4. 7.3.5.
A s p e k t energetyczny sam o o rg an izacji H eb b a ..................................................... A n aliza składników głów nych ( P C A ) ..................................................................... P o d sta w y m a te m a ty c z n e .............................................................................................. E sty m a c ja pierw szego sk ła d n ik a g łó w n e g o ............................................................ E sty m a c ja w ielu sk ład n ik ó w głów nych .................................................................. Sieci neuronow e ty p u H e r a u l t a - J u t t e n a .................................................................. Z ależności podstaw ow e s i e c i ........................................................................................ A lg o ry tm H e ra u lta -J u tte n a w zastosow aniu do sieci r e k u r e n c y jn e j U ogólniony a lg o ry tm uczenia sieci r e k u r e n c y jn e j............................................... A lg o ry tm uczący sieci jednokierunkow ej ............................................................... Sieć d o sep aracji sygnałów z o p ó ź n ie n ia m i............................................................
230 231 231 232 233 235 235 238 240 243 247
8 S ie c i s a m o o r g a n i z u j ą c e s ię d z i a ł a j ą c e n a z a s a d z i e w s p ó łz a w o d n ic tw a / 249 8.1. 8.1.1. 8.1.2. 8.1.3. 8.1.4. 8.2. 8.2.1. 8.2.2. 8.2.3. 8.2.4. 8.2.5. 8.3. 8.4. 8.5. 8.5.1. 8.5.2. 8.5.3.
Z ależności p o d s ta w o w e .................................................................................................. M iary odległości m iędzy w e k t o r a m i ........................................................................ P ro b le m n o rm alizacji w e k to ró w .................................................................................. M iara o rg anizacji sieci .................................................................................................. M echanizm zm ęczenia n e u r o n ó w ............................................................................... A lg o ry tm y uczenia sieci sam o o rg an izu jący ch s i ę ............................................... A lg o ry tm K o h o n e n a ........................................................................................................ A lg o ry tm sto c h asty c zn e j re la k s a c ji............................................................................ A lg o ry tm S C S .................................................................................................................. A lg o ry tm gazu n e u ro n o w e g o ........................................................................................ P o ró w n anie algorytm ów s a m o o rg a n iz a c ji............................................................... Sieć odw zorow ań je d n o - i d w u w y m ia ro w y c h ........................................................ O dw zorow anie S a m m o n a .............................................................................................. P rz y k ła d y zastosow ań sieci sam o o rg an izu jący ch s i ę ......................................... K o m p resja o b r a z ó w ........................................................................................................ Z astosow anie sieci d o w ykryw ania u s z k o d z e ń ..................................................... P rognozow anie o b ciążeń sy ste m u elektroenergetycznego ...............................
249 251 252 253 255 256 257 258 258 259 260 262 266 268 268 270 273
9 P o d s t a w y m a t e m a t y c z n e s y s t e m ó w lo g ik i r o z m y t e j / 2 7 6 9.1. 9.1.1. 9.1.2. 9.2. 9.3. 9.4. 9.4.1. 9.4.2.
P o d staw ow e p o ję c ia system ów rozm ytych ........................................................... W p r o w a d z e n i e ................................................................................................................. P odstaw ow e d e f i n i c j e .................................................................................................... Z asad y w nioskow ania w zbiorach r o z m y ty c h ........................................................ In te rp re ta c ja reg u ł w nioskow ania w sy stem ie w ie lo w y m ia ro w y m .................. U k ła d y logiki rozm ytej w środow isku pom iarow ym ........................................ F uzy fik ator ....................................................................................................................... D e f u z y f ik a to r ...........................................» .......................................................................
277 277 278 279 281 282 282 285
SPIS TREŚCI
9
10 S ie c i n e u r o n o w e o lo g ic e r o z m y t e j / 2 8 9 10.1. G rad ien to w a m e to d a u czenia sieci r o z m y t e j ........................................................... 10.1.1. Z ależności uczące sieci .................................................................................................... 10.1.2. Z asto so w anie sieci rozm ytych w problem ach identyfikacji nieliniowych o b iek tó w d y n a m ic z n y c h .................................................................................................. 10.2. U czenie sam o o rg an izu jąc e się sieci r o z m y ty c h ........................................................ 10.3. U czenie b ezp o śred n ie n a p o d sta w ie ta b e li przejść ..............................................
289 289 293 300 302
11 I m p l e m e n t a c j a s ie c i n e u r o n o w y c h w t e c h n o l o g i i V L S I / 3 0 8 11.1. 11.1.1. 11.1.2. 11.1.3. 11.1.4. 11.2. 11.2.1. 11.2.2. 11.2.3.
E lem en ty rozw iązań analogow ych sieci n e u ro n o w y c h ........................................ R ealizacja n eu ro n u s i g m o id a ln e g o ........................................................................... R ealizacja scalo n a sieci re k u r e n c y jn y c h .................................................................. R ealiz a cja scalo n a u k ła d u W T A .............................................................................. R o zw iązania dotyczące sieci neuronow ych r o z m y t y c h ..................................... P rz eg lą d kom ercyjnych układów s c a lo n y c h ........................................................... K o procesory n e u ro n o w e ................................................................................................. S pecjalizow ane ro zw iązan ia n e u ro k o m p u tc ró w ..................................................... U k ład y scalone a n a lo g o w e ...........................................................................................
308 308 310 313 315 318 318 320 323
Dodatek A
O p is p r o g r a m u N e tt e a c h / 3 2 6 A .l . A .2.
P rzy g o to w an ie plików z d a n y m i................................................................................. O p cje w yw ołania p r o g r a m u .......................................................................................
326 328
Dodatek B
O p is p r o g r a m u C a s c o r / 3 3 0 B. l. B .2.
O pis p a ra m e tró w w yw ołania p r o g r a m u ................................................................. P rzy g o to w an ie plików u c z ą c y c h .................................................................................
Dodatek C
O p is p r o g r a m u H f n e t / 3 3 4
B ib lio g ra fia / 336
S k o ro w id z / 3 4 4
330 332
P rzed m o w a
Sztuczne sieci neuronowe, zwane w skrócie sieciami neuronowymi, stanow ią intensyw nie rozw ijającą się dziedzinę wiedzy stosow aną w wielu obszarach nauki. M ają właściwości pożądane w wielu zastosowaniach praktycznych: stanow ią uniw ersalny układ aproksym acyjny odwzorowujący wielowymia rowe zbiory danych, m a ją zdolność uczenia się i adaptacji do zm ieniających się warunków środowiskowych, zdolność uogólniania nabytej wiedzy, sta nowiąc pod tym względem system sztucznej inteligencji. P odstaw ą działa nia sieci są algorytm y uczące, umożliwiające zaprojektow anie odpowiedniej stru k tu ry sieci i dobór param etrów tej struktury, dopasowanych do pro blem u podlegającego rozwiązaniu. W książce przedstaw iono sieci neuronowe z p u n k tu w idzenia algorytm icznego, najbardziej użytecznego praktycznie. Je st to wyselekcjonowany przegląd najlepszych m etod uczenia sieci o różno rodnej stru k tu rze, zilustrow any wynikami wielu eksperym entów num erycz nych i poparty zastosow aniam i praktycznym i. W rozdziale 1 je st przedstaw iony krótki przegląd podstawowych rodza jów i stow arzyszonych z nim i m etod uczenia sieci, będący wprowadzeniem w tem atykę sieci neuronowych. Podano w nim najważniejsze definicje i za leżności odnoszące się do wszystkich rodzajów sieci. R ozdział 2 dotyczy sieci jednokierunkow ych wielowarstwowych o sigmoidalnej funkcji aktywacji. Przedstaw iono w nim wybrane, najefektyw niejsze algorytm y uczenia tych sieci z zastosowaniem strategii propagacji wstecznej, zinterpretow anej za pom ocą grafów dołączonych przepływ u sygnałów. Szcze gółowe rozw ażania dotyczą również m etod inicjalizacji w artości wstępnych wag, um ożliw iających znaczne przyspieszenie procesu uczenia i uniknięcie pułapki minimów lokalnych. Rozdział 3 je st poświęcony algorytm om doboru optym alnej architek tu ry sieci wielowarstwowych, opartym na m etodach redukcji i rozszerzania sieci. W szczególności dużo m iejsca poświęcono sieciom kaskadowej korelacji F ahlm ana oraz sieciom z rozszerzeniem funkcyjnym. Dwa ostatnie punkty rozdziału dotyczą doboru danych uczących popraw iających zdolności uogól niające sieci neuronowych.
12
PRZEDMOWA
W rozdziale 4 omówiono w ybrane zastosow ania sieci neuronowych wielowarstwowych. Przedstaw iono problem atykę rozpoznaw ania wzorców, kom presji danych, interpolacji z użyciem sieci neuronowej, modelowania i sterow ania obiektów dynam icznych oraz predykcję obciążeń system u elek troenergetycznego. Rozdział 5 dotyczy sieci o radialnych funkcjach bazowych. Po wpro wadzeniu podstaw m atem atycznych omówiono podstawowe stru k tu ry sieci radialnych oraz algorytm y uczące, wykorzystujące zarówno m etody gradien towe, ja k i współzawodnictwo między neuronam i. W rozdziale 6 zaw arto podstawowe wiadomości o sieciach rekurencyjnych. W prow adzono stru k tu ry i m etody uczenia sieci Hopfielda, H am m inga, BAM , RTRN oraz sieci Elm ana. Przedstw iono typowe zastosow ania tych sieci. Rozdział 7 je st poświęcony sieciom sam oorganizującym się, w których uczenie je st oparte n a uogólnionej regule Hebba. Przedstaw iono praktyczne zastosow ania takich sieci do analizy składników głównych (PC A ) oraz roz dzielania sygnałów (sieci H erau lta-Ju tten a). W rozdziale 8 przedstaw iono zagadnienia dotyczące algorytm ów uczą cych i zastosow ań sieci sam oorganizujących się w oparciu o współzawodnic two neuronów. D okonano porów nania najskuteczniejszych m etod uczenia oraz przedstaw iono przykłady praktycznych zastosowań sieci tego typu. W rozdziałach 9 i 10 omówiono tem atykę sieci neuronowych o logice roz m ytej, stanow iących uogólnienie klasycznych sieci neuronowych. Po wpro wadzeniu podstaw m atem atycznych przedstaw iono podstaw ow ą stru k tu rę sieci oraz m etody uczenia oparte na zastosow aniu m etod gradientowych, m echanizm u klasteryzacji i tabeli przejść. Rozdział 11 stanow i przegląd im plem entacji układów scalonych VLSI podstawowych w ybranych s tru k tu r sieci neuronowych. Przedstaw iono przy kładowe rozw iązania elementów sieci oraz przegląd komercyjnych opracowań sieci w postaci koprocesorów oraz neurokom puterów cyfrowych i analogo wych. Książka zaw iera także 3 dodatki poświęcone krótkiem u wprowadzeniu w w ybrane program y uczenia sieci neuronowych. Je st przeznaczona dla studentów wyższych la t studiów oraz doktorantów zainteresowanych tem atyką sztucznych sieci neuronowych. Ze względu na interdyscyplinarny charakter tem atyki może być użyteczna zarówno w tech nice, inform atyce, fizyce, ja k i w naukach biomedycznych. Stanow i funda m ent wiedzy o sieciach neuronowych zarówno dla początkujących, ja k i dla zaawansowanych w upraw ianiu tej dyscypliny. W zakończeniu przedm owy pragnę podziękować osobom i instytucjom , których w pływ na ostateczny k ształt książki je st największy. W szczegól ności dziękuję recenzentowi książki drowi inż. S. Jankowskiem u za krytyczne uwagi i popraw ki, których uwzględnienie udoskonaliło ostateczną wersji książki.
PRZEDMOWA
13
Prof. A. Cichockiemu i drowi L. Moszczyńskiemu z Politechniki War szawskiej serdecznie dziękuję za udostępnienie mi program u bs do ślepego rozdzielania sygnałów, drowi P. D em artinesowi z IN PG G renoble (Francja) za możliwość skorzystania z program u soma i drowi S. Fahlm anowi z C ar negie Mellon U niversity (USA) za prawo do korzystania z program u cascor. Szczególnie gorąco dziękuję mojej Zonie i Rodzinie za wyrozumiałość i n ieu stan n ą pom oc okazywaną mi w trakcie przygotowywania książki, w tym za wysiłek włożony w przygotowanie m aszynopisu pracy. K siążkę napisałem podczas pobytu na Uniwersytecie Erlangen-Norym berga w In s titu t für Elektrische Energieversorgung, w charakterze stypendy sty program u TE M PU S (projekt J E P nr 07237-94). C hciałbym serdecznie podziękować prof. T. Lobosowi z Politechniki W rocławskiej, koordynatorow i projektu, za umożliwienie tego pobytu, a prof. G. Heroldowi, dyrektorowi In s titu t für Elektrische Energieversorgung, oraz jego współpracownikom za okazaną mi gościnność. N a ostateczny k ształt książki duży wpływ m iała m oja w spółpraca z La boratorium B rain Inform ation Processing Research, Frontier Research P ro gram (R IK E N ), Japonia, kierowanym przez prof. Shin-ichi A m ari, za co chciałbym złożyć kierownikowi tej instytucji serdeczne podziękowanie. C hciałbym gorąco podziękować instytucjom wydawniczym oraz auto rom za prawo skorzystania z ich rysunków. W szczególności dziękuję IEE P ublishing D epartm ent, Stevenage H erts (W ielka B rytania) oraz autorom pracy [137] za prawo do skorzystania z rys. 5.7, W ydaw nictw u Complex System s oraz autorom pr?.cy [26] za rys. 8.4 i 8.5, drowi P. Demartinesowi za rys. 8.2, 8.3, 8.9, 8.11, drowi S. Fahlm anowi za rys. 3.6, 3.7, 3.8 oraz 6.14, prof. Y. Le Cunowi, J. S. Denkerowi, S. A. Solli (AT&T Bell Holmdel) za rys. 3.4, prof. B. Hassibiem u (Stanford University, USA), D. Storkowi (Ricoh C alifornia Research Center, USA) za rys. 3.5, W ydaw nictwu O perations Research oraz autorom pracy [57] za rys. 2.11 i 2.12, W ydaw nictw u A m erican A ssociation for th e A dvancem ent of Sciences (AAAS), W ashington oraz autorom pracy [51] za rys. 6.1, W ydaw nictw u Simon & Schuster oraz prof. S. Haykinowi, autorom książki [41], za rys. 1.5, W ydaw nictw u A ddison Wesley oraz prof. A. Zellowi, autorow i książki [158], za rys. 11.12, 11.13, 11.14 oraz 11.15, IE E E Publishing D epartm ent oraz autorom prac [87, 145, 84, 126, 76, 2, 43, 156] za rys. 3.17, 6.4, 6.10, 8 .6 , 8.7, 8.13, 11.1, 11.2, 11.3, 11.4, 11.5, 11.6, 11.7, 11.8, 11.9 oraz 11.10.
W arszaw a w lu ty m 1990 r.
1 W p ro w ad zen ie w te m a ty k ę sieci neuronow ych
1.1. W s t ę p B ad an ia system ów nerwowych istot żywych są i nadal stanow ią istotny czyn nik postępu w dziedzinie teorii systemów i ich zastosowań w praktyce. Już w 1943 r. M cCulloch i P itts [8 8 ] opracowali m odel komórki nerwowej, któ rego idea przetrw ała la ta i stanow i do dzisiaj podstawowe ogniwo większości używanych modeli. Istotnym elem entem tego m odelu je st sumowanie sygna łów wejściowych z odpow iednią wagą i poddanie otrzym anej sum y działaniu nieliniowej funkcji aktywacji. W efekcie sygnał .vyjściov.y, neuronu t/,- jest określony w postaci
Vi = f { ' Z W ijXj)
(1.1)
j= 1
przy czym Xj (j = 1 ,2 , • • •, N ) reprezentują sygnały wejściowe, a Wij - odpo wiednie współczynniki wagowe, zwane wagami synaptycznym i lub w skrócie wagami. P rzy dodatniej wartości waga przekazuje sygnał pobudzający, przy ujem nej - gaszący. Funkcja aktywacji / ( ) może mieć różną postać; w m odelu pierw otnym M cC ullocla-P ittsa je st to funkcja typu skoku jednostkowego. W kilka la t później H ebb zaprezentow ał teorię uczenia (doboru wag Wij neuronów ) w zastosow aniu do pam ięci asocjacyjnych. W ykorzystał przy tym obserwacje, że w aga połączeń międzyneuronowych je st w zm acniana przy stan ach uaktyw nienia neuronów. W m odelu H ebba przyrost wagi w procesie uczenia je st proporcjonalny do iloczynu sygnałów wyjściowych neu ronów połączonych wagą Wij
Wij(k + 1) = Wij(k) + m ( k ) V j ( k )
(1.2)
w którym k oznacza kolejny cykl, a rj je st współczynnikiem uczenia. N a po czątku lat sześćdziesiątych W idrow [149] opracował podstaw y teoretyczne i podstawowe im plem entacje techniczne adaptacyjnych układów przetw arza jących, stanow iące istotny w kład w rozwój sieci neuronowych.
16
1. WPROWADZENIE W TEMATYKĘ SIECI NEURONOWYCH
W 1962 r. została opublikowana książka R osenblatta [124] prezentująca teorię dynam icznych system ów neuronowych m odelujących mózg, o p a rtą na m odelu perceptronow ym komórki nerwowej. W m odelu tym przyjm uje się opis neuronu w postaci ( 1 . 1 ), w którym funkcja aktywacji przyjm uje dwie w artości binarne: 1 lub 0 fM
i 1 = { o
dla dla
u > »
l() Jest funkcją ciągłą, w ypukłą, dodatnio określoną i różniczkowalną w całym zakresie zmienności argum entu. Dla wartości A = 1 definicja powyż sza je st tożsam a ze standardow ą definicją najm niejszych kw adratów ( 2 .8 ). Przy A = 0 uczenie sieci odbyw a się przez m inimalizację drugiego skład nika wzoru (2.15). P rzy w artości A zm ieniającej się od 0 do 1 funkcja celu uwzględnia oba składniki wzoru, przy czym ich udział zależy od ak tu al nej wartości A. We w stępnej fazie uczenia przyjm uje się w artość A równą 1 (standardow a definicja), zapew niającą stosunkowo szybką redukcję błędu przy użyciu klasycznych m etod uczenia. W m iarę postępów uczenia w artość A je st redukow ana do zera, przy której funkcja celu upraszcza się do skład nika drugiego. D la uzyskania najlepszych efektów funkcja \(), decydująca o jakości sieci neuronowej, pow inna być tak dobrana, aby w końcowej fazie uczenia była realizow ana m inim alizacja wartości absolutnej błędu. K ryte rium takie spełnia definicja funkcji ( r .) t
(2.19)
Funkcja b
6
( 2 .2 0 )
44
2. SIECI NEURONOWE JEDNOKIERUNKOWE WIELOWARSTWOWE
W y k res funkcji H a m p e la w zależności od w artości residuum r ,: a) funkcja H am p ela; b) p o c h o d n a funkcji H am pela
przy czym C\ i C2 są stałym i, natom iast a i b - zakresam i funkcji H am pela (rys. 2.4a). W ykres zm ian pochodnej funkcji H am pela w zależności od wartości residuum przedstaw ia rys. 2.4b. W przedziale [ - a , a] funkcja zachowuje się ja k przy standardow ej definicji kwadratowej, charakteryzując się liniowym wpływem w artości residuum na w artość gradientu. W miarę w zrostu błędu w pływ ten m aleje nieliniowo, a po przekroczeniu progu rów nego b staje się równy zeru. Taki przebieg funkcji umożliwia wytłum ienie wpływ u dużych błędów pomiarowych przy nie zniekształconym przebiegu uczenia w przypadku m ałych wartości residuów.
2.3. A l g o r y t m p r o p a g a c ji w s te c z n e j w p o s ta c i k la sy c z n e j W uproszczeniu przyjęto, że celem uczenia sieci je st określenie w artości wag neuronów wszystkich w arstw sieci w taki sposób, aby przy zadanym wekto rze wejściowym x uzyskać n a wyjściu sieci wartości sygnałów wyjściowych Ui rów nające się z dostateczną dokładnością w artościom żądanym d, dla i = 1 ,2 ,. . . , M . P rzy założeniu ciągłości funkcji celu najskuteczniejszym i m etodam i uczenia pozostają gradientow e m etody optym alizacyjne, w któ rych uaktualnianie w ektora wag (uczenie) odbyw a się zgodnie ze wzorem
W ( k + 1) = W ( k ) + A W
(2.21)
A W = np(W)
(2.22)
w którym
t) je st w spółczynnikiem uczenia, a p ( W ) - kierunkiem w przestrzeni wie lowymiarowej W . Uczenie sieci wielowarstwowej przy zastosowaniu m etod gradientow ych w ym aga do wyznaczenia kierunku p { W ) określenia w ektora gradientu względem wag wszystkich warstw sieci. Jedynie w przypadku wag warstwy wyjściowej je st to zadanie określone w sposób natychmiastowy. W arstwy pozostałe w ym agają zastosow ania specjalnej strategii postępow a nia, k tó ra w dziedzinie sieci neuronowych nosi nazwę algorytm u propagacji wstecznej ( backpropagation ) [2, 41, 46].
45
2.3. ALGORYTM PROPAGACJI WSTECZNEJ W POSTACI KLASYCZNEJ
Zgodnie z tym algorytm em w każdym cyklu uczącym wyróżnia się na stępujące etapy uczenia [41]: 1. A naliza sieci neuronowej o zw ykłym kierunku przepływ u sygnałów przy założeniu sygnałów wejściowych sieci równych elementom ak tualnego w ektora x. W wyniku analizy otrzym uje się wartości sy gnałów wyjściowych neuronów warstw ukrytych oraz warstwy wyj ściowej, a także odpowiednie pochodne
au| 1 funkcji aktyw acji w poszczególnych warstwach.
au)
7
»‘ ' ’ >
atij
)
2. Utworzenie sieci propagacji wstecznej przez odwrócenie kierunków przepływ u sygnałów, zastąpienie funkcji aktywacji przez ich po chodne, a także podanie do byłego wyjścia (obecnie wejścia) sieci wym uszenia w postaci odpowiedniej różnicy między w artością ak tu a ln ą i żądaną. D la ta k utworzonej sieci należy obliczyć wartości odpowiednich różnic wstecznych. 3. A d ap tacja wag (uczenie sieci) odbywa się na podstaw ie wyników uzy skanych w punkcie 1 i 2 dla sieci zwykłej i sieci o propagacji wstecznej według odpowiednich wzorów. 4. Omówiony proces opisany w punktach 1, 2, 3 należy powtórzyć dla wszystkich wzorców uczących, kontynuując go do chwili spełnienia w arunku zatrzym ania algorytm u. Działanie algorytm u kończy się w momencie, gdy norm a gradientu spadnie poniżej pewnej wartości e określającej dokładność procesu uczenia. Szczegółowe wzory oraz ich wyprowadzenia dotyczące określonej sieci neuronowej stanow ią klasykę w tej dziedzinie. Z tego względu ograniczono się tu ta j do podania jedynie warunków dotyczących sieci o jednej warstwie ukrytej. P rzyjęte oznaczenia tej sieci przedstaw ia rys. 2.5. Podobnie ja k dotychczas N oznacza liczbę neuronów wejściowych, K liczbę neuronów w warstwie ukrytej i M - liczbę neuronów w warstwie wyj ściowej. P rzyjęto sigm oidalną funkcję aktywacji dla neuronów warstw ukry tej i wyjściowej. Podstaw ę algorytm u stanow i przyjęcie funkcji celu w postaci sumy kw adratów różnic między aktualnym i wartościam i sygnałów wyjścio wych sieci a wartościam i żądanym i. W przypadku jednej próbki uczącej (x,d) funkcję celu definiuje się w postaci ( 2 .8 ), a w przypadku wielu próbek uczących j ( j = 1 , 2 , . . . ,p) w postaci wzoru (2.9). U aktualnianie wag może odbywać się po każdorazowej prezentacji próbki uczącej lub jednorazowo (w sposób skumulowany) po prezentacji wszystkich próbek tworzących cykl uczący. W dalszych rozważaniach dla uproszczenia zapisu przyjęto funkcję celu w postaci ( 2 .8 ), która odpow iada aktualizacji wag po każdorazowej prezentacji próbki. P rzy oznaczeniach sygnałów w ystępujących w sieci, ja k to pokazano na rys. 2.5, funkcję tę opisano zależnością
46
2. SIECI NEURONOWE JEDNOKIERUNKOWE WIELOWARSTWOWE
Rys. 2.5' Sieć neuronow a jedn o k ieru n k o w a dw uw arstw ow a z przyjętym i oznaczeniam i
M
K
E = \ ± [ f { ± w t f n ) - 4 ] 2= g [ / ( t 'k=l
i= 0
'k=l
i < * i))
-
1=0
(2.23) We wzorze zastosowano sumowanie sygnałów od i = 0, co odpow iada w łączeniu sygnału jednostkowego polaryzacji jako składowej zerowej od powiedniego w ektora. W przypadku w ektora wejściowego x odpow iada to X =
[ 1 , £ 1 , 2:25 • • • >% n ]
•
Odpowiednie składniki gradientu otrzym uje się przez różniczkowanie zależności (2.23). W pierwszej kolejności następuje dobór wag neuronów w arstw y wyjściowej. Z obliczenia gradientu funkcji celu otrzym uje się
dE dwW (2)
przy czym u\ } = (2)
—
du:
^ £
/o)
= (y. - di)
d} ( «,“ ) Vi (2) v 3 du■
W prow adzając oznaczenie
(2.24)
(2 )
=
(y, -
3=0
^ odpow iedni składnik gradientu względem wag neuronów war-
stw y wyjściowej m ożna zapisać w postaci
-22- = d w !uP
(2.25)
Określenie składników gradientu względem wag neuronów warstwy ukrytej odbyw a się według tej samej zasady, przy czym składowe gradientu
47
2.4. WYZNACZANIE GRADIENTU METODĄ GRAFÓW PRZEPŁYWOWYCH
są opisane inną, bardziej skomplikowaną zależnością, w ynikającą z istnienia funkcji złożonej w zależności (2.23) = £ (* - 4 ) ? " % ¿ i dvi d \ v t)l)
(2.26)
P o uwzględnieniu poszczególnych składników tego wzoru otrzym uje się
dE = *
*< >
2 _ > * ” dk)— 7 l 2 T Wki ć r * 7