Tytuł: | Metody i narzędzia eksploracji danych | Autor: | Stanisław Osowski | ISBN: | 978-83-60233-92-4 | Ilość stron: | 388 | Data wydania: | 04/2013 | Oprawa: | Twarda | Format: | 16.5x24.0cm | Wydawnictwo: | BTC | Cena: | 89.00zł |
Niniejszy podręcznik przedstawia syntetyczne ujęcie współczesnych metod eksploracji danych. W szczególności zaprezentowano metody optymalizacji, w tym optymalizacji globalnej, metody regresji liniowej i logistycznej, różne rozwiązania klasyfikatorów, w tym klasyfikatory bayesowskie, drzewa decyzyjne, sieci neuronowe MLP, RBF i SVM, systemy ekspertowe w formie zespołu klasyfikatorów i predyktorów, transformacje i metody redukcji wymiaru danych, metody selekcji istotnych cech diagnostycznych, metody grupowania i wizualizacji danych, jak również podstawowe pojęcia analizy asocjacyjnej między danymi.
Przedstawiono również przykłady zastosowania metod eksploracji danych w medycynie.
Rozważania teoretyczne poparte są przykładami konkretnych obliczeń dotyczących eksploracji danych, zaimplementowanymi w postaci odpowiednich programów w Matlabie.
Książka stanowi unikalne źródło wiedzy dla studentów na studiach II i III stopnia. Może być polecana jako podstawowy materiał rozszerzający dla wykładów ze sztucznej inteligencji, rozpoznawania wzorców czy inżynierii biomedycznej na kierunkach Informatyka lub Automatyka. Może służyć pracownikom firm, tzw. analitykom danych, specjalizującym się w życiu zawodowym w analizie danych i odkrywaniu wiedzy z baz i hurtowni danych.
Spis treści:
1. Podstawowe pojęcia data mining
1.1. Wprowadzenie 12
1.2. Podstawowe zadania eksploracji danych .13
1.3. Główne etapy eksploracji danych .15
1.4. Normalizacja i standaryzacja danych 17
1.5. Problem obserwacji odstających .18
1.6. Problem jakości danych 21
1.7. Podstawowa terminologia i oznaczenia 22
2. Metody i algorytmy optymalizacji
2.1. Podstawowe pojęcia optymalizacji gradientowej .26
2.2. Toolbox optymalizacyjny Matlaba .30
2.3. Przykłady zastosowania optymalizacji gradientowej 33
2.3.1. Optymalizacja minimaksowa 33
2.3.2. Programowanie kwadratowe 35
2.4. Metoda symulowanego wyżarzania .40
2.5. Algorytm genetyczny 43
2.6. Algorytmy ewolucyjne 48
2.6.1. Strategie ewolucyjne 48
2.6.2. Programowanie ewolucyjne 50
2.7. Toolbox globalnej optymalizacji w Matlabie .51
3. Regresja liniowa
3.1. Wprowadzenie 56
3.2. Ogólny model liniowy regresji 56
3.3. Zastosowanie dekompozycji SVD w regresji liniowej .59
3.4. Implementacja regresji liniowej w Matlabie 64
3.5. Zastosowanie regresji liniowej w klasyfikacji .65
4. Regresja logistyczna
4.1. Wprowadzenie 70
4.2. Podstawowe definicje 71
4.3. Algorytm określania wartości parametrów w regresji logistycznej .74
4.3.1. Wprowadzenie 74
4.3.2. Model binarny regresji logistycznej 75
4.3.3. Przypadek trzech klas uporządkowanych 82
4.3.4. Przypadek trzech klas nieuporządkowanych 83
5. Klasyfikatory Bayesa
5.1. Wprowadzenie 86
5.2. Pełny klasyfikator Bayesa 86
5.3. Naiwny klasyfikator Bayesa .90
5.4. Implementacja naiwnego klasyfikatora Bayesa w Matlabie .93
6. Drzewa decyzyjne
6.1. Wprowadzenie 98
6.2. Struktura drzewa decyzyjnego .98
6.3. Algorytm tworzenia drzewa decyzyjnego 100
6.4. Implementacja modelu drzewa decyzyjnego w Matlabie 106
6.5. Losowy las 111
6.5.1. Opis metody 111
6.5.2. Implementacja lasu losowego w Matlabie 113
7. Sztuczne sieci neuronowe MLP i RBF
7.1. Sieć perceptronu wielowarstwowego MLP 118
7.1.1. Struktura sieci 118
7.1.2. Algorytmy uczące sieci MLP 120
7.1.3. Program komputerowy do uczenia sieci MLP 128
7.1.4. Przykłady użycia sieci MLP 129
7.2. Sieć radialna RBF 134
7.2.1. Struktura sieci RBF 134
7.2.2. Algorytmy uczące sieci RBF 135
7.2.3. Program komputerowy do uczenia sieci radialnej 141
7.2.4. Przykład zastosowania sieci RBF do aproksymacji 142
7.3. Zdolności generalizacyjne sieci neuronowych 143
7.3.1. Warunki dobrej generalizacji sieci 144
7.3.2. Metody zwiększania zdolności generalizacyjnych sieci 145
8. Sieć wektorów nośnych SVM
8.1. Wprowadzenie 150
8.2. Sieć liniowa SVM w zadaniu klasyfikacji 150
8.3. Sieć nieliniowa SVM w zadaniu klasyfikacji 155
8.3.1. Interpretacja mnożników Lagrange’a w rozwiązaniu sieci 161
8.3.2. Problem klasyfikacji przy wielu klasach 162
8.4. Sieci SVM do zadań regresji 163
8.5. Sieć jednoklasowa SVM 165
8.6. Przegląd algorytmów rozwiązania zadania dualnego 168
8.7. Program komputerowy uczenia sieci SVM 170
8.8. Przykład zastosowania sieci SVM 173
8.9. Porównanie sieci SVM z innymi rozwiązaniami neuronowymi 175
9. Zespoły klasyfikatorów i predyktorów
9.1. Wprowadzenie 180
9.2. Zespół klasyfikatorów 181
9.2.1. Integracja większościowa zespołu 181
9.2.2. Zastosowanie dekompozycji PCA w integracji 185
9.2.3. Zastosowanie naiwnej reguły Bayesa w integracji 186
9.2.4. Metoda integracji Kullbacka–Leiblera 188
9.3. Zespół predyktorów 191
9.3.1. Integracja poprzez uśrednianie wyników 191
9.3.2. Integracja wykorzystująca PCA 193
9.3.3. Integracja przy zastosowaniu ICA 193
9.3.4. Integracja zespołu przy zastosowaniu sieci neuronowej 195
9.4. Przykład użycia zespołu w prognozowaniu obciążenia w PSE 196
10. Metody oceny jakości klasyfikatorów i predyktorów
10.1. Miary jakości predykcji 200
10.2. Badanie jakości rozwiązań w zadaniach klasyfikacji 203
10.2.1. Miary jakości klasyfikatora 204
10.2.2. Charakterystyka ROC 206
10.3. Metody poprawy jakości klasyfikatora 209
10.3.1. Metoda różnicowania kosztu błędnej klasyfikacji 210
10.3.2. Metody równoważenia klas 211
10.3.3. Problemy klasyfikacji wieloklasowej 212
10.4. Obiektywna ocena zdolności generalizacyjnych systemu predykcyjnego i klasyfikacyjnego 213
11. Transformacje i metody redukcji wymiaru danych
11.1. Kryteria doboru rzędu zredukowanego modelu 216
11.2. Transformacje bazujące na PCA 217
11.2.1. Istota przekształcenia PCA 218
11.2.2. Implementacja przekształcenia PCA w Matlabie 222
11.2.3. Wykorzystanie PCA w kompresji 223
11.2.4. PCA w zastosowaniu do ilustracji rozkładu danych wielowymiarowych 225
11.3. Nieliniowe przekształcenie PCA 227
11.4. Przekształcenie LDA Fishera 230
11.5. Ślepa separacja sygnałów 232
11.5.1. Sformułowanie problemu ślepej separacji 232
11.5.2. Algorytmy bazujące na statystykach drugiego rzędu 235
11.5.3. Metody bazujące na statystykach wyższego rzędu 236
11.5.4. Toolbox ICALAB 238
11.6. Rzutowanie Sammona 243
11.7. Transformacja SNE 245
11.8. Toolbox do redukcji danych w Matlabie 248
12. Wybrane metody generacji i selekcji cech diagnostycznych
12.1. Wprowadzenie 252
12.2. Metody generacji cech diagnostycznych 253
12.3. Metody selekcji cech diagnostycznych 256
12.3.1. Metoda dyskryminacji Fishera 257
12.3.2. Metoda korelacji danych z klasą 258
12.3.3. Zastosowanie jednowejściowej sieci SVM 258
12.3.4. Wykorzystanie wielowejściowej liniowej sieci SVM 259
12.3.5. Zastosowanie nieliniowej funkcji jądra 260
12.3.6. Selekcja cech bazująca na liniowej regresji krokowej 262
12.3.7. Selekcja przy zastosowaniu algorytmu genetycznego 264
12.3.8. Zastosowanie testu statystycznego Kołmogorowa–Smirnowa 266
12.3.9. Użycie testu Wilcoxona–Manna–Whitneya 267
12.3.10. Selekcja przy zastosowaniu transformacji PCA 268
12.3.11. Selekcja przy wykorzystaniu transformacji ICA 269
12.3.12. Selekcja przy zastosowaniu transformacji LDA 270
13. Metody grupowania danych
13.1. Wprowadzenie 276
13.2. Miary odległości między wektorami 277
13.3. Miary odległości między klastrami 278
13.4. Algorytm K-means grupowania 279
13.5. Algorytm hierarchiczny grupowania 285
13.6. Algorytmy rozmyte grupowania 288
13.6.1. Algorytm grupowania górskiego 289
13.6.2. Algorytm c-means 291
13.6.3. Algorytm Gustafsona–Kessela 294
13.7. Miary jakości grupowania danych 300
13.7.1. Miary jakości grupowania danych nieprzypisanych do klas 300
13.7.2. Miary jakości grupowania danych przypisanych do klas 305
14. Analiza zależności asocjacyjnych między danymi
14.1. Podstawowe definicje problemu 313
14.2. Generacja zbiorów najczęściej pojawiających się w transakcjach 315
14.3. Generacja reguł asocjacyjnych 318
14.4. Metody oceny reguł asocjacyjnych 320
14.4.1. Miary symetryczne 320
14.4.2. Miary niesymetryczne 323
15. Metody wizualizacji danych
15.1. Wprowadzenie 328
15.2. Narzędzia wizualizacji graficznej w Matlabie 330
15.2.1. Podstawowe funkcje graficzne 330
15.2.2. Zaawansowane funkcje graficzne 332
15.2.3. Grafika trójwymiarowa 336
15.2.4. Wykresy wektorowe 341
15.2.5. Rodzina funkcji ezplot 342
15.2.6. Tworzenie animacji 343
15.2.7. Opisy rysunków 344
15.3. Wizualizacja danych wielowymiarowych 345
16. Przykłady zastosowań metod eksploracji danych
16.1. Analiza macierzy ekspresji genów w chorobie nowotworowej 350
16.1.1. Wprowadzenie 350
16.1.2. Metoda eksploracji danych 351
16.1.3. Analiza mikromacierzy ekspresji genów w białaczce 352
16.2. Przykład eksploracji danych przy rozpoznaniu komórek krwiotwórczych 358
16.2.1. Charakterystyka ogólna komórek krwiotwórczych 358
16.2.2. Baza danych komórek w eksperymencie numerycznym 360
16.2.3. Selekcja zbioru najważniejszych cech diagnostycznych 361
16.2.4. Klasyfikacja końcowa komórek przy użyciu zespołu klasyfikatorów 366
Dodatek A
A.1. Ortogonalność wektorów i macierzy 367
A.2. Normy i wskaźniki macierzowe 367
A.3. Transformacje i dekompozycje macierzowe 370
A.3.1. Dekompozycja LU 370
A.3.2. Dekompozycja macierzy według wartości własnych 371
A.3.3. Dekompozycja macierzy według wartości osobliwych (SVD) 372
A.3.4. Dekompozycja QR 373
A.3.5. Dekompozycja Schura 374
A.3.6. Transformacja Hessenberga 374
A.3.7. Transformacja Householdera 375
A.3.8. Transformacja Givensa 375
A.4. Zaawansowane operacje macierzowe 376
A.4.1. Reguły inwersji macierzy złożonych 376
A.4.2. Różniczkowanie funkcji względem wektora 377
A.4.3. Różniczkowanie macierzy
Metody i narzędzia eksploracji danych --- Pozycja niedostępna.---
|