SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.
Praca składa się z czterech części, w których można znaleźć następujące zagadnienia: • niezbędną interdyscyplinarną wiedzę • klasyfikację używanych metod na tle innych dziedzin zajmujących się przetwarzaniem danych • architekturę oprogramowania SAS Text Analytics • sposób reprezentacji informacji zawartej w dokumencie tekstowym • metodę analizy semantycznej wymiarów ukrytych • wybór funkcji wagującej i redukcję wymiarowości macierzy częstości • algorytmy grupowania dokumentów tekstowych: probabilistyczne i hierarchiczne • sposoby zarządzania informacją w organizacji • klasyfikację dokumentów • analizę sentymentu • bezpośrednie porównywanie treści dokumentów za pomocą miar odległości kosinusowej i metryki Jaccarda • zasady wydobywania jednostek specjalnych • sposoby wizualizacji danych tekstowych • polsko-angielski słownik pojęć z dziedziny eksploracji danych tekstowych • zarys zagadnień dotyczących programowania w środowisku SAS: podstawy języka 4GL języka makr • wykaz literatury tematycznej
Możliwości omówionych narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników
Dominik Spinczyk Doktor nauk technicznych w dyscyplinie Biocybernetyka i Inżynieria Biomedyczna; habilitacja w nowym trybie na podstawie zbioru publikacji na etapie recenzji zewnętrznych w Centralnej Komisji; Politechnika Śląska; Wydział Inżynierii Biomedycznej; obecnie do końca listopada PostDoc position: Centrum Onkologii Lyon, Francja.
Mariusz Dzieciątko Dr inż. Mariusz Dzieciątko, doktor nauk technicznych, Business Solution Manager w SAS Poland Technology and Big Data Competency Center oraz wykładowca w Szkole Głównej Handlowej w Warszawie w Instytucie Informatyki i Gospodarki Cyfrowej.
Spis treści:
Część I. Wprowadzenie do eksploracji danych tekstowych 1. Trendy w rozwoju systemów informatycznych eksploracji danych 2. Metody eksploaracji danych tekstowych 3. Architektura oprogramowania do eksploaracji danych tekstowych
Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym 4. Wybór funkcjiwagującej macierzy częstości wsytepowania terminów 5. Redukcja wymiarowości macierzy częstości występowania terminów 6. Wybór algorytmu klastrowania dokumentów tekstowych 7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli 8. Klastrowanie dokumentów nadzorowane przez użytkownika
Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji 9. Zarys zagadnień z wydobyciem i organizacją wiedzy w instytucju 10. Klasyfikacja dokumentów 11. Analiza sentymenu
Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych 12. Inne elementy przetwarzania danych tekstowych
Słownik pojęć związanych z eksploracją danych tekstowych Dodatek A: Podstawy obsługi środowiska SAS i język 4GL Dodatek B: Podstawy języka makr Dodatek C: Wizualna reprezentacja danych
Text Mining. Metody, narzędzia i zastosowania. Wykorzystanie SAS Text Analytics
|