Autor: Kevin Hemenway, Tara Calishain
ISBN: 83-7361-452-4
Ilość stron: 384
Data wydania: 04/2004
Internet to niewyczerpane źródło informacji. Zwykle jednak znalezienie w gąszczu witryn i danych tego, co jest naprawdę potrzebne, jest zadaniem niezwykle trudnym. Wyszukiwarki internetowe, nawet te najpopularniejsze i najbardziej efektywne w działaniu, nie zawsze są odpowiednim rozwiązaniem. W takich przypadkach trzeba poszukać innego sposobu, a nawet opracować własną metodę przeszukiwania sieci.
Książka "100 sposobów na tworzenie robotów sieciowych" może służyć pomocą w wielu takich właśnie przypadkach. Przedstawia sposoby tworzenia i wykorzystywania "pająków" przeszukujących sieć pod kątem określonych zasobów. W książce poruszono następujące zagadnienia:
- Uwarunkowania prawne dotyczące korzystania z programów przeszukujących sieć
- Narzędzia do tworzenia robotów oraz wyszukiwania danych
- Sposoby wyszukiwania i pobierania plików multimedialnych
- Przeszukiwanie sieciowych baz danych
- Metody zapisywania zbiorów danych i aktualizowania ich
- Tworzenie zbiorów danych łatwych do przeszukiwania przez innych
W książce przedstawiono techniki tworzenia kompletnych programów przeszukujących sieć (pająków), umożliwiających odnalezienie wszystkich potrzebnych danych.
Rozdziały:
Rozdział 1. Łagodne wprowadzenie (17)
- 1. Pająki i zbieranie danych: kurs na zderzenie (17)
- 2. Zasady obowiązujące pająka i jego użytkownika (19)
- 3. Anatomia strony HTML (23)
- 4. Rejestrowanie pająka (26)
- 5. Przedstawiamy się (28)
- 6. Ostrożnie z użyciem pająka (30)
- 7. Szukanie wzorców w identyfikatorach (33)
Rozdział 2. Zestaw narzędzi (37)
- 8. Instalowanie modułów Perla (40)
- 9. Po prostu pobieranie za pomocą LWP::Simple (42)
- 10. Bardziej złożone żądania - LWP::UserAgent (44)
- 11. Dodawanie do żądania nagłówków HTTP (45)
- 12. Wysyłanie danych przez LWP (47)
- 13. Uwierzytelnianie, ciasteczka i serwery proxy (49)
- 14. Obsługa względnych i bezwzględnych adresów URL (53)
- 15. Dostęp do zabezpieczonych zasobów i atrybuty przeglądarki (55)
- 16. Ograniczanie zajmowanego pasma (56)
- 17. Poszanowanie dla pliku robots.txt (60)
- 18. Dodawanie w skryptach pasków postępu (61)
- 19. Pobieranie danych za pomocą HTML::TreeBuilder (66)
- 20. Analizowanie kodu za pomocą HTML::TokeParser (69)
- 21. WWW::Mechanize 101 (72)
- 22. Pobieranie danych za pomocą WWW::Mechanize (75)
- 23. Pochwała wyrażeń regularnych (79)
- 24. Template::Extract: bezproblemowe RSS (82)
- 25. Wprowadzenie do XPath (85)
- 26. Pobieranie zasobów za pomocą curl i wget (90)
- 27. wget dla zaawansowanych (91)
- 28. Łączenie poleceń potokami (93)
- 29. Jednoczesne uruchamianie wielu narzędzi (98)
- 30. Użycie Web Scraping Proxy (100)
- 31. Zawczasu unikaj kłopotów (104)
- 32. Liczenie się ze zmiennością witryny (107)
Rozdział 3. Zbieranie plików multimedialnych (109)
- 33. Sprawa dla detektywa: Newgrounds (109)
- 34. Sprawa dla detektywa: iFilm (114)
- 35. Pobieranie filmów z Biblioteki Kongresu USA (117)
- 36. Pobieranie obrazów z Webshots (120)
- 37. Pobieranie komiksów - dailystrips (124)
- 38. Kolekcjonowanie kadrów z kamer sieciowych (126)
- 39. News Wallpaper dla naszej witryny (130)
- 40. Zapisywanie samych załączników wiadomości POP3 (133)
- 41. Pobieranie plików MP3 z listy odtwarzania (139)
- 42. Pobieranie danych z Usenetu za pomocą nget (144)
Rozdział 4. Zbieranie danych z baz danych (147)
- 43. Użycie yahoo2mbox do pobierania wiadomości z grup Yahoo! (147)
- 44. Archiwizacja wiadomości z grup Yahoo! za pomocą WWW::Yahoo::Groups (149)
- 45. Zbieranie Buzz z Yahoo! (153)
- 46. Pająki w katalogu Yahoo! (155)
- 47. Śledzenie nowości Yahoo! (162)
- 48. Szukanie rozproszone w Yahoo! i Google (164)
- 49. Idea mindshare i katalog Yahoo! w Google (168)
- 50. Wyniki z Google bez dzienników sieciowych (172)
- 51. Pająki, Google a wiele domen (174)
- 52. Pobieranie recenzji z Amazon.com (178)
- 53. Pobieranie drogą pocztową nowo dodanych na Amazon.com recenzji (180)
- 54. Pobieranie zaleceń dla klienta Amazon.com (183)
- 55. Publikowanie statystyk Amazon.com Associates (185)
- 56. Sortowanie Amazon.com według ocen klientów (187)
- 57. Alexa i produkty podobne na Amazon.com (190)
- 58. Użycie Javy do pobierania danych z Alexy (194)
- 59. Znajdowanie danych o albumie za pomocą FreeDB i Amazon.com (196)
- 60. Poszerzanie swoich horyzontów muzycznych (203)
- 61. Horoskop na co dzień (207)
- 62. Graficzna prezentacja danych: RRDTOOL (209)
- 63. Zbieranie notowań giełdowych (213)
- 64. Wszystko o autorze (216)
- 65. Bestsellery wydawnictwa O'Reilly a zainteresowanie w bibliotece (230)
- 66. Listy książek z All Consuming (233)
- 67. Śledzenie paczek FedEx (238)
- 68. Szukanie nowych komentarzy w dziennikach sieciowych (240)
- 69. Agregowanie RSS i przesyłanie zmian (244)
- 70. Użycie Link Cosmos na Technorati (251)
- 71. Szukanie powiązanych pakietów RSS (254)
- 72. Automatyczne znajdowanie interesujących nas dzienników sieciowych (264)
- 73. Pobieranie zapowiedzi programu telewizyjnego (267)
- 74. Jaka jest pogoda u Twojego gościa? (271)
- 75. Określanie trendów według lokalizacji (274)
- 76. Znajdowanie najlepszych połączeń kolejowych (279)
- 77. Palcem po mapie (282)
- 78. Angielski słowniczek (287)
- 79. Związki słów w Lexical Freenet (291)
- 80. Zmiana formatowania raportów Bugtraq (294)
- 81. Zakładki w sieci via e-mail (298)
- 82. Publikacja w swojej witrynie zakładki Ulubione (304)
- 83. Analiza cen gier w GameStop.com (311)
- 84. Na zakupy z PHP (313)
- 85. Łączenie wyników z różnych wyszukiwarek (319)
- 86. Robot Karaoke (323)
- 87. Przeszukiwanie Biur na Rzecz Poprawy Jakości Usług (326)
- 88. Szukanie ocen sanitarnych (329)
- 89. Nieprzyzwoitości mówimy nie! (332)
Rozdział 5. W trosce o własny stan posiadania (335)
- 90. Użycie crona do automatyzacji zadań (335)
- 91. Terminowe wykonywanie zadań bez crona (337)
- 92. Tworzenie kopii witryn za pomocą wget i rsync (341)
- 93. Gromadzenie wyników poszukiwań (344)
Rozdział 6. Teraz my dla innych (349)
- 94. Użycie XML::RSS do przekształcania danych (350)
- 95. Umieszczanie w witrynie nagłówków RSS (353)
- 96. Udostępniamy naszą witrynę dla wyrażeń regularnych (356)
- 97. Udostępnianie naszych zasobów dla automatów za pomocą interfejsu REST (362)
- 98. Udostępnianie zasobów przy użyciu XML-RPC (365)
- 99. Tworzenie interfejsu IM (369)
- 100. Co dalej? (372)
100 sposobów na tworzenie robotów sieciowych --- Pozycja niedostępna.---
|