Nowe usługi 2.0. Przewodnik po analizie zbiorów danych

Autor: Toby Segaran

ISBN: 978-83-246-9298-9

Ilość stron: 328

Data wydania: 09/2014

Oprawa: Miękka

Format: 168x237

Wydawnictwo: HELION

Wykorzystaj dane z sieci do własnych potrzeb!

Internet to nic innego jak gigantyczny zbiór danych. Każdy, kto znajdzie sposób na ich umiejętne wykorzystanie, ma szansę zbudować aplikację, która odniesie światowy sukces. Serwisy randkowe, portale społecznościowe, porównywarki cen — to tylko drobna część serwisów, które możesz wykorzystać przy tworzeniu nowej usługi. Jak analizować dane i wyciągnąć wnioski? Na wiele podobnych pytań odpowiada ta jedyna w swoim rodzaju książka.

W trakcie lektury poznasz najlepsze sposoby filtrowania danych, tworzenia rekomendacji, wykrywania grup oraz wyszukiwania i klasyfikowania. Na kolejnych stronach znajdziesz bogaty zbiór informacji poświęconych algorytmom analizującym dane. Ponadto będziesz mieć możliwość zapoznania się z różnymi sposobami optymalizacji, modelowania przy użyciu drzew decyzyjnych oraz tworzenia modeli cenowych. Książka ta w rękach wprawnego programisty może stanowić niesamowite narzędzie. Otwiera wrota do świata pełnego danych i zależności pomiędzy nimi!

Dzięki tej książce:
• poznasz najlepsze i najskuteczniejsze algorytmy do analizy danych
• zbudujesz model cen
• nauczysz się korzystać z drzew decyzyjnych
• zastosujesz dane z sieci do budowy nowych usług

Wyciągnij właściwe wnioski z posiadanych danych!

„Brawo! Nic lepszego nie przychodzi mi na myśl w przypadku programisty, który zaczyna dopiero przygodę z opisanymi w książce algorytmami i metodami. Sam (jako stary »wyjadacz« od sztucznej inteligencji) sięgnąłbym po nią w pierwszej kolejności, żeby odświeżyć swoją znajomość szczegółów.”
Dan Russell, główny specjalista ds. technologii, firma Google

„W książce Toby’ego w znakomity sposób dokonano rozbicia złożonego zagadnienia dotyczącego algorytmów uczenia maszynowego na praktyczne i łatwe do zrozumienia przykłady, które mogą być bezpośrednio używane do analizowania interakcji społecznościowej w obecnym internecie. Jeśli ta książka trafiła w moje ręce dwa lata wcześniej, zaoszczędziłbym mój cenny czas, gdy podążałem bezowocnymi ścieżkami.”
Tim Wolters, szef ds. technologii, firma Collective Intellect

Spis treści:

1. Inteligencja zbiorowa - wprowadzenie (21)

Czym jest inteligencja zbiorowa? (22)
Czym jest uczenie maszynowe? (23)
Ograniczenia uczenia maszynowego (24)
Rzeczywiste przykłady (24)
Inne zastosowania algorytmów uczących (25)

2. Tworzenie rekomendacji (27)

Filtrowanie grupowe (27)
Gromadzenie preferencji (28)
Znajdowanie podobnych użytkowników (29)
Rekomendowanie pozycji (34)
Dopasowywanie produktów (36)
Tworzenie systemu rekomendowania odnośników del.icio.us (38)
Filtrowanie oparte na pozycjach (42)
Zastosowanie zbioru danych MovieLens (45)
Filtrowanie oparte na użytkownikach czy pozycjach? (46)
Ćwiczenia (47)

3. Wykrywanie grup (49)

Porównanie uczenia nadzorowanego z nienadzorowanym (49)
Wektory wyrazów (50)
Grupowanie hierarchiczne (53)
Rysowanie dendrogramu (57)
Grupowanie kolumn (59)
Grupowanie k-średnich (61)
Klastry preferencji (64)
Wyświetlanie danych w dwóch wymiarach (68)
Inne rzeczy, które mogą być grupowane (71)
Ćwiczenia (72)

4. Wyszukiwanie i klasyfikowanie (73)

Co znajduje się w wyszukiwarce? (73)
Prosty przeszukiwacz (75)
Budowanie indeksu (77)
Odpytywanie (81)
Klasyfikacja oparta na treści (83)
Użycie odnośników zewnętrznych (87)
Uczenie na podstawie kliknięć (91)
Ćwiczenia (101)

5. Optymalizacja (103)

Podróż grupy osób (104)
Reprezentowanie rozwiązań (105)
Funkcja kosztu (106)
Wyszukiwanie losowe (108)
Metoda największego wzrostu (109)
Symulowane wyżarzanie (111)
Algorytmy genetyczne (113)
Wyszukiwania rzeczywistych lotów (117)
Optymalizowanie pod kątem preferencji (122)
Wizualizacja sieci (125)
Inne możliwości (130)
Ćwiczenia (130)

6. Filtrowanie dokumentów (133)

Filtrowanie spamu (133)
Dokumenty i wyrazy (134)
Trenowanie klasyfikatora (135)
Obliczanie prawdopodobieństw (137)
Naiwny klasyfikator (139)
Metoda Fishera (142)
Utrwalanie klasyfikatorów po przeprowadzonym treningu (146)
Filtrowanie kanałów informacyjnych blogów (148)
Poprawianie wykrywania właściwości (150)
Użycie interfejsu Akismet (152)
Alternatywne metody (153)
Ćwiczenia (154)

7. Modelowanie przy użyciu drzew decyzyjnych (157)

Przewidywanie rejestracji (157)
Wprowadzenie do drzew decyzyjnych (159)
Uczenie drzewa (160)
Wybór najlepszego podziału (162)
Budowanie drzewa rekurencyjnego (164)
Wyświetlanie drzewa (166)
Klasyfikowanie nowych obserwacji (168)
Przycinanie drzewa (169)
Radzenie sobie z brakującymi danymi (171)
Radzenie sobie z wynikami liczbowymi (172)
Modelowanie cen domów (173)
Modelowanie "atrakcyjności" (176)
Kiedy stosować drzewa decyzyjne? (178)
Ćwiczenia (179)

8. Budowanie modelu cen (181)

Budowanie przykładowego zbioru danych (181)
Metoda k-najbliższych sąsiadów (183)
Sąsiednie elementy z określoną wagą (186)
Walidacja krzyżowa (189)
Zmienne heterogeniczne (191)
Optymalizowanie skali (194)
Rozkłady niejednolite (196)
Użycie rzeczywistych danych - interfejs API serwisu eBay (200)
Kiedy używać metody k-najbliższych sąsiadów? (207)
Ćwiczenia (207)

9. Zaawansowane klasyfikowanie: metody jądrowe i maszyny wektorów nośnych (209)

Zbiór danych swatki (209)
Trudności związane z danymi (211)
Podstawowa klasyfikacja liniowa (213)
Właściwości skategoryzowane (217)
Skalowanie danych (218)
Metody jądrowe (220)
Maszyny wektorów nośnych (223)
Zastosowanie biblioteki LIBSVM (225)
Dopasowywanie w serwisie Facebook (227)
Ćwiczenia (232)

10. Znajdowanie niezależnych właściwości (233)

Zbiór artykułów (234)
Wcześniejsze rozwiązania (237)
Nieujemna faktoryzacja macierzy (240)
Wyświetlanie wyników (246)
Użycie danych rynku giełdowego (249)
Ćwiczenia (254)

11. Inteligencja rozwojowa (255)

Czym jest programowanie genetyczne? (255)
Programy w postaci drzew (258)
Tworzenie populacji początkowej (261)
Testowanie rozwiązania (263)
Krzyżowanie (267)
Budowanie środowiska (269)
Prosta gra (272)
Dalsze możliwości (276)
Ćwiczenia (278)

12. Algorytmy - podsumowanie (281)

Klasyfikator bayesowski (281)
Klasyfikator drzew decyzyjnych (285)
Sieci neuronowe (288)
Maszyny wektorów nośnych (292)
Metoda k-najbliższych sąsiadów (296)
Grupowanie (299)
Skalowanie wielowymiarowe (303)
Nieujemna faktoryzacja macierzy (305)
Optymalizacja (307)

A. Zewnętrzne biblioteki (311)

Universal Feed Parser (311)
Python Imaging Library (311)
Beautiful Soup (312)
pysqlite (313)
NumPy (314)
matplotlib (315)
pydelicious (316)

B. Formuły matematyczne (317)

Odległość euklidesowa (317)
Współczynnik korelacji Pearsona (317)
Średnia ważona (318)
Współczynnik Tanimoto (319)
Prawdopodobieństwo warunkowe (319)
Niejednorodność Giniego (320)
Entropia (321)
Wariancja (321)
Funkcja Gaussa (322)
Iloczyny skalarne (322)