Python Podstawy nauki o danych. Wydanie II

Autor: Alberto Boschetti , Luca Massaron

ISBN: 978-83-283-3423-6

Ilość stron: 320

Data wydania: 05/2017

Oprawa: Miękka

Format: 170x230

Wydawnictwo: HELION

Nauka o danych jest nową, interdyscyplinarną dziedziną, funkcjonującą na pograniczu algebry liniowej, modelowania statystycznego, lingwistyki komputerowej, uczenia maszynowego oraz metod akumulacji danych. Jest przydatna między innymi dla analityków biznesowych, statystyków, architektów oprogramowania i osób zajmujących się sztuczną inteligencją.

Szczególnie praktycznym narzędziem dla tych specjalistów jest język Python, który zapewnia doskonałe środowisko do analizy danych, uczenia maszynowego i algorytmicznego rozwiązywania problemów.

Niniejsza książka jest doskonałym wprowadzeniem do nauki o danych. Jej autorzy wskażą Ci prostą i szybką drogę do rozwiązywania różnych problemów z tego obszaru za pomocą Pythona oraz powiązanych z nim pakietów do analizy danych i uczenia maszynowego.

Dzięki lekturze przejdziesz przez kolejne etapy modyfikowania i wstępnego przetwarzania danych, poznając przy tym podstawowe operacje związane z wczytywaniem danych, przekształcaniem ich, poprawianiem na potrzeby analiz, eksplorowaniem i przetwarzaniem. Poza podstawami opanujesz też zagadnienia uczenia maszynowego, w tym uczenia głębokiego, techniki analizy grafów oraz wizualizacji danych.

Najważniejsze zagadnienia przedstawione w książce:
• konfiguracja środowiska Jupyter Notebook
• najważniejsze operacje stosowane w nauce o danych
• potoki danych i uczenie maszynowe
• wprowadzenie do grafów i wizualizacje
• biblioteki i pakiety Pythona służące do badań danych

Nauka o danych - fascynujące algorytmy i potężne grafy!

Alberto Boschetti specjalizuje się w przetwarzaniu sygnałów i statystyce. Jest doktorem inżynierii telekomunikacyjnej. Zajmuje się przetwarzaniem języków naturalnych, analityką behawioralną, uczeniem maszynowym i przetwarzaniem rozproszonym.

Luca Massaron specjalizuje się w statystycznych analizach wieloczynnikowych, uczeniu maszynowym, statystyce, eksploracji danych i algorytmice. Pasjonuje się potencjałem, jaki drzemie w nauce o danych.

Spis treści:

Rozdział 1. Pierwsze kroki (15)
• Wprowadzenie do nauki o danych i Pythona (16)
• Instalowanie Pythona (17)
Python 2 czy Python 3? (18)
Instalacja krok po kroku (19)
Instalowanie pakietów (20)
Aktualizowanie pakietów (22)
Dystrybucje naukowe (22)
Środowiska wirtualne (25)
Krótki przegląd podstawowych pakietów (28)
• Wprowadzenie do środowiska Jupyter (37)
Szybka instalacja i pierwsze testowe zastosowanie (41)
Magiczne polecenia w Jupyterze (42)
W jaki sposób notatniki Jupytera mogą być pomocne dla badaczy danych? (44)
Zastępniki Jupytera (49)
• Zbiory danych i kod używane w książce (50)
Proste przykładowe zbiory danych z pakietu scikit-learn (50)
• Podsumowanie (59)

Rozdział 2. Przekształcanie danych (61)
• Proces pracy w nauce o danych (62)
• Wczytywanie i wstępne przetwarzanie danych za pomocą biblioteki pandas (64)
Szybkie i łatwe wczytywanie danych (64)
Radzenie sobie z problematycznymi danymi (67)
Radzenie sobie z dużymi zbiorami danych (70)
Dostęp do danych w innych formatach (73)
Wstępne przetwarzanie danych (75)
Wybieranie danych (78)
• Praca z danymi kategorialnymi i tekstowymi (81)
Specjalny rodzaj danych - tekst (83)
Scraping stron internetowych za pomocą pakietu Beautiful Soup (89)
• Przetwarzanie danych za pomocą pakietu NumPy (92)
N-wymiarowe tablice z pakietu NumPy (92)
Podstawowe informacje o obiektach ndarray z pakietu NumPy (93)
• Tworzenie tablic z pakietu NumPy (95)
Przekształcanie list w jednowymiarowe tablice (95)
Kontrolowanie ilości zajmowanej pamięci (96)
Listy niejednorodne (98)
Od list do tablic wielowymiarowych (99)
Zmiana wielkości tablic (100)
Tablice generowane przez funkcje z pakietu NumPy (101)
Pobieranie tablicy bezpośrednio z pliku (102)
Pobieranie danych ze struktur z biblioteki pandas (103)
• Szybkie operacje i obliczenia z użyciem pakietu NumPy (104)
Operacje na macierzach (106)
Tworzenie wycinków i indeksowanie tablic z pakietu NumPy (108)
Dodawanie "warstw" tablic z pakietu NumPy (110)
• Podsumowanie (112)

Rozdział 3. Potok danych (113)
• Wprowadzenie do eksploracji danych (113)
• Tworzenie nowych cech (117)
• Redukcja liczby wymiarów (120)
Macierz kowariancji (120)
Analiza głównych składowych (121)
Analiza głównych składowych dla big data - typ RandomizedPCA (125)
Analiza czynników ukrytych (126)
Liniowa analiza dyskryminacyjna (127)
Analiza ukrytych grup semantycznych (128)
Analiza składowych niezależnych (129)
Analiza głównych składowych oparta na funkcji jądra (129)
Algorytm t-SNE (131)
Ograniczone maszyny Boltzmanna (132)
• Wykrywanie i traktowanie wartości odstających (133)
Wykrywanie obserwacji odstających za pomocą technik jednoczynnikowych (134)
Klasa EllipticEnvelope (136)
Klasa OneClassSVM (140)
• Miary używane do walidacji (144)
Klasyfikacja wieloklasowa (144)
Klasyfikacja binarna (147)
Regresja (148)
• Testy i walidacja (148)
• Walidacja krzyżowa (153)
Iteratory walidacji krzyżowej (155)
Próbkowanie i bootstrapping (157)
• Optymalizacja hiperparametrów (159)
Tworzenie niestandardowych funkcji oceny (162)
Skracanie czasu przeszukiwania siatki parametrów (164)
• Wybór cech (166)
Wybór na podstawie wariancji cech (167)
Wybór za pomocą modelu jednoczynnikowego (168)
Rekurencyjna eliminacja (169)
Wybór na podstawie stabilności i regularyzacji L1 (171)
• Opakowywanie wszystkich operacji w potok (173)
Łączenie cech i tworzenie łańcuchów transformacji (174)
Tworzenie niestandardowych funkcji transformacji (176)
• Podsumowanie (177)

Rozdział 4. Uczenie maszynowe (179)
• Przygotowywanie narzędzi i zbiorów danych (179)
• Regresja liniowa i logistyczna (181)
• Naiwny klasyfikator bayesowski (184)
• Algorytm kNN (187)
• Algorytmy nieliniowe (188)
Stosowanie algorytmu SVM do klasyfikowania (190)
Stosowanie algorytmów SVM do regresji (192)
Dostrajanie algorytmu SVM (193)
• Strategie oparte na zestawach algorytmów (195)
Pasting z użyciem losowych próbek (196)
Bagging z użyciem słabych klasyfikatorów (196)
Podprzestrzenie losowe i obszary losowe (197)
Algorytmy Random Forests i Extra-Trees (198)
Szacowanie prawdopodobieństwa na podstawie zestawów (200)
Sekwencje modeli - AdaBoost (202)
Metoda GTB (202)
XGBoost (203)
• Przetwarzanie big data (206)
Tworzenie przykładowych dużych zbiorów danych (207)
Skalowalność ze względu na ilość danych (208)
Radzenie sobie z szybkością napływu danych (210)
Radzenie sobie z różnorodnością (211)
Przegląd algorytmów z rodziny SGD (213)
• Wprowadzenie do uczenia głębokiego (214)
• Krótkie omówienie przetwarzania języka naturalnego (221)
Podział na tokeny (221)
Stemming (222)
Oznaczanie części mowy (223)
Rozpoznawanie nazw własnych (224)
Stop-słowa (225)
Kompletny przykład z obszaru nauki o danych - klasyfikowanie tekstu (225)
• Przegląd technik uczenia nienadzorowanego (227)
• Podsumowanie (237)

Rozdział 5. Analizy sieci społecznościowych (239)
• Wprowadzenie do teorii grafów (239)
• Algorytmy dla grafów (244)
• Wczytywanie grafów, zapisywanie ich w pliku i pobieranie z nich podpróbek (252)
• Podsumowanie (255)

Rozdział 6. Wizualizacje, wnioski i wyniki (257)
• Wprowadzenie do pakietu Matplotlib (257)
Rysowanie krzywych (259)
Stosowanie paneli (260)
Wykresy punktowe określające relacje w danych (262)
Histogramy (263)
Wykresy słupkowe (264)
Wyświetlanie rysunków (265)
Wybrane przykłady graficzne z użyciem pakietu pandas (268)
Wykresy punktowe (271)
Metoda współrzędnych równoległych (273)
• Opakowywanie poleceń z pakietu Matplotlib (274)
Wprowadzenie do biblioteki seaborn (274)
Wzbogacanie możliwości z zakresu eksploracji danych (279)
• Interaktywne wizualizacje z użyciem pakietu Bokeh (284)
• Zaawansowane reprezentacje dotyczące uczenia się na podstawie danych (288)
Krzywe uczenia (288)
Krzywe walidacji (290)
Znaczenie cech w algorytmie Random Forests (292)
Wykresy częściowej zależności oparte na drzewach GBT (293)
Budowanie serwera predykcji w modelu ML-AAS (294)
• Podsumowanie (299)

Dodatek A. Utrwalanie podstaw Pythona (301)
• Lista zagadnień do nauki (302)
Listy (302)
Słowniki (304)
Definiowanie funkcji (305)
Klasy, obiekty i programowanie obiektowe (307)
Wyjątki (308)
Iteratory i generatory (309)
Instrukcje warunkowe (310)
Wyrażenia listowe i słownikowe (311)
• Nauka przez obserwację, lekturę i praktykę (311)
Masowe otwarte kursy online (311)
PyCon i PyData (312)
Interaktywne sesje w Jupyterze (312)
Nie wstydź się - podejmij wyzwanie (312)