Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.
Chciałbym rozpocząć serię wpisów na temat eksploracyjnej analizy danych, znaną również jako badawcza analiza danych. Oba te terminy są powszechnie używane. Często spotyka się również określenie wstępna analiza danych jako synonim Exploratory Data Analysis (EDA). Dla uproszczenia, w dalszych wpisach będę używał skrótu EDA, odnosząc się do tego procesu.
Statystyka opisowa
- Średnia
- Mediana
- Moda
- Zakres
- Wariancja
- Odchylenie standardowe
- Kwartyly
Wizualizacja danych
- Histogram
- Wykres pudełkowy (Box plot)
- Wykres punktowy (Scatter plot)
- Wykres słupkowy (Bar chart)
- Wykres liniowy (Line chart)
- Heatmapy
- Pair plots
- Violin plots
Czyszczenie danych
- Brakujące wartości
- Outliery
- Normalizacja
- Standaryzacja
- Przekształcenie danych
Korelacja i zależności
- Współczynnik korelacji Pearsona
- Współczynnik korelacji Spearmana
- Matryca korelacji
- Testy statystyczne
Analiza skupień
- Wielowymiarowa analiza
- Redukcja wymiarowości
- PCA (Principal Component Analysis)
- t-SNE (t-Distributed Stochastic Neighbor Embedding)
Hipotezy i wnioskowanie
- Testy statystyczne
- p-wartość
- Testy normalności
- Testy nieparametryczne
Narzędzia i języki programowania
- Python
- R
- Pandas
- Matplotlib
- Seaborn
- SciPy
- NumPy
Raportowanie wyników
- Storytelling z danymi
- Dashboardy
- Interaktywne wizualizacje
Brak komentarzy:
Prześlij komentarz