Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) - wstęp

maja 06, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.

Chciałbym rozpocząć serię wpisów na temat eksploracyjnej analizy danych, znaną również jako badawcza analiza danych. Oba te terminy są powszechnie używane. Często spotyka się również określenie wstępna analiza danych jako synonim Exploratory Data Analysis (EDA). Dla uproszczenia, w dalszych wpisach będę używał skrótu EDA, odnosząc się do tego procesu.

We wstępie pozwolę sobie przedstawić ogólną definicję EDA oraz wylistować kluczowe zagadnienia związane z tym tematem, aby w kolejnych wpisach poświęcić uwagę każdemu z wymienionych punktów.

Najpierw zwięzła definicja ( https://www.ibm.com/topics/exploratory-data-analysis ):

Exploratory data analysis (EDA) is used by data scientists to analyze and investigate data sets and summarize their main characteristics, often employing data visualization methods.

EDA helps determine how best to manipulate data sources to get the answers you need, making it easier for data scientists to discover patterns, spot anomalies, test a hypothesis, or check assumptions.

EDA is primarily used to see what data can reveal beyond the formal modeling or hypothesis testing task and provides a provides a better understanding of data set variables and the relationships between them. It can also help determine if the statistical techniques you are considering for data analysis are appropriate. Originally developed by American mathematician John Tukey in the 1970s, EDA techniques continue to be a widely used method in the data discovery process today.

A poniżej, przy pomocy ChatGPT, lista najważniejszych punktów związanych z EDA:

Statystyka opisowa
- Średnia
- Mediana
- Moda
- Zakres
- Wariancja
- Odchylenie standardowe
- Kwartyly
Wizualizacja danych
- Histogram
- Wykres pudełkowy (Box plot)
- Wykres punktowy (Scatter plot)
- Wykres słupkowy (Bar chart)
- Wykres liniowy (Line chart)
- Heatmapy
- Pair plots
- Violin plots
Czyszczenie danych
- Brakujące wartości
- Outliery
- Normalizacja
- Standaryzacja
- Przekształcenie danych
Korelacja i zależności
- Współczynnik korelacji Pearsona
- Współczynnik korelacji Spearmana
- Matryca korelacji
- Testy statystyczne
Analiza skupień
- Wielowymiarowa analiza
- Redukcja wymiarowości
- PCA (Principal Component Analysis)
- t-SNE (t-Distributed Stochastic Neighbor Embedding)
Hipotezy i wnioskowanie
- Testy statystyczne
- p-wartość
- Testy normalności
- Testy nieparametryczne
Narzędzia i języki programowania
- Python
- R
- Pandas
- Matplotlib
- Seaborn
- SciPy
- NumPy
Raportowanie wyników
- Storytelling z danymi
- Dashboardy
- Interaktywne wizualizacje

Kamil Kondrat - mój osobisty blog

Exploratory Data Analysis (EDA) - wstęp

Komentarze

Prześlij komentarz

Popularne posty z tego bloga

Stopa zwrotu - logarytmiczna stopa zwrotu

Analiza SMA - wykres SMA

Exploratory Data Analysis: balansowanie zbioru i normalizacja danych