poniedziałek, 6 maja 2024

Exploratory Data Analysis (EDA) - wstęp

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.

Chciałbym rozpocząć serię wpisów na temat eksploracyjnej analizy danych, znaną również jako badawcza analiza danych. Oba te terminy są powszechnie używane. Często spotyka się również określenie wstępna analiza danych jako synonim Exploratory Data Analysis (EDA). Dla uproszczenia, w dalszych wpisach będę używał skrótu EDA, odnosząc się do tego procesu.

We wstępie pozwolę sobie przedstawić ogólną definicję EDA oraz wylistować kluczowe zagadnienia związane z tym tematem, aby w kolejnych wpisach poświęcić uwagę każdemu z wymienionych punktów.

Najpierw zwięzła definicja ( https://www.ibm.com/topics/exploratory-data-analysis ):

Exploratory data analysis (EDA) is used by data scientists to analyze and investigate data sets and summarize their main characteristics, often employing data visualization methods.

EDA helps determine how best to manipulate data sources to get the answers you need, making it easier for data scientists to discover patterns, spot anomalies, test a hypothesis, or check assumptions.

EDA is primarily used to see what data can reveal beyond the formal modeling or hypothesis testing task and provides a provides a better understanding of data set variables and the relationships between them. It can also help determine if the statistical techniques you are considering for data analysis are appropriate. Originally developed by American mathematician John Tukey in the 1970s, EDA techniques continue to be a widely used method in the data discovery process today.

A poniżej, przy pomocy ChatGPT, lista najważniejszych punktów związanych z EDA:
  1. Statystyka opisowa

    • Średnia
    • Mediana
    • Moda
    • Zakres
    • Wariancja
    • Odchylenie standardowe
    • Kwartyly
  2. Wizualizacja danych

    • Histogram
    • Wykres pudełkowy (Box plot)
    • Wykres punktowy (Scatter plot)
    • Wykres słupkowy (Bar chart)
    • Wykres liniowy (Line chart)
    • Heatmapy
    • Pair plots
    • Violin plots
  3. Czyszczenie danych

    • Brakujące wartości
    • Outliery
    • Normalizacja
    • Standaryzacja
    • Przekształcenie danych
  4. Korelacja i zależności

    • Współczynnik korelacji Pearsona
    • Współczynnik korelacji Spearmana
    • Matryca korelacji
    • Testy statystyczne
  5. Analiza skupień

    • Wielowymiarowa analiza
    • Redukcja wymiarowości
    • PCA (Principal Component Analysis)
    • t-SNE (t-Distributed Stochastic Neighbor Embedding)
  6. Hipotezy i wnioskowanie

    • Testy statystyczne
    • p-wartość
    • Testy normalności
    • Testy nieparametryczne
  7. Narzędzia i języki programowania

    • Python
    • R
    • Pandas
    • Matplotlib
    • Seaborn
    • SciPy
    • NumPy
  8. Raportowanie wyników

    • Storytelling z danymi
    • Dashboardy
    • Interaktywne wizualizacje

Brak komentarzy:

Prześlij komentarz

Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)

Ten wpis zaczniemy od stworzenia DataFrame z danymi treningowymi train_df = pd.read_csv('train.csv', encoding='ISO-8859-1')....