Kamil Kondrat - mój osobisty blog: EDA: Czyszczenie danych

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.

Na samym początku, dzięki ChatGPT, wydrukuję listę możliwych operacji do wykonania, których celem jest czyszczenie danych:

Usuwanie duplikatów
Obsługa wartości brakujących
Normalizacja danych
Standaryzacja danych
Oczyszczanie tekstów (usuwanie znaków specjalnych, standaryzacja pisowni)
Przetwarzanie dat i czasu
Kodowanie zmiennych kategorycznych
Wykrywanie i obsługa wartości odstających
Skalowanie cech
Transformacja danych (np. logarytmiczna, potęgowa)
Usuwanie nieistotnych cech
Korekta błędów w danych (np. literówki, błędne etykiety)
Anonimizacja danych osobowych
Walidacja typów danych
Wypełnianie brakujących danych
Segmentacja tekstu (tokenizacja)
Grupowanie podobnych danych
Rozpoznawanie i zamiana synonimów
Usuwanie znaków interpunkcyjnych z tekstu
Zmiana formatu danych (np. z CSV na JSON)
Optymalizacja formatów przechowywania
Filtrowanie danych według kryteriów
Przetwarzanie obrazów (np. usuwanie szumu, zmiana rozdzielczości)
Przetwarzanie dźwięku (np. redukcja szumów, normalizacja głośności)
Obsługa wielojęzycznych danych
Automatyczne etykietowanie danych
Weryfikacja spójności danych
Redukcja wymiarowości (np. PCA, t-SNE)
Implementacja przepływów danych (pipelines)
Monitorowanie jakości danych
Zabezpieczanie przed wpływem danych szkodliwych
Stosowanie ekspresji regularnych do czyszczenia tekstu
Integracja różnych źródeł danych
Wyszukiwanie wzorców i korelacji w danych
Harmonizacja jednostek miar
Przeszukiwanie danych w poszukiwaniu błędów systematycznych
Ujednolicanie formatów adresów
Usuwanie danych wrażliwych
Zastosowanie sztucznej inteligencji do automatycznego czyszczenia danych
Porównywanie i synchronizacja zbiorów danych
Usuwanie danych przeterminowanych
Optymalizacja zapytań dla dużych zbiorów danych
Implementacja asercji danych dla automatycznej weryfikacji
Zastosowanie algorytmów do uczenia maszynowego w celu identyfikacji anomalii
Balansowanie zbiorów danych (np. w kontekście klasyfikacji)
Przygotowanie danych do wizualizacji
Konwersja skal kolorów w obrazach
Zastosowanie filtrów do danych czasowo-ciągłych
Eksploracja danych (data mining) dla identyfikacji ukrytych problemów
Usuwanie informacji nadmiarowych (redundantnych)

Do zagadnień z punktów nr. 3, 4, 9, 45 nawiązałem już w poprzednim wpisie: https://kamilkondrat.blogspot.com/2024/05/exploratory-data-analysis-balansowanie.html

Jeśli chodzi o pozostałe punkty, to niektóre z nich zostaną rozwinięte w kolejnych wpisach, zarówno w formie krótkich opisów, jak i obszerniejszych przykładów.

Kamil Kondrat - mój osobisty blog

środa, 8 maja 2024

EDA: Czyszczenie danych - lista operacji (wstęp)

Brak komentarzy:

Prześlij komentarz

Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)

Zgłoś nadużycie