środa, 8 maja 2024

EDA: Czyszczenie danych - lista operacji (wstęp)

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.

Na samym początku, dzięki ChatGPT, wydrukuję listę możliwych operacji do wykonania, których celem jest czyszczenie danych:

  1. Usuwanie duplikatów
  2. Obsługa wartości brakujących
  3. Normalizacja danych
  4. Standaryzacja danych
  5. Oczyszczanie tekstów (usuwanie znaków specjalnych, standaryzacja pisowni)
  6. Przetwarzanie dat i czasu
  7. Kodowanie zmiennych kategorycznych
  8. Wykrywanie i obsługa wartości odstających
  9. Skalowanie cech
  10. Transformacja danych (np. logarytmiczna, potęgowa)
  11. Usuwanie nieistotnych cech
  12. Korekta błędów w danych (np. literówki, błędne etykiety)
  13. Anonimizacja danych osobowych
  14. Walidacja typów danych
  15. Wypełnianie brakujących danych
  16. Segmentacja tekstu (tokenizacja)
  17. Grupowanie podobnych danych
  18. Rozpoznawanie i zamiana synonimów
  19. Usuwanie znaków interpunkcyjnych z tekstu
  20. Zmiana formatu danych (np. z CSV na JSON)
  21. Optymalizacja formatów przechowywania
  22. Filtrowanie danych według kryteriów
  23. Przetwarzanie obrazów (np. usuwanie szumu, zmiana rozdzielczości)
  24. Przetwarzanie dźwięku (np. redukcja szumów, normalizacja głośności)
  25. Obsługa wielojęzycznych danych
  26. Automatyczne etykietowanie danych
  27. Weryfikacja spójności danych
  28. Redukcja wymiarowości (np. PCA, t-SNE)
  29. Implementacja przepływów danych (pipelines)
  30. Monitorowanie jakości danych
  31. Zabezpieczanie przed wpływem danych szkodliwych
  32. Stosowanie ekspresji regularnych do czyszczenia tekstu
  33. Integracja różnych źródeł danych
  34. Wyszukiwanie wzorców i korelacji w danych
  35. Harmonizacja jednostek miar
  36. Przeszukiwanie danych w poszukiwaniu błędów systematycznych
  37. Ujednolicanie formatów adresów
  38. Usuwanie danych wrażliwych
  39. Zastosowanie sztucznej inteligencji do automatycznego czyszczenia danych
  40. Porównywanie i synchronizacja zbiorów danych
  41. Usuwanie danych przeterminowanych
  42. Optymalizacja zapytań dla dużych zbiorów danych
  43. Implementacja asercji danych dla automatycznej weryfikacji
  44. Zastosowanie algorytmów do uczenia maszynowego w celu identyfikacji anomalii
  45. Balansowanie zbiorów danych (np. w kontekście klasyfikacji)
  46. Przygotowanie danych do wizualizacji
  47. Konwersja skal kolorów w obrazach
  48. Zastosowanie filtrów do danych czasowo-ciągłych
  49. Eksploracja danych (data mining) dla identyfikacji ukrytych problemów
  50. Usuwanie informacji nadmiarowych (redundantnych)

Do zagadnień z punktów nr. 3, 4, 9, 45 nawiązałem już w poprzednim wpisie: https://kamilkondrat.blogspot.com/2024/05/exploratory-data-analysis-balansowanie.html

Jeśli chodzi o pozostałe punkty, to niektóre z nich zostaną rozwinięte w kolejnych wpisach, zarówno w formie krótkich opisów, jak i obszerniejszych przykładów.

Brak komentarzy:

Prześlij komentarz

Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)

Ten wpis zaczniemy od stworzenia DataFrame z danymi treningowymi train_df = pd.read_csv('train.csv', encoding='ISO-8859-1')....