Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje
zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego
przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności
oraz chęć poznawania nowych zagadnień, co może zainteresować
potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza
nią. Blog ten jest również okazją do samodzielnego przetwarzania
zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w
trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka
wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji
i weryfikacji podanych przeze mnie informacji.
Na samym początku, dzięki ChatGPT, wydrukuję listę możliwych operacji do wykonania, których celem jest czyszczenie danych:
- Usuwanie duplikatów
- Obsługa wartości brakujących
- Normalizacja danych
- Standaryzacja danych
- Oczyszczanie tekstów (usuwanie znaków specjalnych, standaryzacja pisowni)
- Przetwarzanie dat i czasu
- Kodowanie zmiennych kategorycznych
- Wykrywanie i obsługa wartości odstających
- Skalowanie cech
- Transformacja danych (np. logarytmiczna, potęgowa)
- Usuwanie nieistotnych cech
- Korekta błędów w danych (np. literówki, błędne etykiety)
- Anonimizacja danych osobowych
- Walidacja typów danych
- Wypełnianie brakujących danych
- Segmentacja tekstu (tokenizacja)
- Grupowanie podobnych danych
- Rozpoznawanie i zamiana synonimów
- Usuwanie znaków interpunkcyjnych z tekstu
- Zmiana formatu danych (np. z CSV na JSON)
- Optymalizacja formatów przechowywania
- Filtrowanie danych według kryteriów
- Przetwarzanie obrazów (np. usuwanie szumu, zmiana rozdzielczości)
- Przetwarzanie dźwięku (np. redukcja szumów, normalizacja głośności)
- Obsługa wielojęzycznych danych
- Automatyczne etykietowanie danych
- Weryfikacja spójności danych
- Redukcja wymiarowości (np. PCA, t-SNE)
- Implementacja przepływów danych (pipelines)
- Monitorowanie jakości danych
- Zabezpieczanie przed wpływem danych szkodliwych
- Stosowanie ekspresji regularnych do czyszczenia tekstu
- Integracja różnych źródeł danych
- Wyszukiwanie wzorców i korelacji w danych
- Harmonizacja jednostek miar
- Przeszukiwanie danych w poszukiwaniu błędów systematycznych
- Ujednolicanie formatów adresów
- Usuwanie danych wrażliwych
- Zastosowanie sztucznej inteligencji do automatycznego czyszczenia danych
- Porównywanie i synchronizacja zbiorów danych
- Usuwanie danych przeterminowanych
- Optymalizacja zapytań dla dużych zbiorów danych
- Implementacja asercji danych dla automatycznej weryfikacji
- Zastosowanie algorytmów do uczenia maszynowego w celu identyfikacji anomalii
- Balansowanie zbiorów danych (np. w kontekście klasyfikacji)
- Przygotowanie danych do wizualizacji
- Konwersja skal kolorów w obrazach
- Zastosowanie filtrów do danych czasowo-ciągłych
- Eksploracja danych (data mining) dla identyfikacji ukrytych problemów
- Usuwanie informacji nadmiarowych (redundantnych)
Do zagadnień z punktów nr. 3, 4, 9, 45 nawiązałem już w poprzednim wpisie: https://kamilkondrat.blogspot.com/2024/05/exploratory-data-analysis-balansowanie.html
Jeśli chodzi o pozostałe punkty, to niektóre z nich zostaną rozwinięte w
kolejnych wpisach, zarówno w formie krótkich opisów, jak i
obszerniejszych przykładów.
Brak komentarzy:
Prześlij komentarz