Kamil Kondrat - mój osobisty blog

Posty

Wyświetlanie postów z maj, 2024

EDA: Czyszczenie danych - usuwanie duplikatów, obsługa wartości brakujących

maja 08, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. 1. Usuwanie duplikatów: Duplikaty danych powinny być usuwane, ponieważ każdy niepotrzebnie powielony rekord wpływa na statystyczne analizy danych. Taki duplikat jest traktowany przez model jako oddzielny, pełnoprawny rekord, co może zakłócić wyniki analizy i zmniejszyć skuteczność modeli. Nieusunięte duplikaty w zbiorze danych przez...

Czytaj więcej

EDA: Czyszczenie danych - lista operacji (wstęp)

maja 08, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. Na samym początku, dzięki ChatGPT, wydrukuję listę możliwych operacji do wykonania , których celem jest czyszczenie danych: Usuwanie duplikatów Obsługa wartości brakujących Normalizacja danych Standaryzacja danych Oczyszczanie tekstów (usuwanie znaków specjalnych, standaryzacja pisowni) Przetwarzanie dat i czasu Kodowanie zmiennych ...

Czytaj więcej

Exploratory Data Analysis: balansowanie zbioru i normalizacja danych

maja 07, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. Dzisiaj zajmiemy się wybranymi elementami statystyki opisowej, które są kluczowe w kontekście uczenia maszynowego i analizy eksploracyjnej danych (EDA). Omówimy, jak średnia arytmetyczna i odchylenie standardowe pomagają w analizie i przygotowaniu danych. Średnia arytmetyczna opisuje centralną tendencję zbioru danych, co umożli...

Czytaj więcej

Exploratory Data Analysis (EDA) - wstęp

maja 06, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. Chciałbym rozpocząć serię wpisów na temat eksploracyjnej analizy danych, znaną również jako badawcza analiza danych. Oba te terminy są powszechnie używane. Często spotyka się również określenie wstępna analiza danych jako synonim Exploratory Data Analysis (EDA). Dla uproszczenia, w dalszych wpisach będę używał skrótu EDA, odnos...

Czytaj więcej

Podejście zorientowane na dane (Data Centric Approach)

maja 05, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. W tej notce posłużę się pracą naukową ( https://arxiv.org/abs/2303.10158 ), wyciągając z nie j interesujący mnie fragment, istotny z punktu widzenia tematu wpisu: In the past, AI was often viewed as a model-centric field, where the focus was on advancing model designs given fixed datasets. However, the overwhelming reliance on fixed...

Czytaj więcej

Jak ocenić czy mam wystarczającą ilość danych?

maja 05, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. W poniższym wpisie zastanowimy się co to znaczy mieć wystarczającą ilość danych, aby skutecznie wytrenować model. Jest kilka przesłanek ku temu, aby sądzić, że należy tych danych mieć więcej lub mniej. Pozwolę sobie nawiązać do części z nich i omówić. W zadaniach takich jak klasyfikacja i regresja , szczególnie gdy model zawiera w...

Czytaj więcej

KPI w projektach Data Science/Machine Learning (dokładność modelu, precision i recall)

maja 04, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. W tym wpisie postaram się w prostych słowach przedstawić temat wskaźników KPI (Key Performance Indicators) w kontekście projektów związanych z uczeniem maszynowym. KPI to narzędzia, które pozwalają mierzyć efektywność oraz wpływ implementowanych rozwiązań Machine Learning na osiąganie celów biznesowych. Oto przykłady KPI, które mogą...

Czytaj więcej

Typy zadań w uczeniu maszynowym i sztucznej inteligencji

maja 03, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. Tym razem kolejny post, który też będzie ściągawką. Poniżej znajdziecie przykładowe zestawienie 20 typów zadań jakie podejmują się systemy AI z dołączonym zwięzłym opisem. Posłużyłem się ChatemGPT żeby stworzył tę listę. Proponuję przeczytać, aby poszerzyć swoją świadomość w tym przed jakimi wyzwaniami staje AI i ci co ją projektują...

Czytaj więcej

Potencjalne powody dla zastosowania modelu Machine Learning

maja 03, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. W niniejszym wpisie zamieszczę listę 20 potencjalnych zastosowań modelu ML. Listę tę wygenerowałem jako przykładową przy pomocy ChatGPT. Myślę, że warto tak dla poszerzenia horyzontu chwilkę skupić się na każdym z punktów i pomyśleć jak każde poszczególne zastosowanie może wyglądać i ewentualnie poprzez dalsze poszukiwania rozsz...

Czytaj więcej