Kamil Kondrat - mój osobisty blog

Posty

Wyświetlanie postów z czerwiec, 2024

Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)

czerwca 16, 2024

Ten wpis zaczniemy od stworzenia DataFrame z danymi treningowymi train_df = pd.read_csv('train.csv', encoding='ISO-8859-1').dropna(subset=['text', 'sentiment']) Ta linijka kodu pozwala na załadowanie danych z pliku "train.csv" do zbioru danych treningowych train_df . Użyte jest kodowanie znaków " ISO-8859-1 ", które jest standardem dla języków zachodnioeuropejskich, pozwalającym odczytać i zinterpretować znaki takie jak "é". Dzięki funkcji dropna() pozbywamy się wartości NaN z naszego zbioru danych. Parametr subset określa, które kolumny mają być brane pod uwagę przy usuwaniu braków. Usuwamy braki w kolumnach " text " (zawierającej wpisy na Twitterze) oraz " sentiment " (określającej sentyment). Gdybyśmy nie pozbyli się tych pustych wartości, mogłoby to zaburzyć proces trenowania modelu. Kolejną linijką kodu jest : test_df = pd.read_csv('test.csv', encoding='ISO-8859-1').dropna(subset=[...

Czytaj więcej

Analiza sentymentów - wpisy na mediach społecznościowych (ustawianie środowiska)

czerwca 16, 2024

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji. Rozpocznę nową serię wpisów. Projekt ten będzie dotyczył analizy sentymentów treści, które z założenia reprezentują wpisy na mediach społecznościowych, takich jak na przykład Twitter. Model będzie miał na celu ocenę, czy dany tweet ma charakter pozytywny, negatywny czy neutralny. Użyję do tego zbioru danych, dostępnego na Kaggle: Se...

Czytaj więcej