Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)
Ten wpis zaczniemy od stworzenia DataFrame z danymi treningowymi train_df = pd.read_csv('train.csv', encoding='ISO-8859-1').dropna(subset=['text', 'sentiment']) Ta linijka kodu pozwala na załadowanie danych z pliku "train.csv" do zbioru danych treningowych train_df . Użyte jest kodowanie znaków " ISO-8859-1 ", które jest standardem dla języków zachodnioeuropejskich, pozwalającym odczytać i zinterpretować znaki takie jak "é". Dzięki funkcji dropna() pozbywamy się wartości NaN z naszego zbioru danych. Parametr subset określa, które kolumny mają być brane pod uwagę przy usuwaniu braków. Usuwamy braki w kolumnach " text " (zawierającej wpisy na Twitterze) oraz " sentiment " (określającej sentyment). Gdybyśmy nie pozbyli się tych pustych wartości, mogłoby to zaburzyć proces trenowania modelu. Kolejną linijką kodu jest : test_df = pd.read_csv('test.csv', encoding='ISO-8859-1').dropna(subset=[...