niedziela, 5 maja 2024

Podejście zorientowane na dane (Data Centric Approach)

Ten wpis, podobnie jak cała zawartość bloga, odzwierciedla moje zainteresowania rozwojem w dziedzinie informatyki. Główne cele tego przedsięwzięcia to dzielenie się wiedzą, demonstracja moich umiejętności oraz chęć poznawania nowych zagadnień, co może zainteresować potencjalnych współpracowników zarówno w sferze zawodowej, jak i poza nią. Blog ten jest również okazją do samodzielnego przetwarzania zdobytej wiedzy i tworzenia osobistych notatek. Jako że sam jestem w trakcie nauki, zachęcam do niezależnego myślenia i, jeśli tematyka wpisów wpisuje się w zakres Twoich zainteresowań, do dalszej eksploracji i weryfikacji podanych przeze mnie informacji.

W tej notce posłużę się pracą naukową ( https://arxiv.org/abs/2303.10158 ), wyciągając z niej interesujący mnie fragment, istotny z punktu widzenia tematu wpisu:

In the past, AI was often viewed as a model-centric field, where the focus was on advancing model designs given fixed datasets. However, the overwhelming reliance on fixed datasets does not necessarily lead to better model behavior in real-world applications, as it overlooks the breadth, difficulty, and fidelity of data to the underlying problem [ 155 ]. Moreover, the models are often difficult to transfer from one problem to another since they are highly specialized and tailored to specific problems. Furthermore, undervaluing data quality could trigger data cascades [ 200], causing negative effects such as decreased accuracy and persistent biases [ 36]. This can severely hinder the applicability of AI systems, particularly in high-stakes domains.
Źródło: https://arxiv.org/pdf/2303.10158 (str. 4)

Powyższy fragment konfrontuje podejście zorientowane na dane z podejściem skoncentrowanym na modelach, wskazując między innymi na sztywność modeli i ich ograniczone zdolności adaptacyjne do przetwarzania różnych danych, a także na zbyt małe skupienie na jakości danych. Jednym z terminów, który może być nieznany, jest data cascades, co oznacza lawinowe konsekwencje wynikające z użycia niewłaściwego zbioru danych. Model wytrenowany na takich danych początkowo może wydawać się efektywny, jednak z czasem mogą ujawnić się różne niepożądane sytuacje, w których model działa szkodliwie w ważnych aspektach, takich jak na przykład ratowanie życia. 

Dodatkowym problemem jest trudność w naprawieniu takiej sytuacji, ponieważ końcowe problemy wynikają z błędów na wczesnym etapie, a dane, na których model był szkolony, były nieodpowiednie. W związku z takimi sytuacjami zaczęto przywiązywać większą wagę do danych i ich kluczowej roli w procesie. To między innymi przyczyniło się do powstania trendu, w którym znacznie większą uwagę przykłada się do jakości i precyzji danych, znanego jako data-centric approach.

Z kolei o accuracy pisałem przy okazji KPI: https://kamilkondrat.blogspot.com/2024/05/kpi-w-projektach-data-sciencemachine.html . Jeśli chodzi o persistent biases, można to opisać jako pewnego rodzaju znaczące „skrzywienie poznawcze”, jak to sam osobiście nazwę. Na przykład, model może wykazywać skłonność do klasyfikowania obrazów autobusów jako ciężarówek, ponieważ był wytrenowany głównie na różnorodnych obrazach ciężarówek, a dane dotyczące autobusów były niewystarczające. To „skrzywienie” modelu do ocen jest trwałe, co oznacza, że model może kontynuować błędne klasyfikacje, nawet po próbach korekty.

Poniżej dalsza część artykułu. Tym razem, kolejny fragment będzie zawierał między innymi wzmiankę o tym gdzie to GPT-2 w porównaniu do GPT-3 odnotował niewielkie modyfikacje w architekturze sieci neuronowych, a za to skupiono się na zebraniu znacznie większej ilości danych, wysokiej jakości danych, do trenowania modelu:

Consequently, the attention of researchers and practitioners has gradually shifted toward data-centric AI to pursue data excellence [9]. Data-centric AI places a greater emphasis on enhancing the quality and quantity of the data with the model relatively more fixed. While this transition is still ongoing, we have already witnessed several accomplishments that shed light on its benefits. For example, the advancement of large language models is greatly dependent on the use of huge datasets [ 34, 121 , 187 , 188 ]. Compared to GPT-2 [188 ], GPT-3 [ 34] only made minor modifications in the neural architecture while spending efforts collecting a significantly larger high-quality dataset for training. ChatGPT [174 ], a remarkably successful application of GPT-3, adopts a similar neural architecture as GPT-3 and uses a reinforcement learning from human feedback procedure [48] to generate high-quality labeled data for fine-tuning. A new approach, known as prompt engineer-ing [ 146], has seen significant success by focusing solely on tuning data inputs. The benefits of data-centric approaches can also be validated by practitioners [169, 189 , 241 ]. For instance, Landing AI, a computer vision company, observes improved accuracy, reduced development time, and more consistent and scalable methods from the adoption of data-centric approaches [ 169 ]. All these achievements demonstrate the promise of data-centric AI.
Źródło: https://arxiv.org/pdf/2303.10158 (str. 4, 5)

...To niewątpliwie dodaje rację bytu data-centric approach. A teraz, na koniec tego wpisu, fragment który zawiera m.in. upomnienie przez Autorów pracy, że podejście nastawione na dane jak i podejście nastawione na model może istnieć równolegle i wzajemnie się uzupełniać :-) :

It is noteworthy that data-centric AI does not diminish the value of model-centric AI. Instead, these two paradigms are complementarily interwoven in building AI systems. On the one hand, model-centric methods can be used to achieve data-centric AI goals. For example, we can utilize a generation model, such as GAN [ 86 , 283 ] and diffusion model [ 101, 124 , 194 ], to perform data augmentation and generate more high-quality data. On the other hand, data-centric AI could facilitate the improvement of model-centric AI objectives. For instance, the increased availability of augmented data could inspire further advancements in model design. Therefore, in production scenarios, data and models tend to evolve alternatively in a constantly changing environment [183].
Źródło: https://arxiv.org/pdf/2303.10158 (str. 5)

Brak komentarzy:

Prześlij komentarz

Analiza sentymentów - wpisy na mediach społecznościowych (podział danych)

Ten wpis zaczniemy od stworzenia DataFrame z danymi treningowymi train_df = pd.read_csv('train.csv', encoding='ISO-8859-1')....