SKN Data Science Management SGH
18/04/2024
Być normalnym? Co to znaczy❓❓❓ Nie wiemy, ale wiemy co znaczy rozkład normalny!
W statystyce, "normalność rozkładu" odnosi się do charakterystyki rozkładu danych, które przypominają kształt tzw. rozkładu normalnego, potocznie znane jako krzywa dzwonowa. Ten rodzaj rozkładu jest powszechnie spotykany w naturze i jest kluczowy dla wielu metod statystycznych.📈👀
Główne cechy normalności rozkładu obejmują:
Symetria: Rozkład normalny jest symetryczny względem środka, co oznacza, że jego lewa i prawa strona są lustrzanymi odbiciami.
Jednostajność: Dane są równomiernie rozłożone wokół środka rozkładu, tworząc charakterystyczny kształt dzwonu.
Punkty odstające: W normalnym rozkładzie, punkty odstające są rzadkie. Większość danych skupia się wokół średniej, a odchylenie standardowe określa, jak bardzo wartości różnią się od tej średniej.
średnia i mediana są sobie równe; obie miary zlokalizowane są w środku rozkładu
~68% danych znajduje się w przedziale do 1 odchylenia standardowego od średniej
~95% danych znajduje się w przedziale do 2 odchyleń standardowych od średniej
~99,7% danych znajduje się w przedziale do 3 odchyleń standardowych od średniej
Normalność rozkładu jest kluczowym założeniem wielu testów statystycznych i procedur analizy danych. Umożliwia to stosowanie metod opartych na własnościach rozkładu normalnego, co pozwala na dokładniejsze wnioskowanie na temat populacji na podstawie próby danych.📈📈
W praktyce, normalność rozkładu danych często jest sprawdzana za pomocą różnych testów statystycznych, takich jak test Kołmogorowa-Smirnowa czy test Shapiro-Wilka. Jednak nawet gdy dane nie są idealnie normalne, istnieją techniki statystyczne, które mogą być stosowane z pewnymi zastrzeżeniami, a także są metody transformacji danych, które mogą pomóc przybliżyć rozkład do normalności.
Pamiętajmy jednak, że normalność rozkładu jest jednym z wielu aspektów analizy danych, a jej brak nie zawsze oznacza błędność analizy. Ważne jest, aby stosować odpowiednie metody statystyczne, które uwzględniają charakterystykę danych i cel badania.
14/03/2024
Dziś wchodzimy trochę głębiej, zaczynamy omawianie bibliotek, najlepsze na początek, czyli Pandas! 🐼🐼🐼
Pandas to najpopularniejsza biblioteka oprogramowania do manipulacji i analizy danych dla języka programowania Python. Jest też bez wątpienia jedną z najbardziej klasycznych i wyjątkowych bibliotek w dziedzinie data science. Oprócz pythona, do napisania jej kodu źródłowego wykorzystano także język C. Sama nazwa pochodzi z ekonometrii od “Panel Data”. Istnieje wiele powodów, dla których pandas jest uważany za niezbędny element w analizie danych:
Łatwość w obsłudze danych: Pandas zapewnia intuicyjne i łatwe w użyciu struktury danych, przede wszystkim takie jak DataFrame, które są bardzo podobne do arkuszy kalkulacyjnych (jak w Excelu). Pozwala to na szybkie wczytywanie, przetwarzanie i manipulację danymi bez potrzeby korzystania z bardziej skomplikowanych operacji. 📊🚀
Wszechstronność: Biblioteka pandas oferuje szeroki zakres funkcji do manipulacji danych, w tym operacje filtrowania, grupowania, sortowania, łączenia, czy też obliczania statystyk opisowych. Dzięki temu badacze danych mogą wygodnie przeprowadzać różnorodne analizy, bez konieczności korzystania z wielu różnych narzędzi. 🛠️
Obsługa brakujących danych: Pandas posiada wbudowane metody do radzenia sobie z brakującymi danymi, które w świecie data science się zdarzają. Posiada możliwość wygodnego usuwania, uzupełniania lub interpolowania brakujących wartości pozwala na zachowanie spójności i dokładności analizy. 🔄
Wsparcie dla różnych formatów danych: Pandas umożliwia wczytywanie i zapisywanie danych w wielu popularnych formatach, takich jak CSV, Excel, SQL, JSON, czy też HDF5. Dzięki temu użytkownicy mogą łatwo pracować z danymi z różnych źródeł i w różnych formatach. 📁
Łączenie z innymi bibliotekami: Pandas integruje się dobrze z innymi potężnymi bibliotekami Pythona, takimi jak NumPy, Matplotlib czy też Scikit-learn. Dzięki temu użytkownicy mogą wykorzystać pełnię możliwości tych bibliotek wraz z funkcjonalnościami pandas, tworząc potężne narzędzia do analizy danych i modelowania. 📈
Aktywna społeczność i obszerna dokumentacja: Pandas posiada ogromną społeczność użytkowników oraz dobrze udokumentowane API. To oznacza, że nowi użytkownicy mogą łatwo znaleźć wsparcie i porady, a także szybko się nauczyć korzystania z biblioteki. 🌐
W świecie data science i środowisku pythona Pandas jest absolutnym GOATem i członkiem kolekcji klasyki każdego szanującego się data scientista bez której ciężko byłoby sobie wyobrazić funkcjonowanie w danych, jakie znamy. 🚀
29/02/2024
A dzisiaj trochę o sieciach GAN, co to takiego❓❓
Sieci GAN (Generative Adversarial Networks) to rodzaj modelu uczenia maszynowego, który składa się z dwóch głównych komponentów: generatora i dyskryminatora. 👀
Co robią poszczególne komponenty❓
Generator: Jest to sieć neuronowa, która generuje nowe przykłady danych. Na przykład, jeśli pracujemy z obrazami, generator próbuje stworzyć obrazy, które wyglądają jak prawdziwe. Na początku, gdy model jest niewytrenowany, generowane obrazy mogą być losowe i nieprzekonujące. Jednak w miarę treningu, generator staje się coraz lepszy w produkowaniu realistycznych danych. 💪
Dyskryminator: Jest to również sieć neuronowa, ale działa jako klasyfikator binarny. Jego zadaniem jest odróżnianie prawdziwych danych od tych wygenerowanych przez generator. Dla przykładu obrazów, dyskryminator stara się rozróżniać prawdziwe obrazy od tych wygenerowanych przez generator. 🧐🧐
Trening sieci GAN polega na iteracyjnej grze pomiędzy generatorem a dyskryminatorem:
Generator próbuje produkować dane, które są jak najbardziej zbliżone do prawdziwych, aby oszukać dyskryminatora.
Dyskryminator stara się nauczyć odróżniać prawdziwe dane od tych wygenerowanych przez generator.
Te dwie sieci są trenowane jednocześnie, a ich zdolności ewoluują w trakcie treningu.
Istotą sieci GAN jest to, że obie sieci są ze sobą sprzeczne (stąd nazwa "adwersarialne"). Generator stara się oszukać dyskryminatora, podczas gdy dyskryminator stara się wykryć fałszywe dane generowane przez generator. 📈
W rezultacie, podczas gdy generator stara się produkować coraz lepsze podróbki danych, dyskryminator staje się coraz lepszy w ich wykrywaniu. Dzięki tej dynamicznej interakcji, obie sieci są w stanie osiągnąć wysoki poziom jakości generowanych danych. Gra kończy się w momencie, gdy dyskryminator nie jest w stanie odróżnić prawdziwego obrazu od wygenerowanej kopii przez generator. 😎
Odpowiednio wytrenowane generatory mogą działać bez konieczności istnienia dyskryminatora. Jedną z najpopularniejszych aplikacji wykorzystujących sieci GAN jest Faceapp, gdzie mogliśmy bez problemu dorobić sobie wąsy, brodę, lub bujne afro.🤓🤠
Kliknij tutaj, aby odebrać Sponsorowane Ogłoszenie.
Skontaktuj się z firmę
Strona Internetowa
Adres
Warsaw