Losowa próbka pandy

Losowa próbka pandy
Istnieje wiele bibliotek, które zapewnia „Python”. Kiedy omawiamy „pandy”, jest to także biblioteka „Python”. Pomaga nam w różnych dziedzinach, tak jak korzystamy z tej biblioteki w naukach danych, lub możemy również użyć tej biblioteki „pandy” w działaniach uczenia się maszynowego. Pomaga także w zarządzaniu i manipulacji danymi. „Przestrzenia danych” w „Pandy” pozwalają nam umówić się i przechowywać dane w wierszach i kolumnach, a także możemy powiedzieć, że w formularzu tabeli. Możemy wybrać niektóre wiersze jako przykładowe dane z ramki danych. W tym celu wykorzystaliśmy funkcję „próbek ()” „pandy”. Ta funkcja pomaga nam wygenerować dowolny losowy wiersz lub kolumnę z DataFrame. Możemy użyć tej funkcji do uzyskania tylko jednego wiersza lub kolumny jako próbki, lub możemy również ustawić niektóre liczby w tej funkcji, aby uzyskać wiele wierszy jako próbkę. Wyjaśnimy tę metodę „losową próbkę ()” i szczegółowo wyjaśnimy jej pracę w tym samouczku.

Składnia

Ramka danych.próbka (n = wartość, frac = wartość, zamień = false/true, wagi = wartość, losowo_state, oś)

W jego parametrze „N” definiujemy liczbę losowej próbki, którą chcemy uzyskać z DataFrame. Jeśli nie dodamy tutaj żadnego numeru, otrzyma tylko jeden losowy wiersz jako próbka tego konkretnego ramki danych. W parametrze „FRAC” możemy zdefiniować procent wierszy, które chcemy uzyskać; Jeśli ustawym FRAC jako „0.7 ”, wówczas da„ 70%”rzędów ramki danych. Pamiętaj, że nie możemy umieścić parametru „FRAC” z parametrem „N”. Jeśli zdefiniujemy parametr „N”, nie dodamy parametru „FRAC” jednocześnie. Używamy tylko jednego z nich. Następnie mamy parametr „Wymień”, w którym dodajemy „true” lub „fałszywe”. Jeśli ustawym to jako „prawdziwe”, może to dać ten sam rząd więcej niż raz. Możemy również ustawić jeszcze trzy parametry, które są „wagami”, „losowo_state” i „osi”. Teraz używamy tej metody „próbek ()” w kodzie „pandy”.

Przykład 01

Oprogramowanie, których używamy do generowania tych kodów „pandy”, to oprogramowanie „Spyder”. Naszym pierwszym zadaniem podczas wykonywania kodu „pandy” jest import bibliotek. Biblioteka, którą musimy zaimportować, to biblioteka „Pandy”, którą importujemy za pomocą słowa kluczowego, które jest słowem kluczowym „importu”. Ustawiliśmy również „Pandy jako PD” po napisaniu „importu”. Następnym zadaniem jest opracowanie ramki danych, a tutaj konstruujemy „LMN_COMPANY_DF”. Ta konstruowana jest, ponieważ zastosowaliśmy „PD.DataFrame () ”, który pomaga w generowaniu ramki danych w„ Pandy ”.

Wprowadzamy również do niego niektóre kolumny, a te kolumny zawierają również dane. Najpierw wprowadzamy „LMN_PERSON”, który jest pierwszą kolumną tego kompletu danych. Zawiera „Jasper, Milli, Hayes, Easton, Bromley, Diego i Logan”. Następnie „LMN_CODE” jest następną kolumną tutaj i dodamy „LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 i LMN129” w tej kolumnie. „LMN_YEAR” jest tutaj trzecią kolumną, a my wstawiamy „May 2008, luty 2008, czerwca 2009 r., Kwiecień 2009, wrzesień 2010, czerwca 2015 r. I lipiec 2009”. „LMN_SALEUnit” jest wymieniony po „LMN_YEAR”. Zawiera kilka jednostek sprzedaży: „50, 44, 39, 76, 85, 90 i 53”.

Teraz wyświetlamy tę strumień danych za pomocą „print ()”:

Kiedy naciśniemy ikonę „Uruchom” oprogramowania „Spyder”, szybko otrzymujemy dane wyjściowe naszych kodów. Wynik poprzedniego kodu jest podany tutaj, w którym można zobaczyć tylko wyświetloną ramkę danych. Teraz zastosujemy metodę „próbka ()” w tym kodzie, aby uzyskać wiersz przykładowy z tego kompletu danych.

Najpierw dodajemy nazwę DataFrame z tą funkcją „próbka ()”. Tutaj nie dodaliśmy żadnego parametru do tej funkcji. Więc da tylko jeden losowy wiersz tego ramki danych. Drukuje również ten losowy wiersz na terminalu, ponieważ włożyliśmy tę funkcję „próbka ()” do „print ()”.

Rząd, który otrzymujemy po zastosowaniu tej funkcji „próbka ()”, jest renderowany poniżej. Zauważ, że losowo wybiera wiersz jako próbkę tego kompletu danych.

Przykład 02

„Lmn_company_df” jest tutaj, a teraz ustawiamy wartość „n” jako parametr tej funkcji „próbka ()”. Kiedy używamy metody „próbka ()”, dodajemy również do niej „n” i ustawiamy „3” jako wartość „n”. To losowo wybierze trzy rzędy próbki „lmn_company_df”.

Tutaj kompletna ramka danych zawiera siedem wierszy i cztery kolumny. Następnie renderuje trzy losowe rzędy, które otrzymujemy po zastosowaniu funkcji „próbka ()” i ustawieniu jej parametru „N” równego „3”. Zwraca rzędy zgodnie z tą wartością „N”.

Przykład 03

„Vendor_df” jest teraz konstruowany, a kolumna „Vendor_name” jest pierwszą kolumną „Vendor_DF”. Zawiera „Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago i Milli”. Kolumna „Vendor_Country” następuje po tym, która zawiera „Anglia, Ameryka, Londyn, Kanada, Niemcy, Francja, Algieria, Anglia i Niemcy”. Następnie dodaje się „Vendor_Address” i wstaw „XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 i MNB543” do INT.

Następnie mamy kolumnę „Project_code”, która zawiera „P123, P234, P345, P456, P678, P890, P098 i P765”. Ostatnia kolumna nosi nazwę „Sprzedaż”, a także zawiera niektóre rekordy sprzedaży, które to „80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 i 90000”. Teraz drukujemy całe „dostawcę_df” za pomocą „print ()”. Po wyświetleniu „venfor_df” używamy metody „próbka ()” i tym razem ustawiamy tutaj parametr „fRAC” i dodajemy „0.5 ”jako jego wartość. Wybierze 50% wierszy losowo z tego kompletu danych, a także wyświetli je, ponieważ włożyliśmy tę metodę „próbka ()” w metodzie „print ()”.

Rama danych pokazuje wszystkie wiersze i kolumny, a następnie wyświetla połowę lub 50% wierszy. Wybiera te wiersze losowo i wyświetla je na terminalu, ponieważ ustawiamy parametr „FRAC” funkcji „próbka ()” równa „0.5 ”. W tym kodzie możesz również zauważyć, że nie dodaliśmy parametru „N” z tym parametrem „FRAC”.

Przykład 04

W tym kodzie dodajemy dwa parametry w metodzie „próbka ()”, a są to „n” i „zastąpienie”. Najpierw dodajemy „5”, czyli wartość „N”, więc zwróci pięć wierszy, a następnie ustawiamy „false” jako wartość parametru „Wymień”. Kiedy ustawimy tutaj „Fałsz”, nie da to ponownie tego samego wiersza. Tylko renderuje unikalne rzędy i nie duplikuje jednego wiersza.

Oddaje pięć rzędów poniżej, a wszystkie są unikalnymi rzędami. Wybiera te wiersze losowo z tego kompletu danych i wyświetla je w tym wyniku.

Wartość „N” nie jest większa niż liczba wierszy. Jak możesz. Jeśli ustawimy wartość „N” większą niż „9”, zwróci komunikat o błędzie. Tutaj dodajemy „10” jako wartość „N”. Na poniższym obrazie wyświetla to, co się dzieje, gdy wykonujemy ten kod:

Ten komunikat o błędzie jest generowany na terminalu, ponieważ ta ramka danych zawiera tylko dziewięć wierszy, a wartość „N” jest większa niż liczba wierszy DataFrame.

Wniosek

W tym samouczku dotyczy „losowej próbki pandy”. Wyjaśniliśmy tę koncepcję dogłębnie w tym samouczku. Wyjaśniliśmy jego składnię, a także zastosowaliśmy metodę „próbka ()” w naszym kodzie „Pandy”. Zrobiliśmy przykłady, umieszczając różne parametry w tej metodzie „próbka ()” i szczegółowo omówiliśmy wszystkie parametry tej metody „próbka ()”. Pokazaliśmy, w jaki sposób zwraca rzędy ramki danych jako próbkę, wybierając je losowo po zastosowaniu tej funkcji „próbka ()”. Omówiliśmy również komunikat o błędzie w tym samouczku, wykorzystując tę ​​funkcję i wyjaśniliśmy, dlaczego ten komunikat o błędzie się pojawia.