Pandas Shuffle

Pandas Shuffle
„Kiedy musimy zmienić zmianę danych, moduł Pythona Pythona oferuje nam kilka technik tasowania swoich wierszy. Dane są losowo przetasowane przy użyciu metody „próbka ()” przy użyciu jej parametru „FARC = 1”. Rzędy DataFrame można przetasować bez zmiany kolumny indeksu za pomocą „RESET_INDEX (Drop = True)”. Aby utworzyć świeżą ramkę danych z resetowaniem indeksu, możemy użyć funkcji „Reset _Index ()”. Jest to przydatne, jeśli indeks musi być traktowany jako kolumna lub jeśli musi zostać zresetowany do wartości domyślnej przed następującym procesem."

Składnia do przetasowania pandasframe

Składnia do tasowania pandasframe i resetowania indeksu

Przykład 1: Paskowanie rzędów ramki danych za pomocą metody próbek ()

W tej ilustracji używamy funkcji „próbka ()” do pobierania losowych elementów ze osi obiektu. Możemy przesyłać rzędy naszej ramki danych za pomocą funkcji „próbka ()” do „tasowania” wierszy.

Zacznijmy więc od naszego pierwszego przykładu. Aby wdrożyć nasz kod, używamy tutaj narzędzia „Spyder”. Pierwszym krokiem jest zaimportowanie biblioteki pandy jako „PD”. Teraz tworzymy ramkę danych po importowaniu biblioteki. Tytuł DataFrame w tym kodzie mamy „Student”. Ten „Student” ma trzy kolumny „Nazwa”, „Marks” i „Uwagi”. Istnieją wartości przechowywane w każdej z tych trzech kolumn. Nazwiska kilku uczniów to „Thomas”, „Enna”, „Ponting”, „Watson” i „Emma” w kolumnie „Nazwa”. W kolumnie „Marks” mamy znaki studenta „469”, „202”, „430”, „190” i „398”. Trzecia kolumna „Uwagi” zawiera listę komentarzy, albo „Pass” lub „Fail”.

Aby wygenerować tę ramkę danych, używamy „PD. ramka danych". W tej chwili na ekranie jest wystawiana na ekranie za pomocą funkcji „print ()”.

Teraz, gdy dotarliśmy do kluczowej części kodu, musimy utrudniać rzędy naszej strumienia danych. W szuflowaniu algorytmy miksowania danych mogą potencjalnie przechowywać logiczne łącza między kolumnami, jednocześnie przestawiając dane. Tasuje dane z zestawu danych w losowym atrybucie. Tutaj używamy metody „próbka ()” z jej parametrem „fRAC = 1”. Ten „frac = 1” służy do tasowania kolejności wiersza i służy do pobierania wszystkich wartości elementów danych po tasowaniu.

Ta metoda Sampling () będzie tasować wszystkie wiersze DataFrame i będzie wyglądać jako nowa pianka DataFrame. Teraz wyświetlamy od raz kolejny po przetasowaniu wiersza za pomocą funkcji „print ()”.

Możesz zobaczyć dane wyjściowe programu na ekranie po uruchomieniu kodu, klikając plik Uruchom w narzędziu. W naszym obrazie wyjściowym widoczne są dwie ramy danych. Pierwsza ramka danych jest tworzona przez dodanie do niej kolumn i wartości, a druga ramka danych jest wyświetlana po przetasowaniu wierszy za pomocą metody „próbka ()” z jej parametrem „FRAC = 1”.

Jeśli porównamy pierwsze i drugie ramki danych, oczywiste jest, że rzędy w drugiej ramce danych są uporządkowane. Ich indeks również został potrącany. Pierwszy indeks DataFrame rozpoczyna się od „0” i kończy na „4”, a indeks drugiej DataFrame jest przełożony na „2”, „4”, „0”, „3” i „1”.

Przykład 2: Paskowanie wierszy ramki danych bez wprowadzania żadnych zmian w kolumnie indeksu

W tym przypadku wiersze DataFrame są przetasowane, ale indeks DataFrame nie zmienia się. Indeks powyżej rzędów został również tasowany w poprzednim przykładzie, jak widać, ale ponieważ używamy „indeksu reset (upuść = true)”, indeks nie zostanie poddany zmianie.

Najpierw zacznijmy nasz kod; Zaimportowaliśmy bibliotekę pandy jako „PD”, następnym krokiem jest skonstruowanie ramki danych. Rama danych jest określana jako „dane” w nazwie. Istnieją trzy kolumny w tym „Nazwa”, „Marks” i „Temat”. Wszystkie trzy kolumny zawierają wartości w każdym z nich. W kolumnie „Nazwa” mamy kilka nazwisk studentów „Noah”, „Pitbul”, „Jack”, „Arthur” i „George”. Druga kolumna, „Marks”, zawiera listę znaków, która obejmuje „460”, „304”, „431”, „192” i „398”, aw trzeciej kolumnie mamy „Python”, ” Java ”,„ Oop ”,„ PF ”i„ Rachunek ”. Teraz „PD.DataFrame ”jest używany do tworzenia ramki danych i do wyświetlania DataFrame, używamy funkcji„ print () ”.

Aby utrzymać rzędy ramki danych, używamy teraz metody „próbka ()” z parametrem fRAC = 1; Jednak w tym przypadku używamy również „Reset indeks (upuść = true)”, który nie będzie tasował indeksu, który tylko tasuje rzędy DataFrame. Indeks można zresetować do domyślnego „0”, „1”, „2”, „3”, itp. indeksy za pomocą metody RESET_INDEX (). Jeśli chcesz unikać uprzednio indeksów w kolumnie „indeks” domyślnie, użyj argumentu upuść. Teraz ponownie wyświetlamy ramkę danych po przetasowaniu wierszy za pomocą funkcji „print ()”.

W tym obrazie wyjściowym wyświetlane są dwie ramy danych, jak widać. Korzystając z resetowania argumentu „indeks (upuść = true)” z metodą „próbka ()”, widzimy, że wiersze drugiej ramki danych są tasowane, ale jego indeksy nie są zmieniane; Jeśli jednak spojrzymy na poprzedni przykład, zobaczymy, że indeks został również zmieniony, ponieważ nie użyto parametru „Resetuj indeks (upuść = true)”.

Przykład 3: Zmiana kolejności wiersza za pomocą permutacji Numpy za pomocą metody ILOC []

Korzystając z „Numpy Permuutation” i techniki „ILOC []”, w tym przykładzie przestawiamy ramkę danych. Metoda „permutacji” wykorzystuje losowe próbki z sekwencji permutacji, aby zapewnić nam sekwencję i zwraca sekwencję. Jeśli Z jest macierzą wielowymiarową, jest tasowana pierwszym indeksem.

Przed wykonaniem kodu musimy zaimportować dwie biblioteki „pand jako„ PD ”i Numpy jako„ NP ”. Następnym jest utworzenie ramki danych o nazwie „Dane”. W tej formie danych mamy dwie kolumny. „Samochód” to nazwa pierwszej kolumny, a „model” to druga kolumna. Istnieją pewne wartości wymienione dla tych dwóch kolumn. W kolumnie „Nazwa” mamy „Suzuki”, „Ford”, „Toyota”, „Mercedes” i „Honda” oraz wartości kolumny „2011”, „2008”, „2019”, „2019” oraz „2017”. Ta oprawa danych zostanie teraz wygenerowana przez „PD.ramka danych".

Tutaj wykorzystujemy technikę „ILOC []” z metodą „Permuutation ()” i parametrem indeksu, co sprawia, że ​​bardzo łatwo jest utrudniać rzędy DataFrame. Możemy użyć metody „ILOC []” do wyboru charakterystycznej kolumny lub wiersza z danego zestawu danych. Wykorzystując wartości indeksu, możemy szybko uzyskać dowolną wartość określoną z kolumny lub wiersza za pomocą metody „ILOC []”. Ponieważ używamy parametru „RESET_INDEX (Drop = True)”, indeks DataFrame nie zmieni się. Użyjmy więc funkcji „print ()”, aby wyświetlić naszą ramkę danych po zmianie wierszy.

W wyjściu wyświetlono dwa zestawy danych, z których jednym był oryginalny zestaw danych, a drugi tasowany zestaw danych. Tutaj widzimy, że wiersze w drugiej ramce danych zostały potrząsane, a indeks się nie zmienił. Pierwszy indeks DataFrame zaczyna się od „0”, podczas gdy indeks drugiego DataFrame rozpoczyna się od „0”, ale wiersze są zmieniane.

Wniosek

W pandy istnieje wiele metod reprezowania danych w rzędach i kolumnach DataFrame. W tym artykule wykorzystaliśmy kilka prostych metod przetasowania wierszy danych danych. Pokręciliśmy wiersz i odzyskaliśmy wszystkie rzędy ramki danych za pomocą funkcji „próbka ()” z parametrem „farec = true i metodą„ permutacji ”z ILOC []. „RESET_INDEX (Drop = True)” jest używany, gdy musimy zmienić wiersze, ale nie wskaźnik DataFrame. Te strategie panda są proste i uważamy, że wdrażając je, twoje zadanie będzie łatwo zarządzane.