Regex Pandy

Regex Pandy

Możemy utworzyć serię lub ramkę danych w „Pandy” i wykonywać wiele innych zadań, wykorzystując funkcje lub metody „pand”. Jak wiemy, przechowujemy wiele danych w „Pandy” i serie danych. Możemy również wyszukiwać wzorce w pandy, wykorzystując Regex. Aby zidentyfikować wzór w ciągu w serii lub w ramce danych, dostępnych jest wiele funkcji „pandy”, które Regex akceptuje. Możemy łatwo wyodrębnić, filtrować lub wyczyścić dane, stosując różne metody, które pozwala nam Regex. Wykorzystamy różne metody „pandy”, które Regex pozwala nam używać w kodzie „Pandy” i szczegółowo wyjaśnimy „Regex” w „Pandy” w tym artykule.

Przykład 1:

Teraz wykonujemy kody „pandy” w narzędziu „Spyder”. Importujemy tutaj bibliotekę „Pandy” jako „PD”, ponieważ pracujemy z biblioteką „Pandy”. Następnie opracowujemy tutaj „aktualizacja_df”, która jest ramką danych. Metoda „Pandy” „DataFrame ()” pomaga w tworzeniu DataFrame. Następnie umieszczamy „dykt” i dodajemy nazwy w „nazwie”, które to „Zane, Santiago, Silas, Roman, Milo, Samuel i Hayes”. Następnie mamy „opiekunów”, w których umieszczamy „Leif, Jasper, Julian, Laken, Jude, Ezra i Briar”. „Znaki” są następne, które zawiera „89, 23, 33, 99, 56, 90 i 66”. Następnie „podmioty” zawierają „biologię, zoologię, chemię, etykę, botanikę, GK i leśnictwo”.

Renderujemy również „aktualizacja_df” za pomocą metody „print ()”. Najpierw wyświetlamy tę ramkę danych, a następnie idziemy naprzód.

Jeśli pracujesz nad aplikacją „Spyder”, musisz nacisnąć klawisze „Shift+Enter” lub ikonę „Uruchom” tej aplikacji. Po wykonaniu tego wyjście jest pokazane na terminalu. Tutaj po prostu otrzymujemy ramkę danych, którą wcześniej wygenerowaliśmy. Rama danych jest również pokazana następująco, która pojawia się na terminalu po wykonaniu kodów.

Teraz używamy „Str.Metoda match () ”tutaj. To „str.Metoda match () ”pomaga w filtrowaniu wierszy w ramce danych„ Pandy ”. Najpierw umieszczamy zmienną „Regex1” i dostosowujemy „S.*" Tam. Następnie wykorzystujemy „STR.mecz()". W tym celu najpierw dodajemy nazwę DataFrame, a następnie umieszczamy kwadratowy wspornik. Wewnątrz tego kwadratowego wspornika umieszczamy nazwę DataFrame „Update_df” wraz z nazwą kolumny „Nazwa”. Następnie umieściliśmy „Str.match () ”, w którym dodajemy nazwę zmiennej, którą wcześniej zainicjowaliśmy.

Teraz sprawdza wszystkie wartości obecne w kolumnie „Nazwa” i filtruje te wiersze, w których nazwa zaczyna się od „S”. Następnie zainicjujemy zmienną „Regex2”. Tym razem inicjujemy to za pomocą „J.*”. Używamy tej zmiennej w „Str.MATH () ”Funkcja wyodrębnienia wierszy. Stosujemy „Str.Method Match () ”w kolumnie„ Guardians ”i wyodrębnia te rzędy, w których nazwy Guardian zaczynają się od„ J ”. Dodajemy obie metody w „wydruku”, więc oba wyniki są wyświetlane na terminalu.

Kolumna „nazwa”, w której nazwa zaczyna się od „S”, jest wyodrębniona z DataFrame i jest wyświetlana. Następnie rzędy są filtrowane tam, gdzie nazwy Guardian zaczynają się od „J”, a także są renderowane w wyniku. Filtrujemy te wiersze, używając „STR.Metoda match () ”.

Przykład 2:

Tworzymy tutaj „częstotliwość_df”. Ta „częstotliwość_df” zawiera „rozmiar, fre_1, fre_2, fre_3, fre_4 i fre_5”. W „Rozmiar” dodajemy „ff_1, ff_2, ff_3, ff_4, ff_5, ff_6 i ff_7”. Następnie, w „Fre_1”, umieściliśmy w nim „21 USD, 22 USD, 24 USD, 25 USD, 26 USD i 27 USD”. Teraz mamy „Fre_2”, w którym wstawiamy „31 USD, 32 USD, 33 USD, 34 USD, 35 USD, 36 USD i 37 USD”. Dodajemy również „21 USD, 42 USD, 43 USD, 44 USD, 45 USD, 46 USD i 47 USD” w „FRE_3”. Teraz mamy „Fre_4” i umieszczamy w nim „51 USD, 52 USD, 23 USD, 54 USD, 55 USD i 57 USD”. Następnie umieściliśmy „21 USD, 81 USD, 82 USD, 83 USD, 84 USD, 85 USD i 86 USD” w „FRE_5”.

Teraz dodajemy „print ()”, w którym umieszczamy „częstotliwość_df”. Używamy tutaj metody „Wymień ()”, aby zastąpić dane z ramki danych. Najpierw umieszczamy zmienną „częstotliwość_df1”, która przechowuje dane, które otrzymujemy po zastosowaniu metody „zamień ()”, ponieważ używamy tutaj tej zmiennej „częstotliwości_df1” i inicjuje ją z metodą „zamień ()”. Wspominamy o „częstotliwości_df”, która jest nazwą DataFrame, a następnie umieszczamy metodę „Wymień ()” w nazwę TEFFrame. Dodajemy „ff_” w parametrze „to_replace” tej funkcji. Dostosowujemy wartość, która jest „fre_” w drugim parametrze, który jest parametrem „wartości”.

Następnie dodajemy „Regex” w tej metodzie, która jest trzecim parametrem. Dostosowujemy „prawdziwe”. Teraz przekazujemy „częstotliwość_df1” do „print ()”. Dane, które otrzymujemy po wymianie, są wyświetlane na terminalu.

Ten wynik pokazuje pierwszą ramkę danych o wartości „FF_”, która jest obecna w kolumnie „Rozmiar”. Wszystkie wartości „FF_” tej formy danych są zastąpione „Fre_”. Jest to również pokazane w drugiej ramce danych, która jest zaktualizowaną ramką danych, którą otrzymujemy po zastosowaniu funkcji „Wymień ()”.

Przykład 3:

Teraz tworzymy serię w tym przykładzie za pomocą „PD.Seria () ”i dodaj w IT„ France, Kolumbia, Kanada, Chiny, Puerto Rico, Kanada i Los Angeles. Zapisujemy tę serię w zmiennej „my_series” i dodajemy tę zmienną w „print ()”. Teraz stosujemy „STR.metoda FINDALL () ”w tej serii, aby znaleźć i wyodrębnić ciąg z serii. Umieszczamy „ITM [0]”. Następnie używamy „for”, a następnie piszemy „ITM” po „for”. Następnie umieść słowo kluczowe „w” i nazwę serii wraz z „Str.metoda FINDALL () ”. Działa to jako pętla i sprawdza wszystkie wartości serii.

W „str.metoda FINDALL () ”, umieszczamy„ CC ”, która sprawdza dane z serii i zwraca te wartość, która zaczyna się od litery„ C ”lub„ C ”. Zainicjujemy zmienną „dane” z tym „STR.metoda FINDALL () ”. Wartości, które otrzymujemy po zastosowaniu „STR.findall () ”na„ my_series ”jest zapisywane w zmiennej„ danych ”. Następnie wykorzystaliśmy „print ()”, w którym dodaje się zmienna „dane”. Wartości, które otrzymujemy po użyciu „STR.findall () ”do serii jest wyświetlany.

Pełna seria jest wyświetlana tutaj. Wartości serii, które zaczynają się od postaci „C” lub „C”, są wyodrębnione z tej serii i wyświetlane następująco:

Przykład 4:

W tym przykładzie importujemy „pandy”, a także „re”. Po zaimportowaniu obu generujemy ramkę danych o nazwie „data_dataframe”. W tym ramie danych dodane kolumny to „kolumna_1, kolumna_2, kolumna_3 i kolumna_4”. „Kolumna_1” zawiera „15, 11, 19, 10, 18, 19, 20, 21”. „Kolumna_2” zawiera „a, b c, d, e, f, g i h”. Następnie mamy „kolumn_3” i dodajemy również dane, które są „a, b, c, d, e, f, g i h”. Ostatnia kolumna, „kolumna_4” zawiera „ABC (Capital), ABB, AAA (Capital), Yhn, ABC, PLM (Capital), Qaz i YGV (Capital)”.

Następnie renderujemy ten „data_dataframe”. Teraz umieszczamy słowo kluczowe „def” i definiujemy funkcję „clean_names ()”, w której dodajemy „kolumn_4”. Następnie używamy poniższej „jeśli”, w której używamy metody „Search ()” „re” i umieszczamy „(.*”Jako pierwszy parametr i„ kolumna_4 ”jako drugi parametr. Wyszuwa dane „(” w danych „kolumn_4”.

Następnie umieszczamy „nową” zmienną i inicjujemy ją tą samą metodą, która jest „re.metoda wyszukiwania () ”i przejdź te same parametry. Do tej metody dodamy również „start ()”. Następnie mamy słowo kluczowe „powrót”, w którym otrzymujemy wartości przechowywane w „nowej” zmiennej i zwracamy je tutaj. Ponadto dodajemy „else”. Następnie dodajemy nowy „kolumna_4” i dodajemy funkcję „Clean_names” z tym „kolumn_4”. Usuwa wszystkie nazwy, które są obecne w „(” wspornika w „kolumnie_4”. Następnie ponownie używamy „wydruku”.

W pierwszej ramce danych kolumna_4 zawiera nazwy obecne w nawiasach. W poniższej ramce danych nazwy, które są dodawane w nawiasach, są usuwane i pokazano tylko wartości „kolumn_4”:

Wniosek

Napisaliśmy ten artykuł, aby szczegółowo wyjaśnić koncepcję „Pandy Regex”. Omówiliśmy, że „Regex” pozwala nam wykorzystać wiele funkcji do filtrowania danych z DataFrame lub serii w „Pandy”. Zastosowaliśmy „STR.METH METH () ”i„ zamiennik () ”metody danych„ pand ”. Zastosowaliśmy również „STR.metoda FINDALL () ”w serii w naszych kodach. Zaimportowaliśmy pakiet „RE” w ostatnim przykładzie i wykorzystaliśmy jego metodę, która jest „re”.wyszukiwanie danych w tym samouczku.