Pandas 1.0 membawa perubahan besar

Pandas, pustaka analisis data untuk Python, akhirnya mencapai kandidat rilis 1.0. Pandas 1.0 menghapus banyak fungsi yang tidak digunakan lagi dan membutuhkan Python 3.6 atau yang lebih baik. 

Panda dibuat untuk bekerja dengan mudah dengan data dalam format terstruktur, seperti tabel, matriks, dan data deret waktu. Panda melampaui banyak fungsi kerangka data R, dan bekerja dengan baik dengan pustaka komputasi ilmiah lainnya di dunia Python.

Dengan Pandas 1.0, pembuat Pandas memperkenalkan banyak perubahan penting yang telah dikerjakan selama beberapa waktu sekarang. Berikut ini adalah ikhtisar yang paling penting, dan cara menanganinya ke depan.

Panda membutuhkan Python 3.6.1 atau lebih tinggi

Perubahan terbesar di Pandas 1.0 adalah menjatuhkan dukungan untuk semua versi Python sebelum Python 3.6.1. Pandas menghentikan dukungan untuk Python 2 dan berkomitmen secara eksklusif untuk Python 3 pada 2019, jadi ini sebagian besar merupakan penyempurnaan dari kebijakan yang ada.

Proyek ini juga memiliki kebijakan dukungan baru untuk versi Panda di masa mendatang. Setiap penurunan dukungan untuk versi Python akan diluncurkan di versi baru utama dari Pandas (2.0, 3.0, dll.). Rilis minor akan menghentikan fitur, tetapi tidak menghapusnya; rilis utama akan menghapus fitur.

Nilai NA baru panda

Versi Panda sebelumnya menggunakan tipe berbeda untuk merepresentasikan data yang hilang, bergantung pada tipe penampung - satu untuk tipe datetime, satu untuk objek, dll. Semua ini digabungkan menjadi satu tipe data hilang yang disebut NA. Saat ini, dukungan untuk NA terbatas pada beberapa jenis objek, dan itu dianggap eksperimental, jadi tidak boleh digunakan dalam produksi. 

Ketidakcocokan API

Karena jumlah perubahan pada Pandas 1.0, beberapa API Pandas sekarang tidak kompatibel dengan versi sebelumnya. Ini termasuk perubahan perilaku dari banyak elemen umum:

  • The DataFrame Tipe
  • pandas.array
  • arrays.IntegerArray

Banyak dari ketidaksesuaian ini akan memunculkan peringatan, tetapi yang terbaik adalah menguji skrip Pandas yang ada secara berdampingan dengan rekan Pandas 1.0 mereka untuk melihat bagaimana mereka beroperasi.

Fitur yang tidak digunakan lagi di Pandas 1.0

Dokumentasi Pandas mencantumkan semua fitur yang akan dihentikan tetapi tidak dihapus di Pandas 1.0. Beberapa di antaranya hanya diubah namanya atau diatur ulang, seperti modul pengujian, sementara yang lain mengubah penggunaan parameter fungsi tertentu. Dalam beberapa kasus, seperti with Series.item()dan Index.item(), fitur telah diselamatkan dari penghentian dan akan terus tersedia.

Jika Anda menggunakan versi Panda yang lebih lama dari 0,25, pembuat Pandas menyarankan untuk bermigrasi ke Pandas 0,25  terlebih dahulu , memastikan semua kode yang bergantung pada Panda berperilaku seperti yang diharapkan,  kemudian bermigrasi ke Pandas 1.0. Ini untuk memastikan bahwa kode apa pun yang menggunakan fungsionalitas yang sudah usang akan ditandai.

Fitur dihapus di Pandas 1.0

Beberapa fitur utama Pandas telah dihapus seluruhnya di Pandas 1.0:

  • SparseSeriesdan SparseDataFrame. Gunakan Seriesatau DataFramedengan sparsevaluesopsi sebagai gantinya.
  • Registrasi unit Matplotlib. Ini untuk mencegah Matplotlib terpengaruh saat Anda mengimpor Pandas.
  • Banyak fitur lain yang sebelumnya tidak digunakan lagi.

Sekali lagi, ini adalah alasan lain untuk menguji kandidat rilis Pandas 1.0 secara berdampingan dengan penginstalan Pandas yang ada, dan memastikan skrip Anda berfungsi sebagaimana mestinya.

Menginstal Pandas 1.0

Pandas 1.0 dapat diinstal langsung dalam Python melalui pengelola paket Pip, dengan mengetik pip install pandas. Pandas 1.0 juga tersedia sebagai bagian dari distribusi Anaconda Python untuk komputasi ilmiah.

Dalam semua kasus, yang terbaik adalah menginstal Pandas di lingkungan virtual, terutama jika Anda ingin menjalankan pengujian skrip Pandas 1.0 secara berdampingan dengan versi sebelumnya.