Mengubah Tabel PDF ke Excel dengan Python – Awalnya adalah keresahan pribadi ketika balik dari kuliah. Dulu itu, reviu RKA-K/L masih pakai aplikasi yang username dan password-nya DIPA. Saya bisa dengan mudah mengkonversi ADK ke format Excel dan dari situ saya bisa melalukan pekerjaan dengan mudah. Saya ada pengalaman cukup buruk soal itu, pernah dituding salah tapi tertolong oleh data bahwa pada proses reviu RKA-K/L saya diberikan data yang berbeda. Show Begitu balik dan aplikasinya jadi SAKTI, malah adanya cuma PDF. Saya lalu mengalami kesusahan karena note di PDF itu bagaimanapun sulit untuk direkap semudah pakai Excel dengan berbagai fiturnya. Saya kemudian mencari-cari berbagai kombinasi. Pada akhirnya saya mencampurkan converter free yang ada di internet dengan teknik yang akan saya kisahkan pada konten ini. Sekadar ingin memudahkan diri. Kebetulan, pas kuliah kemarin sempat mempaparkan diri pada Python walaupun kalau cari coding selalu dari internet. Heuheu. Sesuai dengan sumbernya, kode-kode yang digunakan memanfaatkan Google Colab. Saya juga punya Jupyter Notebook tapi sudah dicoba ke situ, script ini gagal. Hehe. Mari kita mulai… Intinya, library yang digunakan adalah Tabula. Dengan Tabula, tabel di dalam file PDF akan dikonversi ke Pandas Dataframes. Nah, Tabula ini bukan bagian dari library Google Colab, jadi kita perlu masukkan dulu. !pip Ketika Tabula sudah ter-install, maka kita dapat meng-import 2 library yang juga kita butuhkan: i Sebagai gambaran, saya gunakan hasil penerimaan CPNS dari Badan Informasi Geospasial (BIG). Kan lagi musim tuh tes CPNS dan sebenarnya data-datanya gurih untuk diolah bolak-balik. Karena pakai Google Colab, data yang sudah saya unduh tadi, kemudian saya unggah ke Google Colab tepatnya di logo folder sebelah kiri layar.
Kalau diterjemahkan, bagian awal tentu saja nama file-nya. Untuk command selanjutnya adalah kita hanya memproses tabel yang dikenali di dalam PDF. True berarti kita mau semua tabel di dalam file akan diproses. Sedangkan untuk “UTF-8” digunakan karena dia adalah tipe encoding dari Pandas, library yang kita gunakan untuk memproses data. Terakhir, kita menyimpan kode sebagai instance “dfs” sehingga kita dapat melakukan manipluasi lebih lanjut.
Sesudah itu, kita perlu menambahkan library lain yakni Xlsxwriter.
Nah, dengan library tersebut, kita buat file Excel-nya:
Writer sendiri memungkinkan kita untuk menyimpan setiap tabel atau dataframe sebagai tab sendiri dalam file Excel. Kadang jadi kosong ya namanya juga PDF, salah satu script yang bisa digunakan untuk mengantisipasinya adalah:
Script di atas kemudian dipungkasi dengan perintah menyimpan:
Kita bisa refresh file di sebelah kiri layar untuk mendapati file hasil export-nya muncul. Sejujurnya masih agak berantakan karena 1 halaman jadi 1 sheet. Ini PR lagi dalam merapikannya, tapi hasil yang diperoleh lumayan untuk melengkapi hasil dari converter. Converter ini ada masalah lain karena biasanya kalau mau convert banyak halaman agak sulit dan harus berbayar, sementara saya kan miskin. Pustaka Pemrograman Spreadsheet Excel yang mampu membangun aplikasi lintas platform dengan kemampuan untuk menghasilkan, memodifikasi, mengonversi, merender, dan mencetak file PDF. Python API tidak hanya mengonversi antar format spreadsheet, tetapi juga dapat merender file Excel sebagai gambar, PDF, HTML, ODS, dan lainnya, sehingga menjadikannya pilihan yang sempurna untuk bertukar dokumen dalam format standar industri.This tutorial demonstrates using Visual Studio Code and the Microsoft Python extension with common data science libraries to explore a basic data science scenario. Specifically, using passenger data from the Titanic, you will learn how to set up a data science environment, import and clean data, create a machine learning model for predicting survival on the Titanic, and evaluate the accuracy of the generated model. PrerequisitesThe following installations are required for the completion of this tutorial. Make sure to install them if you haven't already.
Set up a data science environmentVisual Studio Code and the Python extension provide a great editor for data science scenarios. With native support for Jupyter notebooks combined with Anaconda, it's easy to get started. In this section, you will create a workspace for the tutorial, create an Anaconda environment with the data science modules needed for the tutorial, and create a Jupyter notebook that you'll use for creating a machine learning model.
Prepare the dataThis tutorial uses the Titanic dataset available on OpenML.org, which is obtained from Vanderbilt University's Department of Biostatistics at https://hbiostat.org/data. The Titanic data provides information about the survival of passengers on the Titanic and characteristics about the passengers such as age and ticket class. Using this data, the tutorial will establish a model for predicting whether a given passenger would have survived the sinking of the Titanic. This section shows how to load and manipulate data in your Jupyter notebook.
Train and evaluate a modelWith the dataset ready, you can now begin creating a model. For this section, you'll use the scikit-learn library (as it offers some useful helper functions) to do pre-processing of the dataset, train a classification model to determine survivability on the Titanic, and then use that model with test data to determine its accuracy.
(Optional) Use a neural networkA neural network is a model that uses weights and activation functions, modeling aspects of human neurons, to determine an outcome based on provided inputs. Unlike the machine learning algorithm you looked at previously, neural networks are a form of deep learning wherein you don't need to know an ideal algorithm for your problem set ahead of time. It can be used for many different scenarios and classification is one of them. For this section, you'll use the Keras library with TensorFlow to construct the neural network, and explore how it handles the Titanic dataset.
Next stepsNow that you're familiar with the basics of performing machine learning within Visual Studio Code, here are some other Microsoft resources and tutorials to check out. |