Pustaka PYPDF2: Bagaimana Anda Dapat Bekerja Dengan File PDF dengan Python? Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Pustaka PYPDF2: Bagaimana Anda Dapat Bekerja Dengan File PDF dengan Python?

Mengekstrak teks dari PDF menggunakan PyPDF2 sulit karena memiliki dukungan terbatas untuk ekstraksi teks. Pengembalian kode tidak akan dalam format yang benar. Anda mungkin mendapatkan serangkaian karakter jeda baris karena dukungan terbatas PyPDF2.

Banyak operasi yang dapat dilakukan pada file PDF menggunakan modul PyPDF2, termasuk:

Jika Anda bekerja dengan faktur, dan tanda terima atau khawatir tentang verifikasi ID, periksa Nanonets OCR online or ekstraktor teks PDF untuk mengekstrak teks dari dokumen PDF gratis. Klik di bawah untuk mempelajari lebih lanjut Solusi Otomatisasi Perusahaan Nanonets.


Tutorial PyPDF2 lainnya

Bagaimana Memutar Halaman dari File PDF?

Modul Python PyPDF2 adalah pustaka yang digunakan untuk memanipulasi file PDF. Ini sangat mudah digunakan dan tersedia untuk berbagai platform.

Di sini kita akan melihat bagaimana kita dapat memutar halaman file pdf. Simpan PDF di file lain dan jalankan kode berikut:

import PyPDF2
pdf_in = open('original.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_in)
pdf_writer = PyPDF2.PdfFileWriter()
for pagenum in range(pdf_reader.numPages):
page = pdf_reader.getPage(pagenum)
page.rotateClockwise(180)
pdf_writer.addPage(page)
pdf_out = open('rotated.pdf', 'wb')
pdf_writer.write(pdf_out)
pdf_out.close()
pdf_in.close()

Bagaimana Menggabungkan File PDF?

Setelah memindai beberapa halaman dokumen atau menyimpan banyak halaman sebagai dokumen terpisah di komputer Anda, penggabungan file PDF sering kali diperlukan.

Banyak program, termasuk Adobe dan aplikasi online, dapat membantu melakukan tugas ini dengan cepat. Namun, kebanyakan dari mereka baik untuk dijual atau mungkin tidak menawarkan langkah-langkah keamanan yang cukup.

Buka editor pilihan Anda, lalu buat file baru bernama โ€œpdfMerger.py.โ€ Pastikan program Python berada di direktori yang sama dengan file PDF yang akan dilampirkan.

Anda dapat menggabungkan dua atau lebih file PDF dengan menggunakan blok kode berikut:

from PyPDF2 import PdfFileMerger, PdfFileReader
merger = PdfFileMerger()
merger.append(PdfFileReader(open(filename1, 'rb')))
merger.append(PdfFileReader(open(filename2, 'rb')))
merger.write("merged.pdf")

Kode di atas tampak cukup sederhana, tetapi bagaimana jika Anda ingin menggabungkan lebih dari dua file? Untuk setiap file, yang ingin Anda tambahkan, baris 3 perlu diulang, yang akan membuat aplikasi Anda agak panjang. Dalam keadaan ini, for loop dapat digunakan.

Metode lain untuk menggabungkan beberapa file PDF ditunjukkan dalam kode berikut.

Bagaimana Membagi Halaman dari File PDF?

Karena berbagai alasan, Anda mungkin sering ingin mengekstrak halaman tertentu dari file PDF berukuran besar atau menggabungkan beberapa file PDF menjadi satu. Ini dapat dicapai dengan perangkat lunak editor PDF tertentu. Namun, Anda mungkin menemukan bahwa fitur pemisahan dan penggabungan biasanya tidak disertakan dalam versi gratis atau bahwa memproses begitu banyak halaman atau file membuatnya terlalu sulit. Pada artikel ini, saya akan membagikan skrip Python langsung yang dapat Anda gunakan untuk membagi atau menggabungkan beberapa file PDF.

Menggunakan PdfFileReader untuk membaca file asli akan memungkinkan Anda mengakses halaman tertentu dengan nomor halamannya saat Anda ingin mengekstrak halaman tertentu dari file PDF dan membuatnya sebagai file PDF terpisah (nomor halaman dimulai dari 0). Fungsi tambah halaman dari PdfFileWriter memungkinkan Anda untuk menambahkan halaman PDF ke objek PDF baru dan menyimpannya.

Berikut adalah contoh kode yang memisahkan halaman pertama file1.pdf menjadi file PDF terpisah yang disebut halaman pertama.pdf.

from PyPDF2 import PdfFileWriter, PdfFileReader
input_pdf = PdfFileReader("file1.pdf")
output = PdfFileWriter()
output.addPage(input_pdf.getPage(0))
with open("first_page.pdf", "wb") as output_stream:
output.write(output_stream)

Bagaimana Menggabungkan Halaman dari File PDF?

Anda dapat menggunakan PdfFileMerger untuk menggabungkan beberapa file PDF menjadi satu dokumen. Meskipun Anda juga dapat menggunakan PdfFileWriter untuk melakukannya, menggabungkan halaman tanpa mengeditnya terlebih dahulu membuat penggunaan PdfFileMerger lebih mudah.

Contoh kode yang menggunakan metode append PdfFileMerger untuk menambahkan beberapa file PDF dan menulisnya ke dalam satu file yang disebut gabungan ditunjukkan di bawah ini.

from PyPDF2 import PdfFileReader, PdfFileMerger
pdf_file1 = PdfFileReader("file1.pdf")
pdf_file2 = PdfFileReader("file2.pdf")
output = PdfFileMerger()
output.append(pdf_file1)
output.append(pdf_file2)
with open("merged.pdf", "wb") as output_stream:
output.write(output_stream)

Jika Anda ingin menambahkan halaman tertentu dari file asli Anda ke file PDF baru, Anda dapat menggunakan argumen pages dari fungsi append untuk memberikan tuple yang berisi nomor halaman awal dan akhir.

Jika Anda ingin menentukan di mana Anda ingin halaman Anda pergi, Anda harus menggunakan fungsi gabungan karena fungsi append akan selalu menambahkan halaman baru di akhir. Ini memungkinkan Anda untuk memilih lokasi halaman di mana Anda ingin menyisipkan halaman baru.

Mengenkripsi File PDF

File PDF dapat dienkripsi menggunakan kata sandi atau sertifikat digital. Metode enkripsi dipilih oleh pengguna saat file dibuat. File PDF yang dilindungi kata sandi dapat dibuka, diedit, dan dicetak oleh siapa saja yang mengetahui kata sandinya. Itu tidak dapat dibuka atau diedit oleh seseorang yang tidak mengetahui kata sandinya. Dokumen yang ditandatangani secara digital juga dilindungi dari pengeditan yang tidak sah. Namun, itu juga termasuk tanda tangan elektronik yang dapat diverifikasi oleh siapa saja yang memiliki akses ke dokumen asli atau tanda tangan digitalnya.

for page in range(pdf.getNumPages()):
pdfwrite.addPage(pdf.getPage(page))
pdfwrite.encrypt(user_pwd=password, owner_pwd=None,
use_128bit=True)
with open(outputpdf, 'wb') as fh:
pdfwrite.write(fh)

Anda dapat melindungi kata sandi file PDF menggunakan kode di atas seperti ini:

Bagaimana Cara Menambahkan Tanda Air ke File PDF?

Tanda air adalah hamparan teks atau grafik di bagian depan dokumen Anda. Ini dapat membantu Anda melindungi pekerjaan Anda dari penggunaan atau penyalahgunaan yang tidak sah dan menunjukkan catatan mana yang telah dimodifikasi atau dicetak. Anda dapat menambahkan teks dan grafik untuk membuat tanda air khusus untuk dokumen Anda.

Berikut cuplikan kode tentang cara menambahkan tanda air ke File PDF:

import PyPDF2
pdf_file = "doc.pdf"
watermark = "watermark.pdf"
merged_file = "merged.pdf"
input_file = open(pdf_file,'rb')
input_pdf = PyPDF2.PdfFileReader(input_file)
watermark_file = open(watermark,'rb')
watermark_pdf = PyPDF2.PdfFileReader(watermark_file)
pdf_page = input_pdf.getPage(0)
watermark_page = watermark_pdf.getPage(0)
pdf_page.mergePage(watermark_page)
output = PyPDF2.PdfFileWriter()
output.addPage(pdf_page)
merged_file = open(merged_file,'wb')
output.write(merged_file)
merged_file.close()
watermark_file.close()
input_file.close()

Tiga argumen harus dipertimbangkan dengan cermat saat menggunakan fungsi enkripsi.

  • Kata sandi pengguna pengguna pwd digunakan untuk membatasi pembukaan dan pembacaan file;
  • Kata sandi pengguna satu langkah di bawah pemilik pwd, str. File dapat dibuka tanpa batasan saat diberikan. pwd pemilik default dan pwd pengguna adalah sama jika tidak disertakan;
  • Gunakan opsi Boolean 128bit untuk menentukan apakah akan menggunakan 128 bit untuk kata sandi atau tidak. Salah menunjukkan kata sandi 40-bit harus digunakan; Benar adalah default;

Ingin mengotomatiskan tugas manual yang berulang? Hemat Waktu, Tenaga & Uang sambil meningkatkan efisiensi!


Kesimpulan

PyPDF2 adalah salah satu cara termudah untuk mengkonversi antara file PDF, dan itu sepenuhnya open source. Jika Anda sedang terburu-buru untuk memulai, dokumentasi online yang sangat baik akan membuat Anda siap dan berjalan dalam hitungan menit. Jika Anda memiliki pertanyaan atau membutuhkan bantuan lebih lanjut, komunitas PyPDF2 yang ramah akan dengan senang hati menawarkan bantuan mereka. Selain mudah digunakan, PyPDF2 sangat ringanโ€”tidak memiliki ketergantungan lain selain Python (yang berarti akan bekerja di hampir semua platform yang bisa dibayangkan).

Selain itu, PyPDF2 didistribusikan di bawah lisensi gaya BSD, jadi Anda bebas untuk menggabungkannya dengan perangkat lunak Anda jika Anda mau. Singkatnya, ini adalah alat yang luar biasa untuk memanipulasi PDF, dan kami menyarankan pengembang Python harus memeriksanya.

Pertanyaan Umum (FAQ)

Bisakah Python Membaca PDF?

Python tidak memiliki dukungan asli untuk membaca file PDF, jadi ini bukan sesuatu yang dapat Anda lakukan dengan satu baris kode. Tetapi banyak perpustakaan pihak ketiga memungkinkan Python untuk membaca PDF dan mengubahnya menjadi format lain, seperti HTML atau teks biasa.

Pertanyaan lain muncul di sini jika Python membaca PDF, maka:

Bisakah Python membaca file Excel juga?

Ya, Python dapat membaca file Excel. Panda membuatnya mudah untuk mengimpor file Excel ke Python. Anda harus menggunakan read excel untuk mencapai tujuan ini.

Apakah PyPDF2 Open Source?

PyPDF2 adalah perangkat lunak sumber terbuka yang dilisensikan di bawah LGPL.

Juga, PyPDF2 tersedia untuk diunduh dalam bentuk kode sumber. Itu dapat diinstal menggunakan pip atau mengunduh file zip dan mengekstraknya ke direktori pilihan Anda.

Pustaka PyPDF2 menyertakan beberapa alat baris perintah yang dapat digunakan untuk mengonversi file PDF ke format lain. Alat-alat ini diinstal dengan modul Python ketika diinstal.

Apakah PyPDF2 Aman?

PyPDF2 bertujuan untuk menyediakan antarmuka Python murni untuk libpdf (Perpustakaan Referensi C++ PDF) daripada memiliki modul ekstensi C terpisah yang ditautkan ke Python.

Tujuan utama PyPDF2 adalah untuk memudahkan pengembang membuat aplikasi PDF tanpa harus khawatir menginstal lingkungan pengembangan yang rumit atau berurusan dengan beberapa versi perpustakaan eksternal.

Ya, Excel dapat mengekstrak data dari PDF.

Excel adalah alat yang hebat untuk memanipulasi data dan mudah digunakan. Ini juga sangat kuat dan dapat digunakan untuk menangani berbagai jenis data.

Selain itu, Excel adalah keuntungan besar karena Anda dapat menggunakannya pada platform apa pun (Windows, Mac, Linux), dan Anda tidak memerlukan perangkat lunak khusus apa pun.

Proses mengekstrak data dari PDF tidak mudah, tetapi kami akan menunjukkan cara melakukannya langkah demi langkah.

Ekstraksi teks dari PDF itu sulit. Ada banyak alasan untuk ini:

Format PDF dirancang untuk dibaca oleh manusia, bukan mesin. Format dokumen paling populer di dunia memiliki banyak fitur rapi yang memudahkan orang untuk membaca, tetapi sulit bagi komputer untuk menanganinya.

PDF dapat berisi konten apa pun (teks, bagan, gambar, dll.), dan dapat ditata dengan cara apa pun yang Anda inginkan. Ini berarti tidak ada cara standar untuk mengekstrak teks dari file PDF โ€” setiap file memiliki tata letak yang unik.

Teks dalam PDF tertentu mungkin tidak berada di tempat yang Anda harapkan! Beberapa PDF memiliki daftar isi atau indeks yang berisi semua teks dokumen; yang lain memiliki catatan kaki atau catatan akhir; yang lain memiliki header dan footer yang berulang secara berkala; yang lain menggunakan bingkai atau lapisan alih-alih halaman (ini jarang terjadi).

Teks dapat diekstraksi dari foto menggunakan optical character recognition (OCR). Perangkat lunak OCR adalah yang menyelesaikan ini. Program OCR Open Source yang paling terkenal adalah mesin tesseract OCR.

PyPDF2 bukan program OCR.

Apa itu OCR Python?

OCR Python adalah pustaka OCR berfitur lengkap yang ditulis dengan Python murni. Ini membungkus mesin OCR open source Tesseract dan menyediakan API sederhana untuk digunakan pengembang. OCR, Pengenalan Karakter Optik, mengubah gambar teks yang dipindai menjadi teks digital yang dapat dicari.

OCR Python menggunakan output berkualitas tinggi Tesseract sebagai dasarnya, dan dapat digunakan dengan mesin OCR lain yang menggunakan perpustakaan Leptonica atau Harp (seperti GOCR).

Jika Anda ingin mendigitalkan dokumen menggunakan OCR, maka library ini akan membantu Anda dengan cepat dan mudah.


Nanonet OCR & OCR API online punya banyak yang menarik gunakan kasing tHal ini dapat mengoptimalkan kinerja bisnis Anda, menghemat biaya, dan meningkatkan pertumbuhan. Temukan bagaimana kasus penggunaan Nanonet dapat diterapkan pada produk Anda.


Stempel Waktu:

Lebih dari AI & Pembelajaran Mesin