PYPDF2 Kütüphanesi: Python'da PDF Dosyalarıyla Nasıl Çalışabilirsiniz? PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

PYPDF2 Kitaplığı: Python'da PDF Dosyalarıyla Nasıl Çalışabilirsiniz?

PyPDF2 kullanarak PDF'den metin ayıklamak, metin ayıklama için sınırlı desteğe sahip olduğundan zordur. Kodun dönüşü uygun bir formatta olmayacaktır. PyPDF2'nin sınırlı desteği nedeniyle bir dizi satır sonu karakteri alabilirsiniz.

PyPDF2 modülü kullanılarak PDF dosyaları üzerinde aşağıdakiler dahil pek çok işlem gerçekleştirilebilir:

Faturalar ve makbuzlarla çalışıyorsanız veya kimlik doğrulama konusunda endişeleniyorsanız, Nanonets'e göz atın çevrimiçi OCR or PDF metin çıkarıcı PDF belgelerinden metin çıkarmak için bedava. Hakkında daha fazla bilgi edinmek için aşağıya tıklayın Nanonets Kurumsal Otomasyon Çözümü.


Diğer PyPDF2 Dersleri

Bir PDF Dosyasının Sayfaları Nasıl Döndürülür?

Python modülü PyPDF2, PDF dosyalarını işlemek için kullanılan bir kitaplıktır. Kullanımı çok kolaydır ve birçok farklı platform için kullanılabilir.

Burada bir pdf dosyasının sayfalarını nasıl döndürebileceğimizi göreceğiz. PDF'yi başka bir dosyaya kaydedin ve aşağıdaki kodu çalıştırın:

import PyPDF2
pdf_in = open('original.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_in)
pdf_writer = PyPDF2.PdfFileWriter()
for pagenum in range(pdf_reader.numPages):
page = pdf_reader.getPage(pagenum)
page.rotateClockwise(180)
pdf_writer.addPage(page)
pdf_out = open('rotated.pdf', 'wb')
pdf_writer.write(pdf_out)
pdf_out.close()
pdf_in.close()

PDF Dosyaları Nasıl Birleştirilir?

Bir belgenin birden çok sayfasını taradıktan veya çok sayıda sayfayı bilgisayarınızda ayrı belgeler olarak sakladıktan sonra, PDF dosyalarının birleştirilmesi sıklıkla gereklidir.

Adobe ve çevrimiçi uygulamalar da dahil olmak üzere çok sayıda program, bu görevi hızla yapmanıza yardımcı olabilir. Ancak çoğu ya satılıktır ya da yeterli güvenlik önlemi sunmayabilir.

Tercih ettiğiniz düzenleyiciyi açın, ardından "pdfMerger.py" adlı yeni bir dosya oluşturun. Python programının eklenecek PDF dosyalarıyla aynı dizinde bulunduğundan emin olun.

Aşağıdaki kod bloğunu kullanarak iki veya daha fazla PDF dosyasını birleştirebilirsiniz:

from PyPDF2 import PdfFileMerger, PdfFileReader
merger = PdfFileMerger()
merger.append(PdfFileReader(open(filename1, 'rb')))
merger.append(PdfFileReader(open(filename2, 'rb')))
merger.write("merged.pdf")

Yukarıdaki kod oldukça basit görünüyor, ancak ikiden fazla dosyayı birleştirmek isterseniz ne olur? Eklemek istediğiniz her dosya için 3. satırın tekrarlanması gerekir, bu da başvurunuzu oldukça uzun hale getirir. Bu durumda, bir for döngüsü kullanılabilir.

Birden çok PDF dosyasını birleştirmenin başka bir yöntemi aşağıdaki kodda gösterilmektedir.

Bir PDF Dosyasından Sayfaları Nasıl Bölebilirim?

Çeşitli nedenlerle, genellikle büyük bir PDF dosyasından belirli bir sayfayı çıkarmak veya birkaç PDF dosyasını tek bir PDF dosyasında birleştirmek isteyebilirsiniz. Bu, belirli PDF düzenleyici yazılımlarla gerçekleştirilebilir. Yine de, bölme ve birleştirme özelliklerinin genellikle ücretsiz sürümde bulunmadığını veya bu kadar çok sayfa veya dosyanın işlenmesinin onları çok zahmetli hale getirdiğini fark edebilirsiniz. Bu makalede, birkaç PDF dosyasını bölmek veya birleştirmek için kullanabileceğiniz basit bir Python betiğini paylaşacağım.

Orijinal dosyayı okumak için PdfFileReader'ı kullanmak, PDF dosyasından belirli bir sayfayı çıkarmak ve onu ayrı bir PDF dosyası olarak oluşturmak istediğinizde (sayfa numarası 0'dan başlar) belirli bir sayfaya sayfa numarasına göre erişmenizi sağlar. PdfFileWriter'ın sayfa ekleme işlevi, yepyeni bir PDF nesnesine bir PDF sayfası eklemenizi ve kaydetmenizi sağlar.

İşte file1.pdf dosyasının ilk sayfasını first page.pdf adlı ayrı bir PDF dosyasına ayıran bir kod örneği.

from PyPDF2 import PdfFileWriter, PdfFileReader
input_pdf = PdfFileReader("file1.pdf")
output = PdfFileWriter()
output.addPage(input_pdf.getPage(0))
with open("first_page.pdf", "wb") as output_stream:
output.write(output_stream)

Bir PDF Dosyasının Sayfaları Nasıl Birleştirilir?

Birden çok PDF dosyasını tek bir belgede birleştirmek için PdfFileMerger'ı kullanabilirsiniz. Bunu gerçekleştirmek için PdfFileWriter'ı da kullanabilseniz de, önce sayfaları düzenlemeden birleştirmek, PdfFileMerger kullanımını daha kolay hale getirir.

Birden çok PDF dosyası eklemek ve bunları birleştirilmiş adlı tek bir dosyaya yazmak için PdfFileMerger'ın ekleme yöntemini kullanan örnek kod aşağıda gösterilmiştir.

from PyPDF2 import PdfFileReader, PdfFileMerger
pdf_file1 = PdfFileReader("file1.pdf")
pdf_file2 = PdfFileReader("file2.pdf")
output = PdfFileMerger()
output.append(pdf_file1)
output.append(pdf_file2)
with open("merged.pdf", "wb") as output_stream:
output.write(output_stream)

Orijinal dosyanızdan belirli sayfaları yeni PDF dosyasına eklemek isterseniz, başlangıç ​​ve bitiş sayfa numaralarını içeren bir demet vermek için ekleme işlevinin sayfalar bağımsız değişkenini kullanabilirsiniz.

Sayfalarınızın nereye gitmesini istediğinizi belirtmek isterseniz, birleştirme işlevini kullanmalısınız çünkü ekleme işlevi her zaman en sona yeni sayfalar ekler. Yeni sayfalar eklemek istediğiniz sayfanın konumunu seçmenizi sağlar.

PDF Dosyasını Şifreleme

Bir PDF dosyası, bir parola veya dijital sertifika kullanılarak şifrelenebilir. Şifreleme yöntemi, dosya oluşturulduğunda kullanıcı tarafından seçilir. Parola korumalı bir PDF dosyası, parolayı bilen herkes tarafından açılabilir, düzenlenebilir ve yazdırılabilir. Şifreyi bilmeyen biri tarafından açılamaz veya düzenlenemez. Dijital olarak imzalanmış bir belge, yetkisiz düzenlemeye karşı da korunur. Yine de, orijinal belgeye veya dijital imzasına erişimi olan herkes tarafından doğrulanabilen bir elektronik imza da içerir.

for page in range(pdf.getNumPages()):
pdfwrite.addPage(pdf.getPage(page))
pdfwrite.encrypt(user_pwd=password, owner_pwd=None,
use_128bit=True)
with open(outputpdf, 'wb') as fh:
pdfwrite.write(fh)

Yukarıdaki kodu kullanarak bir PDF dosyasını şu şekilde parolayla koruyabilirsiniz:

PDF Dosyasına Filigran Nasıl Eklenir?

Filigran, belgenizin ön yüzündeki bir metin veya grafik kaplamadır. Çalışmanızı yetkisiz kullanımdan veya kötüye kullanımdan korumanıza yardımcı olabilir ve hangi kayıtların değiştirildiğini veya yazdırıldığını gösterebilir. Belgeleriniz için özel filigranlar oluşturmak üzere metin ve grafikler ekleyebilirsiniz.

İşte bir PDF Dosyasına nasıl filigran ekleneceğine dair bir kod parçacığı:

import PyPDF2
pdf_file = "doc.pdf"
watermark = "watermark.pdf"
merged_file = "merged.pdf"
input_file = open(pdf_file,'rb')
input_pdf = PyPDF2.PdfFileReader(input_file)
watermark_file = open(watermark,'rb')
watermark_pdf = PyPDF2.PdfFileReader(watermark_file)
pdf_page = input_pdf.getPage(0)
watermark_page = watermark_pdf.getPage(0)
pdf_page.mergePage(watermark_page)
output = PyPDF2.PdfFileWriter()
output.addPage(pdf_page)
merged_file = open(merged_file,'wb')
output.write(merged_file)
merged_file.close()
watermark_file.close()
input_file.close()

Şifreleme işlevi kullanılırken üç argüman dikkatle değerlendirilmelidir.

  • Kullanıcı şifresi user pwd, dosya açma ve okuma işlemlerini sınırlamak için kullanılır;
  • Kullanıcı şifresi, sahip pwd, str'nin bir adım altındadır. Dosya verildiğinde herhangi bir sınırlama olmadan açılabilir. Sağlanmamışsa varsayılan sahip parolası ve kullanıcı parolası aynıdır;
  • Bir parola için 128 bitin kullanılıp kullanılmayacağını belirlemek için 128 bit Boolean seçeneğini kullanın. Yanlış, 40 bitlik bir parolanın kullanılması gerektiğini belirtir; True varsayılandır;

Tekrarlayan manuel görevleri otomatikleştirmek mi istiyorsunuz? Verimliliği artırırken Zamandan, Efordan ve Paradan Tasarruf Edin!


Sonuç

PyPDF2, PDF dosyaları arasında dönüştürme yapmanın en kolay yollarından biridir ve tamamen açık kaynaklıdır. Başlamak için aceleniz varsa, mükemmel çevrimiçi belgeler dakikalar içinde çalışmaya başlamanızı sağlayacaktır. Sorularınız varsa veya daha fazla yardıma ihtiyacınız varsa, arkadaş canlısı PyPDF2 topluluğu memnuniyetle yardımlarını sunacaktır. Kullanımı basit olmasının yanı sıra, PyPDF2 son derece hafiftir; Python dışında başka bağımlılığı yoktur (bu, akla gelebilecek hemen hemen her platformda çalışacağı anlamına gelir).

Ayrıca, PyPDF2, BSD tarzı bir lisans altında dağıtılır, bu nedenle, isterseniz onu yazılımınızla paket haline getirmekte özgürsünüz. Kısacası, bu, PDF'leri değiştirmek için harika bir araçtır ve Python geliştiricilerinin bunu kontrol etmesini öneririz.

FAQs

Python PDF Okuyabilir mi?

Python'un PDF dosyalarını okumak için yerel bir desteği yoktur, dolayısıyla bu, tek bir kod satırıyla yapabileceğiniz bir şey değildir. Ancak birçok üçüncü taraf kitaplığı Python'un PDF'leri okumasına ve bunları HTML veya düz metin gibi diğer formatlara dönüştürmesine olanak tanır.

Python bir PDF okursa, burada başka bir soru ortaya çıkar, o zaman:

Python, Excel dosyalarını da okuyabilir mi?

Evet Python Excel dosyalarını okuyabilir. Pandalar bir Excel dosyasını Python'a aktarmayı basitleştirin. Bu amaca ulaşmak için read excel kullanmalısınız.

PyPDF2 Açık Kaynak mı?

PyPDF2, altında lisanslanan açık kaynaklı bir yazılımdır. LGPL.

Ayrıca, PyPDF2 kaynak kodu biçiminde indirilebilir. Pip kullanılarak veya zip dosyası indirilerek ve seçtiğiniz dizine çıkartılarak kurulabilir.

PyPDF2 kitaplığı, PDF dosyalarını başka biçimlere dönüştürmek için kullanılabilecek birkaç komut satırı aracı içerir. Bu araçlar, yüklendiğinde Python modülü ile birlikte yüklenir.

PyPDF2 Güvenli mi?

PyPDF2, saf bir Python arabirimi sağlamayı amaçlamaktadır. libpdf (C++ PDF Referans Kitaplığı), Python'a bağlı ayrı bir C uzantı modülüne sahip olmak yerine.

PyPDF2'nin birincil amacı, geliştiricilerin karmaşık bir geliştirme ortamı kurma veya harici kitaplıkların birden çok sürümüyle uğraşma endişesi duymadan PDF uygulamaları oluşturmasını kolaylaştırmaktır.

Evet, Excel PDF'den veri çıkarabilir.

Excel, verileri işlemek için harika bir araçtır ve kullanımı kolaydır. Aynı zamanda çok güçlüdür ve birçok farklı türde veriyi işlemek için kullanılabilir.

Ayrıca Excel büyük bir avantajdır çünkü onu herhangi bir platformda (Windows, Mac, Linux) kullanabilirsiniz ve herhangi bir özel yazılıma ihtiyacınız yoktur.

PDF'den veri çıkarma işlemi kolay değildir, ancak bunu nasıl yapacağınızı adım adım göstereceğiz.

PDF'den metin çıkarmak zordur. Bunun için birçok nedeni vardır:

PDF formatı makineler tarafından değil insanlar tarafından okunmak üzere tasarlanmıştır. Dünyanın en popüler belge biçimi, insanların okumasını kolaylaştıran pek çok zarif özelliğe sahiptir, ancak bilgisayarların uğraşması zahmetlidir.

PDF'ler herhangi bir içeriği (metin, çizelgeler, resimler vb.) içerebilir ve istediğiniz şekilde düzenlenebilirler. Bu, bir PDF dosyasından metin çıkarmanın standart bir yolu olmadığı anlamına gelir; her dosyanın kendine özgü düzeni vardır.

Belirli bir PDF'deki metin olmasını beklediğiniz yerde olmayabilir! Bazı PDF'lerde, belgenin tüm metnini içeren içindekiler tablosu veya dizinler bulunur; diğerlerinin dipnotları veya son notları vardır; diğerlerinin düzenli aralıklarla yinelenen üstbilgileri ve altbilgileri vardır; diğerleri sayfalar yerine çerçeveler veya katmanlar kullanır (bu nadirdir).

Metin, optik karakter tanıma (OCR) kullanılarak fotoğraflardan çıkarılabilir. OCR yazılımı bunu başaran şeydir. En iyi bilinen Açık Kaynak OCR programı, tesseract OCR motoru.

PyPDF2 bir OCR programı değildir.

OCR Python nedir?

OCR Python, saf Python ile yazılmış tam özellikli bir OCR kitaplığıdır. Tesseract açık kaynaklı OCR motorunu tamamlar ve geliştiricilerin kullanması için basit bir API sağlar. OCR, Optik Karakter Tanıma, taranan metin görüntülerini aranabilir dijital metne dönüştürür.

OCR Python, temel olarak Tesseract'ın yüksek kaliteli çıktısını kullanır ve Leptonica veya Harp kitaplıklarını (GOCR gibi) kullanan diğer herhangi bir OCR motoruyla kullanılabilir.

OCR kullanarak belgeleri dijitalleştirmek istiyorsanız, bu kitaplık size hızlı ve kolay bir şekilde yardımcı olacaktır.


Nanonetler çevrimiçi OCR ve OCR API çok ilginç kullanım durumları tBu, iş performansınızı optimize edebilir, maliyetleri azaltabilir ve büyümeyi artırabilir. Bulmak Nanonetlerin kullanım durumlarının ürününüze nasıl uygulanabileceği.


Zaman Damgası:

Den fazla AI ve Makine Öğrenimi