pdftools + tesseract para extraer texto en español

rOpenSci package or resource used*

pdftools
tesseract

What did you do?

Convertí un texto-imagen en pdf a un texto legible para computadoras usando el OCR de Tesseract y la función de pdf_ocr_text()

URL or code snippet for your use case*

Código en Github

Sector

academic / non-profit

Field(s) of application

humanidades ¡y cualquier otra disciplina que use pdfs!

Comments

me fascina lo que hacen: ¡gracias @rOpenSci-Staff!, estaría increíble poder entrenar modelos para mejorar el OCR

Twitter handle

@espejolento

1 Like