Acrobat DC esencial

Cómo reconocer textos en un documento digitalizado

Prueba ahora LinkedIn Learning sin cargo y sin compromiso.

Prueba gratis Mostrar modalidades de suscripción
Acrobat permite digitalizar un documento y reconocer el texto que hay en él tanto para búsquedas como para ediciones. En este vídeo se explica cómo usar el OCR de Acrobat a partir de una imagen JPEG.
04:15

Transcripción

Acrobat DC permite, por sí solo, crear archivos PDF a partir de documentos digitalizados y hacer un reconocimiento óptico de caracteres, o sea, OCR. Vamos a ver un ejemplo. En primer lugar, voy a elegir la categoría de Herramientas, Mejorar digitalizaciones, dentro de la vista de Herramientas. Desde aquí puedo ,directamente, hacer que Acrobat se comunique con un escáner, o bien seleccionar un archivo de imagen de un documento escaneado previamente. Esta es la opción que voy a elegir, voy a clicar en el botón Seleccione un archivo y voy a ir en búsqueda de un documento de imagen, en concreto, un archivo JPG que contiene un formulario escaneado. Una vez que lo he seleccionado hago clic en el botón Inicio y paso directamente a la vista de Herramientas en la categoría Mejorar digitalizacioneos. Aquí, por un lado, podemos ver claramente cómo el texto, todavía no es texto, sino que son los pixels fruto de la digitalización, es decir, de la conversión a imagen del texto original. Bien, una vez ya en este punto podemos iniciar el proceso OCR haciendo clic en la herramienta Reconocer texto. Esta herramienta tiene varias opciones y como queremos hacerlo solamente en este archivo, pues elijo la opción En este archivo. Antes de clicar en el botón Reconocer texto, que inicia el proceso, podemos elegir diferentes opciones. Por un lado, debemos conocer cuál es el idioma en el que está mayoritariamente el texto del documento PDF, que en nuestro caso es español, y, muy importante, vamos a hacer clic en el botón Configuración. ¿Por qué es importante? El idioma ya lo hemos elegido, pero sobre todo el parámetro aquí relevante, es la salida. Por un lado, tenemos Imagen para búsquedas. Esto lo que hace es preservar la naturaleza de imagen del documento PDF, pero de manera subyacente está el texto accesible para búsquedas o para copiar y pegar. También es posible convertir o intentar convertir la imagen del texto en texto editable, de hecho, podremos hacer ambas cosas. Vamos a verlo dentro de este ejemplo, en primer lugar, voy a seleccionar la opción Imagen para búsquedas y, finalmente, voy a hacer clic en Aceptar. Una vez que está configurado el OCR, ya estoy en condiciones de hacer clic en el botón Reconocer texto. Esto inicia un proceso que puede durar más o menos en función de la complejidad o longitud del documento PDF, pero vemos que finalmente no ha habido ningún cambio aparente. Es decir, seguimos viendo exactamente lo mismo, una imagen de un texto que en su día estaba digitalizado. La diferencia ahora consiste en lo siguiente. Con la herramienta habitual de Selección de texto dentro de Acrobat, ahora sí soy capaz de identificar el texto, copiarlo, o también, cómo no, buscarlo. Es decir, con la herramienta de Búsqueda de texto puedo escribir una palabra que estoy viendo ahora mismo en el documento, como por ejemplo, Cuestionario. Y puedo ver cómo, efectivamente, la ha encontrado dentro del documento, es decir, el aspecto del PDF no cambia, sin embargo, el texto subyacente se ha reconocido en su integridad. A partir de aquí podemos intentar ir un paso más allá. Editando el texto que todavía sigue siendo una imagen. Para ello, lo que podemos hacer es no ir directamente a la categoría Mejorar digitalizaciones, sino a la categoría Editar PDF, puesto que quiero editar el texto. Ahí Acrobat nos avisa que esta página ha sido escaneada a baja resolución y a lo mejor no es posible convertir con éxito el texto en forma de imagen a texto perfectamente editable. De todos modos, vamos a decirle que queremos continuar, clicando en Sí, y vamos a editar el texto. Vemos, por supuesto, que no puede ser perfecto, ya que, como nos ha avisado Acrobat, la calidad no era muy buena; sin embargo, podemos comprobar que podemos situar el cursor de Edición de texto, borrar, y volver a reescribir, utilizando no una fuente tipográfica estándar, sino una creada al uso a partir de la que más se parece, que en este caso es la Arial Bold. Es decir, hemos convertido, o mejor dicho, Acrobat DC ha convertido una serie de garabatos, de artefactos, en texto perfectamente editable. Esto nos va a ser de gran utilidad, porque podremos escanear una serie de documentos que hasta ahora quizá solo existían en papel, y podemos digitalizarlos y convertirlos en una documentación donde podremos buscar dentro de esos textos, encontrar, copiar y pegar, cosa que antes no era posible.

Acrobat DC esencial

Descubre en este curso online la nueva versión de Adobe Acrobat, con multitud de cambios y novedades respecto a las versiones anteriores, para trabajar a fondo tus documentos PDF.

5:51 horas (79 Videos)
Actualmente no hay comentarios.
 
Software:
Fecha de publicación:29/05/2015
Actualizado el:22/08/2017

Este curso video2brain está disponible como descarga y para ser visualizado online. ¡Pero no hace falta que decidas entre las dos opciones! Al comprar el curso, disfrutarás de ambas posibilidades.

La descarga te permite ver las lecciones sin estar conectado/a a internet y supone una navegación fácil y ágil entre capítulo y capítulo. Si vas a trabajar en diferentes ordenadores o si no quieres descargarte el curso completo, entra en la web con tus datos de acceso y disfruta directamente de tus vídeos online. Te deseamos que disfrutes de este curso y te resulte de mucha utilidad.

Estamos a tu disposición si tienes cualquier tipo de duda o pregunta.