Muchas veces tenemos un documento que nos han enviado en PDF y necesitamos extraer información del mismo. Una de las opciones muy interesantes que tenemos es utilizar un escáner que incluya la característica de Reconocimiento Óptico de Caracteres (OCR) para digitalizar el documento y transformarlo en un documento de texto editable. Si por cualquier motivo no disponemos de un escáner de estas características seguro que os interesará Online OCR, opción en la nube para transformar PDF.
El proceso básico que se lleva a cabo en el Reconocimiento Óptico de Caracteres es convertir el texto que aparece en una imagen en un archivo de texto que podrá ser editado y utilizado como tal por cualquier otro programa o aplicación que lo necesite. Online OCR nos permite subir los documentos en formato PDF, o de imagen TIF/TIFF, JPEG/JPG, BMP, PCX, PNG, GIF o ZIP que contengan este tipo de archivos para ser escaneados. El máximo tamaño de archivo que se admite es de 30 MB.
Uno de los factores más importantes a la hora de reconocer correctamente los textos está en la calidad de la imagen que hemos subido. A mayor calidad de imagen menos errores en el reconocimiento de caracteres. Se recomiendan calidades entre 200 y 400 DPI para que trabaje correctamente. Como referencia puedo deciros que uno de los documentos que yo he probado tendría unas 800 palabras y en todo este texto tenía unos 10 fallos, fácilmente identificables por el corrector ortográfico. La mayoría eran fallos en la interpretación de una palabra que contenía la letra «o» que había interpretado como «c».
Dispone de 32 idiomas de reconocimiento de textos, entre los que se encuentran el castellano y catalán, por citar alguno de los que nos cogen más cerca. A la hora de transformar el documento de salida en un formato determinado nos da la posibilidad de transformarlo en PDF, MS Word 2003, MS Excel 2003, Html 4.0, RTF o texto plano.
A la hora de trabajar con documentos que hemos subido nos permitirá reconocer todo el documento o sólo una parte del mismo, es decir, supongamos que tenemos un documento PDF de 50 páginas, del cual queremos extraer el texto de 4 de ellas. En este caso debemos subir todo el documento y luego indicarle las páginas o el intervalo de páginas que queremos que nos escanee. Pueden ser páginas individuales o intervalos de las mismas.
Para usar el servicio debemos registrarnos primero, creando un usuario para lo que nos pedirá una cuenta de correo electrónico asociado a la misma. Una vez realizado el registro partiremos con 5 créditos para trabajar. Estos cinco créditos equivalen al escaneo de un documento de 5 páginas, o cinco documentos de una página. Una vez acabados dichos créditos nos tocará adquirir nuevos créditos pasando por caja, donde los precios parten de los 6 céntimos por página dependiendo del número de créditos que compremos. A más créditos comprados, más barato será el coste por página.
La otra opción que tenemos para seguir usando el servicio es participar en el programa de bonus que tienen. Es muy sencillo, si incluís un enlace a Online OCR en vuestro sitio web, tendréis 50 créditos extras, si escribís un artículo revisando el servicio en vuestro blog, 100 créditos extras o si realizáis un tutorial en vídeo sobre como utilizar el servicio otros 100 créditos. Además por cada amigo al que recomendéis el servicio y compre créditos os darán un 10% de los créditos que haya comprado la primera vez.
La carga de los archivos y la conversión es realmente rápida. El sistema no tarda prácticamente nada en convertir los archivos de manera que es casi tan rápido como un escáner instalado en local. Es una de las cuestiones que más me ha gustado del sistema, junto con los pocos errores que comete en el reconocimiento de imágenes. Una vez que tengamos convertido el archivo lo tendremos disponible online en nuestra cuenta de usuario y podremos descargarlo cuando lo necesitemos.
En resumen es uno de los usos poco frecuentes que nos facilita la nube, con los que poder aprovechar nuestra línea ADSL y sobre todo ahorrar tiempo para escanear esos documentos que tenemos en formato imagen y que necesitamos extraer el texto de los mismos. Muy interesante sobre todo si no disponemos de un escáner local conectado a nuestro equipo.
Más Información | Online OCR
En AnexoM | Usos poco habituales de “la nube”
Nos parece una ayuda novedosa, practik y oportuna aunke si se ingenieran la forma de prestar el servico gratis en su totalidad sería doble/ util. Grx
Una solución bastante buena… ¿pero por qué su logo es un captcha? xD