En este segundo post vamos a presentar un caso práctico de cómo podemos utilizar técnicas de NLP para extraer información relevante de documentos. En concreto nos centraremos en un ejemplo del sector de seguros y el tipo de problemática se correspondería con el llamado Named Entity Recognition (NER).
Como el propio nombre indica en inglés, el problema al que nos enfrentamos trata de reconocer diferentes entidades en un texto. Se denomina “entidad” a prácticamente cualquier concepto que queramos encontrar: nombres de personas, ciudades, organizaciones, marcas de coche, direcciones, números de teléfono…
En este caso de uso digamos que tenemos una Base de Datos con miles de contratos de todo tipo, y digamos que tenemos para cada caso guardados un identificador para el cliente (DNI, nombre y apellidos…), la fecha del documento y el tipo de contrato, pero queremos analizar otros datos que solo los tenemos en el documento: cuantías del contrato, dirección del tomador, teléfono, cláusulas… Esto nos puede servir para tener una Base de Datos enriquecida, anonimizar los documentos, crear relaciones entre clientes a través de teléfonos, emails, etc.
Para ello lo que necesitaremos hacer es aplicar un modelo de NER sobre cada documento, que tenga como entrada el propio documento y nos devuelva todos estos campos que nos interesen. Actualmente existen modelos ya entrenados que podrían devolvernos una serie de campos, como nombres propios, nombres de organizaciones, lugares… pero en principio serían datos demasiado generales. Si lo que queremos es personalizar esos campos que nos va a devolver el modelo, lo que tendremos que hacer será entrenar un modelo personalizado.
Para entrenar este modelo personalizado, deberemos “mostrarle” algunos ejemplos para que aprenda. Esto supone que tendremos que etiquetar a mano algunos documentos. La pregunta de siempre suele ser ¿Cuántos?, y es algo que en principio dependerá de la complejidad de los documentos y de las entidades que queramos reconocer. Lo bueno que tenemos es que con los últimos avances en modelos de lenguaje, cada vez necesitamos menos ejemplos para obtener precisiones que hace unos años necesitaríamos 100 veces más ejemplos!
En Datu(a) Smart Digital ponemos el dato al servicio del negocio, prestando servicios integrales de Big Data Analytics & Data Science enfocado al tratamiento y análisis de datos mediante técnicas de Data Mining, Text Mining, Machine Learning e Inteligencia Artificial. Formamos parte de Merkatu Group, y desde Datu(a), acompañamos a nuestros clientes en sus procesos de transformación digital relacionados con la explotación y obtención de valor a partir de sus datos.
Si quieres saber más de cómo estas nuevas tecnologías pueden ayudar a tu empresa no dudes en ponerte en contacto con nosotros, estaremos encantados de atenderte y asesorarte.
CONSULTORÍA DE DIGITAL BUSINESS
Impulsamos la transformación y competitividad de empresas y administración pública a través de la gobernanza y gestión del dato con visión de negocio.
Copyright © 2021 Merkatu Interactiva S.L.
Dejanos tu opinión