RCO Fact Extractor SDK
Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка и предоставляет программный интерфейс для считывания результатов разбора и использования другими программами (напр., для визуализации полученных данных, построения отчетов и таблиц, организации поиска по объектам и т.д.).
Результатом анализа текста являются выделенные из текста сущности – наименования организаций, персон, географические объекты, различные символьно-цифровые конструкции (такие как номера автомобилей или полисов страхования, адреса), классы сущностей; сеть синтактико-семантических отношений между сущностями текста; структуры данных, описывающие упомянутые в тексте события и факты.
Библиотека универсальна: ее можно настроить на работу с разными предметными областями и даже с разными языками. Всевозможные надстройки над базовой библиотекой позволяют решать совершенно разные задачи: от нахождения информационных дублей (плагиата) и построения смыслового портрета документа, до обезличивания персональных данных в текстах или преобразования поисковых запросов.
Характеристики
Библиотека обрабатывает примерно 40-200 Мбайт «чистого» текста в час. Под «чистым» текстом понимается документ, очищенный от разметки и служебной информации.
Анализ текста состоит из 8ми последовательных ступеней. На каждом этапе задействованы специальные словари, описания объектов и правила, составленные лингвистами для максимально полного и точного извлечения информации в соответствии с заданной задачей и форматами текстов.
Произведено в: Москва