Аналіз неструктурованою інформації

Аналіз неструктурованою інформації має на увазі розкладання цілого на складові частини. Як неструктурованою інформації в даному випадку розглядаються будь-які текстові дані - листи з електронної пошти, публікації в соцмережах і блогах, текстові документи і ін. Для поділу тексту на складові частини (слова, фрази) застосовується технологія, яка дозволяє витягати потрібні частини тексту з маси різних джерел неструктурованою інформації і розпізнавати найрізноманітніші файлові формати.

Джерела і файлові формати неструктурованою інформації

У середніх і великих компаніях використовується кілька десятків текстових форматів файлів і не менша кількість джерел зберігання інформації (файлові папки, реляційні бази даних, CAD-системи, сховища на серверах MS Exchange і SharePoint). CAD-системи (Сomputer-aided design) реалізують програмне рішення конструкторських задач і оформлення конструкторської документації (САПР).

Більшість коштів для вилучення тексту з корпоративних джерел виконані у вигляді окремих модулів - програмних адаптерів. Ці модулі налаштовуються на використовувані в компанії інформаційні системи, витягують з них текст і виконують його морфологічний аналіз. При цьому використовуються наступні базові інструменти:

  • морфологічний і синтаксичний розбір для пошуку та аналізу неструктурованої текстової інформації;
  • технологія знаходження в тексті всіх згадувань інформаційних об`єктів;
  • визначення ступеня схожості текстів;
  • технологія обробки фактографічних даних;
  • класифікація текстових документів;
  • аналіз емоційного забарвлення тексту та ін.

Розвиваємо логічне мислення (Ефективна робота з інформацією)

Програмні продукти для пошуку та аналізу неструктурованої інформації успішно використовують технології текстової аналітики для вирішення складних завдань. Крім всім відомого інтернет-пошуку, створені засоби застосовуються і для більш широких завдань, від грамотної контекстної реклами до аналізують профілі користувачів соцмереж рекомендаційних систем. Розглянемо можливі варіанти реалізації даних технологій в рамках корпоративного використання.

Корпоративна пошукова система

Один з найвідоміших варіантів застосування розглянутих технологій - реалізація обмежень прав доступу до документів як в прямому перегляді, так і в повнотекстовому пошуку в рамках корпоративної інформаційної системи. У найпростішому варіанті корпоративний пошук являє собою систему, яка формує індексний масив з усіх можливих ключових слів до тексту. За заданими ключовими словами система виконує пошук в масиві, де записано, на яких позиціях і в яких файлах знаходяться дані ключі. При успішному пошуку користувачеві надається потрібний файл з потрібним тексом.

Реальні пошукові системи мають набагато більше можливостей. Зокрема, в корпоративних пошукових системах реалізований облік прав доступу користувачів до файлів при повнотекстовому пошуку, а також підтримка технології класифікації інформації. Корпоративні пошукові системи надають результати пошуку в зручній користувачам формі, підтримують пошук не тільки за змістом документів, але і по їх атрибутам, можуть інтегруватися з системами електронного документообігу, архівами та іншими типами інформаційних систем.

Система пошуку експертів

Система пошуку експертів дозволяє в найкоротші терміни в рамках великої і складної організації знайти співробітника з потрібними компетенціями для участі в складному проекті. Система проводить автоматичний аналіз контенту, з яким працює персонал організації (внутрішня електронна пошта, наукові публікації і ін.), І видає список відповідних співробітників. Причому пошук може бути налаштований як на внутрікорпоративну середу (якщо потрібно знайти експерта серед співробітників організації), так і на зовнішню - пошук проводиться у відкритій інформації в інтернеті: статті в наукових журналах, повідомлення в блогах, на форумах і т.д.

моніторинг ЗМІ

Технології аналізу неструктурованої інформації широко використовуються в моніторингу ЗМІ та аналізі публікацій про компанію в відкритих електронних джерелах (інтернеті). Система проводить збір і систематизацію відомостей про продукти, проектах компанії, топ-менеджерах, конкурентів. Збір і аналіз таких відомостей допомагає досягти ряду цілей, спрямованих на поліпшення інформаційного фону організації. Що покупці думають про продукти і послуги компанії, які інноваційні продукти запускають конкуренти - все це помітно впливає на динаміку курсу акцій організації. Тому для подібної бізнес-розвідки потрібно практично весь спектр технологій аналізу неструктурованої інформації.

Аналіз резюме для HR 

Управління персоналом - важлива сфера застосування технологій аналізу неструктурованої інформації. Система управління персоналом автоматично сканує сайти з описами вакансій компаній і резюме здобувачів, аналізує інформацію, зіставляє компетенції фахівців і вимоги роботодавців, вибираючи найкраще відповідність.

Відео: Вебінар "Методи і інструменти Data Science"

Аналіз корпоративної культури і бізнес-процесів




В цьому випадку стоїть завдання розбудови безпекового організації в цілому, і аналіз даних спрямований не на окрему людину-кандидата, а на групу людей, їх інформаційні потоки і способи взаємодії. Взаємодія між людьми є однією зі складових корпоративної культури.

Залежно від типу організаційних структур (авторитарних або демократичних) проводиться аналіз динаміки, топології, семантики інформаційних потоків. Це дозволяє вивіть в організації співробітників, які працюють над подібними завданнями, але не взаємодіють один з одним по цьому процесу. Система дає змогу побачити реальну картину бізнес-процесів, виявити їх «вузькі місця», вирішити безліч важливих завдань організаційного розвитку.

Правова експертиза

Система правової експертизи істотно спрощує перевірку проектів нормативних правових актів (НПА), організаційних та інших документів. Завдяки роботі даної системи можна швидко встановити:

Відео: [ЗШ 2017]: Машинне навчання: практичні кейси

  • чи немає в документі посилань на НПА, що втратили чинність;
  • чи немає в документі надлишкового дублювання нормативної документації;
  • чи відповідають оформлення та структура документа встановленим в організації правилам;
  • чи відповідають один одному суми, зазначені цифрами і прописом, чи правильно розрахований ПДВ, чи немає інших помилок в договорі і т. п.

Як подружитися з часом і досягти життєвого балансу?

Система автоматично визначить, чи відповідають згадки в документі контроганізацій сучасному стану справ. Інтеграція з системою бухгалтерського обліку допоможе знайти розбіжності в платіжних документах, з реєстром довіреностей - виявити, чи не минув термін дії повноважень у довіреної особи. Всі посилання на зовнішні або внутрішні документи система сама трансформує в гіпертекстові, надаючи користувачу швидкий доступ до конкретного розділу або статті НПА потрібного документа. Крім цього, система автоматично буде підбір справ зі схожою правовою ситуацією і аналіз арбітражної практики.

Моніторинг електронних торговельних майданчиків




Система автоматично відстежує численні торгові майданчики в інтернеті і інформує співробітників про появу потенційно цікавого замовлення, відкриття конкурсу або тендера. Для грамотної роботи їй необхідно один раз задати в якості прикладу кілька десятків документів (технічні завдання, документація на аналогічні конкурси та ін.). Далі ручна настройка не знадобиться, система сама проведе аналіз наявних даних і визначить профіль потенційних інтересів організації.

виявлення плагіату

Технології аналізу неструктурованої текстової інформації дозволили створити рішення щодо виявлення запозичень тексту, тим самим значно знизили витрати і ризики репутацій в роботі зацікавлених організацій. Сучасні рішення по виявленню плагіату дуже складні й ефективні. Вони виявляють спроби маскування факту плагіату: перестановку слів, додавання «води», заміну слів на синоніми, вставку схожих символів з іншого алфавіту та ін. Ще одна особливість системи - дослідження семантичної схожості текстів.

маршрутизація документів

Система електронного документообігу самостійно аналізує зміст надійшов в організацію вхідного документа і пропонує перелік підрозділів, які зазвичай займаються виконанням документів зі схожою тематикою. При роботі з внутрішнім документом система виявляє згадані в тексті найменування структурних підрозділів, звільняючи фахівців від ручного аналізу тексту. Однак система не приймає рішення за людину, а лише збирає і надає співробітнику всю можливу інформацію. Це істотно полегшує роботу співробітників, дозволяє уникнути помилки і робить виконання документа більш ефективним.

Аналіз звернень громадян

Автоматизація роботи з листами і зверненнями громадян ще одну корисну рішення технологій аналізу неструктурованої інформації. Система роботи зі зверненнями за лічені секунди готує Аналіз неструктурованою інформаціїаналітичний звіт за виявленими в листі, скарзі або заяві інформаційних об`єктів (персони, організації, адреси і т. п.). Також автоматично проводиться аналіз теми звернень, її актуальності в заданий період часу, розподіл заяв на карті міста.

Важливою функцією системи є забезпечення несуперечності відповідей від організації. У великих і територіально розгалужених організаціях відповіді на звернення громадян готують безліч різних співробітників, тому є ризик, що на однакові звернення будуть відправлені різні за змістом офіційні відповіді. Для усунення цього ризику система автоматично надає співробітнику вже оброблені заяви за схожою тематикою і видані на них відповіді.

Інтелектуальний коректор орфографії

Без засоби перевірки орфографії сьогодні не працює жодна система набору тексту. Хвиляста червона лінія дозволяє швидко виправляти грубі помилки і друкарські помилки в документах. Однак звичайні вбудовані засоби перевірки орфографії розпізнають лише прості помилки.

Тому часто виникає необхідність в більш глибокому аналізі грамотності тексту, наприклад, коли формально правильні слова складають безглузду комбінацію або коли помилка складача призводить до зміни змісту тексту, але не є помилкою для звичайного коректора орфографії. Наприклад, помилка в слові «чесний» і отримання слова «приватний» істотно змінить зміст тексту, але ніяк не виявиться засобами звичайної перевірки орфографії.

Правило Парето 80/20, або Як навчитися розуміти, що насправді важливо у вашій роботі (Школа практичної психології)

Інтелектуальний коректор орфографії реалізований з урахуванням подібних помилок, технології аналізу неструктурованої інформації в даному випадку допомагають істотно підвищити грамотність тексту.

Управління підписками і новинними потоками

Гігабайти новин щодня виливаються на сучасного споживача. Соціальні мережі, новинні портали, традиційні ЗМІ намагаються донести свою інформацію через різні канали, часто дублюючи одне одного, так що корисна і потрібна інформація тоне в масі цього відволікаючого увагу сміття. Системи управління підписками на основі технологій аналізу неструктурованої інформації виводять управління новинними потоками на новий рівень.

Відео: Використання прогнозної аналітики і аналізу неструктурованих даних

Автоматично аналізуючи переваги користувача, системи виключають дублювання новинних потоків і допомагають знайти цікаві йому інформаційні ресурси. Важливо зауважити, що аналіз інформаційних переваг споживача здійснюється саме в інтересах самого споживача, а не зовнішнього рекламодавця.

Захист від витоку інформації

Боротьба з недобросовісними співробітниками-інсайдерами, в корисливих цілях використовують доступ до комерційної інформації, актуальна для будь-якої організації. Створення на основі технологій аналізу неструктурованої інформації DLP-систем (Data Loss Prevention) в програмних продуктах дозволяє успішно запобігати витоку конфіденційної інформації.

Отже, можна зробити висновок, що різноманітність програмних рішень на основі технологій аналізу неструктурованої інформації, незважаючи на різні підходи до їх оцінки, є досить ефективними і перспективними для розвитку будь-якої організації.



ІНШЕ

Діловодство компанії фото

Діловодство компанії

Діловодство компанії давно вийшло за рамки діяльності по документуванню і забезпечення документообігу. У сучасному…

Система документообігу фото

Система документообігу

Систему документообігу підприємства можна порівняти з системою кровопостачання людського тіла, що забезпечує доступ…

Документообіг на sharepoint фото

Документообіг на sharepoint

Microsoft SharePoint - одна з найпопулярніших в світі ЄСМ-платформ. Вона призначена для побудови єдиного інформаційного…

» » Аналіз неструктурованою інформації