Askel kohti ihmisen ja koneen yhteispeliä
Suuri osa maailmassa olevasta tiedosta ei ole rakenteisessa muodossa. Ihmiset kommunikoivat luontevasti tekstinä, koneet taulukoina. NLP eli luonnollisen kielen käsittely mahdollistaa asioiden rakenteistamisen vapaasta tekstistä, jolloin tieto saadaan analytiikan ymmärtämään muotoon.

Tyypillinen NLP-käyttötapaus on yksittäisten asioiden löytäminen tekstistä. Esimerkkinä tästä on ongelma terveydenhoitopuolelta: potilaskertomuksista halutaan löytää maininnat tupakoinnista, piilevistä sairauksista, päihteiden käytöstä tai muusta asiasta, johon voidaan vaikuttaa vastaanotolla tai hoidossa. Usein tekstimuotoista tietoa on kuitenkin liikaa kerralla hahmotettavaksi.
Lääkärien näkökulmasta vapaa kirjaus on monessa tilanteessa tarkin ja helpoin tapa kuvata tilanne ja toimenpiteet. Koneen kannalta tilanne on haastava. Tähän ongelmaan NLP-rakenteistaja tarjoaa avun.
NLP rakenteistaa erilaiset dokumentit
Huoltodokumenttien tulkinnalla on paljon yhtäläisyyksiä potilaskertomustekstien NLP-käsittelyn kanssa. Potilaskertomusteksteissä toistuvat asiat, kuten diagnoosit, oireet ja toimenpiteet, voidaan irrottaa tekstistä ja esittää taulukkomuodossa. Huoltokertomus sen sijaan kertoo mitä on huollettu, mitä osia vaihdettu ja koska huolto on tehty.
Huoltodokumentteja tulkitsemalla voidaan muodostaa rakenteista dataa, jonka avulla voidaan paremmin mallintaa huollon tarvetta ja päästä kohti ennakoivaa kunnossapitoa.
Graafineuroverkot tekevät myös tuloaan ja niitä voidaan soveltaa erityisesti dokumenttien rakenteistamiseen. Niillä sujuu PDF-muotoisten dokumenttien automaattinen rakenteistaminen, tiedon verifiointi ja siirto rajapinnan tai ohjelmistorobotin avulla ERP:iin.
Avoimet mallit mahdollistavat paljon
Edistyneet kielimallit on kehitetty isolla määrällä tutkimustyötä ja dataa, joihin tyypillisesti on pääsy vain harvalla taholla. Se onkin kallista ja aikaavievää puuhaa. Onneksi mallit ovat usein avoimia, eli niitä voidaan hyödyntää pienilläkin resursseilla.
Monikielisyystuki on parantunut siinä missä tarkkuuskin. Erikoisenkin materiaalin luokittelussa pääsee liikkeelle pienellä määrällä opetusdataa, kun voi käyttää esiopetettua mallia. Esimerkiksi BERT on käypä peli ja kirjastoista löytyy hyvä tuki kielimalleille.
Uusia käyttökohteita syntyy vauhdilla
ChatGPT:n ja muiden vastaavien mallien avulla voidaan tuottaa uskottavaa feikkidataa, joka auttaa mallien kehityksessä aloilla, jossa alkuperäisen (sensitiivisen) aineiston saaminen on hankalaa.
Uudet kielimallit mahdollistavat myös generatiiviset käyttötapaukset: kielimallien avulla saadaan luotua tai muokattua tekstisisältöä ohjeiden mukaan.
Säännöllisillä lausekkeilla on silti edelleen paikkansa. Niillä voidaan tunnistaa helpompia sananparsia ja käyttää esifiltterinä monimutkaisemmille kielimalleille, kuten BERT:lle.
Ota askel kohti ihmisen ja koneen yhteispeliä
Rakenteinen kirjaaminen on työlästä, olipa kohteena mikä tahansa tieto. NLP-mallilla voidaan toteuttaa työkaluja, joilla ihminen voi tehdä työnsä helposti – ja silti tuottaa analytiikan ymmärtämää kieltä.
Olemme tehneet uusimpiin kielimalleihin perustuvia neuroverkkopohjaisia NLP-ratkaisuja, etsineet aiheita potilaskertomuksista ja peittäneet henkilötietoja vapaatekstistä. Käyttäen uusimpia julkaistuja työkaluja ja avoimia kielimalleja tuotamme nopeasti prototyypin, jolla uusia ideoita voidaan testata nopeasti ja pienin kustannuksin.
Referensseistämme voit lukea tarkemmin projekteista, joissa autoimme Cambria markkinatutkimuksen NLP-kehityksessä sekä toteutimme NLP-pohjaisia ratkaisuja osana Tietoevryn tiimejä.
Miten liikkeelle?
Autamme yritystäsi tunnistamaan liiketoimintaan, tuotteeseen tai prosesseihin sopivat käyttötapaukset, joissa NLP-pohjaisista ratkaisuista on hyötyä.
Määrittelyn jälkeen keräämme ja esikäsittelemme aineiston sopivaan muotoon mahdollistamaan tehokkaan NLP-kehitystyön.
Prototyyppivaiheen jälkeen viemme todistetusti toimivan NLP-aihion tuotantokelpoiseksi ratkaisuksi edistämään yrityksesi liiketoimintaa.