Jotta voimme oppia enemmän asiakkaista, ilmiöistä ja trendeistä, tarvitsemme paremmat valmiudet analysoida kieltä, jolla kommunikoimme. Tarkoitan siis strukturoimattoman tekstidatan analysointia, mikä on ollut kuuma puheenaihe jo viimeiset pari vuotta. Ja syystäkin, sillä noin 70-­80 % organisaatioiden datasta on järjestämätöntä ja sen hyödyt ovat valtaosalla yrityksistä vielä valjastamatta. Käydäänpä seuraavaksi läpi mikä tekee tekstidatasta arvokasta, miksi nykyiset lähestymismallit eivät pureudu tarpeeksi syvälle ja mitä tulevaisuuden näkymiä tekstidataan liittyy.

Miksi tekstidata on niin arvokasta?

Tekstidatalla on poikkeuksellisia piirteitä verrattuna numeeriseen dataan. Tässä muutama esimerkki sen eduista liiketoiminnan näkökulmasta.

  • Se pystyy ilmaisemaan asiakkaiden tarpeita, asenteita ja mieltymyksiä.
  • Sitä syntyy yrityksen kaikissa rajapinnoissa, viestintäkanavissa, sekä mediassa.
  • Se välittää laadullista tietoa, mikä ei ilmene numeerisista mittareista.
  • Sitä on vapaasti saatavilla eri toimialoista, kilpailijoista, sekä potentiaalisista asiakasryhmistä.

Pintaraapaisu tekstidatasta

Tekstianalyysi ei ole uusi aihe. Sentimenttianalyysit sekä muut mittarit ovat perus kauraa tänä päivänä. Ne eivät kuitenkaan pureudu kovinkaan syvälle tekstin sisältämään tietoon, sillä ne keskittyvät vain tekstivirran kääntämiseen mittauskelpoiseen muotoon. Niillä on helppo saavuttaa matalalla roikkuvat hedelmät, mutta jäljelle jää yhä tekstissä piilevä arvokas laadullinen tieto. Pintaraapaisu voi johtua valitusta analyysimetodista. Esimerkiksi edellä mainittu sentimenttianalyysi perustuu “bag­of­words” mallinnustapaan, jonka suosiota selittää sen helppous ja nopeus. Se käytännössä mittaa yksittäisten sanojen määrää tekstissä, mutta ei huomioi sanojen järjestystä, kontekstia tai kielioppia. Esimerkiksi lause “The experience was decent, but far away from the worst one.” hämmentää monet englannin kieleen erikoistuneet sentimenttialgoritmit, joka perustavat tuloksensa vain negatiivisten sanojen lukumäärään huomioimatta lauseen sanajärjestystä. Miksi siis tyytyä ratkaisuihin, jotka eivät pääse pintaa syvemmälle? Vilkaistaan seuraavaksi kehittyneempiä keinoja, jotka voivat ratkaista nämä ongelmatilanteet.

Screen Shot 2016-09-06 at 09.15.08

Porautuminen syvemmälle tekstidataan

Jos haluamme todella ymmärtää twiittiä, uutista tai blogia sen oikeassa merkityksessä, on selvää, että tekstin kielioppi ja rakenne on huomioitava. Edistyneempi mallinnustekniikka Semantic Parsin pystyy erottamaan koneoppimisen avulla lauseen eri osat ­ subjekti, objekti ja predikaatti ­ sekä niiden keskinäiset suhteet. Mitä tämä ero merkitsee analyysin kannalta? Se merkitsee paljon! Esimerkiksi tällä hetkellä saattaisimme etsiä tekstidatasta yksittäisiä sanoja, jotka kertovat asiakkaiden suhtautumisesta uuteen tuotteeseen. Kaikesta huolimatta sanoista “hinta”, “halpa” ja “kilpailija” voi olla hyvin vaikea, ellei mahdoton, tehdä luotettavaa johtopäätöstä asiakkaiden mielipiteistä (edes kaunis sanapilvi ei helpota päätöstä). Tämän vuoksi tekstianalyysin on pystyttävä vastaamaan siihen kuinka yksittäiset sanat liittyvät toisiinsa, jotta se voi tukea oikeaa päätöksentekoa. Toiminnallinen tieto, jonka Semantic Parsing pystyisi kaivamaan esille, voisi olla samassa esimerkissä “asiakkaat pitävät tuotteen hintaa halpana verrattuna kilpailijoihin”.

Kohti rikkaampaa tekstianalyysiä

Pureutuminen syvälle tekstin pinnan alle vaatii paljon osaamista ja vaivaa. Lisäksi sen toteuttaminen suomen kielellä tietää haasteita, sillä tarvittavat kielikirjastomme ovat yhä suppeita, mikä saattaa rajoittaa tekstianalyysin tekemistä. Onneksi “natural language processing” on saanut kasvavasti huomiota viime vuosina ja onkin todennäköistä, että myös markkinoinnin kentälle alkaa piakkoin laskeutua valmiita ratkaisuja kyseiseen ongelmaan. Mikäli kiinnostuit aiheesta, suosittelen lämpimästi katsomaan Yoav Artzin havainnollistavan videosarjan Semantic Parsin ­tekniikasta. Seuraavaksi siis valmistelemaan yrityksen dataprosessit taisteluvalmiuteen tekstianalyysiä varten!

Subscribe to Email Updates