Dabiskās valodas apstrādes apmācība: kas ir NLP? Piemēri

Kas ir dabiskās valodas apstrāde?

Dabiskās valodas apstrāde (NLP) ir mākslīgā intelekta nozare, kas palīdz datoriem saprast, interpretēt un manipulēt ar cilvēku valodām, piemēram, angļu vai hindi, lai analizētu un atrastu tās nozīmi. NLP palīdz izstrādātājiem organizēt un strukturēt zināšanas, lai veiktu tādus uzdevumus kā tulkošana, apkopošana, nosaukto vienību atpazīšana, attiecību iegūšana, runas atpazīšana, tēmu segmentēšana utt.

Šajā dabiskās valodas apstrādes apmācībā jūs uzzināsit NLP jēdzienus, piemēram:

NLP vēsture

Šeit ir svarīgi notikumi dabiskās valodas apstrādes vēsturē:

1950- NLP sākās, kad Alans Turings publicēja rakstu ar nosaukumu “Mašīna un inteliģence”.

1950- Mēģinājumi automatizēt tulkošanu starp krievu un angļu valodu

1960- Chomsky un citu darbs pie formālās valodas teorijas un ģeneratīvās sintakses

1990- Varbūtības un uz datiem balstīti modeļi bija kļuvuši diezgan standarta

2000- Kļūst pieejams liels daudzums mutisku un teksta datu

Tālāk šajā NLP apmācībā mēs uzzināsim, kā darbojas NLP.

Kā darbojas NLP?

Pirms mēs uzzinām, kā darbojas NLP, sapratīsim, kā cilvēki lieto valodu-

Katru dienu mēs sakām tūkstoš vārdu, ko citi cilvēki interpretē, lai veiktu neskaitāmas lietas. Mēs to uzskatām par vienkāršu saziņu, taču mēs visi zinām, ka vārdi ir daudz dziļāki. Vienmēr ir kāds konteksts, ko mēs iegūstam no tā, ko mēs sakām un kā mēs to sakām., NLP Mākslīgais intelekts nekad nekoncentrējas uz balss modulāciju; tas balstās uz konteksta modeļiem.

Piemērs:

 Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen 

Šeit mēs varam viegli sadarboties, jo vīrietis ir vīriešu dzimums, bet sieviete-sieviešu dzimums. Tādā pašā veidā karalis ir vīrišķais dzimums, un tā sieviešu dzimums ir karaliene.

Piemērs:

 Is King to kings as the queen is to_______? The answer is--- queens 

Šeit mēs varam redzēt divus vārdus karaļi un ķēniņi, kur viens ir vienskaitlis, bet otrs - daudzskaitlis. Tāpēc, atnākot pasaules karalienei, tā automātiski tiek saistīta ar karalienēm, kas ir vienskaitlī.

Šeit lielākais jautājums ir tāds, kā mēs zinām, ko nozīmē vārdi? Teiksim, kurš to sauks par karalieni?

Atbilde ir tāda, ka mēs to mācāmies, izmantojot pieredzi. Tomēr šeit galvenais jautājums ir tas, kā dators zina par to pašu?

Mums jāsniedz pietiekami daudz datu, lai mašīnas varētu mācīties, izmantojot pieredzi. Mēs varam pabarot tādu informāciju kā

  • Viņas Majestāte Karaliene.
  • Karalienes runa valsts vizītes laikā
  • Karalienes Elizabetes kronis
  • Karalienes māte
  • Karaliene ir dāsna.

Iepriekš minētajos piemēros mašīna saprot entītiju Queen.

Iekārta izveido vārdu vektorus, kā norādīts zemāk. Vārdu vektors tiek veidots, izmantojot apkārtējos vārdus.

Iekārta izveido šos vektorus

  • Kā tas mācās no vairākām datu kopām
  • Izmantojiet mašīnmācīšanos (piemēram, dziļās mācīšanās algoritmus)
  • Vārdu vektors tiek veidots, izmantojot apkārtējos vārdus.

Šeit ir formula:

Nozīme (karalis) - nozīme (vīrietis) + nozīme (sieviete) =?

Tas nozīmē vienkāršu algebrisko darbību veikšanu vārdu vektoros:

Vektors (karalis) - vektors (vīrietis) + vektors (sieviete) = vektors (?)

Uz ko mašīna atbild karalienei.

Tālāk šajā dabiskās valodas apstrādes apmācībā mēs uzzināsim par NLP komponentiem.

NLP sastāvdaļas

Piecas galvenās dabiskās valodas apstrādes sastāvdaļas AI ir:

  • Morfoloģiskā un leksiskā analīze
  • Sintaktiskā analīze
  • Semantiskā analīze
  • Diskursa integrācija
  • Pragmatiskā analīze

NLP sastāvdaļas

Morfoloģiskā un leksiskā analīze

Leksiskā analīze ir vārdnīca, kas ietver tās vārdus un izteicienus. Tas attēlo vārdu struktūras analīzi, identificēšanu un aprakstu. Tas ietver teksta sadalīšanu rindkopās, vārdos un teikumos

Atsevišķi vārdi tiek analizēti to sastāvdaļās, un bez vārda marķieri, piemēram, pieturzīmes, tiek atdalīti no vārdiem.

Semantiskā analīze

Semantiskā analīze ir struktūra, ko izveidojis sintaktiskais analizators, kas piešķir nozīmes. Šis komponents pārnes lineāras vārdu secības struktūrās. Tas parāda, kā vārdi ir saistīti viens ar otru.

Semantika koncentrējas tikai uz vārdu, frāžu un teikumu burtisko nozīmi. Tas tikai abstrahē vārdnīcas nozīmi vai patieso nozīmi no dotā konteksta. Sintaktikas analizatora piešķirtajām struktūrām vienmēr ir piešķirta nozīme

Piemēram, 'bezkrāsaina zaļa ideja.' Symantec analīze to noraidītu kā šeit bezkrāsainu; zaļam nav nekādas jēgas.

Pragmatiskā analīze

Pragmatiskā analīze attiecas uz vispārējo komunikatīvo un sociālo saturu un tā ietekmi uz interpretāciju. Tas nozīmē abstrakti vai jēgpilnas valodas lietošanas atvasināšanu situācijās. Šajā analīzē galvenā uzmanība vienmēr tiek pievērsta tam, kas tika teikts, atkārtoti interpretējot to, kas ir domāts.

Pragmatiskā analīze palīdz lietotājiem atklāt šo paredzēto efektu, piemērojot noteikumu kopumu, kas raksturo sadarbības dialogus.

Piemēram, 'aizvērt logu?' ir jāinterpretē kā pieprasījums, nevis rīkojums.

Sintakses analīze

Vārdi parasti tiek uzskatīti par mazākajām sintakses vienībām. Sintakse attiecas uz principiem un noteikumiem, kas nosaka atsevišķu valodu teikumu struktūru.

Sintakse koncentrējas uz pareizu vārdu secību, kas var ietekmēt tā nozīmi. Tas ietver teikuma vārdu analīzi, ievērojot teikuma gramatisko struktūru. Vārdi tiek pārveidoti struktūrā, lai parādītu, kā vārds ir savstarpēji saistīts.

Diskursa integrācija

Tas nozīmē konteksta izjūtu. Jebkura teikuma nozīme, kas ir atkarīga no šiem teikumiem. Tajā tiek ņemta vērā arī nākamā teikuma nozīme.

Piemēram, vārds “tas” teikumā “Viņš to gribēja” ir atkarīgs no iepriekšējā diskursa konteksta.

Tālāk šajā NLP apmācībā mēs uzzināsim par NLP un rakstīšanas sistēmām.

NLP un rakstīšanas sistēmas

Valodai izmantotā rakstīšanas sistēma ir viens no noteicošajiem faktoriem, nosakot labāko pieeju teksta pirmapstrādei. Rakstīšanas sistēmas var būt

  1. Logogrāfija: liels skaits atsevišķu simbolu apzīmē vārdus. Japāņu, mandarīnu piemērs
  2. Zilbju: atsevišķi simboli attēlo zilbes
  3. Alfabēts: atsevišķi simboli attēlo skaņu

Lielākā daļa rakstīšanas sistēmu izmanto zilbju vai alfabēta sistēmu. Pat angļu valodā ar salīdzinoši vienkāršo rakstīšanas sistēmu, kuras pamatā ir romiešu alfabēts, tiek izmantoti logogrāfiskie simboli, kas ietver arābu ciparus, valūtas simbolus (S, £) un citus īpašus simbolus.

Tas rada sekojošus izaicinājumus

  • No teksta izvilkt nozīmi (semantiku) ir izaicinājums
  • NLP AI ir atkarīgs no korpusa kvalitātes. Ja domēns ir plašs, ir grūti saprast kontekstu.
  • Pastāv atkarība no rakstzīmju kopas un valodas

Kā ieviest NLP

Tālāk ir dotas populāras dabiskā mācību procesa metodes:

Mašīnmācība: Mašīnmācīšanās laikā izmantotās mācību nlp procedūras. Tas automātiski koncentrējas uz visbiežāk sastopamajiem gadījumiem. Tātad, kad mēs rakstām noteikumus ar rokām, tas bieži vien nav pareizi, ja uztraucas par cilvēku kļūdām.

Statistikas secinājums: NLP var izmantot statistikas secinājumu algoritmus. Tas palīdz jums izveidot izturīgus modeļus. piem., satur vārdus vai struktūras, kas ir zināmi visiem.

NLP piemēri

Mūsdienās dabisko procesu apguves tehnoloģija ir plaši izmantota tehnoloģija.

Šeit ir izplatītas dabiskās valodas apstrādes metodes:

Informācijas izgūšana un meklēšana tīmeklī

Google, Yahoo, Bing un citas meklētājprogrammas savu mašīntulkošanas tehnoloģiju pamatā ir NLP dziļās mācīšanās modeļi. Tas ļauj algoritmiem lasīt tekstu tīmekļa lapā, interpretēt tā nozīmi un tulkot to citā valodā.

Gramatikas labojums:

NLP tehniku ​​plaši izmanto tekstapstrādes programmatūra, piemēram, MS-word, pareizrakstības labošanai un gramatikas pārbaudei.

Atbildes jautājums

Ierakstiet atslēgvārdus, lai uzdotu jautājumus dabiskā valodā.

Teksta kopsavilkums

Svarīgas informācijas apkopošanas process no avota, lai izveidotu saīsinātu versiju

Mašīntulkošana

Datorprogrammu izmantošana teksta vai runas tulkošanai no vienas dabiskās valodas citā.

Sajūtu analīze

NLP palīdz uzņēmumiem analizēt lielu skaitu atsauksmju par produktu. Tas arī ļauj saviem klientiem sniegt pārskatu par konkrēto produktu.

NLP nākotne

  • Cilvēka lasāma dabiskās valodas apstrāde ir lielākā Al- problēma. Tas viss ir tas pats, kas atrisināt centrālo mākslīgā intelekta problēmu un padarīt datorus tikpat inteliģentus kā cilvēki.
  • Nākotnes datori vai mašīnas ar NLP palīdzību varēs mācīties no tiešsaistē pieejamās informācijas un pielietot to reālajā pasaulē, tomēr šajā sakarā ir daudz jāstrādā.
  • Dabiskās valodas rīkkopa jeb nltk kļūst efektīvāka
  • Kopā ar dabiskās valodas ģenerēšanu datori kļūs spējīgāki saņemt un sniegt noderīgu un atjautīgu informāciju vai datus.

Dabiskā valoda pret datoru valodu

Zemāk ir galvenās atšķirības starp dabisko valodu un datoru valodu:

ParametrsDabiskā valodaDatoru valoda
NeskaidrsPēc būtības tie ir neviennozīmīgi.Tie ir izstrādāti tā, lai būtu nepārprotami.
AtlaišanaDabiskās valodas izmanto daudz atlaišanas.Formālās valodas ir mazāk liekas.
BurtiskumsDabiskās valodas veido idioma un metaforaFormālās valodas nozīmē tieši to, ko viņi vēlas pateikt

NLP priekšrocības

  • Lietotāji var uzdot jautājumus par jebkuru tēmu un dažu sekunžu laikā saņemt tiešu atbildi.
  • NLP sistēma sniedz atbildes uz jautājumiem dabiskā valodā
  • NLP sistēma piedāvā precīzas atbildes uz jautājumiem, bez liekas vai nevēlamas informācijas
  • Atbilžu precizitāte palielinās līdz ar jautājumā sniegtās būtiskās informācijas daudzumu.
  • NLP process palīdz datoriem sazināties ar cilvēkiem viņu valodā un veic citus ar valodu saistītus uzdevumus
  • Ļauj bez noguruma un objektīvi un konsekventi veikt vairāk valodu balstītu datu salīdzinājumu ar cilvēku.
  • Strukturēt ļoti nestrukturētu datu avotu

NLP trūkumi

  • Sarežģīta vaicājumu valoda- sistēma var nespēt sniegt pareizo atbildi uz slikti formulētu vai neskaidru jautājumu.
  • Sistēma ir paredzēta tikai vienam un konkrētam uzdevumam; ierobežoto funkciju dēļ tā nevar pielāgoties jauniem domēniem un problēmām.
  • NLP sistēmai nav lietotāja saskarnes, kurai trūkst funkciju, kas ļautu lietotājiem turpināt mijiedarboties ar sistēmu

Kopsavilkums

  • Dabiskā valodas apstrāde ir AI nozare, kas palīdz datoriem saprast, interpretēt un manipulēt ar cilvēku valodu
  • NLP sākās, kad Alans Turings publicēja rakstu ar nosaukumu “Mašīna un izlūkošana”.
  • NLP nekad nekoncentrējas uz balss modulāciju; tas balstās uz konteksta modeļiem
  • Mākslīgā intelekta dabiskās valodas apstrādes piecas būtiskas sastāvdaļas ir 1) morfoloģiskā un leksiskā analīze 2) sintaktiskā analīze 3) semantiskā analīze 4) diskursa integrācija 5) pragmatiskā analīze
  • Trīs dabiskā procesa rakstīšanas sistēmas veidi ir 1) Logogrāfiskais 2) Zilbiskais 3) Alfabētiskais
  • Mašīnmācīšanās un statistikas secinājumi ir divas dabiskā procesa apguves metodes
  • NLP galvenie pielietojumi ir informācijas izgūšana un meklēšana tīmeklī, atbildes uz gramatikas labošanas jautājumiem, teksta apkopojums, mašīntulkošana utt.
  • Nākotnes datori vai mašīnas ar NLP un datu zinātnes palīdzību varēs mācīties no tiešsaistē pieejamās informācijas un pielietot to reālajā pasaulē, tomēr šajā jomā ir daudz jāstrādā
  • NLP ir neskaidrs, bet atvērtā pirmkoda datora valoda ir veidota tā, lai būtu nepārprotama
  • Lielākā NLP priekšrocība mākslīgā intelekta sistēmā ir tā, ka tā piedāvā precīzas atbildes uz jautājumiem, bez liekas vai nevēlamas informācijas
  • Lielākais NLP sistēmas trūkums ir paredzēts tikai vienam un konkrētam uzdevumam, tāpēc ierobežoto funkciju dēļ tā nevar pielāgoties jauniem domēniem un problēmām