Namn- och termigenk - PowerPoint PPT Presentation

About This Presentation
Title:

Namn- och termigenk

Description:

Title: Slide 1 Author: Bj rn Erlendsson Last modified by: hemming Created Date: 3/25/2004 2:21:38 PM Document presentation format: Bildspel p sk rmen – PowerPoint PPT presentation

Number of Views:70
Avg rating:3.0/5.0
Slides: 18
Provided by: Bjrn96
Category:

less

Transcript and Presenter's Notes

Title: Namn- och termigenk


1
Namn- och termigenkänning i specialiserade texter
 
  • Cecilia Hemming
  • Högskolan i Skövde
  • Institutionen för Kommunikation och Information
  • Datalingvistik

2
Namn- och termigenkänning
  • Automatisk sammanfattning
  • plocka ut det väsentliga ur en text
  • Informationsextrahering (IE)
  • hitta och presentera relevant information
  • Informationsåtkomst (IR)
  • hitta och presentera relevanta dokument
  • Frågebesvarande system
  • Maskinöversättning

3
Namn och översättning
Jag mötte Usama slänga i soptunnan Laden
I met Usama bin Laden
4
Vad är ett namn?
  • Ett eller flera ord som betecknar
  • person, organisation, plats, datum, tid, valuta,
    procentuttryck.
  • Inte specifikt för en viss domän

5
Namnigenkänning
  • Hitta datum-/tid-/måttsuttryck, telefon/e-post,
  • Identifiera namn och dela in i relevanta
    kategorier
  • Namn på personer, organisationer, platser,
  • Hitta domänspecifika termer
  • namn på biologiska objekt (gener, proteiner,)
  • namn på tekniska objekt (maskiner, maskindelar,
    )

6
Problem
  • Metonymi mer än bara egentlig betydelse
  • Polysemi
  • Maj person eller månad (maj)?
  • Namn eller vanligt ord?
  • Stig Flod
  • Interpunktion, stavning, mellanrum, formatering
  • Olika i olika språk och typer av text
  • Högskolan i Skövde, 541 45 Skövde

, Volvo satsar i Polen
, släpp av mig på Volvo
  • han har en Volvo

plats
produkt
organisation
7
Hur kan namn hittas?
  • Namndatabaser och namnlistor
  • enkelt, snabbt, språkoberoende, anpassningsbart
  • samla/underhålla, hanterar inte
    ambiguitet/varianter
  • Även titta på ords inre struktur
  • Förnamn Ord -gt person (Ola Person)
  • Ord AB, HB, KB, -gt organisation (Bala AB)

8
Databaser/namnlistor ytparsning
(forts.)
  • Dessutom titta på kontexten
  • Ord är enett Adj Plats
  • Göteborg är en trevlig stad.
  • Problem med ytparsning
  • Charles de Gaulle namn, flygplats?
  • Svenska Britt Ekland gör ny film.
  • Högskolan i Skövde Föräldrarna i Bullerbyn

9
Namnigenkänning (engelsk nyhetstext)
The
English-language
Arab
News
reported
on
Monday
that
Prince
refused
to
answer
Nayef
reporters
questions
on
the
arrest
of
Hani
Abdel-Rahim
Hussein
al-Sayegh
English-language
Arab
News
Prince
Nayef
Hani
Abdel-Rahim
Hussein
al-Sayegh
10
Termer
  • lexikal enhet huvudsakligen använd inom specifik
    domän Kageura 2002
  • Ofta sammansättningar
  • Ett eller flera ord
  • Ofta okända (inte i termdatabaser/-listor)

11
Termer och översättning
oil management foothold
oljeledningsfäste
12
Problem med termer exempel från
biomedicinska texter
  • Olika benämningar/kortversioner för samma sak
  • Interleukin-1 beta ? interleukin
  • NF-IL6-beta ? NF IL
  • Samma benämning på flera olika saker
  • Ingen enhetlig standard
  • på hur termer byggs upp
  • TR2
  • interferon alpha-D
  • hur termer skrivs
  • namn, term eller vanlig nominalffras?
  • Enkla termer, minst 6 olika skrivsätt
  • EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1

13
Komplexa termer
  • -- NF Kappa B
  • alltid stor inledande bokstav och mellanslag
  • -- NF kappa B --
  • ingående ord skrivs med liten bokstav
  • -- NF kappaB --
  • vissa delar av namnet skrivs ihop
  • -- NFkappaB --
  • alla delar skrivs ihop

14
Länka akronymer till namn på biologiska objekt
From previous
procedure
Is the acronym
Mark the words inside
followed by ( and a
Place pointer at the first
Find next acronym
the () as Named Entity
Yes
No
word beginning whith
word in the sentence
and link to the acronym
L1
No
Find the Nth word beginning
L1 First Letter in the
in L1 to the left of the
acronym
Within
parentheses and mark that
Found?
N Number of
Yes
Yes
Yes
parentheses
word and the rest of the left
occurrences of L1 in the
side context as Named Entity
acronym
and link to the acronym
No
To next procedure
(Named Entity Recognition
shown in Figure 4)
p16INK4a
(
)
There
are
aslo
tumorrelated
genes
like
NF2
neurofibromatose of type 2
.
(
)
belongs
to
a
group
cell
cycle
regulator
called
cyclin
dependent
kinase
inhibitors
CDKI
.
15
  • Tack för mig!

16
Syntaktiska termbildningsmönster
  • Språkspecifika bildningsmönster
  • svenska nounnoun -gt
  • franska noun prep noun/verb
  • Swedish noun-2noun-1 (modifierarehuvud) -gt
  • French noun-1 prep noun-2 (huvud prep
    modifierare)
  • oljekanal canalisation à huile
  • bränsleledning conduite de carburant

17
Semantiska koncept
  • Term lingvistisk representation för ett
    domänspecifikt koncept
  • Viktiga semantiska koncept för en domän ?
    relevanta termer för domänen
  • För att kunna översätta en sammansatt term krävs
    korrekt semantisk tolkning
  • t.ex. val av preposition
  • de om modifierande substantiv uttrycker vad ngt
    är avsett för
Write a Comment
User Comments (0)
About PowerShow.com