Besz - PowerPoint PPT Presentation

About This Presentation
Title:

Besz

Description:

... there's mounting interest in effectively using speech technology in multimodal and cross-channel ... Voice biometrics -- – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 39
Provided by: Taka3
Category:

less

Transcript and Presenter's Notes

Title: Besz


1
Beszédfelismerés és beszédszintézis
  • Takács György
  • 1. eloadás
  • 2014. 02. 11.

2
A beszédtárgy szerepe a PPKE informatikus
képzésben
  • A jelelméletrol, kódelméletrol, jelfeldolgozásról
    általában, képfeldolgozásról speciálisan,
    kommunikációs rendszerekrol általában már sok
    ismeret összegyult.
  • Egy jellegzetesen szintetizáló tárgy. Sokrétu
    alapon, sokfelé kitekintéssel dolgozik.
  • A beszéd régebbi, hatékonyabb, emberibb
    kommunikációs forma, mint az írás!
  • Az emberi beszédfolyamat másként összetett, mint
    a számítógépek folyamatai.
  • A beszédtechnológiák másként összetettek, mint az
    írott-nyelv technológia.

3
Mivel foglalkozik ez a tantárgy?
  • A beszéddel, mint akusztikai jelenséggel
  • A beszéddel, mint nyelvi jelenséggel
  • Az emberi beszédkeltés folyamatával
  • Az emberi beszédérzékelés folyamatával
  • Mesterséges beszédfunkciókkal és alkalmazásokkal
  • Beszéd gépi felismerése
  • Mesterséges beszéd, beszédszintézis
  • Beszélo személy felismerése
  • Beszédkódolással, beszédtömörítéssel

4
Mivel nem foglalkozik ez a tantárgy (pedig szép
és érdekes lenne -- s ha van komoly érdeklodo
kutathat)
  • A beszédfeldolgozás történeti kérdéseivel
  • A szép beszéddel (eufonetika)
  • Beszédtisztítással (speech enhancement)
  • Beszédmanipulációval (voice transformation)
  • Beszédkiejtés-javítás gépi segédeszközeivel
  • Sérültek beszédkommunikációját segíto eszközökkel
  • Hangfájlok szerkezetével, kezelésével,
    szerkesztésével.
  • Párbeszéd -rendszerekkel amelynek elemei a
    természetes beszéd megértése, a dialógus
    irányítása, a válaszok és kérdések generálása és
    kimondása.
  • Beszéd gépi fordításával (spoken language
    translation)
  • Hallhatatlan beszéddel (silent speech)
  • Kulcsszavak keresésével a folyamatos beszédben
    (word spotting)
  • Magyar beszéd és a magyarok eredete.

5
Tantárgyprogram I.
6
Tantárgyprogram II.
7
Tankönyv, jegyzet, segédanyagok.
  • Eloadások (szokás szerint) a honlapon
  • Új tankönyv van, de nagyon vastag
  • A régi elavult és nem kapható!
  • Nagyon jó CD oktatóanyag van! Nyelvtudományi
    Intézet Fonetikai kutatólaboratóriuma készítette.
    Jogvédett! Csak korábbi böngészokkel fut!!!!

8
Tárgykövetelmények
  • Az eloadásokat célszeru látogatni
  • A laboratóriumi gyakorlatok kötelezok
  • Minden mérési feladatot teljesíteni kell
  • Minden méréskor kicsi ZH (hogy ne jöjjenek
    felkészületlenül felkészülés a vonatkozó
    eloadás alapján)
  • Szóbeli vizsga magyar nyelven, az aláírás
    feltétele eredményes ZH, teljesített mérések.
  • Lehet egyéni vállalást tenni (pl. mérés
    elokészítés stb.)
  • Érdeklodoknek korlátlan TDK lehetoségek
  • Önálló labor és szakdolgozat feladatok
    választhatók a témában

9
Néhány beszédminta elmélkedésre
  • Nehezen értheto beszéd
  • Jól értheto beszéd, pedig énekelt..

10
Miért különleges információhordozó a beszéd?
  • Sötétben is mindent kifejez
  • Álmunkban is megértjük.. Kb. 20dB szinttel
    halkabban elég a nevünket hallani az ébredéshez,
    mint egyéb szöveget
  • Az ember információ befogadó sebessége kb. 50
    bit/másodperc!!!!!!!!!! Ebbol kb. 2/3 rész a
    hallás!!!!!!!!!!!!
  • Óriási redundanciája van a kabaré
    artikulálatlan hadarását is megértjük, de csak az
    anyanyelv és a háttérismeretek birtokosai!!!!!!!!!
    !!
  • A nyelv (beszéd) segítségével szinte minden
    kifejezheto.

11
Feladatmegoldás különbözo kommunikációs módoknál
12
(No Transcript)
13
(No Transcript)
14
Massachusetts Institute of Technology
15
(No Transcript)
16
(No Transcript)
17
Institut de la Communication ParléeUMR CNRS 5009
- INPG -  Université StendhalINP Grenoble
18
(No Transcript)
19
(No Transcript)
20
(No Transcript)
21
(No Transcript)
22
  • ELTE BTK
  • A Fonetikai Tanszékállandó (kötelezo) és
    választható kurzusainak leírása
  • Fonetika (szeminárium) Óraszám 2 Kreditszám 2
  • A fonetika vizsgálati területeinek, a beszéd
    szegmentális (beszédhangok rendszere és
    sajátosságai) és szupraszegmentális szerkezetének
    (intonáció, hangsúly, tempó, szünet,
    hangszínezet, hangerosség), az elemzési
    lehetoségek megismerése a fiziológiai,
    akusztikai és percepciós beszédvizsgálatok
    összefüggéseinek bemutatása, a fonetikai elemzés
    sajátosságainak elsajátíttatása.

23
  • Pszicholingvisztika (eloadás) Óraszám 1
    Kreditszám 2
  • A pszicholingvisztika kialakulása, elozményei,
    kutatási területei, sajátos módszertana, elmélet
    és gyakorlat (pedagógia, pszichológia,
    mesterséges intelligencia) viszonya. A nyelv és a
    beszéd vezérlése az agy, felépítése, agymuködési
    elméletek.

24
  • Kísérleti és alkalmazott fonetika - eloadás, heti
    2 óra.
  • Bevezeto és összegzo eloadás, amely megismerteti
    a hallgatót a tárgykörrel, a hazai és nemzetközi
    eredményekkel, kísérleti megközelítésekkel,
    valamint a megoldásra váró problémákkal. A
    tantárgy elokészíti a kísérleti fonetika
    artikulációs, akusztikai és percepciós
    vizsgálatának, valamint a beszédtechnológiai
    alapismereteknek (mesterséges beszédeloállítás,
    beszédfelismerés, a beszélo személy azonosítása,
    jelfeldolgozás stb.) az oktatását.

25
  • Beszédképzés és akusztikum I. - szegmentális
    fonetika - szeminárium, heti 2 óra
  • A beszédhangok, hangkapcsolatok és hangsorok
    létrehozásának fiziológiai sajátosságait és annak
    akusztikai következményeit tárgyalja. A tantárgy
    a beszédhangok képzésével, a hangátmenetekkel, a
    koartikuláció jelenségével, illetoleg mindezek
    elemzési lehetoségeivel, kísérleti vizsgálatával
    foglalkozik.
  • Beszédképzés és akusztikum II. -
    szupraszegmentális fonetika - szeminárium, heti 2
    óra
  • A kurzus a beszéd szupraszegmentumait
    (beszéddallam, hangsúly, tempó, ritmus, szünet,
    hangszínezet) tárgyalja a képzés és az akusztikai
    sajátosságok szempontjából, elemzési
    gyakorlatokkal.

26
  • Beszédtechnológia - szeminárium, heti 2 óra
  • A beszédkutatás eredményeinek egyfajta gyakorlati
    alkalmazásaival foglalkozik. Kitér a
    beszédszintézis és a mesterséges beszédfelismerés
    fonetikai vonatkozásaira, a muködo rendszerek
    ismertetésére, a jelfeldolgozás aktuális
    kérdéseire, valamint a beszélo személy
    felismerésének (azonosításának) fonetikai
    sajátosságaira.

27
(No Transcript)
28
A tanegység neve Hangtan (fonetika) A tanegység
kódszáma GL 110
A felelos oktató neve Szende Tamás, Szépe Judit
1. A hangtani leírás szintje Fonetika és
fonológia, egység és elhatárolás, Beszédhang
és fonéma, A fonetika tárgykörei beszédképzés,
beszédakusztika, beszédpercepció, A
fonetika hagyományos módszerei artikulációs és
akusztikai vizsgálati eljárások 2. A
beszédképzo szervek és a zöngeképzés
mechanizmusa A beszédképzo szervek funkciói, A
beszédcsatorna felépítése, Alaphang és
magánhangzó-minoség 3. Az akadályképzés 4. A
beszédképzo szervek lehetséges muködésmódjainak
típusai A forrás dimenziója, A
képzomozzanatok keletkezési helyének, ill. a
képzoszervek konfigurációinak a dimenziója, A
muködésmód, a muködésintenzitás dimenziója, A
folyamatdimenzió 5. A magánhangzók képzési
dimenziói 6. A mássalhangzók képzési dimenziói
7. Artikulációs alapú mássalhangzó-osztályozás
az akadály típusa, az akadályképzés helye szerint
8. Fonetikai átírási rendszerek Az
IPA-átírás, A Setälä-féle átírás, Az egyezményes
magyar átírás. Tankönyv, jegyzet Kassai Ilona
Fonetika. Nemzeti Tankönyvkiadó, Budapest
1998. Szépe Judit Hangtan. PPKE BTK, Piliscsaba
2000.
29
  • Mik a fobb fejlodési irányok?
  • Meggazdagodott-e már valaki beszédfelismerés vagy
    beszédszintézis termékeken?

30
Three Trends to Watch in 2013 Speech Technology
  • In smartphone use, there's mounting interest in
    effectively using speech technology in multimodal
    and cross-channel environments. This development
    requires voice user interface (VUI) and graphical
    user interface (GUI) designers to work together
    and create fully integrated applications.
  • The creation of voice-enabled virtual assistants
    for the enterprise. Unlike Siri, these virtual
    assistants are designed for business purposes.
    Siri is the intelligent personal assistant that
    helps you get things done just by asking. It
    allows you to use your voice to send messages,
    schedule meetings, place phone calls, and more.
    Siri is available for iPhone 5, iPhone 4S, iPad
    with Retina display, iPad mini, and iPod touch
    (5th generation).
  • Voice biometrics -- "Your Voice Is Your
    Password -- voiceprints (hanglenyomat?)

31
(No Transcript)
32
(No Transcript)
33
(No Transcript)
34
(No Transcript)
35
(No Transcript)
36
(No Transcript)
37
(No Transcript)
38
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com