Menu

Feature Analysis of Speech

Phonemes bestaan uit drie (en misschien meer) features:

Consonantal feature: the quality in the phoneme of having a consonantlike property (in contrast to vowels). Consonant betekent “spraak geproduceerd door een stop of tijdelijke stop van de adem” of “medeklinker” of “harmonieus. Het boek gaat hier verder niet op in, en het is dus een zeer vaag begrip.

Voicing: het gebruik maken van de stembanden bij het produceren van een klank. De letter ‘s’ in ‘sip’ is voiceless (geen gebruik van …), de letter ‘z’ in ‘zip’ is voiced.

Place of articulation: de plaats waar de klank geproduceerd woord door dit af te sluiten of af te schermen (met de tong).

Bilabial: lippen gesloten (bijv. letter ‘p’)

Labiodental: onderste lip tegen de ondertanden (‘f’)

Dental: tong drukt tegen de tanden (‘th’)

Alveolar: tong druk tegen de ‘alveolar’ richel net achter je boven-voortanden (‘t’)

Palatal: tong zit tegen gehemelte aan, net achter bovengenoemde richel (‘j’)

Velar: tong zit tegen achterste deel van gehemelte (velum) aan (‘k’)

Door ‘voicing’ en ‘place of articulation’ in een tabel te zetten, kan je phonemes classificeren.

Zie tabel 2.1 op blz.59 van het boek (niet echt nodig…)

Er zijn experimenten geweest naar het herkennen van features in spraak (Miller & Nicely). Ze lieten een aantal medeklinkers horen, inclusief lawaai/storing. De proefpersonen zeiden bij een ‘p’ veel vaker dat ze een ‘t’ hadden gehoord in plaats van een ‘d’. Dit komt volgens hen omdat ‘p’ en ‘t’ maar op 1 feature verschillen (place of art.), terwijl ‘p’ en ‘d’ op 2 features verschillen: place of art en voicing.

Lees meer...

Spraakherkenning hersenen

Spraak herkenning komt overeen met visuele (patroon)herkenning als we kijken naar het segmenteren van objecten die herkend moeten worden. Spraak kan echter niet zo duidelijk worden opgebroken als geschreven tekst of visuele informatie. Bij een continue stroom woorden, is het bijna onmogelijk de pauzes te horen die het eind van woorden markeren. Wij horen het in het Nederlands wel (hoewel het niet echt pauzes zijn, maar wij eigenlijk de illusie van woordbegrenzing horen), maar in een onbekende taal horen we één lange stroom klanken. Er zitten zelfs evenveel pauzes ín de woorden als tússen de woorden. Eén enkel woord kan opgebroken worden in kleine stukjes, genaamd phonemes. Een phoneme is de minimale unit van spraak wat kan resulteren in een verschil van het gesproken bericht. Voorbeeld: het woord ‘bat’ bestaat uit de phonemes ‘b’, ‘a’ en ‘t’, aangezien wanneer je elk stukje door een ander stukje (letter) vervangt, je een ander woord krijgt: ‘cat’, ‘bit’ en ‘ban’.

De Engelse spelling is zeer moeilijk, aangezien er geen perfecte ‘letter-to-sound’ correspondentie bestaat: in een andere context spreek je een letter weer net iets anders uit.

Problemen bij het herkennen van phonemes:

• Spraak is continu, dus het is moeilijk te herkennen waar een phoneme eindigt en waar de volgende begint. Vergelijk maar met (aan elkaar) geschreven tekst: waar eindigt de ene letter en begint de andere?

• Verschillende sprekers spreken dezelfde tekst (dezelfde rij phonemes) verschillend uit (zoals bij dialecten, maar zelfs ook bij hetzelfde accent).

Coarticulatie: wanneer je ‘big’ uitspreekt, is de ‘b’ net iets anders dan het uitspreken van de ‘b’ in het woord ‘bag’. De uitspraak van de ene phoneme wordt dus beïnvloedt door de context (een andere phoneme); twee phonemes mixen als het ware een beetje door elkaar heen.

Het wordt aangenomen dat spraakherkenning gebruikt maakt van een (apart) gespecialiseerd mechanisme in de hersenen. Misschien speelt (het linkerdeel van) de temporaalkwab hier een grote rol bij.

Lees meer...

Visuele patroonherkenning hersenen

Als we objecten eenmaal herkend hebben, komen we op het punt van patronen herkennen, wat gebeurd door middel van template matching. Deze theorie houdt in dat het beeld van een object naar de hersenen wordt gebracht en daar wordt vergeleken met andere patronen, genaamd templates. Het perceptuele systeem probeert dan het best passende patroon te vinden.

Een andere theorie over hoe we patronen herkennen is de feature analysis. Bij deze theorie worden stimuli gezien als combinaties van verschillende features (bv lijntjes of hoeken), die worden geanalyseerd door de hersenen. Deze features zijn makkelijker te herkennen dan templates en bovendien kan vanuit deze features makkelijk het object herkend worden (bijvoorbeeld een A bestaat uit twee schuine en een liggend streepje).

Biederman (1987) heeft een theorie bedacht over het herkennen van objecten door middel van componenten van die objecten, de recognition-by-components theory:

1 Het object wordt verdeeld in een aantal sub-objecten

2 De sub-objecten worden geclassificeerd in een bepaalde categorie. Er zijn 36 categorieën die geons worden genoemd (een afkorting van geometric ions), bv een cilinder of een piramide.

3 Als de sub-objecten geïdentificeerd zijn, kan het hele object herkend worden. Een experiment wees uit dat mensen makkelijker objecten kunnen herkennen waar segmenten (bv stukjes lijn) ontbraken dan objecten waar componenten (bv een vleugel van een vliegtuig) ontbraken.

Lees meer...

Visuele informatie verwerking hersenen

- The eye: cornea, pupil, iris, lens, retina, fovea, optic nerve

- Rods and cones

- Visual cortex

- Hubel and Wiesel: topographic and feature-oriented organization of the visual cortex

- Perceiving depth and surfaces: (monocular) texture gradient, size, interposition, contrast, clarity and brightness, shadow, (binocular) stereopsis, motion parallax (see Preece, chapter 4.2, for the cues missing in Anderson)

- Gestalt principes of organization: proximity, similarity, good continuation, closure

Op pagina 39 staat een plaatje met een schematische voorstelling van het oog met belangrijke termen erbij. Lichtenergie wordt met een fotochemicaal proces omgezet in neurale activiteit.

Dit gebeurt door staafjes en kegeltjes (rods and cones). De kegeltjes zijn vooral geconcentreerd in de fovea, een klein stukje van de retina waarop een object valt als we erop concentreren.

Lichtenergie komt vanuit de ogen via een aantal neurale paden uiteindelijk in de visual cortex, waar de visuele input verwerkt wordt. Dit gebeurt door ganglion cells, die in meer of mindere mate afvuren. Huble and Wiesel (1962) hebben uitgevonden dat er edge detectors (die positief of nagetief reageren op licht van een kant) en bar detectors (die positief of negatief reageren op licht in het midden met eromheen weinig licht of andersom). Deze detectors zijn ovaal van vorm en bestaan uit een aantal ganglion cells. Er bestaan een aantal manieren die mensen gebruiken om van een 2D beeld een 3D beeld tevormen:

- texture gradient (elementen lijken dichter op elkaar te staan als ze verder weg zijn)

- stereopsis (met het ene oog zie je de wereld net iets anders dan met het andere en zo zie je diepte)

- motion parallax (dit wil zeggen dat punten die verder weg zijn langzamer lijken te bewegen dan punten die dichterbij zijn)

- size (de grootste van twee dezelfde objecten lijkt het dichtstbij)

- interposition (als een object deels de andere overlapt lijkt die ervoor te staan)

- contrast, clarity and brightness (sherpere en duidelijke objecten lijken dichterbij te staan)

- shadow (schaduws die geworpen worden door objecten geven cues over de positie van die objecten)

Bij het herkennen van objecten gebruiken we de gestalt principles of organization:

(a) principle of proximity (elementen dicht bij elkaar zien we als units)

(b) principle of similarity (elemneten die op elkaar lijken groeperen we bij elkaar)

(c) principle of good continuation (elementen die vloeiend in elkaar overgaan zien we als een element)

(d) principle of closure (elementen die elkaar overlappen maken we in gedachten zelf af, terwijl dit helemaal niet juist hoeft te zijn)

Lees meer...
Abonneren op deze RSS feed

Advies nodig?

Vraag dan nu een gratis en vrijblijvende scan aan voor uw website.
Wij voeren een uitgebreide scan en stellen een SEO-rapport op met aanbevelingen
voor het verbeteren van de vindbaarheid en de conversie van uw website.

Scan aanvragen