Saturday, January 3, 2009

// // 2 comments

Филмите "Сватбата" и "Петранка", и системата за работа с корпуси | "The Wedding" (film) and a Corpus processing system in progress

Kostadinka Deleva in "Petranka" (working title)
A short film by Todor Arnaudov, Kostadinka Deleva and Luba Piperova

Frames from "The Wedding", Todor Arnaudov's short film

Български и повече подробности - по-долу

Twenkid - The film studio of Tosh

Kick-start of 2009... Two new short films are in production. The picture of an absurd report-fantasy-comedy-parody short film called "The Wedding" (~14 min) is almost finished, the movie needs some dubbing and post-production.

Another short comedy (few minutes), working title "Petranka" was shot on the Christmas day. Story and starring - my grandmother Kostadinka Deleva. :)

Twenkid Research

Corpus processing system project is alive! Frequency and distribution analysis have started.



Ударно начало за 2009-та година...

Twenkid Studio - Филмовото студио на Тош

За няколко дни доведох до почти монтирано състояние късометражния филм "Сватбата" (ок. 14 мин), който разказва по необичаен "документално-фантастично-абсурдно-смешен" начин за церемонията по връчване на дипломите на випуск 2008 във ФМИ на ПУ.

На връх Рождество Христово почти заснех свръхкратката комедия с раб. заглавие "Петранка" (няколко минути). Оригиналната история и главната роля е на Костадинка Делева - моята скъпа баба.

Twenkid Research

Събудих старите си намерения за мощна система за създаване и обработка на корпуси.
Системата вече може да прави прости честотни анализи на текстове.

"Схващане за всеобщата предопределеност 2" - философия, метафизика и др.
Писма между Тодор Арнаудов и Ангел Грънчаров, 2002 г.

Думи: 55930
Различни: 9031

2247: да
1854: на
1310: се
1190: не
834: от
769: че
685: си
463: са
...
318: защото
...
/Съществителни/
134: науката
..
129: човек
127: човека
113: човекът
75: живота
...
61: години
...
60: вселената
55: смисъл
54: време
51: бог
42: тодор
41: душата
41: света
41: мисли
41: удоволствие
41: разум
40: машина
40: душа
39: наука
39: свят
37: информация
36: ден
36: бъдещето
36: част
35: ум
35: ангел
35: свободата
34: земята
33: машината
32: система
32: думи
32: мисълта
32: хората
30: машините
29: отношение
29: свобода
27: религията
27: бога
27: сметачите
26: съществуването
26: закони
26: памет
26: философията
25: ума
25: животът
24: истина
24: хора
23: числа
23: стихията
23: човеци
23: истини
23: сметач
22: вселена
21: музиката
21: въпрос
21: развитието
20: място
...

Като ги гледам тези хубави данни, взима да ми се прави автоматично резюмиране и разпознаване на жанра. Дори в този елементарен анализ, най-честите думи силно подсказват темата на текста.

2 коментара:

алабала said...

Побързай, защото и на много други хора отдавна им се прави това.
H. P. Luhn. 1958. The automatic creation of literature abstracts

Todor "Tosh" Arnaudov - Twenkid said...

:)
10х, яка статия! :)