Abstract | Iako je pitanje organizacije nepregledne navale multimedijskih sadržaja već nekoliko
desetljeća u središtu zanimanja razvoja informacijskih tehnologija, znatnije inovacije u razvoju
tehnologija za semantički strukturiranu pohranu te dohvaćanje prirodno nastalih sadržaja izostaju.
Disertacija se posvećuje ovom tehničkom pitanju informacijskih tehnologija. Analizirajući
dosege primjenjivanih pristupa strojnomu tumačenju grafičkih poruka i razvoju sustava za
preporuke sadržaja, te oslanjajući se na korpus znanja grafičkih eksperata i na brojne korektivne
uvide suvremene statističke teorije, disertacija razrađuje novu metodologiju optimizacije vizualne
komunikacije kroz konstrukciju razumljivog ujedinjenog distribucijskog prostora temeljnih
informacijskih obilježja vizualnih kompozicija predstavljenih kroz kvantizaciju njihovih općih
stilskih odrednica. Cilj ove doktorske disertacije je, stoga, omogućiti cjeloviti uvid u
problematiku mjerenja značajki oblikovanja grafičkih kompozicija kojima je određena
komunikacijsku vrijednost poruka te ponuditi prikaz mogućeg rješenja kroz razvoj algoritma
računalnog vida koji vrši ulogu izmjere komunikacijske vrijednosti oblika poruke po dvama
temeljnim semantičkim protegama koje se u radu oslovljava kao mjerama dubine i širine
komunikacijskog sadržaja.
Disertacija kroz uvodna poglavlja nudi raspravu o ulozi i naznakama uspješnosti
suvremenih informacijskih tehnologija, te propituje njihovu susmjernost sa uvriježenim težnjama
Informacijskog doba. Posebna se pažnja posvećuje gorućem problemu Informacijskog doba, a taj
je problem razvoja informacijskih tehnologija za stvaranje, oblikovanje, organiziranu pohranu i
dohvaćanje suvremene navale informacijskih sadržaja. Uvodno poglavlje predstavlja ovu
problematiku kroz prikaz povijesti razvoja računalnih sustava za označivanje, pohranjivanje i
dohvaćanje sadržaja. Istaknuti su problemi koji nastaju s pokušajima jezičnog označivanja
sadržaja u svrhu njihove organizacije i mogućnosti ciljanog dohvaćanja. Razlaže se kako ti
problemi nastaju zbog nerazumijevanja naravi međuljudskih poruka i zbog ishitrenog
preuzimanja laičkih i napuštenih pogleda o ulozi oblika i o naravi simbola kojima se
komunikacija ostvaruje za osnove informacijskih tehnologija. Za pristup rješenju rad preporuča
obraćanje pažnje na doprinose grafičke struke kao struke koja je kroz stoljeća neposrednog
iskustva rada na informacijskim proizvodima i tehnologijama za masovno komuniciranje poruka,
nakupila znanja za razumijevanje naravi informacija i alate za baratanje njima.Disertacija potom nudi pregled područja rada, naime polja računalne estetike, gdje iznosi
pregled značajki oblika poruka bitnih za procjenu njihove komunikacijske vrijednosti onako kako
su prepoznate i formalizirane unutar grafičke struke te izlaže povijesni pregled razvoja načina
njihovog mjerenja porabom računalnih tehnologija. Postavljajući originalan okvir za cjelovit
pregled područja razvoja informacijskih tehnologija sa naglaskom na razvoj algoritama u polju
računalne estetike, jasno su izneseni uspjesi i ograničenja pretečih pristupa problemu.
Nakon iznošenja hipoteza i očekivanih doprinosa, kroz poglavlje o metodologiji jasno je
iznesen postupni tijek istraživanja u disertaciji kroz razvoj algoritma za izmjeru komunikacijske
vrijednosti poruka prema dvije temeljne semantičke protege - u radu zvanima protegama širine i
dubine rasprave, a značenja srodnog onom uobičajene porabe tih izraza. Taj se slijed koraka
sastojao od izrade programa za pažljiv izbor primjeraka likovnih kompozicija koje će činiti
reprezentativni uzorak uspješnih vizualnih komunikacija; izbora i oblikovanja arhitekture modela
računalnog vida koji će po obuci prepoznavati bitne semantičke značajke preko računa na
spektrofotometrijskim vrijednostima slikovnog zapisa; te definicije načina provedbe obuke,
automatski nadzirane prilagodbe modela svojstvima primjeraka u probranom uzorku i definicije
kriterija za uspješno okončanje obuke.
Disertacija na kraju iznosi rezultate cjelokupnog provedenog istraživanja. Rezultati daju
jasne naznake o tome kako su pretpostavke istraživanja ispravno postavljene i kako na njihovom
temelju razvijen model računalnog vida uspješno razaznaje bitne semantičke razlike među
sadržajima poruka preko prepoznavanja značajki oblika poruka kojima su ti sadržaji prenošeni.
Mjera pouzdanosti i preciznosti modela iznesena je kroz račun F1 pokazatelja te kroz mjeru
stupnja dijeljenja informacija među skupovima modelovih izmjera po semantičkim protegama i
oznaka kronološko-kulturnog porijekla primjeraka u testnim uzorcima. Dodatno je izložena i
potvrda o interpretacijskoj snazi modela te mogućnostima primjene modela za istovjetnu
procjenu semantičke i estetske vrijednosti vizualnih kompozicija. Svi rezultati potvrđuju
uspješnost razvijenog modela u ostvarivanju ciljeva zadanih i razloženih u okviru doktorske
disertacije, potvrđujući time hipoteze disertacije i ostvarujući očekivane doprinose. |
Abstract (english) | Despite the organization of the massive influx of multimedia content being the central
question in development of informational technologies for last several decades, significant
progress in the development of technologies for semantic-based storage and retrieval of naturally
occurring content is still missing. The dissertation is focused on this technical issue of
contemporary information technologies. By analyzing current approaches to machine
interpretation of visual communications and to the development of content recommendation
systems, and on the basis of accumulated knowledge of graphic engineers and numerous
corrective insights of the modern theory of statistics, te dissertation will develop a new
methodology for optimizing visual communication through the construction of an interpretable
joint distribution space of basic informational features in visual compositions represented through
quantification of their universal stylistic determinants.
Through the introductory chapters, the dissertation offers a discussion of the stakes and
measures of success of modern informational technologies, and raises concerns about their
congruence with established aspirations of the Information Age. Attention is paid to the burning
problem of developing information technologies for creating, designing, archiving and, in
general, accommodating the modern torrent of informational contents. The introductory chapter
presents this issue through the history of the development of computer systems for marking,
storing and retrieving content. The problems that arise with attempts to mark the content
linguistically for the purpose of their organization and the possibility of targeted retrieval are
highlighted. It is explained that these problems arise due to a misunderstanding of the nature of
interpersonal messages and due to the hasty adoption of layman’s and unsubstantiated views on
the role of forms and the nature of symbols through which communication is realized that form
the basis of todays informational technologies. The paper recommends paying attention to the
contributions of the graphic profession as a profession that through centuries of direct experience
working on informational products and building technologies for mass communication of
messages, has accumulated knowledge for understanding the nature of information and tools for
handling it.
The dissertation then offers an overview of the field of work, namely the field of
computer aesthetics, where it presents an overview of the features of the form of essentialmessages for assessing their communication value as recognized and formalized within the
graphic profession, and presents a historical overview of the development of ways of measuring
them using computer technologies. Setting the original framework for a complete overview of the
field of development of informational technologies with an emphasis on the development of
algorithms in the field of computer aesthetics, the successes and limitations of the tested
approaches to the problem are clearly presented.
The research field of computational aesthetics is a crucial contributor to the development
of mechanisms for filtering and/or generating value-laden informational content. This dissertation
acknowledges a recognized escalating problem in the development of contemporary
informational technologies and presents a practical solution for communicational quality
management by employing an innovative approach to the computational aesthetic evaluation
(CAE). After presenting the hypotheses and expected contributions, through the chapter on
methodology the gradual course of research in the dissertation is clearly presented through the
development of algorithms for measuring the communicative value of messages through their
measures on two basic semantic dimensions - in the dissertation called dimensions of width and
depth of discussion, bearing meaning related to common usage of those expressions. This
research step consisted of developing a program for the careful selection of examples of art
compositions that will form a representative sample of successful visual communications;
selection and design of a computer vision model architecture that, after training, will recognize
important semantic features via performing computations on the spectrophotometric values of the
image record; and defining the implementation of the model training, cost function, learning rate
and the criteria for successful completion of the training.
After discussing the problem and attempted approaches to its alleviation, dissertation
offers a novel expert solution by presenting an original research approach and its resulting opensourced model which outperforms its current state-of-the-art competition in semantic and stylistic
classification, at the same time providing an idiomatic measure for objective aesthetic evaluation
and demonstrating semantically rich and professionally recognized explanatory power which can
serve as the solid basis for development of reliable and user friendly content retrieval, generative
or auxiliary design applications. Presented model is resource- and privacy-wise upmostconservative. Its use evades all ethical, legal or security concerns that beset all currently
prominent models. Its developmental and operational costs are practically nil.
In conclusion, this study presents a novel approach to semantic feature detection using
convolutional neural networks fine-tuned on stylistically conditioned images of artworks from
WikiArt. The models achieved high F1 scores and provided robust results in distinguishing
between abstract-concrete (breadth) and iconic-symbolic (depth) dimensions of artistic
expression. The findings suggest that the proposed method can be used for universal semantic
feature detection, aiding in the interpretation of visual communications across different, past and
future cultural periods. Additionally, the models provide an idiomatic aesthetic evaluation
criterion, allowing for the assessment of artworks’ success in visual communication based on
their positioning within the semantic space. Further research could explore expanding the
model’s applicability to include more diverse and historically representative samples of artwork,
as well as investigating the potential applications of this method in other domains such as graphic
or multimedia design. |