LREC 2022: Program

LREC 2022 Program - Day 2 Oral & Poster Sessions

Document sans nom

Day 2

Wednesday, 22 June, 2022

09:30 - 10:50

Session O13: Statistical Methods and Machine Learning (1) - Auditorium
Chair: Sawaf, Hassan
Co-Chair: Snæbjarnarson, Vésteinn

09:30 - 09:50

The GINCO Training Dataset for Web Genre Identification of Documents Out in the Wild
Taja Kuzman, Peter Rupnik, Nikola Ljubešić
Jožef Stefan Institute

09:50 - 10:10

The Spoken Language Understanding MEDIA Benchmark Dataset in the Era of Deep Learning: data updates, training and evaluation tools
Gaëlle Laperrière¹, Valentin Pelloin², Antoine Caubrière³, salima mdhaffar⁴, Nathalie Camelin², Sahar Ghannay⁵, Bassam Jabaian⁶, Yannick Estève⁷
¹Avignon University LIA, ²LIUM - University of Le Mans, ³LIA, Avignon University, ⁴LIA - University of Avignon, ⁵CNRS, LISN, ⁶CERI-LIA, University of Avignon, ⁷LIA - Avignon University

10:10 - 10:30

BasqueGLUE: A Natural Language Understanding Benchmark for Basque
Gorka Urbizu¹, Iñaki San Vicente¹, Xabier Saralegi¹, Rodrigo Agerri², Aitor Soroa³
¹Elhuyar Foundation, ²HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ³Ixa group, HiTZ center University of the Basque Country (UPV/EHU)

10:30 - 10:50

Resources and Experiments on Sentiment Classification for Georgian
Nicolas Stefanovitch¹, Jakub Piskorski², Sopho Kharazi³
¹Joint Research Centre, ²Polish Academy of Sciences, ³Piksel SRL

09:30 - 10:50

Session O14: Natural Language Generation and Summarisation - La Major
Chair: Skadina, Inguna
Co-Chair: Han, Kelvin

09:30 - 09:50

CoFiF Plus: A French Financial Narrative Summarisation Corpus
Nadhem ZMANDAR¹, Tobias Daudert², Sina Ahmadi³, Mahmoud El-Haj¹, Paul Rayson¹
¹Lancaster University, ²Insight Centre for Data Analytics, National University of Ireland Galway, ³National University of Ireland Galway

09:50 - 10:10

Generating Extended and Multilingual Summaries with Pre-trained Transformers
Rémi Calizzano¹, Malte Ostendorff², Qian Ruan¹, Georg Rehm¹
¹DFKI, ²German Research Center for Artificial Intelligence

10:10 - 10:30

MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases
Louis Martin¹, Angela Fan², Éric de la Clergerie³, Antoine Bordes⁴, Benoît Sagot³
¹Facebook AI Research / Inria, ²Facebook AI Research, ³INRIA, ⁴Facebook

10:30 - 10:50

Towards Understanding Gender-Seniority Compound Bias in Natural Language Generation
Samhita Honnavalli¹, Aesha Parekh², Lily Ou³, Sophie Groenwold⁴, Sharon Levy⁵, Vicente Ordonez⁶, William Yang Wang⁷
¹University of California at Santa Barbara, ²University of California Santa Barbara, ³University of California-Santa Barbara, ⁴University of California, Santa Barbara, ⁵UC Santa Barbara, ⁶University of Virginia, ⁷Unversity of California, Santa Barbara

09:30 - 10:50

Session O15: Semantics - Salle 120
Chair: Pedersen, Bolette
Co-Chair: Alam, Mehwish

09:30 - 09:50

Combining ELECTRA and Adaptive Graph Encoding for Frame Identification
Fabio Tamburini
FICLIT - University of Bologna

09:50 - 10:10

Polysemy in Spoken Conversations and Written Texts
Aina Garí Soler¹, Matthieu Labeau², Chloé Clavel³
¹LTCI, Télécom-Paris, Institut Polytechnique de Paris, ²Telecom Paris, ³LTCI, Telecom-Paris, Institut Polytechnique de Paris

10:10 - 10:30

Cross-Level Semantic Similarity for Serbian Newswire Texts
Vuk Batanović¹ and Maja Miličević Petrović²
¹Innovation Center of the School of Electrical Engineering, University of Belgrade, ²University of Bologna

10:30 - 10:50

Universal Proposition Bank 2.0
Ishan Jindal¹, Alexandre Rademaker², Michał Ulewicz³, Ha Linh⁴, Huyen Nguyen⁴, Khoi-Nguyen Tran⁵, Huaiyu Zhu⁶, Yunyao Li⁶
¹IBM Research, ²IBM Research and EMAp/FGV, ³Kyndryl, ⁴VNU University of Science, Hanoi, ⁵IBM, ⁶IBM Research - Almaden

09:30 - 10:50

Session O16: Language Resources and Evaluation for Psycho-linguistics and Cognitive Linguistics - Salle 92
Chair: Paggio, Patrizia
Co-Chair: Tayyar Madabushi, Harish

09:30 - 09:50

The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of Danish Texts
Nora Hollenstein¹, Maria Barrett², Marina Björnsdóttir¹
¹University of Copenhagen, ²IT University of Copenhagen

09:50 - 10:10

The Brooklyn Multi-Interaction Corpus for Analyzing Variation in Entrainment Behavior
Andreas Weise¹, Matthew McNeill², Rivka Levitan³
¹Graduate Center CUNY, ²CUNY Graduate Center, ³Brooklyn College CUNY

10:10 - 10:30

Pro-TEXT: an Annotated Corpus of Keystroke Logs
Aleksandra Miletic¹, Christophe Benzitoun², Georgeta Cislaru³, Santiago Herrera-Yanez⁴
¹Clesthia & Paris 3 - Sorbonne Nouvelle University, ²ATILF (CNRS & Lorraine University), ³MoDyCo (CNRS & Paris Nanterre University), ⁴Paris 3 - Sorbonne Nouvelle University

10:30 - 10:50

Work Hard, Play Hard: Collecting Acceptability Annotations through a 3D Game
Federico Bonetti¹, Elisa Leonardelli², Daniela Trotta³, Raffaele Guarasci⁴, Sara Tonelli⁵
¹University of Trento, ²Foundation Bruno Kessler, ³University of Salerno, ⁴ICAR-CNR, ⁵FBK

09:30 - 10:50

Session: P14 - Corpora and Annotation (2) - Poster Area 2
Chair: Ogrodniczuk, Maciej

DiHuTra: a Parallel Corpus to Analyse Differences between Human Translations
Ekaterina Lapshinova-Koltunski¹, Maja Popović², Maarit Koponen³
¹Universität des Saarlandes, ²ADAPT, Dublin City University, ³University of Eastern Finland

Data Expansion Using WordNet-based Semantic Expansion and Word Disambiguation for Cyberbullying Detection
Md Saroar Jahan¹, Djamila Romaissa Beddiar¹, Mourad Oussalah¹, Muhidin Mohamed²
¹University of Oulu, ²University of Aston, Computer Science

ALIGNMEET: A Comprehensive Tool for Meeting Annotation, Alignment, and Evaluation
Peter Polák¹, Muskaan Singh², Anna Nedoluzhko³, Ondřej Bojar¹
¹Charles University, MFF UFAL, ²UFAL,Charles University, ³Charles University in Prague

KSoF: The Kassel State of Fluency Dataset – A Therapy Centered Dataset of Stuttering
Sebastian Bayerl¹, Alexander Wolff von Gudenberg², Florian Hönig³, Elmar Noeth⁴, Korbinian Riedhammer⁵
¹TH-Nürnberg, ²Institut der Kasseler Stottertherapie, ³Pattern Recognition Lab, Friedrich-Alexander University of Erlangen-Nuremberg, Germany, ⁴Friedrich-Alexander-University Erlangen-Nuremberg, ⁵Technische Hochschule Nürnberg Georg Simon Ohm

EZCAT: an Easy Conversation Annotation Tool
Gaël Guibon¹, Luce Lefeuvre², Matthieu Labeau³, Chloé Clavel⁴
¹Télécom Paris, Direction Innovation & Recherche SNCF, ²Direction Innovation & Recherche SNCF, ³Telecom Paris, ⁴LTCI, Telecom-Paris, Institut Polytechnique de Paris

Spoken Language Treebanks in Universal Dependencies: an Overview
Kaja Dobrovoljc
University of Ljubljana

LeConTra: A Learner Corpus of English-to-Dutch News Translation
Bram Vanroy and Lieve Macken
Ghent University

Annotating Attribution in Czech News Server Articles
Barbora Hladka¹, Jiří Mírovský², Matyáš Kopp³, Václav Moravec¹
¹Charles University, ²Charles University in Prague, ³Charles University and in the Czech Republic

Xposition: An Online Multilingual Database of Adpositional Semantics
Luke Gessler, Nathan Schneider, Joseph Ledford, Austin Blodgett
Georgetown University

A Study in Contradiction: Data and Annotation for AIDA Focusing on Informational Conflict in Russia-Ukraine Relations
Jennifer Tracey¹, Ann Bies², Jeremy Getman², Kira Griffitt¹, Stephanie Strassel²
¹Linguistic Data Consortium, ²Linguistic Data Consortium, University of Pennsylvania

Annotating Verbal Multiword Expressions in Arabic: Assessing the Validity of a Multilingual Annotation Procedure
Najet Hadj Mohamed¹, Cherifa Ben Khelil², Agata Savary³, Iskandar keskes⁴, Jean-Yves Antoine⁵, Lamia Hadrich-Belguith⁶
¹University of Tours, LIFAT, ICVL; University of Sfax, MIRACL, ²University of Tours, LIFAT, ICVL, ³Paris-Saclay University, ⁴Associate professor, Gafsa university, ⁵Tours U., LIFAT Lab, ⁶ANLP Research Group, MIRACL Lab, FSEGS, Sfax University

Annotation of Communicative Functions of Short Feedback Tokens in Switchboard
Carol Figueroa¹, Adaeze Adigwe², Magalie Ochs³, Gabriel Skantze⁴
¹Furhat Robotics AB, ²ReadSpeaker, ³Aix Marseille, ⁴KTH Royal Institute of Technology

A Dataset of Offensive Language in Kosovo Social Media
Adem Ajvazi and Christian Hardmeier
IT University of Copenhagen

The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses
Bashar Alhafni¹, Nizar Habash², Houda Bouamor³
¹New York University, ²New York University Abu Dhabi, ³Carnegie Mellon University in Qatar

The Engage Corpus: A Social Media Dataset for Text-Based Recommender Systems
Daniel Cheng, Kyle Yan, Phillip Keung, Noah A. Smith
University of Washington

Annotating Arguments in a Corpus of Opinion Articles
Gil Rocha¹, Luís Trigo¹, Henrique Lopes Cardoso², Rui Sousa-Silva³, Paula Carvalho⁴, Bruno Martins⁵, Miguel Won⁴
¹LIACC, Faculty of Engineering, University of Porto, ²University of Porto, ³University of Porto - Faculty of Arts, ⁴INESC-ID, ⁵IST and INESC-ID

German Parliamentary Corpus (GerParCor)
Giuseppe Abrami¹, Mevlüt Bagci¹, Leon Hammerla¹, Alexander Mehler²
¹Goethe University Frankfurt, ²Goethe-University Frankfurt am Main

NerKor+Cars-OntoNotes++
Attila Novák¹ and Borbála Novák²
¹MTA-PPKE Hungarian Language Technology Research Group, Faculty of Information Technology and Bionics, Pázmány Péter Catholic University, Budapest, ²MTA-PPKE Hungarian Language Technology Research Group, Faculty of Information Technology and Bionics, Pázmány Péter Catholic University

09:30 - 10:50

Session: P15 - Speech Resources and Processing (2) - Poster Area 2
Chair: Kitaoka, Norihide

A Comparative Cross Language View On Acted Databases Portraying Basic Emotions Utilising Machine Learning
Felix Burkhardt¹, Anabell Hacker², Uwe Reichel³, Hagen Wierstorf³, Florian Eyben³, Björn Schuller⁴
¹audEERING, ²Technische Universität Berlin, ³audEERING GmbH, ⁴University of Augsburg / Imperial College London

Nkululeko: A Tool For Rapid Speaker Characteristics Detection
Felix Burkhardt¹, Johannes Wagner¹, Hagen Wierstorf², Florian Eyben², Björn Schuller³
¹audEERING, ²audEERING GmbH, ³University of Augsburg / Imperial College London

Speech Aerodynamics Database, Tools and Visualisation
Shi YU¹, Clara Ponchard¹, Roland Trouville², Sergio Hassid³, Didier Demolin²
¹Laboratoire de Phonétique et Phonologie, Université Sorbonne Nouvelle, Paris 3., ²Laboratoire de Phonétique et Phonologie, Université de Sorbonne Nouvelle, Paris 3, ³Hôpital Erasme, Université Libre de Bruxelles

PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speech
Cécile Fougeron¹, Nicolas Audibert¹, cedric Gendrot², Estelle Chardenon³, Louise Wohmann¹
¹Laboratoire de Phonétique et Phonologie, UMR7018 CNRS/Sorbonne-Nouvelle, Paris, ²Laboratory of Phonetics and Phonology, ³Laboratoire Parole et Langage, UMR 7309, CNRS/AMU Univ.)

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition
Jonathan Mukiibi¹, Andrew Katumba¹, Joyce Nakatumba-Nabende¹, Ali Hussein², Joshua Meyer³
¹Makerere University, ²Ronin Institute, ³Coqui

Far-Field Speaker Recognition Benchmark Derived From The DiPCo Corpus
Mickael Rouvier¹ and Mohammad Mohammadamini²
¹LIA - Avignon University, ²Phd Student

Evaluating Sampling-based Filler Insertion with Spontaneous TTS
Siyang Wang¹, joakim gustafson², Éva Székely¹
¹Division of Speech, Music and Hearing, KTH Royal Institute of Technology, ²KTH

BEA-Base: A Benchmark for ASR of Spontaneous Hungarian
Peter Mihajlik¹, Andras Balog², Tekla Graczi², Anna Kohari², Balázs Tarján³, Katalin Mady²
¹Budapest University of Technology and Economics, ²Hungarian Research Centre for Linguistics, ³Budapest University of Technology and Economics (BME)

SNuC: The Sheffield Numbers Spoken Language Corpus
Emma Barker, Jon Barker, Robert Gaizauskas, Ning Ma, Monica Paramita
University of Sheffield

The ManDi Corpus: A Spoken Corpus of Mandarin Regional Dialects
Liang Zhao and Eleanor Chodroff
University of York

The Speed-Vel Project: a Corpus of Acoustic and Aerodynamic Data to Measure Droplets Emission During Speech Interaction
Francesca Carbone¹, Gilles Bouchet², Alain Ghio³, Thierry Legou⁴, Carine André¹, muriel lalain⁵, Sabrina Kadri¹, Caterina Petrone¹, Federica Procino⁶, Antoine Giovanni¹
¹Aix Marseille Univ, CNRS, LPL, Aix-en-Provence, France, ²Aix Marseille Univ, CNRS, IUSTI, Marseille, France, ³Aix-Marseille Univ, CNRS, LPL, ⁴CNRS / Laboratoire Parole et Langage, ⁵Aix marseille université, CNRS, Laboratoire Parole et Langage, ⁶Università degli Studi di Napoli Federico II, Napoli, Italy

09:30 - 10:50

Session: P16 - Opinion Mining, Sentiment and Emotion (2) - Poster Area 2
Chair: Hendrickx, Iris

Towards Speech-only Opinion-level Sentiment Analysis
Annalena Aicher¹, Alisa Gazizullina², Aleksei Gusev³, Yuri Matveev⁴, Wolfgang Minker¹
¹Ulm University, ²Student, ³STC-innovations/ITMO, ⁴ITMO University, Speech Technology Center

At the Intersection of NLP and Sustainable Development: Exploring the Impact of Demographic-Aware Text Representations in Modeling Value on a Corpus of Interviews
Goya van Boven¹, Stephanie Hirmer², Costanza Conforti³
¹Utrecht University, ²University of Oxford, ³University of Cambridge

A Study on the Ambiguity in Human Annotation of German Oral History Interviews for Perceived Emotion Recognition and Sentiment Analysis
Michael Gref¹, Nike Matthiesen², Sreenivasa Hikkal Venugopala³, Shalaka Satheesh³, Aswinkumar Vijayananth³, Duc Bach Ha¹, Sven Behnke⁴, Joachim Köhler⁵
¹Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS), ²Haus der Geschichte der Bundesrepublik Deutschland Foundation, ³Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS) & University of Applied Sciences Bonn-Rhein-Sieg, ⁴University of Bonn, ⁵Fraunhofer IAIS

Detecting Optimism in Tweets using Knowledge Distillation and Linguistic Analysis of Optimism
Ștefan Cobeli¹, Ioan-Bogdan Iordache², Shweta Yadav¹, Cornelia Caragea¹, Liviu P. Dinu², Dragoș Iliescu²
¹University of Illinois at Chicago, ²University of Bucharest

Dataset and Baseline for Automatic Student Feedback Analysis
Missaka Herath¹, Kushan Chamindu², Hashan Maduwantha¹, Surangika Ranathunga¹
¹University of Moratuwa, ²University of Moratuwa Sri Lanka

09:30 - 10:50

Session: P17 - Less-Resourced Languages (1) - Poster Area 2
Chair: Todirascu, Amalia

EENLP: Cross-lingual Eastern European NLP Index
Alexey Tikhonov¹, Alex Malkhasov², Andrey Manoshin³, George-Andrei Dima⁴, Réka Cserháti⁵, Md.Sadek Hossain Asif⁶, Matt Sárdi⁷
¹Independent researcher, ²Financial University of Russia, ³MEPhI, ⁴Politehnica University of Bucharest, ⁵University of Szeged, ⁶Notre Dame College, Dhaka, ⁷Mozaik Education

Slovene SuperGLUE Benchmark: Translation and Evaluation
Aleš Žagar and Marko Robnik-Šikonja
University of Ljubljana, Faculty of Computer and Information Science

Speech Resources in the Tamasheq Language
Marcely Zanon Boito¹, Fethi Bougares², Florentin Barbier³, Souhir Gahbiche³, Loïc Barrault⁴, Mickael Rouvier⁵, Yannick Estève⁵
¹Avignon Université, ²LIUM- Le Mans Université, ³Airbus, ⁴Le Mans Université, ⁵LIA - Avignon University

Aesop's fable "The North Wind and the Sun" Used as a Rosetta Stone to Extract and Map Spoken Words in Under-resourced Languages
elena knyazeva¹, Philippe Boula de Mareüil², Frédéric Vernier³
¹LISN CNRS, ²LISN, ³LISN-CNRS

Multilingual Open Text Release 1: Public Domain News in 44 Languages
Chester Palen-Michel, June Kim, Constantine Lignos
Brandeis University

TweetTaglish: A Dataset for Investigating Tagalog-English Code-Switching
Megan Herrera, Ankit Aich, Natalie Parde
University of Illinois at Chicago

Jojajovai: A Parallel Guarani-Spanish Corpus for MT Benchmarking
Luis Chiruzzo¹, Santiago Góngora¹, Aldo Alvarez², Gustavo Giménez-Lugo³, Marvin Agüero-Torales⁴, Yliana Rodríguez¹
¹Universidad de la República, ²Universidad Nacional de Itapúa, ³Universidade Tecnológica Federal do Paraná, ⁴Universidad de Granada

09:30 - 10:50

Industry Track -Mucem
Chairs: Bente Maegaard and Khalid Choukri

10:50 - 11:10

Coffee Break

11:10 - 12:30

Industry Track -Mucem
Chairs: Bente Maegaard and Khalid Choukri

11:10 - 12:30

Session O17: Evaluation and Validation Methodologies (1) - La Major
Chair: van Zaanen, Menno
Co-Chair: Eskevich, Maria

11:10 - 11:30

Assessing Multilinguality of Publicly Accessible Websites
Rinalds Vīksna¹, Inguna Skadiņa², Raivis Skadiņš³, Andrejs Vasiļjevs⁴, Roberts Rozis⁴
¹University of Latvia, ²Tilde/ Institute of Mathematics and Computer Science, University of Latvia, ³Tilde; University of Latvia, ⁴Tilde

11:30 - 11:50

A Methodology for Building a Diachronic Dataset of Semantic Shifts and its Application to QC-FR-Diac-V1.0, a Free Reference for French
David Kletz¹, Philippe Langlais², François Lareau³, Patrick Drouin³
¹UdeM, ²Université de Montréal, Department of Computer Science and Operational Research (DIRO), ³Université de Montréal, Department of Linguistics and Translation

11:50 - 12:10

CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models
Jörg Frohberg¹ and Frank Binder²
¹apergo.ai, ²Institute for Applied Informatics at Leipzig University (InfAI)

12:10 - 12:30

Evaluating Gender Bias in Speech Translation
Marta R. Costa-jussà¹, Christine Basta², Gerard I. Gállego²
¹Meta AI, ²Universitat Politècnica de Catalunya

11:10 - 12:30

Session O18: Applications involving LRs and Evaluation (2) - Auditorium
Chair: Hayashi, Yoshihiko
Co-Chair: Barrett, Maria

11:10 - 11:30

Design Choices in Crowdsourcing Discourse Relation Annotations: The Effect of Worker Selection and Training
Merel Scholman¹, Valentina Pyatkin², Frances Yung¹, Ido Dagan², Reut Tsarfaty², Vera Demberg¹
¹Saarland University, ²Bar-Ilan University

11:30 - 11:50

TBD3: A Thresholding-Based Dynamic Depression Detection from Social Media for Low-Resource Users
Hrishikesh Kulkarni¹, Sean MacAvaney², Nazli Goharian¹, Ophir Frieder¹
¹Georgetown University, ²University of Glasgow

11:50 - 12:10

SpecNFS: A Challenge Dataset Towards Extracting Formal Models from Natural Language Specifications
Sayontan Ghosh, Amanpreet Singh, Alex Merenstein, Wei Su, Scott Smolka, Erez Zadok, Niranjan Balasubramanian
Stony Brook University

12:30 - 12:50

Argument Similarity Assessment in German for Intelligent Tutoring: Crowdsourced Dataset and First Experiments
Xiaoyu Bai and Manfred Stede
University of Potsdam

11:10 - 12:30

Session O19: Information Extraction and Neural Networks - Salle 92
Chair: Hajič, Jan
Co-Chair: Ojha, Atul Kumar

11:10 - 11:30

Leveraging Pre-trained Language Models for Gender Debiasing
Nishtha Jain¹, Declan Groves², Lucia Specia³, Maja Popović⁴
¹ADAPT Centre, Dublin City University, ²Microsoft, Dublin, ³Imperial College London, ⁴ADAPT, Dublin City University

11:30 - 11:50

Unsupervised Embeddings with Graph Auto-Encoders for Multi-domain and Multilingual Hate Speech Detection
Gretel Liz De la Peña Sarracén¹ and Paolo Rosso²
¹Universidad Politécnica de Valencia, ²Universitat Politècnica de València

11:50 - 12:10

FQuAD2.0: French Question Answering and Learning When You Don't Know
Quentin Heinrich, Gautier Viaud, Wacim Belblidia
Illuin Technology

12:10 - 12:30

Large-Scale Hate Speech Detection with Cross-Domain Transfer
Cagri Toraman¹, Furkan Şahinuç², Eyup Yilmaz¹
¹Aselsan Research Center, ²Bilkent University

11:10 - 12:30

Session O20: Dialogue (2) - Salle 120
Chair: Cucchiarini, Catia
Co-Chair: Hutin, Mathilde

11:10 - 11:30

GLoHBCD: A Naturalistic German Dataset for Language of Health Behaviour Change on Online Support Forums
Selina Meyer and David Elsweiler
University of Regensburg

11:30 - 11:50

Creating a Data Set of Abstractive Summaries of Turn-labeled Spoken Human-Computer Conversations
Iris Hendrickx
Centre for Language Studies, Radboud University Nijmegen

11:50 - 12:10

OpenEL: An Annotated Corpus for Entity Linking and Discourse in Open Domain Dialogue
Wen Cui¹, Leanne Rolston², Marilyn Walker¹, Beth Ann Hockey³
¹University of California Santa Cruz, ²LivePerson Inc., ³LivePerson

12:10 - 12:30

Collecting Visually-Grounded Dialogue with A Game Of Sorts
Bram Willemsen¹, Dmytro Kalpakchi², Gabriel Skantze³
¹KTH, ²KTH Royal Institute of Technology, ³KTH Speech Music and Hearing

11:10 - 12:30

Session: P18 - Corpora and Annotation (3) - Poster Area 1
Chair: Montemagni, Simonetta

CoRoSeOf - An Annotated Corpus of Romanian Sexist and Offensive Tweets
Diana Constantina Hoefels¹, Çağrı Çöltekin², Irina Mădroane³
¹University of Tuebingen, ²University of Tübingen, ³West University of Timişoara

ArMIS - The Arabic Misogyny and Sexism Corpus with Annotator Subjective Disagreements
Dina Almanea and Massimo Poesio
Queen Mary University of London

Annotating Interruption in Dyadic Human Interaction
Liu YANG¹, Catherine ACHARD², Catherine PELACHAUD¹
¹ISIR, Sorbonne university, ²ISIR,Sorbonne university

The Causal News Corpus: Annotating Causal Relations in Event Sentences from News
Fiona Anting Tan¹, Ali Hürriyetoğlu², Tommaso Caselli³, Nelleke Oostdijk⁴, Tadashi Nomoto⁵, Hansi Hettiarachchi⁶, Iqra Ameer⁷, Onur Uca⁸, Farhana Ferdousi Liza⁹, Tiancheng Hu¹⁰
¹Institute of Data Science, National University of Singapore, ²KNAW, ³Rijksuniversiteit Groningen, ⁴Radboud University, ⁵National Institute of Japanese Literature, ⁶Birmingham City University, ⁷Centro de Investigación en Computación, Instituto Politécnico Nacional, ⁸Department of Sociology, Mersin University, ⁹Lecturer, University of East Anglia, ¹⁰ETH Zurich

Samrómur: Crowd-sourcing large amounts of data
Staffan Hedström, David Erik Mollberg, Ragnheiður Þórhallsdóttir, Jón Guðnason
Reykjavik University

An Annotated Corpus of Textual Explanations for Clinical Decision Support
Roland Roller¹, Aljoscha Burchardt², Nils Feldhus², Laura Seiffe², Klemens Budde³, Simon Ronicke³, Bilgin Osmanodja³
¹DFKI LT Lab, ²DFKI, ³Charité

LARD: Large-scale Artificial Disfluency Generation
Tatiana Passali¹, Thanassis Mavropoulos², Grigorios Tsoumakas¹, Georgios Meditskos¹, Stefanos Vrochidis³
¹Aristotle University of Thessaloniki, ²Information Technologies Institute, Centre for Research and Technology Hellas, ³ITI-CERTH

The CRECIL Corpus: a New Dataset for Extraction of Relations between Characters in Chinese Multi-party Dialogues
Yuru Jiang¹, Yang Xu¹, Yuhang Zhan¹, Weikai He¹, Yilin Wang², Zixuan Xi², Meiyun Wang¹, Xinyu Li¹, Yu Li¹, Yanchao Yu³
¹beijing information science and technology university, ²beijing information and science technology university, ³Edinburgh Napier University

The Bahrain Corpus: A Multi-genre Corpus of Bahraini Arabic
Dana Abdulrahim¹, Go Inoue², Latifa Shamsan¹, Salam Khalifa³, Nizar Habash²
¹University of Bahrain, ²New York University Abu Dhabi, ³Stony Brook University

A Universal Dependencies Treebank of Ancient Hebrew
Daniel Swanson and Francis Tyers
Indiana University

Hate Speech Dynamics Against African descent, Roma and LGBTQI Communities in Portugal
Paula Carvalho¹, Bernardo Cunha², Raquel Santos², Fernando Batista³, Ricardo Ribeiro³
¹INESC-ID, ²Instituto Superior Técnico, Universidade de Lisboa, ³INESC-ID Lisboa, ISCTE

Evolving Large Text Corpora: Four Versions of the Icelandic Gigaword Corpus
Starkaður Barkarson¹, Steinþór Steingrímsson², Hildur Hafsteinsdóttir¹
¹The Árni Magnússon Institute for Icelandic Studies, ²Reykjavik University

11:10 - 12:30

Session: P19 - Discourse and Pragmatics - Poster Area 1
Chair: Chiarcos, Christian

A Pragmatics-Centered Evaluation Framework for Natural Language Understanding
Damien Sileo¹, Philippe Muller², Tim Van de Cruys³, Camille Pradel⁴
¹KU Leuven, ²IRIT, University of Toulouse, ³University of Leuven, ⁴Synapse Developpement

Conversational Analysis of Daily Dialog Data using Polite Emotional Dialogue Acts
Chandrakant Bothe and Stefan Wermter
University of Hamburg

Inducing Discourse Marker Inventories from Lexical Knowledge Graphs
Christian Chiarcos
Goethe-Universität Frankfurt am Main

Story Trees: Representing Documents using Topological Persistence
Pantea Haghighatkhah¹, Antske Fokkens², Pia Sommerauer³, Bettina Speckmann¹, Kevin Verbeek¹
¹Eindhoven University of Technology, ²VU Amsterdam, ³Vrije Universiteit Amsterdam

Extracting and Analysing Metaphors in Migration Media Discourse: towards a Metaphor Annotation Scheme
Ana Zwitter Vitez¹, Mojca Brglez¹, Marko Robnik Šikonja¹, Tadej Škvorc¹, Andreja Vezovnik¹, Senja Pollak²
¹University of Ljubljana, ²"Jožef Stefan" Institute

DDisCo: A Discourse Coherence Dataset for Danish
Linea Flansmose Mikkelsen¹, Oliver Kinch², Anders Jess Pedersen², Ophélie Lacroix²
¹Aarhus University, ²Alexandra Institute

LPAttack: A Feasible Annotation Scheme for Capturing Logic Pattern of Attacks in Arguments
Farjana Sultana Mim¹, Naoya Inoue², Shoichi Naito¹, Keshav Singh¹, Kentaro Inui³
¹Tohoku University, ²Japan Advanced Institute of Science and Technology, ³Tohoku University / Riken

BeSt: The Belief and Sentiment Corpus
Jennifer Tracey¹, Owen Rambow², Claire Cardie³, Adam Dalton⁴, Hoa Trang Dang⁵, Mona Diab⁶, Bonnie Dorr⁷, Louise Guthrie⁸, Magdalena Markowska², Smaranda Muresan⁹, Vinodkumar Prabhakaran¹⁰, Samira Shaikh¹¹, Tomek Strzalkowski¹²
¹LDC, ²Stony Brook University, ³Cornell University, ⁴IHMC, ⁵National Institute of Standards and Technology, ⁶Facebook AI, ⁷University of Florida, ⁸University of Sheffield, ⁹Columbia University, ¹⁰Google, ¹¹University of North Carolina at Charlotte, ¹²RPI

11:10 - 12:30

Session: P20 - Multimodality and Cross-modality (2) - Poster Area 1
Chair: Isard, Amy

MOTIF: Contextualized Images for Complex Words to Improve Human Reading
Xintong Wang¹, Florian Schneider¹, Özge Alacam², Prateek Chaudhury³, Chris Biemann⁴
¹University of Hamburg, ²University of Bielefeld, ³Indian Institute of Technology Delhi, ⁴Universität Hamburg

Challenges with Sign Language Datasets for Sign Language Recognition and Translation
Mirella De Sisto¹, Vincent Vandeghinste², Santiago Egea Gómez³, Mathieu De Coster⁴, Dimitar Shterionov¹, Horacio Saggion³
¹Tilburg University, ²Instituut voor de Nederlandse Taal, ³Universitat Pompeu Fabra, ⁴IDLab-AIRO -- Ghent University -- imec

A Low-Cost Motion Capture Corpus in French Sign Language for Interpreting Iconicity and Spatial Referencing Mechanisms
Clémence Mertz¹, Vincent BARREAUD², Thibaut Le Naour³, Damien Lolive⁴, Sylvie Gibet²
¹Université Rennes1, IRISA, ²IRISA, ³Motion-Up, ⁴Univ Rennes, CNRS, IRISA

The CLAMS Platform at Work: Processing Audiovisual Data from the American Archive of Public Broadcasting
Marc Verhagen¹, Kelley Lynch¹, Kyeongmin Rim², James Pustejovsky¹
¹Brandeis University, ²Department of Computer Science, Brandeis University

BU-NEmo: an Affective Dataset of Gun Violence News
Carley Reardon, Sejin Paik, Ge Gao, Meet Parekh, Yanling Zhao, Lei Guo, Margrit Betke, Derry Tanti Wijaya
Boston University

RoomReader: A Multimodal Corpus of Online Multiparty Conversational Interactions
Justine Reverdy¹, Sam O'Connor Russell¹, Louise Duquenne¹, Diego Garaialde², Benjamin Cowan², Naomi Harte¹
¹Trinity College Dublin, ²University College Dublin

Quevedo: Annotation and Processing of Graphical Languages
Antonio F. G. Sevilla, Alberto Díaz Esteban, José María Lahoz-Bengoechea
Universidad Complutense de Madrid

Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of Angela Merkel’s Weekly Video Podcasts
Debjoy Saha¹, Shravan Nayak², Timo Baumann³
¹Indian Institute of Technology, Kharagpur, ²IIT (BHU) Varanasi, ³Ostbayerische Technische Hochschule Regensburg

Crowdsourcing Kazakh-Russian Sign Language: FluentSigners-50
Medet Mukushev¹, Aigerim Kydyrbekova¹, Alfarabi Imashev¹, Vadim Kimmelman², Anara Sandygulova¹
¹Nazarbayev University, ²Bergen University

11:10 - 12:30

Session: P21 - Semantics - Poster Area 1
Chair: Gaizauskas, Robert

Connecting a French Dictionary from the Beginning of the 20th Century to Wikidata
Pierre Nugues
Lund University

Metaphor annotation for German
Markus Egg and Valia Kordoni
Humboldt-Universität zu Berlin

NorDiaChange: Diachronic Semantic Change Dataset for Norwegian
Andrey Kutuzov¹, Samia Touileb², Petter Mæhlum¹, Tita Enstad¹, Alexandra Wittemann¹
¹University of Oslo, ²University of Bergen

Exploring Transformers for Ranking Portuguese Semantic Relations
Hugo Gonçalo Oliveira
CISUC, DEI, University of Coimbra

Building Static Embeddings from Contextual Ones: Is It Useful for Building Distributional Thesauri?
Olivier Ferret
CEA List

Sentence Selection Strategies for Distilling Word Embeddings from BERT
Yixiao Wang¹, Zied Bouraoui², Luis Espinosa Anke¹, Steven Schockaert¹
¹Cardiff University, ²CRIL-CNRS & University of Artois

DiaWUG: A Dataset for Diatopic Lexical Semantic Variation in Spanish
Gioia Baldissin¹, Dominik Schlechtweg², Sabine Schulte im Walde²
¹Institute for Natural Language Processing, Universität Stuttgart, ²University of Stuttgart

My Case, For an Adposition: Lexical Polysemy of Adpositions and Case Markers in Finnish and Latin
Daniel Chen and Mans Hulden
University of Colorado

WiC-TSV-de: German Word-in-Context Target-Sense-Verification Dataset and Cross-Lingual Transfer Analysis
Anna Breit, Artem Revenko, Narayani Blaschke
Semantic Web Company

Re-train or Train from Scratch? Comparing Pre-training Strategies of BERT in the Medical Domain
Hicham El Boukkouri¹, Olivier Ferret², Thomas Lavergne³, Pierre Zweigenbaum⁴
¹LIMSI, CNRS, Université Paris-Saclay, ²CEA List, ³LISN/CNRS & Université Paris Saclay, ⁴LISN, CNRS, Université Paris-Saclay

Universal Semantic Annotator: the First Unified API for WSD, SRL and Semantic Parsing
Riccardo Orlando¹, Simone Conia¹, Stefano Faralli², Roberto Navigli¹
¹Sapienza University of Rome, ²University of Rome Sapienza

12:30 - 13:00

Invited Local Talk - Philippe Boula de Mareüil - Auditorium
Chair: Blache, Philippe

13:00 - 14:30

Lunch Break

14:30 - 15:10

Keynote Speaker - Emmanuel Dupoux - Auditorium
Chair: Mariani, Joseph
Co-Chair: Piperidis, Stelios

15:10 - 15:15

Short Break (5mn)

15:15 - 16:35

Session O21: Corpora and Annotation (2) - Salle 120
Chair: Adda, Gilles
Co-Chair: Quochi, Valeria

15:15 - 15:35

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research
Jan Philip Wahle¹, Terry Ruas¹, Saif Mohammad², Bela Gipp¹
¹University of Wuppertal, ²NRC

15:35 - 15:55

SciPar: A Collection of Parallel Corpora from Scientific Abstracts
Dimitrios Roussis¹, Vassilis Papavassiliou¹, Prokopis Prokopidis¹, Stelios Piperidis², Vassilis Katsouros³
¹ILSP/Athena RC, ²Athena RC/ILSP, ³Athena Research Center

15:55 - 16:15

CATs are Fuzzy PETs: A Corpus and Analysis of Potentially Euphemistic Terms
Martha Gavidia, Patrick Lee, Anna Feldman, JIng Peng
Montclair State University

16:15 - 16:35

Camel Treebank: An Open Multi-genre Arabic Dependency Treebank
Nizar Habash¹, Muhammed AbuOdeh¹, Dima Taji², Reem Faraj³, Jamila El Gizuli⁴, Omar Kallas¹
¹New York University Abu Dhabi, ²Birzeit University, ³Columbia University, ⁴Georgia Institute of Technology

15:15 - 16:35

Session O22: Summarization - Salle 92
Chair: Tamburini, Fabio
Co-Chair: Monsen, Julius

15:15 - 15:35

MentSum: A Resource for Exploring Summarization of Mental Health Online Posts
Sajad Sotudeh, Nazli Goharian, Zachary Young
Georgetown University

15:35 - 15:55

Klexikon: A German Dataset for Joint Summarization and Simplification
Dennis Aumiller and Michael Gertz
Heidelberg University

15:55 - 16:15

Applying Automatic Text Summarization for Fake News Detection
Philipp Hartl and Udo Kruschwitz
University of Regensburg

15:15 - 16:35

Session O23: Language Resource Infrastructures and Standards - Auditorium
Chair: De Jong, Franciska
Co-Chair: Dobrovoljc, Kaja

15:15 - 15:35

Increasing CMDI’s Semantic Interoperability with schema.org
Nino Meisinger, Thorsten Trippel, Claus Zinn
University of Tübingen

15:35 - 15:55

RefCo and its Checker: Improving Language Documentation Corpora's Reusability Through a Semi-Automatic Review Process
Herbert Lange¹ and Jocelyn Aznar²
¹Universität Hamburg, ²ZAS

15:55 - 16:15

Identification and Analysis of Personification in Hungarian: The PerSECorp project
Gábor Simon
Eötvös Loránd University

16:15 - 16:35

ISO-based Annotated Multilingual Parallel Corpus for Discourse Markers
Purificação Silvano¹, Mariana Damova², Giedrė Oleškevičienė³, Chaya Liebeskind⁴, Christian Chiarcos⁵, Dimitar Trajanov⁶, Ciprian-Octavian Truică⁷, Elena-Simona Apostol⁷, Anna Baczkowska⁸
¹University of Porto/ Centre of Linguistics of the University of Porto, ²Mozaika, Ltd., ³Mykolas Romeris University, ⁴Jerusalem College of Technology , Lev Academic Center, ⁵Goethe-Universität Frankfurt am Main, ⁶Department for Information Systems and Network Technologies, Faculty of Computer Science and Engineering Ss. Cyril and Methodius University, ⁷Uppsala University, ⁸UMK

15:15 - 16:35

Session O24: Multimodality and Cross-modality - La Major
Chair: Hajicova, Eva
Co-Chair: Gari Soler, Aina

15:15 - 15:35

LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild
David Gimeno-Gómez and Carlos-D. Martínez-Hinarejos
PRHLT Research Center - Universitat Politècnica de València

15:35 - 15:55

Modality Alignment between Deep Representations for Effective Video-and-Language Learning
Hyeongu Yun, Yongil Kim, Kyomin Jung
Seoul National University

15:55 - 16:15

Mutual Gaze and Linguistic Repetition in a Multimodal Corpus
Anais Murat, Maria Koutsombogera, Carl Vogel
Trinity College Dublin

16:15 - 16:35

Multidimensional Coding of Multimodal Languaging in Multi-Party Settings
Christophe Parisse¹, Marion Blondel², Stéphanie Caët³, Claire Danet⁴, Coralie Vincent², Aliyah Morgenstern⁵
¹Modyco, ²SFL, ³STL & Lille University, ⁴Dylis, ⁵PRISMES

15:15 - 16:35

Session: P22 - Lexicons (2) - Poster Area 2
Chair: Yildiz, Olcay Taner

Constructing a Lexical Resource of Russian Derivational Morphology
Lukáš Kyjánek¹, Olga Lyashevskaya², Anna Nedoluzhko³, Daniil Vodolazsky⁴, Zdeněk Žabokrtský⁵
¹Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, ²National Research University Higher School of Economics, ³Charles University in Prague, ⁴Sber, ⁵Charles University

Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of Lexical Gaps in Kinship
Temuulen Khishigsuren¹, Gábor Bella², Khuyagbaatar Batsuren¹, Abed Alhakim Freihat², Nandu Chandran Nair², Amarsanaa Ganbold¹, Hadi Khalilia², Yamini Chandrashekar², fausto giunchiglia³
¹National University of Mongolia, ²University of Trento, ³Univesity of Trento

Towards Latvian WordNet
Peteris Paikens¹, Mikus Grasmanis¹, Agute Klints¹, Ilze Lokmane¹, Lauma Pretkalniņa², Laura Rituma², Madara Stāde¹, Laine Strankale¹
¹University of Latvia, IMCS, ²Institute of Mathematics and Computer Science, University of Latvia

Building Sentiment Lexicons for Mainland Scandinavian Languages Using Machine Translation and Sentence Embeddings
Peng Liu, Cristina Marco, Jon Atle Gulla
Norwegian University of Science and Technology

A Thesaurus-based Sentiment Lexicon for Danish: The Danish Sentiment Lexicon
Sanni Nimb¹, Sussi Olsen², Bolette Pedersen³, Thomas Troelsgård⁴
¹Society for Danish Language and Literature (DSL), ²UCPH, Centre for Language Technology, ³University of Copenhagen, ⁴Society for Danish Language and Literature

IndoUKC: A Concept-Centered Indian Multilingual Lexical Resource
Nandu Chandran Nair¹, Rajendran Velayuthan², Yamini Chandrashekar¹, Gábor Bella¹, fausto giunchiglia³
¹University of Trento, ²Amrita Vishwa Vidyapeetham, ³Univesity of Trento

Korean Language Modeling via Syntactic Guide
Hyeondey Kim¹, Seonhoon Kim², INHO KANG³, Nojun Kwak⁴, Pascale Fung⁵
¹HKUST, ²Naver Search, ³NAVER Clova, ⁴Seoul National University, ⁵Hong Kong University of Science and Technology

A Whole-Person Function Dictionary for the Mobility, Self-Care and Domestic Life Domains: a Seedset Expansion Approach
Ayah Zirikly¹, Bart Desmet², Julia Porcino², Jonathan Camacho Maldonado², Pei-Shu Ho², Rafael Jimenez Silva², Maryanne Sacco²
¹Johns Hopkins University, ²National Institutes of Health

15:15 - 16:35

Session: P23 - Digital Humanities (1) - Poster Area 2
Chair: Wynne, Martin

Placing multi-modal, and multi-lingual Data in the Humanities Domain on the Map: the Mythotopia Geo-tagged Corpus
Voula Giouli¹, Anna Vacalopoulou¹, Nikolaos Sidiropoulos¹, Christina Flouda², Athanasios Doupas¹, Giorgos Giannopoulos³, Nikos Bikakis³, Vassilis Kaffes³, Gregory Stainhaouer¹
¹ATHENA Research & Innovation Centre, Institute for Language & Speech Processing, ²ATHENA Research & Innovation Centre. Institute for Language & Speech Processing, ³ATHENA Research & Innovation Centre, Information Management Systems Institute

An Architecture of resolving a multiple link path in a standoff-style data format to enhance the mobility of language resources
Kazushi Ohya
Tsurumi University

A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional Classification
Julia Romberg, Laura Mark, Tobias Escher
Department of Social Sciences, Heinrich Heine University Düsseldorf

Overlooked Data in Typological Databases: What Grambank Teaches Us About Gaps in Grammars
Jakob Lesage¹, Hannah Haynie², Hedvig Skirgård³, Tobias Weber⁴, Alena Witzlack-Makarevich⁵
¹Humboldt University Berlin, ²Department of Linguistics, University of Colorado Boulder, ³Department of Linguistic and Cultural Evolution, Max Planck Institute for Evolutionary Anthropology, ⁴Institute for Scandinavian Studies, Frisian and General Linguistics, Department of General Linguistics, Christian-Albrechts-Universität zu Kiel, ⁵Hebrew University of Jerusalem

Hong Kong: Longitudinal and Synchronic Characterisations of Protest News between 1998 and 2020
Arya D. McCarthy¹ and Giovanna Maria Dora Dore²
¹Johns Hopkins University, ²JHU

Nunc profana tractemus. Detecting Code-Switching in a Large Corpus of 16th Century Letters
Martin Volk, Lukas Fischer, Patricia Scheurer, Bernard Schroffenegger, Raphael Schwitter, Phillip Ströbel, Benjamin Suter
University of Zurich

15:15 - 16:35

Session: P24 - Evaluation and Validation Methodologies (2) - Poster Area 2
Chair: Zeldes, Amir

Quality and Efficiency of Manual Annotation: Pre-annotation Bias
Marie Mikulová¹, Milan Straka², Jan Štěpánek¹, Barbora Štěpánková¹, Jan Hajic¹
¹Charles University, ²Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics

A Comprehensive Evaluation and Correction of the TimeBank Corpus
Mustafa Ocal¹, Antonela Radas², Jared Hummer², Karine Megerdoomian³, Mark Finlayson²
¹Florida International University, ²FIU, ³The MITRE Corporation

Evaluating Multilingual Sentence Representation Models in a Real Case Scenario
Rocco Tripodi¹, Rexhina Blloshmi², Simon Levis Sullam³
¹Alma Mater Studiorum - Università di Bologna, ²Amazon Alexa, ³Ca' Foscari University of Venice

Validity, Agreement, Consensuality and Annotated Data Quality
Anaëlle Baledent, Yann Mathet, Antoine Widlöcher, Christophe Couronne, Jean-Luc Manguin
Normandie Univ, UNICAEN, ENSICAEN, CNRS, GREYC, 14000 Caen, FRANCE

Impact Analysis of the Use of Speech and Language Models Pretrained by Self-Supersivion for Spoken Language Understanding
salima mdhaffar¹, Valentin Pelloin², Antoine Caubrière³, Gaëlle Laperriere¹, Sahar Ghannay⁴, Bassam Jabaian⁵, Nathalie Camelin⁶, Yannick Estève⁷
¹LIA - University of Avignon, ²LIUM - Le Mans university, ³LIA, Avignon University, ⁴CNRS, LISN, ⁵CERI-LIA, University of Avignon, ⁶LIUM - University of Le Mans, ⁷LIA - Avignon University

JGLUE: Japanese General Language Understanding Evaluation
Kentaro Kurihara¹, Daisuke Kawahara¹, Tomohide Shibata²
¹Waseda University, ²Yahoo Japan Corporation

Using the LARA Little Prince to compare human and TTS audio quality
Elham Akhlaghi¹, Ingibjörg Auðunardóttir², Anna Bączkowska³, Branislav Bédi⁴, Hakeem Beedar⁵, Harald Berthelsen⁶, Cathy Chua⁷, Catia Cucchiarin⁸, Hanieh Habibi⁹, Ivana Horváthová¹⁰, Junta Ikeda⁷, Christèle Maizonniaux¹¹, Neasa Ní Chiaráin⁶, Chadi Raheb¹², Manny Rayner¹³, John Sloan⁹, Nikos Tsourakis⁹, Chunlin Yao¹⁴
¹Ferdowsi University of Mashhad, ²University of Iceland, ³University of Gdansk, Gdansk, ⁴The Árni Magnússon Institute for Icelandic Studies,, ⁵University of Adelaide, ⁶Trinity College, Dublin, ⁷Independent scholar, ⁸Centre for Language and Speech Technology (CLST), Radboud University Nijmegen, ⁹FTI/TIM, University of Geneva, ¹⁰Constantine the Philosopher University, ¹¹Flinders University, Adelaide, ¹²University of Guilan, Rasht, ¹³Geneva University, ¹⁴Tianjin Chengjian University

Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations
Chris Emmery¹, Ákos Kádár², Grzegorz Chrupała³, Walter Daelemans⁴
¹Tilburg University & University of Antwerp, ²Explosion, ³Tilburg University, ⁴University of Antwerp, CLiPS

Constructing Distributions of Variation in Referring Expression Type from Corpora for Model Evaluation
T. Mark Ellison and Fahime Same
University of Cologne

Knowledge Graph Question Answering Leaderboard: A Community Resource to Prevent a Replication Crisis
Aleksandr Perevalov¹, Xi Yan², Liubov Kovriguina³, Longquan Jiang², Andreas Both¹, Ricardo Usbeck²
¹Anhalt University of Applied Sciences, ²Hamburg University, ³Fraunhofer IAIS

15:15 - 16:35

Session: P25 - Multilinguality and Machine Translation (2) - Poster Area 2
Chair: Kalamkar, Prathamesh

Multi-Task Learning for Cross-Lingual Abstractive Summarization
Sho Takase and Naoaki Okazaki
Tokyo Institute of Technology

How Much Context Span is Enough? Examining Context-Related Issues for Document-level MT
Sheila Castilho
Dublin City University

TANDO: A Corpus for Document-level Machine Translation
Harritxu Gete¹, Thierry Etchegoyhen¹, David Ponce¹, Gorka Labaka², Nora Aranberri³, Ander Corral⁴, Xabier Saralegi⁴, Igor Ellakuria⁵, Maite Martin⁶
¹Vicomtech, ²HiTZ Center - Ixa, University of the Basque Country (UPV/EHU), ³University of the Basque Country (UPV/EHU), ⁴Elhuyar Foundation, ⁵Isea, ⁶Ametzagaiña

Unsupervised Machine Translation in Real-World Scenarios
Ona de Gibert Bonet¹, Iakes Goenaga², Jordi Armengol-Estapé¹, Olatz Perez-de-Viñaspre³, Carla Parra Escartín⁴, Marina Sanchez⁵, Mārcis Pinnis⁶, Gorka Labaka⁷, Maite Melero¹
¹Barcelona Supercomputing Center, ²UPV/EHU, ³HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ⁴RWS Language Weaver, ⁵Unbabel, ⁶Tilde, ⁷HiTZ Center - Ixa, University of the Basque Country (UPV/EHU)

COVID-19 Mythbusters in World Languages
Mana Ashida¹, Jin-Dong Kim², Lee Seunghun³
¹Yahoo Japan Corporation, ²Database Center for Life Science, ³International Christian University

On the Multilingual Capabilities of Very Large-Scale English Language Models
Jordi Armengol-Estapé, Ona de Gibert Bonet, Maite Melero
Barcelona Supercomputing Center

Evaluating Subtitle Segmentation for End-to-end Generation Systems
Alina Karakanta¹, François Buet², Mauro Cettolo³, François Yvon⁴
¹Fondazione Bruno Kessler (FBK), University of Trento, ²Laboratoire Interdisciplinaire des Sciences du Numérique, ³Fondazione Bruno Kessler, ⁴LISN CNRS & Univ. Paris Saclay

Using Semantic Role Labeling to Improve Neural Machine Translation
Reinhard Rapp
Athena R.C.

A Deep Transfer Learning Method for Cross-Lingual Natural Language Inference
Dibyanayan Bandyopadhyay¹, Arkadipta De², Baban Gain¹, Tanik Saikh³, Asif Ekbal⁴
¹Indian Institute of Technology, Patna, ²Indian Institute of Technology Hyderabad, ³India Institute of Technology Patna, ⁴IIT Patna

Simple TICO-19: A Dataset for Joint Translation and Simplification of COVID-19 Texts
Matthew Shardlow¹ and Fernando Alva-Manchego²
¹Manchester Metropolitan University, ²Cardiff University

Building Comparable Corpora for Assessing Multi-Word Term Alignment
Omar Adjali¹, Emmanuel Morin², Pierre Zweigenbaum³
¹Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numérique, ²LS2N UMR CNRS 6004, ³LISN, CNRS, Université Paris-Saclay

Mean Machine Translations: On Gender Bias in Icelandic Machine Translations
Agnes Sólmundsdóttir, Dagbjört Guðmundsdóttir, Lilja Stefánsdóttir, Anton Ingason
University of Iceland

15:15 - 16:35

Session: P26 - Dialogue and Conversational Systems (2) - Poster Area 2
Chair: Hartholt, Arno

An Analysis of Dialogue Act Sequence Similarity Across Multiple Domains
Ayesha Enayet and Gita Sukthankar
University of Central Florida

Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool
Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang, Sadao Kurohashi
Kyoto University

UgChDial: A Uyghur Chat-based Dialogue Corpus for Response Space Classification
Zulipiye Yusupujiang¹ and Jonathan Ginzburg²
¹Université Paris Cité, ²Université de Paris

A Speculative and Tentative Common Ground Handling for Efficient Composition of Uncertain Dialogue
Saki Sudo¹, Kyoshiro Asano¹, Koh Mitsuda², Ryuichiro Higashinaka³, Yugo Takeuchi¹
¹Shizuoka University, ²NTT, ³Nagoya University/NTT

BaSCo: An Annotated Basque-Spanish Code-Switching Corpus for Natural Language Understanding
Maia Aguirre, Laura García-Sardiña, Manex Serras, Ariane Méndez, Jacobo López
Vicomtech

ProDial -- An Annotated Proactive Dialogue Act Corpus for Conversational Assistants using Crowdsourcing
Matthias Kraus¹, Nicolas Wagner², Wolfgang Minker²
¹University of Ulm, ²Ulm University

ELITR Minuting Corpus: A Novel Dataset for Automatic Minuting from Multi-Party Meetings in English and Czech
Anna Nedoluzhko¹, Muskaan Singh², Marie Hledíková³, Tirthankar Ghosal⁴, Ondřej Bojar³
¹Charles University in Prague, ²UFAL,Charles University, ³Charles University, MFF UFAL, ⁴Institute of Formal and Applied Linguistics, Charles University

16:35 - 16:55

Coffee Break

16:55 - 18:35

Session O25: Social Media Processing - Auditorium
Chair: Rayson, Paul
Co-Chair: Aldabe, Itziar

16:55 - 17:15

Extracting Age-Related Stereotypes from Social Media Texts
Kathleen C. Fraser, Svetlana Kiritchenko, Isar Nejadgholi
National Research Council Canada

17:15 - 17:35

Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in Language Mixing
Elena Alvarez-Mellado¹ and Constantine Lignos²
¹UNED School of Computer Science, ²Brandeis University

17:35 - 17:55

Multi-Aspect Transfer Learning for Detecting Low Resource Mental Disorders on Social Media
Ana Sabina Uban¹, Berta Chulvi², Paolo Rosso²
¹Universitat Politecnica de Valencia, University of Bucharest, ²Universitat Politècnica de València

17:55 - 18:15

ArCovidVac: Analyzing Arabic Tweets About COVID-19 Vaccination
Hamdy Mubarak¹, Sabit Hassan², Shammur Absar Chowdhury¹, Firoj Alam³
¹Qatar Computing Research Institute, ²University of Pittsburgh, ³Qatar Computing Research Institute, HBKU

18:15 - 18:35

FACTOID: A New Dataset for Identifying Misinformation Spreaders and Political Bias
Flora Sakketou¹, Joan Plepi¹, Riccardo Cervero², Henri Geiss³, Paolo Rosso², Lucie Flek¹
¹Philipps-Marburg University, ²Universitat Politècnica de València, ³Technical University of Darmstadt

16:55 - 18:35

Session O26: Speech Resources and Processing - La Major
Chair: Lindén, Krister
Co-Chair: Mazzocconi, Chiara

16:55 - 17:15

Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech Recognition
Julia Pritzen¹, Michael Gref², Dietlind Zühlke³, Christoph Schmidt²
¹Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS) & TH Köln - University of Applied Sciences, ²Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS), ³TH Köln - Cologne University of Applied Sciences

17:15 - 17:35

SDS-200: A Swiss German Speech to Standard German Text Corpus
Michel Plüss¹, Manuela Hürlimann², Marc Cuny³, Alla Stöckli³, Nikolaos Kapotis⁴, Julia Hartmann⁵, Malgorzata Anna Ulasik⁶, Christian Scheller⁷, Yanick Schraner⁷, Amit Jain⁴, Jan Deriu⁸, Mark Cieliebak⁸, Manfred Vogel⁷
¹University of Applied Sciences and Arts Northwestern Switzerland, ²Zurich University of Applied Sciences (ZHAW), ³SpinningBytes AG, ⁴-, ⁵FHNW, ⁶ZHAW, ⁷University of Applied Sciences Northwestern Switzerland, ⁸Zurich University of Applied Sciences

17:35 - 17:55

Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance Languages
Yaru WU¹, Mathilde Hutin², Ioana Vasilescu³, Lori Lamel⁴, Martine Adda-Decker⁵
¹CRISCO/EA4255, Université de Caen Normandie, 14000 Caen, France; Laboratoire de Phonétique et Phonologie (UMR7018, CNRS-Sorbonne Nouvelle), France, ²Université Paris-Saclay, CNRS, LIMSI, ³LIMSI-CNRS, ⁴CNRS/LIMSI, ⁵LPP (Lab. Phonétique & Phonologie) / LIMSI-CNRS

17:55 - 18:15

Overlaps and Gender Analysis in the Context of Broadcast Media
Martin Lebourdais¹, Marie Tahon², Antoine LAURENT³, Sylvain Meignier¹, Anthony Larcher⁴
¹LIUM, ²LIUM / Le Mans University, ³LIUM - Laboratoire Informatique Université du Mans, ⁴Université du Mans - LIUM

18:15 - 18:35

A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification.
Rémi Uro¹, David Doukhan¹, Albert Rilliard², Laetitia Larcher¹, Anissa-Claire Adgharouamane¹, Marie Tahon³, Antoine Laurent³
¹Institut National de l'Audiovisuel, ²Université Paris Saclay, CNRS, LISN, ³LIUM, Le Mans Université

16:55 - 18:35

Session O27: Discourse - Salle 120
Chair: Cabrio, Elena
Co-Chair: Abercrombie, Gavin

16:55 - 17:15

DiscoGeM: A Crowdsourced Corpus of Genre-Mixed Implicit Discourse Relations
Merel Scholman, Tianai Dong, Frances Yung, Vera Demberg
Saarland University

17:15 - 17:35

QT30: A Corpus of Argument and Conflict in Broadcast Debate
Annette Hautli-Janisz¹, Zlata Kikteva¹, Wassiliki Siskou², Kamila Gorska³, Ray Becker³, Chris Reed³
¹University of Passau, ²University of Konstanz, ³University of Dundee

17:35 - 17:55

Scaling up Discourse Quality Annotation for Political Science
Neele Falk¹ and Gabriella Lapesa²
¹University of Stuttgart, ²Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung

17:55 - 18:15

Clarifying Implicit and Underspecified Phrases in Instructional Text
Talita Anthonio, Anna Sauer, Michael Roth
University of Stuttgart

18:15 - 18:35

Multilingual Pragmaticon: Database of Discourse Formulae
Anton Buzanov, Polina Bychkova, Arina Molchanova, Anna Postnikova, Daria Ryzhova
Higher School of Economics

16:55 - 18:35

Session O28: Digital Humanities and Cultural Heritage - Salle 92
Chair: Witt, Andreas
Co-Chair: Frenda, Simona

16:55 - 17:15

Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection
Ranka Stanković¹, Cvetana Krstev², Branislava Šandrih Todorović³, Dusko Vitas⁴, Mihailo Skoric⁵, Milica Ikonić Nešić²
¹University of Belgrade - Faculty of Mining and Geology, ²University of Belgrade, Faculty of Philology, ³University of Belgrade, Faculty of Philology, Serbia, ⁴Professor, ⁵University of Belgrade Faculty of Mining and Geology

17:15 - 17:35

Exploring Text Recombination for Automatic Narrative Level Detection
Nils Reiter¹, Judith Sieker², Svenja Guhr³, Evelyn Gius³, Sina Zarrieß²
¹University of Cologne, ²University of Bielefeld, ³Technical University of Darmstadt

17:35 - 17:55

Automatic Normalisation of Early Modern French
Rachel Bawden¹, Jonathan Poinhos², Eleni Kogkitsidou², Philippe Gambette³, Benoît Sagot¹, Simon Gabay⁴
¹Inria, ²LIGM (UMR 8049), Université Gustave Eiffel, CNRS, ³LIGM, Université Gustave Eiffel, CNRS, ⁴Université de Genève

17:55 - 18:15

From FreEM to D’AlemBERT: a Large Corpus and a Language Model for Early Modern French
Simon Gabay¹, Pedro Ortiz Suarez², Alexandre BARTZ³, Alix Chagué⁴, Rachel Bawden⁵, Philippe Gambette⁶, Benoît Sagot⁵
¹Université de Genève, ²Data and Web Science Group, University of Mannheim, ³Sorbonne Université, ⁴Inria/Université de Montréal, ⁵Inria, ⁶LIGM, Université Gustave Eiffel, CNRS

18:15 - 18:35

Detecting Multiple Transitions in Literary Texts
Nuette Heyns¹ and Menno van Zaanen²
¹North West University, ²South African Centre for Digital Language Resources

16:55 - 18:35

Session: P27 - Corpora and Annotation (4) - Poster Area 1
Chair: Pęzik, Piotr

BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions
Nayla Escribano¹, Jon Ander Gonzalez¹, Julen Orbegozo-Terradillos², Ainara Larrondo-Ureta², Simón Peña-Fernández², Olatz Perez-de-Viñaspre¹, Rodrigo Agerri¹
¹HiTZ Center - Ixa, University of the Basque Country UPV/EHU, ²Gureiker, University of the Basque Country UPV/EHU

GerEO: A Large-Scale Resource on the Syntactic Distribution of German Experiencer-Object Verbs
Johanna M. Poppek, Simon Masloch, Tibor Kiss
Linguistic Data Science Lab, Ruhr-Universitaet Bochum

ACT2: A multi-disciplinary semi-structured dataset for importance and purpose classification of citations
Suchetha Nambanoor Kunnath¹, Valentin Stauber², Ronin Wu², David Pride³, Viktor Botev², Petr Knoth³
¹Open University, ²Iris.ai, ³The Open University

Quantification Annotation in ISO 24617-12, Second Draft
Harry Bunt¹, Maxime Amblard², Johan Bos³, Karën Fort⁴, Bruno Guillaume⁵, Philippe de Groote⁶, Chuyuan Li⁷, Pierre Ludmann², Michel Musiol⁸, Siyana Pavlova⁹, Guy Perrier¹⁰, Sylvain Pogodalla¹¹
¹Tilburg University, ²Université de Lorraine, CNRS, Inria, LORIA, ³University of Groningen, ⁴Sorbonne Université and LORIA, ⁵LORIA / Inria Nancy Grand-Est, ⁶Inria, ⁷LORIA, ⁸INRIA Sémagrame & CNRS Atilf UMR 7118, ⁹Université de Lorraine, ¹⁰LORIA - University of Lorraine, ¹¹LORIA/INRIA Nancy-Grand Est

The LTRC Hindi-Telugu Parallel Corpus
Vandan Mujadia¹ and Dipti Sharma²
¹student, ²IIIT, Hyderabad

MHE: Code-Mixed Corpora for Similar Language Identification
Priya Rani¹, John P. McCrae², Theodorus Fransen³
¹Data Science Institute, National University of Ireland, ²Insight Center for Data Analytics, National University of Ireland Galway, ³Data Science Institute, Insight Centre for Data Analytics, National University of Ireland, Galway

Bazinga! A Dataset for Multi-Party Dialogues Structuring
Paul Lerner¹, Juliette Bergoënd¹, Camille Guinaudeau², Hervé Bredin³, Benjamin Maurice¹, Sharleyne Lefevre¹, Martin Bouteiller¹, Aman Berhe¹, Léo Galmant¹, Ruiqing Yin¹, Claude Barras⁴
¹Université Paris-Saclay, CNRS, LISN, ²University Paris Saclay / LISN - CNRS, ³CNRS, ⁴Vocapia Research

The Ellogon Web Annotation Tool: Annotating Moral Values and Arguments
Alexandros Ntogramatzis¹, Anna Gradou², Georgios Petasis², Marko Kokol³
¹Department of Informatics and Telecommunications, National and Kapodistrian University of Athens, ²NCSR "Demokritos", ³Semantika Research

WeCanTalk: A New Multi-language, Multi-modal Resource for Speaker Recognition
Karen Jones¹, Kevin Walker², Christopher Caruso², Jonathan Wright³, Stephanie Strassel⁴
¹Linguistic Data Consortium, ²Linguistic Data Consortium/University of Pennsylvania, ³University of Pennsylvania, ⁴Linguistic Data Consortium, University of Pennsylvania

Using Wiktionary to Create Specialized Lexical Resources and Datasets
Lenka Bajčetić¹ and Thierry Declerck²
¹Austrian Centre for Digital Humanities and Cultural Heritage, Austrian Academy of Sciences, ²DFKI GmbH

STAPI: An Automatic Scraper for Extracting Iterative Title-Text Structure from Web Documents
Nan Zhang¹, Shomir Wilson², Prasenjit Mitra¹
¹The Pennsylvania State University, ²Pennsylvania State University

ELTE Poetry Corpus: A Machine Annotated Database of Canonical Hungarian Poetry
Péter Horváth¹, Péter Kundráth², Balázs Indig¹, Zsófia Fellegi³, Eszter Szlávich¹, Tímea Bajzát³, Zsófia Sárközi-Lindner¹, Bence Vida¹, Aslihan Karabulut¹, Mária Timári¹, Gábor Palkó¹
¹Eötvös Loránd University, ²no institution, ³Research Centre for the Humanities

HAWP: a Dataset for Hindi Arithmetic Word Problem Solving
Harshita Sharma¹, Pruthwik Mishra², Dipti Sharma²
¹IIIT Hyderabad, ²IIIT, Hyderabad

The Bulgarian Event Corpus: Overview and Initial NER Experiments
Petya Osenova¹, Kiril Simov², Iva Marinova³, Melania Berbatova⁴
¹Sofia University "St. Kl. Ohridski" and IICT-BAS, ²Artificial Intelligence and Language Technologies Department, IICT, Bulgarian Academy of Sciences, ³Identrics, ⁴IICT-BAS

A Corpus for Commonsense Inference in Story Cloze Test
Bingsheng Yao, Ethan Joseph, Julian Lioanag, Mei Si
Rensselaer Polytechnic Institute

16:55 - 18:35

Session: P28 - Natural Language Generation (including Summarization) (2) - Poster Area 1
Chair: Paroubek, Patrick

Lessons Learned from GPT-SW3: Building the First Large-Scale Generative Language Model for Swedish
Ariel Ekgren¹, Amaru Cuba Gyllensten², Evangelia Gogoulou², Alice Heiman¹, Severine Verlinden¹, Joey Öhman¹, Fredrik Carlsson³, Magnus Sahlgren¹
¹AI Sweden, ²RISE, ³Research Institute of Sweden

Constrained Language Models for Interactive Poem Generation
Andrei Popescu-Belis¹, Àlex Atrio², Valentin Minder¹, Aris Xanthos³, Gabriel Luthier¹, Simon Mattei¹, Antonio Rodriguez³
¹HEIG-VD / HES-SO, ²HEIG-VD / HES-SO & EPFL, ³University of Lausanne

ELF22: A Context-based Counter Trolling Dataset to Combat Internet Trolls
Huije Lee¹, Young Ju NA², Hoyun Song³, Jisu Shin³, Jong Park³
¹Korea Advanced Institute of Science and Technology (KAIST), ²Universit´e Sorbonne Nouvelle, ³KAIST

Generating Textual Explanations for Machine Learning Models Performance: A Table-to-Text Task
Isaac Ampomah¹, James Burton¹, Amir Enshaei², Noura Al Moubayed¹
¹Durham University, ²Caspian Learning Ltd, Newcastle University

Barch: an English Dataset of Bar Chart Summaries
Iza Škrjanec¹, Muhammad Salman Edhi², Vera Demberg³
¹University of Saarland, ²Universität des Saarlandes, ³Saarland University

Effectiveness of Data Augmentation and Pretraining for Improving Neural Headline Generation in Low-Resource Settings
Matej Martinc¹, Syrielle Montariol², Lidia Pivovarova³, Elaine Zosa³
¹Jozef Stefan Institute, ²INRIA, ³University of Helsinki

Effectiveness of French Language Models on Abstractive Dialogue Summarization Task
Yongxin Zhou¹, François Portet², Fabien Ringeval³
¹Université Grenoble Alpes, LIG, ²Univ Grenoble Alpes, Laboratoire d'Informatique de Grenoble, ³University of Grenoble Alpes

ALEXSIS: A Dataset for Lexical Simplification in Spanish
Daniel Ferrés and Horacio Saggion
Universitat Pompeu Fabra

16:55 - 18:35

Session: P29 - Information Extraction (2) - Poster Area 1
Chair: Névéol, Aurélie

The IARPA BETTER Program Abstract Task Four New Semantically Annotated Corpora from IARPA’s BETTER Program
Timothy Mckinnon and Carl Rubino
IARPA

A Named Entity Recognition Corpus for Vietnamese Biomedical Texts to Support Tuberculosis Treatment
Uyen Phan¹, Phuong Nguyen², Nhung Nguyen³
¹VNUHCM-University of Science, ²Pham Ngoc Thach University of Medicine, ³The University of Manchester

RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced Labour
Erick Mendez Guzman¹, Viktor Schlegel², Riza Batista-Navarro³
¹The University of Manchester, ²University of Manchester, ³Department of Computer Science, The University of Manchester

Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT
Mustafa Jarrar¹, Mohammed Khalilia², Sana Ghanem¹
¹Birzeit University, ²Amazon

Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's Perspective
Lisa Raithel¹, Philippe Thomas², Roland Roller³, Oliver Sapina³, Sebastian Möller⁴, Pierre Zweigenbaum⁵
¹LISN, CNRS, Université Paris Saclay / DFKI Berlin, Technische Universität Berlin, ²German Research Center for Artificial Intelligence, ³DFKI LT Lab, ⁴Quality and Usability Lab, TU Berlin, ⁵LISN, CNRS, Université Paris-Saclay

GGPONC 2.0 - The German Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline NER Taggers
Florian Borchert¹, Christina Lohr², Luise Modersohn³, Jonas Witt¹, Thomas Langer⁴, Markus Follmann⁴, Matthias Gietzelt⁵, Bert Arnrich¹, Udo Hahn², Matthieu-P. Schapranow¹
¹Digital Health Center, Hasso Plattner Institute, ²Friedrich-Schiller-Universität Jena, ³Friedrich Schiller University Jena, ⁴German Guideline Program in Oncology, German Cancer Society, ⁵Peter L. Reichertz Institute for Medical Informatics of TU Braunschweig and Hannover Medical School

ClinIDMap: Towards a Clinical IDs Mapping for Data Interoperability
Elena Zotova¹, Montse Cuadros¹, German Rigau²
¹Vicomtech, ²UPV/EHU

Identifying Draft Bills Impacting Existing Legislation: a Case Study on Romanian
Corina Ceausu¹ and Sergiu Nisioi²
¹University of Bucharest, ²Human Language Technologies Research Center, University of Bucharest

MuLD: The Multitask Long Document Benchmark
George Hudson and Noura Al Moubayed
Durham University

A Cross-document Coreference Dataset for Longitudinal Tracking across Radiology Reports
Surabhi Datta, Hio Lam, Atieh Pajouhi, Sunitha Mogalla, Kirk Roberts
University of Texas Health Science Center at Houston

How's Business Going Worldwide ? A Multilingual Annotated Corpus for Business Relation Extraction
Hadjer Khaldi¹, Farah Benamara², Camille Pradel³, Grégoire Sigel³, Nathalie Aussenac-Gilles⁴
¹IRIT - University of Paul Sabatier/ Geotrend, ²University of toulouse, ³Geotrend, ⁴CNRS - IRIT

Do Transformer Networks Improve the Discovery of Rules from Text?
Mahdi Rahimi and Mihai Surdeanu
University of Arizona

Offensive language detection in Hebrew: can other languages help?
Marina Litvak¹, Natalia Vanetik¹, Chaya Liebeskind², Omar Hmdia¹, Rizek Madeghem¹
¹Shamoon College of Engineering, ²Jerusalem College of Technology , Lev Academic Center

JaMIE: A Pipeline Japanese Medical Information Extraction System with Novel Relation Annotation
Fei Cheng¹, Shuntaro Yada², Ribeka Tanaka³, Eiji ARAMAKI⁴, Sadao Kurohashi¹
¹Kyoto University, ²Nara Institute of Science and Technology, ³Ochanomizu University, ⁴NAIST, Japan

Enhanced Entity Annotations for Multilingual Corpora
Michael Strobl¹, Amine Trabelsi², Osmar Zaïane¹
¹University of Alberta, ²Lakehead University

Enriching Epidemiological Thematic Features For Disease Surveillance Corpora Classification
Edmond Menya¹, Mathieu Roche², Roberto Interdonato², Dickson Owuor¹
¹Strathmore University, ²CIRAD

Spanish Datasets for Sensitive Entity Detection in the Legal Domain
Ona de Gibert Bonet¹, Aitor García Pablos², Montse Cuadros², Maite Melero¹
¹Barcelona Supercomputing Center, ²Vicomtech

ConvTextTM: An Explainable Convolutional Tsetlin Machine Framework for Text Classification
Bimal Bhattarai¹, Ole-Christoffer Granmo², Lei Jiao¹
¹University of Agder, ²Centre for Artificial Intelligence Research

Elvis vs. M. Jackson: Who has More Albums? Classification and Identification of Elements in Comparative Questions
Meriem Beloucif¹, Seid Muhie Yimam², Steffen Stahlhacke², Chris Biemann²
¹University of Hamburg, ²Universität Hamburg

Decorate the Examples: A Simple Method of Prompt Design for Biomedical Relation Extraction
Hui-Syuan Yeh¹, Thomas Lavergne¹, Pierre Zweigenbaum²
¹LISN/CNRS & Université Paris Saclay, ²LISN, CNRS, Université Paris-Saclay

Comparing Annotated Datasets for Named Entity Recognition in English Literature
Rositsa Ivanova¹, Marieke van Erp², Sabrina Kirrane¹
¹Vienna University for Economics and Business, ²KNAW Humanities Cluster

End of Day 2