LREC 2022: Program

LREC 2022 Program - Remote Sessions

Remote Papers

Session: R1 - Applications involving LRs and Evaluation (including applications in specific domains)

Predicting the Proficiency Level of Nonnative Hebrew Authors
[Paper] [Video]
Isabelle Nguyen¹ and Shuly Wintner²
¹Humboldt-Universität zu Berlin, ²University of Haifa

Trends, Limitations and Open Challenges in Automatic Readability Assessment Research
[Paper] [Video]
Sowmya Vajjala
National Research Council

HateCheckHIn: Evaluating Hindi Hate Speech Detection Models
[Paper] [Video]
Mithun Das¹, Punyajoy Saha², Binny Mathew², Animesh Mukherjee³
¹Indian Institute of Technology Kharagpur, India, ²Indian Institute of Technology, Kharagpur, ³IIT Kharagpur

Surfer100: Generating Surveys From Web Resources, Wikipedia-style
[Paper] [Poster] [Video]
Irene Li¹, Alex Fabbri², Rina Kawamura¹, Yixin Liu³, Xiangru Tang¹, Jaesung tae¹, Chang Shen¹, Sally Ma¹, Tomoe Mizutani¹, Dragomir Radev¹
¹Yale University, ²Salesforce AI Research, ³Carnegie Mellon University

MS-LaTTE: A Dataset of Where and When To-do Tasks are Completed
[Paper] [Video]
Sujay Kumar Jauhar¹, Nirupama Chandrasekaran¹, Michael Gamon¹, Ryen White²
¹Microsoft Research, ²Microsoft

KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data, Speakers, and Topics
[Paper] [Video]
Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol
Nazarbayev University

A Graph-Based Method for Unsupervised Knowledge Discovery from Financial Texts
[Paper] [Poster] [Video]
Joel Oksanen¹, Abhilash Majumder², Kumar Saunack², Francesca Toni¹, Arun Dhondiyal²
¹Imperial College London, ²MSCI Inc.

Leveraging Mental Health Forums for User-level Depression Detection on Social Media
[Paper] [Poster] [Video]
Sravani Boinepelli¹, Tathagata Raha¹, Harika Abburi¹, Pulkit Parikh¹, Niyati Chhaya², Vasudeva Varma¹
¹International Institute of Information Technology, Hyderabad, ²Adobe Research

Classifying Implant-Bearing Patients via their Medical Histories: a Pre-Study on Swedish EMRs with Semi-Supervised GanBERT
[Paper] [Poster] [Video]
Benjamin Danielsson¹, Marina Santini², Peter Lundberg¹, Yosef Al-Abasse¹, Arne Jonsson¹, Emma Eneling¹, Magnus Stridsman¹
¹Linköping University, ²RISE, Research Institutes of Sweden. Division: Digital Systems

Standardisation of Dialect Comments in Social Networks in View of Sentiment Analysis : Case of Tunisian Dialect
[Paper] [Poster] [Video]
Saméh Kchaou¹, rahma boujelbane², Emna Fsih³, Lamia Hadrich-Belguith⁴
¹MIRACLE TUNISIA, ²FSEGS, ³Faculty of Economics and Management of Sfax, ⁴ANLP Research Group, MIRACL Lab, FSEGS, Sfax University

EnsyNet: A Dataset for Encouragement and Sympathy Detection
[Paper] [Video]
Tiberiu Sosea and Cornelia Caragea
University of Illinois at Chicago

Preliminary Results on the Evaluation of Computational Tools for the Analysis of Quechua and Aymara
[Paper] [Poster] [Video]
Marcelo Yuji Himoro¹ and Antonio Pareja-Lora²
¹Universidad Nacional de Educación a Distancia, ²Universidad de Alcalá (UAH) / FITISPos (UAH) / ATLAS (UNED) / DMEG (UdG)

A Tale of Two Regulatory Regimes: Creation and Analysis of a Bilingual Privacy Policy Corpus
[Paper] [Slides] [Video]
Siddhant Arora¹, Henry Hosseini², Christine Utz³, Vinayshekhar Bannihatti Kumar⁴, Tristan Dhellemmes⁵, Abhilasha Ravichander⁶, Peter Story⁶, Jasmine Mangat⁷, Rex Chen⁶, Martin Degeling³, Thomas Norton⁸, Thomas Hupperich², Shomir Wilson⁹, Norman Sadeh⁶
¹Student at Carnegie Mellon Univeristy, ²University of Münster, ³Ruhr University Bochum, ⁴AWS AI, ⁵Institute for Software Research, Carnegie Mellon University, ⁶Carnegie Mellon University, ⁷University of Massachusetts Amherst, ⁸Fordham University School of Law, ⁹Pennsylvania State University

MeSHup: Corpus for Full Text Biomedical Document Indexing
[Paper] [Poster] [Video]
Xindi Wang¹, Robert E. Mercer², Frank Rudzicz³
¹University of Western Ontario, ²The University of Western Ontario, ³St Michael's Hospital; University of Toronto, Department of Computer Science

Session: R2 - Corpora and Annotation

Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding
[Paper] [Video]
Yanjun Gao¹, Dmitriy Dligach², Timothy Miller³, Samuel Tesch¹, Ryan Laffin¹, Matthew Churpek¹, Majid Afshar¹
¹University of Wisconsin Madison, ²Loyola University, ³Boston Children's Hospital and Harvard Medical School

KC4MT: A High-Quality Corpus for Multilingual Machine Translation
[Paper] [Poster] [Video]
Vinh Nguyen¹, Ha Nguyen², Huong Le³, Thai Nguyen¹, Tan Bui², Luan Pham², Anh Phan³, Cong Nguyen⁴, Viet Tran⁵, Anh Tran⁶
¹VNU - UET, ²Project KC4.0, ³Hanoi University of Science and Technology, ⁴congnhm@vnu.edu.vn, ⁵University of Economic and Technical Industries, ⁶Thai Binh University

Developing A Multilabel Corpus for the Quality Assessment of Online Political Talk
[Paper] [Video]
Kokil Jaidka
National University of Singapore

BILinMID: A Spanish-English Corpus of the US Midwest
[Paper] [Poster] [Video]
Irati Hurtado
University of Illinois at Urbana-Champaign

One Document, Many Revisions: A Dataset for Classification and Description of Edit Intents
[Paper] [Poster] [Video]
Dheeraj Rajagopal¹, Xuchao Zhang², Michael Gamon³, Sujay Kumar Jauhar³, Diyi Yang⁴, Eduard Hovy⁵
¹Carnegie Mellon University, ²NEC Labs America, ³Microsoft Research, ⁴Georgia Institute of Technology, ⁵CMU

CTAP for Chinese:A Linguistic Complexity Feature Automatic Calculation Platform
[Paper] [Poster] [Video]
Yue Cui¹, Junhui Zhu², Liner Yang², Xuezhi Fang², Xiaobin Chen³, Yujie Wang⁴, Erhong Yang⁵
¹Beijing Language and Culture University, ²Beijing Language and Culture University, ³Tübingen Universität, ⁴Beijing Jiaotong University, ⁵Beijing Language and Cultural University

A Corpus for Suggestion Mining of German Peer Feedback
[Paper] [Poster] [Video]
Dominik Pfütze, Eva Ritz, Julius Janda, Roman Rietsche
University of St.Gallen

CLGC: A Corpus for Chinese Literary Grace Evaluation
[Paper] [Poster] [Video]
Yi Li, Dong Yu, pengyuan liu
Beijing Language and Culture University

Anonymising the SAGT Speech Corpus and Treebank
[Paper] [Video]
Özlem Çetinoğlu¹ and Antje Schweitzer²
¹IMS, University of Stuttgart, ²Institute for Natural Language Processing, University of Stuttgart

Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction
[Paper] [Poster] [Video]
Daisuke Suzuki¹, Yujin Takahashi¹, Ikumi Yamashita¹, Taichi Aida¹, Tosho Hirasawa¹, Michitaka Nakatsuji¹, Masato Mita², Mamoru Komachi¹
¹Tokyo Metropolitan University, ²CyberAgent Inc.

Enhanced Distant Supervision with State-Change Information for Relation Extraction
[Paper] [Poster] [Video]
Jui Shah¹, Dongxu Zhang², Sam Brody³, Andrew McCallum⁴
¹University of Massachusetts Amherst, ²University of Massachusetts, Amherst, ³Bloomberg, ⁴UMass Amherst

The Hebrew Essay Corpus
[Paper] [Poster] [Video]
Chen Gafni, Anat Prior, Shuly Wintner
University of Haifa

Design and Evaluation of the Corpus of Everyday Japanese Conversation
[Paper] [Poster] [Video]
Hanae Koiso¹, Haruka Amatani², Yasuharu Den³, Yuriko Iseki², Yuichi Ishimoto⁴, Wakako Kashino², Yoshiko Kawabata², Ken'ya Nishikawa², Yayoi Tanaka², Yasuyuki Usuda⁵, Yuka Watanabe²
¹The National Institute for Japanese Language and Linguistics, ²National Institute for Japanese Language and Linguistics, ³Graduate School of Humanities, Chiba University, ⁴Institute of Technologists, ⁵NINJAL

Developing Language Resources and NLP Tools for the North Korean Language
[Paper] [Video]
Arda Akdemir¹, Yeojoo Jeon¹, Tetsuo Shibuya²
¹University of Tokyo, ²The University of Tokyo

Developing a Dataset of Overridden Information in Wikipedia
[Paper] [Poster] [Video]
Masatoshi Tsuchiya and Yasutaka Yokoi
Toyohashi University of Technology

BRATECA (Brazilian Tertiary Care Dataset): a Clinical Information Dataset for the Portuguese Language
[Paper] [Poster] [Video]
Bernardo Consoli¹, Henrique dos Santos², Ana Helena Ulbrich², Renata Vieira³, Rafael Bordini⁴
¹Pontifícia Universidade Católica do Rio Grande do Sul, ²Institute for Artificial Intelligence in Healthcare, ³University of Évora, ⁴Pontifical Catholic University of Rio Grande do Sul

Universal Grammatical Dependencies for Portuguese with CINTIL Data, LX Processing and CLARIN support
[Paper] [Poster] [Video]
António Branco, João Ricardo Silva, Luís Gomes, João António Rodrigues
University of Lisbon

CWID-hi: A Dataset for Complex Word Identification in Hindi Text
[Paper] [Poster] [Video]
Gayatri Venugopal¹, Dhanya Pramod², Ravi Shekhar³
¹Symbiosis Institute of Computer Studies and Research, Symbiosis International University, ²Symbiosis Centre for Information Technology, Symbiosis International University, ³Queen Mary University of London

Automatic Classification of Russian Learner Errors
[Paper] [Poster] [Video]
Alla Rozovskaya
Queens College, City University of New York

Annotation of metaphorical expressions in the Basic Corpus of Polish Metaphors
[Paper] [Poster] [Video]
Elżbieta Hajnicz
Institute of Computer Science, Polish Academy of Sciences

ChiMST: A Chinese Medical Corpus for Word Segmentation and Medical Term Recognition
[Paper] [Video]
Yuanhe Tian¹, Han Qin², Fei Xia³, Yan Song⁴
¹Department of Linguistics, University of Washington, ²The Chinese University of Hong Kong (Shenzhen), ³University of Washington, ⁴CUHK-SZ

Building a Synthetic Biomedical Research Article Citation Linkage Corpus
[Paper] [Poster] [Video]
Sudipta Singha Roy¹ and Robert E. Mercer²
¹University of Western Ontario, ²The University of Western Ontario

Dataset Construction for Scientific-Document Writing Support by Extracting Related Work Section and Citations from PDF Papers
[Paper] [Poster] [Video]
Keita Kobayashi¹, Kohei Koyama², Hiromi Narimatsu³, Yasuhiro Minami¹
¹The University of Electro-Communications, ²The University of Electro-Communication, ³NTT Communication Science Laboratories

RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification
[Paper] [Poster] [Video]
Nikita Martynov¹, Irina Krotova¹, Varvara Logacheva², Alexander Panchenko³, Olga Kozlova¹, Nikita Semenov¹
¹MTS AI, ²Skolkovo Institute of Science and Technology, ³Skolkovo Institue of Science and Technology

Atril: an XML Visualization System for Corpus Texts
[Paper] [Video]
Andressa Rodrigues Gomide, Conceição Carapinha, Cornelia Plag
Universidade de Coimbra

MASALA: Modelling and Analysing the Semantics of Adpositions in Linguistic Annotation of Hindi
[Paper] [Poster] [Video]
Aryaman Arora, Nitin Venkateswaran, Nathan Schneider
Georgetown University

Universal Dependencies for Punjabi
[Paper]
Aryaman Arora
Georgetown University

TeSum: Human-Generated Abstractive Summarization Corpus for Telugu
[Paper] [Video]
Ashok Urlana¹, Nirmal Surange¹, Pavan Baswani¹, Priyanka Ravva², Manish Shrivastava¹
¹International Institute of Information Technology Hyderabad, ²IIIT Hyderabad

A Corpus of Simulated Counselling Sessions with Dialog Act Annotation
[Paper] [Video]
John Lee, Haley Fong, Lai Shuen Judy Wong, Chun Chung Mak, Chi Hin Yip, Ching Wah Larry Ng
City University of Hong Kong

Session: R3 - Dialogue, Conversational Systems, Chatbots, Human-Robot Interaction

Interactive Evaluation of Dialog Track at DSTC9
[Paper] [Poster] [Video]
Shikib Mehri¹, Yulan Feng¹, Carla Gordon², Seyed Hossein Alavi³, David Traum⁴, Maxine Eskenazi¹
¹Carnegie Mellon University, ²USC Institute for Creative Technologies, ³University of British Columbia, ⁴University of Southern California Institute for Creative Technologies

HADREB: Human Appraisals and (English) Descriptions of Robot Emotional Behaviors
[Paper] [Video]
Josue Torres-Fonsesca and Casey Kennington
Boise State University

Dialogue Collection for Recording the Process of Building Common Ground in a Collaborative Task
[Paper] [Video]
Koh Mitsuda¹, Ryuichiro Higashinaka², Yuhei Oga³, Sen Yoshida⁴
¹NTT, ²Nagoya University/NTT, ³University of Tsukuba, ⁴Nippon Telegraph and Telephone Corp.

Collection and Analysis of Travel Agency Task Dialogues with Age-Diverse Speakers
[Paper] [Poster] [Video]
Michimasa Inaba¹, Yuya Chiba², Ryuichiro Higashinaka³, Kazunori Komatani⁴, Yusuke Miyao⁴, Takayuki Nagai⁴
¹The University of Electro-Communications, ²NTT Corporation, ³Nagoya University, ⁴Osaka University

Strategy-level Entrainment of Dialogue System Users in a Creative Visual Reference Resolution Task
[Paper] [Poster] [Video]
Deepthi Karkada¹, Ramesh Manuvinakurike², Maike Paetzel-Prüsmann³, Kallirroi Georgila⁴
¹Intel Corporation, ²Intel labs, ³University of Potsdam, ⁴University of Southern California Institute for Creative Technologies

MMChat: Multi-Modal Chat Dataset on Social Media
[Paper] [Poster] [Video]
Yinhe Zheng¹, Guanyi Chen², Xin Liu³, Jian Sun¹
¹Alibaba Group, ²Utrecht University, ³SRC-B

E-ConvRec: A Large-Scale Conversational Recommendation Dataset for E-Commerce Customer Service
[Paper] [Poster] [Video]
meihuizi jia¹, Ruixue Liu², Peiying Wang², Yang Song², Zexi Xi², Haobin Li², Xin Shen², Meng Chen², Jinhui Pang¹, Xiaodong He³
¹School of Computer Science, Beijing Institute of Technology, ²JD AI, ³JD AI Research

SHONGLAP: A Large Bengali Open-Domain Dialogue Corpus
[Paper] [Poster] [Video]
Syed Monsur¹, Sakib Chowdhury¹, Md Fatemi¹, Shafayat Ahmed²
¹Celloscope Ltd., ²Virginia Polytechnic Institute and State University

A Comparison of Praising Skills in Face-to-Face and Remote Dialogues
[Paper] [Poster] [Video]
Toshiki Onishi¹, Asahi Ogushi¹, Yohei Tahara¹, Ryo Ishii², Atsushi Fukayama², Takao Nakamura², Akihiro Miyata¹
¹Nihon University, ²NTT Corporation

Comparing Approaches to Language Understanding for Human-Robot Dialogue: An Error Taxonomy and Analysis
[Paper] [Video]
Ada Tur¹ and David Traum²
¹Los Altos High School, ²University of Southern California Institute for Creative Technologies

SPORTSINTERVIEW: A Large-Scale Sports Interview Benchmark for Entity-centric Dialogues
[Paper] [Video]
Hanfei Sun, Ziyuan Cao, Diyi Yang
Georgia Institute of Technology

EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in Hindi for Emotion Recognition in Dialogues
[Paper] [Poster] [Video]
Gopendra Vikram Singh¹, Priyanshu Priya², Mauajama Firdaus³, Asif Ekbal¹, Pushpak Bhattacharyya⁴
¹IIT Patna, ²Indian Institute of Technology Patna, ³University of Alberta, ⁴Indian Institute of Technology Bombay and Patna

Session: R4 - Digital Humanities and Cultural Heritage

The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution in Literary Texts
[Paper] [Video]
Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst
University of Toronto

Who’s in, who’s out? Predicting the Inclusiveness or Exclusiveness of Personal Pronouns in Parliamentary Debates
[Paper] [Video]
Ines Rehbein¹ and Josef Ruppenhofer²
¹University of Mannheim, ²Institute for German Language

A Language Modelling Approach to Quality Assessment of OCR'ed Historical Text
[Paper] [Poster] [Video]
Callum Booth¹, Robert Shoemaker², Robert Gaizauskas²
¹The University of Sheffield, ²University of Sheffield

Identifying Copied Fragments in a 18th Century Dutch Chronicle
[Paper] [Poster] [Video]
Roser Morante¹, Eleanor Smith², Lianne Wilhelmus¹, Alie Lassche³, Erika Kuijpers¹
¹VU Amsterdam, ²University of Antwerp, ³University of Leiden

A Study of Distant Viewing of ukiyo-e prints
[Paper] [Poster] [Video]
Konstantina Liagkou¹, John Pavlopoulos², Ewa Machotka²
¹Athens University of Economics and Business, ²Stockholm University

CCTAA: A Reproducible Corpus for Chinese Authorship Attribution Research
[Paper] [Video]
Haining Wang and Allen Riddell
Indiana University Bloomington

An automatic model and Gold Standard for translation alignment of Ancient Greek
[Paper] [Poster] [Video]
Tariq Yousef¹, Chiara Palladino², Farnoosh Shamsian¹, Anise d’Orange Ferreira³, Michel Ferreira dos Reis³
¹University of Leipzig, ²Furman University, ³Universidade Estadual Paulista (UNESP)

Session: R5 - Discourse and Pragmatics

Rhetorical Structure Approach for Online Deception Detection: A Survey
[Paper] [Video]
Francielle Vargas¹, Jonas D`Alessandro², Zohar Rabinovich³, Fabrício Benevenuto⁴, Thiago Pardo¹
¹University of São Paulo, ²Federal University of Minas Gerais, ³University of Southern California, ⁴Federal University of Minas Gerais (UFMG)

TYPIC: A Corpus of Template-Based Diagnostic Comments on Argumentation
[Paper] [Poster] [Video]
Shoichi Naito¹, Shintaro Sawada², Chihiro Nakagawa², Naoya Inoue³, Kenshi Yamaguchi¹, Iori Shimizu², Farjana Sultana Mim¹, Keshav Singh¹, Kentaro Inui⁴
¹Tohoku University, ²Osaka Prefecture University, ³Japan Advanced Institute of Science and Technology, ⁴Tohoku University / Riken

Session: R6 - Evaluation and Validation Methodologies

Towards Speaker Verification for Crowdsourced Speech Collections
[Paper] [Video]
John Mendonca¹, Rui Correia², Mariana Lourenço², João Freitas³, Isabel Trancoso⁴
¹INESC-ID/Instituto Superior Técnico, ², ³Defined.ai, ⁴INESC-ID / IST Univ. Lisbon

Align-smatch: A Novel Evaluation Method for Chinese Abstract Meaning Representation Parsing based on Alignment of Concept and Relation
[Paper] [Poster] [Video]
Liming Xiao, Bin Li, Zhixing Xu, Kairui Huo, Minxuan Feng, Junsheng Zhou, Weiguang Qu
Nanjing Normal University

Dynamic Human Evaluation for Relative Model Comparisons
[Paper] [Poster] [Video]
Thórhildur Thorleiksdóttir¹, Cedric Renggli¹, Nora Hollenstein², Ce Zhang¹
¹ETH Zürich, ²University of Copenhagen

Please, Don't Forget the Difference and the Confidence Interval when Seeking for the State-of-the-Art Status
[Paper] [Video]
Yves Bestgen
Université catholique de Louvain

PCR4ALL: A Comprehensive Evaluation Benchmark for Pronoun Coreference Resolution in English
[Paper] [Video]
Xinran Zhao¹, Hongming Zhang², Yangqiu Song²
¹Hong Kong University of Science and Technology, ²HKUST

Estimating Confidence of Predictions of Individual Classifiers and TheirEnsembles for the Genre Classification Task
[Paper] [Poster] [Video]
Mikhail Lepekhin¹ and Serge Sharoff²
¹MIPT, ²University of Leeds

What do we really know about State of the Art NER?
[Paper] [Poster] [Video]
Sowmya Vajjala¹ and Ramya Balasubramaniam²
¹National Research Council, ²Novisto

ProQE: Proficiency-wise Quality Estimation dataset for Grammatical Error Correction
[Paper] [Poster] [Video]
Yujin Takahashi¹, Masahiro Kaneko², Masato Mita³, Mamoru Komachi¹
¹Tokyo Metropolitan University, ²Tokyo Institute of Technology, ³CyberAgent Inc.

Evaluation of Off-the-shelf Speech Recognizers on Different Accents in a Dialogue Domain
[Paper] [Poster] [Video]
Divya Tadimeti¹, Kallirroi Georgila², David Traum²
¹USC Institute for Creative Technologies, ²University of Southern California Institute for Creative Technologies

Sentence Pair Embeddings Based Evaluation Metric for Abstractive and Extractive Summarization
[Paper] [Video]
Ramya Akula and Ivan Garibay
University of Central Florida

On ``Human Parity'' and ``Super Human Performance'' \\in Machine Translation Evaluation
[Paper] [Video]
Thierry Poibeau
LATTICE (CNRS & ENS/PSL)

Evaluation Benchmarks for Spanish Sentence Representations
[Paper] [Poster] [Video]
Vladimir Araujo¹, Andrés Carvallo¹, Souvik Kundu², José Cañete³, Marcelo Mendoza⁴, Robert E. Mercer⁵, Felipe Bravo-Marquez⁶, Marie-Francine Moens⁷, Alvaro Soto⁸
¹Pontificia Universidad Católica de Chile, ²University of Western Ontario, ³Universidad de Chile, ⁴Universidad Técnica Federico Santa María, ⁵The University of Western Ontario, ⁶University of Chile, ⁷KU Leuven, ⁸PUC

Session: R7 - Information Extraction and Information Retrieval (including NER, QA, Text Mining, Document Classification, Text Categorisation)

UMUTextStats: A linguistic feature extraction tool for Spanish
[Paper] [Video]
José Antonio García-Díaz¹, Pedro José Vivancos-Vicente², Ángela Almela¹, Rafael Valencia-García¹
¹Universidad de Murcia, ²Vócali Sistemas Inteligentes S.L.

Problem-solving Recognition in Scientific Text
[Paper] [Video]
Kevin Heffernan¹ and Simone Teufel²
¹University of Cambridge, ²Cambridge University

HRCA+: Advanced Multiple-choice Machine Reading Comprehension Method
[Paper] [Poster] [Video]
YUXIANG ZHANG and Hayato Yamana
Waseda University

HyperBox: A Supervised Approach for Hypernym Discovery using Box Embeddings
[Paper] [Video]
Maulik Parmar¹ and Apurva Narayan²
¹Independent Researcher, ²The University of British Columbia

Extracting Space Situational Awareness Events from News Text
[Paper] [Poster] [Video]
Zhengnan Xie¹, Alice Kwak¹, Enfa George¹, Laura Dozal¹, Hoang Van¹, Moriba Jah², Roberto Furfaro¹, Peter Jansen¹
¹University of Arizona, ²University of Texas at Austin

PerCQA: Persian Community Question Answering Dataset
[Paper] [Video]
Naghme Jamali¹, Yadollah Yaghoobzadeh², Heshaam Faili²
¹School of Computer Science, Institute for Research in Fundamental Sciences, ²School of Electrical and Computer Engineering, College of Engineering, University of Tehran

GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns
[Paper] [Video]
Piyawat Lertvittayakumjorn¹, Leshem Choshen², Eyal Shnarch³, Francesca Toni¹
¹Imperial College London, ²IBM, Hebrew University Jerusalem Israel, ³IBM Research

Recurrent Neural Networks with Mixed Hierarchical Structures and EM Algorithm for Natural Language Processing
[Paper] [Video]
zhaoxin luo and Michael Zhu
Purdue University, Department of Statistics

Korean-Specific Dataset for Table Question Answering
[Paper] [Poster] [Video]
Changwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang, Kyungkoo Min
LG AI Research

GerCCT: An Annotated Corpus for Mining Arguments in German Tweets on Climate Change
[Paper] [Poster] [Video]
Robin Schaefer and Manfred Stede
University of Potsdam

Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local Assemblies
[Paper] [Poster] [Video]
Yasutomo Kimura¹, Hokuto Ototake², Minoru Sasaki³
¹Otaru University of Commerce / RIKEN AIP, ²Fukuoka University, ³Ibaraki University

Context-based Virtual Adversarial Training for Text Classification with Noisy Labels
[Paper] [Poster] [Video]
Do-Myoung Lee¹, Yeachan Kim², Chang gyun Seo³
¹Korea University, ²Deargen Inc., ³GC Company

FinMath: Injecting a Tree-structured Solver for Question Answering over Financial Reports
[Paper] [Poster] [Video]
Chenying Li¹, Wenbo Ye², Yilun Zhao³
¹Northeastern University, ²Zhejiang University, ³Yale University

HeadlineCause: A Dataset of News Headlines for Detecting Causalities
[Paper] [Poster] [Video]
Ilya Gusev¹ and Alexey Tikhonov²
¹Moscow Institute of Physics and Technology, ²Yandex

Incorporating Zoning Information into Argument Mining from Biomedical Literature
[Paper] [Poster] [Video]
Boyang Liu¹, Viktor Schlegel², Riza Batista-Navarro³, Sophia Ananiadou²
¹the University of Manchester, ²University of Manchester, ³Department of Computer Science, The University of Manchester

MAKED: Multi-lingual Automatic Keyword Extraction Dataset
[Paper] [Video]
Yash Verma¹, Anubhav Jangra², Sriparna Saha³, Adam Jatowt⁴, Dwaipayan Roy⁵
¹Indian Institute of Science Education and Research, Kolkata, ²Google Research, ³Indian Institute of Technology Patna, ⁴University of Innsbruck, ⁵Indian Institute of Science Education and Research

From Examples to Rules: Neural Guided Rule Synthesis for Information Extraction
[Paper] [Poster] [Video]
Robert Vacareanu¹, Marco A. Valenzuela-Escárcega², George Caique Gouveia Barbosa², Rebecca Sharp², Gustave Hahn-Powell², Mihai Surdeanu²
¹Technical University of Cluj-Napoca, ²University of Arizona

Enhancing Relation Extraction via Adversarial Multi-task Learning
[Paper] [Video]
Han Qin¹, Yuanhe Tian², Yan Song³
¹The Chinese University of Hong Kong (Shenzhen), ²Department of Linguistics, University of Washington, ³CUHK-SZ

Query Obfuscation by Semantic Decomposition
[Paper] [Poster] [Video]
Danushka Bollegala¹, Tomoya Machide², Ken-ichi Kawarabayashi²
¹University of Liverpool/Amazon, ²National Institute of Informatics

TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection Tasks
[Paper] [Video]
Ruofan Hu¹, Dongyu Zhang², Dandan Tao³, Thomas Hartvigsen³, Hao Feng⁴, Elke Rundensteiner⁴
¹MS, ²PhD Candidate, ³Doctor, ⁴Professor

Named Entity Recognition to Detect Criminal Texts on the Web
[Paper] [Video]
Paweł Skórzewski¹, Mikołaj Pieniowski¹, Grazyna Demenko²
¹Adam Mickiewicz University in Poznań, ²Adam Mickiewicz University

Task-Driven and Experience-Based Question Answering Corpus for In-Home Robot Application in the House3D Virtual Environment
[Paper] [Video]
zhuoqun Xu¹, Liubo Ouyang¹, Yang Liu²
¹Hunan University, ²Samsung Research China -Beijing

ELRC Action: Covering Confidentiality, Correctness and Cross-linguality
[Paper] [Poster] [Video]
Tom Vanallemeersch¹, Arne Defauw¹, Sara Szoc¹, Alina Kramchaninova¹, Joachim Van den Bogaert², Andrea Lösch³
¹CrossLang, ²CrossLang NV, ³Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) GmbH

RadQA: A Question Answering Dataset to Improve Comprehension of Radiology Reports
[Paper] [Poster] [Video]
Sarvesh Soni¹, Meghana Gudala¹, Atieh Pajouhi¹, Kirk Roberts²
¹UTHealth, SBMI, ²University of Texas Health Science Center at Houston

Knowledge Graph - Deep Learning: A Case Study in Question Answering in Aviation Safety Domain
[Paper] [Poster] [Video]
Ankush Agarwal¹, Raj Gite¹, Shreya Laddha², Pushpak Bhattacharyya¹, Satyanarayan Kar³, Asif Ekbal⁴, Prabhjit Thind³, Rajesh Zele¹, Ravi Shankar³
¹IIT Bombay, ²Indian Institute of Technology Bombay, ³Honeywell, ⁴IIT Patna

A Bayesian Topic Model for Human-Evaluated Interpretability
[Paper] [Poster] [Video]
Justin Wood, Corey Arnold, Wei Wang
UCLA

Session: R8 - Knowledge Discovery/Representation

A Large Interlinked Knowledge Graph of the Italian Cultural Heritage
[Paper] [Video]
Stefano Faralli¹, Andrea Lenzi², Paola Velardi³
¹University of Rome Sapienza, ²Sapienza University of Rome, ³university Sapienza Roma

Training on Lexical Resources
[Paper] [Poster] [Video]
Kenneth Church¹, Xingyu Cai², Yuchen Bian³
¹Baidu, USA, ²Baidu USA LLC, ³Baidu Research USA

Challenging the Assumption of Structure-based embeddings in Few- and Zero-shot Knowledge Graph Completion
[Paper] [Poster] [Video]
Filip Cornell¹, Chenda zhang², Jussi Karlgren³, Sarunas Girdzijauskas⁴
¹KTH Royal Institute of Technology, ²KTH, ³Spotify, ⁴KTH - Royal Institute of Technology

Open Terminology Management and Sharing Toolkit for Federation of Terminology Databases
[Paper] [Video]
Andis Lagzdiņš, Uldis Siliņš, Toms Bergmanis, Mārcis Pinnis, Artūrs Vasiļevskis, Andrejs Vasiļjevs
Tilde

RELATE: Generating a linguistically inspired Knowledge Graph for fine-grained emotion classification
[Paper] [Poster] [Video]
Annika Marie Schoene¹, Nina Dethlefs², Sophia Ananiadou³
¹The University of Manchester, ²University of Hull, ³University of Manchester

Session: R9 - Language Resource Infrastructures, Standards for LRs, Metadata, Policy issues, Ethics, Legal Issues

Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR
[Paper] [Video]
Nina Markl and Stephen McNulty
University of Edinburgh

Masader: Metadata Sourcing for Arabic Text and Speech Data Resources
[Paper] [Poster] [Video]
Zaid Alyafeai¹, Maraim Masoud², Mustafa Ghaleb¹, Maged Al-shaibani¹
¹KFUPM, ²Independent Researcher

Linghub2: Language Resource Discovery Tool for Language Technologies
[Paper] [Poster] [Video]
Cécile Robin¹, Gautham Suresh², Víctor Rodriguez-Doncel³, John P. McCrae⁴, Paul Buitelaar⁵
¹Insight Centre for Data Analytics, ²Data Science Institute, National University of Ireland, Galway, ³Universidad Politecnica de Madrid, ⁴Insight Center for Data Analytics, National University of Ireland Galway, ⁵National University of Ireland Galway

Session: R10 - Language Resources and Evaluation for Psycho-linguistics, Cognitive Linguistics and Linguistic Theories

CxLM: A Construction and Context-aware Language Model
[Paper] [Video]
Yu-Hsiang Tseng, Cing-Fang Shih, Pin-Er Chen, Hsin-Yu Chou, Mao-Chang Ku, Shu-Kai HSIEH
Graduate Institute of Linguistics, National Taiwan University

The Lexometer: A Shiny Application for Exploratory Analysis and Visualization of Corpus Data
[Paper] [Poster] [Video]
Oufan Hai, Matthew Sundberg, Katherine Trice, Rebecca Friedman, Scott Grimm
University of Rochester

TallVocabL2Fi: A Tall Dataset of 15 Finnish L2 Learners’ Vocabulary
[Paper] [Poster] [Video]
Frankie Robertson¹, Li-Hsin Chang², Sini Söyrinki¹
¹University of Jyväskylä, ²University of Turku

CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media Posts
[Paper] [Poster] [Video]
Muskan Garg¹, Chandni Saxena², Sriparna Saha³, Veena Krishnan⁴, Ruchi Joshi⁵, Vijay Mago⁶
¹University of Florida, ²The Chinese University of Hong Kong, ³Indian Institute of Technology Patna, ⁴University of Petroleum And Energy Studies, ⁵Amity University Rajasthan, ⁶Lakehead University

How Does the Experimental Setting Affect the Conclusions of Neural Encoding Models?
[Paper] [Video]
Xiaohan Zhang¹, Shaonan Wang², Chengqing Zong¹
¹Institute of Automation, Chinese Academy of Sciences, ²National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences

SPADE: A Big Five-Mturk Dataset of Argumentative Speech Enriched with Socio-Demographics for Personality Detection
[Paper] [Poster] [Video]
Elma Kerz¹, Yu Qiao¹, Sourabh Zanwar¹, Daniel Wiechmann²
¹RWTH Aachen University, ²Institute for Logic Language and Computation

Session: R11 - Less-Resourced/Endangered Languages

Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and Inuktut
[Paper] [Video]
vishwa gupta¹ and Gilles Boulianne²
¹Computer Research Institute of Montreal, ²CRIM - Centre de recherche informatique de Montréal

Efficient Entity Candidate Generation for Low-Resource Languages
[Paper] [Video]
Alberto Garcia-Duran¹, Akhil Arora², Robert West¹
¹EPFL, ²DLAB, EPFL

What a Creole Wants, What a Creole Needs
[Paper] [Video]
Heather Lent¹, Kelechi Ogueji², Miryam de Lhoneux¹, Orevaoghene Ahia³, Anders Søgaard¹
¹University of Copenhagen, ²University of Waterloo, ³Masakhane

Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities
[Paper] [Poster] [Video]
Alexander Gutkin, Cibu Johny, Raiomond Doctor, Lawrence Wolf-Sonkin, Brian Roark
Google

Predicting Embedding Reliability in Low-Resource Settings Using Corpus Similarity Measures
[Paper] [Video]
Jonathan Dunn, Haipeng Li, Damian Sastre
University of Canterbury

Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine Translation
[Paper] [Poster] [Video]
Idris Abdulmumin¹, Satya Ranjan Dash², Musa Dawud³, Shantipriya Parida⁴, Shamsuddeen Muhammad⁵, Ibrahim Ahmad⁶, Subhadarshi Panda⁷, Ondřej Bojar⁸, Bashir Galadanci⁹, Bello Bello¹⁰
¹Ahmadu Bello University, Zaria, ²KIIT University, ³School of Computer Applications, KIIT University, ⁴Silo AI, ⁵Bayero University, Kano, ⁶Department of Information Technology, Bayero University, Kano, ⁷Graduate Center CUNY, ⁸Charles University, MFF UFAL, ⁹Department of Software Engineering, Bayero University, Kano, ¹⁰Department of Computer Science, Bayero University, Kano

A Survey of Machine Translation Tasks on Nigerian Languages
[Paper] [Poster] [Video]
Ebelechukwu Nwafor¹ and Anietie Andy²
¹Villanova University, ²University of Pennsylvania

Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset
[Paper] [Poster] [Video]
Tiezheng Yu¹, Rita Frieske¹, Peng Xu¹, Samuel Cahyawijaya², Cheuk Tung YIU¹, Holy Lovenia¹, Wenliang Dai³, Elham J. Barezi⁴, Qifeng Chen², Xiaojuan Ma³, Bertram Shi⁵, Pascale Fung³
¹The Hong Kong University of Science and Technology, ²HKUST, ³Hong Kong University of Science and Technology, ⁴Department of Computer Science and Engineering, Hong Kong University of Science and Technology, ⁵ECE/HKUST

Survey on Thai NLP Language Resources and Tools
[Paper] [Poster] [Video]
Ratchakrit Arreerard¹, Stephen Mander¹, Scott Piao²
¹School of Computing and Communications, Lancaster University, ²Lancaster University

LaoPLM: Pre-trained Language Models for Lao
[Paper] [Poster] [Video]
Nankai Lin, Yingwen Fu, Chuwei Chen, Ziyu Yang, Shengyi JIANG
Guangdong University of Foreign Studies

The Maaloula Aramaic Speech Corpus (MASC): From Printed Material to a Lemmatized and Time-Aligned Corpus
[Paper] [Poster] [Video]
Ghattas Eid¹, Esther Seyffarth¹, Ingo Plag²
¹Heinrich Heine University Düsseldorf, ²Heinrich-Heine-Universität Düsseldorf

VIMQA: A Vietnamese Dataset for Advanced Reasoning and Explainable Multi-hop Question Answering
[Paper] [Poster] [Video]
Khang Le¹, Hien Nguyen¹, Tung Le Thanh², Minh Nguyen³
¹Japan Advanced Institute of Science and Technology, ²University of Science, VNU-HCM, ³JAIST

Language Identification for Austronesian Languages
[Paper] [Video]
Jonathan Dunn and Wikke Nijhof
University of Canterbury

A Mapudüngun FST Morphological Analyser and its Web Interface
[Paper] [Poster] [Video]
Andrés Chandía
Universitat Pompeu Fabra

Improving Large-scale Language Models and Resources for Filipino
[Paper] [Poster] [Video]
Jan Christian Blaise Cruz¹ and Charibeth Cheng²
¹Samsung Research Philippines (SRPH), ²De La Salle University

Thirumurai: A Large Dataset of Tamil Shaivite Poems and Classification of Tamil Pann
[Paper] [Poster] [Video]
Shankar Mahadevan¹, Rahul Ponnusamy², Prasanna Kumar Kumaresan³, Prabakaran Chandran⁴, Ruba Priyadharshini⁵, Sangeetha S⁶, Bharathi Raja Chakravarthi⁷
¹Thiagarajar College of Engineering, ²Master degree, IIITMK College, ³Student, IIITMK College, ⁴Mu Sigma Inc., ⁵ULTRA Arts and Science College,, ⁶National Institute of Technology, ⁷Insight SFI Research Centre for Data Analytics, Data Science Institute, National University of Ireland Galway

Generating Monolingual Dataset for Low Resource Language Bodo from old books using Google Keep
[Paper] [Poster] [Video]
Sanjib Narzary¹, Maharaj Brahma¹, Mwnthai Narzary¹, Gwmsrang Muchahary¹, Pranav Singh¹, Apurbalal Senapati¹, Sukumar Nandi², Bidisha Som²
¹Central Institute of Technology Kokrajhar, ²Indian Institute of Technology Guwahati

AsNER - Annotated Dataset and Baseline for Assamese Named Entity recognition
[Paper] [Video]
Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah
Indian Institute of Technology Guwahati

GeezSwitch: Language Identification in Typologically Related Low-resourced East African Languages
[Paper] [Video]
Fitsum Gaim, Wonsuk Yang, Jong Park
Korea Advanced Institute of Science and Technology

Handwritten Paleographic Greek Text Recognition: A Century-Based Approach
[Paper] [Video]
Paraskevi Platanou¹, John Pavlopoulos², Georgios Papaioannou³
¹Postgraduate, ²Adjunct Professor, ³Associate Professor

Quality Control for Crowdsourced Bilingual Dictionary in Low-Resource Languages
[Paper] [Video]
Hiroki Chida¹, Yohei Murakami¹, Mondheera Pituxcoosuvarn²
¹Ritsumeikan University, ²Kyoto University

An Inflectional Database for Gitksan
[Paper] [Poster] [Video]
Bruce Oliver¹, Clarissa Forbes², Changbing Yang³, Farhan Samir⁴, Edith Coates¹, Garrett Nicolai¹, Miikka Silfverberg¹
¹University of British Columbia, ²Independent, ³University of Colorado Boulder, ⁴University of Toronto

PyCantonese: Cantonese Linguistics and NLP in Python
[Paper] [Video]
Jackson Lee¹, Litong Chen², Charles Lam³, Chaak Ming Lau⁴, Tsz-Him Tsui¹
¹Independent Researcher, ²Wheaton College, ³Hang Seng University of Hong Kong, ⁴Education University of Hong Kong

Afaan Oromo Hate Speech Detection and Classification on Social Media
[Paper] [Video]
Teshome Mulugeta Ababu¹ and Michael Melese Woldeyohannis²
¹Dire Dawa University Institute of Technology, ²Addis Ababa University, Addis Ababa, Ethiopia

Session: R12 - Lexicons (also WordNet, FrameNet, Multimodal and Sign Language lexicons, etc.)

Cross-lingual Linking of Automatically Constructed Frames and FrameNet
[Paper] [Poster] [Video]
Ryohei Sasano
Nagoya University

Aligning the Romanian Reference Treebank and the Valence Lexicon of Romanian Verbs
[Paper] [Video]
Ana-Maria Barbu¹, Verginica Barbu Mititelu², Cătălin Mititelu³
¹“Iorgu Iordan – Al. Rosetti” Institute of Linguistics, University of Bucharest, ²RACAI, ³“Iorgu Iordan – Al. Rosetti” Institute of Linguistics

PortiLexicon-UD: a Portuguese Lexical Resource according to Universal Dependencies Model
[Paper] [Video]
Lucelene Lopes¹, Magali Duran², Paulo Fernandes³, Thiago Pardo⁴
¹USP - ICMC, ²Universidade de São Paulo, ³Merrimack College, ⁴University of São Paulo

Session: R13 - Multilinguality and Machine Translation (including Speech-to-Speech translation)

Extended Parallel Corpus for Amharic-English Machine Translation
[Paper] [Poster] [Video]
Andargachew Mekonnen Gezmu¹, Andreas Nürnberger¹, Tesfaye Bayu Bati²
¹Otto-von-Guericke Universität Magdeburg, ²Hawassa University

Low-resource Neural Machine Translation: Benchmarking State-of-the-art Transformer for Wolof<->French
[Paper] [Poster] [Video]
Cheikh M. Bamba Dione¹, Alla LO², Elhadji Mamadou Nguer³, sileye ba⁴
¹University of Bergen, ²Université Gaston Berger, ³Virtual University of Senegal, ⁴loreal research and innovation

Criteria for Useful Automatic Romanization in South Asian Languages
[Paper] [Poster] [Video]
Isin Demirsahin¹, Cibu Johny², Alexander Gutkin², Brian Roark³
¹Google AI, ²Google, ³Google Research

BERTology for Machine Translation: What BERT Knows about Linguistic Difficulties for Translation
[Paper] [Poster] [Video]
Yuqian Dai, Marc Kamps, Serge Sharoff
University of Leeds

CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
[Paper] [Video]
Ye Jia¹, Michelle Tadmor Ramanovich¹, Quan Wang², Heiga Zen¹
¹Google, ²Google Inc.

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus
[Paper] [Poster] [Video]
Makoto Morishita¹, Katsuki Chousa², Jun Suzuki³, Masaaki Nagata⁴
¹NTT Communication Science Laboratories, ²NTT, ³Tohoku University / RIKEN Center for AIP, ⁴NTT Corporation

Learning How to Translate North Korean through South Korean
[Paper] [Poster] [Video]
Hwichan Kim¹, Sangwhan Moon², Naoaki Okazaki², Mamoru Komachi¹
¹Tokyo Metropolitan University, ²Tokyo Institute of Technology

FGraDA: A Dataset and Benchmark for Fine-Grained Domain Adaptation in Machine Translation
[Paper] [Poster] [Video]
Wenhao Zhu¹, Shujian Huang¹, Tong Pu¹, Pingxuan Huang², xu zhang³, Jian Yu³, Wei Chen³, Yanfeng Wang³, Jiajun CHEN⁴
¹National Key Laboratory for Novel Software Technology, Nanjing University, ²University of Michigan, ³sogou, ⁴Nanjing University

SansTib, a Sanskrit - Tibetan Parallel Corpus and Bilingual Sentence Embedding Model
[Paper] [Poster] [Video]
Sebastian Nehrdich
University Hamburg

VISA: An Ambiguous Subtitles Dataset for Visual Scene-aware Machine Translation
[Paper] [Poster] [Video]
Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi
Kyoto University

A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation
[Paper] [Poster] [Video]
Kazuki Tani¹, Ryoya Yuasa¹, Kazuki Takikawa², Akihiro Tamura¹, Tomoyuki Kajiwara², Takashi Ninomiya², Tsuneo Kato¹
¹Doshisha University, ²Ehime University

gaHealth: An English–Irish Bilingual Corpus of Health Data
[Paper] [Poster] [Video]
Séamus Lankford¹, Haithem Afli², Órla Ní Loinsigh¹, Andy Way¹
¹Dublin City University, ²Munster Technological University

Translation Memories as Baselines for Low-Resource Machine Translation
[Paper] [Poster] [Video]
Rebecca Knowles¹ and Patrick Littell²
¹National Research Council Canada, ²National Research Council of Canada

Session: R14 - Multimodality and Cross-modality (including Sign Languages, Vision and other modalities) and Multimedia

N24News: A New Dataset for Multimodal News Classification
[Paper] [Poster] [Video]
Zhen Wang, Xu Shan, Xiangxie Zhang, Jie Yang
Delft University of Technology

MultiSubs: A Large-scale Multimodal and Multilingual Dataset
[Paper] [Video]
Josiah Wang¹, Josiel Figueiredo², Lucia Specia¹
¹Imperial College London, ²Federal University of Mato Grosso

CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition
[Paper] [Poster] [Video]
Wenliang Dai¹, Samuel Cahyawijaya², Tiezheng Yu³, Elham J. Barezi⁴, Peng Xu³, Cheuk Tung YIU³, Rita Frieske³, Holy Lovenia³, Genta Winata⁵, Qifeng Chen², Xiaojuan Ma¹, Bertram Shi⁶, Pascale Fung¹
¹Hong Kong University of Science and Technology, ²HKUST, ³The Hong Kong University of Science and Technology, ⁴Department of Computer Science and Engineering, Hong Kong University of Science and Technology, ⁵Bloomberg, ⁶ECE/HKUST

Multimodal Negotiation Corpus with Various Subjective Assessments for Social-Psychological Outcome Prediction from Non-Verbal Cues
[Paper] [Video]
Nobukatsu Hojo, Satoshi Kobashikawa, Saki Mizuno, Ryo Masumura
NTT

MMDAG: Multimodal Directed Acyclic Graph Network for Emotion Recognition in Conversation
[Paper] [Video]
Shuo Xu, Yuxiang Jia, Changyong Niu, Hongying Zan
Zhengzhou University

Automatic Gloss-level Data Augmentation for Sign Language Translation
[Paper] [Video]
Jin Yea Jang¹, Han-Mu Park², Saim Shin², Suna Shin³, Byungcheon Yoon³, Gahgene Gweon¹
¹Seoul National University, ²KETI, ³Korea Nazarene University

Image Description Dataset for Language Learners
[Paper] [Poster] [Video]
Kento Tanaka¹, Taichi Nishimura¹, Hiroaki Nanjo¹, Keisuke Shirai¹, Hirotaka Kameko¹, Masatake Dantsuji²
¹Kyoto University, ²Kyoto Tachibana University

The Multimodal Annotation Software Tool (MAST)
[Paper] [Video]
Bruno Cardoso and Neil Cohn
Tilburg University

A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning
[Paper] [Video]
Gerald Schwiebert, Cornelius Weber, Leyuan Qu, Henrique Siqueira, Stefan Wermter
University of Hamburg

Multimodality for NLP-Centered Applications: Resources, Advances and Frontiers
[Paper] [Poster] [Video]
Muskan Garg¹, Seema Wazarkar², Muskaan Singh³, Ondřej Bojar⁴
¹University of Florida, ²Thapar Institute of Engineering and Technology, ³UFAL,Charles University, ⁴Charles University, MFF UFAL

Cross-lingual and Multilingual CLIP
[Paper] [Poster] [Video]
Fredrik Carlsson¹, Philipp Eisen², Faton Rekathati³, Magnus Sahlgren⁴
¹Research Institute of Sweden, ²Depict, ³National Library of Sweden, ⁴AI Sweden

BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset
[Paper] [Poster] [Video]
Mohammad Faiyaz Khan¹, S.M. Sadiq-Ur-Rahman Shifath¹, Md Saiful Islam²
¹Shahjalal University of Science and Technology, ²University of Alberta

SSR7000: A Synchronized Corpus of Ultrasound Tongue Imaging for End-to-End Silent Speech Recognition
[Paper] [Video]
Naoki Kimura, Zixiong Su, Takaaki Saeki, Jun Rekimoto
The University of Tokyo

Session: R15 - Natural Language Generation (including Summarization)

A Simple Yet Effective Corpus Construction Method for Chinese Sentence Compression
[Paper] [Video]
Yang Zhao¹, Hiroshi Kanayama², Issei Yoshida², Masayasu Muraoka², Akiko Aizawa³
¹IBM Research - Tokyo, Japan, ²IBM Research - Tokyo, ³National Institute of Informatics

{JADE}: Corpus for Japanese Definition Modelling
[Paper] [Video]
Han Huang¹, Tomoyuki Kajiwara², Yuki Arase¹
¹Osaka University, ²Ehime University

Unraveling the Mystery of Artifacts in Machine Generated Text
[Paper] [Video]
Jiashu Pu, Ziyi Huang, Yadong Xi, Guandan Chen, Weijie Chen, Rongsheng Zhang
NetEase Fuxi Lab

Logic-Guided Message Generation from Raw Real-Time Sensor Data
[Paper] [Video]
Ernie Chang¹, Alisa Kovtunova², Stefan Borgwardt², Vera Demberg¹, Kathryn Chapman¹, Hui-Syuan Yeh³
¹Saarland University, ²TU Dresden, ³LISN/CNRS & Université Paris Saclay

The Bull and the Bear: Summarizing Stock Market Discussions
[Paper] [Poster] [Video]
Ayush Kumar¹, Dhyey Jani¹, Jay Shah¹, Devanshu Thakar¹, Varun Jain², Mayank Singh²
¹Indian Institute of Technology, Gandhinagar, ²IIT Gandhinagar

Combination of Contextualized and Non-Contextualized Layers for Lexical Substitution in French
[Paper] [Poster] [Video]
Kévin Espasa¹, Emmanuel Morin², Olivier Hamon³
¹University of Nantes, Syllabs, ²University of Nantes, ³Syllabs

SuMe: A Dataset Towards Summarizing Biomedical Mechanisms
[Paper] [Poster] [Video]
Mohaddeseh Bastan¹, Nishant Shankar¹, Mihai Surdeanu², Niranjan Balasubramanian¹
¹Stony Brook University, ²University of Arizona

CATAMARAN: A Cross-lingual Long Text Abstractive Summarization Dataset
[Paper] [Video]
zheng chen and Hongyu Lin
University of Electronic Science and Technology of China

Session: R16 - Opinion Mining, Sentiment Analysis, Emotion Recognition/Generation

Emotion analysis and detection during COVID-19
[Paper] [Video]
Tiberiu Sosea¹, Chau Pham², Alexander Tekle³, Cornelia Caragea¹, Junyi Jessy Li³
¹University of Illinois at Chicago, ²Colgate University, ³University of Texas at Austin

Cross-lingual Emotion Detection
[Paper] [Poster] [Video]
Sabit Hassan¹, Shaden Shaar², Kareem Darwish³
¹University of Pittsburgh, ²Cornell University, ³aiXplain Inc.

DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News Articles
[Paper] [Video]
Yuanchi Zhang and Yang Liu
Tsinghua University

VaccineLies: A Natural Language Resource for Learning to Recognize Misinformation about the COVID-19 and HPV Vaccines
[Paper] [Poster] [Video]
Maxwell Weinzierl¹ and Sanda Harabagiu²
¹The University of Texas at Dallas, ²University of Texas at Dallas

Tackling Irony Detection using Ensemble Classifiers
[Paper] [Video]
Christoph Turban and Udo Kruschwitz
University of Regensburg

Automatic Construction of an Annotated Corpus with Implicit Aspects
[Paper] [Poster] [Video]
Aye Aye Mar and Kiyoaki Shirai
Japan Advanced Institute of Science and Technology

A Multimodal Corpus for Emotion Recognition in Sarcasm
[Paper] [Poster] [Video]
Anupama Ray¹, Shubham Mishra², Apoorva Nunna³, Pushpak Bhattacharyya⁴
¹IBM Research, ²Indian Institute of Technology Bombay, ³Department of Computer Science and Engineering, IIT Bombay, ⁴Indian Institute of Technology Bombay and Patna

Annotation of Valence Unfolding in Spoken Personal Narratives
[Paper] [Video]
Aniruddha Tammewar¹, Franziska Braun², Gabriel Roccabruna¹, Sebastian Bayerl³, Korbinian Riedhammer², Giuseppe Riccardi¹
¹University Of Trento, ²Technische Hochschule Nürnberg Georg Simon Ohm, ³TH-Nürnberg

A Large-Scale Japanese Dataset for Aspect-based Sentiment Analysis
[Paper] [Video]
Yuki Nakayama, Koji Murakami, Gautam Kumar, Sudha Bhingardive, Ikuko Hardaway
Rakuten Institute of Technology

A Japanese Dataset for Subjective and Objective Sentiment Polarity Classification in Micro Blog Domain
[Paper] [Video]
Haruya Suzuki¹, Yuto Miyauchi¹, Kazuki Akiyama¹, Tomoyuki Kajiwara¹, Takashi Ninomiya¹, Noriko Takemura², Yuta Nakashima², Hajime Nagahara²
¹Ehime University, ²Osaka University

Complementary Learning of Aspect Terms for Aspect-based Sentiment Analysis
[Paper] [Video]
Han Qin¹, Yuanhe Tian², Fei Xia³, Yan Song⁴
¹The Chinese University of Hong Kong (Shenzhen), ²Department of Linguistics, University of Washington, ³University of Washington, ⁴CUHK-SZ

Deep One-Class Hate Speech Detection Model
[Paper] [Video]
saugata bose and Dr. Guoxin Su
University of Wollongong, Australia

Opinions in Interactions : New Annotations of the SEMAINE Database
[Paper] [Poster] [Video]
Valentin Barriere¹, Slim Essid², Chloé Clavel³
¹Joint Research Center, ²Télécom ParisTech, ³LTCI, Telecom-Paris, Institut Polytechnique de Paris

Pars-ABSA: a Manually Annotated Aspect-based Sentiment Analysis Benchmark on Farsi Product Reviews
[Paper]
Taha Shangipour ataei¹, Kamyar Darvishi¹, Soroush Javdan², Behrouz Minaei-Bidgoli¹, Sauleh Eetemadi¹
¹Computer Engineering Department, Iran University of Science and Technology, ²School of Computer Science, Carleton University

HindiMD: A Multi-domain Corpora for Low-resource Sentiment Analysis
[Paper] [Poster] [Video]
Mamta .¹, Asif Ekbal², Pushpak Bhattacharyya³, Tista Saha⁴, Alka Kumar⁴, Shikha Srivastava⁴
¹Indian Institute of Technology Patna, ²IIT Patna, ³Indian Institute of Technology Bombay and Patna, ⁴CDOT

Sentiment Analysis of Homeric Text: The 1st Book of Iliad
[Paper] [Poster] [Video]
John Pavlopoulos¹, Alexandros Xenos², Davide Picca³
¹Stockholm University, ²Athens University of Economics and Business, ³University of Lausanne

Session: R17 - Parsing, Tagging, Grammar, Syntax, Morphology

The Persian Dependency Treebank Made Universal
[Paper] [Poster] [Video]
Pegah Safari¹, Mohammad Sadegh Rasooli², Amirsaeid Moloodi³, Alireza Nourian⁴
¹Shahid Beheshti University, ²University of Pennsylvania, ³Shiraz University at Iran, ⁴Iran University of Science and Technolgy

GujMORPH - A Dataset for Creating Gujarati Morphological Analyzer
[Paper] [Video]
Jatayu Baxi and brijesh bhatt
Dharmsinh Desai University

Informal Persian Universal Dependency Treebank
[Paper] [Poster] [Video]
Roya Kabiri, Simin Karimi, Mihai Surdeanu
University of Arizona

Automatic Correction of Syntactic Dependency Annotation Differences
[Paper] [Video]
Andrew Zupon, Andrew Carnie, Michael Hammond, Mihai Surdeanu
University of Arizona

Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous Logograms
[Paper] [Poster] [Video]
Fumikazu Sato¹, Naoki Yoshinaga², Masaru Kitsuregawa³
¹The University of Tokyo / National Diet Library, ²Institute of Industrial Science, the University of Tokyo, ³Univ. of Tokyo

Session: R18 - Semantics (including Distributional Semantics, Word Sense Disambiguation, Coreference, etc.)

StyleKQC: A Style-Variant Paraphrase Corpus for Korean Questions and Commands
[Paper] [Video]
Won Ik Cho¹, Sangwhan Moon², Jongin Kim³, Seokmin Kim³, Nam Soo Kim³
¹Department of Electrical and Computer Engineering and INMC, Seoul National University, ²Tokyo Institute of Technology, ³Seoul National University

Syntax-driven Approach for Semantic Role Labeling
[Paper] [Video]
Yuanhe Tian¹, Han Qin², Fei Xia³, Yan Song⁴
¹Department of Linguistics, University of Washington, ²The Chinese University of Hong Kong (Shenzhen), ³University of Washington, ⁴CUHK-SZ

HerBERT Based Language Model Detects Quantifiers and Their Semantic Properties in Polish
[Paper] [Video]
Marcin Woliński¹, Bartłomiej Nitoń¹, Witold Kieraś¹, Jakub Szymanik²
¹Institute of Computer Science, Polish Academy of Sciences, ²University of Amsterdam

Lexical Resource Mapping via Translations
[Paper] [Video]
hongchang Bao, Bradley Hauer, Grzegorz Kondrak
University of Alberta

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models
[Paper] [Video]
Keigo Takahashi¹ and Danushka Bollegala²
¹Tokyo Metropolitan University, ²University of Liverpool/Amazon

Session: R19 - Social Media Processing

Identification of Fine-Grained Location Mentions in Crisis Tweets
[Paper] [Video]
Sarthak Khanal, Maria Traskowsky, Doina Caragea
Kansas State University

HateBR: A Large Expert Annotated Corpus of Brazilian Instagram Comments for Offensive Language and Hate Speech Detection
[Paper] [Video]
Francielle Vargas¹, Isabelle Carvalho¹, Fabiana Rodrigues de Góes¹, Thiago Pardo¹, Fabrício Benevenuto²
¹University of São Paulo, ²Federal University of Minas Gerais (UFMG)

MentalBERT: Publicly Available Pretrained Language Models for Mental Healthcare
[Paper] [Video]
Shaoxiong Ji¹, Tianlin Zhang², Luna Ansari¹, Jie Fu³, Prayag Tiwari⁴, Erik Cambria⁵
¹Aalto University, ²The University of Manchester, ³Mila, University of Montreal, ⁴University of Padova, ⁵Nanyang Technological University

Leveraging Hashtag Networks for Multimodal Popularity Prediction of Instagram Posts
[Paper] [Poster] [Video]
Yu Yun Liao
National Taiwan University

Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media Analysis
[Paper] [Poster] [Video]
Hang Jiang¹, Yining Hua², Doug Beeferman³, Deb Roy¹
¹MIT, ²Harvard Medical School, ³MIT Media Lab

Did that happen? Predicting Social Media Posts that are Indicative of what happened in a scene: A case study of a TV show
[Paper] [Video]
Anietie Andy¹, Reno Kriz¹, Sharath Chandra Guntuku¹, Derry Tanti Wijaya², Chris Callison-Burch¹
¹University of Pennsylvania, ²Boston University

HashSet - A Dataset For Hashtag Segmentation
[Paper] [Video]
Prashant Kodali¹, Akshala Bhatnagar², Naman Ahuja¹, Manish Shrivastava³, Ponnurangam Kumaraguru³
¹IIIT Hyderabad, ²IIIT Delhi, ³International Institute of Information Technology Hyderabad

Using Convolution Neural Network with BERT for Stance Detection in Vietnamese
[Paper] [Poster] [Video]
Oanh Tran¹, Anh Phung², Bach Ngo²
¹International School, Vietnam National University, Hanoi, ²Posts and Telecommunications Institute of Technology, Vietnam

Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News Dataset
[Paper] [Poster] [Video]
Taichi Murayama¹, Shohei Hisada², Makoto Uehara², Shoko Wakamiya³, Eiji ARAMAKI⁴
¹ISIR, Osaka University, ²NARA Institute of Science and Technology, ³NAIST, ⁴NAIST, Japan

RoBERTuito: a pre-trained language model for social media text in Spanish
[Paper] [Poster] [Video]
Juan Manuel Pérez¹, Damián Ariel Furman², Laura Alonso Alemany³, Franco M. Luque⁴
¹CONICET, Universidad de Buenos Aires, ²Universidad De Buenos Aires, ³Universidad Nacional de Cordoba, ⁴Universidad Nacional de Córdoba and CONICET

Session: R20 - Speech Resources and Processing (including Phonetic Databases, Phonology, Prosody)

Construction of Responsive Utterance Corpus for Attentive Listening Response Production
[Paper] [Video]
Koichiro Ito¹, Masaki Murata², Tomohiro Ohno³, Shigeki Matsubara⁴
¹Graduate School of Informatics, Nagoya University, ²Department of Information and Computer Engineering, National Institute of Technology, Toyota College, ³Tokyo Denki University, ⁴Nagoya University

Speak: A Toolkit Using Amazon Mechanical Turk to Collect and Validate Speech Audio Recordings
[Paper] [Video]
Christopher Song¹, David Harwath², Tuka Alhanai³, James Glass⁴
¹Johns Hopkins University, ²The University of Texas at Austin, ³NYUAD, ⁴Massachusetts Institute of Technology

ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation
[Paper] [Poster] [Video]
Holy Lovenia¹, Samuel Cahyawijaya², Genta Winata³, Peng Xu¹, Yan Xu⁴, Zihan Liu⁴, Rita Frieske¹, Tiezheng Yu¹, Wenliang Dai⁴, Elham J. Barezi⁵, Qifeng Chen², Xiaojuan Ma⁴, Bertram Shi⁶, Pascale Fung⁴
¹The Hong Kong University of Science and Technology, ²HKUST, ³Bloomberg, ⁴Hong Kong University of Science and Technology, ⁵Department of Computer Science and Engineering, Hong Kong University of Science and Technology, ⁶ECE/HKUST

A Romanization System and WebMAUS Aligner for Arabic Varieties
[Paper] [Poster] [Video]
Jalal Al-Tamimi¹, Florian Schiel², Ghada Khattab³, Navdeep Sokhey⁴, Djegdjiga Amazouz⁵, Abdulrahman Dallak⁶, Hajar Moussa⁷
¹Université Paris Cité, CNRS, Laboratoire de linguistique formelle, ²Bavarian Archive for Speech Signals, ³Newcastle University, ⁴Virginia Polytechnic Institute and State University, ⁵Laboratoire de Phonétique et Phonologie (LPP)-CNRS, Université Sorbonne Nouvelle, ⁶Newcastle University, Newcastle upon Tyne, ⁷King Abdul-Aziz University

BembaSpeech: A Speech Recognition Corpus for the Bemba Language
[Paper] [Poster] [Video]
Claytone Sikasote¹ and Antonios Anastasopoulos²
¹University of Zambia, ²George Mason University

BehanceCC: A ChitChat Detection Dataset For Livestreaming Video Transcripts
[Paper] [Poster] [Video]
Viet Lai¹, Amir Pouran Ben Veyseh¹, Franck Dernoncourt², Thien Huu Nguyen¹
¹University of Oregon, ²Adobe Research

Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection
[Paper] [Video]
Sheng Li¹, Jiyi Li², Qianying Liu³, Zhuo Gong⁴
¹National Institute of Information and Communications Technology (NICT), Advanced Speech Technology Laboratory, ²University of Yamanashi, ³Kyoto University, ⁴The University of Tokyo

A new European Portuguese corpus for the study of Psychosis through speech analysis
[Paper] [Video]
Maria Forjó¹, Daniel Neto², Alberto Abad¹, HSofia Pinto¹, Joaquim Gago³
¹INESC-ID/Instituto Superior Técnico, University of Lisbon, ²Serviço de Saúde da Região Autónoma da Madeira, ³Nova Medical School/Centro Hospitalar de Lisboa Ocidental

Investigating Inter- and Intra-speaker Voice Conversion using Audiobooks
[Paper] [Poster] [Video]
Aghilas SINI, Damien Lolive, Nelly Barbot, Pierre Alain
Univ Rennes, CNRS, IRISA

Multilingual Transfer Learning for Children Automatic Speech Recognition
[Paper] [Poster] [Video]
Thomas Rolland¹, Alberto Abad¹, Catia Cucchiarini², Helmer Strik²
¹INESC-ID, ²CLST, Radboud University Nijmegen

BehanceQA: A New Dataset for Identifying Question-Answer Pairs in Video Transcripts
[Paper] [Poster] [Video]
Amir Pouran Ben Veyseh¹, Viet Lai¹, Franck Dernoncourt², Thien Huu Nguyen¹
¹University of Oregon, ²Adobe Research

Session: R21 - Statistical Methods and Machine Learning for Language Technologies (including Language Models)

Bidirectional Skeleton-Based Isolated Sign Recognition using Graph Convolutional Networks
[Paper] [Video]
Konstantinos M. Dafnis¹, Evgenia Chroni¹, Carol Neidle², Dimitri Metaxas³
¹Rutgers University, ²Boston University, ³Rutgers Univ.

Deep learning-based end-to-end spoken language identification system for domain-mismatched scenario
[Paper] [Poster] [Video]
Woohyun Kang¹, Md Jahangir Alam², Abderrahim Fathan³
¹Computer Research Institute of Montreal, ²Computer Research Institute of Montreal (CRIM), ³Centre de Recherche en Informatique de Montréal (CRIM)

Handwritten Character Generation using Y-Autoencoder for Character Recognition Model Training
[Paper] [Poster] [Video]
Tomoki Kitagawa, Chee Siang Leow, Hiromitsu Nishizaki
University of Yamanashi

Attention is All you Need for Robust Temporal Reasoning
[Paper] [Poster] [Video]
Lis Kanashiro Pereira
Ochanomizu University

PoliBERTweet: A Pre-trained Language Model for Analyzing Political Content on Twitter
[Paper] [Poster] [Video]
Kornraphop Kawintiranon and Lisa Singh
Georgetown University

Modeling the Impact of Syntactic Distance and Surprisal on Cross-Slavic Text Comprehension
[Paper] [Poster] [Video]
Irina Stenger, Philip Georgis, Tania Avgustinova, Bernd Möbius, Dietrich Klakow
Saarland University

BERTifying Sinhala - A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification
[Paper] [Poster] [Video]
Vinura Dhananjaya, Piyumal Demotte, Surangika Ranathunga, Sanath Jayasena
University of Moratuwa

Pre-training and Evaluating Transformer-based Language Models for Icelandic
[Paper] [Poster] [Video]
Jón Guðnason and Hrafn Loftsson
Reykjavik University

End of Program