L’analyse de 100 milliards de tweets fournit de nouvelles informations sur les modèles linguistiques –

  • FrançaisFrançais



  • Une enquête sur les messages Twitter révèle de nouvelles perspectives et de nouveaux outils pour étudier la façon dont les gens utilisent des mots tendus, tels que «duuuuude», «heyyyyy» ou «noooooooo». Tyler Gray et ses collègues de l’Université du Vermont à Burlington présentent ces résultats dans la revue en libre accès PLOS ONE le 27 mai 2020.

    Dans la langue parlée et écrite, les mots étirés peuvent modifier le sens d’un mot. Par exemple, “suuuuure” peut impliquer le sarcasme, tandis que “yeeessss” peut indiquer l’excitation. Les mots étirés sont rares dans l’écriture formelle, mais l’essor des médias sociaux a ouvert de nouvelles opportunités pour les étudier.

    Gray et ses collègues ont maintenant terminé l’étude la plus complète à ce jour sur les mots «extensibles» dans les médias sociaux. Ils ont développé une nouvelle stratégie plus approfondie pour identifier les mots étirés dans les tweets et l’ont utilisée pour analyser un ensemble de données sélectionné au hasard d’environ 10% de tous les tweets générés entre septembre 2008 et décembre 2016 – totalisant environ 100 milliards de tweets.

    Les chercheurs ont identifié des milliers de mots «extensibles» dans les tweets, y compris «ha» (par exemple, «hahaha» ou «haaahaha»), «impressionnant» (par exemple, «awesssssommmmmeeeeee») et «objectif) (par exemple, ggggoooooaaaaallllll).

    Ils ont également identifié deux façons clés de mesurer les caractéristiques des mots extensibles: l’équilibre et l’étirement. L’équilibre fait référence au degré auquel les différentes lettres ont tendance à être répétées. Par exemple, «ha» a un degré élevé d’équilibre parce que lorsqu’il est étiré, le «h» et le «a» ont tendance à se répéter à peu près également. “Objectif” est moins équilibré, avec “o” répété plus que toute autre lettre du mot.

    L’étirement fait référence à la durée pendant laquelle un mot a tendance à être étiré. Par exemple, des mots courts ou des sons comme «ha» ont un degré élevé d’étirement parce que les gens les répètent souvent plusieurs fois (par exemple, «hahahahahahahaha»). Pendant ce temps, les mots normaux comme «infini» ont une extension inférieure, souvent avec une seule lettre répétée: «infinityyyy».

    Pour cette analyse, les chercheurs ont développé divers outils et méthodes qui pourraient être utilisés dans de futures recherches sur des mots extensibles, comme des enquêtes sur les fautes de frappe et les fautes d’orthographe. Les outils pourraient également être appliqués pour améliorer le traitement du langage naturel, les moteurs de recherche et les filtres anti-spam.

    Les auteurs ajoutent: «Nous avons pu collecter et compter de manière exhaustive des mots étirés comme ‘gooooooaaaalll’ et ‘hahahaha’, et les cartographier à travers les deux dimensions de l’étirement global et de l’équilibre de l’étirement, tout en développant de nouveaux outils qui aideront également étude linguistique, et dans d’autres domaines, tels que le traitement du langage, l’augmentation des dictionnaires, l’amélioration des moteurs de recherche, l’analyse de la construction de séquences, etc. “

    Source de l’histoire:

    Matériel fourni par PLOS. Remarque: le contenu peut être modifié pour le style et la longueur.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.