L’développement du jargon basée sur l’IA a dernièrement notoire un « chamboulement de paradigme » (Bommasani et al., 2021, p. 1), en question amnistie à une histoire manière traitée modèle de jargon modificateur (Vaswani et al., 2017, Liu et al., 2019). Des commerces semblables que Google, Meta et OpenAI ont publié de pareils modèles, particulièrement BERT, RoBERTa et GPT, qui ont idéal des améliorations importantes rien exemple comme la majorité des travaux linguistiques semblables que la percussion sur le Web et l’développement des sentiments. Caractéristique que ces modèles de jargon soient accessibles en Anaconda et envers les travaux d’IA typiques via HuggingFace, le logiciel R text rend HuggingFace et des modèles de jargon modificateur de grêlé accessibles en tellement que pipelines de sciences sociales comme R.

Réception

Nous-même avons épanoui le text logiciel (Kjell, Giorgi & Schwartz, 2022) pile quelques justes en grand : Aider de conclusion modulaire envers le téléchargement et l’maniement de modèles de jargon de modificateur. Ceci inclut, par type, la transmutation d’incorporations de parlement en mots pour que l’voie à des travaux de modèle de jargon courantes semblables que la classement de parlement, l’développement des sentiments, la ponte de parlement, la bref aux questions, la transfert, etc. Attribuer une conclusion de limite en limite conçue envers les analyses au plan doux, y assimilé des pipelines envers des techniques d’IA de grêlé conçues envers prévoir les caractéristiques de la femme qui a résultat le jargon ou arracher des informations sur les corrélats linguistiques des attributs mentaux.

Ce assignat de blog déployé hein fixer le text logiciel, transformez le parlement en incorporations de mots contextuelles à la grêlé de la technologie, utilisez des travaux d’développement analyse et visualisez des mots comme l’lointain d’convocation de mots.

Agencement et gageure en empressement d’un bain serpent

Le text logiciel met en empressement un bain serpent envers admettre aux modèles de jargon HuggingFace. La originelle jour en conséquence empressé installé le text logiciel, toi-même devez prendre quelques charges : textrpp_install() et textrpp_initialize().

# Install text from CRAN
install.packages("text")
library(text)

# Install text required serpent packages in a conda environment (with defaults)
textrpp_install()

# Initialize the installed conda environment
# save_profile = TRUE saves the settings so that you do not have to run textrpp_initialize() again after restarting R
textrpp_initialize(save_profile = TRUE)

Consultez le duègne d’investiture abondant envers principalement d’informations.

Changer le parlement en mots incorporés

Le textEmbed() La empressement est utilisée envers manufacturer du parlement en incorporations de mots (tableaux digitaux du parlement). Le model L’démonstration toi-même permet de dire le modèle de jargon à arguer à commencer de HuggingFace ; si toi-même n’avez oncques exploité le modèle précédemment, il téléchargera nécessairement le modèle et les fichiers indispensables.

# Transform the text data to BERT word embeddings
# Facturé: To run faster, try something smaller: model = 'distilroberta-base'.
word_embeddings <- textEmbed(texts = "Salut, how are you doing?",
                            model = 'bert-base-uncased')
word_embeddings
hein(word_embeddings)

Les intégrations de mots peuvent désormais existence utilisées envers des travaux en réputation semblables que la racine de modèles envers prévoir des variables digitaux associées (par type, aviser les charges textTrain() et textPredict()).

(À cause arracher la éclosion des jetons et des délivrance individuelles, consultez la empressement textEmbedRawLayers().)

Il existe de luxuriant modèles de jargon de modificateur pendant HuggingFace qui peuvent existence utilisés envers diverses travaux de modèle de jargon semblables que la classement de parlement, l’développement des sentiments, la ponte de parlement, la bref aux questions, la transfert, etc. Le text comprend des charges conviviales envers y admettre.

classifications <- textClassify("Salut, how are you doing?")
classifications
hein(classifications)
generated_text <- textGeneration("The meaning of life is")
generated_text

À cause principalement d’exemples de travaux de modèle de jargon disponibles, par type, consultez textSum(), textQA(), textTranslate() et textZeroShot() dessous Travaux d’développement du jargon.

Afficher les mots comme le text Le logiciel est idéal en quelques étapes : d’alentours pile une empressement envers pré-traiter les situation, et alors envers ouvrir les mots, y assimilé en ajustant les caractéristiques visuelles semblables que la coloris et la élagué de la civilisé. À cause prouver ces quelques charges, certains utilisons des exemples de situation admis comme le text emboîter: Language_based_assessment_data_3_100. Nous-même montrons hein produire une armes bidimensionnelle pile des mots que les entités ont utilisés envers épousseter à eux joliesse comme la vie, tracés disciple quelques questionnaires de béatitude dissemblables : l’marche d’joliesse comme la vie et l’marche de adoucissement à l’déférence de la vie. Aussi, l’axe des x déployé les mots liés à une joliesse asthmatique proportionnellement à une joliesse levée comme les scores de l’marche de vie, et l’axe des y déployé les mots liés à une adoucissement asthmatique proportionnellement à la adoucissement levée pile les scores de l’marche de vie.

word_embeddings_bert <- textEmbed(Language_based_assessment_data_3_100,
                                  aggregation_from_tokens_to_word_types = "mean",
                                  keep_token_embeddings = FALSE)

# Pre-process the data for plotting
df_for_plotting <- textProjection(Language_based_assessment_data_3_100$harmonywords, 
                                  word_embeddings_bert$text$harmonywords,
                                  word_embeddings_bert$word_types,
                                  Language_based_assessment_data_3_100$hilstotal, 
                                  Language_based_assessment_data_3_100$swlstotal
)

# Plot the data
plot_projection <- textProjectionPlot(
  word_data = df_for_plotting,
  y_axes = TRUE,
  p_alpha = 0.05,
  title_top = "Supervised Bicentroid Émission of Harmony in life words",
  x_axes_label = "Low vs. High HILS classement",
  y_axes_label = "Low vs. High SWLS classement",
  p_adjust_method = "bonferroni",
  points_without_words_size = 0.4,
  points_without_words_alpha = 0.4
)
plot_projection$final_plot
Projection bicentroïde supervisée de l'harmonie dans les mots de la vie

Cet papier déployé hein faire une développement de parlement de grêlé comme R en utilisant le text emboîter. Le logiciel vise à collaborer l’voie et l’maniement des modèles de jargon de transformateurs de HuggingFace envers reprocher le jargon grâce. Nous-même attendons pile emportement vos recueils et vos contributions envers rétrocéder ces modèles disponibles envers les applications scientifiques sociales et dissemblables principalement typiques des utilisateurs de R.

  • Bommasani et al. (2021). Sur les opportunités et les risques des modèles de fondement.
  • Kjell et al. (2022). Le logiciel de parlement : un logiciel R envers reprocher et afficher le jargon doux à l’dépendance du cohésion du jargon grâce et de l’vérification en hauteur.
  • Liu et al (2019). Roberta : Une approximatif de préformation bert optimisée de snob solide.
  • Vaswaniet al (2017). L’concentration est quelque ce lesquels toi-même avez disette. Adoucissement comme les systèmes de cohésion de l’interrogation neuronale, 5998–6008

Corrections

Si toi-même voyez des errata ou si toi-même souhaitez imaginer des modifications, veuillez produire un aléa sur le repère préliminaire.

Remploi

Le parlement et les figures sont dessous consentement Creative Commons Assignation CC BY 4.0. Le vocabulaire préliminaire est vacant sur https://github.com/OscarKjell/ai-blog, indemne motif contradictoire. Les chiffres qui ont été réutilisés à commencer d’dissemblables ondes ne relèvent pas de cette consentement et peuvent existence reconnus par une commentaire comme à eux fiction : “Devise de …”.

Avertissement

À cause l’allocation, veuillez assigner ce enfantement alors

Kjell, et al. (2022, Oct. 4). Posit AI Blog: Introducing the text logiciel. Retrieved from https://blogs.rstudio.com/tensorflow/posts/2022-09-29-r-text/

Avertissement BibTeX

@misc{kjell2022introducing,
  author = {Kjell, Décoration and Giorgi, Salvatore and Schwartz, H Andrew},
  title = {Posit AI Blog: Introducing the text logiciel},
  url = {https://blogs.rstudio.com/tensorflow/posts/2022-09-29-r-text/},
  year = {2022}
}

By nsmaat