HyperAI超神经

首页资讯最新论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

语言建模

Language Modeling 是预测文档中下一个词或字符的任务，可训练语言模型应用于文本生成、文本分类和问答等自然语言处理任务。自2010年代起，神经语言模型取代了N-gram模型，2020年代后，大型语言模型（LLMs）成为实现最先进水平的唯一途径。模型的能力通过交叉熵和困惑度评估，常用数据集包括WikiText-103、One Billion Word、Text8、C4和The Pile。

Penn Treebank (Word Level)

GPT-3 (Zero-Shot)

GPT-2 (48 layers, h=1600)

Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

SparseGPT (175B, 50% Sparsity)

GPT-3 175B (Few-Shot)

One Billion Word

OmniNetT (Large)

Penn Treebank (Character Level)

Mogrifier LSTM + dynamic eval

Transformer-XL + RMS dynamic eval

Spirit-LM (Expr.)

GLM-130B (3-shot)

CLUE (CMRC2018)

CLUE (OCNLI_50K)

FewCLUE (BUSTM)

FewCLUE (CHID-FC)

FewCLUE (CLUEWSC-FC)

FewCLUE (EPRSTMT)

FewCLUE (OCNLI-FC)

Hybrid 4-gram VietMed-Train + ExtraText

Ethereum Phishing Transaction Network

100 sleep nights of 8 caregivers

2000 HUB5 English

Arxiv HEP-TH citation graph

Curation Corpus

Transformer-LS (small)

PAR Transformer 24B

Gutenberg PG-19

language-modeling-recommendation

PTB Diagnostic ECG Database

PubMed Cognitive Control Abstracts

Transformer-LS (small)

USPTO Backgrounds