Coverage for transformer_lens/components/bert_mlm

1"""Hooked Encoder Bert MLM Head Component.

3This module contains all the component :class:`BertMLMHead`.

4"""

6from typing import Dict, Union

8import torch

9import torch.nn as nn

10from jaxtyping import Float

12from transformer_lens.components import LayerNorm

13from transformer_lens.config.hooked_transformer_config import HookedTransformerConfig

16class BertMLMHead(nn.Module):

17 """

18 Transforms BERT embeddings into logits. The purpose of this module is to predict masked tokens in a sentence.

19 """

21 def __init__(self, cfg: Union[Dict, HookedTransformerConfig]):

22 super().__init__()

23 self.cfg = HookedTransformerConfig.unwrap(cfg)

24 self.W = nn.Parameter(torch.empty(self.cfg.d_model, self.cfg.d_model, dtype=self.cfg.dtype))

25 self.b = nn.Parameter(torch.zeros(self.cfg.d_model, dtype=self.cfg.dtype))

26 self.act_fn = nn.GELU()

27 self.ln = LayerNorm(self.cfg)

29 def forward(

30 self, resid: Float[torch.Tensor, "batch pos d_model"]

31 ) -> Float[torch.Tensor, "batch pos d_model"]:

32 resid = torch.matmul(resid, self.W) + self.b

33 resid = self.act_fn(resid)

34 resid = self.ln(resid)

35 return resid

Coverage for transformer_lens/components/bert_mlm_head.py: 84%