Initial commit, pushed into pypi

2017-10-26 20:59:05 +05:30 · 2017-10-26 20:59:05 +05:30 · 90365bd955
commit 90365bd955
parent 397d7eec7f
9 changed files with 972 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -16,3 +16,5 @@ __pycache__/
 *.lang
 *.log
 .cache/
+dist/
+dnc.egg-info/
--- a/README.md
+++ b/README.md
@ -0,0 +1,69 @@
+# Differentiable Neural Computer, for Pytorch
+
+This is an implementation of [Differentiable Neural Computers](people.idsia.ch/~rupesh/rnnsymposium2016/slides/graves.pdf), described in the paper [Hybrid computing using a neural network with dynamic external memory, Graves et al.](www.nature.com/articles/nature20101)
+
+## Install
+
+```bash
+pip install dnc
+```
+
+## Usage
+
+**Parameters**:
+
+| Argument | Default | Description |
+| --- | --- | --- |
+| input_size | None | Size of the input vectors |
+| hidden_size | None | Size of hidden units |
+| rnn_type | 'lstm' | Type of recurrent cells used in the controller |
+| num_layers | 1 | Number of layers of recurrent units in the controller |
+| bias | True | Bias |
+| batch_first | True | Whether data is fed batch first |
+| dropout | 0 | Dropout between layers in the controller (Not yet implemented) |
+| bidirectional | False | If the controller is bidirectional (Not yet implemented) |
+| nr_cells | 5 | Number of memory cells |
+| read_heads | 2 | Number of read heads |
+| cell_size | 10 | Size of each memory cell |
+| nonlinearity | 'tanh' | If using 'rnn' as `rnn_type`, non-linearity of the RNNs |
+| gpu_id | -1 | ID of the GPU, -1 for CPU |
+| independent_linears | False | Whether to use independent linear units to derive interface vector |
+| share_memory | True | Whether to share memory between controller layers |
+
+
+Example usage:
+
+```python
+from dnc import DNC
+
+rnn = DNC(
+  input_size=64,
+  hidden_size=128,
+  rnn_type='lstm',
+  num_layers=4,
+  nr_cells=100,
+  cell_size=32,
+  read_heads=4,
+  batch_first=True,
+  gpu_id=0
+)
+
+(controller_hidden, memory, read_vectors) = (None, None, None)
+
+output, (controller_hidden, memory, read_vectors) = \
+  rnn(torch.randn(10, 4, 64), (controller_hidden, memory, read_vectors))
+```
+
+## Example copy task
+
+The copy task, as descibed in the original paper, is included in the repo.
+
+```
+python ./copy_task.py -cuda 0
+```
+
+## General noteworthy stuff
+
+1. DNCs converge with Adam and RMSProp learning rules, SGD generally causes them to diverge.
+2. Using a large batch size (> 100, recommended 1000) prevents gradients from becoming `NaN`.
+
--- a/dnc/init.py
+++ b/dnc/init.py
@ -0,0 +1 @@
+#!/usr/bin/env python3
--- a/dnc/copy_task.py
+++ b/dnc/copy_task.py
@ -0,0 +1,166 @@
+#!/usr/bin/env python3
+
+import warnings
+warnings.filterwarnings('ignore')
+
+import numpy as np
+import getopt
+import sys
+import os
+import math
+import time
+import argparse
+
+sys.path.insert(0, os.path.join('..', '..'))
+
+import torch as T
+from torch.autograd import Variable as var
+import torch.nn.functional as F
+import torch.optim as optim
+
+from torch.nn.utils import clip_grad_norm
+
+from dnc import DNC
+
+parser = argparse.ArgumentParser(description='PyTorch Differentiable Neural Computer')
+parser.add_argument('-input_size', type=int, default= 6, help='dimension of input feature')
+parser.add_argument('-nhid', type=int, default=64, help='humber of hidden units of the inner nn')
+
+parser.add_argument('-nlayer', type=int, default=2, help='number of layers')
+parser.add_argument('-lr', type=float, default=1e-2, help='initial learning rate')
+parser.add_argument('-clip', type=float, default=0.5, help='gradient clipping')
+
+parser.add_argument('-batch_size', type=int, default=100, metavar='N', help='batch size')
+parser.add_argument('-mem_size', type=int, default=16, help='memory dimension')
+parser.add_argument('-mem_slot', type=int, default=15, help='number of memory slots')
+parser.add_argument('-read_heads', type=int, default=1, help='number of read heads')
+
+parser.add_argument('-sequence_max_length', type=int, default=4, metavar='N', help='sequence_max_length')
+parser.add_argument('-cuda', type=int, default=-1, help='Cuda GPU ID, -1 for CPU')
+parser.add_argument('-log-interval', type=int, default=200, metavar='N', help='report interval')
+
+parser.add_argument('-iterations', type=int, default=100000, metavar='N', help='total number of iteration')
+parser.add_argument('-summarize_freq', type=int, default=100, metavar='N', help='summarize frequency')
+parser.add_argument('-check_freq', type=int, default=100, metavar='N', help='check point frequency')
+
+args = parser.parse_args()
+print(args)
+
+if args.cuda != -1:
+  print('Using CUDA.')
+  T.manual_seed(1111)
+else:
+  print('Using CPU.')
+
+
+def llprint(message):
+  sys.stdout.write(message)
+  sys.stdout.flush()
+
+
+def generate_data(batch_size, length, size, cuda=-1):
+
+  input_data = np.zeros((batch_size, 2 * length + 1, size), dtype=np.float32)
+  target_output = np.zeros((batch_size, 2 * length + 1, size), dtype=np.float32)
+
+  sequence = np.random.binomial(1, 0.5, (batch_size, length, size - 1))
+
+  input_data[:, :length, :size - 1] = sequence
+  input_data[:, length, -1] = 1  # the end symbol
+  target_output[:, length + 1:, :size - 1] = sequence
+
+  input_data = T.from_numpy(input_data)
+  target_output = T.from_numpy(target_output)
+  if cuda != -1:
+    input_data = input_data.cuda()
+    target_output = target_output.cuda()
+
+  return var(input_data), var(target_output)
+
+
+def criterion(predictions, targets):
+  return T.mean(
+      -1 * F.logsigmoid(predictions) * (targets) - T.log(1 - F.sigmoid(predictions) + 1e-9) * (1 - targets)
+  )
+
+if __name__ == '__main__':
+
+  dirname = os.path.dirname(__file__)
+  ckpts_dir = os.path.join(dirname, 'checkpoints')
+  if not os.path.isdir(ckpts_dir):
+    os.mkdir(ckpts_dir)
+
+  batch_size = args.batch_size
+  sequence_max_length = args.sequence_max_length
+  iterations = args.iterations
+  summarize_freq = args.summarize_freq
+  check_freq = args.check_freq
+
+  # input_size = output_size = args.input_size
+  mem_slot = args.mem_slot
+  mem_size = args.mem_size
+  read_heads = args.read_heads
+
+
+  # options, _ = getopt.getopt(sys.argv[1:], '', ['iterations='])
+
+  # for opt in options:
+  #   if opt[0] == '-iterations':
+  #     iterations = int(opt[1])
+
+  rnn = DNC(
+    input_size=args.input_size,
+    hidden_size=args.nhid,
+    rnn_type='lstm',
+    num_layers=args.nlayer,
+    nr_cells=mem_slot,
+    cell_size=mem_size,
+    read_heads=read_heads,
+    gpu_id=args.cuda
+  )
+
+  if args.cuda != -1:
+    rnn = rnn.cuda(args.cuda)
+
+  last_save_losses = []
+
+  optimizer = optim.Adam(rnn.parameters(), lr=args.lr)
+
+  for epoch in range(iterations + 1):
+    llprint("\rIteration {ep}/{tot}".format(ep=epoch, tot=iterations))
+    optimizer.zero_grad()
+
+    random_length = np.random.randint(1, sequence_max_length + 1)
+
+    input_data, target_output = generate_data(batch_size, random_length, args.input_size, args.cuda)
+    # input_data = input_data.transpose(0, 1).contiguous()
+    target_output = target_output.transpose(0, 1).contiguous()
+
+    output, _ = rnn(input_data, None)
+    output = output.transpose(0, 1)
+
+    loss = criterion((output), target_output)
+    # if np.isnan(loss.data.cpu().numpy()):
+    #    llprint('\nGot nan loss, contine to jump the backward \n')
+
+    # apply_dict(locals())
+    loss.backward()
+
+    optimizer.step()
+    loss_value = loss.data[0]
+
+    summerize = (epoch % summarize_freq == 0)
+    take_checkpoint = (epoch != 0) and (epoch % check_freq == 0)
+
+    last_save_losses.append(loss_value)
+
+    if summerize:
+      llprint("\n\tAvg. Logistic Loss: %.4f\n" % (np.mean(last_save_losses)))
+      last_save_losses = []
+
+    if take_checkpoint:
+      llprint("\nSaving Checkpoint ... "),
+      check_ptr = os.path.join(ckpts_dir, 'step_{}.pth'.format(epoch))
+      cur_weights = rnn.state_dict()
+      T.save(cur_weights, check_ptr)
+      llprint("Done!\n")
--- a/dnc/dnc.py
+++ b/dnc/dnc.py
@ -0,0 +1,255 @@
+#!/usr/bin/env python3
+
+import torch.nn as nn
+import torch as T
+from torch.autograd import Variable as var
+import numpy as np
+
+from torch.nn.utils.rnn import pad_packed_sequence as pad
+from torch.nn.utils.rnn import pack_padded_sequence as pack
+from torch.nn.utils.rnn import PackedSequence
+
+from util import *
+from memory import *
+
+
+class DNC(nn.Module):
+
+  def __init__(
+      self,
+      input_size,
+      hidden_size,
+      rnn_type='lstm',
+      num_layers=1,
+      bias=True,
+      batch_first=True,
+      dropout=0,
+      bidirectional=False,
+      nr_cells=5,
+      read_heads=2,
+      cell_size=10,
+      nonlinearity='tanh',
+      gpu_id=-1,
+      independent_linears=False,
+      share_memory=True
+  ):
+    super(DNC, self).__init__()
+    # todo: separate weights and RNNs for the interface and output vectors
+
+    self.input_size = input_size
+    self.hidden_size = hidden_size
+    self.rnn_type = rnn_type
+    self.num_layers = num_layers
+    self.bias = bias
+    self.batch_first = batch_first
+    self.dropout = dropout
+    self.bidirectional = bidirectional
+    self.nr_cells = nr_cells
+    self.read_heads = read_heads
+    self.cell_size = cell_size
+    self.nonlinearity = nonlinearity
+    self.gpu_id = gpu_id
+    self.independent_linears = independent_linears
+    self.share_memory = share_memory
+
+    self.w = self.cell_size
+    self.r = self.read_heads
+
+    # input size of layer 0
+    self.layer0_input_size = self.r * self.w + self.input_size
+    # input size of subsequent layers
+    self.layern_input_size = self.r * self.w + self.hidden_size
+
+    self.interface_size = (self.w * self.r) + (3 * self.w) + (5 * self.r) + 3
+    self.output_size = self.hidden_size
+
+    self.rnns = []
+    self.memories = []
+
+    for layer in range(self.num_layers):
+      # controllers for each layer
+      if self.rnn_type.lower() == 'rnn':
+        if layer == 0:
+          self.rnns.append(nn.RNNCell(self.layer0_input_size, self.output_size, bias=self.bias, nonlinearity=self.nonlinearity))
+        else:
+          self.rnns.append(nn.RNNCell(self.layern_input_size, self.output_size, bias=self.bias, nonlinearity=self.nonlinearity))
+      elif self.rnn_type.lower() == 'gru':
+        if layer == 0:
+          self.rnns.append(nn.GRUCell(self.layer0_input_size, self.output_size, bias=self.bias))
+        else:
+          self.rnns.append(nn.GRUCell(self.layern_input_size, self.output_size, bias=self.bias))
+      elif self.rnn_type.lower() == 'lstm':
+        # if layer == 0:
+        self.rnns.append(nn.LSTMCell(self.layer0_input_size, self.output_size, bias=self.bias))
+        # else:
+        #   self.rnns.append(nn.LSTMCell(self.layern_input_size, self.output_size, bias=self.bias))
+
+      # memories for each layer
+      if not self.share_memory:
+        self.memories.append(
+            Memory(
+                input_size=self.output_size,
+                mem_size=self.nr_cells,
+                cell_size=self.w,
+                read_heads=self.r,
+                gpu_id=self.gpu_id,
+                independent_linears=self.independent_linears
+            )
+        )
+
+    # only one memory shared by all layers
+    if self.share_memory:
+      self.memories.append(
+          Memory(
+              input_size=self.output_size,
+              mem_size=self.nr_cells,
+              cell_size=self.w,
+              read_heads=self.r,
+              gpu_id=self.gpu_id,
+              independent_linears=self.independent_linears
+          )
+      )
+
+    for layer in range(self.num_layers):
+      setattr(self, 'rnn_layer_' + str(layer), self.rnns[layer])
+      if not self.share_memory:
+        setattr(self, 'rnn_layer_memory_' + str(layer), self.memories[layer])
+    if self.share_memory:
+      setattr(self, 'rnn_layer_memory_shared', self.memories[0])
+
+    # final output layer
+    self.output_weights = nn.Linear(self.output_size, self.output_size)
+    self.mem_out = nn.Linear(self.layern_input_size, self.input_size)
+    self.dropout_layer = nn.Dropout(self.dropout)
+
+    if self.gpu_id != -1:
+      [x.cuda(self.gpu_id) for x in self.rnns]
+      [x.cuda(self.gpu_id) for x in self.memories]
+      self.mem_out.cuda(self.gpu_id)
+
+  def _init_hidden(self, hx, batch_size, reset_experience):
+    # create empty hidden states if not provided
+    if hx is None:
+      hx = (None, None, None)
+    (chx, mhx, last_read) = hx
+
+    # initialize hidden state of the controller RNN
+    if chx is None:
+      chx = cuda(T.zeros(self.num_layers, batch_size, self.output_size), gpu_id=self.gpu_id)
+      if self.rnn_type.lower() == 'lstm':
+        chx = (chx, chx)
+
+    # Last read vectors
+    if last_read is None:
+      last_read = cuda(T.zeros(batch_size, self.w * self.r), gpu_id=self.gpu_id)
+
+    # memory states
+    if mhx is None:
+      if self.share_memory:
+        mhx = self.memories[0].reset(batch_size, erase=reset_experience)
+      else:
+        mhx = [m.reset(batch_size, erase=reset_experience) for m in self.memories]
+    else:
+      if self.share_memory:
+        mhx = self.memories[0].reset(batch_size, mhx, erase=reset_experience)
+      else:
+        mhx = [m.reset(batch_size, h, erase=reset_experience) for m, h in zip(self.memories, mhx)]
+
+    return chx, mhx, last_read
+
+  def _layer_forward(self, input, layer, hx=(None, None)):
+    (chx, mhx) = hx
+    max_length = len(input)
+    outs = [0] * max_length
+    read_vectors = [0] * max_length
+
+    for time in range(max_length):
+      # pass through controller
+      # print('input[time]', input[time].size(), self.layer0_input_size, self.layern_input_size)
+      chx = self.rnns[layer](input[time], chx)
+      # the interface vector
+      ξ = chx[0] if self.rnn_type.lower() == 'lstm' else chx
+      # the output
+      out = self.output_weights(chx[0])
+
+      # pass through memory
+      if self.share_memory:
+        read_vecs, mhx = self.memories[0](ξ, mhx)
+      else:
+        read_vecs, mhx = self.memories[layer](ξ, mhx)
+      read_vectors[time] = read_vecs.view(-1, self.w * self.r)
+
+      # get the final output for this time step
+      outs[time] = self.mem_out(T.cat([out, read_vectors[time]], 1))
+
+    return outs, read_vectors, (chx, mhx)
+
+  def forward(self, input, hx=(None, None, None), reset_experience=False):
+    # handle packed data
+    is_packed = type(input) is PackedSequence
+    if is_packed:
+      input, lengths = pad(input)
+      max_length = lengths[0]
+    else:
+      max_length = input.size(1) if self.batch_first else input.size(0)
+      lengths = [input.size(1)] * max_length if self.batch_first else [input.size(0)] * max_length
+
+    batch_size = input.size(0) if self.batch_first else input.size(1)
+
+    # make the data batch-first
+    if not self.batch_first:
+      input = input.transpose(0, 1)
+
+    controller_hidden, mem_hidden, last_read = self._init_hidden(hx, batch_size, reset_experience)
+
+    # batched forward pass per element / word / etc
+    outputs = None
+    chxs = []
+    read_vectors = [last_read] * max_length
+    # outs = [input[:, x, :] for x in range(max_length)]
+    outs = [T.cat([input[:, x, :], last_read], 1) for x in range(max_length)]
+
+    # chx = [x[0] for x in controller_hidden] if self.rnn_type.lower() == 'lstm' else controller_hidden[0]
+    for layer in range(self.num_layers):
+      # this layer's hidden states
+      chx = [x[layer] for x in controller_hidden] if self.rnn_type.lower() == 'lstm' else controller_hidden[layer]
+
+      m = mem_hidden if self.share_memory else mem_hidden[layer]
+      # pass through controller
+      outs, _, (chx, m) = self._layer_forward(
+          outs,
+          layer,
+          (chx, m)
+      )
+
+      # store the memory back (per layer or shared)
+      if self.share_memory:
+        mem_hidden = m
+      else:
+        mem_hidden[layer] = m
+      chxs.append(chx)
+
+      if layer == self.num_layers - 1:
+        # final outputs
+        outputs = T.stack(outs, 1)
+      else:
+        # the controller output + read vectors go into next layer
+        outs = [T.cat([o, r], 1) for o, r in zip(outs, read_vectors)]
+        # outs = [o for o in outs]
+
+    # final hidden values
+    if self.rnn_type.lower() == 'lstm':
+      h = T.stack([x[0] for x in chxs], 0)
+      c = T.stack([x[1] for x in chxs], 0)
+      controller_hidden = (h, c)
+    else:
+      controller_hidden = T.stack(chxs, 0)
+
+    if not self.batch_first:
+      outputs = outputs.transpose(0, 1)
+    if is_packed:
+      outputs = pack(output, lengths)
+
+    # apply_dict(locals())
+
+    return outputs, (controller_hidden, mem_hidden, read_vectors[-1])
--- a/dnc/memory.py
+++ b/dnc/memory.py
@ -0,0 +1,256 @@
+#!/usr/bin/env python3
+
+import torch.nn as nn
+import torch as T
+from torch.autograd import Variable as var
+import torch.nn.functional as F
+import numpy as np
+
+from util import *
+
+
+class Memory(nn.Module):
+
+  def __init__(self, input_size, mem_size=512, cell_size=32, read_heads=4, gpu_id=-1, independent_linears=True):
+    super(Memory, self).__init__()
+
+    self.mem_size = mem_size
+    self.cell_size = cell_size
+    self.read_heads = read_heads
+    self.gpu_id = gpu_id
+    self.input_size = input_size
+    self.independent_linears = independent_linears
+
+    m = self.mem_size
+    w = self.cell_size
+    r = self.read_heads
+
+    if self.independent_linears:
+      self.read_keys_transform = nn.Linear(self.input_size, w * r)
+      self.read_strengths_transform = nn.Linear(self.input_size, r)
+      self.write_key_transform = nn.Linear(self.input_size, w)
+      self.write_strength_transform = nn.Linear(self.input_size, 1)
+      self.erase_vector_transform = nn.Linear(self.input_size, w)
+      self.write_vector_transform = nn.Linear(self.input_size, w)
+      self.free_gates_transform = nn.Linear(self.input_size, r)
+      self.allocation_gate_transform = nn.Linear(self.input_size, 1)
+      self.write_gate_transform = nn.Linear(self.input_size, 1)
+      self.read_modes_transform = nn.Linear(self.input_size, 3 * r)
+    else:
+      self.interface_size = (w * r) + (3 * w) + (5 * r) + 3
+      self.interface_weights = nn.Linear(self.input_size, self.interface_size)
+
+    self.I = cuda(1 - T.eye(m).unsqueeze(0), gpu_id=self.gpu_id)  # (1 * n * n)
+
+  def reset(self, batch_size=1, hidden=None, erase=True):
+    m = self.mem_size
+    w = self.cell_size
+    r = self.read_heads
+    b = batch_size
+
+    if hidden is None:
+      return {
+          'memory': cuda(T.zeros(b, m, w).fill_(0), gpu_id=self.gpu_id),
+          'link_matrix': cuda(T.zeros(b, 1, m, m), gpu_id=self.gpu_id),
+          'precedence': cuda(T.zeros(b, 1, m), gpu_id=self.gpu_id),
+          'read_weights': cuda(T.zeros(b, r, m).fill_(0), gpu_id=self.gpu_id),
+          'write_weights': cuda(T.zeros(b, 1, m).fill_(0), gpu_id=self.gpu_id),
+          'usage_vector': cuda(T.zeros(b, m), gpu_id=self.gpu_id)
+      }
+    else:
+      hidden['memory'] = hidden['memory'].clone()
+      hidden['link_matrix'] = hidden['link_matrix'].clone()
+      hidden['precedence'] = hidden['precedence'].clone()
+      hidden['read_weights'] = hidden['read_weights'].clone()
+      hidden['write_weights'] = hidden['write_weights'].clone()
+      hidden['usage_vector'] = hidden['usage_vector'].clone()
+
+      if erase:
+        hidden['memory'].data.fill_(δ)
+        hidden['link_matrix'].data.zero_()
+        hidden['precedence'].data.zero_()
+        hidden['read_weights'].data.fill_(δ)
+        hidden['write_weights'].data.fill_(δ)
+        hidden['usage_vector'].data.zero_()
+    return hidden
+
+  def get_usage_vector(self, usage, free_gates, read_weights, write_weights):
+    # write_weights = write_weights.detach()  # detach from the computation graph
+    usage = usage + (1 - usage) * (1 - T.prod(1 - write_weights, 1))
+    ψ = T.prod(1 - free_gates.unsqueeze(2) * read_weights, 1)
+    return usage * ψ
+
+  def allocate(self, usage, write_gate):
+    # ensure values are not too small prior to cumprod.
+    usage = δ + (1 - δ) * usage
+    # free list
+    sorted_usage, φ = T.topk(usage, self.mem_size, dim=1, largest=False)
+    # TODO: these are actually shifted cumprods, tensorflow has exclusive=True
+    # fix once pytorch issue is fixed
+    sorted_allocation_weights = (1 - sorted_usage) * fake_cumprod(sorted_usage, self.gpu_id).squeeze()
+    # construct the reverse sorting index https://stackoverflow.com/questions/2483696/undo-or-reverse-argsort-python
+    _, φ_rev = T.topk(φ, k=self.mem_size, dim=1, largest=False)
+    allocation_weights = sorted_allocation_weights.gather(1, φ.long())
+
+    # update usage after allocating
+    # usage += ((1 - usage) * write_gate * allocation_weights)
+    return allocation_weights.unsqueeze(1), usage
+
+  def write_weighting(self, memory, write_content_weights, allocation_weights, write_gate, allocation_gate):
+    ag = allocation_gate.unsqueeze(-1)
+    wg = write_gate.unsqueeze(-1)
+
+    return wg * (ag * allocation_weights + (1 - ag) * write_content_weights)
+
+  def get_link_matrix(self, link_matrix, write_weights, precedence):
+    precedence = precedence.unsqueeze(2)
+    write_weights_i = write_weights.unsqueeze(3)
+    write_weights_j = write_weights.unsqueeze(2)
+
+    prev_scale = 1 - write_weights_i - write_weights_j
+    new_link_matrix = write_weights_i * precedence
+
+    link_matrix = prev_scale * link_matrix + new_link_matrix
+    # elaborate trick to delete diag elems
+    return self.I.expand_as(link_matrix) * link_matrix
+
+  def update_precedence(self, precedence, write_weights):
+    return (1 - T.sum(write_weights, 2, keepdim=True)) * precedence + write_weights
+
+  def write(self, write_key, write_vector, erase_vector, free_gates, read_strengths, write_strength, write_gate, allocation_gate, hidden):
+    # get current usage
+    hidden['usage_vector'] = self.get_usage_vector(
+        hidden['usage_vector'],
+        free_gates,
+        hidden['read_weights'],
+        hidden['write_weights']
+    )
+
+    # lookup memory with write_key and write_strength
+    write_content_weights = self.content_weightings(hidden['memory'], write_key, write_strength)
+
+    # get memory allocation
+    alloc, _ = self.allocate(
+        hidden['usage_vector'],
+        allocation_gate * write_gate
+    )
+
+    # get write weightings
+    hidden['write_weights'] = self.write_weighting(
+        hidden['memory'],
+        write_content_weights,
+        alloc,
+        write_gate,
+        allocation_gate
+    )
+
+    weighted_resets = hidden['write_weights'].unsqueeze(3) * erase_vector.unsqueeze(2)
+    reset_gate = T.prod(1 - weighted_resets, 1)
+    # Update memory
+    hidden['memory'] = hidden['memory'] * reset_gate
+
+    hidden['memory'] = hidden['memory'] + \
+        T.bmm(hidden['write_weights'].transpose(1, 2), write_vector)
+
+    # update link_matrix
+    hidden['link_matrix'] = self.get_link_matrix(
+        hidden['link_matrix'],
+        hidden['write_weights'],
+        hidden['precedence']
+    )
+    hidden['precedence'] = self.update_precedence(hidden['precedence'], hidden['write_weights'])
+
+    return hidden
+
+  def content_weightings(self, memory, keys, strengths):
+    d = θ(memory, keys)
+    strengths = F.softplus(strengths).unsqueeze(2)
+    return σ(d * strengths, 2)
+
+  def directional_weightings(self, link_matrix, read_weights):
+    rw = read_weights.unsqueeze(1)
+
+    f = T.matmul(link_matrix, rw.transpose(2, 3)).transpose(2, 3)
+    b = T.matmul(rw, link_matrix)
+    return f.transpose(1, 2), b.transpose(1, 2)
+
+  def read_weightings(self, memory, content_weights, link_matrix, read_modes, read_weights):
+    forward_weight, backward_weight = self.directional_weightings(link_matrix, read_weights)
+
+    content_mode = read_modes[:, :, 2].contiguous().unsqueeze(2) * content_weights
+    backward_mode = T.sum(read_modes[:, :, 0:1].contiguous().unsqueeze(3) * backward_weight, 2)
+    forward_mode = T.sum(read_modes[:, :, 1:2].contiguous().unsqueeze(3) * forward_weight, 2)
+
+    return backward_mode + content_mode + forward_mode
+
+  def read_vectors(self, memory, read_weights):
+    return T.bmm(read_weights, memory)
+
+  def read(self, read_keys, read_strengths, read_modes, hidden):
+    content_weights = self.content_weightings(hidden['memory'], read_keys, read_strengths)
+
+    hidden['read_weights'] = self.read_weightings(
+        hidden['memory'],
+        content_weights,
+        hidden['link_matrix'],
+        read_modes,
+        hidden['read_weights']
+    )
+    read_vectors = self.read_vectors(hidden['memory'], hidden['read_weights'])
+    return read_vectors, hidden
+
+  def forward(self, ξ, hidden):
+
+    # ξ = ξ.detach()
+    m = self.mem_size
+    w = self.cell_size
+    r = self.read_heads
+    b = ξ.size()[0]
+
+    if self.independent_linears:
+      # r read keys (b * r * w)
+      read_keys = self.read_keys_transform(ξ).view(b, r, w)
+      # r read strengths (b * r)
+      read_strengths = self.read_strengths_transform(ξ).view(b, r)
+      # write key (b * 1 * w)
+      write_key = self.write_key_transform(ξ).view(b, 1, w)
+      # write strength (b * 1)
+      write_strength = self.write_strength_transform(ξ).view(b, 1)
+      # erase vector (b * 1 * w)
+      erase_vector = F.sigmoid(self.erase_vector_transform(ξ).view(b, 1, w))
+      # write vector (b * 1 * w)
+      write_vector = self.write_vector_transform(ξ).view(b, 1, w)
+      # r free gates (b * r)
+      free_gates = F.sigmoid(self.free_gates_transform(ξ).view(b, r))
+      # allocation gate (b * 1)
+      allocation_gate = F.sigmoid(self.allocation_gate_transform(ξ).view(b, 1))
+      # write gate (b * 1)
+      write_gate = F.sigmoid(self.write_gate_transform(ξ).view(b, 1))
+      # read modes (b * r * 3)
+      read_modes = σ(self.read_modes_transform(ξ).view(b, r, 3), 1)
+    else:
+      ξ = self.interface_weights(ξ)
+      # r read keys (b * w * r)
+      read_keys = ξ[:, :r * w].contiguous().view(b, r, w)
+      # r read strengths (b * r)
+      read_strengths = 1 + F.relu(ξ[:, r * w:r * w + r].contiguous().view(b, r))
+      # write key (b * w * 1)
+      write_key = ξ[:, r * w + r:r * w + r + w].contiguous().view(b, 1, w)
+      # write strength (b * 1)
+      write_strength = 1 + F.relu(ξ[:, r * w + r + w].contiguous()).view(b, 1)
+      # erase vector (b * w)
+      erase_vector = F.sigmoid(ξ[:, r * w + r + w + 1: r * w + r + 2 * w + 1].contiguous().view(b, 1, w))
+      # write vector (b * w)
+      write_vector = ξ[:, r * w + r + 2 * w + 1: r * w + r + 3 * w + 1].contiguous().view(b, 1, w)
+      # r free gates (b * r)
+      free_gates = F.sigmoid(ξ[:, r * w + r + 3 * w + 1: r * w + 2 * r + 3 * w + 1].contiguous().view(b, r))
+      # allocation gate (b * 1)
+      allocation_gate = F.sigmoid(ξ[:, r * w + 2 * r + 3 * w + 1].contiguous().unsqueeze(1).view(b, 1))
+      # write gate (b * 1)
+      write_gate = F.sigmoid(ξ[:, r * w + 2 * r + 3 * w + 2].contiguous()).unsqueeze(1).view(b, 1)
+      # read modes (b * 3*r)
+      read_modes = σ(ξ[:, r * w + 2 * r + 3 * w + 2: r * w + 5 * r + 3 * w + 2].contiguous().view(b, r, 3), 1)
+
+    hidden = self.write(write_key, write_vector, erase_vector, free_gates,
+                        read_strengths, write_strength, write_gate, allocation_gate, hidden)
+    return self.read(read_keys, read_strengths, read_modes, hidden)
--- a/dnc/util.py
+++ b/dnc/util.py
@ -0,0 +1,154 @@
+#!/usr/bin/env python3
+
+import torch.nn as nn
+import torch as T
+import torch.nn.functional as F
+from torch.autograd import Variable as var
+import numpy as np
+import torch
+from torch.autograd import Variable
+import re
+import string
+
+
+def recursiveTrace(obj):
+  print(type(obj))
+  if hasattr(obj, 'grad_fn'):
+    print(obj.grad_fn)
+    recursiveTrace(obj.grad_fn)
+  elif hasattr(obj, 'saved_variables'):
+    print(obj.requires_grad, len(obj.saved_tensors), len(obj.saved_variables))
+    [print(v) for v in obj.saved_variables]
+    [recursiveTrace(v.grad_fn) for v in obj.saved_variables]
+
+
+def cuda(x, grad=False, gpu_id=-1):
+  if gpu_id == -1:
+    return var(x, requires_grad=grad)
+  else:
+    return var(x.pin_memory(), requires_grad=grad).cuda(gpu_id, async=True)
+
+
+def cudavec(x, grad=False, gpu_id=-1):
+  if gpu_id == -1:
+    return var(T.from_numpy(x), requires_grad=grad)
+  else:
+    return var(T.from_numpy(x).pin_memory(), requires_grad=grad).cuda(gpu_id, async=True)
+
+
+def cudalong(x, grad=False, gpu_id=-1):
+  if gpu_id == -1:
+    return var(T.from_numpy(x.astype(np.long)), requires_grad=grad)
+  else:
+    return var(T.from_numpy(x.astype(np.long)).pin_memory(), requires_grad=grad).cuda(gpu_id, async=True)
+
+
+def fake_cumprod(vb, gpu_id):
+  """
+  args:
+      vb:  [hei x wid]
+        -> NOTE: we are lazy here so now it only supports cumprod along wid
+  """
+  # real_cumprod = torch.cumprod(vb.data, 1)
+  vb = vb.unsqueeze(0)
+  mul_mask_vb = Variable(torch.zeros(vb.size(2), vb.size(1), vb.size(2))).type_as(vb)
+
+  if gpu_id != -1:
+    mul_mask_vb = mul_mask_vb.cuda(gpu_id)
+
+  for i in range(vb.size(2)):
+    mul_mask_vb[i, :, :i + 1] = 1
+  add_mask_vb = 1 - mul_mask_vb
+  vb = vb.expand_as(mul_mask_vb) * mul_mask_vb + add_mask_vb
+  # vb = torch.prod(vb, 2).transpose(0, 2)                # 0.1.12
+  vb = torch.prod(vb, 2, keepdim=True).transpose(0, 2)    # 0.2.0
+  # print(real_cumprod - vb.data) # NOTE: checked, ==0
+  return vb
+
+
+def θ(a, b, dimA=2, dimB=2, normBy=2):
+  """Batchwise Cosine distance
+
+  Cosine distance
+
+  Arguments:
+      a {Tensor} -- A 3D Tensor (b * m * w)
+      b {Tensor} -- A 3D Tensor (b * r * w)
+
+  Keyword Arguments:
+      dimA {number} -- exponent value of the norm for `a` (default: {2})
+      dimB {number} -- exponent value of the norm for `b` (default: {1})
+
+  Returns:
+      Tensor -- Batchwise cosine distance (b * r * m)
+  """
+  a_norm = T.norm(a, normBy, dimA, keepdim=True).expand_as(a) + δ
+  b_norm = T.norm(b, normBy, dimB, keepdim=True).expand_as(b) + δ
+
+  x = T.bmm(a, b.transpose(1, 2)).transpose(1, 2) / (
+      T.bmm(a_norm, b_norm.transpose(1, 2)).transpose(1, 2) + δ)
+  # apply_dict(locals())
+  return x
+
+
+def σ(input, axis=1):
+  """Softmax on an axis
+
+  Softmax on an axis
+
+  Arguments:
+      input {Tensor} -- input Tensor
+
+  Keyword Arguments:
+      axis {number} -- axis on which to take softmax on (default: {1})
+
+  Returns:
+      Tensor -- Softmax output Tensor
+  """
+  input_size = input.size()
+
+  trans_input = input.transpose(axis, len(input_size) - 1)
+  trans_size = trans_input.size()
+
+  input_2d = trans_input.contiguous().view(-1, trans_size[-1])
+  soft_max_2d = F.softmax(input_2d)
+  soft_max_nd = soft_max_2d.view(*trans_size)
+  return soft_max_nd.transpose(axis, len(input_size) - 1)
+
+δ = 1e-6
+
+
+def register_nan_checks(model):
+  def check_grad(module, grad_input, grad_output):
+    # print(module) you can add this to see that the hook is called
+    print('hook called for ' + str(type(module)))
+    if any(np.all(np.isnan(gi.data.cpu().numpy())) for gi in grad_input if gi is not None):
+      print('NaN gradient in grad_input ' + type(module).__name__)
+
+  model.apply(lambda module: module.register_backward_hook(check_grad))
+
+
+def apply_dict(dic):
+  for k, v in dic.items():
+    apply_var(v, k)
+    if isinstance(v, nn.Module):
+      key_list = [a for a in dir(v) if not a.startswith('__')]
+      for key in key_list:
+        apply_var(getattr(v, key), key)
+      for pk, pv in v._parameters.items():
+        apply_var(pv, pk)
+
+
+def apply_var(v, k):
+  if isinstance(v, Variable) and v.requires_grad:
+    v.register_hook(check_nan_gradient(k))
+
+
+def check_nan_gradient(name=''):
+  def f(tensor):
+    if np.isnan(T.mean(tensor).data.cpu().numpy()):
+      print('\nnan gradient of {} :'.format(name))
+      # print(tensor)
+      # assert 0, 'nan gradient'
+      return tensor
+  return f
--- a/setup.cfg
+++ b/setup.cfg
@ -0,0 +1,2 @@
+[bdist_wheel]
+universal=0
--- a/setup.py
+++ b/setup.py
@ -0,0 +1,67 @@
+#!/usr/bin/env python3
+
+"""A setuptools based setup module.
+See:
+https://packaging.python.org/en/latest/distributing.html
+https://github.com/pypa/sampleproject
+"""
+
+# Always prefer setuptools over distutils
+from setuptools import setup, find_packages
+# To use a consistent encoding
+from codecs import open
+from os import path
+
+here = path.abspath(path.dirname(__file__))
+
+# Get the long description from the README file
+with open(path.join(here, 'README.md'), encoding='utf-8') as f:
+    long_description = f.read()
+
+setup(
+    name='dnc',
+
+    version='0.0.1',
+
+    description='Differentiable Neural Computer, for Pytorch',
+    long_description=long_description,
+
+    # The project's main homepage.
+    url='https://github.com/pypa/dnc',
+
+    # Author details
+    author='Russi Chatterjee',
+    author_email='root@ixaxaar.in',
+
+    # Choose your license
+    license='MIT',
+
+    # See https://pypi.python.org/pypi?%3Aaction=list_classifiers
+    classifiers=[
+        'Development Status :: 3 - Alpha',
+
+        'Intended Audience :: Science/Research',
+        'Topic :: Scientific/Engineering :: Artificial Intelligence',
+
+        'License :: OSI Approved :: MIT License',
+
+        'Programming Language :: Python :: 3',
+        'Programming Language :: Python :: 3.3',
+        'Programming Language :: Python :: 3.4',
+        'Programming Language :: Python :: 3.5',
+        'Programming Language :: Python :: 3.6',
+    ],
+
+    keywords='differentiable neural computer dnc memory network',
+
+    packages=find_packages(exclude=['contrib', 'docs', 'tests']),
+
+    install_requires=['torch', 'numpy'],
+
+    extras_require={
+        'dev': ['check-manifest'],
+        'test': ['coverage'],
+    },
+
+    python_requires='>=3',
+)