pytorch-dnc/dnc/sparse_memory.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import torch.nn as nn
import torch as T
from torch.autograd import Variable as var
import torch.nn.functional as F
import numpy as np
import math

from .flann_index import FLANNIndex
from .util import *
import time


class SparseMemory(nn.Module):

  def __init__(
      self,
      input_size,
      mem_size=512,
      cell_size=32,
      independent_linears=True,
      read_heads=4,
      sparse_reads=10,
      num_lists=None,
      index_checks=32,
      gpu_id=-1,
      mem_gpu_id=-1
  ):
    super(SparseMemory, self).__init__()

    self.mem_size = mem_size
    self.cell_size = cell_size
    self.gpu_id = gpu_id
    self.mem_gpu_id = mem_gpu_id
    self.input_size = input_size
    self.independent_linears = independent_linears
    self.K = sparse_reads if self.mem_size > sparse_reads else self.mem_size
    self.read_heads = read_heads
    self.num_lists = num_lists if num_lists is not None else int(self.mem_size / 100)
    self.index_checks = index_checks

    m = self.mem_size
    w = self.cell_size
    r = self.read_heads
    c = r * self.K + 1

    if self.independent_linears:
      self.read_query_transform = nn.Linear(self.input_size, w*r)
      self.write_vector_transform = nn.Linear(self.input_size, w)
      self.interpolation_gate_transform = nn.Linear(self.input_size, c)
      self.write_gate_transform = nn.Linear(self.input_size, 1)
      T.nn.init.orthogonal(self.read_query_transform.weight)
      T.nn.init.orthogonal(self.write_vector_transform.weight)
      T.nn.init.orthogonal(self.interpolation_gate_transform.weight)
      T.nn.init.orthogonal(self.write_gate_transform.weight)
    else:
      self.interface_size = (r * w) + w + c + 1
      self.interface_weights = nn.Linear(self.input_size, self.interface_size)
      T.nn.init.orthogonal(self.interface_weights.weight)

    self.I = cuda(1 - T.eye(c).unsqueeze(0), gpu_id=self.gpu_id)  # (1 * n * n)
    self.δ = 0.005  # minimum usage
    self.timestep = 0

  def rebuild_indexes(self, hidden, erase=False):
    b = hidden['memory'].size(0)

    # if indexes already exist, we reset them
    if 'indexes' in hidden:
      [x.reset() for x in hidden['indexes']]
    else:
      # create new indexes
      hidden['indexes'] = \
          [FLANNIndex(cell_size=self.cell_size,
                 nr_cells=self.mem_size, K=self.K, num_kdtrees=self.num_lists,
                 probes=self.index_checks, gpu_id=self.mem_gpu_id) for x in range(b)]

    # add existing memory into indexes
    pos = hidden['read_positions'].squeeze().data.cpu().numpy()
    if not erase:
      for n, i in enumerate(hidden['indexes']):
        i.reset()
        i.add(hidden['memory'][n], last=pos[n][-1])
    else:
      self.timestep = 0

    return hidden

  def reset(self, batch_size=1, hidden=None, erase=True):
    m = self.mem_size
    w = self.cell_size
    b = batch_size
    r = self.read_heads
    c = r * self.K + 1

    if hidden is None:
      hidden = {
          # warning can be a huge chunk of contiguous memory
          'memory': cuda(T.zeros(b, m, w).fill_(δ), gpu_id=self.mem_gpu_id),
          'visible_memory': cuda(T.zeros(b, c, w).fill_(δ), gpu_id=self.mem_gpu_id),
          'link_matrix': cuda(T.zeros(b, c, c), gpu_id=self.gpu_id),
          'rev_link_matrix': cuda(T.zeros(b, c, c), gpu_id=self.gpu_id),
          'precedence': cuda(T.zeros(b, m), gpu_id=self.gpu_id),
          'read_weights': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
          'write_weights': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
          'read_vectors': cuda(T.zeros(b, r, w).fill_(δ), gpu_id=self.gpu_id),
          'least_used_mem': cuda(T.zeros(b, 1).fill_(c+1), gpu_id=self.gpu_id).long(),
          'usage': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
          'read_positions': cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()
      }
      hidden = self.rebuild_indexes(hidden, erase=True)
    else:
      hidden['memory'] = hidden['memory'].clone()
      hidden['visible_memory'] = hidden['visible_memory'].clone()
      hidden['link_matrix'] = hidden['link_matrix'].clone()
      hidden['rev_link_matrix'] = hidden['link_matrix'].clone()
      hidden['precedence'] = hidden['precedence'].clone()
      hidden['read_weights'] = hidden['read_weights'].clone()
      hidden['write_weights'] = hidden['write_weights'].clone()
      hidden['read_vectors'] = hidden['read_vectors'].clone()
      hidden['least_used_mem'] = hidden['least_used_mem'].clone()
      hidden['usage'] = hidden['usage'].clone()
      hidden['read_positions'] = hidden['read_positions'].clone()
      hidden = self.rebuild_indexes(hidden, erase)

      if erase:
        hidden['memory'].data.fill_(δ)
        hidden['visible_memory'].data.fill_(δ)
        hidden['link_matrix'].data.zero_()
        hidden['rev_link_matrix'].data.zero_()
        hidden['precedence'].data.zero_()
        hidden['read_weights'].data.fill_(δ)
        hidden['write_weights'].data.fill_(δ)
        hidden['read_vectors'].data.fill_(δ)
        hidden['least_used_mem'].data.fill_(c+1+self.timestep)
        hidden['usage'].data.fill_(δ)
        hidden['read_positions'] = cuda(T.arange(self.timestep, c+self.timestep).expand(b, c), gpu_id=self.gpu_id).long()

    return hidden

  def write_into_sparse_memory(self, hidden):
    visible_memory = hidden['visible_memory']
    positions = hidden['read_positions'].squeeze()

    (b, m, w) = hidden['memory'].size()
    # update memory
    hidden['memory'].scatter_(1, positions.unsqueeze(2).expand(b, self.read_heads*self.K+1, w), visible_memory)

    # non-differentiable operations
    pos = positions.data.cpu().numpy()
    for batch in range(b):
      # update indexes
      hidden['indexes'][batch].reset()
      hidden['indexes'][batch].add(hidden['memory'][batch], last=pos[batch][-1])

    hidden['least_used_mem'] = hidden['least_used_mem'] + 1 if self.timestep < self.mem_size else hidden['least_used_mem'] * 0

    return hidden

  def update_link_matrices(self, link_matrix, rev_link_matrix, write_weights, precedence):
    link_matrix = (1 - write_weights).unsqueeze(2) * link_matrix + write_weights.unsqueeze(2) * precedence.unsqueeze(1)

    rev_link_matrix = (1 - write_weights).unsqueeze(1) * rev_link_matrix + write_weights.unsqueeze(2) * precedence.unsqueeze(1)

    return link_matrix, rev_link_matrix

  def update_precedence(self, precedence, write_weights):
    return (1 - T.sum(write_weights, dim=-1, keepdim=True)) * precedence + write_weights

  def write(self, interpolation_gate, write_vector, write_gate, hidden):

    read_weights = hidden['read_weights'].gather(1, hidden['read_positions'])
    write_weights = hidden['write_weights'].gather(1, hidden['read_positions'])

    hidden['usage'], I = self.update_usage(
        hidden['read_positions'],
        read_weights,
        write_weights,
        hidden['usage']
    )

    # either we write to previous read locations
    x = interpolation_gate * read_weights
    # or to a new location
    y = (1 - interpolation_gate) * I
    write_weights = write_gate * (x + y)

    # store the write weights
    hidden['write_weights'].scatter_(1, hidden['read_positions'], write_weights)

    # erase matrix
    erase_matrix = I.unsqueeze(2).expand(hidden['visible_memory'].size())

    # write into memory
    hidden['visible_memory'] = hidden['visible_memory'] * (1 - erase_matrix) + T.bmm(write_weights.unsqueeze(2), write_vector)
    hidden = self.write_into_sparse_memory(hidden)

    # update link_matrix and precedence
    (b, c) = write_weights.size()
    precedence = hidden['precedence'].gather(1, hidden['read_positions'])

    hidden['link_matrix'], hidden['rev_link_matrix'] = \
      self.update_link_matrices(hidden['link_matrix'], hidden['rev_link_matrix'], write_weights, precedence)
    precedence = self.update_precedence(hidden['precedence'], hidden['write_weights'])

    hidden['precedence'].scatter_(1, hidden['read_positions'], precedence)

    return hidden

  def update_usage(self, read_positions, read_weights, write_weights, usage):
    (b, _) = read_positions.size()
    # usage is timesteps since a non-negligible memory access
    # todo store write weights of all mem and gather from that
    u = (read_weights + write_weights > self.δ).float()

    # usage before write
    relevant_usages = usage.gather(1, read_positions)

    # indicator of words with minimal memory usage
    minusage = T.min(relevant_usages, -1, keepdim=True)[0]
    minusage = minusage.expand(relevant_usages.size())
    I = (relevant_usages == minusage).float()

    # usage after write
    relevant_usages = (self.timestep - relevant_usages) * u + relevant_usages * (1 - u)

    usage.scatter_(1, read_positions, relevant_usages)

    return usage, I

  def read_from_sparse_memory(self, memory, indexes, keys, least_used_mem, usage):
    b = keys.size(0)
    read_positions = []

    # we search for k cells per read head
    for batch in range(b):
      distances, positions = indexes[batch].search(keys[batch])
      read_positions.append(T.clamp(positions, 0, self.mem_size - 1))
    read_positions = T.stack(read_positions, 0)

    # add least used mem to read positions
    # TODO: explore possibility of reading co-locations or ranges and such
    (b, r, k) = read_positions.size()
    read_positions = var(read_positions)
    read_positions = T.cat([read_positions.view(b, -1), least_used_mem], 1)

    # differentiable ops
    (b, m, w) = memory.size()
    visible_memory = memory.gather(1, read_positions.unsqueeze(2).expand(b, r*k+1, w))

    read_weights = σ(θ(visible_memory, keys), 2)
    read_vectors = T.bmm(read_weights, visible_memory)
    read_weights = T.prod(read_weights, 1)

    return read_vectors, read_positions, read_weights, visible_memory

  # def

  def read(self, read_query, hidden):
    # sparse read
    read_vectors, positions, read_weights, visible_memory = \
        self.read_from_sparse_memory(
          hidden['memory'],
          hidden['indexes'],
          read_query,
          hidden['least_used_mem'],
          hidden['usage']
        )

    hidden['read_positions'] = positions
    hidden['read_weights'] = hidden['read_weights'].scatter_(1, positions, read_weights)
    hidden['read_vectors'] = read_vectors
    hidden['visible_memory'] = visible_memory

    return hidden['read_vectors'], hidden

  def forward(self, ξ, hidden):
    t = time.time()

    # ξ = ξ.detach()
    m = self.mem_size
    w = self.cell_size
    r = self.read_heads
    c = r * self.K + 1
    b = ξ.size()[0]

    if self.independent_linears:
      # r read keys (b * r * w)
      read_query = self.read_query_transform(ξ).view(b, r, w)
      # write key (b * 1 * w)
      write_vector = self.write_vector_transform(ξ).view(b, 1, w)
      # write vector (b * 1 * r)
      interpolation_gate = F.sigmoid(self.interpolation_gate_transform(ξ)).view(b, c)
      # write gate (b * 1)
      write_gate = F.sigmoid(self.write_gate_transform(ξ).view(b, 1))
    else:
      ξ = self.interface_weights(ξ)
      # r read keys (b * r * w)
      read_query = ξ[:, :r*w].contiguous().view(b, r, w)
      # write key (b * 1 * w)
      write_vector = ξ[:, r*w: r*w + w].contiguous().view(b, 1, w)
      # write vector (b * 1 * r)
      interpolation_gate = F.sigmoid(ξ[:, r*w + w: r*w + w + c]).contiguous().view(b, c)
      # write gate (b * 1)
      write_gate = F.sigmoid(ξ[:, -1].contiguous()).unsqueeze(1).view(b, 1)

    self.timestep += 1
    hidden = self.write(interpolation_gate, write_vector, write_gate, hidden)
    return self.read(read_query, hidden)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								#!/usr/bin/env python3
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
+								# -*- coding: utf-8 -*-
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								import torch.nn as nn
 								import torch as T
 								from torch.autograd import Variable as var
 								import torch.nn.functional as F
 								import numpy as np
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								import math
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								from .flann_index import FLANNIndex
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								from .util import *
-												Use FAISS instead of FLANN

											
										
										
											2017-11-29 18:11:50 +08:00
+								import time
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								class SparseMemory(nn.Module):
 								  def __init__(
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								      self,
 								      input_size,
 								      mem_size=512,
 								      cell_size=32,
 								      independent_linears=True,
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      read_heads=4,
 								      sparse_reads=10,
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								      num_lists=None,
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								      index_checks=32,
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								      gpu_id=-1,
 								      mem_gpu_id=-1
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								  ):
 								    super(SparseMemory, self).__init__()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								    self.mem_size = mem_size
 								    self.cell_size = cell_size
 								    self.gpu_id = gpu_id
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    self.mem_gpu_id = mem_gpu_id
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    self.input_size = input_size
 								    self.independent_linears = independent_linears
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								    self.K = sparse_reads if self.mem_size > sparse_reads else self.mem_size
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    self.read_heads = read_heads
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								    self.num_lists = num_lists if num_lists is not None else int(self.mem_size / 100)
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
+								    self.index_checks = index_checks
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								    m = self.mem_size
 								    w = self.cell_size
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    r = self.read_heads
 								    c = r * self.K + 1
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								    if self.independent_linears:
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      self.read_query_transform = nn.Linear(self.input_size, w*r)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      self.write_vector_transform = nn.Linear(self.input_size, w)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      self.interpolation_gate_transform = nn.Linear(self.input_size, c)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      self.write_gate_transform = nn.Linear(self.input_size, 1)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								      T.nn.init.orthogonal(self.read_query_transform.weight)
 								      T.nn.init.orthogonal(self.write_vector_transform.weight)
 								      T.nn.init.orthogonal(self.interpolation_gate_transform.weight)
 								      T.nn.init.orthogonal(self.write_gate_transform.weight)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    else:
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      self.interface_size = (r * w) + w + c + 1
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      self.interface_weights = nn.Linear(self.input_size, self.interface_size)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								      T.nn.init.orthogonal(self.interface_weights.weight)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								    self.I = cuda(1 - T.eye(c).unsqueeze(0), gpu_id=self.gpu_id)  # (1 * n * n)
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    self.δ = 0.005  # minimum usage
 								    self.timestep = 0
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
+								  def rebuild_indexes(self, hidden, erase=False):
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    b = hidden['memory'].size(0)
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
+								    # if indexes already exist, we reset them
 								    if 'indexes' in hidden:
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								      [x.reset() for x in hidden['indexes']]
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
+								    else:
 								      # create new indexes
 								      hidden['indexes'] = \
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								          [FLANNIndex(cell_size=self.cell_size,
 								                 nr_cells=self.mem_size, K=self.K, num_kdtrees=self.num_lists,
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								                 probes=self.index_checks, gpu_id=self.mem_gpu_id) for x in range(b)]
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
 								    # add existing memory into indexes
-												Reload only used part of the indedx

											
										
										
											2017-12-06 23:44:16 +08:00
+								    pos = hidden['read_positions'].squeeze().data.cpu().numpy()
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
+								    if not erase:
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								      for n, i in enumerate(hidden['indexes']):
-												Reload only used part of the indedx

											
										
										
											2017-12-06 23:44:16 +08:00
+								        i.reset()
 								        i.add(hidden['memory'][n], last=pos[n][-1])
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    else:
 								      self.timestep = 0
-												reset indexes instead of creating new ones

											
										
										
											2017-12-02 14:32:55 +08:00
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
+								    return hidden
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								  def reset(self, batch_size=1, hidden=None, erase=True):
 								    m = self.mem_size
 								    w = self.cell_size
 								    b = batch_size
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    r = self.read_heads
 								    c = r * self.K + 1
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								    if hidden is None:
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								      hidden = {
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
+								          # warning can be a huge chunk of contiguous memory
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								          'memory': cuda(T.zeros(b, m, w).fill_(δ), gpu_id=self.mem_gpu_id),
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								          'visible_memory': cuda(T.zeros(b, c, w).fill_(δ), gpu_id=self.mem_gpu_id),
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								          'link_matrix': cuda(T.zeros(b, c, c), gpu_id=self.gpu_id),
 								          'rev_link_matrix': cuda(T.zeros(b, c, c), gpu_id=self.gpu_id),
 								          'precedence': cuda(T.zeros(b, m), gpu_id=self.gpu_id),
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								          'read_weights': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
 								          'write_weights': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								          'read_vectors': cuda(T.zeros(b, r, w).fill_(δ), gpu_id=self.gpu_id),
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								          'least_used_mem': cuda(T.zeros(b, 1).fill_(c+1), gpu_id=self.gpu_id).long(),
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								          'usage': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								          'read_positions': cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      }
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								      hidden = self.rebuild_indexes(hidden, erase=True)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    else:
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								      hidden['memory'] = hidden['memory'].clone()
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      hidden['visible_memory'] = hidden['visible_memory'].clone()
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								      hidden['link_matrix'] = hidden['link_matrix'].clone()
 								      hidden['rev_link_matrix'] = hidden['link_matrix'].clone()
 								      hidden['precedence'] = hidden['precedence'].clone()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      hidden['read_weights'] = hidden['read_weights'].clone()
 								      hidden['write_weights'] = hidden['write_weights'].clone()
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								      hidden['read_vectors'] = hidden['read_vectors'].clone()
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								      hidden['least_used_mem'] = hidden['least_used_mem'].clone()
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								      hidden['usage'] = hidden['usage'].clone()
 								      hidden['read_positions'] = hidden['read_positions'].clone()
-												Remove redundant code

											
										
										
											2017-12-04 23:41:30 +08:00
+								      hidden = self.rebuild_indexes(hidden, erase)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								      if erase:
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								        hidden['memory'].data.fill_(δ)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								        hidden['visible_memory'].data.fill_(δ)
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								        hidden['link_matrix'].data.zero_()
 								        hidden['rev_link_matrix'].data.zero_()
 								        hidden['precedence'].data.zero_()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								        hidden['read_weights'].data.fill_(δ)
 								        hidden['write_weights'].data.fill_(δ)
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								        hidden['read_vectors'].data.fill_(δ)
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								        hidden['least_used_mem'].data.fill_(c+1+self.timestep)
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								        hidden['usage'].data.fill_(δ)
-												Get debugging working and initialize properly

											
										
										
											2017-12-09 20:58:59 +08:00
+								        hidden['read_positions'] = cuda(T.arange(self.timestep, c+self.timestep).expand(b, c), gpu_id=self.gpu_id).long()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    return hidden
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								  def write_into_sparse_memory(self, hidden):
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    visible_memory = hidden['visible_memory']
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    positions = hidden['read_positions'].squeeze()
-												progressively make things differentiable

											
										
										
											2017-12-04 04:18:03 +08:00
+								    (b, m, w) = hidden['memory'].size()
 								    # update memory
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    hidden['memory'].scatter_(1, positions.unsqueeze(2).expand(b, self.read_heads*self.K+1, w), visible_memory)
-												progressively make things differentiable

											
										
										
											2017-12-04 04:18:03 +08:00
 								    # non-differentiable operations
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    pos = positions.data.cpu().numpy()
-												verify gradneits flowing

											
										
										
											2017-12-09 18:13:11 +08:00
+								    for batch in range(b):
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								      # update indexes
-												verify gradneits flowing

											
										
										
											2017-12-09 18:13:11 +08:00
+								      hidden['indexes'][batch].reset()
 								      hidden['indexes'][batch].add(hidden['memory'][batch], last=pos[batch][-1])
-												Get debugging working and initialize properly

											
										
										
											2017-12-09 20:58:59 +08:00
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								    hidden['least_used_mem'] = hidden['least_used_mem'] + 1 if self.timestep < self.mem_size else hidden['least_used_mem'] * 0
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								    return hidden
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								  def update_link_matrices(self, link_matrix, rev_link_matrix, write_weights, precedence):
 								    link_matrix = (1 - write_weights).unsqueeze(2) * link_matrix + write_weights.unsqueeze(2) * precedence.unsqueeze(1)
 								    rev_link_matrix = (1 - write_weights).unsqueeze(1) * rev_link_matrix + write_weights.unsqueeze(2) * precedence.unsqueeze(1)
 								    return link_matrix, rev_link_matrix
 								  def update_precedence(self, precedence, write_weights):
 								    return (1 - T.sum(write_weights, dim=-1, keepdim=True)) * precedence + write_weights
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								  def write(self, interpolation_gate, write_vector, write_gate, hidden):
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    read_weights = hidden['read_weights'].gather(1, hidden['read_positions'])
 								    write_weights = hidden['write_weights'].gather(1, hidden['read_positions'])
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    hidden['usage'], I = self.update_usage(
 								        hidden['read_positions'],
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								        read_weights,
 								        write_weights,
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								        hidden['usage']
 								    )
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    # either we write to previous read locations
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    x = interpolation_gate * read_weights
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    # or to a new location
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    y = (1 - interpolation_gate) * I
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    write_weights = write_gate * (x + y)
 								    # store the write weights
 								    hidden['write_weights'].scatter_(1, hidden['read_positions'], write_weights)
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								    # erase matrix
-												erase before write

											
										
										
											2017-12-10 14:35:13 +08:00
+								    erase_matrix = I.unsqueeze(2).expand(hidden['visible_memory'].size())
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								    # write into memory
-												erase before write

											
										
										
											2017-12-10 14:35:13 +08:00
+								    hidden['visible_memory'] = hidden['visible_memory'] * (1 - erase_matrix) + T.bmm(write_weights.unsqueeze(2), write_vector)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    hidden = self.write_into_sparse_memory(hidden)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								    # update link_matrix and precedence
 								    (b, c) = write_weights.size()
 								    precedence = hidden['precedence'].gather(1, hidden['read_positions'])
 								    hidden['link_matrix'], hidden['rev_link_matrix'] = \
 								      self.update_link_matrices(hidden['link_matrix'], hidden['rev_link_matrix'], write_weights, precedence)
 								    precedence = self.update_precedence(hidden['precedence'], hidden['write_weights'])
 								    hidden['precedence'].scatter_(1, hidden['read_positions'], precedence)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    return hidden
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								  def update_usage(self, read_positions, read_weights, write_weights, usage):
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    (b, _) = read_positions.size()
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    # usage is timesteps since a non-negligible memory access
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    # todo store write weights of all mem and gather from that
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    u = (read_weights + write_weights > self.δ).float()
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
 								    # usage before write
-												progressively make things differentiable

											
										
										
											2017-12-04 04:18:03 +08:00
+								    relevant_usages = usage.gather(1, read_positions)
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
 								    # indicator of words with minimal memory usage
-												verify gradneits flowing

											
										
										
											2017-12-09 18:13:11 +08:00
+								    minusage = T.min(relevant_usages, -1, keepdim=True)[0]
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    minusage = minusage.expand(relevant_usages.size())
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    I = (relevant_usages == minusage).float()
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
 								    # usage after write
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    relevant_usages = (self.timestep - relevant_usages) * u + relevant_usages * (1 - u)
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
-												progressively make things differentiable

											
										
										
											2017-12-04 04:18:03 +08:00
+								    usage.scatter_(1, read_positions, relevant_usages)
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
 								    return usage, I
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								  def read_from_sparse_memory(self, memory, indexes, keys, least_used_mem, usage):
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    b = keys.size(0)
-												Sparse reads barebones

											
										
										
											2017-11-27 18:28:14 +08:00
+								    read_positions = []
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    # we search for k cells per read head
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    for batch in range(b):
-												finally no nans :relief:

											
										
										
											2017-11-30 22:37:52 +08:00
+								      distances, positions = indexes[batch].search(keys[batch])
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								      read_positions.append(T.clamp(positions, 0, self.mem_size - 1))
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    read_positions = T.stack(read_positions, 0)
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    # add least used mem to read positions
 								    # TODO: explore possibility of reading co-locations or ranges and such
 								    (b, r, k) = read_positions.size()
-												Get SDNC to work with FAISS, much faster

											
										
										
											2017-11-30 17:24:51 +08:00
+								    read_positions = var(read_positions)
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								    read_positions = T.cat([read_positions.view(b, -1), least_used_mem], 1)
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    # differentiable ops
-												progressively make things differentiable

											
										
										
											2017-12-04 04:18:03 +08:00
+								    (b, m, w) = memory.size()
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    visible_memory = memory.gather(1, read_positions.unsqueeze(2).expand(b, r*k+1, w))
-												Get debugging working and initialize properly

											
										
										
											2017-12-09 20:58:59 +08:00
+								    read_weights = σ(θ(visible_memory, keys), 2)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    read_vectors = T.bmm(read_weights, visible_memory)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    read_weights = T.prod(read_weights, 1)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    return read_vectors, read_positions, read_weights, visible_memory
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												writing part of temporal links

											
										
										
											2017-12-11 06:12:45 +08:00
+								  # def
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								  def read(self, read_query, hidden):
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
+								    # sparse read
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    read_vectors, positions, read_weights, visible_memory = \
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								        self.read_from_sparse_memory(
 								          hidden['memory'],
 								          hidden['indexes'],
 								          read_query,
-												fix all tests

											
										
										
											2017-12-11 02:51:30 +08:00
+								          hidden['least_used_mem'],
-												various tweaks, influence distinct write positions, condition read weights with usage

											
										
										
											2017-12-06 17:19:52 +08:00
+								          hidden['usage']
 								        )
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
-												save work

											
										
										
											2017-11-27 14:32:41 +08:00
+								    hidden['read_positions'] = positions
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								    hidden['read_weights'] = hidden['read_weights'].scatter_(1, positions, read_weights)
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								    hidden['read_vectors'] = read_vectors
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    hidden['visible_memory'] = visible_memory
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    return hidden['read_vectors'], hidden
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								  def forward(self, ξ, hidden):
-												Use FAISS instead of FLANN

											
										
										
											2017-11-29 18:11:50 +08:00
+								    t = time.time()
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
 								    # ξ = ξ.detach()
 								    m = self.mem_size
 								    w = self.cell_size
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								    r = self.read_heads
 								    c = r * self.K + 1
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								    b = ξ.size()[0]
 								    if self.independent_linears:
 								      # r read keys (b * r * w)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      read_query = self.read_query_transform(ξ).view(b, r, w)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      # write key (b * 1 * w)
 								      write_vector = self.write_vector_transform(ξ).view(b, 1, w)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      # write vector (b * 1 * r)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								      interpolation_gate = F.sigmoid(self.interpolation_gate_transform(ξ)).view(b, c)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      # write gate (b * 1)
 								      write_gate = F.sigmoid(self.write_gate_transform(ξ).view(b, 1))
 								    else:
 								      ξ = self.interface_weights(ξ)
-												Rewrite sdnc, more read heads

											
										
										
											2017-12-07 19:29:51 +08:00
+								      # r read keys (b * r * w)
 								      read_query = ξ[:, :r*w].contiguous().view(b, r, w)
 								      # write key (b * 1 * w)
 								      write_vector = ξ[:, r*w: r*w + w].contiguous().view(b, 1, w)
 								      # write vector (b * 1 * r)
-												More differentiablity considering the network can read from a view of a larger memory

											
										
										
											2017-12-09 17:53:29 +08:00
+								      interpolation_gate = F.sigmoid(ξ[:, r*w + w: r*w + w + c]).contiguous().view(b, c)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
+								      # write gate (b * 1)
-												FLANN read

											
										
										
											2017-11-27 16:21:17 +08:00
+								      write_gate = F.sigmoid(ξ[:, -1].contiguous()).unsqueeze(1).view(b, 1)
-												Commit to keep track of changes

											
										
										
											2017-11-24 19:11:19 +08:00
-												implement usage

											
										
										
											2017-12-03 19:39:59 +08:00
+								    self.timestep += 1
-												Write

											
										
										
											2017-11-28 02:14:21 +08:00
+								    hidden = self.write(interpolation_gate, write_vector, write_gate, hidden)
 								    return self.read(read_query, hidden)