pytorch-dnc/dnc/sparse_memory.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import torch.nn as nn
import torch as T
from torch.autograd import Variable as var
import torch.nn.functional as F
import numpy as np
import math

from .indexes import Index
from .util import *
import time


class SparseMemory(nn.Module):

  def __init__(
      self,
      input_size,
      mem_size=512,
      cell_size=32,
      independent_linears=True,
      read_heads=4,
      sparse_reads=10,
      num_lists=None,
      index_checks=32,
      gpu_id=-1,
      mem_gpu_id=-1
  ):
    super(SparseMemory, self).__init__()

    self.mem_size = mem_size
    self.cell_size = cell_size
    self.gpu_id = gpu_id
    self.mem_gpu_id = mem_gpu_id
    self.input_size = input_size
    self.independent_linears = independent_linears
    self.K = sparse_reads if self.mem_size > sparse_reads else self.mem_size
    self.read_heads = read_heads
    self.num_lists = num_lists if num_lists is not None else int(self.mem_size / 100)
    self.index_checks = index_checks

    m = self.mem_size
    w = self.cell_size
    r = self.read_heads
    c = r * self.K + 1

    if self.independent_linears:
      self.read_query_transform = nn.Linear(self.input_size, w*r)
      self.write_vector_transform = nn.Linear(self.input_size, w)
      self.interpolation_gate_transform = nn.Linear(self.input_size, c)
      self.write_gate_transform = nn.Linear(self.input_size, 1)
    else:
      self.interface_size = (r * w) + w + c + 1
      self.interface_weights = nn.Linear(self.input_size, self.interface_size)

    self.I = cuda(1 - T.eye(m).unsqueeze(0), gpu_id=self.gpu_id)  # (1 * n * n)
    self.δ = 0.005  # minimum usage
    self.timestep = 0

  def rebuild_indexes(self, hidden, erase=False):
    b = hidden['memory'].size(0)

    # if indexes already exist, we reset them
    if 'indexes' in hidden:
      [x.reset() for x in hidden['indexes']]
    else:
      # create new indexes
      hidden['indexes'] = \
          [Index(cell_size=self.cell_size,
                 nr_cells=self.mem_size, K=self.K, num_lists=self.num_lists,
                 probes=self.index_checks, gpu_id=self.mem_gpu_id) for x in range(b)]

    # add existing memory into indexes
    pos = hidden['read_positions'].squeeze().data.cpu().numpy()
    if not erase:
      for n, i in enumerate(hidden['indexes']):
        i.reset()
        i.add(hidden['memory'][n], last=pos[n][-1])
    else:
      self.timestep = 0

    return hidden

  def reset(self, batch_size=1, hidden=None, erase=True):
    m = self.mem_size
    w = self.cell_size
    b = batch_size
    r = self.read_heads
    c = r * self.K + 1

    if hidden is None:
      hidden = {
          # warning can be a huge chunk of contiguous memory
          'memory': cuda(T.zeros(b, m, w).fill_(δ), gpu_id=self.mem_gpu_id),
          'visible_memory': cuda(T.zeros(b, c, w).fill_(δ), gpu_id=self.mem_gpu_id),
          'read_weights': cuda(T.zeros(b, r, c).fill_(δ), gpu_id=self.gpu_id),
          'write_weights': cuda(T.zeros(b, 1, c).fill_(δ), gpu_id=self.gpu_id),
          'read_vectors': cuda(T.zeros(b, r, w).fill_(δ), gpu_id=self.gpu_id),
          'last_used_mem': cuda(T.zeros(b, 1).fill_(δ), gpu_id=self.gpu_id).long(),
          'usage': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),
          'read_positions': cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()
      }
      hidden = self.rebuild_indexes(hidden, erase=True)
    else:
      hidden['memory'] = hidden['memory'].clone()
      hidden['visible_memory'] = hidden['visible_memory'].clone()
      hidden['read_weights'] = hidden['read_weights'].clone()
      hidden['write_weights'] = hidden['write_weights'].clone()
      hidden['read_vectors'] = hidden['read_vectors'].clone()
      hidden['last_used_mem'] = hidden['last_used_mem'].clone()
      hidden['usage'] = hidden['usage'].clone()
      hidden['read_positions'] = hidden['read_positions'].clone()
      hidden = self.rebuild_indexes(hidden, erase)

      if erase:
        hidden['memory'].data.fill_(δ)
        hidden['visible_memory'].data.fill_(δ)
        hidden['read_weights'].data.fill_(δ)
        hidden['write_weights'].data.fill_(δ)
        hidden['read_vectors'].data.fill_(δ)
        hidden['last_used_mem'].data.fill_(0)
        hidden['usage'].data.fill_(δ)
        hidden['read_positions'] = cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()
    return hidden

  def write_into_sparse_memory(self, hidden):
    visible_memory = hidden['visible_memory']
    positions = hidden['read_positions'].squeeze()

    (b, m, w) = hidden['memory'].size()
    # update memory
    hidden['memory'].scatter_(1, positions, visible_memory)

    # non-differentiable operations
    pos = positions.data.cpu().numpy()
    for b in range(positions.size(0)):
      # update indexes
      hidden['indexes'][b].reset()
      hidden['indexes'][b].add(hidden['memory'][b], last=pos[b][-1])
      hidden['last_used_mem'][b] = (int(pos[b][-1]) + 1) if (pos[b][-1] + 1) < self.mem_size else 0

    return hidden

  def write(self, interpolation_gate, write_vector, write_gate, hidden):

    hidden['usage'], I = self.update_usage(
        hidden['read_positions'],
        hidden['read_weights'],
        hidden['write_weights'],
        hidden['usage']
    )

    # either we write to previous read locations
    x = interpolation_gate * hidden['read_weights']
    # or to a new location
    y = (1 - interpolation_gate) * I
    hidden['write_weights'] = T.prod(write_gate.unsqueeze(1) * (x + y), 1)

    # no erasing and hence no erase matrix R_{t}
    hidden['visible_memory'] = hidden['visible_memory'] + T.bmm(hidden['write_weights'].unsqueeze(2), write_vector)
    # hidden = self.write_into_sparse_memory(hidden)

    return hidden

  def update_usage(self, read_positions, read_weights, write_weights, usage):
    (b, _) = read_positions.size()
    # usage is timesteps since a non-negligible memory access
    # todo store write weights of all mem and gather from that
    u = (read_weights.sum(1) + write_weights.squeeze() > self.δ).float().view(b, -1)

    # usage before write
    relevant_usages = usage.gather(1, read_positions)

    # indicator of words with minimal memory usage
    minusage = T.min(relevant_usages, -1)[0].unsqueeze(1)
    minusage = minusage.expand(relevant_usages.size())
    I = (relevant_usages == minusage).float().unsqueeze(1)

    # usage after write
    relevant_usages = (self.timestep - relevant_usages) * u + relevant_usages * (1 - u)

    usage.scatter_(1, read_positions, relevant_usages)

    return usage, I

  def read_from_sparse_memory(self, memory, indexes, keys, last_used_mem, usage):
    b = keys.size(0)
    read_positions = []

    # we search for k cells per read head
    for batch in range(b):
      distances, positions = indexes[batch].search(keys[batch])
      read_positions.append(T.clamp(positions, 0, self.mem_size - 1))
    read_positions = T.stack(read_positions, 0)

    # add least used mem to read positions
    # TODO: explore possibility of reading co-locations or ranges and such
    (b, r, k) = read_positions.size()
    read_positions = var(read_positions)
    read_positions = T.cat([read_positions.view(b, -1), last_used_mem], 1)

    (b, m, w) = memory.size()
    visible_memory = memory.gather(1, read_positions.unsqueeze(2).expand(b, r*k+1, w))

    read_weights = F.softmax(θ(visible_memory, keys), dim=2)
    read_vectors = T.bmm(read_weights, visible_memory)

    return read_vectors, read_positions, read_weights, visible_memory

  def read(self, read_query, hidden):
    # sparse read
    read_vectors, positions, read_weights, visible_memory = \
        self.read_from_sparse_memory(
          hidden['memory'],
          hidden['indexes'],
          read_query,
          hidden['last_used_mem'],
          hidden['usage']
        )
    hidden['read_positions'] = positions
    hidden['read_weights'] = read_weights
    hidden['read_vectors'] = read_vectors
    hidden['visible_memory'] = visible_memory

    return hidden['read_vectors'], hidden

  def forward(self, ξ, hidden):
    t = time.time()

    # ξ = ξ.detach()
    m = self.mem_size
    w = self.cell_size
    r = self.read_heads
    c = r * self.K + 1
    b = ξ.size()[0]

    if self.independent_linears:
      # r read keys (b * r * w)
      read_query = self.read_query_transform(ξ).view(b, r, w)
      # write key (b * 1 * w)
      write_vector = self.write_vector_transform(ξ).view(b, 1, w)
      # write vector (b * 1 * r)
      interpolation_gate = F.sigmoid(self.interpolation_gate_transform(ξ)).view(b, 1, c)
      # write gate (b * 1)
      write_gate = F.sigmoid(self.write_gate_transform(ξ).view(b, 1))
    else:
      ξ = self.interface_weights(ξ)
      # r read keys (b * r * w)
      read_query = ξ[:, :r*w].contiguous().view(b, r, w)
      # write key (b * 1 * w)
      write_vector = ξ[:, r*w: r*w + w].contiguous().view(b, 1, w)
      # write vector (b * 1 * r)
      interpolation_gate = F.sigmoid(ξ[:, r*w + w: r*w + w + c]).contiguous().view(b, 1, c)
      # write gate (b * 1)
      write_gate = F.sigmoid(ξ[:, -1].contiguous()).unsqueeze(1).view(b, 1)

    self.timestep += 1
    hidden = self.write(interpolation_gate, write_vector, write_gate, hidden)
    return self.read(read_query, hidden)
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`#!/usr/bin/env python3`
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00			`# -- coding: utf-8 --`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`import torch.nn as nn`
			`import torch as T`
			`from torch.autograd import Variable as var`
			`import torch.nn.functional as F`
			`import numpy as np`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`import math`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`from .indexes import Index`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`from .util import *`
Use FAISS instead of FLANN 2017-11-29 18:11:50 +08:00			`import time`
FLANN read 2017-11-27 16:21:17 +08:00
implement usage 2017-12-03 19:39:59 +08:00
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`class SparseMemory(nn.Module):`

			`def __init__(`
FLANN read 2017-11-27 16:21:17 +08:00			`self,`
			`input_size,`
			`mem_size=512,`
			`cell_size=32,`
			`independent_linears=True,`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`read_heads=4,`
			`sparse_reads=10,`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`num_lists=None,`
FLANN read 2017-11-27 16:21:17 +08:00			`index_checks=32,`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`gpu_id=-1,`
			`mem_gpu_id=-1`
FLANN read 2017-11-27 16:21:17 +08:00			`):`
			`super(SparseMemory, self).__init__()`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`self.mem_size = mem_size`
			`self.cell_size = cell_size`
			`self.gpu_id = gpu_id`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`self.mem_gpu_id = mem_gpu_id`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`self.input_size = input_size`
			`self.independent_linears = independent_linears`
FLANN read 2017-11-27 16:21:17 +08:00			`self.K = sparse_reads if self.mem_size > sparse_reads else self.mem_size`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`self.read_heads = read_heads`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`self.num_lists = num_lists if num_lists is not None else int(self.mem_size / 100)`
save work 2017-11-27 14:32:41 +08:00			`self.index_checks = index_checks`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`m = self.mem_size`
			`w = self.cell_size`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`r = self.read_heads`
			`c = r * self.K + 1`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`if self.independent_linears:`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`self.read_query_transform = nn.Linear(self.input_size, w*r)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`self.write_vector_transform = nn.Linear(self.input_size, w)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`self.interpolation_gate_transform = nn.Linear(self.input_size, c)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`self.write_gate_transform = nn.Linear(self.input_size, 1)`
			`else:`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`self.interface_size = (r * w) + w + c + 1`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`self.interface_weights = nn.Linear(self.input_size, self.interface_size)`

			`self.I = cuda(1 - T.eye(m).unsqueeze(0), gpu_id=self.gpu_id) # (1 * n * n)`
implement usage 2017-12-03 19:39:59 +08:00			`self.δ = 0.005 # minimum usage`
			`self.timestep = 0`
save work 2017-11-27 14:32:41 +08:00
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00			`def rebuild_indexes(self, hidden, erase=False):`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`b = hidden['memory'].size(0)`
save work 2017-11-27 14:32:41 +08:00
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00			`# if indexes already exist, we reset them`
			`if 'indexes' in hidden:`
implement usage 2017-12-03 19:39:59 +08:00			`[x.reset() for x in hidden['indexes']]`
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00			`else:`
			`# create new indexes`
			`hidden['indexes'] = \`
implement usage 2017-12-03 19:39:59 +08:00			`[Index(cell_size=self.cell_size,`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`nr_cells=self.mem_size, K=self.K, num_lists=self.num_lists,`
implement usage 2017-12-03 19:39:59 +08:00			`probes=self.index_checks, gpu_id=self.mem_gpu_id) for x in range(b)]`
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00
			`# add existing memory into indexes`
Reload only used part of the indedx 2017-12-06 23:44:16 +08:00			`pos = hidden['read_positions'].squeeze().data.cpu().numpy()`
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00			`if not erase:`
implement usage 2017-12-03 19:39:59 +08:00			`for n, i in enumerate(hidden['indexes']):`
Reload only used part of the indedx 2017-12-06 23:44:16 +08:00			`i.reset()`
			`i.add(hidden['memory'][n], last=pos[n][-1])`
implement usage 2017-12-03 19:39:59 +08:00			`else:`
			`self.timestep = 0`
reset indexes instead of creating new ones 2017-12-02 14:32:55 +08:00
save work 2017-11-27 14:32:41 +08:00			`return hidden`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`def reset(self, batch_size=1, hidden=None, erase=True):`
			`m = self.mem_size`
			`w = self.cell_size`
			`b = batch_size`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`r = self.read_heads`
			`c = r * self.K + 1`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`if hidden is None:`
FLANN read 2017-11-27 16:21:17 +08:00			`hidden = {`
save work 2017-11-27 14:32:41 +08:00			`# warning can be a huge chunk of contiguous memory`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`'memory': cuda(T.zeros(b, m, w).fill_(δ), gpu_id=self.mem_gpu_id),`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`'visible_memory': cuda(T.zeros(b, c, w).fill_(δ), gpu_id=self.mem_gpu_id),`
			`'read_weights': cuda(T.zeros(b, r, c).fill_(δ), gpu_id=self.gpu_id),`
			`'write_weights': cuda(T.zeros(b, 1, c).fill_(δ), gpu_id=self.gpu_id),`
Write 2017-11-28 02:14:21 +08:00			`'read_vectors': cuda(T.zeros(b, r, w).fill_(δ), gpu_id=self.gpu_id),`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`'last_used_mem': cuda(T.zeros(b, 1).fill_(δ), gpu_id=self.gpu_id).long(),`
			`'usage': cuda(T.zeros(b, m).fill_(δ), gpu_id=self.gpu_id),`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`'read_positions': cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`}`
implement usage 2017-12-03 19:39:59 +08:00			`hidden = self.rebuild_indexes(hidden, erase=True)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`else:`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`hidden['memory'] = hidden['memory'].clone()`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['visible_memory'] = hidden['visible_memory'].clone()`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`hidden['read_weights'] = hidden['read_weights'].clone()`
			`hidden['write_weights'] = hidden['write_weights'].clone()`
Write 2017-11-28 02:14:21 +08:00			`hidden['read_vectors'] = hidden['read_vectors'].clone()`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`hidden['last_used_mem'] = hidden['last_used_mem'].clone()`
implement usage 2017-12-03 19:39:59 +08:00			`hidden['usage'] = hidden['usage'].clone()`
			`hidden['read_positions'] = hidden['read_positions'].clone()`
Remove redundant code 2017-12-04 23:41:30 +08:00			`hidden = self.rebuild_indexes(hidden, erase)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`if erase:`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`hidden['memory'].data.fill_(δ)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['visible_memory'].data.fill_(δ)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`hidden['read_weights'].data.fill_(δ)`
			`hidden['write_weights'].data.fill_(δ)`
Write 2017-11-28 02:14:21 +08:00			`hidden['read_vectors'].data.fill_(δ)`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`hidden['last_used_mem'].data.fill_(0)`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`hidden['usage'].data.fill_(δ)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['read_positions'] = cuda(T.arange(0, c).expand(b, c), gpu_id=self.gpu_id).long()`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`return hidden`

Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`def write_into_sparse_memory(self, hidden):`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`visible_memory = hidden['visible_memory']`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`positions = hidden['read_positions'].squeeze()`

progressively make things differentiable 2017-12-04 04:18:03 +08:00			`(b, m, w) = hidden['memory'].size()`
			`# update memory`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['memory'].scatter_(1, positions, visible_memory)`
progressively make things differentiable 2017-12-04 04:18:03 +08:00
			`# non-differentiable operations`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`pos = positions.data.cpu().numpy()`
			`for b in range(positions.size(0)):`
			`# update indexes`
Cannot overwrite memory, reset and write entire memory, will make it slower 2017-12-06 20:04:46 +08:00			`hidden['indexes'][b].reset()`
Reload only used part of the indedx 2017-12-06 23:44:16 +08:00			`hidden['indexes'][b].add(hidden['memory'][b], last=pos[b][-1])`
finally no nans :relief: 2017-11-30 22:37:52 +08:00			`hidden['last_used_mem'][b] = (int(pos[b][-1]) + 1) if (pos[b][-1] + 1) < self.mem_size else 0`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00
Write 2017-11-28 02:14:21 +08:00			`return hidden`

			`def write(self, interpolation_gate, write_vector, write_gate, hidden):`

implement usage 2017-12-03 19:39:59 +08:00			`hidden['usage'], I = self.update_usage(`
			`hidden['read_positions'],`
			`hidden['read_weights'],`
			`hidden['write_weights'],`
			`hidden['usage']`
			`)`

Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# either we write to previous read locations`
finally no nans :relief: 2017-11-30 22:37:52 +08:00			`x = interpolation_gate * hidden['read_weights']`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# or to a new location`
implement usage 2017-12-03 19:39:59 +08:00			`y = (1 - interpolation_gate) * I`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['write_weights'] = T.prod(write_gate.unsqueeze(1) * (x + y), 1)`
Write 2017-11-28 02:14:21 +08:00
			`# no erasing and hence no erase matrix R_{t}`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['visible_memory'] = hidden['visible_memory'] + T.bmm(hidden['write_weights'].unsqueeze(2), write_vector)`
			`# hidden = self.write_into_sparse_memory(hidden)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`return hidden`

implement usage 2017-12-03 19:39:59 +08:00			`def update_usage(self, read_positions, read_weights, write_weights, usage):`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`(b, _) = read_positions.size()`
implement usage 2017-12-03 19:39:59 +08:00			`# usage is timesteps since a non-negligible memory access`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# todo store write weights of all mem and gather from that`
			`u = (read_weights.sum(1) + write_weights.squeeze() > self.δ).float().view(b, -1)`
implement usage 2017-12-03 19:39:59 +08:00
			`# usage before write`
progressively make things differentiable 2017-12-04 04:18:03 +08:00			`relevant_usages = usage.gather(1, read_positions)`
implement usage 2017-12-03 19:39:59 +08:00
			`# indicator of words with minimal memory usage`
			`minusage = T.min(relevant_usages, -1)[0].unsqueeze(1)`
			`minusage = minusage.expand(relevant_usages.size())`
			`I = (relevant_usages == minusage).float().unsqueeze(1)`

			`# usage after write`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`relevant_usages = (self.timestep - relevant_usages) * u + relevant_usages * (1 - u)`
implement usage 2017-12-03 19:39:59 +08:00
progressively make things differentiable 2017-12-04 04:18:03 +08:00			`usage.scatter_(1, read_positions, relevant_usages)`
implement usage 2017-12-03 19:39:59 +08:00
			`return usage, I`

various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`def read_from_sparse_memory(self, memory, indexes, keys, last_used_mem, usage):`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`b = keys.size(0)`
Sparse reads barebones 2017-11-27 18:28:14 +08:00			`read_positions = []`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# we search for k cells per read head`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`for batch in range(b):`
finally no nans :relief: 2017-11-30 22:37:52 +08:00			`distances, positions = indexes[batch].search(keys[batch])`
implement usage 2017-12-03 19:39:59 +08:00			`read_positions.append(T.clamp(positions, 0, self.mem_size - 1))`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`read_positions = T.stack(read_positions, 0)`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# add least used mem to read positions`
			`# TODO: explore possibility of reading co-locations or ranges and such`
			`(b, r, k) = read_positions.size()`
Get SDNC to work with FAISS, much faster 2017-11-30 17:24:51 +08:00			`read_positions = var(read_positions)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`read_positions = T.cat([read_positions.view(b, -1), last_used_mem], 1)`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00
progressively make things differentiable 2017-12-04 04:18:03 +08:00			`(b, m, w) = memory.size()`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`visible_memory = memory.gather(1, read_positions.unsqueeze(2).expand(b, r*k+1, w))`

			`read_weights = F.softmax(θ(visible_memory, keys), dim=2)`
			`read_vectors = T.bmm(read_weights, visible_memory)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`return read_vectors, read_positions, read_weights, visible_memory`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
Write 2017-11-28 02:14:21 +08:00			`def read(self, read_query, hidden):`
save work 2017-11-27 14:32:41 +08:00			`# sparse read`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`read_vectors, positions, read_weights, visible_memory = \`
various tweaks, influence distinct write positions, condition read weights with usage 2017-12-06 17:19:52 +08:00			`self.read_from_sparse_memory(`
			`hidden['memory'],`
			`hidden['indexes'],`
			`read_query,`
			`hidden['last_used_mem'],`
			`hidden['usage']`
			`)`
save work 2017-11-27 14:32:41 +08:00			`hidden['read_positions'] = positions`
			`hidden['read_weights'] = read_weights`
Write 2017-11-28 02:14:21 +08:00			`hidden['read_vectors'] = read_vectors`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`hidden['visible_memory'] = visible_memory`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`return hidden['read_vectors'], hidden`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`def forward(self, ξ, hidden):`
Use FAISS instead of FLANN 2017-11-29 18:11:50 +08:00			`t = time.time()`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
			`# ξ = ξ.detach()`
			`m = self.mem_size`
			`w = self.cell_size`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`r = self.read_heads`
			`c = r * self.K + 1`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`b = ξ.size()[0]`

			`if self.independent_linears:`
			`# r read keys (b * r * w)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`read_query = self.read_query_transform(ξ).view(b, r, w)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`# write key (b * 1 * w)`
			`write_vector = self.write_vector_transform(ξ).view(b, 1, w)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# write vector (b * 1 * r)`
			`interpolation_gate = F.sigmoid(self.interpolation_gate_transform(ξ)).view(b, 1, c)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`# write gate (b * 1)`
			`write_gate = F.sigmoid(self.write_gate_transform(ξ).view(b, 1))`
			`else:`
			`ξ = self.interface_weights(ξ)`
Rewrite sdnc, more read heads 2017-12-07 19:29:51 +08:00			`# r read keys (b * r * w)`
			`read_query = ξ[:, :r*w].contiguous().view(b, r, w)`
			`# write key (b * 1 * w)`
			`write_vector = ξ[:, rw: rw + w].contiguous().view(b, 1, w)`
			`# write vector (b * 1 * r)`
			`interpolation_gate = F.sigmoid(ξ[:, rw + w: rw + w + c]).contiguous().view(b, 1, c)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00			`# write gate (b * 1)`
FLANN read 2017-11-27 16:21:17 +08:00			`write_gate = F.sigmoid(ξ[:, -1].contiguous()).unsqueeze(1).view(b, 1)`
Commit to keep track of changes 2017-11-24 19:11:19 +08:00
implement usage 2017-12-03 19:39:59 +08:00			`self.timestep += 1`
Write 2017-11-28 02:14:21 +08:00			`hidden = self.write(interpolation_gate, write_vector, write_gate, hidden)`
			`return self.read(read_query, hidden)`