Abstract:
PROBLEM TO BE SOLVED: To provide a technique for extracting idle talk parts from a conversation.SOLUTION: An idle talk extraction system for extracting idle talks from a conversation comprises: a first corpus including documents in a plurality of fields; a second corpus including only documents in a field to which the conversation belongs; a determination part to determine as a lower limit subject word a word for which an idf value for the first corpus and an idf value for the second corpus are each below a first prescribed threshold value, for words included in the second corpus; a score calculation part to calculate as a score a tf-idf value for each word included in the second corpus and, for the lower limit subject word, use a constant set as a lower limit instead of the tf-idf value; a clipping part to sequentially cut out intervals to be processed, from text data of contents of the conversation; and an extraction part to extract as an idle talk part an interval where an average value of the score of words included in the interval is larger than a second prescribed threshold value.
Abstract:
Problem Eine Technologie zur Entnahme eines themenfremden Teils aus einem Gespräch bereitzustellen. Lösungsmittel Das System zur Entnahme eines themenfremden Teils zur Entnahme eines themenfremden Teils aus einem Gespräch beinhaltet: einen ersten Korpus, der Dokumente aus einer Vielzahl von Gebieten enthält; einen zweiten Korpus, der nur Dokumente aus einem Gebiet enthält, zu dem das Gespräch gehört; ein Ermittlungsmittel zur Ermittlung eines Wortes als ein Untergrenzengegenstandswort, für das der IDF-Wert für den ersten Korpus und der IDF-Wert für den zweiten Korpus jeweils unterhalb eines ersten bestimmten Schwellenwerts liegen; ein Anzahlberechnungsteil zur Berechnung eines TF-IDF-Wertes als Anzahl für jedes im vorgenannten zweiten Korpus enthaltene Wort, wobei der vorgenannte Anzahlberechnungsteil für das vorgenannte Untergrenzengegenstandswort eine konstante Einstellung einer Untergrenze anstelle eines TF-IDF-Wertes verwendet; ein Herausschneideteil zum sequenziellen Herausschneiden von der Verarbeitung unterzogenen Intervallen aus den Textdaten, die den Inhalt des vorgenannten Gesprächs darstellen; und ein Entnahmeteil zur Entnahme eines Intervalls, bei dem der Durchschnittswert der in dem vorgenannten herausgeschnittenen Intervall enthaltenen vorgenannten Anzahl von Wörtern größer ist als ein zweiter bestimmter Schwellenwert, als themenfremden Teil.