Idle talk extraction system, method and program for extracting idle talk parts from conversation
    1.
    发明专利
    Idle talk extraction system, method and program for extracting idle talk parts from conversation 有权
    空闲提拉系统,从对话中提取空闲零件的方法和程序

    公开(公告)号:JP2013145429A

    公开(公告)日:2013-07-25

    申请号:JP2012004802

    申请日:2012-01-13

    CPC classification number: G06F17/3053 G06F17/2785 Y10S707/99933

    Abstract: PROBLEM TO BE SOLVED: To provide a technique for extracting idle talk parts from a conversation.SOLUTION: An idle talk extraction system for extracting idle talks from a conversation comprises: a first corpus including documents in a plurality of fields; a second corpus including only documents in a field to which the conversation belongs; a determination part to determine as a lower limit subject word a word for which an idf value for the first corpus and an idf value for the second corpus are each below a first prescribed threshold value, for words included in the second corpus; a score calculation part to calculate as a score a tf-idf value for each word included in the second corpus and, for the lower limit subject word, use a constant set as a lower limit instead of the tf-idf value; a clipping part to sequentially cut out intervals to be processed, from text data of contents of the conversation; and an extraction part to extract as an idle talk part an interval where an average value of the score of words included in the interval is larger than a second prescribed threshold value.

    Abstract translation: 要解决的问题:提供从会话中提取空闲谈话部分的技术。解决方案:一种用于从会话中提取空闲会话的空闲谈话提取系统包括:包括多个字段中的文档的第一语料库; 第二语料库,仅包括会话所属领域的文件; 确定部分,用于将包含在第二语料库中的单词确定为第一语料库的idf值和第二语料库的idf值的单词低于第一规定阈值的下限主题词语的单词; 分数计算部分,用于计算包括在第二语料库中的每个单词的tf-idf值作为分数,并且对于下限主题词,使用常数集作为下限而不是tf-idf值; 剪切部分,从会话的内容的文本数据中顺序地切出待处理的间隔; 以及提取部分,作为空闲谈话部分提取包括在所述间隔中的词的分数的平均值大于第二规定阈值的间隔。

    System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch

    公开(公告)号:DE102012224488A1

    公开(公告)日:2013-07-18

    申请号:DE102012224488

    申请日:2012-12-28

    Applicant: IBM

    Abstract: Problem Eine Technologie zur Entnahme eines themenfremden Teils aus einem Gespräch bereitzustellen. Lösungsmittel Das System zur Entnahme eines themenfremden Teils zur Entnahme eines themenfremden Teils aus einem Gespräch beinhaltet: einen ersten Korpus, der Dokumente aus einer Vielzahl von Gebieten enthält; einen zweiten Korpus, der nur Dokumente aus einem Gebiet enthält, zu dem das Gespräch gehört; ein Ermittlungsmittel zur Ermittlung eines Wortes als ein Untergrenzengegenstandswort, für das der IDF-Wert für den ersten Korpus und der IDF-Wert für den zweiten Korpus jeweils unterhalb eines ersten bestimmten Schwellenwerts liegen; ein Anzahlberechnungsteil zur Berechnung eines TF-IDF-Wertes als Anzahl für jedes im vorgenannten zweiten Korpus enthaltene Wort, wobei der vorgenannte Anzahlberechnungsteil für das vorgenannte Untergrenzengegenstandswort eine konstante Einstellung einer Untergrenze anstelle eines TF-IDF-Wertes verwendet; ein Herausschneideteil zum sequenziellen Herausschneiden von der Verarbeitung unterzogenen Intervallen aus den Textdaten, die den Inhalt des vorgenannten Gesprächs darstellen; und ein Entnahmeteil zur Entnahme eines Intervalls, bei dem der Durchschnittswert der in dem vorgenannten herausgeschnittenen Intervall enthaltenen vorgenannten Anzahl von Wörtern größer ist als ein zweiter bestimmter Schwellenwert, als themenfremden Teil.

Patent Agency Ranking