��ࡱ�>�� .%����-��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
�(����
��/�0��L�DTimes New Roman����̵��0����0�
@�n��?" dd@��������� @@``�����`,"
c�$�����@������>��g��44d4d����0��Bx 8�������p�pp�@<��4BdBd�?��B
2���g��4'd'd����0��Bx ��������p�@p�p?��%O��=�U
���Data Mining and the Web��xSusan Dumais
Microsoft Research
KDD 97 Panel - Aug 17, 1997���The Web as a Text Database��BIG and doubling every year
70 million observations (urls)
50 million variables (words)
very sparse
BAD and UGLY
uncontrolled quality, widely distributed, rapidly changing, heterogeneous/complex data types, no consistent semantics or structure within or across objects, etc.�LH
�H
��5����* Data Mining the Web���Today:
Search and meta-search engines
Hand-crafted hierarchies
Special-purpose information discovery and extraction algorithms (e.g., home pages, authority pages, interesting pages, fun cities)�$�����
��Data Mining the Web��7To Come:
Inter-document associations uncovered by:
Automatic classification
Generating fixed or ad hoc structures (e.g., clustering)
Exploring similarity neighborhoods (e.g., visualization)
Highly interactive interfaces
Analysis of interrelations among objects
Interest specification/Query formulation problem
�l *�Z *�Z���What we Need to Get There��GBetter Text Mining Tools (for the Web)
Robust, scalable methods for feature selection - word statistics, learned indexing features, tags
Integration w/ databases
Web mining services (rich API to Web indices)
Model/Pattern specification and summarization
Content/topical interests
Patterns of interest - new, different, central�Z'�I'QJI� ��What we Need to Get There��Going Beyond Text
Metadata
Date, size, author, site, time etc.
Structure - reflects prior human knowledge
Link structure (in-links, out-links)
People - individually and collectively
Ratings/preferences
User models, usage patterns
Integration of the above�� $+%'1 $+%'1��/��
��u� `� ������̙33�������`� ��������������`� ���ff3��3�3�3���f`� ���333������MMM���`� ��������f������`� ���������f���`� ������3�����������>��?" dd@���������,�|��?" dd�@��������� � � �" �@� �`��� �n��?" dd@��������� @@``��P�R @ ` �`�p�>��>�����c�( �����������������
���
�
��6���N������ ����P��N
�T�� Click to edit Master title style�!�
!�
�
��0�$�N����� ������N
���RClick to edit Master text styles
Second level
Third level
Fourth level
Fifth level�!
�
S�
�
��0���N����� �`�`���N
�=��*���
�
��0���N����� �`����� N
�?��*���
�
��0�D�N����� �` ����N
�?��*���H
���0�������h�� ?� ������̙33�����������0��0�$�.�( ��N��M�
�$��
�$
��0���N����� �P ��
N
�Y��*�����
�$
��0�$�N����� �� � ��N
�[��*����d
�$
c�$��� ?���
��N�
�$
��0���N����� ��
@����N
���RClick to edit Master text styles
Second level
Third level
Fourth level
Fifth level�!
�
S��
�$
��6�dbN������ �`P��� N
�Y��*�����
�$
��6�hN������ �`� ����N
�[��*����H
�$��0���h������ ?� ������̙33��������������@���( �
��l
� C��DgN���`��`��N
���l
� C���gN���� ` `���
���H
���0�������h�� ?� ������̙33����������
����`���( �����
��l
� C�����������P��
���l
� C��t����������
���H
���0�������h�� ?� ������̙33����������
��������( ��t@�B@
��l
� C��� z������P��
���l
� C���&z��������
���H
���0�������h�� ?� ������̙33����������
���� ���( �T�n0
��l
� C����N������P��
N
���l
� C���N��������N
���H
���0�������h�� ?� ������̙33����������
������ �$�( ��t@
� �r
� S�����������P��
���r
� S�������������
���H
� ��0�������h�� ?� ������̙33����������
��������( ��P�
��l
� C����������P��
���l
� C�����������
���H
���0�������h�� ?� ������̙33����������0��xP�(��( �
�(�R
�( 3���$���
��z�~
�( C��4����$��
@����
���
�H
�(��0���h������ ?� ������̙33�������r40jJ`* �%
"�#��'��
~)
�������Oh��+'��0@hp��� ��
��
��Data Mining and the Web tatasdumais31mMicrosoft PowerPointeb@@s�[�@P�I"���@ �dd�ǼG&����oM 0&������ &����&#����TNPP��0�z
&
TNPP� &����&TNPP��
����-�-- !���-����-��-&����G��&�����d
5!��w*��w�g�wd
5
- &����G�y�&���� �--y�H-- ����Times New Roman*��w�g�w&
-� .*2
��Data Mining and the Web*57.--�1��-- ����Times New Roman*��w�g�wd
6
-� .2
�fSusan Dumais!. ."2
9Microsoft Research&. .02
~�KDD�97 Panel - Aug 17, 1997
.--��"SystemwK f��
�
-�&TNPP &��������՜.��+,��D��՜.��+,���D������� �
�����
��On-screen Show -s�),�
Times New RomanDefault DesignData Mining and the WebThe Web as a Text Database�Data Mining� the WebData Mining the WebWhat we Need to Get ThereWhat we Need to Get ThereFonts UsedDesign Template
Slide Titles� 6>
_PID_GUID�AN{86EA3892-336E-11D1-9C46-006008166E1E}���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������_���)���sdumais
�������� !"#$����������������������������������������/������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Root Entry�,��,��,�V�,V�VV��V��V��V���,��V������������������d�O�����)�,�V����@�kȼ&@�,��Current UserV�������������,��V�����������,��V����������������444<<<<�4���X��XuPowerPoint Document9 ��$=�J�Ȉ�$�I�~(�����'N�!�ȉ'��B�a���抃�'+���GN�8�)L�iDocumentSummaryInformationʨ!�?�P"8������������Չ����������l�4�]�o�d@H(�!��xI�*��>�����Y@+"kЏ���ܼ���EF���E�ɷ����
P�"�!|��3X��U���K�������������E�_��.BF�v��J8�dAH�,��!e�Я"�?�Og��ԡ�g�K~��-aUe���ʒ�8Ѻ���e��j��mۨNXU$�QeF%[VXו�}������#�:����������������,��%.e[%/��-��B��?����������������Z}O�����cنCeh�G��NO�?�U~��ݪ�+��i��1�f_�